Ces dernières années, avec l'expansion massive de la société de l'information, le web est devenu une source précieuse d'informations pour presque tous les domaines potentiels de la connaissance. Cela a incité de nombreuses recherches à considérer le web comme un référentiel légitime pour les tâches de recherche d'informations et d'acquisition de connaissances. Le web est constitué d'une quantité massive d'informations relatives à tous les domaines possibles et sa forte redondance peut constituer une source de connaissances valable pour le calcul des similitudes. Par conséquent, les systèmes d'exploration de texte sont confrontés à une énorme quantité d'attributs. La découverte de connaissances dans les systèmes de bases de données exige que les textes d'entrée soient représentés sous la forme d'un ensemble d'attributs afin de pouvoir les traiter. La méthode de représentation des textes est connue sous le nom d'indexation des textes ou des documents, et les attributs sont appelés index. L'indexation devient une tâche critique dans l'exploration de textes car elle doit représenter l'information dans le texte avec une perte minimale de sémantique pour son utilisation future.