L'exploration et l'utilisation d'une énorme quantité de documents textuels est une question majeure dans le domaine de la recherche d'informations et de l'exploration de textes. Toutes les méthodes visant à trouver des groupes d'entités utilisent des mesures de similarité ou de dissimilarité. Il est nécessaire d'analyser le comportement des mesures de similarité sur les documents textuels avant de développer ou de modifier une bonne mesure de similarité pour le regroupement de documents afin de comprendre l'efficacité de la technique. Une fonction de similarité intégrée dans une fonction de critère est dans une large mesure responsable de l'analyse de la structure intrinsèque des données. Si des mesures de similarité appropriées sont utilisées avec une technique de clustering spécifique, l'efficacité et la précision de la tâche de découverte d'informations peuvent être améliorées. L'utilisation de mesures appropriées permet non seulement d'améliorer la provenance et la crédibilité de l'information récupérée, mais aussi de surmonter la complexité du processus en termes de temps et de coûts. Ce livre se concentre sur l'identification des différentes mesures de similarité pour le clustering. Une méthode impérative de mesure de la similarité entre des documents textuels est illustrée pour regrouper les documents à l'aide d'un regroupement hiérarchique et d'une méthode de sélection de caractéristiques utilisant Matlab.