À l'ère des technologies de l'information, les documents textuels se multiplient spontanément sur l'internet, les courriels, les pages web, les rapports hors ligne et en ligne, les journaux, les articles et sont stockés dans des bases de données électroniques. Des millions de nouveaux fichiers texte sont créés chaque jour, et faute de classification, les gens passent à côté de nombreuses informations qui sont utiles à plusieurs égards. Il est très difficile de maintenir et d'accéder à ces documents sans une classification adéquate et lorsqu'il y a une classification sans aucune information, on parle de clustering. Pour surmonter ces difficultés, K-means et d'autres algorithmes de regroupement anciens sont inaptes à fournir ce que l'on peut attendre des langues naturelles. En raison de la haute dimensionnalité des textes, de la présence d'indices de structure logique dans les textes et des nouvelles techniques de segmentation, on a tiré parti des progrès des algorithmes de modélisation générative des sujets, spécialement conçus pour repérer les questions dans les intervalles entre les textes et les distributions de sujets de mots codés. Compte tenu de ces limites, l'algorithme de regroupement conceptuel COBWEB a été appliqué aux données prétraitées. Pour garantir la précision des grappes, les méthodes de mesure de la précision f-measure ont été sélectionnées pour évaluer les grappes.