Im Zeitalter der Informationstechnologie nehmen Textdokumente über das Internet, E-Mail, Webseiten, Offline- und Online-Berichte, Zeitschriften und Artikel spontan zu und werden in elektronischen Datenbanken gespeichert. Millionen von neuen Textdateien werden pro Tag erstellt, durch die fehlende Klassifizierung entgehen den Menschen viele Informationen, die für verschiedene Aufgaben nützlich sind. Die Aufrechterhaltung und der Zugang zu diesen Dokumenten ist ohne eine angemessene Bewertung sehr schwierig, und wenn es eine Klassifizierung ohne jegliche Informationen gibt, nennt man das Clustering. Um solche Schwierigkeiten zu überwinden, sind K-means und andere alte Clustering-Algorithmen ungeeignet, wie man es bei natürlichen Sprachen erwarten kann. Wegen der hochdimensionalen über Texte, das Vorhandensein von logischen Struktur Hinweise innerhalb der Texte und neuartige Segmentierung Techniken haben die Vorteile der Fortschritte in der generativen Thema Modellierung Algorithmen,speziell entwickelt, um Fragen in Intervallen Text zu verschlüsseln Wort Thema Verteilungen. In Anbetracht dieser Einschränkung wurde der COBWEB-Algorithmus für konzeptionelles Clustering auf die vorverarbeiteten Daten angewendet. Um die Genauigkeit der Cluster zu gewährleisten, wurde die f-measure-Genauigkeitsmessmethode für die Bewertung der Cluster ausgewählt.