Nell'era della tecnologia dell'informazione, i documenti testuali aumentano spontaneamente su Internet, e-mail, pagine web, relazioni offline e online, riviste, articoli e vengono archiviati in formato elettronico. Ogni giorno vengono creati milioni di nuovi file di testo e, a causa della mancanza di classificazione, si perdono vaste informazioni che sono utili per diverse sfide. Mantenere e accedere a questi documenti è molto difficile senza un'adeguata classificazione e quando c'è una classificazione senza alcuna informazione si parla di clustering. Per superare queste difficoltà, K-means e altri vecchi algoritmi di clustering non sono adatti a fornire quanto ci si aspetta dalle lingue naturali. A causa dell'elevata dimensionalità dei testi, della presenza di indizi di struttura logica all'interno dei testi e di nuove tecniche di segmentazione, si sono sfruttati i progressi degli algoritmi generativi di topic modeling, specificamente progettati per individuare le domande a intervalli di testo per decifrare le distribuzioni tematiche delle parole. Tenendo conto di questa limitazione, l'algoritmo di clustering concettuale COBWEB è stato applicato ai dati pre-elaborati. Per garantire l'accuratezza dei cluster, sono stati selezionati i metodi di misurazione dell'accuratezza f-measure per la valutazione dei cluster.