Na era da tecnologia da informação, os documentos textuais estão a aumentar espontaneamente na Internet, no correio eletrónico, nas páginas Web, nos relatórios offline e online, nas revistas, nos artigos e são armazenados em formato de base de dados eletrónica. Milhões de novos ficheiros de texto são criados por dia e, por falta de classificação, as pessoas perdem uma vasta informação que é útil para vários desafios. A manutenção e o acesso a esses documentos são muito difíceis sem uma classificação adequada e, quando existe uma classificação sem qualquer informação, chama-se clustering. Para ultrapassar estas dificuldades, os algoritmos K-means e outros algoritmos de clustering antigos não são adequados para dar o contributo que se espera das línguas naturais. Devido à elevada dimensão dos textos, à presença de pistas de estrutura lógica nos textos e às novas técnicas de segmentação, tirou-se partido dos avanços nos algoritmos de modelação de tópicos generativos, especificamente concebidos para detetar questões em intervalos de texto para cifrar distribuições de tópicos de palavras. Assim, tendo em conta esta limitação, o algoritmo de agrupamento concetual COBWEB foi aplicado aos dados pré-processados. Para garantir a exatidão dos clusters, foram selecionados métodos de medição da exatidão f-measure para avaliar os clusters.