Negli ultimi anni, con la massiccia espansione della società dell'informazione, il web è diventato una preziosa fonte di informazioni per quasi tutti i potenziali domini della conoscenza. Ciò ha indotto molte ricerche a considerare il Web come un archivio legittimo per compiti di Information Retrieval (IR) e di acquisizione della conoscenza. Il Web è costituito da un'enorme quantità di informazioni relative a ogni possibile dominio e la sua elevata ridondanza può essere una valida fonte di conoscenza per il calcolo della similarità. Pertanto, i sistemi di text mining devono affrontare un'enorme quantità di attributi. La scoperta della conoscenza nei sistemi di database richiede che i testi in ingresso siano rappresentati come un insieme di attributi per poterli trattare. Il metodo di rappresentazione del testo è noto come indicizzazione del testo o del documento e gli attributi sono chiamati indici. L'indicizzazione diventa un compito critico nel text mining, perché deve rappresentare le informazioni del testo con la minima perdita di semantica per il loro utilizzo futuro.