Il text mining, riconosciuto anche come data mining, si riferisce alla procedura di estrazione di informazioni di alto valore da un testo. Il principio del data mining è la progressione di informazioni grezze e non strutturate; estrarre informazioni significative dal testo. In generale, il data mining prevede il metodo di strutturazione del testo, l'individuazione di modelli contenuti nei dati strutturati e, infine, la valutazione e l'analisi dei risultati. Una delle difficoltà principali degli algoritmi di apprendimento della classificazione del testo è che richiedono molti esempi etichettati a mano per essere appresi con precisione.