A extração de texto, também conhecida como extração de dados, refere-se ao procedimento de obtenção de informações de elevado valor a partir do texto. O princípio da extração de dados é a progressão da informação bruta e não estruturada; retirar informação significativa do texto. Geralmente, envolve o método de estruturação do texto de contribuição, a obtenção de padrões contidos nos dados estruturados e, em conclusão, a avaliação e análise dos resultados. Uma das principais dificuldades com os algoritmos de aprendizagem de classificação de texto é o facto de necessitarem de muitos exemplos rotulados à mão para aprenderem com precisão.