É uma disciplina que combina técnicas de Inteligência Artificial, Aprendizagem Computacional, Probabilidade, Estatística e Bases de Dados para extrair informações e conhecimentos úteis de grandes quantidades de dados, sendo uma técnica em constante evolução, que se adapta a novas necessidades e novos desafios. Pode ser definida como um processo analítico, concebido para explorar grandes quantidades de dados, com o objetivo de encontrar relações entre diferentes variáveis, a fim de as aplicar a novos conjuntos de dados.