O desequilíbrio das classes é um dos problemas mais difíceis para as técnicas de extração de dados e de aprendizagem automática. Os dados em aplicações do mundo real têm frequentemente uma distribuição de classes desequilibrada. Isto ocorre quando a maioria dos exemplos pertence a uma classe maioritária e poucos exemplos pertencem a uma classe minoritária. Neste caso, os classificadores padrão tendem a classificar todos os exemplos como uma classe maioritária e a ignorar completamente a classe minoritária. Para este problema, os investigadores propuseram muitas soluções, tanto a nível dos dados como a nível algorítmico. A maioria dos esforços concentra-se em problemas de classe binária. No entanto, a classe binária não é o único cenário em que o problema do desequilíbrio de classes prevalece. No caso de conjuntos de dados multi-classe, é muito mais difícil definir as classes maioritária e minoritária. Assim, a classificação multi-classe em conjuntos de dados desequilibrados continua a ser um importante tópico de investigação. No nosso livro, propusemos uma nova abordagem baseada em SOMTE (Synthetic Minority Over-sampling TEchnique) e clustering que é capaz de lidar com o problema de dados desequilibrados envolvendo múltiplas classes. Implementámos a nossa abordagem utilizando ferramentas de aprendizagem automática de código aberto: Weka e RapidMiner.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.