El desequilibrio de clases es uno de los problemas más complejos para las técnicas de minería de datos y aprendizaje automático. Los datos de las aplicaciones del mundo real suelen tener una distribución de clases desequilibrada. Esto ocurre cuando la mayoría de los ejemplos pertenecen a una clase mayoritaria y pocos ejemplos pertenecen a una clase minoritaria. En este caso, los clasificadores estándar tienden a clasificar todos los ejemplos como clase mayoritaria e ignoran por completo la clase minoritaria. Para resolver este problema, los investigadores han propuesto numerosas soluciones, tanto a nivel de datos como algorítmico. La mayoría de los esfuerzos se concentran en los problemas de clase binaria. Sin embargo, la clase binaria no es el único escenario en el que prevalece el problema del desequilibrio de clases. En el caso de los conjuntos de datos multiclase, es mucho más difícil definir las clases mayoritaria y minoritaria. De ahí que la clasificación multiclase en conjuntos de datos desequilibrados siga siendo un importante tema de investigación. En nuestro libro, proponemos un nuevo enfoque basado en SOMTE (Synthetic Minority Over-sampling TEchnique) y clustering que es capaz de tratar el problema de los datos desequilibrados que implican múltiples clases. Implementamos nuestro enfoque utilizando herramientas de aprendizaje automático de código abierto: Weka y RapidMiner.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.