Das Ungleichgewicht zwischen den Klassen ist eines der schwierigsten Probleme für Data-Mining- und maschinelle Lernverfahren. Die Daten in realen Anwendungen weisen oft eine unausgewogene Klassenverteilung auf. Dies ist der Fall, wenn die meisten Beispiele zu einer Mehrheitsklasse und nur wenige Beispiele zu einer Minderheitsklasse gehören. In diesem Fall neigen Standardklassifizierer dazu, alle Beispiele als Mehrheitsklasse zu klassifizieren und die Minderheitsklasse vollständig zu ignorieren. Für dieses Problem haben Forscher eine Vielzahl von Lösungen sowohl auf Daten- als auch auf algorithmischer Ebene vorgeschlagen. Die meisten Bemühungen konzentrieren sich auf Probleme mit binären Klassen. Binäre Klassen sind jedoch nicht das einzige Szenario, in dem das Problem des Klassenungleichgewichts vorherrscht. Bei Mehrklassendatensätzen ist es viel schwieriger, die Mehrheits- und Minderheitsklassen zu definieren. Daher bleibt die Mehrklassenklassifizierung in unausgewogenen Datensätzen ein wichtiges Forschungsthema. In unserem Buch schlagen wir einen neuen Ansatz vor, der auf SOMTE (Synthetic Minority Over-sampling TEchnique) und Clustering basiert und in der Lage ist, das Problem unausgewogener Daten mit mehreren Klassen zu lösen. Wir haben unseren Ansatz mit Hilfe von Open-Source-Tools für maschinelles Lernen umgesetzt: Weka und RapidMiner.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.