Diplomarbeit aus dem Jahr 2003 im Fachbereich Informatik - Allgemeines, Note: 1,3, Hochschule für angewandte Wissenschaften Anhalt in Köthen (Informatik), Sprache: Deutsch, Abstract: Inhaltsangabe:Zusammenfassung:
In dieser Arbeit stehen neben dem Begriff des Data Mining besonders die statistischen Methoden im Mittelpunkt. Interessenten sollen den kreativen Prozess des Data Mining näher kennen lernen und erfahren, welche Rolle dabei der Statistik zukommt.
Das Ziel der Arbeit ist, eine weiterreichende Darstellung des Prozesses des Data Mining mit statistischen Methoden zu erstellen, angefangen bei der Zielfindung, über die Modellbildung, bis hin zur Bewertung der Ergebnisse. Dabei orientiert sich die Vorgehensweise der systematischen Auswertung an der Methode des CRoss Industry Standard Process for Data Mining, mit der sich Data Mining Prozesse beschreiben lassen. Zum besseren Verständnis werden grundlegende Begriffe zum Data Mining sowie die bedeutsamsten Methoden und Verfahren zur statistischen Datenanalyse erläutert, welche bei den im Anschluss aufgezeigten Data Mining Problemen zur Anwendung kommen.
Die veranschaulichten Analyseprobleme entsprechen den Aufgaben der Data Mining Cups der Jahre 2001 und 2002. Dabei werden die zur Lösung angewendeten statistischen Methoden nachvollziehbar wiedergegeben und es wird auf die kritischen Erfolgsfaktoren eingegangen. Oftmals wirken sich schon einzelne Teilentscheidungen bei der Datenaufbereitung und bei den eingesetzten Klassifizierungsmethoden auf die Lösung der Data Mining Aufgabe aus. Daher stellte sich die Frage, wie solche Abweichungen von den aufgezeigten Methoden aussehen könnten. In dieser Arbeit werden im Einzelnen verschiedene Abwandlungen durchgeführt, am Ende zusammengefasst und diskutiert.
Inhaltsverzeichnis:Inhaltsverzeichnis:
Abbildungsverzeichnis6
Tabellenverzeichnis7
1.Einleitung9
1.1Problemstellung10
1.2Ziel der Arbeit11
1.3Themenabgrenzung12
2.Der Data Mining Prozess im CRISP-DM Referenzmodell14
2.1Das CRISP-DM Referenzmodell14
2.2Die Phasen des CRISP-DM Referenzmodells15
2.2.1business understanding (Anwendungsverstehen)15
2.2.2data understanding (Datenverstehen)16
2.2.3data preparation (Datenaufbereitung)16
2.2.4modeling (Modellerstellung)17
2.2.5evaluation (Bewertung der Ergebnisse)18
2.2.6deployment (Anwendung)19
3.Grundlegende Begriffe20
3.1Die Statistik im Data Mining Prozess20
3.2Segmentierung und Klassifikation22
3.2.1Begriff der Segmentierung22
3.2.2Begriff der Klassifikation22
3.3Standardisierung23
3.4Maße für die Ähnlichkeit von Objekten24
4.Methoden der statistischen Datenanalyse27
4.1Faktorenanalyse27
4.2Clusteranalyse32
4.3Lineare und logistische Regression38
4.4Diskriminanzanalyse40
5.Gegebene Daten und Modelle44
5.1Data Mining Cup 200244
5.1.1Szenario44
5.1.2Gegebene Daten45
5.2Modellbildung zum DMC 2002 Problem46
5.2.1Phase 1: business understanding47
5.2.2Phase 2: data understanding47
5.2.3Phase 3: data preparation51
5.2.4Phase 4: modeling61
5.2.5Phase 5: evaluation67
5.2.6Phase 6: deployment67
5.2.7Andere Lösungsmethoden im Vergleich68
5.3Data Mining Cup 200175
5.3.1Szenario75
5.3.2Gegebene Daten76
5.4Modellbildung zum DMC 2001 Problem77
5.4.1Phase 2: data understanding78
5.4.2Phase 3: data preparation80
5.4.3Phase 4: modeling83
5.4.4Andere Lösungsmethoden im Vergleich87
6.Fazit94
Literatur96
Anhang99
A1 Tabellen zum Data Mining Cup 2002 Problem100
A2 Tabellen zum Data Mining Cup 2001 Problem104
A3 Dateien auf der Begleit-CD105
Ergänzung108
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
In dieser Arbeit stehen neben dem Begriff des Data Mining besonders die statistischen Methoden im Mittelpunkt. Interessenten sollen den kreativen Prozess des Data Mining näher kennen lernen und erfahren, welche Rolle dabei der Statistik zukommt.
Das Ziel der Arbeit ist, eine weiterreichende Darstellung des Prozesses des Data Mining mit statistischen Methoden zu erstellen, angefangen bei der Zielfindung, über die Modellbildung, bis hin zur Bewertung der Ergebnisse. Dabei orientiert sich die Vorgehensweise der systematischen Auswertung an der Methode des CRoss Industry Standard Process for Data Mining, mit der sich Data Mining Prozesse beschreiben lassen. Zum besseren Verständnis werden grundlegende Begriffe zum Data Mining sowie die bedeutsamsten Methoden und Verfahren zur statistischen Datenanalyse erläutert, welche bei den im Anschluss aufgezeigten Data Mining Problemen zur Anwendung kommen.
Die veranschaulichten Analyseprobleme entsprechen den Aufgaben der Data Mining Cups der Jahre 2001 und 2002. Dabei werden die zur Lösung angewendeten statistischen Methoden nachvollziehbar wiedergegeben und es wird auf die kritischen Erfolgsfaktoren eingegangen. Oftmals wirken sich schon einzelne Teilentscheidungen bei der Datenaufbereitung und bei den eingesetzten Klassifizierungsmethoden auf die Lösung der Data Mining Aufgabe aus. Daher stellte sich die Frage, wie solche Abweichungen von den aufgezeigten Methoden aussehen könnten. In dieser Arbeit werden im Einzelnen verschiedene Abwandlungen durchgeführt, am Ende zusammengefasst und diskutiert.
Inhaltsverzeichnis:Inhaltsverzeichnis:
Abbildungsverzeichnis6
Tabellenverzeichnis7
1.Einleitung9
1.1Problemstellung10
1.2Ziel der Arbeit11
1.3Themenabgrenzung12
2.Der Data Mining Prozess im CRISP-DM Referenzmodell14
2.1Das CRISP-DM Referenzmodell14
2.2Die Phasen des CRISP-DM Referenzmodells15
2.2.1business understanding (Anwendungsverstehen)15
2.2.2data understanding (Datenverstehen)16
2.2.3data preparation (Datenaufbereitung)16
2.2.4modeling (Modellerstellung)17
2.2.5evaluation (Bewertung der Ergebnisse)18
2.2.6deployment (Anwendung)19
3.Grundlegende Begriffe20
3.1Die Statistik im Data Mining Prozess20
3.2Segmentierung und Klassifikation22
3.2.1Begriff der Segmentierung22
3.2.2Begriff der Klassifikation22
3.3Standardisierung23
3.4Maße für die Ähnlichkeit von Objekten24
4.Methoden der statistischen Datenanalyse27
4.1Faktorenanalyse27
4.2Clusteranalyse32
4.3Lineare und logistische Regression38
4.4Diskriminanzanalyse40
5.Gegebene Daten und Modelle44
5.1Data Mining Cup 200244
5.1.1Szenario44
5.1.2Gegebene Daten45
5.2Modellbildung zum DMC 2002 Problem46
5.2.1Phase 1: business understanding47
5.2.2Phase 2: data understanding47
5.2.3Phase 3: data preparation51
5.2.4Phase 4: modeling61
5.2.5Phase 5: evaluation67
5.2.6Phase 6: deployment67
5.2.7Andere Lösungsmethoden im Vergleich68
5.3Data Mining Cup 200175
5.3.1Szenario75
5.3.2Gegebene Daten76
5.4Modellbildung zum DMC 2001 Problem77
5.4.1Phase 2: data understanding78
5.4.2Phase 3: data preparation80
5.4.3Phase 4: modeling83
5.4.4Andere Lösungsmethoden im Vergleich87
6.Fazit94
Literatur96
Anhang99
A1 Tabellen zum Data Mining Cup 2002 Problem100
A2 Tabellen zum Data Mining Cup 2001 Problem104
A3 Dateien auf der Begleit-CD105
Ergänzung108
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.