Inhaltsangabe:Einleitung: Der Einsatz von Datenanalyseverfahren zur Planung und Entscheidungsunterstützung gewinnt durch die enorm ansteigende Menge an zu verarbeitenden Daten für Unternehmen immer mehr an Bedeutung. Datenanalyseverfahren werden vielseitig eingesetzt, zum Beispiel die Clusteranalyse einer Kundendatenbank mit dem Ziel der Marktsegmentierung. Aus der Marktsegmentierung lassen sich wiederum Kundengruppen identifizieren, Zielgruppen ableiten sowie geeignete Marketingstrategien entwickeln. Ein weiteres Beispiel ist das Spotlight-System, welches Verkaufsdaten von Supermärkten analysiert. Das System findet Änderungen von Verkaufsmengen eines Produktes und entdeckt Zusammenhänge zwischen diesen Änderungen und möglichen Ursachen wie etwa Preis oder Qualitätsänderungen. Der Vorteil solcher Verfahren für Unternehmen, die im Wettbewerb stehen, wird in den obigen Beispielen deutlich. So gibt es eine Reihe von Softwareherstellen wie SAP oder IBM, die Lösungen zu diesem Thema anbieten. Diese Arbeit befasst sich mit der SAP Lösung, speziell mit der Clusteranalyse. Die Clusteranalyse im SAP BI basiert auf einer hocheffizienten und robusten Form des k-means Algorithmus. Dieser Algorithmus ist in der Lage, auch eine relativ große Datenmenge mit hoher Genauigkeit zu analysieren. Der Nachteil dieses Verfahrens besteht in der Angabe der Clusteranzahl als Parameter. Die ¿richtige¿ Clusteranzahl ist jedoch dem Benutzer in den meisten Fällen nicht bekannt. Arbeitet ein Algorithmus mit einer fest vorgegebenen Clustermenge, können unter Umständen wichtige Zusammenhänge verloren gehen, falls diese von der optimalen Clustermenge abweicht. Abbildung 1-1 verdeutlicht den Zusammenhang zwischen optimaler und nicht optimaler Clustermenge: (an dieser Stelle befindet sich im Original eine Abbildung) Um die ¿richtige¿ Clusteranzahl automatisch zu ermitteln, existieren verschiedene Lösungsansätze. Ein Beispiel ist die Bestimmung des Parameters k mittels des sogenannten Silhouetten-Koeffizienten. Dieser bestimmt die Güte einer Clusteranalyse unabhängig von der Anzahl der Cluster. Dazu wird die Clusteranalyse mit verschiedenen Werten für den Parameter k durchgeführt, anschließend wird aus der Menge der über den Silhouetten-Koeffizienten bewerteten Ergebnisse das ¿beste¿ Clustering ausgewählt. Eine weitere Möglichkeit stellt die Erweiterung des k-means, der x-means Algorithmus von Pelleg und Moore, dar. Bei diesem Verfahren wird ebenfalls keine feste Clusteranzahl [...]
Dieser Download kann aus rechtlichen Gründen nur mit Rechnungsadresse in A, B, BG, CY, CZ, D, DK, EW, E, FIN, F, GR, HR, H, IRL, I, LT, L, LR, M, NL, PL, P, R, S, SLO, SK ausgeliefert werden.