Zum Inhalt springen
Der Guide für ein smartes Leben.
VG Wort Pixel
Customer Relationship Management

Alles über Data Mining

Das BI-Analysten- und Beraterhaus mayato legt in seiner aktuellen Data-Mining-Studie den Schwerpunkt auf Customer Relationship Analytics und vergleicht einschlägige Software-Lösungen.

Autor: Business & IT • 22.8.2012 • ca. 6:45 Min

Alles über Data Mining
Alles über Data Mining
© Fotolia

Moderne Unternehmen begnügen sich längst nicht mehr mit einfachem Berichtswesen - sie setzen explorative Datenanalysen (sogenannte "Predictive Analytics") ein, um darüber hinausgehende Erkenntnisse über das zukünftige Verhalten ihrer Kunden zu gewinnen. Welche Tools man daf&...

Moderne Unternehmen begnügen sich längst nicht mehr mit einfachem Berichtswesen - sie setzen explorative Datenanalysen (sogenannte "Predictive Analytics") ein, um darüber hinausgehende Erkenntnisse über das zukünftige Verhalten ihrer Kunden zu gewinnen. Welche Tools man dafür am besten verwendet, zeigt die aktuelle Data-Mining-Studie des BI-Analysten- und Beraterhauses mayato.

Datenanalyse als CRM-Kernaufgabe

Im Customer Relationship Management (CRM) ist der Bedarf an Kundenwissen seit jeher groß. Daher spielen insbesondere explorative Methoden, die auch Vorhersagen über das zukünftige Kundenverhalten auf Basis vorliegender Geschäftsdaten erlauben, eine immer wichtiger werdende Rolle.

Autor - Peter Neckel - Analysten- und Beraterhaus mayato
Der Autor: Peter Neckel - Lead-Analyst der Studie beim Analysten- und Beraterhaus mayato
© Hersteller / Archiv

Solche Informationen entscheiden darüber, welche bestehenden Kunden mit welchem Aufwand betreut werden, welche potenziellen Kunden in welcher Form mit welchem Inhalt angesprochen und welche ehemaligen Kunden auf welche Weise zurückgewonnen werden sollen. Die Beantwortung dieser Fragen ist von strategischer Bedeutung und beeinflusst den Erfolg des gesamten Unternehmens.

Für die Umsetzung der drei Basisstrategien Kundenneugewinnung, -bindung und -rückgewinnung sind jedoch umfangreiche Informationen erforderlich, die zum Großteil aus intern bereits vorhandenen Daten über die Kundenhistorie gewonnen werden können.

Da es sich meist um große Datenbestände handelt, in denen sich die relevanten Informationen vielfach in umfangreichem "Datenrauschen" verstecken, sind in diesem Bereich automatisierte Analysewerkzeuge besonders gefragt.

Unübersichtlicher Software-Markt

Der aktuelle Markt hält eine breite Palette von Data-Mining-Tools bereit: Aktuell sind Schätzungen zufolge über 150 verschiedene Werkzeuge für die Datenanalyse verfügbar.

Sie lassen sich je nach Schwerpunkt, Funktionalität und Bedienkonzept in unterschiedliche Typen einteilen: Die Typologie reicht von Analyse-Tools für spezielle Einsatzzwecke ("Data-Mining- Werkzeuge") über funktional breiter aufgestellte Data-Mining-Suites bis hin zu Business-Intelligence-Werkzeugen (BI), die zunehmend ebenfalls Data-Mining-Funktionen bereitstellen.

Data-Mining-Suites auf dem Prüfstand

Die klassischen Data Mining Suites zeichnen sich vor allem durch eine umfassende Funktionalität aus, sodass sie fast jede analytische Fragestellung abdecken. Hierunter fallen Prognoseverfahren etwa zur Voraussage der Abwanderungswahrscheinlichkeit von Kunden genauso wie Assoziationsverfahren zur Warenkorb-Analyse oder Segmentierungsverfahren zur Berechnung von Kundensegmenten.

Darüber hinaus bieten sie Unterstützung im gesamten Analyseprozess, beispielsweise durch vielfältige Funktionen zur Exploration der Daten, zur Datenvorverarbeitung, zum Vergleich verschiedener Data-Mining-Modelle und zur (grafischen) Darstellung sowie zum Export der Ergebnisse.

Data-Mining-Werkzeuge sind hingegen meist auf bestimmte Unternehmensfunktionen (etwa Controlling), Anwendungsgebiete (zum Beispiel Echtzeit-Analysen/Real Time Data Mining), Analysefälle (etwa Prognoseaufgaben) oder einer Kombination daraus spezialisiert. Eine Sonderstellung in dieser Kategorie nimmt die Softwaretechnische Umsetzung des Self Acting Data Mining ein: Dieser hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus.

Das Testfeld setzt sich aus folgenden Tools zusammen:

  • SAS Enterprise Miner 7.1,
  • StatSoft STATISTICA Data Miner 10,
  • IBM SPSS Modeler 14.2
  • und SAP BW 7 (Data Mining Workbench).

In der vorgestellten Data-Mining-Studie treten somit die drei marktführenden Suites von SAS, StatSoft und IBM SPSS direkt gegeneinander an. Da die zu analysierenden Daten in vielen Fällen in bestehenden BI-Systemen vorgehalten werden, liegt es nahe, in dieser Umgebung auch die eigentlichen Data-Mining-Analysen durchzuführen - in vielen Fällen ein attraktiver Einstieg, da kein separates Tool beschafft und eingerichtet werden muss.

Ratgeber: Die beste Security-Freeware

Um zu beurteilen, wie sich ein klassisches BI-Werkzeug im Vergleich zu den etablierten Data-Mining-Suites schlägt, wurde die SAP BW Data Mining Workbench mit ins Testfeld aufgenommen.

Testszenario Kundenreaktivierung

Für die Studie wurde ein praxisnahes Analyseszenario zur Kundenrückgewinnung erarbeitet: Ein großer Online-Versandhändler möchte Erstbesteller, die nach einer definierten Zeitspanne keine Folgebestellung tätigen, durch gezielte Aktionen zu einem Wiederkauf anregen. Dabei sollen nur die Kunden einen Einkaufsgutschein erhalten, bei denen mit hoher Wahrscheinlichkeit davon auszugehen ist, dass sie ohne diesen Anreiz keine weitere Bestellung getätigt hätten.

Taxonomie aktueller Data-Mining-Lösungen
Taxonomie aktueller Data-Mining-Lösungen: Vier der Data-Mining-Werkzeuge wurden im Rahmen der Studie genauer unter die Lupe genommen.
© Hersteller / Archiv

Diese Kunden sollen auf der Basis der vorliegenden Kundenhistorie mithilfe eines Prognosemodells vorhergesagt werden (Churn Prediction). Dazu wurden neben etablierten Methoden wie Entscheidungsbäumen auch neue Prognoseverfahren wie Support Vector Machines (SVM) eingesetzt und für jedes getestete Tool separat auf ihre Praxistauglichkeit und Prognosequalität geprüft.

Anhand des beschriebenen Szenarios wird der gesamte Data-Mining-Prozess vom Einlesen der Daten über die Datenvorverarbeitung bis hin zur Interpretation der Ergebnisse durchlaufen und bewertet. Ein derart aufwendiges Testkonzept liefert wertvolle praxisrelevante Fakten und Erkenntnisse im direkten Vergleich, die nicht aus den Produktbeschreibungen der Tool-Hersteller hervorgehen. Auch die Installation und der Test jedes Werkzeugs in derselben, vorab definierten Systemumgebung dient der direkten Vergleichbarkeit.

Ratgeber: 99 Tricks zu Windows 7

Die Bewertung der Tools stützt sich auf eine breite Anzahl an Einzelkriterien. Dazu gehören sowohl Funktionalitätsaspekte (Funktionsumfang in den Kategorien Datenvorverarbeitung, Analyseverfahren und Parametrisierung, Ergebnisvisualisierung sowie Gesamteffizienz) als auch die Benutzerfreundlichkeit (Stabilität, Ausführungsgeschwindigkeit, Dokumentation und Bedienung).

Große Funktionsvielfalt und innovative Bedienkonzepte

Die drei Data-Mining-Suites fallen durchweg durch sehr hohe Systemstabilität, schnelle Ausführungsgeschwindigkeit und ihren souveränen Umgang mit großen Datenmengen auf. Diesbezüglich hat insbesondere die Umstellung auf 64-Bit-Architekturen spürbare Fortschritte gebracht.

CRM-Basisstrategien
Für die Umsetzung der CRM-Basisstrategien werden umfangreiche Informationen benötigt.
© Hersteller / Archiv

Allerdings führt die hohe Funktionsmächtigkeit zu einer steigenden Produktkomplexität: Diese schlägt sich in vergleichsweise langen Einarbeitungszeiten nieder. Als Konsequenz gehen manche Hersteller dazu über, mehrere Bedienoberflächen für unterschiedliche Nutzergruppen zur Verfügung zu stellen.

Diesbezüglich gibt es signifikante Unterschiede zwischen den Data-Mining-Tools: Die Stärke von SAS liegt hier in der Einbettung des Enterprise Miner in eine leistungsfähige BI-Gesamtarchitektur, die neben der Analyse flexible Möglichkeiten der Datenhaltung oder weitreichende ETL-Funktionen (Extrahieren, Transformieren und Laden) bietet.

Für Nutzer, die weitere Werkzeuge der SAS-Plattform verwenden (zum Beispiel den Enterprise Guide oder das Data Integration Studio), ergibt sich jedoch kein Vorteil, da jedes Tool ein unterschiedliches Bedienkonzept mitbringt. IBM SPSS ist es gelungen, viel Funktionalität in eine moderne, intuitive Oberfläche zu verpacken: Der Modeler bietet insgesamt die beste Ergonomie und eine sehr gute - als einzige im Testfeld in Deutsch verfügbare - Dokumentation.

Ratgeber: Grundausrüstung für Windows

StatSoft stattet den Data Miner ohne Aufpreis mit der vollen Funktionalität des Statistikpakets aus, was mächtige Datenvorverarbeitungsfunktionen sowie eine große Anzahl an frei konfigurierbaren Grafiken einschließt. Dadurch bietet STATISTICA das beste Preis-Leistungs-Verhältnis im Testfeld.

Wie schneidet im Vergleich dazu das einzige BI-Werkzeug im Test ab? Der SAP Data Mining Workbench merkt man vor allem an der unübersichtlichen und wenig logisch aufgebauten Oberfläche an, dass sie seit mehreren Jahren keine substanziellen Aktualisierungen mehr erfahren hat: Der in der Praxis oft notwendige Wechsel zwischen dem Analyseprozessdesigner (APD) und der Data Mining Workbench kostet Zeit und ist aus Nutzersicht schwer nachvollziehbar. Zudem sind die Data-Mining-Funktionen sowohl in ihrem Umfang als auch hinsichtlich ihrer Parametrisierungsmöglichkeiten stark begrenzt - interaktive Entscheidungsbäume oder neuere Verfahren wie Support Vector Machines stehen gar nicht zur Verfügung.

Fazit: Automatisierung beschleunigt Predictive Analytics

"The need for user guidance during preprocessing and data mining will dramatically increase." So prognostizierte Hans-Peter Kriegel in seinem Artikel "Future Trends in Data Mining" aus dem Jahr 2007 zutreffend die aktuell größte Herausforderung der Hersteller von Data-Mining-Tools.

Denn mit der Steigerung der Einsatzhäufigkeit stellt sich zunehmend die Frage nach der Effizienz des gesamten Analyseprozesses: Wie viel Arbeitseinsatz, Zeit und Expertenwissen erfordert die Analyse einer bestimmten Fragestellung? In welchem Verhältnis steht der Zeitaufwand zur Qualität und zum betriebswirtschaftlichen Nutzen der Analyseergebnisse?

Die Antworten auf diese Fragen bestimmen in entscheidendem Maße die verwendeten Data-Mining-Werkzeuge. Denn sie geben letztlich durch Rechengeschwindigkeit, Funktionsumfang, Bedienkomfort und vor allem durch den Automatisierungsgrad vor, welche Fragestellungen in welcher Zeitspanne in welcher Qualität analysiert werden können.

Die Tool-Hersteller haben dies erkannt: SAS bietet zusätzlich zur klassischen Modellbildung mit dem Rapid Predictive Modeler eine (in der aktuellen Version nochmals überarbeitete) separate Data-Mining-Umgebung mit sinnvoll begrenzten Parametrisierungsoptionen an. Hier konnten im Test bereits mit den Standardparametern in kurzer Zeit akzeptable Ergebnisse erzielt werden, die auf Wunsch manuell weiter verfeinert werden können.

StatSofts Beitrag zur Automatisierung des Prozesses liegt in alternativ angebotenen, vorgefertigten Data-Mining-Rezepten für Standard-Prognoseaufgaben. Durch die Auswahl werden mithilfe eines Assistenten die notwendigen Eingaben sowie gegebenenfalls notwendige Vorverarbeitungsschritte systematisch abgefragt. IBM SPSS stellt einen automatischen Klassifizierer zur Verfügung, der in einem Dialog mehrere Prognosemodelle mit unterschiedlichen Verfahren und Parameter-Einstellungen automatisch berechnen und deren Ergebnisse vergleichen kann.

Zusätzlich erweitern die Anbieter gezielt die Komponenten ihrer Produkte, die für einen schnellen Einstieg in die Analyse besonders wichtig sind. Dazu gehören Neuentwicklungen und Differenzierungen ihrer Bedienkonzepte, ausführliche Dokumentationen inklusive Online-Hilfen und praxisnaher Tutorials sowie innovative Ansätze zur Automatisierung mit praxisnahen Voreinstellungen.