Deskriptive und explorative Verfahren der Datenanalyse

0

Der professionelle Umgang mit Daten ist im Zeitalter der Digitalisierung für alle Unternehmen eine Chance und gleichzeitig eine enorme Herausforderung. Die Innovationszyklen der Informationstechnologien verkürzen sich. Die Datenanalyse kann deskriptiv oder explorativ gestaltet sein.

Wie unterscheidet sich die deskriptive von der explorativen Datenanalyse?

Unternehmen können ihre Wettbewerbsposition nur verbessern und Wettbewerbsvorteile erreichen, wenn sie ihre Geschäftsprozesse effizienter gestalten als die Konkurrenz. Es ist deshalb nötig, ständig Veränderungen und neue Anforderungen zu erkennen und dann entsprechend darauf zu reagieren. Das ist jedoch nur möglich, wenn Wirkzusammenhänge identifiziert werden. Auf dieser Basis können dann verlässliche Prognosen erstellt, rechtzeitig auf Fehlentwicklungen reagiert und letztlich eine Verbesserung der Entscheidungsqualität erreicht werden.

Zu diesem Zweck ist die Anwendung von Business Analytics unerlässlich. Business Analytics ist der Sammelbegriff für alle IT-gestützten Verfahren der statistischen Datenanalyse und kann in vier Bereiche unterteilt werden:

  • Descriptive Analytics
  • Diagnostic Analytics
  • Predictive Analytics
  • Prescriptive Analytics
Unternehmen können ihre Wettbewerbsposition nur verbessern und Wettbewerbsvorteile erreichen, wenn sie ihre Geschäftsprozesse effizienter gestalten als die Konkurrenz. (#01)

Unternehmen können ihre Wettbewerbsposition nur verbessern und Wettbewerbsvorteile erreichen, wenn sie ihre Geschäftsprozesse effizienter gestalten als die Konkurrenz. (#01)

Deskriptive Datenanalyse

Die deskriptive Datenanalyse wird meist auf Grundlage einer Totalerhebung durchgeführt. Eine deskriptive Vorgehensweise stellt die Frage nach der Verteilung eines Merkmals, sie beschreibt also die Grundgesamtheit. Zu diesem Zweck werden die Informationen, die sich in den einzelnen Datensätzen befinden, verdichtet und anschließend grafisch auf eine Art dargestellt, die das Wesentliche erkennbar macht. Neben den Grafiken werden auch Tabellen oder Kennzahlen zur Beschreibung der Grundgesamtheit verwendet.

Wenn die Verteilung von Merkmalsausprägungen einzelner Merkmale im Vordergrund der Datenanalyse steht, spricht man von univariaten Verfahren in Abgrenzung zu den bi- und multivariaten Verfahren, bei denen gleichzeitig mehrere Merkmale in die Betrachtung einbezogen werden. Die deskriptive Datenanalyse verfolgt das Ziel, einen Überblick über umfangreiche Datenbestände zu gewinnen, indem diese beschrieben werden.

Explorative Datenanalyse

Der methodische Ansatz bei der explorativen Datenanalyse unterscheidet sich von dem der deskriptiven Datenanalyse, denn es wird das Ziel verfolgt, in den Daten verborgene Strukturen, Interdependenzen, Muster oder Auffälligkeiten zu identifizieren. Die Datensätze werden auf Besonderheiten untersucht. Letztlich sollen neue Hypothesen aufgestellt werden.

Zu diesen Zweck werden Stichproben verwendet und die Hypothesen, die auf den Auswertungen beruhen, können durch Methoden der Wahrscheinlichkeitstheorie auf ihre Allgemeingültigkeit überprüft werden. Die Methoden der explorativen Datenanalyse werden häufig beim Data Mining eingesetzt.

Data Mining ist die Bezeichnung für die Anwendung statistischer Analysemethoden auf große Datenbestände. Handelt es sich um Massendaten, wird auch der Begriff Big Data verwendet. Ziel ist die Identifikation von Querverbindungen sowie Trends. Aufgrund des Datenvolumens muss die Datenanalyse zwingend mit computergestützten Methoden erfolgen, den sogenannten Business Analytics.

Entwicklung der Businsess Analytics

Die digitale Transformation ist das beherrschende Thema der Wirtschaft. Neue technologische Entwicklungen ermöglichen die Generierung von unendlich vielen Daten aus strukturierten, unstrukturierten oder polystrukturierten Quellen. Hinzu kommen die Trends der Globalisierung und der immer stärkeren Vernetzung durch das Internet.

Alle diese Entwicklungen haben dazu geführt, dass sich eigentlich jedes Unternehmen, das auf dem Markt bestehen will, mit dem Bereich der Business Analytics auseinandersetzen muss. Ansonsten werden die Potentiale, die sich in den Datenbergen befinden, weitgehend ungenutzt bleiben. Die Entwicklung hin zu den modernen Business Intelligence Tools vollzog sich dabei in mehreren Phasen und ist mit Sicherheit noch längst nicht abgeschlossen.

  • Traditionelle Analysen
  • Big Data
  • Digitalisierte Wirtschaft – Industrie 4.0
Neue technologische Entwicklungen ermöglichen die Generierung von unendlich vielen Daten aus strukturierten, unstrukturierten oder polystrukturierten Quellen. (#02)

Neue technologische Entwicklungen ermöglichen die Generierung von unendlich vielen Daten aus strukturierten, unstrukturierten oder polystrukturierten Quellen. (#02)

Traditionelle Analysen

In der zweiten Hälfte des letzten Jahrhunderts vollzog sich eine Entwicklung hin zur IT-gestützten Datenanalyse, die immer schneller zur Generierung neuen Technologien und Methoden führte. Bei diesen Verfahren handelte es sich überwiegend um deskriptive Datenanalysen. Ziel war die Schaffung einer Datenbasis für das klassische Reporting.

Unternehmensinterne, strukturierte Daten wurden analysiert, um die Entwicklung der Vergangenheit und somit auch die Situation in der Gegenwart zu beschreiben. Aufgrund technologischer Grenzen dauerten dies Analysen oft Tage oder sogar Wochen. Die Mitarbeiter wurden dabei durch die notwendige Aufbereitung der Daten vor größere Probleme gestellt als bei der anschließenden eigentlichen Datenanalyse.

Big Data

In diesem zweiten Entwicklungsschritt, der ab dem Jahr 2000 stattfand und bis jetzt noch nicht beendet ist, wurden Technologien und Methoden entwickelt, um die Daten aus dem Internet zu nutzen und daraus Wettbewerbsvorteile für das Unternehmen zu generieren. Unternehmen wie Google, Facebook und Amazon begründeten mit großen Erfolgen datenbasierte Geschäftsmodelle.

Heute sind unter den zehn wertvollsten Unternehmen weltweit mehr als die Hälfte Firmen, deren Erfolg auf der Generierung einer zweiseitigen Internetplattform basiert. Auch in dieser Phase liegt das Hauptaugenmerk in den meisten Unternehmen noch auf der deskriptiven Datenanalyse. Es werden aber auch zunehmend Daten aus unstrukturierten Quellen wie den Sozialen Netzwerken in die Betrachtung einbezogen und analysiert.

Generell werden die unternehmensexternen Daten immer bedeutender. Die professionelle Analyse des gesamten Umfelds ist notwendig, um am Markt zu bestehen. Für global agierende Unternehmen ergibt sich eine besonders hohe Komplexität, wenn es darum geht, auf verschiedenen geografischen Märkten Kunden möglichst individuell anzusprechen.

Gefördert werden diese Tendenzen von den neuen IT-Tools wie beispielsweise In-Memory-Datenbanken und Hadoop. Jetzt ist es möglich, in Echtzeit Massendaten auszuwerten. Komplexe Datenanalysen können problemlos schnell durchgeführt werden und liefern schnell handlungsrelevante Informationen.

Generell werden die unternehmensexternen Daten immer bedeutender. Die professionelle Analyse des gesamten Umfelds ist notwendig, um am Markt zu bestehen. (#03)

Generell werden die unternehmensexternen Daten immer bedeutender. Die professionelle Analyse des gesamten Umfelds ist notwendig, um am Markt zu bestehen. (#03)

Digitalisierte Wirtschaft: Industrie 4.0

Mittlerweile sind zumindest große Unternehmen in der Entwicklung noch einen Schritt weiter. Es ist ein technologischer Stand erreicht, der es ermöglicht, dass die überwiegende Zahl aller vom Management getroffenen Entscheidungen datenbasiert erfolgt. Das betrifft bei Weiten nicht nur die oben erwähnten Online-Unternehmen, wenngleich diese Geschäftsmodelle nach wie vor auf dem Vormarsch sind.

Darüber hinaus haben auch die traditionellen Anbieter den Wert einer datenbasierten Unternehmensführung erkannt und versuchen, sich in diese Richtung zu entwickeln. Die erzielten Wettbewerbsvorteile begründen sich dabei auf explorativen Datenanalysen. Prädiktive und präskriptive Datenanalysen gehen weit über eine Beschreibung des Ist-Zustands hinaus. Ziel der Datenanalyse ist jetzt, Wirkzusammenhänge zu erkennen und aus dieser Kenntnis künftige Ereignisse zu prognostizieren. Auf Grundlage der Prognosen werden im nächsten Schritt Handlungsempfehlungen formuliert.

Von der Beschreibung des Ist-Zustands zur Business Intelligence

Mit dem Analytics-Reifegradmodell von Gartner lässt sich die Entwicklung von der rein deskriptiven zur explorativen Datenanalyse erläutern. Dabei wird davon ausgegangen, dass die Entwicklung gleichzeitig mit der Erreichung eines höheren Reifegrads im Sinne eines Werts für das Unternehmen verbunden ist. Eigentlich ist dieses Modell eine Beschreibung für die Entwicklung vom Berichtswesen zur Business Intelligence.

Vor der Entwicklung der Business Intelligence Tools versuchten die Unternehmen mit dem traditionellen Berichtswesen zu erklären, was passiert, wie oft etwas passiert und welche Probleme sich daraus ergeben. Zu diesem Zweck wurden Standardberichte, Ad hoc Berichte, Abfragen und Drilldowns durchgeführt. Im nächsten Schritt sollte die Frage beantwortet werden, welche Maßnahmen als nächstes zu ergreifen sind.

Am Anfang der Business Analytics standen dann die Descriptive Analytics, die eine Situation vergangenheitsorientiert beschreiben und Zusammenhänge mit der Gegenwart herstellen. Statistische Analysen werden verwendet, um die Frage „Warum passiert etwas?“ zu beantworten. Erst jetzt geht die Entwicklung in Richtung einer explorativen Datenanalyse.

Zunächst wird mit Diagnostic Analytics hinterfragt, warum etwas passiert ist. Wo liegen die Zusammenhänge und Muster in den Daten? Predictive Analytics gehen noch einen Schritt weiter und beantworten die Frage danach, was in Zukunft passieren wird. Auf Grundlage von Data Mining, maschinellem Lernen sowie statistischen Methoden wird versucht, die Eintrittswahrscheinlichkeit künftiger Ereignisse zu prognostizieren.

Die Prescriptive Analytics bauen wiederum auf diesen Erkenntnissen auf und geben dem Unternehmen Hinweise für Optimierungen. Es geht dabei darum, Trends zu beeinflussen und Ereignisse zu verhindern oder zu nutzen. Dafür werden anspruchsvolle Analysemodelle oder Monte-Carlo-Simulationen angewendet. Es werden entweder bekannte oder zufällige Variablen genutzt und Eintrittsszenarien oder Bandbreiten ermittelt. Im Anschluss erfolgt die Ableitung von konkreten Handlungsempfehlungen für das Management.

Auf Grundlage von Data Mining, maschinellem Lernen sowie statistischen Methoden wird versucht, die Eintrittswahrscheinlichkeit künftiger Ereignisse zu prognostizieren. (#04)

Auf Grundlage von Data Mining, maschinellem Lernen sowie statistischen Methoden wird versucht, die Eintrittswahrscheinlichkeit künftiger Ereignisse zu prognostizieren. (#04)

Methoden der deskriptiven Datenanalyse

Mit den Methoden der deskriptiven Datenanalyse, den Descriptive Analytics, werden die Probleme und Potenziale eines Unternehmens basierend auf den Werten der Vergangenheit beschrieben. Zu diesem Zweck werden die Daten im Data Warehouse gesammelt und aufbereitet. Es werden für die Abteilungen des Unternehmens Kennzahlen ermittelt und mit Hilfe von relationalen oder dimensionalen Datenmodellen ausgewertet.

Die Aufbereitung für das Management erfolgt über Reports sowie Dashboards. Scorecards werden genutzt, um Entwicklungen zu verfolgen. Die Datenauswertung wird entweder zu bestimmten festen Zeitpunkten (beispielsweise monatlich) vorgenommen oder erfolgt anlassbezogen Ad hoc.

Welche Programme und Software stehen zur Verfügung?

Generell unterscheidet man zwischen den kommerziellen Programmen und Open Source Angeboten, die ebenfalls im Bereich der Unternehmensführung Anwendung finden. Oft sind dabei bereits Reporting-Funktionen enthalten. Im Open Source Bereich haben sich Talend und Pentaho etabliert, die auch von vielen Unternehmen eingesetzt werden. Bekannte kommerzielle Anbieter sind Oracle Business Analytics, Cognos BI von IBM und SAS sowie Tableau.

Die Prozesse des Unternehmens werden in einer Rückschau betrachtet. Es ist möglich, Abweichungen und Ausreißer über die Analyse der Bewegungsdaten zu identifizieren. Ein wichtiges Anwendungsfeld ist der Produktionsbereich. Hier ist es interessant zu erfahren, welche Maschinen viel Ausschuss produzieren und bei welchen Chargen dies geschieht. Wurde eine auffällige Maschine identifiziert, kann nach den Ursachen gesucht werden und diese können dann behoben werden. Die deskriptive Datenanalyse hat also durchaus Einfluss auf die künftige Entwicklung des Unternehmens.

Methoden der explorativen Datenanalyse

Ziel ist das Feststellen von Zusammenhängen, Wirkungsweisen und Mustern in den Daten, also die Erklärung, warum etwas passiert und nicht nur die Beschreibung dessen, was passiert ist. Multivariate Tests und A/B-Tests dienen dazu, Entscheidungen zu überprüfen. Quantitative und statistische Analysen sollen Erklärungen der Gründe für eingetretene Ereignisse liefern.

Im Rahmen des Data Mining wird nach Mustern und Zusammenhängen gesucht. Vorhersagen mit Predictive Analytics setzen dort an, wo das klassische Reporting oder OLAP enden. Mit Hilfe von Datenmodellen sollen Prognosen aufgestellt werden. Daran anschließend wird versucht, mit den Prescriptive Analytics zu eruieren, wie das Unternehmen die Zukunft aktiv gestalten kann.

Software und Einsatzgebiete für explorative Datenanalysen

Die Basis für diese Analysen sind die bereits gesammelten Daten im Data Warehouse oder den Big Data Technologien wie beispielsweise NoSQL Datenbanken. Um Prognosen erstellen und Handlungsalternativen aufzeigen zu können, müssen die Datenbestände jedoch aufbereitet werden. Gängige Methoden sind das Data Mining, Text Mining sowie das Forecasting. Dafür werden Regressions-, Trend- und Clusteranalysen sowie Präferenzanalysen und das Machine Learning (neuronale Netze) verwendet. Ergebnis ist die Berechnung von Mustern, die wiederum als Basis für die Erstellung von Prognose dienen.

In den letzten Jahren wurden innovative BI-Tools entwickelt, mit denen auch Anwender, die nicht über die mathematischen und statistischen Kenntnisse der Analysemethoden verfügen, problemlos Analysen durchführen können. Im Open Source Bereich ist die Programmiersprache „R“ führend, die zur Erstellung von Statistiken genutzt wird. Im kommerziellen Bereich haben sich IT-Lösungen wie SAP HANA, SAS oder MATLAB etabliert.

Einsatzgebiete der explorativen Datenanalyse

Die Einsatzgebiete in den Unternehmen sind vielfältig. Im Marketingbereich werden damit Marketingaktionen und Marketingstrategien geplant. Im Produktionsbereich wird versucht, mit der Antizipation von Maschinenausfällen eine vorausschauende Wartung zu initiieren, die vor ungeplanten Produktionsausfällen schützt. Außerdem werden besonders die Predictive Analytics zunehmend im Personalbereich eingesetzt. Dabei geht es beispielsweise um Prognosen darüber, welche Qualifikationen eines Bewerber dessen erfolgreiche Mitarbeit im Unternehmen am wahrscheinlichsten machen.

In Zeiten zunehmenden Fachkräftemangels und demografischen Wandels ist auch die Frage interessant, welche Mitarbeiter wahrscheinlich kündigen werden. Darauf aufbauend können Maßnahmen zur Personalerhaltung ergriffen werden.

Außerdem werden besonders die Predictive Analytics zunehmend im Personalbereich eingesetzt. (#05)

Außerdem werden besonders die Predictive Analytics zunehmend im Personalbereich eingesetzt. (#05)

Datenanalysen: unverzichtbar auf dem Weg zur Digitalisierung der Wirtschaft

Datenanalysen sind ein wichtiger Bestandteil moderner Unternehmensführung, denn der Umgang mit den massenhaft anfallenden Daten wird immer mehr zum Erfolgsfaktor für Unternehmen. Die digitale Transformation der Wirtschaft ist unumkehrbar und schreitet sogar immer schneller voran. Mittlerweile stehen jedoch sowohl für deskriptive als auch für explorative Datenanalysen anwenderfreundliche Tools bereit, die auch Mitarbeitern ohne nennenswerte IT-Kenntnisse analytisches Arbeiten ermöglichen.

Neben der Betrachtung dessen, was gewesen ist und wie sich die Situation des Unternehmens aktuell darstellt, tritt die Frage nach den Ursachen von Entwicklungen und der Wunsch, die Zukunft vorauszusagen und sogar zu beeinflussen. Wenn es Unternehmen gelingt, dies schneller und möglichst auch exakter als die Konkurrenz zu erreichen, erwachsen daraus erhebliche Wettbewerbsvorteile.


Bildnachweis:© Shutterstock – Titelbild: garriphoto – #01: alexwhite – #02: ESB Professional – #04: canbedone – #05: Zapp2Photo

Über 

Marius Beilhammer, Jahrgang 1969, studierte Journalismus in Bamberg. Er schreibt bereits viele Jahre für technische Fachmagazine, außerdem als freier Autor zu verschiedensten Markt- und Businessthemen. Als fränkische Frohnatur findet er bei seiner Arbeit stets die Balance zwischen Leichtigkeit und umfassendem Know-how durch seine ausgeprägte Affinität zur Technik.

Share.

Leave A Reply