Dublettenprüfung: Daten optimal bereinigen

0

Eine vollständige, übersichtlich gestaltete Datenbasis ist die Grundlage der Kommunikation mit den Kunden. Darüber hinaus ist die Datenqualität entscheidend für die Umsetzung von Big Data. Ist die Datenqualität nicht ausreichend, hat dies gravierende Auswirkungen auf den Geschäftserfolg des Unternehmens. Der folgende Artikel beschäftigt sich mit den Möglichkeiten, einer Duplettenprüfung.

Strategien zur Datenbereinigung erhöhen die Datenqualität

Die Entwicklung hin zur Informationsgesellschaft ist unumkehrbar. Das Internet, mobile, benutzerfreundliche Devices und die Digitalisierung der Wirtschaft führen dazu, dass Unternehmen von Daten geradezu überflutet werden. Diese Daten sind an sich aber noch relativ wertlos. Sie stammen aus polystrukturierten Quellen und weisen unterschiedliche Formate auf.

Um aus dem mehr oder weniger ungeordneten Datenberg handlungsrelevantes Wissen zu extrahieren, müssen die Daten optimal bereinigt und fortwährend gepflegt werden. Unternehmen haben verschiedene Möglichkeiten, die Datenbereinigung zu professionalisieren.

Ist die Datenqualität nicht ausreichend, kann das Ziel von Big Data, die maßgeschneiderte Ansprache des Kunden, nicht erfolgreich umgesetzt werden. Dabei ist es unerheblich, um welche Art von Unternehmen es sich handelt. Onlineshops, Banken aber auch Industrieunternehmen werden sich nur dann erfolgreich im Wettbewerb behaupten, wenn es ihnen gelingt, die Vorteile der Digitalisierung zu realisieren und die Stolpersteine auf dem Weg dorthin zu beseitigen. Ein ganz entscheidender Stolperstein ist eine mangelhafte Datenqualität. Um die Business Intelligence Anwendungen sinnvoll nutzen zu können, ist somit die erste Maßnahme die Bereinigung der Daten.

Das Internet, mobile, benutzerfreundliche Devices und die Digitalisierung der Wirtschaft führen dazu, dass Unternehmen von Daten geradezu überflutet werden. (#01)

Das Internet, mobile, benutzerfreundliche Devices und die Digitalisierung der Wirtschaft führen dazu, dass Unternehmen von Daten geradezu überflutet werden. (#01)

Ursachen einer schlechten Datenqualität

Viele Gründe einer schlechten Datenqualität liegen direkt am Quell der Daten, also bei der Datenerfassung. An dieser Stelle des Prozesses können folgende Probleme auftreten:

  • fehlende Angaben
  • abweichende Schreibweisen
  • widersprüchliche Angaben
  • Dubletten
  • Probleme bei der Clusterbildung
  • veraltete Daten

Oft fehlen Angaben in den Datensätzen, weil die Eingabemasken nicht korrekt sind und deshalb nicht alle Kundenangaben erfasst werden. Auch mit den unterschiedlichen Schreibweisen, besonders mit den Umlauten, kommt es immer wieder zu Problemen, denn München und Muenchen sind beispielsweise für die Datenanalyse zwei völlig unterschiedliche Begriffe.

Fehlende Sorgfalt bei der Dateneingabe kann außerdem dazu führen, dass sich Widersprüche ergeben, weil vielleicht in der Kundenadresse eine falsche Hausnummer eingetragen wurde. Die genannten Probleme und die Gefahr, einen Kunden in unterschiedlichen Systemen mehrfach zu speichern, führen zur Dublettenbildung. Dies ist immer dann der Fall, wenn die Eingabesysteme eines Unternehmens nicht ausreichend integriert sind.

Bei der Bildung der Cluster ist es wiederum sehr wichtig, Personen korrekt zu Haushalten zuzuordnen. Es geschieht leider öfter, dass nicht erkannt wird, dass zwei oder mehrere Personen zu einem Haushalt gehören. Andererseits wird oft bei Namensgleichheit fälschlicherweise davon ausgegangen, dass es sich um Mitglieder eines Haushalts handelt. Nicht zuletzt müssen die Daten immer wieder auf Aktualität überprüft werden. Umzüge oder Namensänderungen führen ansonsten zu Dubletten oder falschen Daten.

Folgen einer mangelhaften Datenqualität

Eine unzureichende Datenbasis wirkt sich im Zeitalter der Digitalisierung auf alle Geschäftsprozesse eines Unternehmens aus. Die Daten bilden den Input für die folgende Datenanalyse und alle sich daraus ableitenden unternehmerischen Entscheidungen. Die Sicherstellung einer adäquaten Datenbasis ist die Aufgabe der Datenbereinigung.

Im Einzelnen ist mit folgenden Effekten einer schlechten Datenqualität zu rechnen:

  • kein erfolgreicher Einsatz der Business Intelligence Tools
  • keine Möglichkeit der Harmonisierung von Geschäftsprozessen
  • Risikomanagement wird erschwert
  • Mailing-Aktionen werden behindert
  • Mehrfachversendung von Werbemitteln
  • logistische Probleme entstehen
  • fehlerhafte Lagerhaltung
  • Versäumnisse der Dokumentationspflichten gegenüber Kunden und dem Gesetzgeber
  • Probleme mit dem Datenschutz und der Datensicherheit
  • fehlerhafte Zustellung von Rechnungen
  • Kundenunzufriedenheit durch mangelnde Kommunikationsqualität

Maßnahmen zur Datenbereinigung

Die genannten Probleme werden mit einer Strategie der Datenbereinigung behoben. Unter den Stichworten Clean Data oder Data Cleansing werden alle Maßnahmen zusammenfasst, mit denen der Datenbestand eines Unternehmens unter Qualitätsaspekten betrachtet und verändert wird.

Es ist empfehlenswert, einen organisatorischen Rahmen für diese Aufgabe zu schaffen, damit ihr Stellenwert auch durch organisatorische Festlegungen und das Zuweisen dauerhafter Aufgaben und Kompetenzen gefestigt wird. Der Datenbeauftragte oder das Team legt die Kriterien zur Beurteilung der Datenqualität fest und initiiert die Aktivitäten, die für eine Datenbereinigung notwendig sind.

Des Weiteren sollte dafür gesorgt werden, dass unternehmensweit eine Sensibilisierung für das Thema Datenqualität erfolgt. Nur wenn auf allen Ebenen sorgfältig mit den Daten umgegangen wird, kann gewährleistet werden, dass die Digitalisierung dem Unternehmen die erhoffen wirtschaftlichen Vorteile bringt.

Nur wenn auf allen Ebenen sorgfältig mit den Daten umgegangen wird, kann gewährleistet werden, dass die Digitalisierung dem Unternehmen die erhoffen wirtschaftlichen Vorteile bringt. (#02)

Nur wenn auf allen Ebenen sorgfältig mit den Daten umgegangen wird, kann gewährleistet werden, dass die Digitalisierung dem Unternehmen die erhoffen wirtschaftlichen Vorteile bringt. (#02)

Ziele der Datenbereinigung

Die Datenbereinigung, das Data Cleansing, ist eine wichtige Voraussetzung einer erfolgreichen Unternehmensführung. Es schafft die datentechnischen Voraussetzungen für den Single View of Costumer und die daran orientierten Marketingstrategien. Keine Marketingaktion kann erfolgreich durchgeführt werden, wenn die Kunden nicht korrekt und eindeutig identifiziert werden. Es ist somit wichtig, heterogene Kundendateien zu harmonisieren.

Hat die Datenbereinigung den gewünschten Erfolg, werden damit folgende Ziele erreicht:

  • Korrekte Aufnahme der Daten aus internen und externen Quellen
  • Adressen werden überprüft und ggfs. korrigiert
  • Dubletten werden identifiziert
  • Daten werden aggregiert und konsolidiert
  • Datensätze werden formatiert und harmonisiert

Ergebnis sind dann Stamm- und Bewegungsdaten, die eine valide, verlässliche Basis für alle weiteren Aktivitäten der datenbasierten Unternehmensführung bilden. Außerdem ist es sinnvoll, von Anfang an auf eine hohe Datenqualität zu achten, um eine spätere, meist viel aufwendigere Fehlersuche zu vermeiden. Besonders die manuelle Datenkorrektur kostet viel Zeit und Mühe und ist deshalb äußerst unproduktiv.

Wie werden die Daten am besten bereinigt?

Es ist wichtig, einen fehlertoleranten Abgleich aller Geschäftsdaten in allen relevanten Datenbeständen vorzunehmen. Auf diese Weise sollen doppelt und auch fehlerhaft abgespeicherte Adressdaten identifiziert werden. Diese Aufgabe sollte unbedingt als Daueraufgabe verstanden werden.

Zunächst muss jedoch definiert werden, wie ein korrekter Datensatz gestaltet sein muss. Dabei wird die Frage beantwortet, welche Daten für das Unternehmen überhaupt relevant sind. Benötigt man die Telefonnummer der Kunden nicht, ist es unsinnig, diese in den Stammdatensatz aufzunehmen. Über die getroffenen Festlegungen muss allerdings unternehmensweit Einigkeit bestehen. Es ist deshalb wichtig, den Sollzustand nach der Definition auch zu kommunizieren.

Ein elementarer Bereich des Data Cleansing ist die Dublettenprüfung. Für diese Aufgabe stehen moderne Software Lösungen zur Verfügung. Mit Hilfe einer solchen Analytics Software ist es relativ einfach, die Datenqualität sicherzustellen. BI Tools führen sowohl im Bereich B2C als auch B2B schnell und sicher diese Dublettenprüfung durch.

Mit Hilfe einer Analytics Software ist es relativ einfach, die Datenqualität sicherzustellen. (#03)

Mit Hilfe einer Analytics Software ist es relativ einfach, die Datenqualität sicherzustellen. (#03)

Bei der Datenerfassung die Datenqualität berücksichtigen

Um bereits bei der Datenerfassung spätere Probleme zu vermeiden, liegt es nahe, die Systeme zu betrachten, mit denen der Erstkontakt zum Kunden gemanagt wird. Es muss jedoch darüber hinaus berücksichtigt werden, dass auch in den nachgelagerten BI Prozessen Probleme auftreten können.

Oft verhindern technische Restriktionen eine effektive Kommunikation der verschiedenen Erfassungssysteme oder einem Drittsystem, das die Probleme klären könnte. Die IT-Abteilung versucht meist, das Problem mit ETL-Aktivitäten zu beheben.

Wird dabei aus Kostengründen auf eine standardisierte Lösung verzichtet, sind Insellösungen die Folge, die wiederum nur suboptimal sind. Besser ist es, die Datenbereinigung als integrierten Bestandteil der BI Lösung zu betrachten und ihr damit die Ressourcen und den Stellenwert zu geben, die sie benötigt.

Eine ganz praktische Maßnahme zur Sicherstellung einer hohen Datenqualität ist die Gestaltung der Eingabemasken. Schon an dieser Stelle dürfen keine Ungenauigkeiten auftreten. Deshalb muss auf die Benutzerfreundlichkeit der Eingabemasken geachtet werden. Nutzt das Unternehmen ERP-Systeme, führen diese ebenfalls Plausibilitätsüberprüfungen durch und warnen bei fehlerhaften Angaben, sodass eine sofortige Korrektur möglich wird. Doppelspeicherungen können verhindert werden, indem auf eindeutige Artikelbezeichnungen geachtet wird.

Vor der Anschaffung dieser Software zur Datenbereinigung muss daraus geachtet werden, dass sie auch für die spezifischen Unternehmensanforderungen geeignet ist. Es gibt Software Tools, die eine Best Practise Lösung anbieten und somit den Unternehmen Entwicklungs- und Einarbeitungszeit ersparen. Um direkt bei der Datengenerierung späteren Problemen vorzubeugen, steht am Anfang eine Bestandsaufnahme.

Analyse Tools durchleuchten den gesamten Datenbestand und sorgen zudem für eine jederzeit nachvollziehbare Dokumentation. Damit wird gleichzeitig sichergestellt, dass die Datenbereinigung revisionssicher erfolgt. Neben Dubletten werden auch unvollständige, falsche und widersprüchliche Datensätze identifiziert.

Vermeidung von Fehlern durch automatisierte Datenerfassung

Es gibt verschiedene Ansatzpunkte, um eine manuelle Datenerfassung durch eine automatisierte Datenerfassung zu ersetzen und auf diese Weise Fehler zu minimieren. Für den Lagerbereich bieten Transponder und die entsprechende innovative Software Möglichkeiten der automatisierten Datenerfassung.

Letztlich sollte der gesamte Prozess der Datenerfassung zunächst in Einzelschritte zerlegt werden und im Anschluss daran jeder Schritt, bei dem dies möglich ist, automatisiert werden. Damit beseitigt man die Gefahr, dass Schritte bei der Datenerfassung vergessen oder mehrfach ausgeführt werden.

Für den Lagerbereich bieten Transponder und die entsprechende innovative Software Möglichkeiten der automatisierten Datenerfassung. (#04)

Für den Lagerbereich bieten Transponder und die entsprechende innovative Software Möglichkeiten der automatisierten Datenerfassung. (#04)

Regelmäßige Archivierung verhindert Probleme mit der Datenqualität

Das regemäßige Hinterfragen, welche Datensätze überhaupt noch benötigt werden, reduziert den Datenbestand erheblich. Aktuell nicht mehr benötigte Datensätze sollten archiviert werden, sodass mit einem schlankeren Datenbestand gearbeitet wird, wodurch automatisch Fehler reduziert werden. Nachweispflichten gegenüber dem Gesetzgeber und den Kunden werden mit der Speicherung nicht mehr aktiver Daten erfüllt.

Erfolgsfaktor Datenbereinigung

Mit der geeigneten Software können Unternehmen ihre Daten effizient bereinigen und sich somit bessere Voraussetzungen schaffen, um Wettbewerbsvorteile zu generieren. Es ist von zentraler Bedeutung, wie professionell ein Unternehmen mit Daten umgeht. Die Daten werden zum wichtigen Faktor, um eine kundenspezifischen Ansprache zu ermöglichen, Trends und Risiken schneller als die Konkurrenz zu erkennen und die gesamte Wertschöpfungskette weitgehend reibungslos zu gestalten.

Gelingt es beispielsweise, Dubletten zu entfernen, sparen die Unternehmen bei jeder Mailingaktion Kosten für das Porto und außerdem vermeiden sie damit Kundenunzufriedenheit und letztlich das Abwandern zur Konkurrenz. Besitzt ein Unternehmen eine perfekte Kundendatei, kann es das Premiumadressverfahren der Deutschen Post AG nutzen und erhält wertvolle Informationen über unzustellbare Adressen. Darüber hinaus sind auch digitale Mailingaktionen nur mit einem qualitativ hochwertigen Datenbestand sinnvoll durchführbar.

Eine Software, die das Data Cleansing durchführt, ist eine Investition in die Zukunftsfähigkeit des Unternehmens. Dieses Tool ist in der Lage, Daten aus unterschiedlichsten Quellsystemen zu extrahieren, eine internationale Adressprüfung vorzunehmen und Daten aufgrund eines unternehmensindividuellen Regelwerks zu validieren und zu korrigieren.

Ähnlichkeitsalgorithmen identifizieren Dubletten und die Aggregation und Konsolidierung der Daten kann zur Erstellung eines Golden Records genutzt werden. Außerdem können die Datensätze auf ein einheitliches Format harmonisiert werden und sogar eine Anreicherung der Unternehmensdaten um andere interessante Daten wie beispielsweise Geodaten ist möglich.

Die bereinigten Daten werden dann im Anschluss in die Zielsysteme geladen, wobei der Fokus auf einer performanten Massendatenverarbeitung liegt. Mit der Datenbereinigung wird eine optimale Datenqualität erreicht. Das beinhaltet die Aktualität, den Detaillierungsgrad und die Zuverlässigkeit. Der Datenbestand ist somit geeignet, um Informationen zu liefern und Analysen durchzuführen und um letztlich die Geschäftsprozesse zu optimieren.


Bildnachweis:© Shutterstock- Titelbild: kirill_makarov – #01: kentoh – #02: Artist_R – #03: GarryKillian – #04: mrnok

Über 

Sabrina Müller, geboren 1982 in Berlin, ist inzwischen Mutter von drei Kindern. Eigentlich wollte sie gar nicht so viele Kinder. Nachdem ihre erste Tochter jedoch wirklich pflegeleicht war, haben sich Sabrina und ihr Mann für weitere Kinder entschieden. Konnte ja keiner wissen, dass auf pflegeleicht nicht immer auch wieder pflegeleicht folgt. Nach der ersten Tochter folgten noch ein Mädchen und ein Junge. Ihre Rasselbande füllt Sabrinas Leben derzeit aus. Neben der Betreuung der Kinder engagiert sich Sabrina auch im Kindergarten und näht und bastelt gerne.

Share.

Leave A Reply