Datenqualität

Definition von Datenqualität Dr. Holger Wandt
14. September 2015 |  5951  0
Dr. Holger Wandt

Datenqualität ist die Bewertung von Datenbeständen hinsichtlich ihrer Eignung, einen bestimmten Zweck zu erfüllen (»fitness for use«). Als Kriterien gelten dabei die Korrektheit, die Relevanz und die Verlässlichkeit der Daten, sowie ihre Konsistenz und Verfügbarkeit auf verschiedenen Systemen.

Für Unternehmen ist eine ausreichende Datenqualität entscheidend für erfolgreiche operative Prozesse und für die Zuverlässigkeit von Berichten im Rahmen von Business Analytics/Business Intelligence. Fehler in Datenbeständen verursachen für Unternehmen mitunter enorme Kosten, wie Porto für Irrläufer oder für doppelt versandte Mailings bei Dubletten.

First Time Right- Prinzip

Am effizientesten ist es die Daten gleich bei der Ersteingabe (Data Entry) auf Vollständigkeit und Korrektheit zu überprüfen, was auch „First Time Right“ genannt wird. Experten empfehlen, beim Anlegen neuer Kundendaten ein einheitliches Schema zu benutzen. Bereits bestehende Fehler können mit entsprechenden Tools effizient bereinigt werden. Dieser Prozess besteht aus drei Teilprozessen: Data Profiling, Data Cleansing und Monitoring.

Die drei Schritte zu sauberen Daten

Beim Data Profiling werden die Daten in Bezug auf Inkonsistenzen, Fehler und Widersprüche in den Beständen analysiert. Aus den daraus gewonnenen Informationen können Maßnahmen zur Verbesserung der Datenqualität abgeleitet werden.

Im Teilprozess Data Cleansing (Datenbereinigung), werden die erkannten Probleme durch Anwendung verschiedener Algorithmen wie Datentypkonvertierungen, Dublettenerkennung oder Vervollständigung lückenhafter Daten direkt behoben.

Beim Monitoring werden die Daten vor der Speicherung in den operativen und analytischen Systemen überprüft. In bestimmten Zeitabständen wird der gesamte Bestand geprüft, um die einmal erreichte Datenqualität zu bewahren.

Software zur Prozessunterstützung

Da eine manuelle Bereinigung großer Datenmengen nicht effizient durchführbar ist, empfehlen sich Data-Cleansing-Werkzeuge, durch die auch der Datenintegrationsprozess automatisiert wird. Um Dubletten in großen Datenbanken zu bereinigen, sind Verfahren am erfolgreichsten, die computergestützte Schlussfolgerungen mit menschlicher Intelligenz kombinieren. Wenn wegen der zunehmenden Globalisierung Namen unterschiedlichster Nationalitäten Einzug in Kundendatenbanken halten, versagen die üblichen mathematischen Prozeduren zur Dublettenerkennung und Adressvalidierung. Neben herkömmlichen mathematischen Verfahren kommen deshalb auch wissensbasierte Methoden zum Einsatz, die die Computerlinguistik zur Spracherkennung und -synthese anwenden und deutlich häufiger Dubletten erkennen.