Data Mapping

Data Mapping bezeichnet die systematische Zuordnung von Datenfeldern einer Quellstruktur zu Feldern in einer Zielstruktur. Das Verfahren ist ein zentraler Baustein der Datenintegration. Es kommt zum Einsatz, wenn Daten zwischen Systemen, Datenbanken oder Formaten übertragen oder umgewandelt werden. Fehlt ein sauberes Mapping, entstehen Datenverluste und Fehler in den Folgesystemen.

Grundprinzip und Funktionsweise des Data Mapping

Im Kern legt Data Mapping eine Regel fest: Welches Feld aus Quelle A entspricht welchem Feld in Ziel B? Die Zuordnung kann einfach sein – ein Feld „Vorname“ aus dem Quellsystem geht direkt in das gleichnamige Zielfeld. Sie kann aber auch komplex sein, wenn Werte transformiert oder aufgespalten werden müssen.

Technisch gibt es drei Grundformen:

Direktes Mapping: Ein Quellfeld wird unverändert einem Zielfeld zugewiesen (z. B. „email“ → „E-Mail-Adresse“).
Transformierendes Mapping: Der Wert wird beim Transfer umgeformt – etwa durch ein neues Datumsformat (TT.MM.JJJJ → YYYY-MM-DD) oder eine Einheitenumrechnung.
Komplexes Mapping: Mehrere Quellfelder fließen in ein Zielfeld (Aggregation), oder ein Feld wird auf mehrere Zielfelder verteilt (Splitting). Lookup-Tabellen und bedingte Regeln sind hier üblich.

Das Ergebnis ist ein Mapping-Dokument. Es hält alle Zuordnungsregeln fest – als Tabelle oder in einer Mapping-Software.

Einsatzbereiche und Anwendungsfelder

Das Verfahren kommt überall vor, wo heterogene Datenquellen aufeinandertreffen. Eine Kernaufgabe ist es in ETL-Prozessen (Extract, Transform, Load): Daten werden aus Quellsystemen extrahiert, umgewandelt und in ein Zielsystem geladen – etwa ein Data Warehouse. Auch bei der Systemintegration ist es unverzichtbar, wenn Daten aus einem Altsystem in ein neues ERP-System übernommen werden.

Data Mapping im Kontext von Datenmigration und Systemintegration

Bei Datenmigrationsprojekten ist Data Mapping die Grundlage für jeden Migrationslauf. Typische Szenarien sind die Ablösung von Legacy-Systemen oder die Fusion von Unternehmensdatenbanken. Ohne klare Feldzuordnung werden Kundennummern, Produktcodes oder Datumsangaben falsch übertragen. Auch bei Drittanbieter-APIs ist das Verfahren nötig – zum Beispiel wenn JSON- und XML-Schemata nicht übereinstimmen.

Weitere typische Einsatzbereiche sind:

Business Intelligence (BI): Daten aus mehreren Quellen werden für Reports und Dashboards vereinheitlicht.
Master Data Management (MDM): Stammdaten werden systemübergreifend harmonisiert, um Datensilos zu beseitigen.
Cloud-Migration: On-Premises-Daten werden in Cloud-Strukturen überführt, wobei Schemas oft abweichen.
Datenschutz-Compliance: Datenflüsse werden für regulatorische Anforderungen dokumentiert.

Data Mapping und Datenschutz

Im Kontext der Datenschutz-Grundverordnung (DSGVO) hat das Verfahren eine eigene rechtliche Bedeutung. Artikel 30 DSGVO verlangt ein Verzeichnis der Verarbeitungstätigkeiten. Darin steht, welche personenbezogenen Daten wo gespeichert, wie verarbeitet und an wen übermittelt werden. Das datenschutzrechtliche Mapping ist enger gefasst als das technische – es verfolgt aber dasselbe Prinzip: Daten durch Systeme nachvollziehbar zu verfolgen.^[1]

Datenschutzbeauftragte nutzen dieses Werkzeug, um alle Datenströme einer Organisation zu erfassen. Das Ergebnis heißt Data Map. Sie zeigt alle Datenflüsse, Speicherorte und Verarbeitungszwecke. Sie ist Grundlage für Audits, Behördenanfragen und Datenschutz-Folgeabschätzungen. Der EU Data Act, der ab September 2025 gilt, erhöht die Anforderungen an klare Datenzuordnungen weiter.^[2]

Werkzeuge und Automatisierung

In der Praxis reichen die eingesetzten Mittel von einfachen Tabellenkalkulationen bis zu Integrations-Plattformen. Kommerzielle ETL-Werkzeuge wie Informatica PowerCenter, Talend oder Microsoft Azure Data Factory haben grafische Oberflächen. Felder lassen sich per Drag-and-Drop verknüpfen, Regeln visuell modellieren. Als Open-Source-Alternativen gelten Apache NiFi und Pentaho Data Integration.

Neuere Ansätze setzen maschinelles Lernen ein. Sie schlagen Feldkorrespondenzen automatisch vor – auf Basis von Feldnamen, Datentypen und Inhalten. Dieses Schema Matching spart Zeit. Es ersetzt die fachliche Prüfung aber nicht. In Big-Data-Umgebungen bleibt menschliche Kontrolle unerlässlich.

Die Qualität eines Projekts hängt stark von der Dokumentation des Quellsystems ab. Fehlen Metadaten oder ein Datenwörterbuch (Data Dictionary), steigt der Aufwand deutlich.

Abgrenzung zu verwandten Konzepten

Data Mapping wird oft mit ähnlichen Begriffen aus dem Datenmanagement gleichgesetzt. Die folgende Tabelle zeigt die Unterschiede:

Begriff	Schwerpunkt	Verhältnis zu Data Mapping
Data Transformation	Technische Umformung von Werten	Teilmenge; beschreibt die eigentliche Konvertierung
Data Integration	Zusammenführung verschiedener Quellen	Oberbegriff; Mapping ist ein Teilschritt
Schema Matching	Automatische Ähnlichkeitsprüfung	Vorgelagerte Analyse; mündet in ein Mapping
Data Lineage	Herkunft und Weg eines Datensatzes	Nutzt Mapping als Grundlage; geht darüber hinaus
ETL	Gesamter Datenpipeline-Prozess	Übergeordnet; Mapping strukturiert die Transform-Phase

Data Lineage verfolgt den Weg eines Datensatzes von der Entstehung bis zur heutigen Nutzung nach. Data Mapping dagegen konzentriert sich auf die Zuordnung zwischen zwei klar definierten Strukturen.^[3]

Qualitätssicherung und typische Herausforderungen

Fehlende Dokumentation im Quellsystem ist ein häufiges Problem. Sind Feldinhalte nicht einheitlich, braucht man Lookup-Tabellen und Normierungsregeln. Ein Beispiel: System A speichert „DE“, System B erwartet „Deutschland“. Auch fehlende Pflichtfelder im Zielschema bereiten Aufwand. Sie müssen mit Standardwerten gefüllt oder aus anderen Feldern berechnet werden.

Weitere Herausforderungen sind Zeichenkodierungen (UTF-8 vs. ISO-8859) und unterschiedliche Null-Wert-Semantiken. Bei regelmäßigen Ladeläufen muss das Verfahren zudem neue, geänderte und gelöschte Datensätze unterscheiden (Change Data Capture).

Bewährt hat sich ein mehrstufiges Vorgehen: zunächst Profiling der Quelldaten, dann die Mapping-Spezifikation, dann Unit-Tests und schließlich ein Gesamttest mit echten Daten. Dieses strukturierte Data Mapping sichert die Datenqualität dauerhaft und verringert den Nachbesserungsaufwand.

Literaturempfehlungen

Ralph Kimball, Margy Ross: The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. 3. Auflage. Wiley, Indianapolis 2013, ISBN 9780471153375.
Joe Caserta, Mark Linoff: Data Warehouse Design: Modern Principles and Methodologies. McGraw-Hill, New York 2011.