Big Data – Definition, Technologie und Anwendung

Big Data bezeichnet die Verarbeitung und Analyse extrem großer, heterogener und schnell entstehender Datenmengen, die mit herkömmlichen Datenbanksystemen nicht mehr bewältigt werden können. Der Begriff beschreibt sowohl das Phänomen massiv wachsender Datenvolumina als auch die technologischen Methoden zu ihrer Auswertung. Im Mittelpunkt stehen Erkenntnisse, die erst durch Kombination und statistische Auswertung sehr großer Datensätze entstehen.

Herkunft und Begriffsgeschichte

Der Ausdruck „Big Data“ tauchte in der Fachliteratur erstmals in den frühen 2000er-Jahren systematisch auf. Als prägend gilt ein Beitrag des US-amerikanischen Analysten Doug Laney aus dem Jahr 2001. Er beschrieb beim Beratungsunternehmen META Group drei Kerndimensionen großer Datensätze: Volumen (Volume), Geschwindigkeit (Velocity) und Vielfalt (Variety). Diese drei Dimensionen werden seither als die „3 Vs“ bezeichnet und bilden das konzeptuelle Fundament des Begriffs.

In den Folgejahren wurde das Modell um weitere Dimensionen erweitert. Häufig ergänzt werden Wahrhaftigkeit (Veracity), also die Qualität und Verlässlichkeit von Daten, sowie Wert (Value) als wirtschaftlicher Nutzen der Analyse. In manchen Definitionen finden sich bis zu sieben oder mehr „Vs“. Etabliert hat sich jedoch vor allem das Drei-V-Modell als minimaler Definitionsrahmen.

Die drei Kerndimensionen von Big Data

Die drei ursprünglichen Dimensionen beschreiben das Phänomen aus verschiedenen Blickwinkeln. Sie helfen dabei, klassische Datenverarbeitung von Big-Data-Szenarien abzugrenzen.

Big Data im Überblick: Volume, Velocity, Variety

Volume (Volumen) bezeichnet die schiere Datenmenge. Moderne Systeme erzeugen Daten im Bereich von Petabyte (10¹⁵ Byte) bis Zettabyte (10²¹ Byte). Das weltweite Datenvolumen wächst jährlich stark, weil immer mehr Geräte, Sensoren und Dienste kontinuierlich Daten produzieren.^[1]

Velocity (Geschwindigkeit) beschreibt, wie schnell neue Daten entstehen und verarbeitet werden müssen. Soziale Netzwerke, Finanzmärkte oder das Internet of Things generieren Datenpunkte im Sekundentakt. Viele davon müssen in Echtzeit ausgewertet werden.

Variety (Vielfalt) erfasst die strukturelle Heterogenität der Daten. Big-Data-Quellen liefern strukturierte Daten (z. B. Datenbanktabellen), halbstrukturierte Daten (z. B. JSON- oder XML-Dateien) und unstrukturierte Daten (z. B. Freitexte, Bilder, Audiodateien). Diese Mischung erfordert flexible Speicher- und Analysearchitekturen.

Technologische Grundlagen

Zur Verarbeitung großer Datenmengen haben sich spezialisierte Frameworks und Architekturen etabliert. Sie unterscheiden sich grundlegend von traditionellen relationalen Datenbanksystemen.^[2]

Verteilte Datenspeicherung und Verarbeitungsframeworks

Das bekannteste Open-Source-Framework ist Apache Hadoop. Es verteilt Speicherung und Verarbeitung auf viele miteinander verbundene Rechner, sogenannte Cluster. Das zugehörige Programmiermodell heißt MapReduce: Rechenaufgaben werden in kleine, parallel ausführbare Teilaufgaben zerlegt (Map) und anschließend wieder zusammengeführt (Reduce).

Apache Spark ist ein jüngeres Framework. Es hält Daten vorrangig im Arbeitsspeicher und ermöglicht dadurch deutlich schnellere Analysen als das plattenbasierte Hadoop-MapReduce. Für die Verarbeitung von Datenströmen in Echtzeit (Stream Processing) kommen Werkzeuge wie Apache Kafka oder Apache Flink zum Einsatz.

Auf der Speicherebene haben sich NoSQL-Datenbanken (z. B. MongoDB, Cassandra, HBase) etabliert. Sie nehmen unstrukturierte und halbstrukturierte Daten flexibler auf als klassische relationale Systeme. Das Backend solcher Systeme ist oft über viele Rechenzentren verteilt, um Ausfallsicherheit und Skalierbarkeit zu gewährleisten.

Anwendungsbereiche

Big Data findet in nahezu allen Branchen Anwendung, sobald digitale Prozesse ausreichend große Datenspuren hinterlassen.

Im Gesundheitswesen werden Patientendaten, Genomsequenzen und klinische Studien kombiniert. Ziel sind personalisierte Therapieansätze oder Frühwarnsysteme für Epidemien. Im Finanzsektor analysieren Algorithmen Millionen von Transaktionen in Echtzeit, um Betrugsmuster zu erkennen oder Kreditrisiken zu bewerten. Die Industrie setzt auf Maschinendaten für Predictive Maintenance – also die vorausschauende Wartung von Anlagen, bevor Schäden auftreten. Im Bereich Logistik 4.0 optimieren Echtzeit-Datenströme Lieferketten und Routenplanung.

Im digitalen Marketing ermöglicht das Konzept granulare Zielgruppenanalysen. Plattformen wie DMP Data Management Platforms aggregieren Nutzerdaten aus verschiedenen Quellen für eine gezielte Segmentansprache. Dieses Vorgehen wird unter dem Begriff Data Driven Marketing zusammengefasst.

Zusammenhang mit Künstlicher Intelligenz und Machine Learning

Big Data und Künstliche Intelligenz sind eng miteinander verknüpft, aber konzeptuell zu trennen. Große Datenmengen sind eine Voraussetzung für leistungsfähige Machine-Learning-Modelle. Algorithmen des maschinellen Lernens benötigen umfangreiche Trainingsdatensätze, um Muster zuverlässig zu erkennen. Ohne ausreichend Daten bleiben viele KI-Modelle ungenau oder schlecht generalisierbar.

Umgekehrt liefern KI-Methoden Werkzeuge, um aus großen Datenpools verwertbare Erkenntnisse zu gewinnen. Neuronale Netze und Deep-Learning-Architekturen klassifizieren unstrukturierte Daten wie Bilder, Audiodateien oder Texte automatisch. Das Konzept stellt die Rohstoffbasis bereit; KI liefert die Methodik zur Veredelung.^[3]

Datenschutz und rechtliche Rahmenbedingungen

Die massenhafte Erhebung und Auswertung von Daten wirft erhebliche datenschutzrechtliche Fragen auf. Sobald personenbezogene Daten verarbeitet werden, gilt in der EU die Datenschutz-Grundverordnung (DSGVO). Sie schreibt Zweckbindung, Datensparsamkeit und informierte Einwilligung vor. Diese Grundsätze stehen häufig im Widerspruch zum Big-Data-Prinzip der möglichst vollständigen Datenspeicherung.^[4]

Besondere Herausforderungen entstehen beim sogenannten Re-Identifikationsrisiko. Auch anonymisierte Datensätze lassen sich durch Kombination mit anderen Quellen mitunter einer konkreten Person zuordnen. Unternehmen, die mit Big Data arbeiten, müssen daher Privacy-by-Design-Prinzipien konsequent umsetzen. Löschfristen und Datenminimierung stehen in einem dauerhaften Spannungsverhältnis mit dem Bestreben nach vollständigen Datenpools.

Abgrenzung zu verwandten Begriffen

Big Data wird häufig synonym mit Begriffen wie Business Intelligence (BI), Data Analytics oder Data Science verwendet, obwohl sich die Konzepte inhaltlich unterscheiden.

Business Intelligence bezeichnet die strukturierte Auswertung historischer Unternehmensdaten. Ziel ist die Bereitstellung von Berichten und Kennzahlen für das Management. Sie operiert überwiegend auf strukturierten, internen Datenquellen. Data Science ist ein interdisziplinäres Forschungsfeld, das Statistik, Informatik und Domänenwissen verbindet. Große Datensätze können dabei eine Quelle sein, sind aber keine Voraussetzung. Data Analytics beschreibt allgemein analytische Methoden für beliebig große Datensätze. Der Begriff Big Data bezeichnet demgegenüber spezifisch jene Szenarien, in denen Volumen, Geschwindigkeit oder Vielfalt die Kapazitäten konventioneller Systeme übersteigen.

Literaturempfehlungen

Viktor Mayer-Schönberger, Kenneth Cukier: Big Data. Die Revolution, die unser Leben verändern wird. Redline Verlag, München 2013, ISBN 9780544002692.
Thomas H. Davenport: Big Data @ Work. Chancen erkennen, Risiken verstehen. Vahlen, München 2014, ISBN 9783800648153.
Bill Schmarzo: Big Data: Understanding How Data Powers Big Business. Wiley, Indianapolis 2013, ISBN 9781118740033.