Big Data

Definition von Big Data Jörg Blumtritt
17. April 2015 |  3292  0
Jörg Blumtritt

Big Data ist seit zwei Jahren eines der meist gebrauchten Buzzwords. Es ist gar nicht einfach, noch ernst zu nehmen, was eigentlich dahinter liegt. Denn Big Data ist nicht weniger, als die dritte große Welle von Innovationen, nach dem World Wide Web Mitte der 90er Jahre und Social Media Mitte der 2000er. Big Data ist ein Paradigmenwechsel, wie wir Informationstechnologie einsetzen. Es lohnt also, sich anzusehen, was hinter dem Buzzword steckt.

Data Science, die Wissenschaft von Big Data, hat sich in den letzten Jahren als eigenständige Disziplin etabliert. Data Science betrachtet Daten an sich als interessant und wertvoll. Also nicht als Mittel, sondern als eigenständiges Feld, das sich erforschen und wirtschaftlich verwerten lässt. Darin entspricht sie der Informatik, die den Computer ins Zentrum stellt und damit ebenfalls neben die Elektrotechnik oder Nachrichtentechnik getreten ist. Eindrucksvoll wurde diese Entwicklung bestätigt, als US-Präsident Obama im Februar 2015 einen Chief Data Scientist für die Regierung ernannte. Berufen wurde dazu DJ Patil, der zuvor als Data Scientist für das Social Network Linkedin gearbeitet hatte.

Während bis vor kurzem die meisten Daten durch Maschinen oder physikalische Systeme erzeugt wurden (Messwerte in der Industrie oder aus wissenschaftlichen Experimenten), entstehen heute die interessantesten Daten aus dem Verhalten von Menschen. „Data is made of people“ ist der erste Aspekt des Paradigmenwechsels. Dabei sind es keine Stichproben mehr, die wie früher von Marktforschungsinstituten erhoben werden, sondern Voll-Erhebungen: alle Nutzer meiner Website, alle Besucher meines Onlineshops, alle Mobilfunkkunden und so weiter. Mit mehr als zwei Milliarden Menschen, die über Smartphones das Internet nutzen, wird Mobile Technology zur wichtigste Datenquelle über Menschen.

Big Data: Wahrheit, die sich verändert

Zum Zweiten bedeutet Big Data ein anderes Verständnis von „Wahrheit“. Statt Hypothesen aufzustellen und dann zu testen (und anschließend für wahr zu halten), geht man jetzt davon aus, dass Zusammenhänge, die sich in den Daten zeigen, bestenfalls für eine gewisse Zeit stabil bleiben und sich jederzeit wieder ändern können. Statt zum Beispiel eine Werbekampagne zu entwickeln und dann laufen zu lassen, geht man mit Big Data dazu über, die Werbemotive ständig zu verändern: in zufälligen Mutationen, wie in der biologischen Evolution, neue Varianten auf einem Teil der Nutzer gegen die bisherige Fassung laufen zu lassen. Agile Statistics und A/B-Testing heißen die Methoden dazu. Die statistischen Verfahren, die zum Einsatz kommen, verzichten oft auf inhaltliche Interpretation. Data Science arbeitet quantitative; selbst Textanalysen oder Bilderkennung funktioniert häufig komplett ohne linguistische oder semantische Vorgaben.

Big Data von Jörg Blumtritt

Die Olympia icr 412 war einer der ersten vollständig elektronischen Rechner. Das Besondere daran ist der Arbeitsspeicher, ein akkustisches Delay Line Memory. Foto: Jörg Blumtritt

Zum Dritten benötigt Big Data nicht zwingend teure, spezialisierte Systemen. Bevorzugt wird billige Standard-Hardware eingesetzt. Hadoop läuft darauf als Betriebssystem – quasi das „Windows“ für Big Data. Nach Möglichkeit werden alle Rohdaten gespeichert und behalten und nicht (wie beim Datamining) erst auf Konsistenz geprüft, dann in Tabellenform aggregiert und schließlich als Rohdaten gelöscht. Auf diese Weise bleibt die gesamte Information erhalten, auch für zukünftige Verwendungszwecke.

Alle drei Punkte bedeuten schon einzeln genommen eine neue Sicht auf Information. Big Data fasst diese Veränderungen zusammen. Daher ist Big Data mehr als nur ein Schlagwort, auch wenn das Wort klingt, wie der billige Claim eines Computerherstellers.