blog-post-img-3804

Was ist Big Data?

Die im Titel gestellte Frage klingt trivial, aber die Dinge sind manchmal etwas komplizierter als zunächst gedacht. Dies gilt insbesondere dann, wenn bei Modebegriffen Dinge (Daten), Verfahren (Data-Mining), Technologien (Programmiersprachen, Datenbanksysteme) und deren Anwendung in einem marketingtauglichen Begriff vermengt werden.

Genau das ist bei Big Data der Fall. Die Eingangsfrage sollte also lauten: „Was meinen die Marketingfuzzis und IT-Vertriebler, wenn sie von Dingen reden, von denen sie keine Ahnung haben (neuerdings Big Data)?

Um uns dem Thema  sinnvoll zu nähern, werde ich zunächst ein paar Begriffe einführen. Fangen wir mit dem naheliegendsten an:

Wenn der Marketingfuzzi „Big Data“ sagt, meint er die Verarbeitung großer Datenmengen zum Zwecke des Erkenntnisgewinns, obwohl korrekt übersetzt (sofern das bei Modebegriffen möglich ist) eigentlich nur die Daten gemeint sind. Ich verwende im Folgenden die Begriffskombination „große Datenmengen“, um das Thema anschaulicher zu machen. Mit großen Datenmengen sind Datenmengen gemeint, die im Allgemeinen schwer zu verarbeiten sind. Das kann theoretisch schon bei ein paar Gigabyte der Fall sein, falls die Daten nicht in strukturierter Form vorliegen.

Merke: Big Data sind in der Regel große oder sehr große Datenmengen, die hauptsächlich in unstrukturierter Form vorliegen.

Das Strukturkriterium ist wichtiger als die Größe der Datenmenge. Eine relationale Datenbank wird, sofern sie korrekt angelegt ist, nicht unter den Begriff Big Data fallen. Auch dann nicht, wenn sie mehrere Terrabyte groß sein sollte.

Mit Marketingfuzzi meine ich jeden, bei dem es bei der gebetsmühlenartigen Wiederholung von was auch immer, eigentlich immer nur um Geld, Ruhm, Anerkennung oder sonstige Vorteile für sich selbst geht.

Data-Mining bezeichnet den Vorgang mittels geeigneter Algorithmen wertvolle Daten (in unserem Fall Entscheidungsgrundlagen und sonstige monetarisierbare Erkenntnisse) aus dem vorhandenen Datenrauschen zu extrahieren. Es geht also um die Beschaffung von Wissen, das bisher unbekannt UND potentiell nützlich ist. Unnützes Wissen ist allenfalls Gegenstand der „Neon“ (eine Art Bravo für die Ü-30 Zielgruppe) oder der „Bild“ (deren Hauptaufgabe in der Verbreitung von „Volks“-Produkten besteht. Insbesondere der „Volks-Verblödung“).

Big-Data und Data-Mining werden in den meisten Artikeln zu diesem Thema miteinander vermischt, was insbesondere auf den Umstand zurück zu führen ist, dass sie nicht unabhängig voneinander funktionieren. Die Methoden aus dem Data-Mining werden also häufig auf große Datenmengen angewandt.

Was unterscheidet Big Data von herkömmlicher Datenanalyse?

Das klingt bis hierher nicht sonderlich spektakulär, warum reden also alle davon? Die Frage ist nicht ganz unberechtigt. Aus Daten Informationen zu generieren auf deren Grundlage Entscheidungen getroffen werden, ist in jedem Unternehmen gängige Praxis. Der Bereich Big Data unterscheidet sich insbesondere durch folgende Punkte von herkömmlichen Daten-Auswertungen:

  • Volumen der Daten
  • Geschwindigkeit der Verarbeitung
  • Vielfalt der Datenquellen

Schon am ersten Punkt wird deutlich, wo der Ursprung von Big Data liegt. Wir Menschen erzeugen täglich Unmengen von Daten (insbesondere, aber nicht ausschließlich, im Internet). Kleines Beispiel gefällig? Die Menge der Daten, die jede Sekunde durch unsere Datennetze fließt, ist größer als die Menge aller im Internet verfügbaren Daten vor knapp 15 Jahren. Wen stellt das wohl vor Probleme? Richtig, unsere Freunde die Suchmaschinen. Hier hat Google natürlich ganze Arbeit geleistet und das MapReduce-Verfahren entwickelt. Grob gesagt, geht es um das schnelle Durchsuchen sehr großer Datenmengen.

Was kann ich mit Big Data genau analysieren?

Damit nähern wir uns den Einsatzfeldern des Data-Mining, wo es anfängt spannend zu werden. Typische Einsatzfelder sind:

  • Ausreißer-Erkennung (erkennt ungewöhnliche Ereignisse im Datenstrom);
  • Clusteranalyse (findet sich ähnelnde Objekte, was gewissermaßen das Gegenteil der Ausreißer-Erkennung ist);
  • Klassifikation (findet neue Zusammenhänge, nennen wir sie mir mal Informationsklassen);
  • Assoziationsanalyse (Leute, die Milch kauften, kauften auch Müsli);
  • Regressionsanalyse (wird für Prognosen verwendet: „Die Menschen fahren schneller nach Hause als zur Arbeit“) und
  • Zusammenfassung (dient der Reduktion von Daten ohne Informationsverlust).

Das datengetriebene Unternehmen

Dem Management-Autor Peter Drucker wird folgender Satz zugeschrieben: „Was man nicht messen kann, kann man nicht managen.“ Dieser Satz kommt in nahezu jedem Buch über Unternehmensführung und in jeder zweiten Ausgabe von Wirtschaftsmagazinen vor (vielleicht sollte das mal jemand mit Big-Data-Methoden untersuchen).

Was habe ich in dem vorhergehenden Absatz gemacht? Ich habe eine Behauptung aufgrund von Erfahrungswerten aufgestellt, die ich aus dem Konsum von Literatur zur Unternehmensführung und Zeitschriften ableite. Meine These ist für die meisten Leute nicht überprüfbar. Bei wichtigeren Aussagen kann Intuition oder subjektive Erfahrung zu einem ernstzunehmenden Problem für die Existenz eines Unternehmens werden, sofern auf deren Basis falsche Entscheidungen getroffen werden. Das schöne an Big Data ist, dass wir jetzt keine falschen Entscheidungen mehr treffen werden, weil wir ja alles auswerten und unsere Rückschlüsse daraus ziehen können.

Bevor ich auf die Interpretation der Data-Mining Resultate eingehe, schauen wir uns an, was die perfekte Unternehmensvision mit Big Data wäre (wie man sie von einschlägigen Experten unter anderem im Harvard Business Manager nachlesen kann):

  • Uns stehen alle Informationen zur Verfügung und wir können Sie auswerten;
  • Wir verlassen uns nicht mehr auf unsere Intuition, sondern auf die Ergebnisse unserer Auswertungen;
  • Wir treffen bessere Entscheidungen, weil Daten objektiver sind, als unser Bauchgefühl;
  • Dadurch werden wir 5% produktiver und 6% profitabler als unsere Konkurrenten (diese Studie gibt es wirklich – siehe Harvard Business Manager 11/2012).

Schöne neue Welt. Prost.

Es gibt dabei eine Reihe von Problemen. Data-Mining ist super, allerdings eher dumm. Anders ausgedrückt: Es findet Zusammenhänge über deren Bedeutung der Algorithmus keine Kenntnis hat. Wie das ausgeht, ist in Davids Diskurs zu vermeintlichen Ranking-Faktoren nachzulesen: Es kommt zu schwerwiegenden Fehlinterpretationen. Das Gleiche passiert, wenn man die falschen Daten betrachtet oder zu wenige.

Ich will die Nützlichkeit von Big Data keineswegs in Abrede stellen. Es gibt auch ganz coole funktionierende Ansätze (zum Beispiel die Vorhersage von Immobilienpreisen aufgrund von öffentlich zugänglichen Suchinformationen).

Allerdings hat jede Analyse von Daten mit dem Zweck von Prognosen einen erheblichen Makel: Sie bezieht sich auf die Vergangenheit. Ich möchte regelmäßig Menschen auf der Straße ohrfeigen, die offenbar der Ansicht verfallen sind, es sei irgendwie möglich aus der Vergangenheit Erkenntnisse über die Zukunft abzuleiten. Dieses Vorgehen funktioniert nur in fiktiven linearen Welten.

Das Truthahn-Problem

Manche Leute wissen, dass ich gern für die Allgemeinheit teilweise etwas seltsam anmutendes Zeug lese. Der Schwarze Schwan: Die Macht höchst unwahrscheinlicher Ereignisse von Taleb gehört dazu, macht aber mit dem Truthahn-Problem sehr deutlich, was ich zum Ausdruck bringen möchte:

Ein Truthahn kann auf Basis aller ihm zur Verfügung stehenden Daten auf einem (für seine Verhältnisse) langen Zeitstrahl aus jeder Datenanalyse schließen, dass ihm der Metzger, der ihn täglich füttert, wohlgesonnen ist. Diese Annahme bezahlt er spätestens an Thanksgiving mit dem Leben.

Die Ausreißer-Erkennung im Data-Mining wird ein solch seltenes Ereignis erst im Nachhinein, also zu spät, feststellen. Ihr wollt es lebensnaher?

Schaut euch die Flut an, die kürzlich gefühlt halb Deutschland unter Wasser setzte. Das Extremereignis ist deshalb extrem, weil keiner damit gerechnet hat, dass die Pegelstände von vor 500 Jahren erreicht werden.

Also, Big-Data, Data-Mining und andere Datenanalysen sind super. Aber nur dann wenn die Auswirkungen unwahrscheinlicher Ereignisse nicht lebensbedrohlich sind.

Bild: © Sergey Nivens – Fotolia.com

Jakob Holterhöfer 51 posts

Jakob hat Seosweet gegründet und zeichnet sich verantwortlich für die Softwareentwicklung.

11 Kommentare

  • Michaela (4 Jahren ago) Reply

    Vielen Dank für den ausführlichen und gut erklärten Artikel. Gut verständlich für all diejenigen für die "Big Data" im Moment noch lediglich ein Buzzword ist.

    P.S. Das Wort "Fuzzi" hätte ich weggelassen ;)

  • Jakob Zogalla (4 Jahren ago) Reply

    Manchmal helfen drastische Verniedlichungen den Menschen auf unterhaltsame Weise Geschwätz und nützliche Information voneinander zu trennen :-)

  • Rob (4 Jahren ago) Reply

    Na ja, ganz netter Artikel. Aber nicht so ganz treffend wie ich finde. Ich werde auch mal was zu schreiben. Finde du vermengst Big Data und Data Mining zu stark. Sprichst zu sehr von Data Mining als von Big Data selber. Big Data an sich ist nämlich mehr als nur ein BuzzWord für Data Mining.

  • Jakob Zogalla (4 Jahren ago) Reply

    Mach das @Rob
    Allerdings geht Big Data ohne Data Mining nicht sinnvoll. Und aus Marketingsicht ist mit Big Data einfach nur Data-Mining auf großen Datenbeständen gemeint.

    • in reply to Jakob Zogalla #2
      Rob (4 Jahren ago) Reply

      Wenn ich schon Marketingsicht höre... Big Data ist nicht Data Mining. Beides wir zusammen immer erwähnt, ja. Aber Data Mining betrachtet Details und Big Data das große Ganze und die Zusammenhänge.

      • in reply to Rob #3
        David Linden (4 Jahren ago) Reply

        Sorry Rob, Big Data ist das Gegenteil von Zusammenhängen, sondern einfach nur eine große Masse unstrukturierter Daten, wie Jakob auch geschrieben hat. Das ist wie Rohstoffe im Weltall (auf Asteoriden und so). Da gibt es Unmengen von, das wissen wir, aber wir kommen da bisher noch nicht dran weil es noch keine effektiven Methoden und Techniken gibt. Und jetzt der Grund warum ich das Rohstoffbeispiel gewählt hab: Data-Mining ist die Technik und die Möglichkeit die Rohstoffe abzubauen, sie nutzbar zu machen. Übertragen auf Daten macht Data-Mining die vorhanden aber aufgrund ihrer Masse unnutzbaren Daten nutzbar, um daraus Erkenntnisse zu gewinnen. Genau wie Jakob gesagt hat. Dass es Big Data gibt, ist erst nützlich, wenn man Data-Mining betreibt (wobei der Nutzen hier ungleich verteilt ist).

  • Rob (4 Jahren ago) Reply

    So ganz eurer Meinung bin ich da wirklich nicht... Aber ich lese noch ein wenig mehr dazu, und hör mir gern eure Ausführungen an.

    1.) Big Data ist nicht unstrukturiert, sondern nur komplex.
    2.) Big Data ist neben der Beschreibung von schwer zu verarbeitenden, massenhaften, komplexen Daten auch eine Methode.
    3.1) Data Mining bietet eine tiefe Einsicht und stellt viele Details heraus.
    3.2) Big Data (als Methode) gibt das große Ganze wieder, einen Überblick und zeigt so die Verbindungen der ganzen Details in einem Bild.

    Aber na ja, ich schreib das mal alles in meinen Artikel zusammen, mal sehen was dabei rauskommt.

    Nur so am Rande, worauf stützt ihr eure Aussagen? Sonst kann ich auch einfach jemanden fragen, der hier kommentiert und sagt: "Das was der Rob schreibt stimmt aber!". Quellen, Referenzen? Ich finde zB. die englischen Wiki Artikel gut ausgearbeitet und die LFM NRW schreibt auch dazu. Vllt erhellen mich eure Quellen mehr...

  • [...] Webanalyse Programmen, diversen Monitoring Diensten und so weiter und so fort.  Dabei werden, auch ohne Big Data, Unmengen an Daten erhoben. Die Welt dreht sich um Zahlen, Traffic, KPIs. Darauf wird nach wie vor [...]

  • [...] berechnet Facebook also aus der riesigen Menge an Daten ein für jeden User einigermaßen individuelles Ergebnis auf seine Suchanfrage. Um die Ergebnisse [...]

  • […] Skandal wird auch das Tracking noch mehr hinterfragt als vorher schon. Das in diesem Zusammenhang wichtige Buzzword Big Data durfte dann natürlich auch nicht fehlen und wurde behandelt von Karl-Heinz Land, der als […]

  • […] oder Google die Voice Search startet, dann ebenso. Auch denke ich dabei einerseits an Big Data, an Data Mining, oder negativ an die automatische Auswertung von Telekommunikation durch […]

Leave a Reply

Rules of the Blog
Do not post violating content, tags like bold, italic and underline are allowed that means HTML can be used while commenting. Lorem ipsum dolor sit amet conceur half the time you know i know what.

Loading Facebook Comments ...

No Trackbacks.