Big Data – warum eigentlich nicht?!
The bigger the better! Steckt nicht in „Größe“ ein Vorteil in der Datenanalyse?
Erst einmal – wir sind hier nicht an der Frittenbude, wo wir einen Double-Cheese-Tripple-Salad Monster Big Burger bestellen und wirklich mehr bekommen – sondern im Bereich der Datenanalyse. Wir wissen zwar oder ahnen – irgendwo in den Terrabyte an Daten, da steckt was. Wissen über das Unternehmen, Prozesse, Marketing, Kunden, Vertrieb, unsere Produkte.
Aber was genau ist drin in der Wundertüte? Und, genau: Was hat BIG damit zu tun? Es ist nicht alles das gleiche, was „Big“ genannt wird. Groß werden Datenmengen,
- wenn man nicht genau drauf achtet, was man alles sammelt,
- wenn’s passiert ist, und Daten sich über die Zeit angehäuft haben,
- wenn man einen breiten Datenstrom hat, der erst mal gesichert werden musste, um ihn später auszuwerten,
- wenn man äußerst seltene Ereignisse aus einem Riesen-Datenhaufen extrahieren möchte. Zum Punkt 4 wird es eine weitere Episode DataBerata Big Data in Kürze geben.
- ein Modell sich aus großen Datenmengen zusammensetzt (Beispiel: Planck Daten zur Entstehung des Kosmos – siehe: Artikel aus der Süddeutschen)
In den Fällen 1, 2 und 3 – Entspannung: Hier ist faktenbasiertes Aufräumen der richtige und einfache Weg. Ist wie Keller aufräumen, oder Garage oder Dachboden. Nicht entspannend? Oh je, schlechtes Beispiel.
Also – weitere Entspannung: Am besten setzt man sich mit einem (externen) Experten zusammen, sortiert aus und legt Regeln fest, was man braucht. Um Fragen zu beantworten. Das haben wir hier schon mal behandelt. Externe haben den Vorteil, dass man denen erst mal alles erklären muss. Und darüber mindestens 40% der (Selbst-) Erkenntnisse kommen. Der Rest ist Erfahrung, eigene, die des Experten / der Expertin.
Und diese Erfahrung rät: Wenn trotzdem der Wunsch nach der Speicherung großer Datenmengen auftaucht (Grund: weil, man weiß ja nie), bitte erst mal die folgende, wahre Geschichte durchlesen:
Es muss nicht immer Kaviar sein – oder: Wie gut eine gute Stichprobe funktioniert. Das wissen wir spätestens seit 1936 durch einen Wettbewerb. Aufgabe: Wer prognostiziert den künftigen Präsidenten besser, der Meinungsforscher George Gallup oder die Zeitschrift Literary Digest?
Literary Digest versandte 10 Millionen Fragebögen an alle seine Leser (es kamen etwa 2,4 Millionen zurück) in der Annahme, diese würden die Wähler in USA repräsentieren = BigData!
Gallup befragte 1.500 US-Amerikaner (nach einem heute noch verwendeten Stichprobenverfahren) = Rightsized!
Wie ging der Wettbewerb aus? Gallup sagte das Ergebnis sehr genau voraus – Literary Digest lag 19% Punkte daneben und prognostizierte den unterlegenen Kandidaten als neuen Präsidenten.
Aus der Marktforschung wissen wir: Eine Vollerhebung (also alle relevante Personen oder Dinge oder Meinungen werden erfasst) ist teurer und nicht automatisch besser als eine Studie, die eine Stichprobe nutzt. Zudem hat die Vollerhebung den Nachteil, dass sie eventuell gar nicht „voll“ ist. Z.B. relevante Personengruppen nur unvollständig befragt wurden. Die Literary Digest machte zwei Fehler: Einmal hielt sie ihre Leserschaft für repräsentativ zur Grundgesamtheit der US-Wähler. Dann hat sie sich nicht um die Verzerrungen gekümmert, die durch die Antwortverweigerer entstand. Eine wichtige Lektion auch für Big Data.
Fazit: Big (Data) ist nicht immer besser (Fall 1 – 3). Size doesn’t matter.
PS: George Gallup gründete übrigens mit dem Ruhm einer guten Prognose ein weltweit operierendes Mafoinstitut.
PPS: Aufmerksame Leser kennen diese Geschichte bereits teilweise. Aus der Weihnachtszeit …. Da war das Wetter auch ähnlich wie diesen März.