Kategorien
Allgemein Analyse Big Data

Das Gerücht in der Menge

Ach – schon so lange her, dass Jay Leno scharfzüngig und hinterlistig wie immer formulierte:  “We wanted a president that listens to all Americans – Now we have one”.

Es ist recht einfach, zu den Enthüllungen über die gigantische Überwachungsmaschinerie der USA eine Meinung zu haben. Besonders, wenn diese Meinung „wohlfeil“ ist, und sich in einer fundamentalen Empörung über diese Unverschämtheit oder einem Unverständnis über diese Empörung im schwarz/weiß verliert.

Und dann auch noch das Baby Big Data mit der Wanne Big Brother ausgeschüttet wird. Aber der Reihe nach.

… bau ’ne Maschine für uns

Die Maschine soll rausfinden, ob von Einzelnen oder Gruppen von Menschen eine Gefahr für Einzelne, Gruppen oder das Staatswesen ausgeht. Wir suchen: potentielle Terroristen.

Da haben wir klassischerweise zwei Möglichkeiten, am besten in Kombination:

  • Gesucht: Das Gesicht in der Menge! Soziologie und Psychologie. Soziologen erforschen, wie Gruppen von Menschen funktionieren, Psychologen wie Einzelne in diesen Gruppen sich verhalten. (ja, ist komplexer, aber wir bauen eine Maschine!). Das machen Soziologen und Psychologen schon seit Jahrzehnten – es gibt funktionierende Modelle von Gesellschaften und Menschen, dicke Bücher mit Theorien. Und andere dicke Bücher, die diesen Theorien widersprechen.  Trotzdem funktioniert es, wie das erfolgreiche Profiling in der Forensik immer wieder zeigt.

Über die Analyse von Big Data Analysen eröffnet sich eine weitere Möglichkeit:

  • Gefunden: Das Gerücht in der Menge! Mit Hilfe von möglichen umfassenden Datensätzen zum Verhalten, der Einstellung, Meinung von Menschen – und Datenquellen, die von Beobachtungen über Bewegungsprotokolle (Bahnfahrkarten, Flugtickets, Knöllchen, Sicherungskameras, Selbstäußerungen in Facebook, Foursquare, ..)) bis hin zu Observation reichen können. Und einer rein auf Ähnlichkeiten (Koorelationen) und Vergangenheitsdaten beruhenden Mustererkennung wird nach möglichst Verdächtigen gesucht. Naja – eigentlich rät man rum.

Screening: Wo lauert die Gefahr?

Die gewünschte hohe Sicherheit, möglichst alle „Gefahren“ zu erkennen hat zur Folge, dass auch „harmlose“ Menschen erst mal als potentielle Gefahr identifiziert werden können. Klar – Sie nicht. Oder doch?

Das Problem, falsch negative (da ist was, ich merke es aber nicht)  oder falsch positive (da ist nichts, aber das System schlägt Alarm) ist bei jedem Screening gegeben.

Im Alltag der Marktforschung kennen wir es Alpha- vs. Betafehler. Besonders augenfällig ist es bei sogenannten „Screenings“ in der medizinischen Diagnostik.

  • Beim Test auf schwere Erkrankungen wird darauf Wert gelegt, möglichst alle Erkrankten zu finden. Gute Tests haben eine „Entdeckungsquote“ von 99,9 Prozent oder besser. Wir testen einfach mal eine Millionen Menschen auf diese Erkrankung, wir wissen, etwa 0,1% der Bevölkerung erkrankt sein könnten.  99,9% Sicherheit bedeutet: von 1.000 Erkrankten in den 1.000.000 werden 999 als erkrankt erkannt. Das ist gut, oder?
  • Leider haben diese Tests auch die eingebaute unangenehme Eigenschaft,  falsch positiv zu testen. Also eine Erkrankung zu signalisieren, obwohl da keine ist. Wenn etwa 0,5% der Ergebnisse falsch positiv sind, bedeutet das bei einer Millionen getesteter Menschen 5.000 (fünf tausend!!!) bekommen erst einmal einen Schrecken.

Durch weitere Tests kann dies wieder klargestellt werden – aber der erste Schrecken bleibt. Dieser Betafehler ist übrigens auch einer der Gründe, weshalb Screenings sehr vorsichtig und zurückhaltend eingesetzt werden sollten.

Ist PRISM ein Screening?

Ich befürchte ja. Denn es gilt die Regel: Je sicherer etwas entdecken werden soll, desto eher hört man „das Gras wachsen“, verdächtigt „Unschuldige“. Und je mehr Leute (Screening)  „durchsucht werden“, desto mehr Unverdächtige werden fälschlich beschuldigt. Ein Fall ist recht bekannt geworden, der Berliner Soziologe Andrej Holm war „plötzlich Terrorist“.

Mein „educated guess“ ist: Die Zahl der fälschlich Beschuldigten wird mit jedem Screening wachsen, bald werden wir ein Heer von Menschen haben, die man sich genauer anguckt. Vielleicht tarnen die sich nur, sind „Schläfer“?

Kein Ausweg aus der Screening-Falle?

Doch – es gibt einen Ausweg. Die Medizinstatistik zeigt: Nur die untersuchen, die eine Prädisposition haben. Also sich Gefahren aussetzen oder durch Genetik oder Verhalten eine höhere Gefahr zur Erkrankung haben (Chemie, Umweltgifte, Tropenreisen).

Wenn man in der Logik von PRISM bleib: Erst die Menschen über Modelle der Psychologie und Soziologie erkennen und filtern, die überhaupt in Frage kommen, und dann screenen. Und selbst dann werden Unschuldige verdächtigt werden.

Das hatten wir aber schon mal – Big Data ist nicht gut oder schlecht, wenn es „right sized data“ ist. Sorgfalt, Theorie, Empirie, Statistik helfen. Dafür gibt es ja Profis.

Dieser Beitrag enthält bewußt sich jeglichen Kommentars, wie demokratische Staaten mit ihren Bürgern umgehen sollten, ob zum Schutz aller erst einmal die gesamten Bevölkerung oder einzelne Gruppen einem Generalverdacht unterliegen sollten. Der Beitrag mischt sich trotzdem ein: er zeigt auf, welche Gefahr durch die gewählte Methodik zusätzlich entstehen kann.

Ansonsten könnten schon bald Massenmails versandt werden: „Sorry, aber zu ihrer Sicherheit mussten wir Sie zum Beta-Fehler machen“.

Da bin ich doch lieber das Gesicht in der Menge, als ein Gerücht in Big Data.

 

Schreibe einen Kommentar