07 Dez

Cambridge Analytica. Oder wie man neue Werbemöglichkeiten erfindet.

7.12.2016      Welche Chancen haben Unternehmen, die das Verhalten von Menschen über die Schaltung von Werbung im Web (Adds)  – oder das „Injizieren“ von Kommentaren und Posts – mit ausreichender Wucht zu beeinflussen versuchen?

Als Data Scientist, Autor und Unternehmer interessiert mich dieses Thema aus professioneller Sicht. Und endlich gibt es einen Use Case dazu: Titel „Cambridge Analytica, Trump, Brexit und noch ganz viel mehr!“.

Hier die wichtigsten Ergebnisse.

In „Das Magazin“ erscheint am 3.12.2016 der folgende Artikel über Michal Kosinski, einen Data Scientist, der herausragende Grundlagenforschung betrieben hat.  https://www.dasmagazin.ch/2016/12/03/ich-habe-nur-gezeigt-dass-es-die-bombe-gibt/

Michal  Konsinski hat an der Cambridge University ein Verfahren entwickelt, wie man aus auch kurzen schriftlichen oder symbolischen Äusserungen von Personen auf die Persönlichkeit dieser Person schliessen kann. Diese Texte können unterschiedliche Quellen haben – und auch aus  dem Web (Bsp. Texte oder „Likes“ bei Facebook) bezogen werden. Das klingt wundersam und genial – und ist wie üblich mit einer sehr guten Idee, Fleiss und Forscherdrang umzusetzen.

Es empfiehlt sich, das Ergebnis der Forschungsarbeit im Web zu besuchen. Auf der Website https://applymagicsauce.com/demo.html kann man sich mit eigenen Texten versuchen. Zwischenergebnis nach meinen Recherchen: Das was die Cambridge UNIVERSITY (nicht die Firma!!) macht, ist wirklich fundiert und sehr interessant.

Forschen Sie selbst. Vielleicht mit mit eigenen Texten. Sie werden sehen – ein paar Zeilen eigenen Textes – und sie können „psychografiert“ werden. Vielleicht entdecken Sie auch den „Schwager Effekt“, von Statistikern „n=1“ Effekt genannt: Schwager Effekt:  Zu jeder Statistik findet man einen Schwager, auf den diese Statistik nicht zutrifft. Das „n=1“ bedeutet – der Schwager ist nur eine einzelne Person, und damit kein Beweis „gegen“ die Statistik, die wurde (hoffentlich) an einer repräsentativen Stichprobe erhoben.

Das bedeutet: Die Ergebnisse der Tests werden nicht  immer 100% zutreffend für Sie sein. Sie sind auch nur „n=1“ – also eine einzelne Person. Beim weiteren Erforschen der Seite bekommen Sie aber  Informationen, wie es zu diesem Instrument kam und wie exakt dieses messen kann. Beim Klicken der an den Indikatoren positionierten „?“  wird u.a. erklärt:  „The predictive model was built using a sample of 260,000 participants’ scores on the 100-item long International Personality Item Pool Questionnaire (IPIP), arguably the most popular personality assessment in use today“. Prediction Accuracy (Area Under the Curve) : Between .35 and .50″ (Anmerkung: perfekt wäre eine Güte von 1 = 100%ig richtige Vorhersage, ganz mies 0 = 0%).

Wie hat Herr Kosinski (und seine Kolleg*innen) das also gemacht? In einer Studie mit 260.000 Menschen werden Zusammenhangsmaße zwischen den Ergebnissen von psychologischen / psychiatrischen Tests (Big 5) und „anderen“ Variablen ermittelt. Ziel ist es,  die Fragen des wissenschaftlichen Tests „Big 5“ gar nicht mehr stellen zu müssen, sondern sogenannte „Proxies“ (Stellvertreter) zu finden, die hoch korrelieren. Statt 100 Fragen beantworten zu lassen,  braucht man nur noch diese Proxies (Bilder, Formulierungen, Likes) als Indikator. Dieses Verfahren wird auch bei der Entwicklung von Persönlichkeitstest genutzt, um handhabbare (z.B. kurze),  valide (genaue) und reliable (verlässliche) Messverfahren zu entwickeln.

Die Bildung von Proxies kann mit dem Verlust der Güte eines Test einhergehen – die Vorhersagegenauigkeit leidet. Aber: Wenn ich statt der 100 Fragen der Persönlichkeitstest nur die Anzahl der Likes auswerten muss, um z.B. Neurotizismus zu erkennen, geht’s schneller, man muss nicht Fragebogen ausfüllen lassen, es ist preiswerter. Aber halt nicht so genau.

Herr Kosinski zeigt auf, dass dies auch mit öffentlich zugänglichen Proxies geht: Diese Art der Äusserungen findet man man bei Facebook in jedem Profil. Nun, eine Vorhersagegenauigkeit von .35 bis .50  ist nicht sonderlich hoch, im wissenschaftlichen Sinne. Aber schon nutzbar, wenn man ansonsten nichts weiss über ein Gegenüber oder eine Person hinter einem Facebook Profil. Und, wenn man nichts weiss, aufgrund von Selbstauskünften wie Wohnort und Beziehungsstatus mit der Giesskanne Werbung ausschütten müsste.

Es wird so gut nutzbar sein, dass tatsächlich die ein oder andere Person gefunden wird, die von ihrer Persönlichkeitsstruktur für definierte politische Botschaften oder Produktwerbung aufgeschlossener ist.

Zwischenbemerkung – die sogenannten „Big 5“ zu nehmen, ist der richtige Ansatz: Alle anderen Persönlichkeits-Tests sind eher auf dem Mess-Niveau von Horoskopen. Siehe: http://databerata.de/anleitung-zum-wahrsagen/.

Die Firma Cambridge Analytica (CA) nutzt dieses Vorgehen kommerziell und posaunt: Wir haben nicht nur Trump gekrönt, sondern bereits dem „Brexit“ den Weg  bereitet.

Wie genau soll das gehen?

  1. Cambridge Analytica ermittelt „auf Vorrat“ Persönlichkeitsprofile aus Facebook Profilen
  2. CA bekommt den Auftrag, potentielle Trump-Wähler zu finden und zu beeinflussen
  3. Eine Analyse der Zielgruppe „potentielle Wähler von Trump“ hätte ergeben, dass diese eher zu einer selbstunsicheren Persönlichkeitsstörung  neigen („… ist gekennzeichnet durch Gefühle von Anspannung und Besorgtheit, Unsicherheit und Minderwertigkeit. Es besteht eine andauernde Sehnsucht nach Zuneigung und Akzeptiertwerden, eine Überempfindlichkeit gegenüber Zurückweisung und Kritik mit eingeschränkter Beziehungsfähigkeit. Die betreffende Person neigt zur Überbetonung potentieller Gefahren oder Risiken alltäglicher Situationen bis zur Vermeidung bestimmter Aktivitäten.
    Quelle Wikipedia, https://de.wikipedia.org/wiki/Selbstunsicher-vermeidende_Persönlichkeitsstörung vom 17.1.2017 11:05)
    .
  4. Cambridge Analytica  selektiert aus den gespeicherten Persönlichkeitsprofilen die zutreffenden Zielprofile (a la Kosinski)
  5. und postet auf deren Timeline in Facebook entsprechende Meldungen
  6. … und kann tatsächlich, nicht perfekt, aber ganz gut, Meinungen beeinflussen.

Beim genaueren Hinsehen entsprechen diese Schritte auch einem „traditionellen“, durch  Tracking und Tracing generierten Profiling von Zielpersonen im Web. „Personalisierte Werbung“ heisst der Fachbegriff.   Nur ist dieses Profiling meistens nicht so gut ….

Mit den Veröffentlichungen von und über Cambridge Analytica entstand eine Welle von Kommentaren, die wie einander zitierend sich zumindest an einem Wortspiel probierten: „Big Data – Big Schwindel“ wurde z.B.  am 6.12.16 die Meldungen in der WELT getitelt. Wobei diese nicht-Fach-Artikel mit wenig statistischer und analytischer Fachkenntnis aufwarten konnten.

Hat nun CA Trump auf den Thron geholfen? Dem Brexit zur Mehrheit verholfen? Ob das Schwindel war – das könnten exakte Analysen und Befragungen beantworten. Auf jeden Fall ist Cambridge Analytica ist ein echter PR Coup gelungen. Sehr lautstark krönen sie sich zu den Königsmachern. Und es stimmt: Ihre Werkzeuge greifen auf der Basis Psychografie besser, als es anderen Verfahren des Tracking und Tracing tun (die üblicherweise auf Grund einer Surf-Historie  einer Person ein „Profil“ zuweisen, um dann individuelle Werbung zu schalten).

Meine Meinung ist: Das Ziel von CA dürfte nicht der nächste Auftrag von der AfD oder Herrn Wilders sein, sondern Fuß zu fassen in der lukrativen Welt des Tracking und Tracing: Ein echter Clou! Kategorisiere psychografisch ein Facebookprofil auf Basis der Likes und Statements, spiele „passgenaue“ Werbung (Adds) hinzu, und revolutioniere den Markt der Online Werbung. Damit wäre CA ein idealer „Partner“ für Facebook, Google & Co..

TL; DR

Cambridge ANALYTICA nutzt eine fundierte wissenschaftliche Entwicklung der Cambridge University, um Personen zu „psychografieren“. Diese „Psychografien“ können genutzt werden, um leicht beeinflussbare Menschen zu finden um diese zu „informieren“.

Nutzbar ist dies sowohl für Politiker – aber eher noch für Werbetreibende. Das Big Business mit Big Data könnte erklären, warum Cambridge ANALYTICA so laut mögliche Erfolge rausposaunt.

______________

Stand der Informationen: 17-01-17

15 Okt

Predictive Analytics? Ich sehe was, was Du nicht siehst!

Ich sehe was, was Du nicht siehst? Predictive Analytics!

Von Hans-Werner Klein, Twenty54Labs (Erschienen am 15.10.2015 in: „Das ganz große Ding – Predictive Analytics / Big Data“ Marktforschung.de – Das Dossier)

Predictive Analytics von einem Marktforscher durchleuchten lassen, das hat schon was. „Predictive“ waren die meisten Produkt-Marktforschungen schon immer, gerade deshalb wurden sie schließlich gemacht: Unternehmen erstellen schließlich Geschäftspläne auf Basis von datenbasierten Prognosen.

Soziologische Analysen hatten auch zumeist die Idee, dass man Verhalten von Gruppen analysieren und vielleicht auch vorhersagen kann. Mit den größten Wert auf „Predictive Analytics“ legen politische Parteien – und schauen sich ganz genau an, wie welche Themen in der Bevölkerung zu einem Erfolg der Partei am Wahltag führen können. Vielleicht kann ich diesen Beitrag für das marktforschung.dossier mal anders angehen. Vielleicht aus der Ecke Literatur, Film, Kunst oder  literarisch-philosophisch? Weiterlesen

17 Feb

Sind Sie etwa fremdgegangen an Weiberfastnacht?

Weiberfastnacht 2015, Bonn. Ich hab fremd geschrieben. Die Verlockung war zu groß. In einem 90 minütigen Rausch* habe ich es dann gemacht.

Sie heisst p&a. 20 Jahre nach dem ersten Mal. Damals ging es um „Neuronale Netze – Mode oder Methode“. Damals ein zukunftsweisender Ansatz, mit selbstlernenden Algorithmen Daten zu clustern oder Faktorenanalyse durchzuführen oder auch Multikausalitätsanalysen einem Neuronalen Netzwerk zu überlassen.

Die Ergebnisse waren erstaunlich – wie aber häufig kam das schale Gefühl danach:  Was bringen wunderbar tolle Methoden, wenn die Kunden (zu Recht!) „nur“ an den Ergebnissen interessiert sind? Weiterlesen

10 Sep

Lara gesteht. Urmel war bezahlt. DataKrimi II

Was bisher geschah: Lara, eine Schauspielerin aus Lübeck hat ihr erstes Engagement in ihrer Heimatstadt. Eine freie Bühne hat ihr die Hauptrolle in einem Krimi angeboten.

Statt eines Textbuches findet sie einen 3-seitiges Papier, in der sie als Lara die Rolle in einem verwirrenden Krimifragment spielt, in der Post. Lara wird im Anschreiben gebeten, das Drehbuch weiterzuschreiben. Sie bittet einen befreundeten Datenspezialisten, die Geschichte zu entwirren. Das Textbuch wird als „bereinigtes Fragment“ im Blog des DataBerata veröffentlicht.

Eine eher unübliche Voranalyse einer Datenanalysen beginnt. Wenn Daten bereits vorliegen, sollte „Data-Cleansing“ – also das Reinigen der Daten eine gute Idee sein, um mit wenig Beifang in die Arbeit zu gehen. Dazu werden gebraucht: Faktenrecherche und Tools wie das TextMining (also semantische Analysen).

Was sind die Fakten?DSCF7306

Zeit?
Friedensdemo: Die Friedensdemonstration hat am Holstentor am 11.8.von 11-14 Uhr stattgefunden.
Wetterbedingungen: Es gab ein Unwetter mit Nacht am Tag am 11.8. gegen 15:30
Datum und Uhrzeit, an dem das Script spielt, lassen sich genau nachvollziehen.

Orte?
Die angegebenen Orte sind real – tatsächlich findet man die angegebenen Plätze:
Das Theaterpuppen-Museum gibt es, an einer Ecke baumelt ein Drachen an einer Kette.
An dem Museum führt eine Einbahnstraße entlang, die gepflastert ist.
Auch Details sind stimmig: Auf dem Weg vom Holstentor zum Museum sind Schuhläden, die wie immer einen rechten Schuh nach draußen stellen, zum schnellen Anprobieren.
Das Schwimmbad an der Waknitz ist existent. Seit 1922 oder länger.

Ereignisse?
Todesfall an dem fraglichen Tag: Recherche bei den Einsatzkräften ergibt, es gab keinen Einsatz von Polizei oder Rettung in der Nähe des Museums
Es wurde kein Bestatter beauftragt.
Bisher wurde keine Leiche, auf die die Beschreibung zutrifft, im Wasser oder auf Land gefunden.
Der Drache hängt (immer noch / wieder) an seinem Platz. Die Frage nach einem „Fall“ wurde nervös mit „nein, nein!“ beantwortet. Beschädigungen des Drachens sind auch mit Teleobjektiv nicht auszumachen).

Was macht Lara daraus?

Ein Drehbuch eines Lübeck Krimis – demnächst in der Freien Bühne zu sehen. Sie hat den Drachen dafür engagiert, oder besser: eine Kopie. Für Urmel musste sie zahlen!

Was hat das mit DataBeratung zu tun?

Eine Menge – oft sind Aufträge oder Ausschreibungen wie ein DataKrimi verschlüsselt. Fakten müssen geprüft werden, Zusammenhänge entschlüsselt, Hintergründe recherchiert werden. Daten sollten erst einmal geprüft und bereinigt werden, damit man „an die Schätze kommt“ und nicht von Verpackung und Merkwürdigkeiten abgelenkt wird. Data Cleansing entwickelt sich immer mehr zu einer unabdingbaren Voraussetzung, bevor Complex & Large Scale Data (unzureichend Big Data genannt) analysiert werden können.

Dazu gehört neben neuester Technologie (Semantik, Multivariate Verfahren – die ein DataBerata nutzen sollte) auch Expertenwissen. Also das Know How der Auftraggeber, die Kenntnis in den Fachbereichen.

Gibt’s noch einen DataKrimi?

Ja – ich freue mich auf meinen DataKrimi aus Würzburg. Diesmal helfen Zahlen einen besonders merkwürdigen Fall aufzuklären.DSCF7516

24 Jul

Elise bleibt ungehört. Ein DataKrimi I.

Blitzartig wurde es hell. Lara bemerkte, dass ihr Verfolger seinen linken Schuh verloren haben musste. Der rechte Riesenfuss steckte in einem perlmuttfarbenen Pumps.

Sicherlich in dieser Größe schwer zu finden. Der Donner und die Dunkelheit tarnten Laras schnelle Schritte über das Kopfsteinpflaster. Blitz. Lara drückte sich an den Eingang des Theaterpuppenmuseums. Gelangweilt sahen ihr die Puppen dabei zu. Eher zu neutral. Finde ich nicht richtig, denkt Lara.

Wenn ich eine Puppe wäre, dann lieber eine Marionette als eine Stabpuppe oder eine Handpuppe. Blitz. Der Verfolger fünf Schritte entfernt. Augsburger Puppenkiste meets Monty Python, denkt Lara. Da steht ein Mann, bestimmt zwei Meter groß unter einem Drachen – einem Urmel aus Eisen, das übermütig vor Freude quietschend vier Meter über der Strasse hin und her wackelt im Wind. Donner abwarten und weitere Flucht? Blitz. Donner. Auch das Gewitter kommt näher. Blitz.

Weiterlesen