Wir bleiben bei den aktuellen Themen, wagen aber heute den Blick nach vorn. Konkret soll es um das britische Referendum zum Verbleib des Landes in der EU am 23. Juni 2016 gehen. Die Wichtigkeit dieses Referendums für die Zukunft Europas dürfte – unabhängig von der eigenen Position – unstrittig sein.
Good Judgment Inc. hat kürzlich damit begonnen, die zusammengetragenen (aggregierten) Vorhersagen ihrer Superforecaster zu diesem Thema zu veröffentlichen (Stand heute: 24% Austritt, 76% Verbleib). Dies im laufenden Prozess für eine Frage zu tun, stellt immer ein gewisses Risiko für die eigene Reputation dar. Auch die allerbesten Forecaster können bei einzelnen Fragen spektakulär danebenliegen.
Dazu kommt, dass die öffentliche Wahrnehmung von Wahrscheinlichkeiten oft verzerrt ist. Sagen Forecaster voraus, dass ein bestimmtes Ereignis mit 90% Wahrscheinlichkeit eintritt, wird es, wenn sie damit richtig liegen, eben in 10% aller Fälle nicht eintreten. Wertet man systematisch alle Vorhersagen aus einem längeren Zeitraum aus, erkennt man, dass das Team (oder auch ein einzelner Forecaster) insgesamt gut kalibriert war. Diese gute Kalibrierung bedeutet, dass ungefähr 9 von 10 solchen Ereignissen auch eingetreten sind. In der öffentlichen Wahrnehmung findet jedoch meistens keine solche systematische Auswertung statt. Stattdessen dominieren oft einzelne Erfolge oder Fehlleistungen die Reputation bestimmter Forecaster.
Nichtsdestotrotz begrüße ich den Schritt der Veröffentlichung. Langfristig führt kein Weg daran vorbei, wenn wir eine Kultur konkreter, überprüfbarer Vorhersagen im öffentlichen Diskurs etablieren wollen.
Nun zur konkreten Frage: Wie kommen wir auf diese Zahl? (Meine eigene Einschätzung liegt übrigens sehr nah an der aggregierten Zahl, im Bereich zwischen 25 und 30%). Auf der einen Seite ist ein Referendum, anders als z.B. eine Frage nach einem nordkoreanischen Atomtest im nächsten Jahr, eine relativ klare, modellierbare Angelegenheit. Es gibt eine Vielzahl von Meinungsumfragen, die man sammeln und auf dieser Basis Modelle schaffen kann. Bei Wahlen in den letzten Jahren hat v.a. Nate Silver mit dieser Methode der systematischen Aggregierung vieler Umfragen große Erfolge erzielt. Fairerweise sei darauf hingewiesen, dass er damit nicht der Einzige war. Wie wir im letzten Post gesehen haben, ist seine Forecasting-Bilanz auch keineswegs makellos.
Grundsätzlich gilt dabei: Mehr Umfragen bedeuten mehr Information. Der Durchschnitt mehrerer Umfragen ist der Wahrheit vermutlich näher als die allermeisten einzelnen Umfragen für sich genommen – auf dieser Idee beruht ja das gesamte Prinzip der “Weisheit der Masse”. Habe ich 10 Umfragen ungefähr gleicher Qualität und Stichprobengröße und 8 zeigen eine Mehrheit für Kandidat A und 2 eine Mehrheit für Kandidat B, dann ist die Wahrscheinlichkeit, dass Kandidat A am Ende auch gewinnt, sehr hoch – deutlich höher, als wenn ich nur eine Umfrage zur Verfügung hätte, die Kandidat A vorne sieht!
Können wir das Referendum also wie eine Wahl behandeln, bei der die zwei Möglichkeiten zwei SpitzenkandidatInnen entsprechen? Leider nein. Die Vergangenheit hat gezeigt, dass Volksabstimmungen eigenen Gesetzen gehorchen und deutlich schwerer vorherzusagen sind. So lagen die Demoskopen sowohl beim schottischen Unabhängigkeitsreferendum 2014 als auch beim griechischen Referendum über das Reformpaket während der Schuldenkrise 2015 deutlich daneben.
Ein Grundproblem ist, dass Wahlen zwar regelmäßig stattfinden, Referenden aber einmalige Ereignisse sind. Für Referenden gibt es keine klaren Präzedenzfälle. Zu Wahlen liegen erheblich mehr Informationen z.B. darüber vor, welche Bevölkerungsgruppen zu bestimmten Parteien tendieren und welche mit höherer Wahrscheinlichkeit überhaupt zur Wahl gehen. Dies erleichtert die Auswahl korrekter Stichproben bzw. die Korrektur roher Umfrageergebnisse.
Ein Beispiel: Es ist bekannt, dass ältere Wähler in den USA häufiger Republikaner wählen als jüngere. Gleichzeitig weiß man, dass jüngere inzwischen häufiger keinen Festnetzanschluss mehr haben, sondern ausschließlich mobil telefonieren. Führe ich also eine Telefonumfrage durch, bei der ich nur Festnetznummern anrufe, muss ich das rohe Ergebnis entsprechend korrigieren, sonst überschätze ich den Stimmenanteil der Republikaner. Bei der Präsidentschaftswahl 2008 wurde dieser Fehler von manchen Instituten noch gemacht. Inzwischen hat man daraus gelernt.
Dies ist nur eine, relativ klar ersichtliche, von sehr vielen möglichen Verzerrungen. In der Summe führt die Menge an Erfahrung, die Demoskopen mit Wahlen haben, dazu, dass ihre Vorhersagen hier deutlich besser sind als für einmalig stattfindende Referenden. Zu bedenken ist, dass es auch bei Wahlen zu Überraschungen kommen kann!
Wir müssen den vorliegenden Umfrageergebnissen also eine geringere Genauigkeit zuschreiben. Schauen wir uns die vorliegenden Umfragen an, sehen wir, dass die allermeisten eine mehr oder weniger knappe Mehrheit für den Verbleib sehen.
Würde es sich um eine Wahl mit zwei SpitzenkandidatInnen handeln, wäre angesichts dieser Menge von Umfragen die Wahrscheinlichkeit eines Sieges von KandidatIn A (Verbleib) sehr hoch, vermutlich zwischen 80 und 90%. Aufgrund der höheren Fehlerquote von Umfragen bei Volksabstimmungen müssen wir den Grad an Zuversicht also reduzieren.
Hinzu kommt noch eine letzte Frage: Inwieweit können unvorhergesehene Ereignisse die Stimmung beeinflussen und sid diese möglichen Überraschungen symmetrisch. Hier sehe ich eine gewisse Asymmetrie bei der Wirkung auf die involvierten Parteien. Unvorhergesehene Ereignisse können eher das Lager derer, die den Austritt wünschen, stärken (z.B. ein größerer Terroranschlag oder eine erneute Eskalation der Schuldenkrise in Südeuropa).
All dies ist ein nur sehr schwer formalisierbarer Prozess, der überwiegend intuitiv abläuft. Interessanterweise kommen aber die allermeisten Superforecaster dabei auf relativ ähnliche Zahlen – in diesem Falle also eine Wahrscheinlichkeit für einen Sieg von “Verbleib in der EU” von ca. 75%. Die Zukunft wird zeigen, wie gut wir hiermit lagen.