Hier sind zwei ähnlich klingende Meldungen zu den Kandidaten McCain, Clinton und Obama. Allerdings besagt die eine das Gegenteil der anderen. Eine ist echt. Eine habe ich gefälscht:
Meldung A:
Meldung A habe ich gefälscht.
Was soll das Spielchen? werden Sie fragen. Nun, das Spielchen soll illustrieren, wie problematisch derartige Meldungen sind.
Gefälscht ist nämlich nur, daß es die Los Angeles Times war, die die Daten in Version A publizierte. Tatsächlich habe ich sie dem Wikipedia- Artikel "Nationwide opinion polling for the United States presidential election, 2008" entnommen, der, ständig aktualisiert, die Ergebnisse der Umfragen zu den Wahlen am 4. November bringt. Die Daten, die ich in die Meldung eingesetzt habe, wurden von Gallup im Aufrag von USA Today erhoben; Erhebungszeitraum 1. bis 4. Mai.
Wie kommt es, daß zwei gleichermaßen renommierte Institute im gleichen Zeitraum zu so unterschiedlichen Werten kommen? Bedeutet das nicht, daß man der Demoskopie nicht trauen kann?
Doch, man kann ihr trauen. Man muß aber verstehen, auf welcher Grundlage sie funktioniert.
Im Vorspann zu der ausführlichen Auflistung der aktuellen Daten von Gallup schreibt USA Today etwas zur sogenannten Fehlermarge, in Deutschland seltsamerweise und sehr mißverständlich oft "Fehlerquote" genannt. Mißverständlich deshalb, weil es sich keineswegs um eine Quote, also einen Anteil handelt, sondern eben um eine Marge. Ein Intervall also, einen Bereich, eine Abstand:
Nehmen wir an, am Strand von Sylt liegen 50 Prozent schwarze und 50 Prozent weiße Muscheln. Ich gehe an diesem Strand entlang, hebe völlig zufällig Muscheln auf und lege sie in meinen Korb. Wenn ich das oft genug getan habe, ist es wahrscheinlich, daß von den Muscheln im Korb ungefähr die Hälfte schwarz und die Hälfte weiß sind.
Aber das ist nur wahrscheinlich; es ist keineswegs sicher. Möglich ist es auch, daß ich zufällig nur schwarze oder fast nur schwarze Muscheln gegriffen habe. Jede Proportion von schwarzen und weißen Muscheln in meinem Korb ist möglich.
Warum sind nicht alle Proportionen von schwarz zu weiß gleich wahrscheinlich?
Daß alle Muscheln, die ich aufgehoben habe, schwarz sind, ist sehr unwahrscheinlich, weil es nur eine einzige Sequenz gibt (ich muß jedesmal eine schwarze Muschel aufgehoben haben, also SSSSS usw.), die zu diesem Ergebnis führt.
Daß die Hälfte schwarz und die Hälfte weiß sind, ist viel wahrscheinlicher, denn es gibt viele Sequenzen, die zu diesem Ergebnis führen (schon bei vier Muscheln, die ich aufhebe, zum Beispiel SSWW, SWSW, WWSS, WSWS, WSSW, SWWS).
Allgemein: Je mehr Sequenzen es gibt, die zum selben Ergebnis führen, umso wahrscheinlicher ist dieses Ergebnis. Aber möglich ist auch jedes andere.
Auf die Demoskopie übertragen bedeutet das: Wer US-Bürger nach ihrer Präferenz für Obama oder McCain fragt, der kann, wenn er Pech hat, in seiner Stichprobe 70 Prozent Zustimmung für Obama bekommen, obwohl in Wahrheit 60 Prozent McCain wählen wollen. Das ist möglich, es ist nur sehr unwahrscheinlich. Aber gegen einen solchen Fall gibt es für den Demoskopen keinen absoluten Schutz.
Es gibt nur so etwas wie einen relativen Schutz. Der Demoskop kann ausrechnen, wie groß die Wahrscheinlichkeit ist, daß ihm ein solches Malheur passiert. Und er kann dann Vorsorge dafür treffen, daß diese Wahrscheinlichkeit nicht größer ist, als er sie zu tolerieren bereit ist.
Dazu muß der Demoskop erstens definieren, was er als ein Malheur betrachtet. Und er muß zweitens festlegen, welches Risiko er einzugehen bereit ist, daß ihm ein solches Malheur widerfährt.
Für beides gibt es eine Konvention, auf die sich die Demoskopen geeinigt haben: Ein Malheur ist es, wenn der gemessene Wert um mehr als drei Prozentpunkte von dem wahren Wert abweicht. Und das Risiko eines solchen Malheurs sind sie einzugehen bereit, wenn die Wahrscheinlichkeit, daß es auftritt, bei nicht mehr als fünf Prozent liegt.
Aus beiden Festlegungen zusammen ergibt sich daß man mindestens rund tausend Menschen befragen muß. Das kann man ausrechnen.
Abweichungen zwischen den Ergebnissen der einzelnen Institute sind also etwas völlig Normales; auch größere Abweichungen. Erstens, weil auch ohne das Malheur damit gerechnet werden muß, daß die eine Umfrage um drei Prozentpunkte nach unten, die andere nach oben vom wahren Wert abweicht. Macht einen Unterschied von sechs Prozentpunkten zwischen den Daten der beiden Institute, ganz ohne ein Malheur. Und dann kann noch das Malheur passieren, in prinzipiell beliebiger Höhe.
Kann man dennoch zu relativ sicheren Vorhersagen kommen? Ja, und zwar durch das Zusammenfassen (Aggregieren) von Daten.
Das kann man entweder so machen, daß man die Daten mehrerer Institute zusammenfaßt (Poll of Polls). Oder ein einzelnes Institut kann seine Umfrage immer wieder - im Extremfall täglich - wiederholen und die Daten aus diesen einzelnen Durchgängen zusammenfassen.
Das Letztere tut Gallup zu den Präsidentschaftswahlen. Die Umfrage wird täglich durchgeführt, und die Ergebnisse von jeweils fünf aufeinanderfolgenden Tagen werden in einem gleitenden Mittelwert zusammengefaßt. "Gleitend" (Englisch Running Average) deswegen, weil jeden Tag der neue Wert hinzukommt und dafür der älteste herausfällt; es gleitet also gewissermaßen ein Fenster über die Daten hinweg.
Und was sagt nun dieser gleitende Mittelwert über McCain und Obama? Hier sind die Daten der letzten zehn Tage (1. bis 10. Mai) für die Frage, wen der beiden man gegenwärtig wählen würde:
Obama: 42, 42, 42, 43, 45, 46, 46, 46, 46, 47
McCain: 48, 48, 47, 47, 46, 45, 45, 45, 45, 44
Es gibt einen Trend zugunsten von Obama. Am 1. Mai lag McCain noch mit 48 zu 42 vorn; am 10. Mai hatte Obama einen Vorsprung von drei Prozentpunkten.
Die Fehlermarge beträgt bei diesen gleitenden Mittelwerten nur zwei statt der üblichen drei Prozent. Es wäre also kein Malheur für die Demoskopen von Gallup, wenn am 1. Mai der wahre Wert für Obama 44 und für McCain 46 Prozent betragen hätte, und am 10. Mai für Obama 45 Prozent und 46 Prozent für McCain.
Wahrscheinlicher ist es aber, daß gegenwärtig Obama einen kleinen Vorsprung hat. Vor zwei Wochen war es noch anders. In zwei Wochen kann es wieder anders sein.
Daraus irgend etwas über die Wahlaussichten abzuleiten wäre so, als würde man aus dem schönen Wetter am heutigen 12. Mai schließen, daß auch am 4. November die Sonne scheinen wird.
Meldung A:
McCain würde gegen Obama und Clinton gewinnenMeldung B:
Laut einer Umfrage der 'Los Angeles Times' vom Wochenende würde sich der bereits feststehende Kandidat der Republikaner, John McCain, sowohl gegen Obama als auch Clinton durchsetzen. Das Duell mit Clinton würde der Senator aus Arizona mit 49 zu 46 Prozent gewinnen. Gegen Obama würde er 48 Prozent erzielen, einen Punkt mehr als der Senator aus Illinois. Die Fehlerquote der Erhebung lag bei drei Prozentpunkten.
McCain würde gegen Obama und Clinton verlierenMeldung B ist die echte. Sie stand gestern um 17:49 Uhr in "Welt Online". Überschrift: "McCain würde gegen Obama und Clinton verlieren". Grundlage des Berichts von "Welt Online" ist ein Artikel in der Los Angeles Times vom vergangenen Samstag, in dem über eine Umfrage im Auftrag der Los Angeles Times berichtet wurde. Erhebungszeitraum war der 1. bis 8. Mai.
Laut einer Umfrage der 'Los Angeles Times' vom Wochenende würden sowohl Obama als auch Clinton sich gegen den bereits feststehenden Kandidaten der Republikaner, John McCain, durchsetzen. Das Duell mit Clinton würde der Senator aus Arizona mit 38 zu 47 Prozent verlieren. Gegen Obama würde er 40 Prozent erzielen, sechs Punkte weniger als der Senator aus Illinois. Die Fehlerquote der Erhebung lag bei drei Prozentpunkten.
Meldung A habe ich gefälscht.
Was soll das Spielchen? werden Sie fragen. Nun, das Spielchen soll illustrieren, wie problematisch derartige Meldungen sind.
Gefälscht ist nämlich nur, daß es die Los Angeles Times war, die die Daten in Version A publizierte. Tatsächlich habe ich sie dem Wikipedia- Artikel "Nationwide opinion polling for the United States presidential election, 2008" entnommen, der, ständig aktualisiert, die Ergebnisse der Umfragen zu den Wahlen am 4. November bringt. Die Daten, die ich in die Meldung eingesetzt habe, wurden von Gallup im Aufrag von USA Today erhoben; Erhebungszeitraum 1. bis 4. Mai.
Wie kommt es, daß zwei gleichermaßen renommierte Institute im gleichen Zeitraum zu so unterschiedlichen Werten kommen? Bedeutet das nicht, daß man der Demoskopie nicht trauen kann?
Doch, man kann ihr trauen. Man muß aber verstehen, auf welcher Grundlage sie funktioniert.
Im Vorspann zu der ausführlichen Auflistung der aktuellen Daten von Gallup schreibt USA Today etwas zur sogenannten Fehlermarge, in Deutschland seltsamerweise und sehr mißverständlich oft "Fehlerquote" genannt. Mißverständlich deshalb, weil es sich keineswegs um eine Quote, also einen Anteil handelt, sondern eben um eine Marge. Ein Intervall also, einen Bereich, eine Abstand:
For results based on the total sample of national adults, one can say with 95% confidence that the margin of sampling error is ±3 percentage points.So ist es. Nur fürchte ich, daß viele ohne Ausbildung in Statistik, die etwas von einer "Fehlerquote von drei Prozent" lesen, das nicht richtig verstehen. Lassen Sie es mich an einem Beispiel erläutern:
Für die Resultate, deren Grundlage die Gesamtstichprobe von Erwachsenen aus den gesamten USA ist, läßt sich mit einer Zuverlässigkeit von 95 Prozent aussagen, daß die Marge des Stichprobenfehlers plus minus drei Prozentpunkte beträgt.
Nehmen wir an, am Strand von Sylt liegen 50 Prozent schwarze und 50 Prozent weiße Muscheln. Ich gehe an diesem Strand entlang, hebe völlig zufällig Muscheln auf und lege sie in meinen Korb. Wenn ich das oft genug getan habe, ist es wahrscheinlich, daß von den Muscheln im Korb ungefähr die Hälfte schwarz und die Hälfte weiß sind.
Aber das ist nur wahrscheinlich; es ist keineswegs sicher. Möglich ist es auch, daß ich zufällig nur schwarze oder fast nur schwarze Muscheln gegriffen habe. Jede Proportion von schwarzen und weißen Muscheln in meinem Korb ist möglich.
Warum sind nicht alle Proportionen von schwarz zu weiß gleich wahrscheinlich?
Daß alle Muscheln, die ich aufgehoben habe, schwarz sind, ist sehr unwahrscheinlich, weil es nur eine einzige Sequenz gibt (ich muß jedesmal eine schwarze Muschel aufgehoben haben, also SSSSS usw.), die zu diesem Ergebnis führt.
Daß die Hälfte schwarz und die Hälfte weiß sind, ist viel wahrscheinlicher, denn es gibt viele Sequenzen, die zu diesem Ergebnis führen (schon bei vier Muscheln, die ich aufhebe, zum Beispiel SSWW, SWSW, WWSS, WSWS, WSSW, SWWS).
Allgemein: Je mehr Sequenzen es gibt, die zum selben Ergebnis führen, umso wahrscheinlicher ist dieses Ergebnis. Aber möglich ist auch jedes andere.
Auf die Demoskopie übertragen bedeutet das: Wer US-Bürger nach ihrer Präferenz für Obama oder McCain fragt, der kann, wenn er Pech hat, in seiner Stichprobe 70 Prozent Zustimmung für Obama bekommen, obwohl in Wahrheit 60 Prozent McCain wählen wollen. Das ist möglich, es ist nur sehr unwahrscheinlich. Aber gegen einen solchen Fall gibt es für den Demoskopen keinen absoluten Schutz.
Es gibt nur so etwas wie einen relativen Schutz. Der Demoskop kann ausrechnen, wie groß die Wahrscheinlichkeit ist, daß ihm ein solches Malheur passiert. Und er kann dann Vorsorge dafür treffen, daß diese Wahrscheinlichkeit nicht größer ist, als er sie zu tolerieren bereit ist.
Dazu muß der Demoskop erstens definieren, was er als ein Malheur betrachtet. Und er muß zweitens festlegen, welches Risiko er einzugehen bereit ist, daß ihm ein solches Malheur widerfährt.
Für beides gibt es eine Konvention, auf die sich die Demoskopen geeinigt haben: Ein Malheur ist es, wenn der gemessene Wert um mehr als drei Prozentpunkte von dem wahren Wert abweicht. Und das Risiko eines solchen Malheurs sind sie einzugehen bereit, wenn die Wahrscheinlichkeit, daß es auftritt, bei nicht mehr als fünf Prozent liegt.
Aus beiden Festlegungen zusammen ergibt sich daß man mindestens rund tausend Menschen befragen muß. Das kann man ausrechnen.
Abweichungen zwischen den Ergebnissen der einzelnen Institute sind also etwas völlig Normales; auch größere Abweichungen. Erstens, weil auch ohne das Malheur damit gerechnet werden muß, daß die eine Umfrage um drei Prozentpunkte nach unten, die andere nach oben vom wahren Wert abweicht. Macht einen Unterschied von sechs Prozentpunkten zwischen den Daten der beiden Institute, ganz ohne ein Malheur. Und dann kann noch das Malheur passieren, in prinzipiell beliebiger Höhe.
Kann man dennoch zu relativ sicheren Vorhersagen kommen? Ja, und zwar durch das Zusammenfassen (Aggregieren) von Daten.
Das kann man entweder so machen, daß man die Daten mehrerer Institute zusammenfaßt (Poll of Polls). Oder ein einzelnes Institut kann seine Umfrage immer wieder - im Extremfall täglich - wiederholen und die Daten aus diesen einzelnen Durchgängen zusammenfassen.
Das Letztere tut Gallup zu den Präsidentschaftswahlen. Die Umfrage wird täglich durchgeführt, und die Ergebnisse von jeweils fünf aufeinanderfolgenden Tagen werden in einem gleitenden Mittelwert zusammengefaßt. "Gleitend" (Englisch Running Average) deswegen, weil jeden Tag der neue Wert hinzukommt und dafür der älteste herausfällt; es gleitet also gewissermaßen ein Fenster über die Daten hinweg.
Und was sagt nun dieser gleitende Mittelwert über McCain und Obama? Hier sind die Daten der letzten zehn Tage (1. bis 10. Mai) für die Frage, wen der beiden man gegenwärtig wählen würde:
Obama: 42, 42, 42, 43, 45, 46, 46, 46, 46, 47
McCain: 48, 48, 47, 47, 46, 45, 45, 45, 45, 44
Es gibt einen Trend zugunsten von Obama. Am 1. Mai lag McCain noch mit 48 zu 42 vorn; am 10. Mai hatte Obama einen Vorsprung von drei Prozentpunkten.
Die Fehlermarge beträgt bei diesen gleitenden Mittelwerten nur zwei statt der üblichen drei Prozent. Es wäre also kein Malheur für die Demoskopen von Gallup, wenn am 1. Mai der wahre Wert für Obama 44 und für McCain 46 Prozent betragen hätte, und am 10. Mai für Obama 45 Prozent und 46 Prozent für McCain.
Wahrscheinlicher ist es aber, daß gegenwärtig Obama einen kleinen Vorsprung hat. Vor zwei Wochen war es noch anders. In zwei Wochen kann es wieder anders sein.
Daraus irgend etwas über die Wahlaussichten abzuleiten wäre so, als würde man aus dem schönen Wetter am heutigen 12. Mai schließen, daß auch am 4. November die Sonne scheinen wird.
Für Kommentare zu diesem Artikel gibt es einen Thread in "Zettels kleinem Zimmer". Dort findet man auch eventuelle Aktualisierungen und Ergänzungen.