IX  Der zeitliche Trend über mehrere Monate

Begnügen sich die Wahlprognosen mit den Stimmen für die einzelnen Parteien, so versuchen alle Institute auch Trends über mehrere Monate hinweg aufzuzeigen.

Meines Wissens legt allein die Forschungsgruppe Wahlen e.V. auch Rohdaten - also die bei der Umfrage tatsächlich ermittelten Zahlen - offen dar, die sie für das "Politbarometer" des Zweiten Deutschen Fernsehens (ZDF) erfaßt. Darum stütze ich mich bei den folgenden Analysen auf sie. Es hat nämlich wenig Sinn, mit willkürlich "korrigierten" Rohdaten Statistik zu betreiben.

Im "Politbarometer" werden die Parteistärken über jeweils vier Monate hinweg miteinander verglichen. Bezugspunkt ist aber nicht etwa derselbe repräsentative Querschnitt, der immer wieder befragt wird, sondern es wird jedesmal ein neuer zusammengestellt, es werden also jeden Monat 1000 Wahlberechtigte neu ausgelost und befragt.

In den Monaten Mai bis August 1986 ermittelte das Politbarometer des ZDF folgende Zahlen (in Prozent)

Mai

Juni

Juli

August

SPD

44,0

46,0

43,0

43,0

CDU/CSU

39,0

42,0

44,0

44,0

FDP

5,0

4,0

5,0

4,0

Grüne

12,0

8,0

8,0

9,0

In den Kommentaren dazu hieß es:

"Zum erstenmal seit Januar dieses Jahres lag die SPD (mit 43%), wenn auch knapp, hinter der Union (mit 44%). ...

FDP: schwankend zwischen 5% und 4%, derzeit 4%."

Diese Aussage und die graphische Trenddarstellung suggerieren eine Genauigkeit von 0,5%, denn nur dann haben sie einen Sinn.

In welchem Maße ist diese Befragung reproduzierbar? Was wäre herausgekommen, wenn man in denselben Monaten jeweils 1000 andere Wahlberechtigte ausgelost, d.h. andere sogenannte "repräsentative Querschnitte" befragt hätte?

Um den rein statistischen Aspekt des Problems zu behandeln, nehmen wir wieder an, daß die ausgelosten Wahlberechtigten nicht befragt werden, sondern wie in einer gut organisierten Volksdemokratie den ausgefüllten Stimmzettel für den Interviewer bereithalten; insbesondere auch jenes Drittel von Wahlberechtigten, das normalerweise dem Interviewer die Aussage verweigert oder von ihm nicht aufzuspüren ist. Wir wollen der Demoskopie damit nicht etwa die Existenzgrundlage entziehen, sondern lediglich den statistischen Kern des Problems klar herausschälen. Wir füllen also für jeden der Monate Mai bis August 1986 eine Trommel mit Stimmzetteln gemäß den Angaben des ZDF, beispielsweise für den Mai sind das 15.600.000 CDU/CSU-, 17.600.000 SPD-, 2.000.000 FDP- und 4.800.000 Grüne-Stimmen, zusammen 40.000.000. Das Ziehen der repräsentativen Querschnitte aus den Trommeln mit den "Stimmzetteln" - d.h. die Auslosung von viermal 1000 Wahlberechtigten in den Monaten Mai bis August und die Auswertung ihrer Stimmzettel - haben wir mit einem perfekten Auswahlverfahren auf dem Computer durchgeführt (simuliert).

Wie viele dieser Querschnitte werden den behaupteten Trend reproduzieren, also die wahren Ergebnisse innerhalb von 0,5% Genauigkeit liefern?

In den Tabellen auf den folgenden sieben Seiten sind die Resultate der ersten 35 Auslosungen von viermal 1000 Wahlberechtigten (bzw. von abgegebenen gültigen Stimmzetteln) abgedruckt, wie sie sich mit dem Startwert 0.12345 für den Zufallszahlengenerator der Rechenanlage Cyber 175 ergaben. Die Auslosungen sind mit Nummern von 1 bis 35 versehen und werden auch als Wiederholungen (der Auslosung) bezeichnet. Die 35 Wiederholungen können wir uns als Resultate von unter idealen Bedingungen arbeitenden Meinungsforschungsinstituten vorstellen, denn diese Ergebnisse sind dadurch zustande gekommen, daß 35 mal viermal 1000 Wahlberechtigte in den Monaten Mai, Juni, Juli und August 1986 ausgelost und "befragt" wurden. Dabei wird vorausgesetzt, daß die vom ZDF ermittelten Umfrageergebnisse von Mai bis August 1986 zutreffen und daß für das ZDF der Interviewfehler im Sinne von Abschnitt III ausgeschaltet werden kann. Das letztere ist zwar völlig unrealistisch, aber selbst unter dieser idealisierenden Annahme werden die 35 Auslosungen des repräsentativen Querschnittes Resultate zeigen, die das ZDF aus Rücksicht auf die Einschaltquote nicht öffentlich eingestehen kann und will.

In der folgenden Aufstellung wurden diese 35 Auslosungen ihrer Güte nach geordnet. In der ersten Spalte sind die "besseren" Auslosungen aufgelistet und in der zweiten die "schlechteren" (dabei bedeutet 20.W: von -0.9% bis +0.8% daß bei der 20. Auslosung Abweichungen von -0.9% bis +0.8% aufgetreten sind):

 

Abweichungen

 

Abweichungen

20.W:

von -0,9% bis +0,8%

25.W:

von -2,1% bis +2,5%

17.W:

von -1,4% bis +1,2%

23.W:

von -2,1% bis +2,8%

7.W:

von -1,6% bis +1,0%

13.W:

von -3,2% bis +2,1%

6.W:

von -1,9% bis +1,2%

21.W:

von -3,5% bis +2,2%

18.W:

von -1,7% bis +1,5%

9.W:

von -3,2% bis +2,5%

34.W:

von -1,5% bis +1,8%

5.W:

von -2,8% bis +2,9%

14.W:

von -1,8% bis +1,7%

29.W:

von -3,4% bis +2,7%

26.W:

von -1,4% bis +2,1%

15.W:

von -3,2% bis +2,9%

8.W:

von -2,3% bis +1,3%

19.W:

von -3,7% bis +2,5%

27.W:

von -1,8% bis +1,8%

35.W:

von -2,0% bis +4,2%

2.W:

von -2,2% bis +1,5%

30.W:

von -3,2% bis +3,1%

4.W:

von -2,1% bis +1,9%

11.W:

von -3,6% bis +2,7%

3.W:

von -2,1% bis +1,9%

22.W:

von -3,4% bis +3,1%

10.W:

von -2,6% bis +1,5%

24.W:

von -2,8% bis +3,8%

32.W:

von -2,2% bis +2,0%

1.W:

von -3,6% bis +3,7%

16.W:

von -1,3% bis +3,0%

31.W:

von -4,0% bis +3,9%

12.W:

von -1,9% bis +2,4%

33.W:

von -4,7% bis +3,2%

28.W:

von -1,6% bis +2,9%

   
       

Die beste der Auslosungen weist bei den Parteistärken Abweichungen von -0,9% bis +0.8% auf und die schlechteste solche von -4,7% bis +3,2%. Die meisten Auslosungen weisen Abweichungen in den Größenordnungen von 2% auf, aber es treten auch Fälle von 3% und mehr auf. Wie man sieht, liegen die Werte keiner einzigen Auslosung innerhalb von 0,5%, wie es die Daten und vor allem ihre Analyse im ZDF suggerieren.

Die 35 Auslosungen des Politbarometers mit jeweils anderen "repräsentativen Querschnitten" stellen eine wahre Fundgrube für den "motivierten" Berichterstatter dar. Je nach Standort läßt sich mancher Traum realisieren und entsprechend ausschmücken :

Demo-Wischer und die Schweigespirale

von Carell-Hildebrandt

Variationen auf ein Thema von Elisabeth Noelle-Neumann:

Wasche die Öffentliche Meinung -

aber mach unsere soziale Haut nicht naß !

Nach einem Studium der 35 Wiederholungen und jeweils geschickter Wahl des repräsentativen Querschnittes gibt es folgendes zu berichten:

  • Der Aufwärtstrend der Union hält seit Monaten an. Selbst der Traum von der absoluten Mehrheit findet seine Bestätigung im "repräsentativen Querschnitt": Von 35,0% um Mai über 44,2% im Juni und einem Zwischentief im Juli wird im August der Rekordstand von 47,2% erreicht. Da die FDP mit 4% im Keller liegt - und damit sicher aus dem Bundestag ausscheidet - erhöht sich der Unionsanteil de facto auf 49,2%. Parallel zum Aufwärtstrend der Union hält der Abwärtstrend der SPD unvermindert an. Auch der neue Ober-Vogel LaFontaine vermag daran nichts zu ändern. Was kann dieser

linke Stürmer und Dränger

Bundeskanzler Helmut Toll schon entgegenstellen?

Leere Kassen bei Freibier & Saarstahl!

  • Seit Mai liegt die SPD deutlich in Führung. Im Frühsommer überschritt die SPD mit 49,8% sogar die absolute Mehrheit, da die FDP mit 4% ausschied. Der Krebsgang der nicht mehr so Jungen Union setzt sich während des ganzen Sommers fort. Was kann

dieser unser Kleinmut Hohl

im Kanzleramt dem Jakobiner aus Fontainebleau schon entgegensetzen?

Steuer-Harmonie und soziale Gerechtigkeit für Seinesgleichen!

  • Blutbad bei der FDP: War die FDP im Mai mit fast 7% sicher im Bundestag vertreten, so verlor sie innerhalb eines Monats über 50% ihrer Wählerstimmen (Juni: 3,1%). Trotz einer leichten Erholung im Juli auf 3,9% - die wahrscheinlich auf einen Mitleidseffekt zurückzuführen war - stellt sich die Bange Frage: Was hat den Zusammenbruch der FDP herbeigeführt?

Mangel- oder Böllermann?

  • FDP seit Mai konstant über der 5%-Hürde, abgesehen von einem Früh-Sommerloch mit 4,3%. Darin spiegelt sich der Konsens wieder, daß eine un-

abhängige Kraft zwischen den Blöcken

erhalten bleiben muß.

  • Die Grünen haben ihren Tschernobyl-Rekord vom Mai mit 9,9% im August mit 10,4% übertroffen. Wird die Abschaltung der Kernkraftwerke damit näherrücken

und der Kahl-Brüter endlich Demo-liert?

Werden unsere Kinder nun wieder cäsiumfreie Muttermilch und Nahrung bekommen?

  • Tschernobyl erwies sich als Eintagsfliege für die Grünen. Nach 13,1% im Mai gewannen Vernunft und Sorge um die Sicherheit der Kernkraftarbeitsplätze wieder Oberhand. Im Juni fielen die Grünen auf 7,4% zurück,

    was als Restrisiko tragbar ist.

    Wahrscheinlich ließe sich das grüne Restrisiko weiter reduzieren, wenn man die Eisenbahnladung von gutem deutschen Molkepulver - welches wegen seiner Radio-aktiven Spritzfahrt quer durch die BRD zu einer parapsychologischen Belastung geworden ist - per Bundesnotwehr in die Schweiz abschieben würde. Zwecks Endverbrauch. Dort hat man bekanntlich mit der natürlichen Strahlungskraft von Milch und Mineralwasser seit Jahrhunderten gute Erfahrungen gemacht, und der radioaktive Nährwert wird traditionsgemäß als Qualitätsmerkmal auf den Flaschenetiketten festgehalten. (*)

(*) bis die grün inspirierte Schweigespirale diesen unternehmerischen Leistungsnachweis sogar in die Schweiz zu hintertreiben vermochte.

Wie man sieht, ist die Beliebtheit des repräsentativen Querschnitts leicht verständlich: Niemand geht leer aus, jedermann erhält seinen Wunsch erfüllt. Man kann seinen Gefühlen und Phantasien freien Lauf lassen und als Erklärung für die "gefundenen" Zahlen hinstellen. Prozentzahlen sind Waffen, die man für seine Ziele und bei Bedarf gegen den politischen Gegner einsetzen kann.

Die Forschungsgruppe Wahlen - als Betreiber des Politbarometers - könnte einwenden, daß diese 35 Auslosungen zufällig extreme Abweichungen aufweisen. Es wurden allerdings nicht nur 35, sondern 100.000 Auslosungen des Politbarometers simuliert, d.h. es wurden die Ergebnisse von 100.000 repräsentativen Querschnitten mit viermal 1000 Befragten analysiert - aber aus Platzgründen haben wir hier "nur" die ersten 35 Auslosungen abgedruckt und die anderen auf verschiedene Arten statistisch ausgewertet:

Zunächst betrachteten wir die weiter unten beschriebene Spannweite. Diese ist zwar sehr anschaulich, aber im Hinblick auf die Fragestellung nicht sehr effizient, weil die auslosungsbedingten Abweichungen der großen Parteien diejenigen der kleinen verschlucken. Die Spannweite vermittelt daher ein etwas zu günstiges Bild. Aus diesem Grund wurden die bei Politbarometer-Auslosungen auftretenden Abweichungen auch mit Hilfe von gestaffelten Spielräumen analysiert, wobei die unterschiedliche Auswirkung der Parteistärken auf die Standardabweichung berücksichtigt wurde.

Für die Berechnung der Spannweite einer Politbarometer-Auslosung ermittelten wir zunächst die größte Abweichung einer Parteistärke nach oben und die größte nach unten und addierten dann diese Zahlen betragsmäßig, d.h. ohne Berücksichtigung des Vorzeichens. Diese Summe der extremen Abweichungen wird als Spannweite bezeichnet.

Bei der ersten Auslosung (siehe Tabellen auf den vorangehenden Seiten) beträgt sie 7,3% (= 3,7% + 3,6%), bei der zweiten 3,7% (= 1,5% + 2,2%), bei der dritten 4,0% (= 1,9% + 2,1%). Das Diagramm auf der folgenden Seite zeigt die Verteilung der Spannweiten der 100.000 Auslosungen, soweit sie von 1,2% bis 11,0% variierten. Die Hälfte aller Auslosungen hat eine Spannweite von mehr als 4,4%. Nur jede fünfte Auslosung zeigt eine Spannweite unter 3,3%, aber jede zehnte weist eine solche von über 6,6% auf und jede zwanzigste von über 7,5%.

Das Histogramm der 100.000 Politbarometer-Auslosungen zeigt, daß die in den Tabellen auf den Seiten IX/3 bis IX/9 abgedruckten 35 Auslosungen durchaus keine Ausreißer darstellen, sondern den Normalfall illustrieren. Der einzige "Ausreißer" unter den in den Tabellen abgedruckten Auslosungen ist die Nummer 20 mit einer Spannweite von 1,7%. Nur eine von 500 Auslosungen weist eine so geringe oder noch kleinere Spannweite auf. Mit der gleichen Häufigkeit treten Auslosungen mit einer Spannweite von über 10,2% auf!

Diese Beispiele machen deutlich, wie weit die Politbarometerbefragungen davon entfernt sind, den behaupteten Trend aufzeigen zu können. Hätte man in den vier Monaten andere Wahlberechtigte ausgelost - also einen anderen repräsentativen Querschnitt verwendet - dann wäre man mit ziemlicher Sicherheit zu einem ganz anderen Resultat gekommen.

Kommt es überhaupt vor, daß eine Auslosung des Politbarometers die Parteistärken mit einer Genauigkeit von 0,5% reproduziert, d.h. eine Spannweite von nur 1% aufweist? Von unseren 100.000 Auslosungen des Politbarometers hat keine einzige dieses Kunststück geschafft. Dieses experimentell gewonnene Ergebnis stimmt mit dem Ergebnis einer theoretischen Berechnung mit Hilfe der Multinomialverteilung überein (siehe Tabelle "Erfolgsstatistik von Auslosungen des Politbarometers") : Lediglich 0,000912% aller Auslosungen - d.h. knapp eine von 100.000 - liegen innerhalb eines Spielraumes von 0,5%! Um sich ein Bild von dieser geringen Wahrscheinlichkeit zu machen: Die von der Forschungsgruppe Wahlen im Politbarometer des Zweiten Deutschen Fernsehens stillschweigend angenommene Genauigkeit von 0,5% ist - wie eine einfache Wahrscheinlichkeitsrechnung zeigt - so unrealistisch wie der Glaube eines Lottospielers, mit einer (halben) Mark Einsatz fünf Richtige zu treffen. Der Unterschied besteht darin, daß unser Lottospieler seinen Einsatz mit einer Wahrscheinlichkeit von 99,9991% in den Wind schreiben kann, während die "Forsche Truppe Wahlen" im Polit-Lotto-Meter des ZDF in gleicher Weise pokern kann. Ungestraft und nicht schlecht bezahlt! Das Risiko tragen die armen Zuschauer, die den wissenschaftlich verpackten Politbarometer-Prognosen in der präsentierten Form Glauben schenken.

Gibt es denn überhaupt Informationen zur aktuellen politischen Situation, denen der Zuschauer Glauben schenken kann und für deren Gehalt es sich lohnt, am Montagabend bis 22.00 Uhr vor dem Fernsehschirm für das Politbarometer auszuharren? Da eine Genauigkeit von 0,5% bei Parteistärken und deren Trend utopisch ist, so ist der Spielraum für die Abweichungen - welche durch die Auslosung des repräsentativen Querschnittes hervorgerufen werden - massiv zu vergrößern, was natürlich den Informationsgehalt der "Repräsentativumfrage" entsprechend reduziert. Die Resultate sind für Spielräume von 1% bis 5% in der oberen Tabelle auf Seite IX/20 zusammengestellt.

Bei einer Genauigkeit von 2% für die Parteistärken liegen 75,3% der Auslosungen des Politbarometers außerhalb dieses Spielraums, das heißt bei drei von vier Politbarometern weichen einzelne der sechzehn angegebenen Parteistärken um mehr als 2% von den wahren Werten ab. Selbst wenn man die Genauigkeit reduziert, indem man den Spielraum auf 2,5% vergrößert, so vermögen noch immer die Hälfte der Politbarometer-Auslosungen diese Toleranz nicht einzuhalten. Man müßte den Spielraum auf 4% erhöhen, wenn man die übliche statistische Sicherheit von 95% haben wollte. Bei einem solchen Spielraum gehen die tatsächlichen Wählerbewegungen von Monat zu Monat völlig unter.

Um bei einer statistischen Sicherheit von 95% den interessanten Spielraum von 0,5% einhalten zu können, müßte man die Zahl der Befragten auf 70.000 erhöhen.

Bei der bisherigen Betrachtungsweise blieb unberücksichtigt, daß die durch die Auslosung des repräsentativen Querschnittes verursachten Abweichungen für die kleinen Parteien weit gravierender sind als für die großen. Eine große Partei kann 3% - wenn auch schmerzhaft - noch verkraften. Bei einer kleinen Partei hingegen geht es bei solchen Abweichungen aufgrund der 5%-Klausel um Sein oder Nichtsein. Daher wurden die Spielräume auch nach Parteistärken gestaffelt, wie in der unteren Tabelle auf Seite IX/20 dargestellt ist.

Einen Spielraum von 2% für CDU/CSU und SPD beziehungsweise 1,2% für die Grünen und 0,8 % für die FDP halten nicht einmal sieben Prozent (!) von Politbarometerauslosungen ein. Ein Spielraum von 3% für CDU/CSU und SPD beziehungsweise 1,8% für die Grünen und 1,2 % für die FDP führt zu einer Trendmeldung der Gestalt

 

Mai

Juni

Juli

August

SPD

41,0 - 47,0

43,0 - 49,0

40,0 - 46,0

40,0 - 46,0

CDU/CSU

36,0 - 42,0

39,0 - 45,0

41,0 - 47,0

41,0 - 47,0

FDP

3,8 - 6,2

2,8 - 5,2

3,8 - 6,2

2,8 - 5,2

Grüne

10,2 - 13,8

6,2 - 9,8

6,2 - 9,8

7,2 - 10,8

Soll sich der Fernsehzuschauer vielleicht damit trösten, daß selbst diese nichtssagende Trendmeldung mit einer Wahrscheinlichkeit von 50% falsch ist? Weil der repräsentative Querschnitt per Lotterie erstellt wird, schafft es nämlich nicht einmal jede zweite Auslosung des Politbarometers, diese Bandbreiten einzuhalten.

Man müßte den Spielraum für CDU/CSU und SPD auf 4,6%, für die Grünen auf 2,8% und für die FDP auf 1,8% erhöhen, wenn man die übliche statistische Sicherheit von 95% haben wollte. Man führe sich konkret vor Augen, was die "Forschungs"-Gruppe Wahlen und der Politbarometer-Moderator Klaus Bresser auf dieser Grundlage dem Fernsehzuschauer effektiv an Trendinformation offerieren:

  Mai Juni Juli August
SPD 39,4 - 48,6 41,4 - 50,6 38,4 - 47,6 38,4 - 47,6
CDU/CSU 34,4 - 43,6 37,4 - 46,6 <39,4 - 48,6 39,4 - 48,6
FDP 3,2 - 6,8 2,2 - 5,8 3,2 - 6,8 2,2 - 5,8
Grüne 9,2 - 14,8 5,2 - 10,8 5,2 - 10,8 6,2 - 11,8

Bei einem solchen Spielraum interessiert sich offensichtlich kein Mensch mehr für das Resultat. Diese Zahlen machen deutlich, wie absurd es ist, eine zeitliche Entwicklung, die sich im Prozentbereich abspielt, mit einer Befragung von viermal 1000 "repräsentativ Ausgewählten" analysieren zu wollen.

Offenbar setzen sich die Demoskopen über solch elementare mathematische Grundlagen ihrer Arbeit schlicht hinweg. Durch den Mißbrauch des Begriffes "repräsentativer Querschnitt" geben sie vor, aussagekräftige Meinungsbilder produzieren zu können, obwohl ihnen doch allein der statistische Fehler, der durch die Auslosung von 1000 Wahlberechtigten verursacht wird, keine Chance dazu läßt.

Erst bei 10.000 oder besser noch 100.000 Befragten könnten sie die Wahrheit einigermaßen sicher diagnostizieren. Doch wer sollte ihnen den entsprechenden Aufwand bezahlen? Woher sollten sie die Heerscharen ausgebildeter Interviewer nehmen, wo doch bekannt ist, daß sich deren Objektivität nach acht oder höchstens zehn Befragungen erschöpft?

Es hätte allerdings wenig Sinn, derart umfangreiche Befragungen durchzuführen. Denn der ungleich größere Interviewfehler wäre damit nicht aus der Welt geschafft. Man hätte lediglich das "letzte" statistische Haar aus der Suppe entfernt, der Balken im Auge aber bliebe erhalten.

Es bleibt das Eingeständnis: Die Demoskopie ist nicht in der Lage, Trendaussagen zu machen, wenn die Bewegungen im Prozentbereich liegen. Was sich in Wirklichkeit abspielt, das weiß kein Mensch und die von den Meinungsforschungsinstituten gelieferten Daten über das zeitliche Auf und Ab der Parteistärken haben reinen "Horoskopcharakter". Sie täuschen Veränderungen vor, die quantitativ mit an Sicherheit grenzender Wahrscheinlichkeit falsch sind und die häufig nicht einmal qualitativ richtig sind.

Man könnte noch mehrere Selbstüberschätzungen der Demoskopie aufzählen, zum Beispiel die beliebten Popularitätswerte von Politikern. Über weite Bereiche könnte man sie, vor allem ihr zeitliches Auf und Ab, ebenso gut mit dem Würfel bestimmen. Das wäre erstens billiger, und zweitens wäre klargestellt, um was es geht: um ein Unterhaltungsspiel im Fernsehen.

 

weiter zu Box 13: "Die ersten 35 Wiederholungen des Politbarometers"

weiter zu Box 14: "100000 Wiederholungen des Politbarometers"

weiter zu Box 15: "Erfolgs"-Statistik von Wiederholungen des Politbarometers

weiter zu "X. Die Gewichtung"

zurück zu "VIII. Pseudo-Trends"

zurück zum Inhaltsverzeichnis

zurück zum Archiv