Druckversion (pdf) drucken.gif (955 Byte)

Gutachten für den Süddeutschen Rundfunk

 

Herrn
Dr. M. Bohn
Süddeutscher Rundfunk
Studio Heidelberg-Mannheim
- Wissenschaftsredaktion -
Postfach 105309
6900 Heidelberg 1

24. Juni 1988

Media-Analyse

Aussagefähigkeit von Rundfunkhörerzahlen, Vergleich 1986 und 1987

Sehr geehrter Herr Dr. Bohn,

in Ihren Schreiben vom 22.03. und 22.04.88 sowie in verschiedenen Telefonaten stellten Sie die Frage, in welchem Maße aus den von der Media-Analyse gelieferten Hörerzahlen 1985-1987 ein realer Trend für die einzelnen Sendungen abgelesen werden kann, bzw. wann es sich um methodenbedingte Pseudotrends handelt. Zur Illustration wählten Sie die folgenden Beispiele aus der SDR-internen Aufarbeitung der "wichtigsten Ergebnisse der Media-Analyse":

 (Montag bis Freitag) Hörer
1985
Hörer
1987

Gewinn/Verlust

absolut proz.
SDR 1, Morgentelegramm 890.000 560.000 -130.000 -19%
SDR 3, Aktuell, 12.05-13.00 170.000 110.000 - 60.000 -35%
SDR 3, 20.05-22.00 30.000 50.000 +20.000 +66%

Das Ausmaß der obigen Veräderungen, insbesondere der prozentualen, erweckt bei "fast jedem" Leser den Eindruck, daß es sich um reale Effekte handelt. Nun werden die Hörer nicht "einzeln" gezählt, sondern stellvertretend für die ganze Bevölkerung wird ein "repräsentativer Querschnitt" untersucht und die darin ermittelten Ergebnisse hochgerechnet.

Die landläufige Vorstellung von einem "repräsentativen Querschnitt" geht dahin, daß es sich dabei um ein Miniaturbild der Bevölkerung handelt, welches bezüglich bestimmter sozio-demographischer Merkmale (wie Alter, Geschlecht, Konfession, Einkommen, Beruf usw.) "repräsentativ" sei - also in den Anteilen bezüglich dieser Merkmale mit der Gesamtbevölkerung übereinstimmt. Aus diesem Grund. müssen die dem repräsentativen Querschnitt entnommenen Informationen (z.B.. über Hörerzahlen, Hördauer usw.) für die ganze Bevölkerung zutreffend sein. Es ist jedoch mathematisch unmöglich, ein derartiges Miniaturbild zu erstellen. selbst wenn dies eines Tages durch "höhere Gewalt" möglich sein würde, wäre damit nicht viel gewonnen. Denn offensichtlich wird die Hördauer eines Radiohörers nicht durch sein Alter, Konfession, Einkommen, Beruf und was es sonst noch so alles in der amtlichen Statistik gibt, kausal bestimmt. Der Glaube und die Wachhaltung der Miniaturbildvorstellung dienen m.E. ausschließlich den Werbezwecken der Meinungsforschungsbranche. Durch dieses Suggestivwort wird bei den Abnehmern und Konsumenten von "Repräsentativumfragen" der Eindruck erweckt, die Daten seien in der gelieferten Form aussagefähig und zuverlässig. Eine solche Aussage hat die Statistik nie gemacht.

Als Ersatz für die Fata Morgana "repräsentativer Querschnitt" wird in der Demoskopie die Auswahl per Lotterie verwendet. Diese Vorgehensweise liefert viel bessere Resultate als der "erschreckte" Laie sich vorstellen kann. Er befürchtet bekanntlich, daß damit auch die Resultate ein Lotterieprodukt darstellen würden, was aber nicht zutrifft. Andererseits sind die Resultate bei weitem nicht so aussagefähig und zuverlässig, wie dies von Produzenten und Konsumenten von Meinungsumfragen "stillschweigend" angenommen wird. Man kann eben nicht mit Sicherheit von einigen "Ausgelosten" auf 48 Millionen schließen, dies ist zwangsläufig mit einem Fehler und einem Risiko verbunden.

Offensichtlich ist es von größter Wichtigkeit zu wissen, in welchem Ausmaß Umfrageergebnisse durch den Zufall beeinflußt werden können. Es wäre eigentlich Aufgabe der Meinungsforschungsinstitute (bzw. der Media-Analyse e.V.) für ihre Produkte (Umfrageergebnisse) geradezustehen und auf die Auswirkungen der Auswahl per Lotterie in unmißverständlicher Form hinzuweisen. Aber dies macht niemand, auch kein empirischer Sozialforscher an einer Universität. Es wird immer mit "exakten" Zahlen operiert.

Dabei können die Auswirkungen des Zufalls beträchtlich sein, was ich im folgenden am Beispiel des Morgentelegramms des SDR 1 illustriere. Dieses Programm hatte gemäß der Media-Analyse 1985 in Baden-Württemberg 690.000 Hörer (Montag bis Freitag), das sind rund 10% der Bevölkerung von BW. Aber 1987 konnte die Media-Analyse nur noch 560.000 ermitteln (=8%), also einen markanten Rückgang von 130.000, was fast 20% der Hörerschaft entspricht.

Nehmen wir nun an, diese Zahlen seien zutreffend. Kann die Media-Analyse die Hörerzahlen von 1985 und 1987 und insbesondere den Rückgang mit ihren Meßmethoden wirklich diagnostizieren? Was vermag sie in diesem Fall konkret zu leisten?

Bei der Media-Analyse wurden in Baden-Württemberg - gemäß den uns zugesandten Unterlagen - von sechs Meinungsforschungsinstituten insgesamt 1453 Personen über 14 Jahre befragt (von den insgesamt rund 7 Millionen Einwohnern). Zur Vereinfachung der folgenden Rechnung nehme ich an, daß es in Baden-Württemberg genau 7 Millionen Einwohner über 14 Jahre gäbe, davon seien 1400 per Lotterie ausgewählt und zum repräsentativen Querschnitt erklärt worden. Es wird also einer von 5000 Einwohnern befragt. Die Hochrechnung vom repräsentativen Querschnitt auf die ganze Bevölkerung geschieht einfach durch Multiplikation mit 5000. Finden die Institute unter den 1400 Befragten z.B. 100 Morgentelegrammhörer, so werden damit 500.000 Morgentelegrammhörer in ganz Baden-Württemberg "errechnet". Finden sie 120, so schließt man flugs auf 600.000. Damit die Media-Analyse auf den richtigen Wert von 560.000 kommt, müßte sie also genau 112 Morgentelegrammhörer in dem von ihr ausgelosten "repräsentativen" Querschnitt aufspüren. Keinen mehr und keinen weniger, denn jeder von ihnen schlägt in der Hochrechnung mit 5000 Hörern zu Buche. Wie groß ist nun die Chance, daß die Meinungsforschungsinstitute unter den 1400 ausgelosten Einwohnern Baden-Württembergs genau 112 Morgentelegrammhörer finden?

Sie beträgt knapp 4%! (genau 3,9%)

Folglich wird mit einer Wahrscheinlichkeit von über 96% der richtige Wert von 112 Hörern verpaßt, und die Institute errechnen eine falsche Hörerzahl, d.h. eine von 560.000 verschiedene Zahl.

Damit stellt sich die Frage: Wenn man den richtigen Wert 560.000 mit großer Wahrscheinlichkeit nicht trifft, welchen Wert ermittelt man dann? Die Antwort ist einfach: Je nach Laune des Zufalls kann der "repräsentative" Querschnitt für jeden der Werte

520.000, 525.000, 530.000, ... , 590.000, 595.000, 600.000

"geradestehen", und zwar mit einer geringen Wahrscheinlichkeit von 3%-4%. Aber mit dieser Aufzählung sind die Meinungsforschungsinstitute nicht aus dem Schneider, denn in über 40%(!) der Fälle wird der "repräsentative" Querschnitt Werte unter 520.000 bzw. über 600.000 hervorzaubern. Eine Irrtumswahrscheinlichkeit von 40% ist aber völlig unakzeptabel. Will man sie auf ein erträgliches Maß reduzieren, z.B. 5%, dann muß man sich damit abfinden, daß die Hochrechnung vom "repräsentativen" Querschnitt auf die ganze Bevölkerung Baden-Württembergs je nach Laune des Zufalls Hörerzahlen zwischen 460.000 und 660.000 kapriziert, obwohl der wahre Wert 560.000 beträgt.

Entsprechendes gilt für die 1985 ermittelte Hörerzahl von 690.000. Nimmt man an, daß dieser Wert ebenfalls mit einer Repräsentativumfrage von 1400 Personen ermittelt wurde - in den mir zugesandten Unterlagen war der Stichprobenumfang von 1985 nicht angegeben -, dann lassen sich wie vorhin folgende Aussagen machen:

  1. Den richtigen Wert von 690.000 wird man mit einer Wahrscheinlichkeit von 96,4% nicht ermitteln.
  2. Mit einer Wahrscheinlichkeit von 60% wird man Werte zwischen 640.000 und 740.000 ermitteln. Eine Wahrscheinlichkeit von 40% für Werte unter 840.000 oder über 740.000 ist aber völlig unakzeptabel.
  3. Reduziert man die Irrtumswahrscheinlichkeit auf die üblichen 5%, so muß man dem "repräsentativen" Querschnitt zugestehen, daß er je nach Laune des Zufalls Hörerzahlen zwischen 580.000 und 800.000 produzieren darf.

Wichtiger als die Hörerzahlen für 1985 und 1987 ist der Trend, nämlich der gewaltige Rückgang von 130.000 Hörern, ein Marktverlust von fast 20%. Bevor man auf Grund dieser Hiobsbotschaft die zuständigen Redakteure und/oder gar die ganze Chefetage zu Wüstenrot in die Sahara schickt, sollte man vielleicht die diagnostischen Fähigkeiten der Media-Analyse hinsichtlich der Trendermittlung etwas genauer unter die Lupe nehmen.

Die betrachtete Situation ist komplizierter als vorhin, denn jetzt müssen zwei repräsentative Querschnitte betrachtet werden, einer für 1985 und einer für 1987, die beide mit Lotteriefehlern behaftet sind. Eine einfache statistische Berechnung ergibt, daß der Rückgang von 130.000 mit einer Wahrscheinlichkeit von 97.4% nicht gefunden wird. Stattdessen produzieren zwei repräsentative Querschnitte je nach Laune des Zufalls jeden Trend von

-50.000, -55.000, -60.000,...,-200.000, -205.000, -210.000

mit einer geringen Wahrscheinlichkeit von 1.5% bis 2.6%. Es besteht daher nicht der geringste Grund, irgend einem dieser Werte besondere Aufmerksamkeit zu schenken. Noch schlimmer ist, daß mit einer Wahrscheinlichkeit von 25% Rückgänge von unter 50.000 oder über 210.000 prognostiziert werden. Will man die Irrtumswahrscheinlichkeit auf die üblichen 5% reduzieren, so muß man sich damit abfinden, daß der "repräsentative" Querschnitt von 1985 auf 1987 Veränderungen von

+15.000,..., +5.000, 0, -5.000, -10.000, ...-275.000, -280.000

"ausweist", je nach Laune des Zufalls. Es kommt sogar vor, daß statt dem Hörerverlust von 130.000 ein Zuwachs bis zu 15.000 "verbürgt" wird. Wie man sieht, vermag die Media-Analyse ein weites Spektrum abzudecken..., und wäre sie ein Heilmittel, dann könnte ich sie dem Bundesgesundheitsamt als ideales Breitband-Antibiotikum empfehlen.

Die für die obige Analyse gemachte Annahme, daß die Hörerzahlen für 1985 und 1987 bekannt seien, ist natürlich irreal. In Wirklichkeit will man aus den Umfrageergebnissen auf die unbekannte Hörerzahl und den Trend schließen. Die exakte Definition und Berechnung von Streubereichen in dieser Situation ist komplizierter und würde den Rahmen dieses Briefes sprengen. Dies wird normalerweise nur in Statistikvorlesungen für Mathematiker durchgeführt. Es ist aber evident, daß die Resultate (Streubereiche) in dieser Situation nicht besser, sondern schlechter werden.

Diese Ausführungen machen klar, daß eine Meinungsumfrage vom Umfang 1400 ein untaugliches Instrument ist, die Hörerzahl für das Morgentelegramm zu ermitteln. Dieses Instrumentarium kann grundsätzlich nur diffuse Resultate liefern und die Angabe von "exakten" Zahlen wie

1985

1987

Veränderung

690.000

560.000

-130.000

anstatt von 95%-Bereichen wie

1985

1987

Veränderung

580.000 bis 800.000

460.000 bis 660.000

-280.000 bis +15.000

ist schlicht irreführend. Der Verkauf von "exakten" Daten dieser Art sollte m.E. vom "Kartellamt gegen unlauteren Wettbewerb" verboten werden.

Die bisherigen Ausführungen ergeben kein realistisches Bild von den tatsächlichen Auswirkungen der Zufallsauswahl bei der Erstellung von repräsentativen Querschnitten. Die obigen Berechnungen ergeben nämlich viel zu günstige Resultate, weil sie auf der Basis von völlig unrealistischen Annahmen durchgeführt wurden.

Es wurde vorausgesetzt:

  1. Von den 7 Millionen Einwohnern über 14 Jahre in Baden-Württemberg werden 1400 mit einem perfekten Zufallsverfahren ausgelost.
  2. Jeder Ausgeloste ist anzutreffen, aussagebereit und antwortet wahrheitsgetreu. Gedächtnislücken kompensiert er unbewußt.
  3. Für das Morgentelegramm führt die Media-Analyse eine Exklusiv-Umfrage durch, mit anderen Worten, der verwendete Fragebogen enthält nur eine einzige Frage: "Haben Sie (gestern) das Morgentelegramm gehört?" Diese Frage ist mit 'Ja' oder 'Nein' zu beantworten.

Diese Annahmen sind offensichtlich absurd, aber sie bilden nun einmal das Fundament des statistischen Weltbildes von vielen Demoskopen und empirischen Sozialforschern. Natürlich wird dies in der demoskopischen Fachliteratur nicht so kraß formuliert. Vielmehr werden dezent statistische Formeln verwendet und mit Begeisterung Sicherheitswahrscheinlichkeiten berechnet, wobei über die inhaltlichen Voraussetzungen nicht so viel Aufhebens gemacht wird. So bleibt das heile Weltbild unberührt.

Erfahrungsgemäß ist bei der Befragung mit einer Ausfallrate von über 20% zu rechnen. Man muß also 1800 bis 2000 "auslosen", um etwa 1400 Antworten zu erhalten. Ob die Ausgelosten die Frage wahrheitsgetreu beantworten, kann niemand überprüfen. Es steht auf jeden Fall fest, daß über die ausgefallenen Interviews (Nicht-Angetroffene, Interview-Verweigerer) nur spekuliert werden kann und daß die Güte der Repräsentativumfrage entscheidend vom Ausgang dieser Spekulation abhängt.

Über die daraus resultierenden Probleme kann man als Statistiker nicht viel sagen. Man kann den Meinungsforschungsinstituten und ihren Kunden nur wünschen, daß diese nicht zur Achillesferse der Umfrageergebnisse werden.

Aus Kostengründen wird natürlich niemand im Traum daran denken, eine echte Zufallsauswahl und eine Exklusiv-Umfrage für das Morgentelegramm durchzuführen. In der gleichen Umfrage werden Dutzende von anderen Fragen gestellt (statistisch gesehen sind es hunderte bzw. tausende), u.a. über alle Radioprogramme in Baden-Württemberg.

Durch die Bündelung von vielen Fragen (i.a. von Dutzenden) in einem Fragebogen und die Zulassung von Fragen mit mehreren Antwortmöglichkeiten geht den handelsüblichen Sicherheitswahrscheinlichkeiten buchstäblich die Luft aus. Der Effekt ist dramatisch und für die Demoskopie traumatisch. Computersimulationen zeigen, daß der Auslosungseffekt bei den heute praktizierten Meinungsumfragen zu viel größeren Streubereichen führt als bisher angenommen wurde. Anders ausgedrückt: Operiert man mit den heute verwendeten Toleranzbereichen, dann werden vereinzelte Umfrageergebnisse mit großer Wahrscheinlichkeit völlig daneben liegen (d.h. die wahren Werte werden nicht innerhalb der üblichen 95%-Streubereiche liegen). Der Ärger besteht darin, daß die Statistik keine Aussagen darüber machen kann, bei welchem(n) der zahlreichen Ergebnisse einer Meinungsumfrage der repräsentative Querschnitt verrückt spielt.

Die Media-Analyse empfahl in einem 1973 herausgegebenen Buch "Tafeln zur Ermittlung der statistischen Signifikanz von Stichprobenergebnissen", der Aushöhlung der Sicherheitswahrscheinlichkeit durch Vergrößerung der üblichen Streubereiche um 40% entgegenzuwirken (Faktor Wurzel 2, siehe S.116/117). Die Media-Analyse hat in ihren Tafeln diese Vergrößerung eingebaut. Dadurch sollte ihrer Ansicht nach die Vielzahl und Mehrstufigkeit der Fragen ausreichend kompensiert sein.

Auf das obige Beispiel des Morgentelegramms angewendet ergibt dies:

 

Sollwerte

Infolge der Auslosung produziert der repräsentative Querschnitt Hörerzahlen

1985

690.000

von 535.000 bis 845.000

1987

560.000

von 420.000 bis 700.000

Rückgang

-130.000

von -340.000 bis +80.000

Den Streubereich von 310.000 für die Hörerzahl von 1985 bzw. 280.000 für 1987 kann man den Tafeln der Media-Analyse (Seite 34) fast direkt entnehmen (nämlich 4,4% bzw. 4% von 7 Mio.). Den Streubereich von 420.000 (für den Rückgang von 130.000) habe ich gemäß der auf Seite 117 angegebenen Formel berechnet.

Durch diese Vergrößerung der Streubereiche sollte nach Ansicht der Media-Analyse e.V. die Aushöhlung der statistischen Sicherheit ausreichend kompensiert werden, welche durch den Umfang und Komplexität des Fragebogens verursacht wird. Die Media-Analyse schreibt dazu (Seite 116):

"3b) Die Gültigkeit der verwendeten Approximationsformeln ist lange nicht überprüft worden - insbesondere die Verwendung des Faktors  Wurzel 2 (d.h. Vergrößerung der Streubereiche um 40%). Dennoch darf man wohl annehmen, daß sich keine grundlegenden Verschlechterungen herausstellen werden, wenn eines Tages wieder einmal jemand diese mühselige Arbeit übernimmt."

Mit Hilfe einer einfachen Rechnung, die auf einem Taschenrechner in einer Minute durchführbar ist und die ich jeweils als Übungsaufgabe in Angewandter Statistik stelle, läßt sich zeigen, daß der Zuschlag der Media-Analyse bereits für einen Fragebogen mit zehn unabhängigen "Ja/Nein"-Fragen nicht mehr ausreicht. Computersimulationen zeigen, daß eine einzige Frage mit zehn Antwortmöglichkeiten diesen Faktor ebenfalls aus den Angeln hebt. Bei zehn unabhängigen Fragen mit jeweils zehn Antwortmöglichkeiten oder einer einzigen 10x10 Kreuztabelle kommt man bereits auf einen Zuschlag von 75%. Bei zehn unabhängigen l0xl0 Kreuztabellen muß man einen Zuschlag von 100% in Kauf nehmen. In diesem Bereich tritt dann ein Sättigung ein, d.h. auch bei einer weiteren Zunahme des Fragebogens und der Daten-Auswertung wird der erforderliche Zuschlag nicht mehr wesentlich erhöht.

Die Studenten meiner Vorlesung in Angewandter Statistik haben die durch die Auslosung des repräsentativen Querschnittes verursachten Streubereiche für die 26 Programme (bzw. Sendestrecken) des SDR 1 und SDR 3 berechnet, die Sie mir geschickt hatten. Dabei wurden jeweils die von der Media-Analyse (bzw. dem SDR-Medienreferat) ermittelten Werte für 1985 und 1987 als wahre Werte (=Sollwerte) unterstellt. Die Streubereiche wurden für eine ideale Meinungsumfrage (d.h. es werden die auf Seite 4/5 unter 1. und 2. angeführten Eigenschaften unterstellt) auf drei Arten berechnet:

  1. gemäß Punkt 3, Seite 5, d.h. die Media-Analyse führt für jede der 26 Sendungen ein Exklusiv-Interview durch (Binomiales Modell).
  2. gemäß den Signifikanz- Tabellen und Formeln der Media-Analyse e.V. 1973 (Die Streubereiche gemäß 1. werden um 40% vergrößert. Bei kleinen Hörerzahlen (unter 100.000) liefert dies z.T. unsinnige Resultate.)
  3. gemäß einer Simulation, die den heutigen Umfang von Meinungsumfragen etwas realistischer berücksichtigt (dies läuft darauf hinaus, daß die Streubereiche gemäß 1. um 100% vergrößert werden.)

Die Resultate finden Sie in der Anlage. Falls Sie die Berechnungsgrundlagen wünschen, werde ich diese ausarbeiten lassen und Ihnen schicken. Meine Studenten haben inzwischen ihren hellen Spaß an der Media-Analyse.

Zusammenfassend halte ich fest, daß die ermittelten Hörerzahlen keine Beurteilungsgrundlage für die einzelnen SDR-Programme bilden können, weil der Umfang der Meinungsumfrage mit 1453 Interviews viel zu klein ist. An eine quantitative Trendermittlung 1985/87 ist überhaupt nicht zu denken. Daran würde sich auch nichts ändern, wenn die Zahl der Interviews vervierfacht würde, denn dies hätte lediglich eine Halbierung der obigen Streubereiche zur Folge.

Die Media-Analyse ist, soweit es die einzelnen Rundfunkprogramme betrifft, ein viel zu grobes statistisches Instrumentarium. Mit einer Elle kann man nun einmal keine Millimeterbruchteile messen.

Aus zeitlichen Gründen kann ich in diesem Brief auf viele Punkte nicht eingehen, die mir erwähnenswert erscheinen. Zum Beispiel würde ich aus dem von der Media-Analyse ermittelten Rückgang des Hördaueranteils von 44% im Jahre 1985 auf 40% im Jahre 1987 nicht schließen, daß sich tatsächlich etwas geändert hat. Um dies beurteilen zu können, müßte ich die empirische Verteilung der Hördauer kennen. Diese wäre aus dem Datensatz leicht zu ermitteln.

Zweifellos ist es Aufgabe des SDR, seine Sendungen zu evaluieren und die Arbeit der Redakteure und Programmdirektoren zu beurteilen. Aber der SDR sollte hierfür ein etwas rationaleres Kriterium finden als eine Mischung von Lotto und russischem Roulette.

Mit freundlichen Grüßen

Prof. Dr. F. Ulmer

Résumé:

Der heiligen Kuh der Zahlengläubigen - der Media-Analyse - wird bei den Rundfunkhörerzahlen etwas saure Milch abgelassen.

 

Druckversion (pdf) drucken.gif (955 Byte)