Beinahe täglich gibt es vermeintlich bevölkerungsrepräsentative Umfragedaten, deren Qualität immer öfter angezweifelt wird. Das hängt auch mit einem Trend zu Online-Umfragen zusammen. Der Anteil an reinen Online-Stichproben im Vergleich zu klassischen Formen der Face-to-Face- oder Telefon-Stichproben hat deutlich zugenommen. Auch sogenannte Mixed-Mode-Stichproben aus Online- und Telefon-Daten drängen verstärkt auf den Umfragemarkt.
Die jeweilige Methode kann einen starken Einfluss auf die Qualität und damit auf die Aussagekraft der Ergebnisse ausüben. Ob Umfragedaten tatsächlich die Einstellungen der Bevölkerung widerspiegeln, ist jedoch für politische Akteure von entscheidender Bedeutung. Denn strategische (Neu-)Ausrichtungen werden nicht selten mit Umfrageergebnissen begründet.
Unser Experiment: sechs Institute, drei Methoden – ein Fragebogen
Online-Umfragen erfreuen sich zunehmender Beliebtheit. Sie sind schnell und kostengünstig, basieren aber meist auf Online-Access-Panels. Diese Panels werden in der Regel nicht über Zufallsstichproben aus der Gesamtbevölkerung rekrutiert und können nicht als bevölkerungsrepräsentativ gelten. Dennoch werden sie immer häufiger für relevante Entscheidungen zurate gezogen. Auch Mixed-Mode-Befragungen nehmen zu. Einige Anbieter versuchen, die Schwächen der Telefon-Befragung durch die Kombination mit einer Online-Stichprobe (=Mixed-Mode) auszugleichen. Der Test dieser Methoden prüft, ob Online-Access-Panels und Mixed-Mode-Befragungen belastbare und wiederholbare Ergebnisse erzielen können.
Für den Methodenvergleich wurden sechs Umfrageinstitute beauftragt: Ein Institut führte eine reine Telefon-Befragung durch (CATI), drei Institute führten eine sogenannte Mixed-Mode-Befragung durch und zwei Institute eine reine Online-Befragung. Alle Institute verwendeten einen nahezu identischen Fragebogen zum Thema Tierschutz. Da nicht die Institute, sondern die Methoden verglichen werden, nennen wir keine Institute, sondern nur die Methoden.
Das Problem der unterschiedlichen Umfragemethoden liegt nicht im Befragungsmedium. Stattdessen ist die Art der Stichprobenziehung entscheidend. Nur Umfragen, die auf einer Zufallsstichprobe basieren, können bevölkerungsrepräsentativ sein. Nur bevölkerungsrepräsentative Umfragen lassen Schlussfolgerungen auf Einstellungen in der Bevölkerung zu. Daher vergleichen wir die Ergebnisse der anderen Methoden mit der Telefon-Stichprobe.
Umfragedaten aus Mixed-Mode- und Online-Befragungen schwanken stark
Das Ergebnis unseres Vergleichs ist eindeutig. Bei wichtigen politischen Einstellungen weichen die Ergebnisse der Mixed-Mode- und der Online-Stichproben vor allem innerhalb einzelner Wählergruppen von der Telefon-Befragung und auch untereinander ab. Nicht alle Methoden liefern folglich belastbare und wiederholbare Ergebnisse.
Es wurde auch die Tierschutzkompetenz der Parteien abgefragt, also die Frage gestellt, welche Partei am besten geeignet sei, im Bereich Tierschutz eine Politik im Sinne des Befragten zu machen. Bei der Einschätzung dieser Parteikompetenz durch die Wählerschaften der Union, der Grünen und der AfD weichen die Befunde der Mixed-Mode- und der Online-Befragungen drastisch von den Werten der Telefon-Befragung ab. Zudem schwanken die Abweichungen deutlich innerhalb der gleichen Methode. Solch enorme Schwankungen sind, unabhängig vom Thema, absolut ungewöhnlich und deuten auf nicht belastbare und nicht replizierbare Ergebnisse hin.
In den Wählerschaften von CDU/CSU, AfD und Grünen nennen in den nicht repräsentativen Umfragen jeweils deutlich mehr Befragte die eigene Partei als kompetent als in der Telefon-Umfrage. Gleichzeitig nennen sie seltener die Tierschutzpartei oder keine Partei oder antworten mit „weiß nicht“. Die AfD-Wählerschaft weicht besonders stark ab. Je nach Methode nennen hier zwischen 20 und 43 Prozentpunkte mehr als in der Telefon-Umfrage die AfD als kompetenteste Partei beim Tierschutz. Aber auch bei den Wählerschaften der Union und der Grünen nennen mehr Befragte die eigene Partei: je nach Methode zwischen 5 bis 21 Punkten.
Diese großen Abweichungen belegen, dass sich die Wählerschaften in jeder einzelnen Mixed-Mode- und Online-Befragung unterscheiden. Die einzelnen Wählergruppen sind weder untereinander noch mit der zufallsbasierten Telefon-Stichprobe vergleichbar. Die Ergebnisse können daher nicht als belastbar eingestuft werden.
Gewichtung als Rettung?
Anbieter von Umfragen mit Online-Panels argumentieren immer wieder, dass die nachträgliche Gewichtung ihrer erhobenen Daten ein Garant für Repräsentativität sei. Das Problem entsteht allerdings bereits bei der nicht-zufallsbasierten Auswahl der Befragten. Die Stichprobe ist nicht repräsentativ, sondern weist unbekannte Verzerrungen auf, wie die großen Abweichungen belegen.
Für unbekannte inhaltliche Verzerrungen lässt sich nicht gewichten. Wie auch? Der Fehler ist in seiner Größe und Richtung nicht bekannt. Nehmen wir an, eine Stichprobe sammelt besonders viele Menschen mit populistischen Einstellungen ein, die ihrem Ärger in einer Umfrage zum Thema Politik Luft machen wollen. Die Ergebnisse dieser Umfrage dürften eine besondere Schlagseite erhalten. Bekannt ist, dass insbesondere die Anhängerschaften der AfD und der Linken im Internet besonders aktiv und mitteilsam sind. Hier sind gerade online-rekrutierte Access-Panels ein Problem, da sich dort Menschen auf eigenen Wunsch registrieren können, um vermehrt an Umfragen teilzunehmen. Das führt dazu, dass sich die Internetnutzer in Online-Panels von denen in Telefon-Umfragen unterscheiden. Das gilt vor allem für das politische Verhalten im Internet. In unseren Umfragen lesen die Befragten der Mixed-Mode- und der Online-Umfragen seltener als rein telefonisch Befragte politische Inhalte im Internet. Bei der Wählerschaft der AfD ist das besonders ausgeprägt. Gleichzeitig verbreiten und schreiben die Befragten der Mixed-Mode- und Online-Umfragen aktiver politische Inhalte als die Befragten der Telefon-Umfrage. Die Gewichtung nach Geschlecht, Alter und Bildung kann diese Schlagseite nicht ausgleichen, sondern durch die stärkere Gewichtung einzelner Befragter sogar noch vergrößern. Selbst eine Gewichtung nach der Sonntagsfrage ist keine Rettung. Denn auch innerhalb der Parteianhängerschaften kommt es zu Verzerrungen. So unterscheidet sich die online-affine, umfragebereite AfD-Anhängerschaft von den zufällig ausgewählten AfD-Anhängerinnen und -Anhängern. Auch bei anderen Parteianhängerschaften sind ähnliche Differenzen sichtbar. Diese Verzerrungen der Stichprobe können nicht durch Gewichtung ausgeglichen werden.
Probleme bei Älteren und “Offlinern”
Die unterschiedlichen Erhebungsmethoden stoßen auf unterschiedliche Probleme. Reine Telefon-Umfragen erreichen überdurchschnittlich viele ältere Menschen, tun sich dagegen bei den jüngsten Altersgruppen schwer. Reine Online-Umfragen können dagegen die ältesten Altersgruppen häufig nicht ausreichend abdecken. Entsprechend verweisen einige Anbieter darauf – so auch in unserer Mixed-Mode 2-Stichprobe –, dass die Daten repräsentativ für die Bevölkerung zwischen 18 und 74 Jahren seien. Aufgrund der deutschen Bevölkerungsstruktur ist jedoch gerade die Altersgruppe der über 70-Jährigen von großer Bedeutung. Ihr Anteil macht laut aktuellem Mikrozensus 21 Prozent der Gesamtbevölkerung aus.
Den Stichproben Online 1 und Mixed-Mode 2 gelingt es nicht, diese 21 Prozent annähernd zu erreichen. Diese Abweichung kann bzw. wird in der Folge auch nicht durch eine nachträgliche Gewichtung ausgeglichen. Die Auswirkungen sind problematisch, denn Ergebnisse können von Alterseffekten beeinflusst sein. Deutliche Alterseffekte gibt es beispielsweise beim Wahlverhalten – einem entscheidenden Interesse von politischen Umfragen. Die Aussagekraft altersverzerrter oder schlecht gewichteter Stichproben für die Gesamtbevölkerung ist stark begrenzt.
Zudem schließen reine Online-Stichproben nach wie vor einen Teil der Gesellschaft aus: Menschen, die das Internet nicht nutzen. Zwar ging die Zahl der Nichtnutzerinnen und Nichtnutzer in den letzten Jahren zurück, dennoch sind etwa 10 Prozent der Wahlberechtigen online nicht zu erreichen. Vor allem unter älteren Personen ab 70 Jahren ist der Anteil erhöht. Daher fällt es Online-Stichproben schwer, in dieser Zielgruppe Befragte zu gewinnen. Dieser Umstand wäre verschmerzbar, wenn man die älteren Befragten in Online-Stichproben einfach stärker gewichten könnte. Doch genau darin liegt das Problem: Die 70-Jährigen Smartphone-Besitzer, die online zu Umfragen bereit sind, unterscheiden sich systematisch von 70-Jährigen, die das Internet nie nutzen. Die Einstellungen der letztgenannten Gruppe fehlen in den Stichproben und können nicht nachträglich “hineingewichtet” werden. Oder wie der Sozialwissenschaftler Rainer Schnell es diesbezüglich ausdrückte: „Hundert Betrunkene machen keinen Nüchternen.“ (Die Zeit 2023). Demnach liefern reine Online-Stichproben grundsätzlich kein repräsentatives Abbild der Bevölkerung. Denn ein nicht kleiner Teil ist von dieser Stichprobenziehung systematisch ausgeschlossen.
Ist Mixed-Mode die Methode der Zukunft?
Es drängt sich die Frage auf, ob die Mixed-Mode-Methode gegenseitige Schwächen der Online- und Telefon-Verfahren ausgleichen kann. Denn hier kann die bessere Quote bei Älteren aus dem Telefon-Teil mit der besseren Erreichbarkeit junger Menschen im Internet-Teil kombiniert werden. Mit Blick auf die soziodemografischen Merkmale wie Alter, Geschlecht und Bildung scheint dies, zumindest zwei der Mixed-Mode-Stichproben, zu gelingen.
Problematisch sind jedoch auch bei der Mixed-Mode-Methode generell die großen inhaltlichen Abweichungen. Der Verdacht liegt nahe, dass diese Abweichungen durch die fehlende Zufallsauswahl im Online-Teil entstehen. Wie zu Beginn gezeigt, schlägt die Varianz im Vergleich zur reinen Telefon-Zufallsstichprobe in verschiedene Richtungen aus. Diese starken Schwankungen innerhalb der Methode deuten auf unzuverlässige Ergebnisse hin. Denn die Ergebnisse sollten sich je nach Stichprobe nur geringfügig verändern, sofern die Qualität der Stichproben hoch ist. Angesichts der großen Spannweite der Ergebnisse der verschiedenen Mixed-Mode-Stichproben muss die Qualität dieser Daten im Vergleich zu reinen Zufallsstichproben erheblich angezweifelt werden.
Fazit
Eine reine Zufallsauswahl ist der einzige Weg zu einer bevölkerungsrepräsentativen Stichprobe. Zum jetzigen Zeitpunkt kann das vor allem mit Telefon- oder Face-to-Face-Befragungen realisiert werden.
Zukünftig kann sich das durchaus ändern. Das setzt voraus, dass die gesamte Bevölkerung das Internet nutzt. Zusätzlich muss das genutzte Online-Access-Panel offline über eine Zufallsauswahl aus der Gesamtbevölkerung rekrutiert werden. Eine Selbstrekrutierung der Befragten muss ausgeschlossen sein. Solche Ansätze gibt es bereits vereinzelt. Die hohe Anzahl der Offliner bei den Älteren führt aber bisher auch bei solchen Panels zu Verzerrungen. Vermutlich ist es eine Frage der Zeit, bis auch bevölkerungsrepräsentative Mixed-Mode- und Online-Befragungen möglich sind. Dann können solche Umfragen auch als Basis für politische Entscheidungen dienen. Noch ist das aber „Zukunftsmusik“.
Literatur:
Die Zeit, 2023: Wie man sich eine Studie backt. Interview mit Prof. Dr. Rainer Schnell vom 10.08.2023, Nr. 34, S. 32.
Über diese Reihe
Rund um die Themen Kommunikation, Kampagnenmanagement und Digitale Strategie gibt der Blog Einblicke in aktuelle Trends der Politischen Kommunikation. Kommunikationsexpertinnen und -experten geben innovative, praktische Tipps für die politische Kampagne und für die Umsetzung.