How to switch! Ergebnisse eines Methodenvergleiches CATI vs. Online
Graue Wolken am CATI-Horizont
Seit langer Zeit ist die computergestützte telefonische Befragung (CATI) auf Basis eines randomisierten Samples (z.B. ADM-Mastersample) die weithin anerkannte Methode der Wahl, um bevölkerungsrepräsentative Stichproben zu erheben. Doch obwohl die Qualität solcher Stichproben vielfach unter Beweis gestellt wurde und im Grundsatz nach wie vor außer Frage steht, ziehen graue Wolken am Forschungshorizont auf. Forschung via Telefon kämpft zunehmend mit ernsten Schwierigkeiten. Die Teilnahmebereitschaft der telefonisch erreichbaren Bevölkerung ist in den letzten Jahren massiv gesunken. Je nach Umfang des Interviews erklärt sich im Schnitt nur noch jeder 3te bis 5te Proband bereit, sich interviewen zu lassen. Das treibt die Kosten in die Höhe und macht die Kalkulation einer CATI-Studie riskant. Abgesehen davon lassen sich auch methodische Zweifel nicht wegdiskutieren, wenn die Bruttoausschöpfung bei rund einem Drittel liegt. Sind solche Erhebungen wirklich noch – im eigentlichen Wortsinne – repräsentativ für die gesamte Zielgruppe? Darüber hinaus verschiebt sich die telefonische Erreichbarkeit gerade in den jüngeren Zielgruppen zunehmend in Richtung Mobiltelefonie. Der ADM hat darauf aktuell mit dem Forschungsvorhaben „Dual Frame“ reagiert – aber dieses Projekt steht gerade erst am Anfang. Und auch hier ist mit höheren Kosten zu rechnen, wenn der Anteil an mobilen Rufnummern im Sample steigt. Ganz davon abgesehen, dass die situationalen Bedingungen, unter denen Probanden mobil erreicht werden, ein Interview häufig nicht erlauben werden und dass die regionale Zuordnung der Telefonnummern im Vorfeld schwierig bis unmöglich ist.
Parallel zu dieser Entwicklung hat sich die Rekrutierung von Probanden über Online-Panels als Erhebungsform etabliert. Die Zahl der online durchgeführten Interviews hat letztes Jahr in Deutschland laut ADM erstmals die Zahl der telefonisch durchgeführten Interviews überstiegen. Dank zertifizierter Panel-Anbieter und der gestiegenen Erfahrung mit dieser Methode treten Bedenken hinsichtlich der Qualität der Daten und der Ernsthaftigkeit, mit der Online-Panelisten an Befragungen teilnehmen, immer mehr in den Hintergrund. Hinzu kommt ein wachsender Kostendruck seitens der Auftraggeber von Marktforschung, der die Online-Methode insbesondere in den Augen des Procurement attraktiv erscheinen lässt.
Ad-hoc-Studien, meist mit speziellen Zielgruppen, werden mittlerweile sehr oft online durchgeführt. Zumindest wird im Vorfeld solcher Studien praktisch immer geprüft, ob die Zielgruppe online erreichbar ist (evtl. sogar, ob sie online besser erreichbar ist, als telefonisch). Dies ist häufig der Fall und der Wechsel zur Online-Methode fällt dann leicht. Das Vertrauen in die Online-Forschung ist also gestiegen und so liegt es auf der Hand, zu fragen, ob und unter welchen Bedingungen auch kontinuierliche Projekte wie Markenmonitorings oder Kommunikationstrackings, die bislang telefonisch erhoben wurden, online fortgesetzt werden können. Bei diesen Studien geht es nicht nur darum, einmalig eine spezifische Frage zu beantworten, sondern auch, über die Zeit vergleichbare und stabile Kennziffern zu generieren.
Klarheit durch multimodale Studien?
Vor diesem Hintergrund hatte SKOPOS Ende 2010 die Gelegenheit, für ein Unternehmen der Energiebranche eine Studie durchzuführen, bei der parallel Daten via CATI (ADM-Mastersample) und Online-Panel (Quotenstichprobe, quotiert nach Alter und Geschlecht) erhoben wurden. Beim Online-Panel wurde auf das Opinion People Panel der ODC Services GmbH in München (zertifiziert nach ISO-Norm 26362) zurück gegriffen. Bei der Studie ging es – abgesehen von inhaltlichen Fragen – auch darum, die erhebungsbedingten Verzerrungen besser beurteilen zu können, um ein Gefühl dafür zu erhalten, ob dieses Tracking in Zukunft teilweise oder ganz online durchgeführt werden kann. Die Ergebnisse – die wir hier mit Einwilligung unseres Auftraggebers freundlicherweise veröffentlichen dürfen – sind in methodischer Hinsicht sehr spannend, wenn auch ein paar Fragen offen bleiben. Further research is needed – und auch geplant!
Ohne nachträgliche Gewichtung kommt keine Erhebungsform aus
In der Studie wurden jeweils rund 1.500 Personen telefonisch und online befragt. Grundgesamtheit war die Wohnbevölkerung im Versorgungsgebiet des Unternehmens ab einem Alter von 18 Jahren. Schauen wir zunächst auf die Verteilung der Merkmale Alter und Geschlecht, deren Verteilung auch für die Grundgesamtheit bekannt ist (siehe Abbildung 1). Es zeigt sich, dass beide Stichproben Verzerrungen aufweisen. Die Telefon-Stichprobe weist einen deutlich zu hohen Anteil an Frauen und älteren Personen auf (trotz vieler Anwahlversuche, Einsatz der Last-Birthday-Methode und Anrufen bis in die frühen Abendstunden). In der Online-Stichprobe ist eine Vorauswahl der Probanden über deren Stammdaten möglich. Daher ist die Aussteuerung nach Quoten hier einfacher. Dennoch ist die hohe Altersgruppe online unterrepräsentiert. Personen unter 40 Jahren sind überrepräsentiert.
Interessant ist auch ein Blick auf die Verteilung der Bildungsvariable. Diese wurde online nicht quotiert. Dennoch weicht die Verteilung nur geringfügig von der Verteilung der Telefonstichprobe ab. Hauptschüler sind online zugunsten von Realschülern leicht unterrepräsentiert.
Beide Stichproben müssen also gewichtet werden, um Geschlecht und Alter strukturgleich zur Grundgesamtheit bei der Auswertung der Daten zu berücksichtigen.
Wirft man einen Blick auf die Verteilung der eigenen Stromanbieter der Befragten (siehe Abbildung 2), fällt zunächst auf, dass der Anteil der Personen, die vom Auftraggeber der Studie ihren Strom beziehen, in beiden Stichproben fast identisch ausfällt. Der Marktanteil des Auftraggebers, der in der Realität signifikant höher liegt, wird übrigens in beiden Stichproben systematisch unterschätzt, was auch bei Studien in der Vergangenheit die Regel war. Systematische Unterschiede sind bei Discountern zu erkennen. Online-Panelisten beziehen ihren Strom häufiger von einem Discounter (z.B. Yello, TelDaFax, FlexStrom, e-wie-einfach usw.). Diese Verzerrung lässt sich erklären über die höhere Internet-Affinität der Panelisten, denn Discounter-Angebote werden primär online vertrieben. Außerdem belegen solche Angebote in Online-Stromvergleichsportalen (z.B. verivox.de) die vorderen Plätze. Die häufigere Nutzung von Discountern als Stromlieferanten bei Online-Befragten geht zu Lasten von Ökostrom- und sonstigen Anbietern.
Verzerrungen bei Bekanntheitsabfragen, Übereinstimmung bei Bewertungen
Typische Fragen in Trackings oder Monitorings sind Fragen nach der Bekanntheit verschiedener Kommunikationsmaßnahmen oder Kontaktpunkte. In der Regel werden diese Maßnahmen bei Bekanntheit nachfolgend einer Bewertung unterzogen. So auch in dieser Studie.
Es zeigen sich auf den ersten Blick deutliche Unterschiede bei der Bekanntheit verschiedener Kontaktpunkte (siehe Abbildung 3). So sind die traditionellen Aspekte der Kommunikation (Sponsoring, Werbung, PR/Medienberichte) den telefonisch befragten Personen deutlich häufiger bekannt, als den online befragten.
Sobald es um konkrete Berührungspunkte geht, wird dieses Bild jedoch differenzierter. Die Website ist den Online-Panelisten geläufiger (und wird auch deutlich häufiger genutzt). Bei der telefonischen Beratung kehrt sich dieses Verhältnis erwartungsgemäß um.
Unabhängig von den Unterschieden bei den Bekanntheitsabfragen ergeben sich nur sehr geringe und nicht substanzielle Unterschiede bei der Bewertung der verschiedenen Kontaktpunkte.
Eine andere Hypothese ist, dass Personen in einer persönlichen Interviewsituation (CATI) eher dazu neigen, Zustimmung zu geben (um nicht als ahnungsloser Mensch da zustehen). Das würde bedeuten, die Bekanntheit wird im Telefoninterview überschätzt. Neben diesen eher methodisch begründeten Effekten des Erhebungskanals könnte auch ein inhaltliches Argument eine Rolle spielen: Online-Panelisten weisen ein anderes Mediennutzungsverhalten auf, als es in der übrigen Bevölkerung zu beobachten ist. Sie nutzen neue/digitale Medien deutlich intensiver, was zu Lasten der Nutzung traditioneller Medien geht. SKOPOS plant gemeinsam mit dem Auftraggeber dieser Studie eine Folgestudie, um diesen Methodeneffekten weiter auf den Grund zu gehen.Abgesehen davon kann aber festgehalten werden, dass die Bewertung der Kontaktpunkte konsistent erfolgt.
Online-Panelisten antworten intern konsistenter
Neben dem Vergleich der Randverteilungen interessierte uns auch die interne Konsistenz der Daten. Dabei geht es um die Frage, ob Zusammenhänge zwischen verschiedenen Variablen unabhängig von der Erhebungsmethode stabil sind. Hier können wir einen Effekt beobachten, der typisch ist für selbstadministrierte Befragungen: Das Antwortverhalten der Online-Panelisten ist intern konsistenter als das der telefonisch befragten Personen. Das ist zu erkennen am durchschnittlichen Niveau der korrelativen Zusammenhänge, welches in der Online-Stichprobe (etwa 10%) höher liegt als in der Telefon-Stichprobe. Dieser Effekt ist vermutlich darauf zurückzuführen, dass die Online-Panelisten den Fragebogen selbst vor Augen haben und so ihre Antworten in Relation zueinander besser abstufen können.
Wie steht es nun um die Struktur der Zusammenhänge? Lassen sich online die gleichen strukturellen Zusammenhänge und Muster messen, die auch in der Telefonstichprobe zu finden sind? Um diese Frage zu beantworten, wurden Faktorenanalysen gerechnet (siehe Abbildung 4). Am Beispiel der Faktorstruktur einer Batterie von Image-Items zeigt sich, dass die Strukturen tatsächlich unabhängig von der Erhebungsform stabil bleiben.
Zwar sind die Faktorladungen in der Online-Stichprobe teilweise etwas höher als in der Telefonstichprobe (höhere interne Konsistenz, siehe oben!). Dennoch ergeben sich inhaltlich identische Faktoren. Konstruktvalidität ist also gegeben, denn bei beiden Verfahren werden mit den gleichen Fragen auch dieselben inhaltlichen Konstrukte gemessen.
How to switch?
Manche Methodiker mögen einwenden, wir verglichen hier Äpfel mit Birnen. In der Tat handelt es sich um den Vergleich einer (den strengen wissenschaftlichen Repräsentativitätskriterien genügenden) Zufallsstichprobe mit einer (nach wissenschaftlichen Maßstäben nicht repräsentativen) Quotenstichprobe. Vor dem Hintergrund der zu Beginn geschilderten Entwicklung der Telefonmarktforschung, die zunehmend schwieriger wird, ergibt es jedoch keinen Sinn, sich auf einen dogmatischen Standpunkt zurückzuziehen, sich nicht nach Alternativen umzusehen und auf das Ende aller Forschung zu warten … Wir vertreten dagegen den Standpunkt, dass es in Ordnung ist, neue Wege zu gehen, wenn dies mit Augenmaß geschieht. Die hier vorgestellte Studie liefert Informationen über die Effekte, die bei einem Methodenwechsel zu erwarten sind und an welchen Stellen noch Forschungsbedarf besteht.
Die Ergebnisse legen nahe, dass eine Umstellung von Telefoninterviews auf Online-Interviews möglich sein kann, ohne gravierende Einbußen hinsichtlich der Datenqualität hinzunehmen. Unabhängig von diesen Ergebnissen sind allerdings generelle Rahmenbedingungen zu beachten. Insbesondere ist sicherzustellen, dass die Zielgruppe überhaupt ausreichend im Online-Panel vertreten ist. Wenn es sich um wiederkehrende Befragungen handelt, ist mit dem Online-Panel-Anbieter auch zu diskutieren, ob das Panel ausreichend groß ist, um nicht in jeder Welle die gleichen Personen zu befragen.
Sofern die Rahmenbedingungen gegeben sind, ist eine Vorgehensweise Schritt für Schritt zu empfehlen:
1. Im ersten Schritt sollte eine Parallelstudie online und telefonisch wie in diesem Beispiel durchgeführt werden. Diese Studie zeigt, an welchen Punkten Verzerrungen zu erwarten sind und wo Ergebnisse deckungsgleich ausfallen.
2. Hinsichtlich der Verzerrungen ist zu überlegen, ob sich hier um Aspekte handelt, die mit der Internet-Affinität der Online-Panelisten korreliert sind oder ob es sich eher um Effekte handelt, die auf strategisches Antwortverhalten zurück zu führen sind. Im ersten Fall ist zu überlegen, ob ein Bruch in der eventuell geplanten Fortschreibung einer Zeitreihe akzeptabel ist. Mit hoher Wahrscheinlichkeit wird diese einmalige Verschiebung des Niveaus in den weiteren Wellen konstant bleiben. Falls strategisches Antwortverhalten vermutet wird, könnte eine modifizierte Abfrageform weiterhelfen (z.B. nicht in der Form von Listen, sondern in Form einzelner Ja-Nein-Fragen). Ob dieser methodische Kniff tatsächlich Wirkung erzielt, wird Gegenstand weiterer Studien sein.
3. Sofern es das Budget erlaubt, wäre eine weitere zweigleisige Welle zu empfehlen. Damit könnten die Veränderungen im Zeitverlauf analysiert werden.
Wenn die Niveauunterschiede zwischen telefonischer Befragung und Online-Befragung einmal bekannt sind, spricht nur noch wenig dagegen, das Tracking online fortzusetzen.
Abdruck mit Genehmigung von planung & analyse, Fachzeitschrift für Marktforschung.
Deutscher Fachverlag GmbH, Mainzer Landstrasse 251, 60326 Frankfurt am Main, Tel. +49(0)69 7595-2019, redaktion@planung-analyse.de, www.planung-analyse.de