123 45 9MB
German Pages [401] Year 2021
Dirk Hofäcker / Mojgan Stegl
Statistik und quantitative Forschungsmethoden Lehr- und Arbeitsbuch für die Soziale Arbeit und (Sozial-)Pädagogik
Dirk Hofäcker/Mojgan Stegl
Statistik und quantitative Forschungsmethoden Lehr- und Arbeitsbuch für die Soziale Arbeit und (Sozial-)Pädagogik Mit 153 Abbildungen und 55 Tabellen
Vandenhoeck & Ruprecht
»Jedes Schreckbild verschwindet, wenn man es fest ins Auge fasst.« Johann Gottlieb Fichte (Deutscher Philosoph)
Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über https://dnb.de abrufbar. © 2021, Vandenhoeck & Ruprecht GmbH & Co. KG, Theaterstraße 13, D-37073 Göttingen Alle Rechte vorbehalten. Das Werk und seine Teile sind urheberrechtlich geschützt. Jede Verwertung in anderen als den gesetzlich zugelassenen Fällen bedarf der vorherigen schriftlichen Einwilligung des Verlages. Umschlagabbildung: AdobeStock 198551468 © Andrey Popov
®
®
Abbildungen, die mit SPSS (IBM Statistics software) erstellt wurden, mit freundlicher Genehmigung von IBM : Reprint Courtesy of International Business Machines Corporation, © International Business Machines Corporation. SPSS Inc. was acquired by IBM in October, 2009. IBM, the IBM logo, ibm.com, and SPSS are trademarks or registered trademarks of International Business Machines Corporation, registered in many jurisdictions worldwide. Other product and service names might be trademarks of IBM or other companies. A current list of IBM trademarks is available on the Web at »http://www.ibm.com/legal/copytrade.shtml« IBM Copyright and trademark information at »http://www.ibm.com/legal/copytrade.shtml« www.ibm.com/legal/copytrade.shtml. Satz: SchwabScantechnik, Göttingen Vandenhoeck & Ruprecht Verlage | www.vandenhoeck-ruprecht-verlage.com ISBN 978-3-666-71779-6
Inhalt
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1. Einführung: Soziale Arbeit und Methodenanwendungen . . . . . . . . . . . . . . . . . . 1.1 Ein Lehrbuch für Quantitative Forschungs- und Analysemethoden . . . . . 1.2 Quantitative Forschungsmethoden in den sozialen Studiengängen . . . . . 1.2.1 Datenerhebung und Datengrundlagen in der Sozialen Arbeit . . . . . . 1.2.2 Anwendungen von quantitativen Analysemethoden in der Sozialen Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Struktur dieses Lehrbuchs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Forschungsfrage und Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Datenanalyse und Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17 17 18 20
2. Theorien, Hypothesen und Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Von »Trollen« und »Wutbürgern« – eine Einführung . . . . . . . . . . . . . . . . . 2.2 Erkenntnisinteresse, Theorien und Hypothesen . . . . . . . . . . . . . . . . . . . . . . 2.3 Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Zur Überprüfung von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30 30 31 37 40
3. Von der Forschungsfrage zum Forschungsprojekt: Forschungsdesign, Auswahl- und Erhebungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Forschungsdesign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Unterscheidung nach Zielsetzung der Forschung . . . . . . . . . . . . . . . . 3.1.2 Unterscheidung nach Erhebungshäufigkeit und Erhebungsobjekt . . . . 3.2 Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Das Grundprinzip von Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Willkürliche Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Bewusste Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Zufällige Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.5 Zur Größe von Stichproben und der Wahl des geeigneten Auswahlverfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Erhebungsformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Persönliche Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Telefonische Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Schriftliche Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Alternative Formen quantitativer Datenerhebung: Beobachtung und Inhaltsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22 25 25 28
43 44 44 52 61 61 64 65 67 76 79 81 84 86 90
6
Inhalt
4. Messung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Was versteht man unter Messung? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Erfassung mehrdimensionaler Phänomene: Indexbildung . . . . . . . . . . . . . 4.4 Gütekriterien der Messung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Gestaltung des Erhebungsinstruments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Aufbau des Fragebogens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Grundlegende Frageformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Grundregeln zur Formulierung von Fragen . . . . . . . . . . . . . . . . . . . . .
94 95 104 109 114 120 121 124 128
5 Univariate Datenauswertungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Häufigkeitsverteilungen/Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Maßzahlen der zentralen Tendenz/Mittelwerte/Lagemaße . . . . . . . . . . . . . 5.2.1 Der Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Der Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Das arithmetische Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Streuungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Range – Reichweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Der mittlere Quartilsabstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Ausreißer und Box-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.4 Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.5 Konfidenzintervall für das arithmetische Mittel . . . . . . . . . . . . . . . . . 5.4 Einführung SPSS – Häufigkeiten, deskriptive Statistiken und Diagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Daten eingeben und definieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.2 Daten bereinigen und visualisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.3 Erste statistische Auswertung und Interpretation mit SPSS . . . . . . . . 5.4.4 SPSS-Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
133 133 136 136 137 139 142 142 143 144 146 153
6. Bivariate Zusammenhangsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Die Analyse bivariater Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Zusammenhangsmaße für nominales Skalenniveau . . . . . . . . . . . . . . . . . . 6.3 Zusammenhangsmaße für ordinales Skalenniveau . . . . . . . . . . . . . . . . . . . 6.4 Zusammenhangsmaße für metrisches Skalenniveau . . . . . . . . . . . . . . . . . . 6.5 SPSS-Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
177 178 185 191 199 207
7. Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Einführung in die Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Annahmen der linearen Einfachregression . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Normalverteilung der Residuen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Homoskedastizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3 Metrische Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.4 Unabhängigkeit der Residuen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
213 213 219 220 223 227 227
158 162 165 171 173
Inhalt
7
7.3 Statistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Berechnung der Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.3 Die Beurteilung einzelner Prädiktoren . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 Durchführung linearer Regressionsanalysen mit SPSS . . . . . . . . . . . . . . . . 7.4.1 Nicht standardisierte Koeffizienten und Residuen . . . . . . . . . . . . . . . 7.4.2 Standardisierte Koeffizienten und Residuen . . . . . . . . . . . . . . . . . . . .
228 231 234 238 242 247 247
8. Multivariate Datenauswertungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Voraussetzungen der multiplen Regressionsanalyse . . . . . . . . . . . . . . . . . . 8.3 Anwendungsbeispiel einer multiplen Regressionsanalyse . . . . . . . . . . . . . . 8.3.1 Multikollinearität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.2 Merkmalselektionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Die multiple lineare Regression mit kategorialen Variablen . . . . . . . . . . . . 8.4.1 Jugenddelinquenz und Herkunftsfamilien . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 Interaktionseffekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Nicht lineare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.1 Allgemeines zur Wirksamkeitsuntersuchung von Sozialtherapie . . . . 8.6.2 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7 Logistische Regressionsanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.1 Vorüberlegungen und Erklärungsebenen für Kriminalität . . . . . . . . . 8.7.2 Datenbasis und Vorgehensweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.3 Modell der logistischen Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.4 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
251 251 252 255 261 267 272 272 276 282 290 290 292 300 300 302 307 312
9. Mehrebenenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Simone Braun und Dirk Hofäcker 9.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Grundlagen zur Durchführung einer Mehrebenenanalyse . . . . . . . . . . . . . 9.2.1 Datenstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.2 Merkmalszusammenhänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.3 Modellwahl und Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.4 Modellannahmen der linearen Mehrebenenregression . . . . . . . . . . . . 9.3 Modellierung eines klassischen Mehrebenenmodells: Vorgehensweise und Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Exkurs zur Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.2 Strategien der Modellentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.3 Bestimmung der Modellgüte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.4 Anforderungen an das Analyse-Sample: Stichprobengröße und fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.5 Anforderungen an die Variablen: Zentrierung . . . . . . . . . . . . . . . . . .
323 323 324 324 326 327 328 329 330 334 339 341 342
8
Inhalt
9.4 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.1 Betrachtung aus einer Ein-Ebenen-Perspektive . . . . . . . . . . . . . . . . . . 9.4.2 Random-Intercept-Only-Modell (Nullmodell) . . . . . . . . . . . . . . . . . . . 9.4.3 Random-Intercept-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.4 Random-Intercept-Random-Slope-Modell (Random-Coefficient Models) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.5 Intercept-as-Outcome-Modell/Slope-as-Outcome-Modell . . . . . . . . . 9.4.6 Cross-Level-Interaktions-Effekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5 Hinweise zu Literatur und Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
343 344 349 354 357 358 359 360
10. Ereignisanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 10.1 Grundidee der Ereignisanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 10.2 Ereignisanalytische Grundbegriffe, Datengrundlage und Datenstruktur .364 10.2.1 Ereignisanalytische Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 10.2.2 Datenstruktur und Datenquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 10.2.3 Zensierung von Episoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368 10.3 Deskriptive Analysen: Übergangsrate und Überlebenskurve . . . . . . . . . . . 370 10.4 Erklärende Analysen: Multivariate Regressionsmodelle . . . . . . . . . . . . . . . 374 10.5 Weiterführende Fragestellungen und Literaturempfehlungen . . . . . . . . . . 379 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
Abbildungen
Abbildung 1.1: Struktur des Forschungsprozesses (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Abbildung 2.1: Erklärungen des Verhaltens in Internetforen (eigene Darstellung in A nlehnung an Cheng et al. 2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Abbildung 2.2: Variable Anzahl negativer provokanter Beiträge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Abbildung 2.3: Antwortvorgaben der Variable »Anzahl negativer provokanter Beiträge«: Problem der eindeutigen Zuordenbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Abbildung 2.4: Variable Anzahl negativer provokanter Beiträge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Abbildung 2.5: Perfekter/deterministischer Zusammenhang zwischen Schulabschluss und Einkommen 41 Abbildung 2.6: Probabilistischer Zusammenhang zwischen Schulabschluss und Einkommen . . . . . . . 41 Abbildung 3.1: Querschnittsdesign (schematische eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Abbildung 3.2: Querschnittsdesign mit Retrospektivfragen (schematische eigene Darstellung) . . . . . . 54 Abbildung 3.3: Trenddesign (schematische eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Abbildung 3.4: Paneldesign (schematische eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Abbildung 3.5: Stichprobe und Grundgesamtheit (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Abbildung 3.6: Proportional geschichtete Stichprobe (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . 70 Abbildung 3.7: Disproportional geschichtete Stichprobe (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . 71 Abbildung 3.8: Geschichtete Zufallsauswahl und Quotenstichprobe im Vergleich (eigene Darstellung) 72 Abbildung 3.9: Mehrstufige Auswahl (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Abbildung 3.10: Schlagzeilen zur Literary Digest Studie 1936 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Abbildung 4.1: Dimensionen materieller Deprivation (Quelle: Townsend 1979) . . . . . . . . . . . . . . . . . . . 100 Abbildung 4.2: Offene Abfrage des Haushaltseinkommens (Quelle: ALLBUS 2018) . . . . . . . . . . . . . . . . 100 Abbildung 4.3: Kategoriale Abfrage des Haushaltseinkommens (Quelle: ALLBUS 2018) . . . . . . . . . . . . 101 Abbildung 4.4: Kategoriale Abfrage des Bezugs von Transferleistungen (Quelle: ALLBUS 2014) . . . . . 102 Abbildung 4.5: Notwendige Schritte der Messung (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Abbildung 4.6: Beispiel für Nominalskalen (Quelle: ALLBUS 2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Abbildung 4.7: Beispiel für Ordinalskalen (Quelle: ALLBUS 2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Abbildung 4.8: Skalenniveaus im Vergleich (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Abbildung 4.9: Skala zur Erfassung materieller Deprivation (gemäß EU; Quelle: Statistisches Bundesamt 2017: 13) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Abbildung 4.10: Skala zur Erfassung von Gerechtigkeitsideologien bei der Altersvorsorge: Subskala Askriptivismus (Quelle: Mühleck & Scheller 2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Abbildung 4.11: Typischer Aufbau eines Fragebogens (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . 121 Abbildung 4.12: Geschlossene Skala zur Erfassung von Gründen des Erwerbsausstiegs (Quelle: ISSP 2015) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Abbildung 4.13: Offene Skala zur Erfassung von Gründen des Erwerbsausstiegs (eigene Darstellung) .125 Abbildung 4.14: Halboffenes Format zur Erfassung der Staatsangehörigkeit (Quelle: ALLBUS 2016) . 127 Abbildung 5.1: Internetnutzung: Soziale Netzwerke alle Länder außer Deutschland (eigene Darstellung nach Eurobarometer 87.1, 2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Abbildung 5.2: Internetnutzung: Soziale Netzwerke in Deutschland (eigene Darstellung nach Eurobarometer 87.1, 2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Abbildung 5.3: Internetnutzung: Soziale Netzwerke (Antwortoptionen ohne »kein Internetzugang«; eigene Darstellung nach Eurobarometer 87.1, 2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 Abbildung 5.4: Bimodale Verteilung (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10
Abbildungen und Tabellen
Abbildung 5.5: Positiv und negativ verzerrte (schiefe) Verteilungen (eigene Darstellung) . . . . . . . . . . . Abbildung 5.6: Verteilungen mit positiver Kurtosis (steilgipflig, linke Figur) und negativer Kurtosis (flachgipflig, rechte Figur) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.9: Box-Plot Anzahl von Troll-Beiträgen ohne Ausreißer (eigene Darstellung) . . . . . . . . . . Abbildung 5.10: Box-Plot Anzahl von Troll-Beiträgen mit Ausreißern (eigene Darstellung) . . . . . . . . . Abbildung 5.11: Unterschied zwischen dem beobachteten Wert und dem arithmetischen Mittel (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.12: Histogramm der neun Stichprobenmittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.13: Illustration von Grundgesamtheit und Stichproben (Bildquelle: David Leikam) . . . . . Abbildung 5.14: Normalverteilungskurve (eigene Darstellung nach Eurobarometer 87.1, 2017) . . . . . . Abbildung 5.15: Normalverteilungskurve und Wahrscheinlichkeitsdichte (eigene Darstellung nach Eurobarometer 87.1, 2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.16: 95 % Konfidenzintervall (Quelle: http://www.wolframalpha.com/) . . . . . . . . . . . . . . . . Abbildung 5.17: Konfidenzintervalle für die Länder aus dem Eurobarometer (eigene Darstellung nach Eurobarometer 87.1, 2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.18: Eröffnungs-Dialogbox (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.19: Statistics-Dateneditor (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.20: Statistics-Ausgabefenster IBM SPSS (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.21: Menüleiste des Dateneditors (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.22: Dialogbox »Optionen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.23: Befehlsschaltflächen (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.24: Datenansicht (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.25: Daten speichern (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.26: Variablenansicht (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.27: Fehlende Werte (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.28: Wertebeschriftungen (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.29: Dateneditor: Optionen analysieren im Hauptmenü (IBM /SPSS ) . . . . . . . . . . . . . . . . Abbildung 5.30: Dialogfenster »Häufigkeiten« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.31: Ausgabefenster mit der Häufigkeitsverteilung der Variable »Freizeit: Bücher lesen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.32: Im Tabelleneditor geöffnete Häufigkeitsverteilung »Freizeit Bücher lesen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.33: Dialogfenster »Formatierungssymbolleiste« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.34: Erstellung von Diagrammen im Tabelleneditor (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . Abbildung 5.35: Häufigkeitsverteilung: Gültige Prozente (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.36: Diagramm um 90 Grad gedreht (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.37: Kreisdiagramm: Änderung G rafiktyp (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.38: Diagrammelemente (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.39: Menübefehle im Diagrammeditor (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.40: Symbole im Diagrammeditor (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.41: Deskriptive Statistiken: Maßzahlen (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.42: Deskriptive Statistiken: D iagramme (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.43: Maßzahlen (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.44: Syntax-Eingabefenster (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.45: Syntax-Erstellung für H äufigkeiten (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.46: Dialogfenster »Syntaxeditor« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.47: Befehle ausführen im Syntaxeditor (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.48: Auswahl ausführen (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 5.49: Syntaxerweiterung für weitere Variablen (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . Abbildung 6.1: Streudiagramm: Klausurvorbereitung und Klausurerfolg (eigene Darstellung, fiktives Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
® ®
® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ®
® ®
®
®
® ®
®
®
®
®
®
®
®
®
®
®
®
®
®
®
®
® ® ® ® ® ® ®
® ® ® ® ® ® ® ® ®
®
®
®
®
141 142 145 145 146 151 151 154 154 156 157 158 159 159 160 161 161 162 163 164 164 165 166 166 167 167 167 168 168 169 169 170 170 171 171 172 172 174 174 175 175 176 176 200
11
Abbildungen und Tabellen
Abbildung 6.2: Streudiagramm: Regressionsgerade (eigene Darstellung, fiktives Beispiel) . . . . . . . . . . . 201 Abbildung 6.3: Streudiagramm: Univariate Vorhersage durch den Mittelwert (eigene Darstellung, fiktives Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 Abbildung 6.4: Vorhersageverbesserung durch die Regressionsgerade: Erklärte und nicht erklärte Varianz (eigene Darstellung, fiktives Beispiel eines Ausschnitts aus der Verteilung) . . . . . . . . . . . . . . . . . 203 Abbildung 6.5: Streudiagramme für verschiedene Zusammenhangsmuster (eigene Darstellung, fiktives Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 Abbildung 6.6: Auswahlmenü »Kreuztabellen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 Abbildung 6.7: Dialogfeld »Kreuztabellen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 Abbildung 6.8: Dialogfeld »Kreuztabellen: Zellen anzeigen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . 209 Abbildung 6.9: Ausgabe: Kreuztabelle (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Abbildung 6.10: Dialogfeld »Kreuztabellen: Statistik« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 Abbildung 6.11: Ausgabe: Zusammenhangsmaße, nominales Skalenniveau (IBM /SPSS ) . . . . . . . . . . 211 Abbildung 7.1: Hassvorfälle und Anteil der Bevölkerung mit Einkommensungleichheit in US-Bundesstaaten (eigene Darstellung in Anlehnung an Majumder, 2017) . . . . . . . . . . . . . . . . . . . . . . . . 216 Abbildung 7.2: Hassvorfälle und Anteil der Bevölkerung mit Einkommensungleichheit ohne District of Columbia (eigene Darstellung in Anlehnung an Majumder 2017) . . . . . . . . . . . . . . . . . . . . . . . 217 Abbildung 7.3: Normal-Quantil-Plot für Verteilung der Werte der abhängigen Variable »Hassvorfälle« (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Abbildung 7.4: Normal-Quantil-Plot der Residuen (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . 222 Abbildung 7.5: Schiefe Verteilung (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Abbildung 7.6: Bruttoeinkommen (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Abbildung 7.7: Transformation der Bruttoeinkommen mit dem natürlichen Logarithmus (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 Abbildung 7.8: Standardisierte Residuen (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 Abbildung 7.9: Heteroskedastizität (eigene Darstellung, fiktives Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . 226 Abbildung 7.10: Auszug aus dem Datensatz für N = 5 US-Bundesstaaten (eigene Darstellung) . . . . . . . 232 Abbildung 7.11: Residuen und Residuenquadrate (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Abbildung 7.12: Dichtefunktionen von t-verteilten Zufallsgrößen mit unterschiedlichen Freiheitsgraden (Quelle: http://www.wolframalpha.com/) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 Abbildung 7.13: Streu-/Punktdiagramm (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 Abbildung 7.14: Einfaches Streudiagramm (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 Abbildung 7.15: Bivariates Streudiagramm (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 Abbildung 7.16: Lineare Regression (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 Abbildung 7.17: Lineare Regression im Tabelleneditor (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . 245 Abbildung 8.1: Dialogfenster »Koeffizienten der multiplen Regressionsgleichung« (IBM /SPSS ) . . . . 257 Abbildung 8.2: Modellzusammenfassung: alle P rädiktoren (eigene Berechnungen) . . . . . . . . . . . . . . . . 257 Abbildung 8.3: Dialogfenster »Kollinearitätsdiagnose« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 Abbildung 8.4: Dialogfenster zur Auswahl der Methode (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Abbildung 8.5: Herkunftsfamilie (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Abbildung 8.6: Besuche in der Haft (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Abbildung 8.7: Dialogfenster »RECODE-Transformation« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . 277 Abbildung 8.8: Dialogfenster »Umcodieren in andere Variablen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . 278 Abbildung 8.9: Dialogfenster »Alte und neue Werte« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 Abbildung 8.10: Dialogfenster »Alle anderen Werte« (IBM®/SPSS®) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 Abbildung 8.11: Regressionskoeffizienten mit Dummy-Variablen für die Familienherkunft (eigene Berechnung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 Abbildung 8.12: Regressionskoeffizienten ohne Bildung von Dummy-Variablen (eigene Darstellung) .280 Abbildung 8.13: Veranschaulichung »Moderatoreffekt« (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . 283 Abbildung 8.14: Berechnung der zentrierten Variable (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 Abbildung 8.15: Berechnung der zentrierten Variable, Dateneditor (IBM /SPSS ) . . . . . . . . . . . . . . . . . 286 Abbildung 8.16: Berechnung »Lineare Regression mit Interaktionsterm« (IBM /SPSS ) . . . . . . . . . . . . 286
®
®
®
®
®
®
® ®
®
® ®
®
®
®
®
®
®
®
®
®
®
®
®
®
®
®
® ®
®
®
®
®
®
®
12
Abbildungen und Tabellen
Abbildung 8.17: Straftaten insgesamt in Deutschland von Jugendlichen im Alter von 14 bis unter 18 Jahren (eigene Darstellung nach polizeilicher Kriminalstatistik) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 Abbildung 8.18: Lineare Regression zwischen Anzahl und Dauer der Sozialtherapie bei Rückfälligkeit gemäß Bundezentralregister/BZR (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Abbildung 8.19: Lineare Regression zwischen der Dauer der Sozialtherapie und der Rückfälligkeit gemäß Bundeszentralregister/BZR mit quadriertem Term (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . 294 Abbildung 8.20: Dialogbox »Kurvenanpassung« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 Abbildung 8.20: Dialogbox »Kurvenanpassung« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 Abbildung 8.21: Dialogbox »Kurvenanpassung: Speichern« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . 298 Abbildung 8.22: Dialogbox »Pivot-Tabellen APA-Format« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . 300 Abbildung 8.23: Dauer der Jugendstrafe (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 Abbildung 8.24: Dialogfenster »Kreuztabellen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 Abbildung 8.25: Dialogfenster »Kreuztabellen: Zellen anzeigen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . 304 Abbildung 8.26: Logistische Funktion (Quelle: http://www.wolframalpha.com/) . . . . . . . . . . . . . . . . . . . 309 Abbildung 8.27: Altersangabe bei Haftbeginn (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 Abbildung 8.28: Dialogfenster »Standardisierte Werte als Variable speichern« (IBM /SPSS ) . . . . . . . 316 Abbildung 8.29: Dialogfenster »Regression – binär logistisch« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . 316 Abbildung 8.30: Dialogfenster »Logistische Regression« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Abbildung 8.31: Dialogfenster »Referenzkategorie festlegen« (IBM /SPSS ) . . . . . . . . . . . . . . . . . . . . . . 317 Abbildung 9.1: Datenstruktur im Mehrebenenmodell (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . 325 Abbildung 9.2: Hierarchie am Beispiel einer ländervergleichenden Analyse (eigene Darstellung) . . . . 325 Abbildung 9.3: Zusammenhänge von Mikro- und Makro-Ebene (eigene Darstellung in Anlehnung an J äckle und Schärdel, 2017: 152) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 Abbildung 9.4: a) Random Intercept Only, b) Random Intercept, c) Random Intercept Random Slope (eigene Darstellung in Anlehnung an Pillinger, 2020). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 Abbildung 9.5: Arbeitsschritte zur Durchführung einer Mehrebenenanalyse (eigene Darstellung) . . . . 335 Abbildung 9.6: Box-Plot zur Anzahl der Hausarbeitsstunden in Europa: a) gesamt, b) Männer, c) Frauen (eigene Darstellung auf Basis des ISSP 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 Abbildung 9.7: Landes-Durchschnitt in der aufgewendeten Stundenzahl für Hausarbeit in Abhängigkeit von der Zustimmung zum Breadwinner-Modell, getrennt nach Geschlecht (eigene Darstellung auf Basis des ISSP 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 Abbildung 9.8: Landes-Durchschnitt der aufgewendeten Stundenzahl für Hausarbeit in Abhängigkeit von der Zustimmung zum Breadwinner-Modell mit Angabe der entsprechenden Regressionsgeraden, getrennt nach Geschlecht (eigene Darstellung auf Basis des ISSP 2012) . . . . . . . . . 349 Abbildung 9.9: Caterpillar-Plot mit Angabe der länderspezifischen Residuen (eigene Darstellung auf Basis des ISSP 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Abbildung 9.10: Darstellung der länderspezifischen Variation von a) Intercepts/RI-Modell bzw. b) Slopes/RIRS-Modell (eigene Darstellung auf Basis des ISSP 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 Abbildung 10.1: Einfacher Episodendatensatz (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 Abbildung 10.2: Einfacher Episodendatensatz mit Episodensplitting (eigene Darstellung) . . . . . . . . . . . 367 Abbildung 10.3: Zensierung von Episoden (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 Abbildung 10.4: Überlebensfunktionen für den Erwerbsaustritt dänischer Arbeitnehmer, 1925–1934 (eigene Berechnungen auf Basis der IDA Data Base) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
® ®
® ®
®
®
® ®
® ®
®
®
®
® ®
®
®
®
®
®
Tabellen
Tabelle 1.1: Methodenpräferenzen in der Sozialen Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Tabelle 3.1: Forschungsdesigns nach Erhebungshäufigkeit und Erhebungsobjekt (eigene Darstellung) .60 Tabelle 3.2: Zufallsbasierte Auswahlverfahren im Überblick (eigene Darstellung) . . . . . . . . . . . . . . . . . . 75 Tabelle 3.3: Vor- und Nachteile verschiedener Befragungsformen (eigene Darstellung) . . . . . . . . . . . . . 89 Tabelle 4.1: Messung materieller Deprivation (hypothetisches Beispiel, eigene Darstellung) . . . . . . . . . 111 Tabelle 4.2: Messung Askriptivismus (hypothetisches Beispiel, eigene Darstellung) . . . . . . . . . . . . . . . . . 112 Tabelle 4.3: Messung Askriptivismus mit geänderter Kodierung (eigene Darstellung) . . . . . . . . . . . . . . . 113 Tabelle 5.1: Anzahl der provokanten Kommentare (ungeordnet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Tabelle 5.2: Anzahl der provokanten Kommentare (geordnet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Tabelle 5.3: Gerade Anzahl der provokanten Kommentare (geordnet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Tabelle 5.4: Range – Reichweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 Tabelle 5.5: Range – Reichweite (ohne Extremwert) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Tabelle 5.6: Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Tabelle 5.7: Stichprobenmittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Tabelle 6.1: Erwartete Erwerbstätigkeit von Müttern mit Vorschulkindern in Deutschland, Ost-West- Vergleich, absolute Häufigkeiten (Quelle: ALLBUS 2002, eigene Berechnungen) . . . . . . . . . . . . . . . . . . . 179 Tabelle 6.2: Erwartete Erwerbstätigkeit von Müttern mit Vorschulkindern in Deutschland, Ost-West- Vergleich, absolute und relative Häufigkeiten (Quelle: ALLBUS 2002, eigene Berechnungen) . . . . . . . . 181 Tabelle 6.3: Erwartete Erwerbstätigkeit von Müttern mit schulpflichtigen Kindern bzw. in der »Empty- nest-Phase«, Deutschland, Ost-West-Vergleich, absolute und relative Häufigkeiten (Quelle: ALLBUS 2002, eigene Berechnungen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 Tabelle 6.4: Erwartete Erwerbstätigkeit von Müttern mit Vorschulkindern, Kontingenz- und Indifferenztabelle (Quelle: ALLBUS 2002, eigene Berechnungen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 Tabelle 6.5: Erwartete Erwerbstätigkeit von Müttern mit Vorschulkindern, Indifferenztabelle ohne (linke Spalte) und mit errechneten Befragtenzahlen (rechte Spalte) (Quelle: ALLBUS 2002, eigene Berechnungen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Tabelle 6.6: Abstand zwischen Kontingenz- und Indifferenztabelle, Berechnung des Wertes Χ2 (Quelle: ALLBUS 2002; Daten aus Tabelle 6.4/6.5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Tabelle 6.7: »Faustregel« zur Interpretation der Stärke von Zusammenhängen (eigene Darstellung gemäß Müller-Benedict 2007: 197 bzw. Häder 2015: 433) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 Tabelle 6.8: Zusammenhang zwischen Erwerbspräferenz und Wohnort für verschiedene Lebensphasen (Quelle: ALLBUS 2002, eigene Berechnungen). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 Tabelle 6.9: Schulnotenverteilung im Mathe- und Englischunterricht (eigene Darstellung, fiktives Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Tabelle 6.10: Kreuztabelle: Fernsehkonsum nach Alter (Quelle: ALLBUS 2010) . . . . . . . . . . . . . . . . . . . . 197 Tabelle 6.11: Zusammenhangsmaße: Fernsehkonsum nach Alter (Quelle: ALLBUS 2010) . . . . . . . . . . . 198 Tabelle 6.12: Zusammenhangsmaße im Überblick (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . 206 Tabelle 7.1: Zwischenschritte zur Berechnung der Regressionsmodellparameter . . . . . . . . . . . . . . . . . . . 235 Tabelle 7.2: Zwischenschritte zur Berechnung des R-Quadrats (eigene Darstellung) . . . . . . . . . . . . . . . . 237 Tabelle 7.3: Deskriptive Statistiken (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 Tabelle 7.4: Quantile der t-Verteilung für n Freiheitsgrade (Quelle: https://www.oreilly.com/library/ view/statistik/9783110397635/images/page679_1.jpg) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 Tabelle 8.1: Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
14
Abbildungen und Tabellen
Tabelle 8.2: Koeffizienten der multiplen Regressionsgleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.3: Korrelationsmatrix (eigene Berechnungen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.4: Regressionskoeffizienten inklusive Kollinearitätsstatistik (eigene Berechnungen) . . . . . . . . Tabelle 8.5: Kollinearitätsdiagnose (eigene Berechnungen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.6: Modellzusammenfassung: Methode Rückwärtsverfahren (eigene Berechnungen) . . . . . . . Tabelle 8.8: Prädiktorenselektion bei unterschiedlichen Methoden (eigene Darstellung) . . . . . . . . . . . . Tabelle 8.9: Besucher in der Haft (eigene Berechnungen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.10: Anzahl Vorstrafen (eigene Berechnungen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.11: Deskriptive Statistiken für spontane Aggression (eigene Bearbeitung) . . . . . . . . . . . . . . . . Tabelle 8.12: Koeffizienten der multiplen Regressionsgleichung mit Interaktionsterm . . . . . . . . . . . . . . Tabelle 8.13: Sanktionsbezeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.13: Regression mit quadrierten Termen im Modellvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.14: Kreuztabelle »Legalprognose und Heimunterbringung« (eigene Berechnungen) . . . . . . . . Tabelle 8.15: Bedingte Wahrscheinlichkeiten (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.16: Auftrittswahrscheinlichkeit Odds (eigene Berechnungen) . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.17: Legalbewährung (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.18: Übersicht der Variablen (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.19: Logistische multiple Regression (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.20: Omnibus-Test der Modellkoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.21: Modellzusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 8.22: Regressionskoeffizienten, Odds-Ratios und AME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 9.1: Kontextabhängigkeit von Stundenaufwand für die Hausarbeit, FML (eigene Darstellung mit Stata 13.1 auf Basis des ISSP 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 10.1: Übergänge in den Ruhestand zwischen 55 und 67 Jahren; Dänemark, Männer der Geburtskohorte 1925–1929 (eigene Berechnungen auf Basis der IDA Data Base) . . . . . . . . . . . . . . . . . . .
259 262 265 266 268 270 274 276 285 287 293 295 305 306 306 314 314 318 318 318 321 352 377
Vorwort
Methoden der empirischen Sozialforschung stellen in den sozialen Studiengängen – etwa der Sozialen Arbeit, der Sozialpädagogik und den Erziehungswissenschaften – zunehmend ein Kernelement der curricularen Ausbildung auf Bachelor- und Masterniveau dar. Studierende vermissen hierbei aber oftmals eine vermittelnde Nähe zu forschungspraktischen Fragen und kritisieren deshalb die Praxisferne der Methodenausbildung. Dieses Defizit trägt dazu bei, dass sowohl Studierende in ihren empirischen Abschlussarbeiten als auch Fachwissenschaftler*innen in Forschungsprojekten plötzlich vor zahlreichen forschungspraktischen Fragen und Problemen stehen, die sie weitgehend unvorbereitet zu lösen haben. Um beispielsweise Sozialberichtswesen und Forschungsberichte verstehen und selbst erstellen zu können, sind hinreichende Kenntnisse in quantitativen Methoden und modernen statistischen Verfahren notwendig. Bisherige Lehrbücher fokussieren jedoch meist nur in geringem Maße auf die Umsetzung quantitativ-empirischer Methoden in den Tätigkeitsfeldern der Sozialen Arbeit und Sozialpädagogik und orientieren sich eher allgemein an sozialwissenschaftlichen Studiengängen (wie etwa der Soziologie und den Politikwissenschaften). An dieser Stelle setzt das vorliegende Buch an, das als grundständiges Lehrbuch sowohl eine methodisch-statistische Strenge, gleichzeitig jedoch auch die nötige Benutzerfreundlichkeit und praktische Übertragbarkeit für die sozialen Studiengänge bietet. Sowohl für Studierende als auch für Praktiker*innen im Feld soll das Lehrbuch aus unterschiedlichen Blickwinkeln häufig verwendete quantitative Forschungsmethoden sowie ausgewählte vertiefende Methoden darstellen und deren Nützlichkeit im Hinblick auf den sozialen Kontext vorstellen. Entsprechend sollen neben den Grundzügen der empirischen Sozialforschung im Allgemeinen die thematischen und methodischen Spezifika der Forschung im sozialen Bereich anhand von geeigneten Beispielen verdeutlicht werden. Dieses Lehrbuch entsteht aus der didaktischen Überzeugung heraus, dass sich intuitives Lernen, die Lehre von quantitativen Forschungsmethoden und die computerbasierte Anwendung von Statistik sinnvoll ergänzen und nicht substituieren. Studierende, die sich nur technische Hilfsmittel aneignen, entwickeln selten wirkliche Zuneigung für ihre Disziplin. Studierende hingegen, welche über intuitives Denken und fundierte Methodenkenntnisse verfügen, entwickeln bessere Wege, die ihnen zur Verfügung stehenden technischen Werkzeuge fachspezifisch einzusetzen.
16
Vorwort
Die Grundgedanken, Verfahren und Methoden der einzelnen Kapitel werden anhand von speziellen Daten aus der sozialen Forschungspraxis erläutert. Statistik wird für zukünftige Praktiker und Wissenschaftler im sozialen Bereich verständlich, übersichtlich und interessant dargestellt. Theoretische Einblicke und die anschließende Anwendung von Statistiktools mit entsprechenden Beispieldaten erleichtern die Vertiefung. Anhand der wesentlichen Aspekte der behandelten Methoden wird der Leser/die Leserin die wich tigsten Arbeitsschritte kennenlernen. Durch die Anwendung der verbreiteten statistischen Analysesoftware SPSS wird das Verständnis der zuvor dargestellten theoretischen, mathematischen und statistischen Betrachtungen intensiviert. Alle Analysen werden schrittweise vorgenommen und exemplarische Fälle und ihre Einsatzmöglichkeiten umfangreich diskutiert. Ein Buch, das verschiedene Aspekte empirischer Forschung anhand praktischer Beispiele und anschaulicher Darstellung der statistischen Prinzipien erklärt, ist sowohl für Einsteiger*innen als auch für Fortgeschrittene hilfreich. Zum einen kann es in grundständigen Bachelor-Vorlesungen und -Seminaren zur Datenerhebung und Datenanalyse/Statistik verwendet werden. Zum anderen kommen aber zusätzlich als Zielgruppe auch fortgeschrittene Master-Studierende im Bereich der Sozialarbeitswissenschaft, des Sozialmanagements oder der Erziehungswissenschaft in Betracht. Durch die Trennung von grundlegenden und vertiefenden Inhalten kann das vorliegende Lehrbuch darüber hinaus von Doktorand*innen und Forscher*innen in den genannten Disziplinen als Nachschlagewerk genutzt werden.
1. Einführung: Soziale Arbeit und Methodenanwendungen
1.1 Ein Lehrbuch für Quantitative Forschungs- und Analysemethoden Die Frage »Was um alles in der Welt machen Sie hier?« ist für uns relativ einfach zu beantworten: Es könnte sein, dass Sie dieses Buch gekauft haben, weil Ihnen mathematische Formeln gefallen. Vielleicht brauchen Sie es auch als Sitzerhöhung (es ist schön dick). Am wahrscheinlichsten steht jedoch hinter Ihrer Entscheidung, Ihr hart verdientes Geld für ein Statistik- und Methodenbuch auszugeben, das Interesse, etwas über Forschung und Datenanalyse zu lernen. Was immer Sie auch studieren oder erforschen, es ist sehr wahrscheinlich, dass Sie daran interessiert sind, praktische Fragen aus Ihrem beruflichen Feld oder aus Ihrer Fachwissenschaft beantwortet zu bekommen. Wissenschaftler*innen sind neugierige Menschen. Um empirische Fragen beantworten zu können, brauchen Sie zweierlei: Erstens eine geeignete Datenbasis, die es Ihnen ermöglicht, die Sie interessierenden Fragestellungen angemessen zu untersuchen und zweitens Verfahren oder Methoden, die es Ihnen ermöglichen, diese Daten zu analysieren. Auf Ihrer Suche nach Antworten benötigen Sie entsprechend Kenntnisse über Forschungs- und Erhebungsmethoden ebenso wie über Verfahren der Datenanalyse. Verfahren der Datenanalyse greifen – insbesondere bei großen Datenmengen – zur Vereinfachung auf Methoden der Statistik zurück, die ihrerseits auf der Verwendung von Zahlen und Werten beruht. Das vorliegende Lehrbuch konzentriert sich auf diese Verfahren zur Untersuchung großer und umfassender Datenmengen, die sogenannten quantitativen Forschungsmethoden1. Welches Hintergrundwissen benötigen Sie hierfür? Grundsätzlich setzen wir kein detailliertes Vorwissen über Statistik und Forschungsmethoden voraus. Gleichwohl sollten Sie über grundlegende mathematische Basiskenntnisse wie z. B. das Lösen von Gleichungen, Prozent- und Zinsrechnung verfügen. Weiterführende mathematische Konzepte werden wir in den folgenden Kapiteln Schritt für Schritt einführen und mit Ihnen gemeinsam 1 Selbstverständlich existieren auch andere Formen von Daten außer Zahlen, die verwendet werden können, um empirische Sachverhalte zu untersuchen, und die insbesondere für eine detaillierte, tiefergehende Untersuchung kleinerer Datenmengen adäquat erscheinen. Die Spezifika der in diesem Buch vermittelten quantitativen Methoden im Vergleich zu diesen sogenannten qualitativen Methoden werden in Kapitel 2 ausführlicher diskutiert.
18
Einführung: Soziale Arbeit und Methodenanwendungen
vertiefen. Darüber hinaus sollten Sie idealerweise grundlegende Erfahrungen im Umgang mit einschlägigen windows-basierten PC-Programmen haben. Dies erleichtert Ihnen die ebenfalls in diesem Buch vermittelte Durchführung statistischer Analysen mit Hilfe von PC-basierten Statistikprogrammen. Hierfür bietet der Markt mittlerweile eine große Menge an Software-Alternativen. Wir greifen im Rahmen des vorliegenden Lehrbuchs primär auf das Statistikprogramm SPSS (Statistical Package for the Social Sciences) des Softwareherstellers IBM zurück. Zum einen verwendet SPSS eine Bedienungsoberfläche, die derjenigen von etablierten PC-Programmen (etwa im Bereich der Textverarbeitung oder Tabellenkalkulation) stark ähnelt und auf Fenstern, Pull-Down-Menüs und Dialogfeldern beruht. Anfänger*innen ermöglicht diese gewohnte Benutzeroberfläche einen leichteren Einstieg in die praktische Arbeit mit Statistiksoftware. Zum anderen stellt SPSS sowohl in der Wissenschaft als auch in der beruflichen Praxis eines der meist genutzten Statistikpakete dar. Im Rahmen dieses Lehrbuchs vermittelte Kenntnisse können entsprechend mit hoher Wahrscheinlichkeit direkt später in der beruflichen Praxis angewendet werden. Werden die Kapitel komplizierter, wenn Sie das Buch weiterlesen? Die vermittelten Inhalte bauen durchaus aufeinander auf, und Kapitel 5 setzt entsprechend einen größeren Wissensbestand bei Ihnen voraus als Kapitel 1. In gewisser Weise steigern wir uns also im Schwierigkeitsgrad. Aber bedenken Sie: Auch Ihr Verständnis wird mit jedem Kapitel ansteigen. Zudem erleichtert Ihnen der stufenweise Aufbau des Buches, den »roten Faden« zu entdecken, d. h. die Gemeinsamkeiten und Unterschiede verschiedener Methoden und Verfahren zu verstehen, um diese in der Praxis reflektiert anwenden zu können.
1.2 Quantitative Forschungsmethoden in den sozialen Studiengängen In den vergangenen Jahren finden sich insbesondere im Bereich der Sozialen Arbeit zunehmend prominente Beiträge, die eine Verwissenschaftlichung der sozialen Forschungsdis ziplinen einfordern (Guo 2015; Shaw 2012 Brekke 2012). Eine zentrale Rolle nimmt dabei die forschungsmethodologische Fundierung dar. Um Forschung im sozialen Bereich wissenschaftlich zu gestalten, müssen Forschungsmethoden (quantitativ und qualitativ) zu System- und Denkkonstrukten aller Beteiligten (Studierende, Praktiker*innen, Wissenschaftler*innen) werden. Verfeinerte Methodenkenntnisse vervielfachen die Möglichkeiten, mit denen sich wissenschaftliche und berufspraktische Phänomene in der Sozialarbeit analysieren lassen. Die Forschungsmethodik stellt somit einen wesentlichen Schlüssel zu einer Verwissenschaftlichung der sozialen Studiengänge dar. Empirische Forschung (griechisch: empeiria = Erfahrung, Kenntnis) befasst sich mit erfahrungswissenschaftlichen Untersuchungen. Wissenschaftliche Erkenntnisse unter-
Quantitative Forschungsmethoden in den sozialen Studiengängen
19
scheiden sich in einigen markanten Punkten von Alltagsfeststellungen. Sie müssen bei Überprüfungen nachvollziehbar und replizierbar bleiben. In wissenschaftlichen Darstellungen werden für die ausgewiesenen Kennziffern Angaben über ihren Grad an Genauig keit, Gültigkeit und Verlässlichkeit standardmäßig erwartet. Durch das steigende Interesse an der systematischen Erfassung von Information über soziale Handlungsfelder – nicht zuletzt im Zusammenhang mit der Etablierung von output-orientierter Steuerung – wächst der Bedarf an datengestützter Empirie. Empirische Untersuchungen können hier bei der Suche nach und Optimierung von praktischen Programmen und Lösungen hilfreich sein. Strategisches Handeln angesichts immer komplexer werdender Problemlagen verlangt verstärkt nach evidenzbasiertem Wissen – für Lernende, Lehrende, Forschende und die politische Administration. Empirische Sozialforschung kann hierbei als relevanter »Background« für die Praxis herangezogen werden. Hinzu kommt, dass die Konfrontation mit Ergebnissen aus der empirischen Sozialforschung mittlerweile allgegenwärtig ist. Die Verfügbarkeit von sozialwissenschaftlichen Daten verbessert sich zunehmend in vielen Handlungsfeldern sowohl auf nationaler als auch internationaler Ebene. Der zunehmende Einsatz von leistungsfähigen Computern schafft neue Möglichkeiten zur Datenanalyse. Kenntnisse aus den Bereichen Forschungsmethoden und Datenanalyse werden somit immer wichtiger, um ein Verständnis für die komplexen Problemlagen und Lösungsfindungsansätze entwickeln zu können. Somit sind fast alle Beteiligten – in Forschung und Praxis – zunehmend mit der Aufgabe konfrontiert, Forschungsdaten erheben und Forschungsergebnisse sinnvoll interpretieren zu können. Quantitative empirische Forschung bedeutet aber auch, dass eine Vielzahl an Informationen auf einige wenige Kernaspekte reduziert wird. Diese Fokussierung bedeutet gleichzeitig, dass inhärent Informationsverlust vorhanden ist. Hier ist die Fähigkeit zur kritischen Reflexion von Ergebnissen sehr wichtig. Es wäre jedoch naiv zu glauben, dass eine quantitativ ausgerichtete Sozialarbeitsforschung ohne ein systematisches Verständnis der Disziplinstrukturen funktionieren würde. Die sozialarbeiterische Kernaufgabe besteht darin, soziale Probleme zu bewältigen. Dabei leistet die Soziale Arbeit wichtige Beiträge auf drei Ebenen: 1. für den Einzelnen bringt sie individuumsbezogen weniger Leiden und mehr Kompetenz sowie 2. gesellschaftsbezogen weniger Ausgrenzung und mehr Teilhabe und 3. für die Gesamtgesellschaft weniger Benachteiligung und mehr gesellschaftlichen Frieden (Böllert 2018; Kleve 2007). Die oben genannten fachspezifischen Problemlösungskonzepte sind dabei eng mit der Frage der Forschungsmethoden und Datenerhebung gekoppelt. Im Folgenden sollen
20
Einführung: Soziale Arbeit und Methodenanwendungen
daher die Spezifika der Datenerhebung und der Datenanalyse in den sozialen Studiengängen kurz verdeutlicht werden. Hieraus werden schließlich (in Kapitel 1.3) der inhaltliche Fokus und die Struktur des vorliegenden Lehrbuchs abgeleitet. 1.2.1 Datenerhebung und Datengrundlagen in der Sozialen Arbeit Die Datengrundlage der klassischen empirischen Sozialforschung (etwa in der Soziologie, der Politikwissenschaft oder der Wirtschaftsforschung) bilden meist sogenannte sozialwissenschaftliche Surveys. Hierbei handelt es sich um groß angelegte Befragungen von Bürgern und Bürgerinnen zu allgemeinen Fragen des alltäglichen Lebens, etwa des Wohnorts, der Familiensituation, der Erwerbstätigkeit, der finanziellen Lage oder der Einstellung zu aktuellen tagespolitischen Fragen. Derartige Surveys weisen eine Reihe von Gemeinsamkeiten auf: Ȥ Die Datengrundlage bilden hier Befragungsdaten – relevante Zielgruppen werden unter wissenschaftlicher Leitung mit Hilfe eines maßgeschneiderten Fragebogens zu spezifischen Themenfeldern ebenso wie zu allgemeinen sozialstatistisch interessanten Tatbeständen befragt. Die Auswahl der relevanten Befragungsgegenstände und die Entscheidung über die konkrete Gestaltung der Befragung liegen dabei bei dem/ der ausführenden Wissenschaftler*in (und ggf. den finanziellen, personellen und zeit lichen Ressourcen, die ihm/ihr für die Forschung zur Verfügung stehen). Ȥ Ziel derartiger Surveys ist es meist, einen Überblick über die Lebenssituation breiter Bevölkerungsgruppen zu geben. Viele bedeutende Umfragen – wie etwa das Sozio-Ökonomische Panel (SOEP), die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) oder das aus den Medien bekannte Politbarometer – fokussieren dabei auf die gesamte Bevölkerung der Bundesrepublik Deutschland. Die Auswahl der Befragungspersonen wird entsprechend so gestaltet, dass belastbare Rückschlüsse auf die Gesamtbevölkerung gezogen werden können, die Ergebnisse der Studie sich also für die Gesamtbevölkerung verallgemeinern lassen. Für die Entsprechung der Studienergebnisse mit dem Wert in der anvisierten Zielgruppe wird oft der Begriff der Repräsentativität verwendet – die Ergebnisse der Studie repräsentieren also die Ergebnisse der Gesamtbevölkerung. Neben globalen bevölkerungsrepräsentativen Studien finden sich in jüngerer Vergangenheit auch vermehrt Surveys, die auf spezifischere Personengruppen fokussieren; beispielhaft genannt seien hier etwa die Untersuchung Aufwachsen in Deutschland des Deutschen Jugendinstituts oder der Deutsche Alterssurvey, der relevante Informationen über Personen oberhalb eines Alters von 45 Jahren erhebt. Auch hier wird jedoch das Ziel verfolgt, Daten zu erheben, die für die entsprechende (eingeschränktere) Zielgruppe repräsentativ sind. Ȥ Das Erkenntnisinteresse bei sozialwissenschaftlichen Surveys liegt meist darin, die wissenschaftliche Grundlagenforschung zu fördern. Interessierten Wissenschaftler*innen
Quantitative Forschungsmethoden in den sozialen Studiengängen
21
wird hierbei auf breiter thematischer Basis ein Spektrum an Daten zur Verfügung gestellt, das es ihnen ermöglicht, für verschiedenste Fragestellungen eigenständige Forschungen durchzuführen. Ergebnisse derartiger Grundlagenforschung können ihrerseits in einem weiteren Schritt die Basis etwa für politische Empfehlungen bilden. Zweifellos können Survey-Daten auch für Fragestellungen in den sozialen Studiengängen von zentraler Bedeutung sein. So lassen sich beispielsweise sozialarbeiterisch relevante Gegenstände wie etwa die Risikofaktoren für Armut und Transferabhängigkeit mit Hilfe repräsentativer Survey-Daten für Gesamtdeutschland sehr differenziert untersuchen. Gleichwohl sind in den sozialen Studiengängen jedoch auch weitere Daten- und Studientypen von zentraler Bedeutung, die in Lehrbüchern zur klassischen empirischen Sozialforschung vergleichsweise wenig betrachtet werden. Ȥ So stellen etwa Befragungsdaten keinesfalls die einzige Datenquelle für Fragestellungen im sozialen Bereich dar. Viele relevante Themen, wie etwa der Bezug von Sozialtransfers oder die Nutzung von Dienstleistungen lassen sich mit Befragungsdaten nur begrenzt erfassen. So würden in klassischen Surveys vermutlich viele Befragte nur ungern angeben wollen, ob sie Sozialhilfe oder andere Transfer- und/oder Dienstleistungen beziehen, da ihnen dieses Eingeständnis möglicherweise unangenehm ist. Der tatsächliche Bezug von Sozialleistungen würde bei ausschließlicher Verwendung von Befragungsdaten also vermutlich systematisch unterschätzt. Eine brauchbare Alternative stellen hier oftmals administrative Daten dar, d. h. Daten, die von staatlichen Institutionen zur Erfüllung ihrer Amtspflichten selbst erhoben werden müssen. So werden für die Gewährung von Sozialleistungen etwa Sozialhilferegister angelegt, die es den zuständigen Sachbearbeiter*innen ermöglichen, die Grundlagen für die Gewährung der Leistungen zu erfassen und systematisch zu prüfen. Der Vorteil dieser Daten im Vergleich zu Surveydaten besteht darin, dass sie nicht im Rahmen von – ggf. unangenehmen – Befragungsprozessen, sondern im Rahmen standardmäßiger bürokratischer Vorgänge erfasst werden, sodass die oben skizzierte Problematik bewusster Falschangaben hier vermutlich deutlich geringer ausfällt. In den letzten Jahren stellen staatliche Behörden derartige Daten in zunehmendem Maße auch der empirischen Sozialforschung zur Verfügung, sodass deren Bedeutung für die sozialen Studiengänge deutlich zugenommen hat. Ȥ Eine weitere Besonderheit der sozialen Studiengänge besteht darin, dass diese nicht nur repräsentative Erfassungen der Gesamtbevölkerung anstreben, sondern sich ebenso für sehr spezifische Zielgruppen interessieren. So können etwa Studien zur Wirksamkeit einer sozialarbeiterischen oder sozialpädagogischen Intervention für bildungsarme Jugendliche daran interessiert sein, zu untersuchen, wie sich konkrete Maßnahmen für ihre spezifische Zielgruppe – etwa auf die finanzielle Lage oder physische bzw. psychische
22
Einführung: Soziale Arbeit und Methodenanwendungen
Gesundheit der Maßnahmenteilnehmer – auswirken. Studien zur Beschreibung der Mediennutzung von Obdachlosen würden sich analog ausschließlich für die Zielgruppe der Obdachlosen interessieren usw. Nicht für alle dieser Zielgruppen lassen sich jedoch wie in der klassischen Surveyforschung repräsentative Studien realisieren. Während bei bevölkerungsrepräsentativen Studien zur Gesamtbevölkerung auf melderegisterbasierte Grundlagen zur Auswahl der Befragungspersonen zurückgegriffen werden kann, ist dies bei Obdachlosen aufgrund ihres unbekannten Wohn- und Aufenthaltsortes schlechthin unmöglich. Hier muss entsprechend auf andere Möglichkeiten der Rekrutierung von Befragungspersonen zurückgegriffen werden, etwa das Expertenwissen von Professionellen in der Obdachlosenarbeit oder auf persönliche Netzwerke einzelner Obdachloser. Die Vor- und Nachteile derartiger Sonderformen der Auswahl von Befragten werden daher im Rahmen des vorliegenden Buches einen größeren Raum einnehmen. Ȥ Schließlich unterscheidet sich auch oftmals der Verwertungskontext von Sozialforschungsdaten in Wissenschaften wie der Sozialen Arbeit oder Sozialpädagogik. Dienen Daten in der klassischen Sozialforschung oftmals vor allem der wissenschaftlichen Grundlagenforschung, so stehen diese in der Sozialen Arbeit oder der (Sozial-)Pädagogik meist in einem unmittelbareren Anwendungskontext. Daten, die im Rahmen der Durchführung einer sozialarbeiterischen Maßnahme erhoben werden, können etwa zur konkreten Evaluation dieser Maßnahme verwendet werden, also zur Beantwortung der Frage, inwiefern die Maßnahme ihr Ziel erreicht hat (und ggf., ob diese weiter fortgeführt werden soll). Diese höhere Praxisorientierung kann Konsequenzen sowohl für die Gestaltung des Forschungsprozesses als auch für die Analyse und Interpretation der erhobenen Daten haben. So muss bereits bei der Erstellung des Befragungsbogens beachtet werden, dass die erhobenen Informationen tatsächlich nicht nur wissenschaftlichen Zielsetzungen entsprechen, sondern de facto auch eine praxisorientierte Überprüfung der betrachteten Maßnahme ermöglichen. Zur adäquaten Untersuchung der Auswirkungen müssen zudem Maßnahmen-Teilnehmer*innen mit vergleichbaren Personen kontrastiert werden, die nicht an den entsprechenden Programmen teilgenommen haben. Derartige spezifische quasi-experimentelle Untersuchungsdesigns unterscheiden sich ebenfalls von der klassischen Umfrageforschung und sollen entsprechend ebenfalls im Rahmen des vorliegenden Lehrbuchs betrachtet werden. 1.2.2 Anwendungen von quantitativen Analysemethoden in der Sozialen Arbeit Unterschiede zwischen klassischer Sozialforschung und deren Anwendung in den sozialen Studiengängen und Professionen zeigen sich nicht nur in der Art und Form der verwendeten Daten, sondern ebenso in der Nutzung von Analysemethoden zu deren Auswertung.
1 (6 %)
15 (50 %)
11 (58 %)
2 (22 %)
3 (43 %)
15 (48 %)
6 (24 %)
13 (46 %)
83 (33 %)
Hilfen zur Erziehung
Klinische Sozialarbeit
Straffällige Jugendliche/ Bewährungshilfe
Kindertages betreuung
Interkulturelle Soziale Arbeit
Schule und Soziale Arbeit
Streetwork
Pflege verhältnisse
Gesamtsumme
16 (6 %)
1 (4 %)
0 (0 %)
7 (23 %)
0 (0 %)
0 (0 %)
0 (0 %)
6 (20 %)
0 (0 %)
0 (0 %)
1 (6 %)
0 (0 %)
1 (3 %)
Multivariate Regression oder Varianzanalyse
1 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
1 (3 %)
Wachstums modelle
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
Ereigniszeit analyse
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
Instrumenten Variablen-Analyse
155 (61 %)
14 (50 %)
19 (76 %)
9 (29 %)
4 (57 %)
7 (78 %)
8 (42 %)
9 (30 %)
16 (94 %)
13 (81 %)
15 (83 %)
21 (84 %)
20 (67 %)
keine uantitativen q Analyseverfahren
Quelle: eigene Darstellung – systematische Durchsicht der Zeitschriften »Theorie und Praxis der Sozialen Arbeit« (2010–2016), »Archiv für Wissenschaft und Praxis der Sozialen Arbeit« (2010–2016), »Sozial Extra« (2014–2016)
2 (11 %)
3 (19 %)
Familienhilfe
4 (16 %)
Altenhilfe
Behindertenarbeit
8 (27 %)
Deskriptive Statistik
Kinder- und Jugendhilfe
Handlungsfelder der Sozialen Arbeit
Tabelle 1.1: Methodenpräferenzen in der Sozialen Arbeit
255(100 %)
28 (100 %)
25 (100 %)
31 (100 % )
7 (100 %)
9 (100 %)
19 (100 %)
30 (100 %)
17 (100 %)
16 (100 %)
18 (100 %)
25 (100 %)
30 (100 %)
Gesamt
Quantitative Forschungsmethoden in den sozialen Studiengängen
23
24
Einführung: Soziale Arbeit und Methodenanwendungen
Tabelle 1.1 gibt basierend auf drei etablierten deutschsprachigen Fachzeitschriften in der Sozialen Arbeit – den Zeitschriften Theorie und Praxis der Sozialen Arbeit (2010–2016), Archiv für Wissenschaft und Praxis der Sozialen Arbeit (2010–2016) sowie Sozial Extra (2014–2016) – einen Überblick über die in empirischen Beiträgen verwendeten Forschungsmethoden. Betrachtet man die Prozentwerte der Spalte »keine quantitativen Analyseverfahren«, ist diese Kategorie mit 155 Artikeln insgesamt recht umfangreich besetzt. In 61 % der Beiträge wurden demzufolge keine quantitativen Analyseverfahren herangezogen. Offensichtlich ist also, dass in den wissenschaftlichen Beiträgen bei der Wahl der Untersuchungsmethoden bislang wenig auf quantitativ orientierte Sozialforschung zurückgegriffen wird. Tabelle 1.1 ist zudem zu entnehmen, dass 33 % der untersuchten Beiträge lediglich deskriptive statistische Analyseverfahren herangezogen haben, d. h. Verfahren, die etwa die Häufigkeit des Auftretens eines spezifischen Problems beschreibend rekonstruieren, nicht jedoch Modelle zu deren Erklärung aufstellen und prüfen. Offensichtlich sind die hier vorgestellten Daten geeignet, die Hypothese von Guo (2015) und Shaw (2012) zu unterstützen, nach der die quantitativen Forschungsmethoden in der Sozialen Arbeit gegenwärtig nur marginal oder in sehr stark vereinfachter Form zum Einsatz kommen. Den einfachen deskriptiven Methoden wird dementsprechend im Rahmen des vorliegenden Buches ein breiter Raum gegeben, da diese zum Verständnis des gegenwärtigen Forschungsstandes in den sozialen Professionen offenbar von maßgeblicher Bedeutung sind. Gleichwohl kann man den gegenwärtigen Forschungsstand auch als Beleg dafür ansehen, dass das analytische Potenzial der quantitativen Sozialforschung in den sozialen Studiengängen bislang noch keineswegs ausgeschöpft ist. Entsprechend kann eine Einführung in die Grundlagen der empirischen Sozialforschung und deren Vertiefung, kombiniert mit einer differenzierteren Einführung in komplexere Forschungsmethoden – unter Berücksichtigung der spezifischen Fragestellungen der sozialen Studiengänge – ertragreich sein und wesentliche Beiträge zu einer weiteren methodisch-wissenschaftlichen Verbreiterung des Methodenrepertoires liefern. Nur, wenn theoretische Überlegungen kritisch fundierten empirischen Tests standhalten, kann Forschung als ertragreich eingestuft werden. Hierfür die forschungsmethodischen und statistischen Grundlagen zu liefern, ist das Ziel dieses Buches.
25
Struktur dieses Lehrbuchs
1.3 Struktur dieses Lehrbuchs
Formulierung und Präzisierung des Forschungsproblems
Planung und Vorbereitung der Erhebung
Berichterstattung
Datenauswertung
Teil 1: Forschungsfrage und Datenerhebung
Teil 2: Datenanalyse und Berichterstattung
Das vorliegende Lehrbuch gliedert sich grob in zwei große Teile, die in Abbildung 1.1 schematisch wiedergegeben sind. Im ersten Teil des Buches (Kapitel 2 bis 4) stehen grund legende Strukturelemente des Forschungsprozesses in quantitativen Untersuchungen im Mittelpunkt. Hier wird der Frage nachgegangen, wie quantitative Sozialforscher*innen zu ihren Forschungsfragen gelangen, wie diese adäquat formuliert werden können und welche Möglichkeiten bestehen, relevante Daten zur entsprechenden Forschungsfrage zu sammeln. Teil 2 des Buches (Kapitel 5 bis 10) widmet sich anschließend konkreten Fragen der Analyse von gesammelten Daten: Welche verschiedenen Möglichkeiten zur Datenanalyse bieten sich an und welche sind für die gewählte Forschungsfrage am geeignetsten?
Datenerhebung
Abbildung 1.1: Struktur des Forschungsprozesses (eigene Darstellung)
1.3.1 Forschungsfrage und Datenerhebung Zu Beginn jedes quantitativen Sozialforschungsprozesses steht zunächst eine Frage bzw. Hypothese, die mit Hilfe der geplanten Forschung beantwortet werden soll. Diese Frage kann prinzipiell einen lediglich beschreibenden Charakter haben. Man ist beispielsweise mit einer bislang völlig unbekannten wissenschaftlichen oder berufspraktischen Thematik konfrontiert, zu der bislang nur wenige oder keine gesicherten Erkenntnisse vorliegen (etwa der Frage der sozialen Lage oder der Bedürfnisse von Flüchtlingen nach ihrer Ankunft in Europa).
26
Einführung: Soziale Arbeit und Methodenanwendungen
In den meisten Fällen ist über das Untersuchungsthema jedoch bereits einiges aus vorheriger Erfahrung oder Forschung bekannt. Wenn beispielsweise eine Untersuchung zum Armutsrisiko von Kindern und Jugendlichen durchgeführt werden soll, so kann hier auf Ergebnisse aus mehreren Jahrzehnten früherer Armutsforschung oder auch auf die Erfahrung von Praktiker*innen aus der Arbeit mit Kindern und Jugendlichen zurückgegriffen werden. Forschende gehen dann entsprechend von bestimmten Vermutungen oder Vorannahmen – sogenannten Hypothesen – aus, die im Rahmen der geplanten Forschung auf ihre Richtigkeit bzw. Gültigkeit hin überprüft werden sollen. Die Frage, wie sich derartige Hypothesen aus dem gegenwärtigen Forschungsstand ableiten lassen bzw. wie diese für eine empirische Überprüfung formuliert werden sollten, steht im Mittelpunkt von Kapitel 2. Ist die Forschungsfrage klar und überprüfbar formuliert, stellt sich anschließend die Frage nach deren empirischer Umsetzung: Wie muss der Forschungsprozess praktisch gestaltet werden, um die Forschungsfrage tatsächlich zu untersuchen und beantworten zu können? Den verschiedenen hierzu notwendigen Schritten widmen sich Kapitel 3 und 4. Ȥ Von grundlegender Bedeutung ist hierbei zunächst die Wahl eines angemessenen Forschungsdesigns (Kapitel 3.1). Handelt es sich um eine vergleichsweise neue wissenschaftliche Fragestellung, die im Rahmen einer beschreibenden Studie zunächst einmal inhaltlich erschlossen werden soll (explorative Forschung)? Liegen bereits Erkenntnisse zum Forschungsstand vor, die im Rahmen der empirischen Untersuchung analytisch überprüft werden sollen (hypothesentestende Forschung)? Oder soll im Rahmen der vorliegenden Forschung eine berufspraktische Fragestellung – etwa die Zielerreichung einer sozialarbeiterischen Maßnahme – untersucht werden (Evaluationsforschung)? Je nach Fragestellung bieten sich verschiedene Forschungsdesigns an, deren grundlegende Charakteristika zu Beginn von Kapitel 3 eingeführt werden. Ȥ Ist das Forschungsdesign gewählt, stellt sich anschließend die Frage, wie mögliche Untersuchungsobjekte (also beispielweise Befragte für ein Interview) für die empirische Forschung gewonnen werden können. Wie bereits im vorangegangenen Teilkapitel 1.2 erläutert, ist die quantitative Sozialforschung daran interessiert, statistisch belastbare repräsentative Aussagen über die sie interessierende Zielgruppe zu treffen. Die naheliegende Variante zur Erreichung dieses Zieles wäre eine vollständige Untersuchung der gesamten interessierenden Zielgruppe. Eine solche »Vollerhebung« ist jedoch meist weder praktisch noch finanziell umsetzbar. Bei einer deutschlandweiten Befragung der Bevölkerung – etwa zum Wahlverhalten bei der nächsten Bundestagswahl – ist es schlichtweg unmöglich, alle potenziell wahlberechtigten Personen für ein Interview zu erreichen; die hierfür anfallenden Kosten wären exorbitant, und zudem würde vermutlich eine nicht geringe Anzahl an Personen die Teilnahme an einer solchen sensiblen Befragung mit Bezug auf das Wahlgeheimnis verweigern. Die empiri-
Struktur dieses Lehrbuchs
27
sche Sozialforschung muss sich somit meist aus pragmatischen Gründen auf sorgfältig ausgewählte kleinere Ausschnitte der anvisierten Zielgruppe verlassen, sogenannte Stichproben. Wie die Befragten für diese Stichprobe ausgewählt werden müssen, um dennoch belastbare Rückschlüsse auf die eigentliche Zielgruppe treffen zu können, wird in Kapitel 3.2 erläutert. Ȥ Ist geklärt, wer untersucht werden soll, stellt sich im nächsten Schritt die Frage nach dem Wie, also nach der Form der Untersuchung. Landläufig wird die quantitative empirische Sozialforschung dabei mit direkten, persönlichen Befragungen in Verbindung gebracht. Insbesondere bei Fragestellungen aus dem sozialen Bereich können jedoch auch andere Formen der Datenerhebung von Bedeutung sein. Soll etwa das Mobbing-Verhalten von Schüler*innen während der Unterrichtspausen untersucht werden, macht es vermutlich wenig Sinn, eine Befragung innerhalb der Schulklassen zum persönlichen Mobbingverhalten (oder zur Betroffenheit von Mobbing) durchzuführen, da hier kaum wahrheitsgemäß geantwortet würde. Viel zweckmäßiger könnte es bei dieser Untersuchungsfrage sein, beispielsweise das tatsächliche Verhalten von Schüler*innen während der Schulpausen zu beobachten und hieraus entsprechende Schlüsse zu ziehen. Ebenso könnte es Sinn machen, auf schriftliche Aufzeichnungen der Lehrkräfte zum Schüler*innenverhalten (etwa in Form von Klassenbucheintragungen) zurückzugreifen und diese als Grundlage für spätere Datenauswertungen zu verwenden. Ȥ Selbst im Falle der Entscheidung für eine Befragung muss anschließend festgelegt werden, wie diese konkret durchgeführt werden soll. Waren in den 1970er-Jahren noch direkte mündliche Befragungen mit Papier und Bleistift die dominante Befragungsform in der quantitativen Sozialforschung, so bieten sich heutzutage verschiedene Alternativen an, etwa die Durchführung einer computerbasierten Befragung via Telefon oder die Durchführung einer internetbasierten Webumfrage. Kapitel 3.3 widmet sich daher ausführlich verschiedenen Formen der Datenerhebung und deren möglichen Vor- und Nachteilen. Ȥ Ist man sich über wesentliche Aspekte des Forschungsdesigns sowie der Auswahlund Erhebungsverfahren im Klaren, muss schließlich die Frage geklärt werden, wie die interessierenden theoretischen Sachverhalte einer empirischen Erfassung zugänglich gemacht werden können: Kapitel 4 beschäftigt sich daher ausführlich mit dem Thema der Messung. Hier wird das Grundprinzip des Messens in der quantitativen Sozialforschung erläutert, es werden verschiedene Formen der Messung unterschieden sowie Kriterien zur Beurteilung der Güte einer Messung vorgestellt. Beschlossen wird das Kapitel durch einen Überblick von Möglichkeiten zur konkreten Gestaltung eines Erhebungsinstruments, etwa zu Arten und Formen von Fragen und Antwortmöglichkeiten.
28
Einführung: Soziale Arbeit und Methodenanwendungen
1.3.2 Datenanalyse und Auswertung Sind die Daten mit geeigneten Methoden erhoben worden, steht im nächsten Schritt die konkrete Datenanalyse an. Im Rahmen des zweiten Teils unseres Buches werden verschiedene Methoden der Datenanalyse vorgestellt, die sich in vier verschiedene Gruppen von Verfahren unterscheiden lassen. Hierbei sowie in den Folgekapiteln wird zur Illustration der einzelnen Verfahren das verbreitete Statistikprogramm SPSS verwendet. Ȥ Die univariate Statistik stellt dabei die einfachste Form der Datenanalyse dar. Wie der lateinische Name bereits andeutet, stehen hier einzelne Variablen – also einzelne erhobene Eigenschaften von Personen – im Mittelpunkt des Interesses. Wurde beispielsweise eine Befragung zum Thema »Armut« in einer bestimmten Region durchgeführt, so erlaubt die univariate Statistik einen ersten beschreibenden Einblick über die Verbreitung von Armut, etwa anhand eines Überblicks über die Verteilung des Haushaltseinkommens in der untersuchten Region. Einschlägige Formen der Darstellung und Interpretation derartiger Verteilungen – sei es in Form von detaillierten Häufigkeitsverteilungen oder in Form vereinfachender statistischer Maßzahlen – werden in Kapitel 5 erläutert. Ȥ Die bivariate Statistik geht analytisch einen Schritt weiter. Hier stehen – wie wiederum der lateinische Name andeutet – nicht nur einzelne Eigenschaften einer Person im Mittelpunkt des Interesses, sondern es sollen Zusammenhänge zwischen verschiedenen Eigenschaften von Personen untersucht bzw. überprüft werden. So kann beispielsweise davon ausgegangen werden, dass Armut nicht rein zufällig innerhalb der bundesdeutschen Bevölkerung auftritt, sondern in bestimmten Bevölkerungsgruppen überdurchschnittlich häufig anzutreffen ist, etwa bei Personen mit einem geringen Bildungsabschluss. Bivariate Analysemethoden erlauben es, statistisch fundiert zu untersuchen, inwiefern tatsächlich ein belegbarer Zusammenhang zwischen dem individuellen Bildungsniveau und dem Risiko, von Armut betroffen zu sein, existiert, und wie stark dieser Zusammenhang ist. Neben den hierfür notwendigen statistischen Grundlagen bietet Kapitel 6 wiederum anhand ausgewählter SPSS-Beispiele einen Überblick über Möglichkeiten der Ergebnisdarstellung – sei es anhand ausführlicher Übersichten oder vereinfachender statistischer Maßzahlen. Ȥ Realistisch betrachtet hängt jedoch das individuelle Risiko, von Armut betroffen zu sein, nicht ausschließlich vom Bildungsabschluss einer Person ab. Es erscheint plausibel, dass der Wohnort (z. B. in einer boomenden Dienstleistungsmetropole oder einer wirtschaftlich kriselnden ländlichen Region), die Erwerbstätigkeit (etwa die Stundenzahl einer Beschäftigung) oder die Familiensituation einer Person (etwa die Kinderzahl, die Anzahl zu pflegender Familienangehöriger) ebenfalls eine bedeutende Rolle spielen. Es müssen also gleichzeitig mehrere Eigenschaften einer Person betrachtet
Struktur dieses Lehrbuchs
29
werden, um deren Armutsrisiko möglichst umfassend zu erklären. Diese differenzierte Betrachtung ist Gegenstand der sogenannten multivariaten Statistik. Kapitel 7 erläutert hier zunächst ein Standardverfahren der erklärenden Analyse – das sogenannte Regressionsmodell – und illustriert es anschließend anhand ausgewählter Praxisbeispiele. Kapitel 8 erweitert dieses bivariate Grundmodell anschließend um eine multivariaten Analyseperspektive. Ȥ Kapitel 9 und 10 thematisieren schließlich ausgewählte fortgeschrittene Analysen der statistischen Analyse, die über einfache regressionsanalytische Erklärungsmodelle hinausgehen. Hierzu zählen zum einen Mehrebenenmodelle (Kapitel 9), die es erlauben, Erklärungsfaktoren auf verschiedenen analytischen Ebenen zu betrachten. Neben individuellen Erklärungen von Armut (s. o.) lassen sich hier etwa Einflüsse der Nachbarschaft (etwa des Wohnumfeldes) oder der gesamtwirtschaftlichen Lage eines Landes auf das Risiko von Armut berücksichtigen. Das Verfahren der Ereignisdatenanalyse (Kapitel 10) ermöglicht es, nicht nur (einmalig erhobene) Befragungsdaten zu einem bestimmten Zeitpunkt zu betrachten, sondern darüber hinaus Entwicklungstrends im Zeitverlauf anhand von Wiederholungsbefragungen zu analysieren. Dies kann etwa von Bedeutung sein, wenn nicht nur das Risiko, von Armut betroffen zu sein, betrachtet werden soll, sondern ebenso die Bedingungsfaktoren des Ausstiegs aus Armut in kurzoder mittelfristiger Perspektive. Derartige fortschrittliche Methoden werden bislang in den sozialen Studiengängen nur relativ sporadisch verwendet. Das Kapitel versteht sich entsprechend als ein Plädoyer für eine umfassendere Anwendung derartiger Methoden und versucht deren Potenzial für einschlägige fachliche Fragestellungen anhand ausgewählter Praxisbeispiele und -anwendungen zu illustrieren. Da die Kapitel des vorliegenden Lehrbuchs inhaltlich aufeinander aufbauen, kann das Buch grundsätzlich als zusammenhängender Text »von vorne nach hinten« gelesen werden. Ein ausführlicher Sachindex am Ende des Buches ermöglicht gleichzeitig die Nutzung als themenspezifisches Nachschlagewerk.
2. Theorien, Hypothesen und Variablen
2.1 Von »Trollen« und »Wutbürgern« – eine Einführung »Klima Schock! Sind die Bäume schuld?« Auch Bäume produzieren Methan (BILD, 10.01.2006) – anschließende Richtigstellung »Forscher sprechen Bäume frei« (SPIEGEL, 19.01.2006) Bei einer ungezwungenen Beobachtung der Welt stellt man vermutlich amüsiert fest, dass Schlagzeilen in Zeitungsberichten oftmals nur wenig profunde Informationsquellen für das Verständnis wissenschaftlicher Zusammenhänge darstellen. Die ursprüngliche, den oben zitierten Schlagzeilen zu Grunde liegende Studie im Fachblatt »Nature« beschreibt, dass Pflanzen einen merklichen Anteil am jährlichen weltweiten Methan-Ausstoß haben – obwohl Naturwissenschaftler bis dahin überzeugt waren, dass die Flora überhaupt kein Treibhausgas produziert. Viele Medien reagierten in der gleichen Weise wie die Bildzeitung und sprachen den Homo sapiens spontan von jeder Schuld am Klimawandel frei. Dies machte wiederum eine Richtigstellung seitens der Wissenschaftler notwendig, dass zwar die Methanproduktion von Pflanzen durchaus beachtlich ist, jedoch keinesfalls für den in jüngerer Zeit steigenden Methanausstoß verantwortlich gemacht werden kann. Der kritische Leser ist also gut beraten, nicht nur vereinzelte naturwissenschaftliche Fakten wahrzunehmen, sondern diese in einen umfassenderen theoretischen Zusammenhang zu integrieren. Für Sie als junge geistes- und sozialwissenschaftliche Leserinnen und Leser mag ein anderes, weniger naturwissenschaftliches Beispiel inhaltlich näher liegen. 2017 veröffentlichte der junge Informatiker Justin Cheng von der Stanford University gemeinsam mit mehreren Kollegen eine Studie zum Verhalten von Menschen in Internetforen: »Jeder kann zum Online-Wutbürger/Troll werden« (Cheng et al. 2017). Diese auf den ersten Blick recht plakative Titelzeile verweist auf einen komplexen theoretischen Zusammenhang. So fanden die amerikanischen Wissenschaftler in ihrer Studie heraus, dass es in Online-Foren keineswegs, wie vielfach behauptet, eine relativ kleine Minderheit ist, die andere Nutzer emotional provoziert. Letztlich läuft das Ergebnis ihrer Studie darauf hinaus, dass Trollen1 1 Als Troll bezeichnet man im Netzjargon eine Person, die ihre Kommunikation im Internet auf Beiträge beschränkt, die auf emotionale Provokation anderer Gesprächsteilnehmer zielen.
Erkenntnisinteresse, Theorien und Hypothesen
31
in einer »Spirale der Negativität« andere User ansteckt, vor allem dann, wenn die entsprechende Person in entsprechend schlechter Stimmung ist, gerade schlechte Erfahrungen gemacht hat oder unter Stress steht. Anders ausgedrückt: Auch wer ansonsten kein Wutbürger ist, wird leichter ausfallend, wenn es andere vormachen. Der Druck zur sozialen Konformität setzt dann das »normale« Verhalten aus. Die beiden etwas überspitzten Beispiele verdeutlichen, dass die Erkenntnis und Erklärung von Zusammenhängen in der natürlichen und gesellschaftlichen Umwelt mitunter über den ersten Augenschein hinausgehen muss. Die Komplexität unseres Umfeldes macht es meist unmöglich, unsere Erklärungen durch einfache Beobachtung zu gewinnen. Stattdessen müssen komplexe theoretische Denk- und Erklärungsmodelle entwickelt und auf ihre »Passung« hin überprüft werden. Dies geschieht meist dadurch, dass verschiedene, für die Untersuchung des unterstellten Zusammenhangs – natur- oder sozialwissenschaftlich – angemessene Daten erhoben und mit Hilfe angemessener mathematisch-statistischer Verfahren analysiert werden. Kurz gesagt: Die Komplexität der sozialen Zusammenhänge und Geschehnisse fordert eine quantitative Sprache. In diesem Kapitel werden wir uns mit der Frage auseinandersetzen, wie die sozialwissenschaftliche Forschung bei der Ordnung von Beobachtungen und der systematischen Analyse von Forschungsthemen vorgeht. Wie gelangt sie zunächst ganz allgemein zu ihren Forschungsfragen? Wie lassen sich zu dem relevanten Forschungsgegenstand Vermutungen aufstellen und in ein umfassenderes theoretisches Gesamtkonzept integrieren (Kapitel 2.2)? Lassen sich diese »abstrakten« Vorstellungen in konkrete, tatsächlich messbare Beobachtungsergebnisse übersetzen (Kapitel 2.3)? Und wie lässt sich anhand derartiger Beobachtungen überprüfen, ob die unterstellte Vermutung über den Unter suchungsgegenstand tatsächlich zutrifft (Kapitel 2.4)?
2.2 Erkenntnisinteresse, Theorien und Hypothesen Wie gelangt die (Sozial-)Wissenschaft zu ihrem Forschungsgegenstand? Wie entsteht überhaupt ein Erkenntnisinteresse? Dem englischen Naturforscher Isaac Newton wird seiner Biografie zufolge nachgesagt, dass der Anstoß zu seiner bahnbrechenden späteren Theorie der Schwerkraft dadurch gelegt wurde, dass ihm in einem Garten seines Heimatortes ein Apfel auf den Kopf fiel und er begann, sich Gedanken über die dahinter stehenden Kräfte und Gesetzmäßigkeiten zu machen. Ein wesentlicher Ausgangspunkt eines Forschungsinteresses mag daher in Beobachtung und daraus erwachsender Neugier liegen. Forscher*innen beginnen damit, über ein erklärungsbedürftiges Ereignis oder Phänomen nachzudenken. So mögen sich die Autoren der »Troll-Studie« vielleicht bei alltäglichen Streifzügen durch das Internet über das Verhalten eini-
32
Theorien, Hypothesen und Variablen
ger Internutzer und die schnelle Ausbreitung aggressiven Verhaltens in Online-Foren gewundert haben. In der gegenwärtigen Wissenschaft liegt jedoch – anders als zu Newtons Zeiten – meist ein verhältnismäßig breiter Wissensstand vor, so dass nicht immer die unmittelbare Beobachtung am Anfang eines Forschungsinteresses stehen muss. Forscher können sich heute weit häufiger im Rahmen von Literaturarbeit auf die Suche nach Untersuchungen zu sie interessierenden Fragestellungen begeben. Hierbei kann beispielsweise ein Forschungsinteresse an einem bestimmten Sachverhalt dadurch entstehen, dass Forscher offene Fragen in existierenden Studien vorfinden, Ungereimtheiten in früheren Untersuchungen entdecken oder überraschende Ergebnisse vorfinden, die sie anhand eigener Forschung selbst nachprüfen möchten. Nicht selten steht heutzutage am Anfang einer sozialwissenschaftlichen Forschung auch ein extern vorgegebener Arbeitsauftrag – etwa aus der Politik oder der Praxis – für ein gesellschaftlich relevantes Problem. Nachdem diese ersten und sehr wichtigen Vorüberlegungen stattgefunden haben und die verfügbaren Informationen und das vorhandene Wissen gesichtet worden sind, kann die Untersuchung des interessierenden Sachverhalts eingeleitet werden. Meist steht zu Beginn einer guten sozialwissenschaftlichen Forschung eine Vermutung darüber, wie der im Zentrum des Forschungsinteresses stehende Sachverhalt erklärt werden kann. Eine solche Vermutung wird als THEORIE bezeichnet. Dolde definiert eine Theorie als »… ein System von über den Einzelfall hinausgehenden Aussagen […], das dazu dient, Erkenntnisse über einen Tatsachenbereich […] zu ordnen und das Auftreten dieser Tatsachen zu erklären. In der Forschung haben Theorien vor allem die Funktion, das Erkenntnisinteresse und die Fragestellung zu leiten sowie eine Strategie für die Erhebung und Auswertung der Daten bereitzustellen […]. Dem Praktiker sollen Theorien Voraussagen und Erklärungen, Verständnis und eine gewisse Kontrolle problematischer Situationen ermöglichen.« (Dolde 1993, 541) Im Fall der oben zitierten »Troll-Studie« entwickelten Justin Cheng und Kollegen ein komplexes theoretisches Geflecht zur Erklärung der Verbreitung von »Troll-Verhalten«, das ebenso auf individuellen Befindlichkeiten – etwa Anspannung und Stress – als auch auf dem Verhalten anderer in Internetforen aufsetzt. Eine konkrete Untersuchung von über 16 Millionen Posts auf der Nachrichten-Website cnn.com ermöglichte dann eine konkrete Untersuchung der aufgestellten Theorie. Nicht alle denkbaren theoretischen Aussagen sind jedoch im Sinne der quantitativen Sozialforschung analysierbar. Wissenschaftlich überprüfbare Aussagen sind lediglich solche, die anhand empirischer Evidenz verifizierbar sind. Verifizierbar bedeutet: anhand von – fremden oder eigenen Erfahrungen – überprüfbar. Nicht wissenschaftliche Aussagen
Erkenntnisinteresse, Theorien und Hypothesen
33
können empirisch nicht getestet werden. Aussagen wie »Milka-Schokolade ist die beste Süßigkeit auf der ganzen Welt« sind nicht wissenschaftlich. Wir können sie objektiv weder nachweisen noch widerlegen. Vielmehr hängt die Beurteilung einer solchen Aussage von individuellem Geschmack und Vorlieben ab. Für die sozialwissenschaftliche Forschung hingegen ist die Überprüfbarkeit von Aussagen eine notwendige2 und hinreichende Voraussetzung. Um die obige Aussage wissenschaftlich überprüfen zu können, wäre etwa eine Umformulierung wie folgt notwendig: »Milka-Schokolade zu essen, erhöht das Niveau des Neurotransmitters Dopamin und steigert damit das menschliche Wohlbefinden.« Die Umformulierung dieser Aussage kann überprüft bzw. getestet werden. Komplexe theoretische Erklärungen beruhen meist auf detaillierten Teilannahmen über konkrete Einzelzusammenhänge, sogenannten Hypothesen. Hypothesen ihrerseits bestehen aus präzise definierten zusammengesetzten Sätzen, die mit einem gewissen Wahrheitsanspruch mehr oder weniger allgemeine Aussagen über bestimmte Bereiche der Realität enthalten. »Ein System von mehreren Hypothesen wird zu einer Theorie zusammengefasst. Oft wird schon eine einzelne zentrale Hypothese als Theorie bezeichnet« (Eberhard 1977, 4). MERKEN Hypothesen allgemein: Vermutung über einen bestimmten Sachverhalt Bei einer Aussage handelt es sich nur dann um eine wissenschaftliche Hypothese, wenn sie erfahrbar ist, prinzipiell widerlegbar ist, eine gewisse Allgemeingültigkeit beansprucht und theoretisch begründet ist. Kromrey/Strübling 2009, 42 Mehrfache Bestätigung von Hypothesen → Theorien
2 Notwendige Bedingung und hinreichende Bedingung sind Begriffe aus der Theorie wissenschaftlicher Erklärungen, die Bedingungen in zwei verschiedene Typen unterteilen. Beispiel für notwendige Bedingung: Ein Ball ist eine notwendige Bedingung, um Fußball spielen zu können – ohne ihn geht es nicht. Ball (A) ist eine Eigenschaft von Fußballspielen (B). Wenn Fußballspielen, dann nicht ohne Ball. Man schreibt: B → A. Beispiel für hinreichende Bedingung: Ein Ball (A) ist eine Garantie für erfolgreiches Toreschießen (B). Die Bedingung, dass ein Ball vorhanden ist, ist jedoch nicht die einzige Ursache für ein erfolgreiches Toreschießen. Auch das Können, taktisches Spielen und die Zusammensetzung der Spieler kann die Ursache für ein erfolgreiches Toreschießen sein. Man schreibt: A impliziert B (A → B). Ist eine Bedingung A sowohl notwendig als auch hinreichend für eine Aussage B, also A → B und B → A, so spricht man von einer äquivalenten Bedingung. Schreibt man eine äquivalente Bedingung in die »Wenn …, dann …«-Form, dann ist auch der Kehrsatz wahr. Man schreibt dann: A B.
34
Theorien, Hypothesen und Variablen
Grob betrachtet lagen dem Ansatz von Cheng et al. (2017) zwei sich wechselseitig ergänzende hypothetische Annahmen zur Erklärung des Verhaltens in Internetforen zu Grunde. Ȥ Eine Annahme zu der Bedeutung individueller Befindlichkeiten: Negative Stimmung erhöht die Wahrscheinlichkeit, dass ein Benutzer im Internet provoziert. Ȥ Eine weitere Annahme zur Bedeutung von Rahmenbedingungen in Internetforen: Der Diskussionskontext (z. B. vorherige gepostete Beiträge von anderen Benutzern) beeinflusst die Wahrscheinlichkeit, provozierende Beiträge zu posten.
Unabhängige Variable Diskussionskontext Abhängige Variable Verhalten in Internet-Foren (»Trollen«) Unabhängige Variable Individuelle Stimmung
Abbildung 2.1: Erklärungen des Verhaltens in Internetforen (eigene Darstellung in A nlehnung an Cheng et al. 2017)
Beide Hypothesen lassen sich zusammengenommen in eine komplexe theoretische Erklärung des Verhaltens in Internetforen integrieren. Abbildung 2.1 verdeutlicht das Erklärungsmodell grafisch. Diese Form der Darstellung verdeutlicht bereits, dass sozialwissenschaftliche Hypothesen (und die sich aus ihnen ergebenden theoretischen Modelle) sich nicht auf die reine Beschreibung eines Sachverhalts beschränken. Bezogen auf die Untersuchung von Cheng et al. soll nicht nur anhand einer empirischen Untersuchung festgestellt werden, welche Anzahl (oder welcher Anteil) von Nutzern von Internetforen »typisches Troll-Verhalten« aufweist. Vielmehr handelt es sich bei sozialwissenschaftlichen Hypothesen um Zusammenhangs-Hypothesen. Das Auftreten eines bestimmten Phänomens (hier das Troll-Verhalten im Internet) soll also in Beziehung gesetzt werden zu anderen Phänomenen, die dessen Auftreten erklären können. Die meisten sozialwissenschaftlichen Hypothesen gehen einher mit der Annahme eines kausalen (d. h. ursächlichen) Zusammenhangs zwischen zwei oder mehreren Sachverhalten. Eine beobachtbare Eigenschaft, die wir für eine Ursache halten, wird als unabhängige Variable bezeichnet (weil ihr Wert nicht von anderen Variablen abhängt). Eine beobachtbare Eigenschaft, von der wir denken, dass sie eine Wirkung hat, weil der Wert dieser
Erkenntnisinteresse, Theorien und Hypothesen
35
Variablen von der Ursache abhängt, heißt abhängige Variable. Das bedeutet nicht, dass die abhängige Variable Y nicht auch auf die unabhängige Variable X zurückwirkt. Primär wichtig, um Kausalität in dem oben beschriebenen Sinne zu verstehen, ist jedoch, dass der Zusammenhang zwischen X und Y nicht durch andere Einflüsse bedingt worden ist. Der Begriff der Kausalität ist sehr eng an experimentelle Methoden3 gebunden, in denen die Ursache tatsächlich vom Experimentator manipuliert wird. Das Experiment gilt als der »Königsweg« zur Prüfung von Kausalbeziehungen. Es erlaubt die Feststellung von Zusammenhängen zwischen unabhängigen und abhängigen Variablen unter bestmöglicher Kontrolle anderer Einflussfaktoren. Das Experiment ist entsprechend durch zwei Merkmale bestimmt: erstens eine systematische Veränderung von mindestens einer Variablen und zweitens gleichzeitiges Ausschalten der Wirkung von potenziellen Stör variablen. Störvariablen sind Variablen, die die abhängige Variable ebenfalls beeinflussen können; ihre Wirkung ist daher zu kontrollieren. MERKEN Kausalität: Es muss ein Zusammenhang zwischen unabhängiger Variable X und abhängiger Variable Y bestehen. Die Variable X (= Ursache) muss der Variablen Y (= Wirkung) zeitlich vorausgehen.
Bei allen Vorteilen von Experimenten bleibt eine große Schwäche: Ihre Verallgemeinerbarkeit auf nicht experimentelle Settings hin ist oft nicht so einfach. In der nicht experimentellen Forschung verändern wir keine Variablen, und somit können wir, streng betrachtet, keine kausalen Aussagen aufstellen. Mit der Frage, wie dennoch in der empirischen Sozialforschung Hypothesen auf ihre Erklärungskraft hin überprüft werden können, befassen wir uns im abschließenden Kapitel 2.4. Im Folgenden soll hingegen zunächst auf die Form von Hypothesen eingegangen werden. Hypothesen bestehen grundsätzlich – wie zuvor ausgeführt – aus einer erklärenden Ursache (unabhängige Variable) und einer zu erklärenden Beobachtung (abhängige Variable). Je nachdem, welche Art von Unterscheidung der denkbaren Ausprägungen der abhängigen bzw. unabhängigen Variablen vorliegt, können unterschiedliche Formen bzw. Arten von Hypothesen aufgestellt werden. Wird bei der Ursache nur zwischen zwei verschiedenen Ausprägungen der unabhängigen Variablen unterschieden, so bieten sich 3 Die experimentelle Methode ist ein systematischer und wissenschaftlicher Forschungsansatz, bei dem der Forscher eine oder mehrere Variablen verändert und jede Veränderung bei anderen Variablen kontrolliert und misst.
36
Theorien, Hypothesen und Variablen
sogenannte »Wenn-dann-Hypothesen« an. Übertragen auf das Beispiel von Cheng et al. (2017) ließe sich etwa die folgende Hypothese formulieren: »Wenn in Diskussions-Foren vorherige gepostete Beiträge provokant waren, dann steigt die Wahrscheinlichkeit, weitere antisoziale Beiträge zu verbreiten.« Die beiden möglichen Ausprägungen der abhängigen Variablen sind in diesem Beispiel »provokant« oder »nicht provokant«. Lässt sich jedoch – sowohl bei der abhängigen als auch bei der unabhängigen Variablen – eine Rangfolge der Eigenschaftsausprägungen festlegen können, so lassen sich »Je-desto-Hypothesen« formulieren. Ein typisches Beispiel für eine Je-desto-Hypothese im Kontext der oben genannten Studie von Cheng et al. (2017) wäre etwa: »Je negativer die allgemeine Stimmung einer Person, desto häufiger werden provokante Beiträge gepostet.« Je-desto-Hypothesen postulieren somit, dass der Grad der Ausprägung einer Variablen systematisch mit einer Veränderung im Grad der Ausprägung der anderen Variablen einhergeht. Dabei ist zu beachten, dass nicht alle denkbaren Zusammenhänge eine einheitliche mathematische Form aufweisen, also etwa linear, monoton steigend oder fallend sind.4 Betrachtet man noch einmal das theoretische Erklärungsmodell in Abbildung 2.1, so fällt auf, dass sich die abhängigen Variablen nicht nur in der Anzahl und Art der Ausprägungen der abhängigen und der unabhängigen Variable unterscheiden, sondern auch in deren Bezugsgröße. Geht man von einer Auswirkung der individuellen Gemütsverfassung einer Person auf deren Verhalten in Internetforen aus, so werden hier zwei Eigenschaften einer Person – oder anders: eines Individuums – miteinander verknüpft. Solche Hypothesen werden entsprechend als Individualhypothesen bezeichnet. Die Hypothese zum Zusammenhang zwischen dem Diskussionskontext im gesamten Forum und dem Verhalten einzelner Personen postuliert hingegen eine Kontexthypothese, in der sich das Verhalten eines Kollektivs auf das Verhalten von Individuen bezieht. Denkbar wäre ebenfalls ein Zusammenhang zwischen zwei Eigenschaften, die sich beide auf der Gruppenebene erfassen lassen, etwa dem Diskussionskontext und der Häufig4
Eine Funktion ist monoton steigend, wenn sie immer größer wird oder konstant bleibt, jedoch nie kleiner wird. Eine Funktion ist monoton fallend, wenn sie immer kleiner wird oder konstant bleibt, jedoch nie größer wird. Kennt man das Monotonieverhalten einer Funktion, dann kann man eindeutige Aussagen treffen, ob die Funktion Extrema besitzt, um welche Art von Extrema es sich handelt und wie ihre Lage ist. In Je-desto-Hypothesen können auch nicht monotone Zusammenhänge auftreten, z. B. u-förmige oder umgekehrt u-förmige Zusammenhänge (siehe hierzu Diekmann 2012, 131).
37
Variablen
keit, mit der Online-Moderatoren in die Forendiskussion eingreifen müssen. Hier spricht man entsprechend von einer Kollektivhypothese. MERKEN Individualhypothese: Individuelle Eigenschaft
Individuelle Eigenschaft
Kollektivhypothese: Kollektive Eigenschaft
Kollektive Eigenschaft
Kontexthypothese: Kollektive Eigenschaft
Individuelle Eigenschaft
2.3 Variablen Bereits im vorangegangenen Teilkapitel wurde der Begriff der Variable verwendet. Die Betrachtung von sozialwissenschaftlichen Untersuchungsobjekten (Menschen, Kommunen, Abteilungen etc.) und die Spezifizierung von Merkmalsunterschieden – bzw. auch nur das Vorhandensein oder Nichtvorhandensein von Eigenschaften – kann in Form von Varia blen im Kontext empirischer Untersuchungen dargestellt werden. Eine Variable ist, ganz allgemein gesprochen, die Summe der verschiedenen Ausprägungen, welche eine Untersuchungseinheit im Hinblick auf eine bestimmte, relevante und zu untersuchende Eigenschaft annehmen kann. Damit sind Variablen die Träger von Merkmalsausprägungen, also von Eigenschaften, die Objekten, Individuen, Gruppen oder Gegenständen (sogenannten Merkmalsträgern) zugeschrieben werden können. Wenn Hypothesen überprüft werden, dann werden die zugrunde liegenden Eigenschaften der Merkmalsträger in Variablen abgebildet. Der Begriff der Variablen verdeutlicht bereits, dass das zu untersuchende Merkmal des Merkmalsträgers unterschiedliche Ausprägungen annehmen können muss. Mit anderen Worten: Die Ausprägungen der interessierenden Eigenschaft müssen »variabel« sein. Tritt ein Merkmal hingegen nur in einer Ausprägung auf, so handelt es sich um eine Konstante. Für die Betrachtung und Überprüfung sozialwissenschaftlicher Hypothesen sind Kon stanten nicht sinnvoll nutzbar. Betrachten wir wiederum das Beispiel der »Troll-Studie« von Cheng et al. (2017) und die zuvor diskutierte Hypothese, dass negative Stimmung die Wahrscheinlichkeit erhöht, dass ein Benutzer im Internet provoziert. Diese Hypothese lässt sich nur dann sinnvoll untersuchen, wenn die Variable »individuelle Stimmung« des
38
Theorien, Hypothesen und Variablen
Internetnutzers unterschiedliche Werte annehmen kann, d. h. Nutzer also beispielsweise gut gelaunt oder schlecht gelaunt sein können. Erst dann lässt sich untersuchen, ob eine schlechte Stimmungslage tatsächlich zu unsozialem Verhalten im Internet führt bzw. eine positive Stimmung des Nutzers dieses verhindert. Gäbe es nur schlecht gelaunte Internetnutzer – wäre die Variable »individuelle Stimmung« des Internetnutzers also konstant – wäre eine solche Untersuchung nicht möglich. MERKEN Eine Variable ist ein Platzhalter für die Menge veränderlicher Ausprägungen eines Merkmals. Variablen bestehen aus Werten bzw. Merkmalen von Untersuchungseinheiten, die sich ändern können (oder variieren). Unabhängige Variable: Eine Variable, die die Ursache für eine Wirkung darstellen kann. Abhängige Variable: Eine Ergebnisvariable, von der wir denken, dass sie eine Wirkung hat, weil der Wert dieser Variablen von der Ursache abhängt.
Neben der Unterschiedlichkeit bzw. Variabilität ihrer Ausprägungen gibt es weitere Charakteristika von Variablen, die erfüllt sein müssen, damit Variablen empirisch sinnvoll verwendet werden können. Eine wesentliche Eigenschaft besteht darin, dass jede Untersuchungseinheit einer der Ausprägungen einer Variablen zugeordnet werden kann. Betrachten wir hierzu das wiederum an die Studie von Cheng et al. (2017) angelehnte Beispiel in Abbildung 2.2. Hier soll anhand einer vorgegebenen Anzahl von Antwortkategorien erhoben werden, wie viele provokante Beiträge ein Internetnutzer innerhalb eines vorgegebenen Zeitrahmens im Internet postet. 1–10
11–15
16–20
21–25
26–30
> 30
Abbildung 2.2: Variable Anzahl negativer provokanter Beiträge
Während sich hier alle »Trolle« – also Personen, die sich mindestens einmal in unangemessener Weise im Internet aggressiv äußern – einer der vorgegebenen Antwortkategorien zuordnen können, findet sich für »Nicht-Trolle« – also Personen, die dieses Verhalten niemals zeigen – keine angemessene Antwortkategorie »0« oder »keine negativ provokanten Beiträge«. Diese Personen könnten mit Hilfe einer solchen Kategorie nicht erfasst werden, was die Ergebnisse einer Untersuchung des Troll-Verhaltens merklich verzerren
39
Variablen
würde. Erst durch die Hinzunahme einer geeigneten Kategorie für »Nicht-Trolle« wäre das Kriterium der Zuordenbarkeit der Variablen erfüllt. Personen müssen sich den Ausprägungen einer Variablen jedoch auch eindeutig zuordnen können. Abbildung 2.3 gibt eine in dieser Hinsicht problematische Skala wieder. 0
1–10
10–15
15–20
20–25
25–30
> 30
Abbildung 2.3: Antwortvorgaben der Variable »Anzahl negativer provokanter Beiträge«: Problem der eindeutigen Zuordenbarkeit
Zwar lässt sich in diesem Beispiel – im Gegensatz zu Abbildung 2.2 – jede Person einer der vorgegebenen Antwortkategorien zuordnen. Für Personen mit 15, 20 oder 25 Beiträgen stellt sich jedoch das Problem, welcher der Kategorien sie sich zuordnen sollen. Personen mit zehn provokanten Beiträgen könnten sich sowohl der Kategorie »0–10« als auch der Kategorie »10–15« zuordnen. Um die Variable sinnvoll verwenden zu können, müssen die Personen eindeutig einer der genannten Kategorien zuordenbar sein, es dürfen sich also keine Überschneidungen ergeben. Abbildung 2.4 gibt ein Beispiel für eine um das Kriterium der eindeutigen Zuordenbarkeit korrigierte Antwortskala. 0
1–10
11–15
16–20
21–25
26–30
> 30
Abbildung 2.4: Variable Anzahl negativer provokanter Beiträge
An der obigen Skala mag man immer noch kritisieren, dass die Erfassung der Häufigkeit von »Troll-Verhalten« hier vergleichsweise grob erfragt wird. Personen, die sich beispielweise der Kategorie »1–10« zuordnen, können sowohl Personen sein, die in einem speziellen Ausnahmefall einmalig provokante Beiträge posten, als auch Personen, die dies bereits deutlich häufiger getan haben. Um diese möglicherweise sehr unterschiedlichen Personen besser unterscheiden zu können, könnte die Frage nach den Postings auch »offen« gestellt werden, also ohne die Vorgabe von Antwortmöglichkeiten. Die Befragten würden gebeten, die Häufigkeit selbst anzugeben. Die Anzahl möglicher Antworten wäre dann um einiges höher als in den oben diskutierten Fällen der Vorgabe von Kategorien. Dieses Beispiel verdeutlicht anschaulich, dass zur Messung derselben Eigenschaft (hier: Anzahl der Beiträge) unterschiedliche Arten von Variablen gebildet werden können (hier: eine kategoriale und eine numerische Variable). Die Entscheidung für eine der möglichen Optionen orientiert sich in aller Regel an inhaltlichen Gesichtspunkten (hier: Wie genau möchte ich das Verhalten erfassen?). Sie kann sich aber, wie wir in den folgenden Kapiteln sehen werden, auch an den aus unterschiedlichen Variablentypen entstehenden unterschiedli-
40
Theorien, Hypothesen und Variablen
chen Möglichkeiten und Problemen der Datenerhebung (Kapitel 3) und Datenauswertung (Kapitel 4 ff.) orientieren.
2.4 Zur Überprüfung von Hypothesen In den vorangegangenen Teilkapiteln haben wir uns damit beschäftigt, wie die quantitative Sozialforschung zu ihren relevanten Forschungsfragen gelangt (Kapitel 2.1). Wir haben festgestellt, dass jede gute sozial-wissenschaftliche Forschung mit theoretisch fundierten Vermutungen über Zusammenhänge zwischen empirisch beobachtbaren Phänomenen beginnt, den sogenannten Hypothesen (Kapitel 2.2). Im vorangegangenen Kapitel 2.3 haben wir betrachtet, wie sich derartige Hypothesen mit Hilfe von Variablen in eine empirische Sprache übersetzen lassen. Das abschließende Kapitel 2.4 wendet sich nun der Frage zu, wie die zuvor aufgestellten Hypothesen auf ihre Richtigkeit hin überprüft werden können. Trifft die Vermutung über einen empirischen Zusammenhang zu? Oder lässt sich die entsprechende Hypothese auf Basis von Forschungsergebnissen widerlegen? Ist es – um beim Beispiel der »Troll-Studie« von Cheng et al. (2017) zu bleiben – beispielsweise tatsächlich so, dass negative Gefühlslagen aggressive Postings in Internetforen begünstigen? In Kapitel 2 haben wir bereits darauf verwiesen, dass sich die Untersuchungssituation in den Sozialwissenschaften meist von der experimentellen Situation in den Naturwissenschaften unterscheidet. In der naturwissenschaftlichen Forschung – in der alle externen Einflüsse systematisch ausgeschaltet werden können – gehen wir davon aus, dass ein untersuchter Zusammenhang grundsätzlich und ohne kontextuelle Einschränkungen gilt. Die von Newton aufgestellte Gravitationstheorie stellt also beispielsweise ein allgemeines Gesetz dar, das sowohl zu Zeiten Newtons als auch heute gilt. Ebenso sollten entsprechende Experimente zu deren Überprüfung in München, Berlin und Moskau zu dem gleichen Ergebnis kommen. In den Sozialwissenschaften, in denen sich derartige experimentelle Designs meist nicht realisieren lassen, stellt sich die Situation anders dar. Betrachten wir hierzu ein in der empirischen Sozialforschung oftmals untersuchtes Thema, den Zusammenhang zwischen dem Erwerb eines akademischen Abschlusses und dem späteren beruflichen Erwerbseinkommen. Abbildung 2.5 stellt illustrativ die Verteilung von Untersuchungspersonen für den Fall eines perfekten Zusammenhangs ohne Ausnahmefälle dar. Sämtliche Akademiker*innen – hier angedeutet durch den »Doktorhut« – finden sich tatsächlich in der Gruppe der Personen mit einem hohen Verdienst wieder, während sämtliche Personen ohne akademische Qualifikation sich in der Gruppe der geringer Verdienenden befinden. Es entspricht der alltäglichen Erfahrung, dass ein derartiger Fall in der Praxis kaum vorzufinden ist. Nicht jedem Akademiker gelingt es, seine Ausbildung in ein gutes Gehalt
Zur Überprüfung von Hypothesen
41
umzuwandeln, etwa aufgrund der Wahl eines Studien- oder Berufsfeldes mit geringeren Verdienstmöglichkeiten. Und manchen Personen ohne akademischen Abschluss gelingt es – etwa bei hoher Arbeitsmotivation oder -intensität – durchaus, ein höheres Gehalt zu erzielen. Es existieren also eine Reihe von intervenierenden Rahmenbedingungen, die bei einer Untersuchung des Zusammenhangs nicht ausgeschaltet werden können und die das Einkommensergebnis beeinflussen. Insofern gilt nicht mehr für alle Fälle die Hypothese, dass mit einem akademischen Abschluss auch ein hohes Gehalt einhergeht.
Abbildung 2.5: Perfekter/deterministischer Zusammenhang zwischen Schulabschluss und Einkommen
Eine realistischere Verteilung stellt diejenige in Abbildung 2.6 dar. Hier erzielt nicht jeder Akademiker ein hohes Einkommen, einige finden sich auch in der Gruppe der geringer Verdienenden wieder und vice versa. Nichtsdestotrotz würde man hier dennoch von einem empirisch belegbaren Zusammenhang ausgehen, da es in der Mehrzahl der Fälle nach wie vor eher den Akademikern als den Nicht-Akademikern gelingt, ein hohes Einkommen zu erzielen. Mit anderen Worten: Die Wahrscheinlichkeit, ein höheres Einkommen zu erzielen, ist für Personen mit Universitätsabschluss höher als für Personen ohne Universitätsabschluss.
Abbildung 2.6: Probabilistischer Zusammenhang zwischen Schulabschluss und Einkommen
42
Theorien, Hypothesen und Variablen
Übertragen auf das eingangs betrachtete Beispiel von Cheng et al. (2017) wäre die Hypothese eines Zusammenhangs zwischen individueller Stimmungslage und aggressivem Verhalten in Internetforen nicht bereits dann widerlegt, wenn sich ein Fall finden ließe, in dem eine emotional frustrierte Person keine negativen Postings vornimmt (oder eine emotional ausgeglichene Person dennoch aggressiv postet). So lange jedoch aggressives Verhalten vor allem bei Personen aufträte, die sich in einer negativen emotionalen Grundstimmung befinden, bestünde Anlass, von einem empirisch belegbaren Zusammenhang auszugehen. Der sozialwissenschaftlichen Forschung liegt ein derartiges probabilitisches (d. h.: an Wahrscheinlichkeiten orientiertes) Verständnis der Bestätigung von Hypothesen zugrunde. Damit bezieht man sich auf Verhalten, das im Durchschnitt beobachtet werden kann. In der empirischen Sozialforschung verwendet man keine deterministischen Theorien und Hypothesen, die den Anspruch erheben, jeden Einzelfall zu erklären. Mit probabilistischen Aussagen erhebt man lediglich den Anspruch, für die untersuchten Phänomene der Tendenz nach eine Erklärung zu finden. Einzelne Abweichungen widerlegen den unterstellten Zusammenhang nicht, so lange sie bei Betrachtung aller Fälle eine Ausnahme darstellen. Es ist die Aufgabe der in den späteren Kapiteln diskutierten statistischen Verfahren der kausalen Zusammenhangsanalyse (Kapitel 5 ff.), diese Idee einer »Ausnahme« anhand mathematischer Grundlagen zu überprüfen.
3. Von der Forschungsfrage zum Forschungsprojekt: Forschungsdesign, Auswahl- und Erhebungsverfahren
Im vorangegangenen Kapitel haben wir schrittweise erläutert, wie man als Forscher*in von einem allgemeinen thematischen Interesse zu einer theoretisch begründeten Forschungsfrage gelangt. Im nächsten Schritt stellt sich nun die Frage, wie sich diese in eine empirische Forschungsstrategie überführen lässt. Wir setzen uns in diesem Kapitel insbesondere mit drei zentralen Fragestellungen auseinander: Ȥ Welches Forschungsdesign soll gewählt werden (Abschnitt 3.1)? Dies umfasst zum einen die konkrete Zielsetzung der geplanten empirischen Studie: Soll im Sinne einer wissenschaftlichen Grundlagenforschung eine spezifische Hypothese auf ihre Gültigkeit hin überprüft werden? Oder steht vielmehr aus einer eher praxisnahen Perspektive die Untersuchung einer konkreten sozialarbeiterischen oder sozialpädagogischen Intervention im Mittelpunkt des Interesses (Abschnitt 3.1.1)? Eng verknüpft mit der Zielsetzung der Studie ist die Frage, ob für deren Untersuchung eine einmalige Erhebung ausreicht oder mehrere, wiederholte Erhebungen notwendig sind. Sollen im Falle einer mehrmaligen Erhebung zudem wiederholt dieselben Befragten ausgewählt werden? Oder reicht es stattdessen aus, in regelmäßigen Abständen eine vergleichbare Auswahl von Personen zu untersuchen, die jedoch nicht notwendigerweise von Befragung zu Befragung identisch sein müssen (Abschnitt 3.1.2)? Ȥ Der zuvor genannte Punkt verweist bereits auf die Notwendigkeit einer genaueren Betrachtung der Auswahl der Untersuchungsobjekte. Wer genau wird in die Untersuchung mit einbezogen und wie kann sichergestellt werden, dass die aus einer solchen Auswahl resultierenden Ergebnisse tatsächlich verlässliche Rückschlüsse auf die interessierende Zielgruppe zulassen? Diesen Fragen der Wahl eines geeigneten Auswahlverfahrens wird in Abschnitt 3.2 ausführlicher nachgegangen, indem zunächst die allgemeine Problematik der Auswahl von Untersuchungseinheiten diskutiert und anschließend verschiedene Auswahlverfahren in ihrer grundsätzlichen Logik dargestellt werden. Zudem wird die Praktikabilität verschiedener Auswahlverfahren in der Sozialen Arbeit bzw. Sozialpädagogik kritisch betrachtet. Ȥ Ist das Forschungsdesign gewählt und hat man hinsichtlich der Auswahl der Untersuchungsobjekte ein geeignetes Verfahren identifiziert, stellt sich abschließend die Frage, mit Hilfe welcher konkreten Erhebungsform die Zielpersonen untersucht werden sollen. In der quantitativen empirischen Sozialforschung hat sich hier die Befragung
44
Von der Forschungsfrage zum Forschungsprojekt
als zumeist verfolgter »Königsweg« etabliert. Gleichwohl stellt diese nicht die einzig denkbare Form der Datengewinnung in der empirischen Sozialforschung dar, weshalb Beobachtung und Inhaltsanalyse als in der quantitativen Forschung etablierteste Alternativformen ebenfalls kurz diskutiert werden (Abschnitt 3.3.4). Zunächst steht jedoch die Befragung ausführlicher im Mittelpunkt. Einzelne Teilabschnitte setzen sich hier mit den drei in der empirischen Forschung zentralen Formen der Befragung auseinander, der persönlichen Face-to-face-Befragung (3.3.1), der telefonischen Befragung (3.3.2) sowie der schriftlichen Befragung, zu der auch die seit Mitte der 2000er-Jahre regelrecht boomenden Online-Befragung zählt (3.3.3). Vor- und Nachteile dieser verschiedenen Erhebungsformen werden abschließend einander gegenübergestellt.
3.1 Forschungsdesign Wie zuvor verdeutlicht, lassen sich Forschungsdesigns nach zwei wesentlichen Kriterien voneinander unterscheiden: zum einen in der Zielsetzung, die mit der eigenen Forschung verfolgt werden soll, zum anderen mit der Frage, in welcher Häufigkeit und bei welchen Personengruppen Daten erhoben werden sollen. Die folgenden Teilkapitel widmen sich nacheinander diesen beiden Aspekten der Unterscheidung von Forschungsdesigns. Gleichzeitig versuchen wir jedoch auch, beide Dimensionen miteinander zu verschränken, d. h. zu verdeutlichen, welche Formen des Forschungsdesigns (einmalig vs. mehrmalig; identische vs. unterschiedliche Befragungspersonen) sich zur Beantwortung welcher Zielsetzungen besonders eignen. 3.1.1 Unterscheidung nach Zielsetzung der Forschung Hinsichtlich der Zielsetzung lassen sich grob vier verschiedene Formen von Forschungsdesigns unterscheiden, das deskriptive Design, das hypothesentestende Design, das Evaluationsdesign und das experimentelle Design. Deskriptives Design
Ein deskriptives Design setzt sich zunächst einmal zum Ziel, mittels empirischer Forschung einen bestimmten Gegenstandsbereich inhaltlich zu erschließen und ihn in seinen wesentlichen Charakteristika zu beschreiben. Will man beispielsweise das Internetverhalten von Nutzer*innen in neuen sozialen Medien analysieren, so erscheint es sinnvoll, sich hierfür zunächst einen Überblick über das allgemeine Phänomen der Internetnutzung zu verschaffen. Von potenzieller Bedeutung wären etwa die bevölkerungsweite Verbreitung
Forschungsdesign
45
von Internetanschlüssen, die tatsächliche Nutzungshäufigkeit, die Form des Zugangs oder die Frage, für welche Zwecke das Internet mehrheitlich genutzt wird. Für die Messung dieser interessierenden Dimensionen müssten entsprechend angemessene Formen der Erfassung gefunden werden. Eine ausführlichere Diskussion der Frage, wie solch eine Messung erfolgen bzw. gut gelingen kann, erfolgt in Kapitel 4. In der aktuellen gesellschaftlichen Diskussion zur »digitalen Gesellschaft« findet sich eine Reihe solcher »beschreibender Statistiken«: So berichtet etwa das Statistische Bundesamt, dass circa 90 % aller deutschen Personen ab zehn Jahren im Jahr 2018 das Internet nutzten – ein Zuwachs um circa 2 % im Vergleich zum Vorjahreswert. Die Nutzung fällt bei Männern mit 91 % täglicher Nutzung etwas höher aus als bei Frauen (87 %) und bei jungen Menschen im Alter von 16–24 Jahren (98 %) deutlich höher als bei Menschen jenseits des Rentenalters (68 % im Alter von 65 Jahren und älter; vgl. Statistisches Bundesamt 2018). 92 % aller Deutschen nutzen das Internet zur Informationssuche; demgegenüber sind nur 56 % in sozialen Netzwerken aktiv (vgl. Eurostat 2019). Auch die Dauer der täglichen Internetnutzung hat sich verändert: Lag sie 2017 noch bei 128 Minuten, so erhöhte sie sich bis 2018 auf ganze 196 Minuten, wobei auch hier wieder die Nutzung bei 24–29-Jährigen (274 Minuten) deutlich oberhalb der der über 70-Jährigen (36 Minuten) lag (Frees und Koch 2018: 403 f.). Die oben angeführten Beispiele verdeutlichen bereits einzelne statistische Möglichkeiten, derartige »deskriptive« Befunde zu vermitteln. In Kapitel 5 widmen wir uns diesen statistischen Verfahren ausführlicher. Eine derartige beschreibende Forschung liefert erste hilfreiche Kontextinformationen für die vertiefte Untersuchung des Verhaltens in Internetforen. So verdeutlichen die Zahlen zur »digitalen Gesellschaft« etwa, dass es sich bei neuen sozialen Medien keineswegs um ein gesellschaftsweites Phänomen handelt, sondern dass dies vor allem die jüngere Generation betrifft, bei der die Bedeutung aber in wenigen Jahren deutlich zugenommen hat. Weitere deskriptive Informationen – etwa zum Bildungsniveau der Nutzer*innen »neuer Medien« oder zu deren Erwerbstätigkeit und Familienstand – könnten dazu beitragen, die Zielgruppe der Befragung noch detaillierter zu beschreiben. Einer rein deskriptiven Herangehensweise hängt – insbesondere in den Sozialwissenschaften – oftmals das Etikett einer etwas »simplistischen« Herangehensweise an die soziale Wirklichkeit an. Dies ist zum einen grundsätzlich verständlich: Geht es doch insbesondere in den Sozialwissenschaften nicht nur um die Beschreibung, sondern um die Erklärung eines gesellschaftlich oder sozial relevanten Sachverhalts. Armut soll beispielsweise nicht nur in ihrem Ausmaß beschrieben werden, sondern es sollen Ursachen von Armut identifiziert werden, die im Anschluss durch sozialpolitisches oder sozialarbeiterisches Handeln bekämpft bzw. gemindert werden können. Andererseits sind deskriptive Untersuchungen sowohl sozialwissenschaftlich als auch (sozial-)politisch oftmals von zentraler Bedeutung. Ist ein Phänomen – etwa das Erstar-
46
Von der Forschungsfrage zum Forschungsprojekt
ken einer zunehmenden rechtspopulistischen Orientierung in Teilen der europäischen Bevölkerung – für die wissenschaftliche Betrachtung neu, so muss zuerst ein allgemeines Grundlagenwissen über dieses neue gesellschaftliche Phänomen geschaffen werden, bevor komplexere Hypothesen aufgestellt und überprüft werden können. Deskriptiver Forschung kommt bei solchen »explorativen« Zugängen meist eine zentrale Bedeutung zu. MERKEN Deskriptive Forschungsdesigns verfolgen das Ziel, mittels empirischer Forschung einen bestimmten Gegenstandsbereich inhaltlich zu erschließen und ihn in seinen wesentlichen Charakteristika zu beschreiben. Sie eignen sich insbesondere für die Erschließung neuer, bislang wenig bekannter Forschungsfelder und zur kontextuellen Einbettung weiterführender, komplexerer Studien.
Für die Politik sind zudem Beschreibungen sozialer Phänomene oder gesellschaftlicher Trends erfahrungsgemäß wesentliche Anknüpfungspunkte für die Verankerung spezifischer Problemlagen auf der politischen Agenda. Initiativen wie etwa diejenige zur Erstellung eines regelmäßigen Monitorings zentraler sozialer Indikatoren – z. B. Gesundheit, Lebensqualität, gesellschaftlicher Zusammenhalt und Sozialstruktur – sind somit sowohl wissenschaftlich als auch politisch von wesentlicher Bedeutung (vgl. z. B. die Anstrengungen für einen »European Social Indicators Monitor«; Noll 2014). Hypothesentestendes Design
In den Diskussionen zur Herleitung einer Fragestellung (Kapitel 2) sind wir weitestgehend von einem sogenannten hypothesentestenden Design ausgegangen. Ziel eines solchen Designs ist die Untersuchung der Frage, inwiefern sich eine zuvor aufgestellte, theoretisch fundierte Hypothese tatsächlich in der empirischen Wirklichkeit bewährt. Der »TrollStudie« von Cheng et al. (2017) lag etwa die Vermutung zugrunde, dass das Auftreten provokanten Verhaltens im Internet sowohl mit der Stimmung der Internetnutzer*innen im Zusammenhang steht (negative Stimmung erhöht die Anzahl von Provokationen) als auch mit dem Diskussionskontext in Internetforen (zuvor gepostete negative Beiträge erhöhen die Wahrscheinlichkeit weiterer Provokation; vgl. Kapitel 2.2). Ein erster Schritt einer hypothesentestend angelegten Forschung bestünde darin, zunächst einmal die zuvor genannten Phänomene (Troll-Verhalten; individuelle Stimmung und Diskussionskontext) angemessen zu erfassen. Ist dies sichergestellt, wird auf Basis geeigneter Daten überprüft, inwiefern sich die zuvor aufgestellten Hypothesen in der empirischen Wirklichkeit bestä-
Forschungsdesign
47
tigen lassen: Ist Trollverhalten tatsächlich stimmungsabhängig? Und wirkt sich ein aggressiver Diskussionskontext tatsächlich auf die eigene Bereitschaft zum »Trollen« aus? Zur Überprüfung dieser Vermutungen stehen eine Reihe von statistischen Verfahren, etwa die Zusammenhangs- oder Regressionsanalyse zur Verfügung, die wir im weiteren Verlauf dieses Buches (Kapitel 6 ff.) näher betrachtet werden. Die Grundlage der Hypothesenprüfung sind in aller Regel Befragungen, die die zu untersuchende Zielgruppe möglichst angemessen abbilden und entsprechend belastbare Aussagen zulassen – die Zielgruppe also möglichst gut »repräsentieren«. Zu dieser in Wissenschaft und Öffentlichkeit vielzitierten »Repräsentativität« werden wir in Kapitel 3.2 mehr berichten. MERKEN Hypothesentestende Designs stellen in der wissenschaftlichen Forschung meist den Normallfall dar. Sie beinhalten die empirische Überprüfung zuvor aufgestellter, theoretisch fundierter Hypothesen. Sie basieren idealerweise auf einer repräsentativen Erhebung der Zielgruppe und der Anwendung statistischer Verfahren zur Zusammenhangsanalyse.
Die Perspektive von hypothesentestenden Verfahren geht dabei über eine rein beschreibende Darstellung der empirischen Wirklichkeit hinaus und möchte »Erklärungen« für deren Zustandekommen liefern. Entsprechend werden Theorien auf ihre Anwendbarkeit hin überprüft und inhaltlich weiterentwickelt. Evaluationsdesigns
Neben deskriptiver und hypothesentestender Forschung nehmen in Fachbereichen wie der Sozialen Arbeit, der Sozialpädagogik oder der Sozialpolitik Evaluationsdesigns einen besonderen Stellenwert ein. Allgemein bezeichnet der Begriff der Evaluation »die Bewertung eines Gegenstandes mit Hilfe sozialwissenschaftlicher Methoden durch Evaluationsfachleute« (Döring 2019: 173; in Anlehnung an Widmer und de Rocchi 2012). Im Gegensatz zur oben skizzierten wissenschaftlichen Grundlagenforschung ist die Evaluation häufiger eine extern vorgegebene Auftragsforschung und zeichnet sich entsprechend durch eine größere Orientierung an (berufs-)praktischen bzw. anwendungsorientierten Fragestellungen aus (vgl. z. B. Merchel 2015). Der Unterschied zur wissenschaftlichen Grundlagenforschung besteht somit weniger in der Anwendung spezifischer Verfahren; auch hier können deskriptive oder komplexe
48
Von der Forschungsfrage zum Forschungsprojekt
Analysen von Zusammenhängen zur Anwendung kommen. Der Unterschied liegt vielmehr in der anwendungsorientierten Zielsetzung eines solchen Designs. Ein Beispiel für einen solchen Ansatz stellt etwa die Bewertung von sozialpädagogischen bzw. sozialarbeiterischen Maßnahmen dar. Nehmen wir an, es wird eine Qualifikationsmaßnahme zur Unterstützung von Jugendlichen ohne bzw. mit geringen schulischen Abschlüssen angeboten, die dieser Zielgruppe helfen soll, eine Ausbildungsstelle oder eine Beschäftigung zu erlangen. Das Ziel einer evaluationsorientierten Forschung könnte vor diesem Hintergrund darin bestehen, zu überprüfen, inwiefern eine solche Maßnahme Jugendlichen tatsächlich die Einmündung in eine Ausbildung auf dem Arbeitsmarkt ermöglicht. Um einen derartigen »Effekt« einer solchen Maßnahme abzuschätzen, müssten entsprechend die Maßnahmen-Teilnehmer*innen mit – ansonsten möglichst ähnlichen – Jugendlichen verglichen werden, die nicht an einer solchen Maßnahme teilgenommen haben. Ist die Einmündung in die Ausbildung/Erwerbstätigkeit bei den Maßnahmenteilnehmer*innen nach erfolgreicher Teilnahme ausgeprägter, kann von einem »positiven Effekt« der Maßnahme ausgegangen werden. Neben der Evaluation des finalen Maßnahmenerfolgs (»summative Evaluation«) können auch frühere Schritte der Maßnahmen-Implementation mittels empirischer Forschung »formativ« begleitet werden; etwa die Frage der Einführung einer solchen Maßnahme: Ist sie der Zielgruppe bekannt? Wird sie hinreichend in Anspruch genommen? Aus weiterführenden Ergebnissen der Evaluation können darüber hinaus Rückschlüsse dahingehend gezogen werden, warum es ggf. bei der Durchführung der Maßnahme zu unerwünschten Ergebnissen kam und wie sich diese zukünftig gestalten ließe, um erfolgreicher zu sein (vgl. Stegmann und Schwab 2013). Die Bedeutung von Evaluationsforschungen hat in der Sozialen Arbeit in den ver gangenen Jahrzehnten merklich zugenommen (vgl. z. B. Haubrich 2009). Ein nicht unwesentlicher Grund für diese Veränderungen lag in der zunehmenden Verbreitung von Modi der sozialen Steuerung, d. h. der effizienten Allokation von verfügbaren Ressourcen in der Erbringung sozialer Dienstleistungen. Eine solche »evidenzbasierte« Überprüfung sozialer Dienstleistungen wurde in der Vergangenheit vielfach kritisch betrachtet und – oftmals nicht unbegründet – als »reduktionistische Fokussierung auf die Wirksamkeit professioneller Leistungserbringung« kritisiert (Baumgartner und Sommerfeld 2012: 1168), nicht zuletzt, da entsprechende Evaluationsansätze vielfach als Mittel der Legitimation von Kürzungen sozialer Leistungen angesehen wurden. Die Problematik derartiger Vorgehensweisen liegt jedoch weniger in der Anwendung eines bestimmten Forschungsdesigns oder einer bestimmten (quantitativen) Methodik per se, sondern in deren ausschließlicher Anwendung. Im oben genannten Beispiel ließe sich etwa die grundlegende Frage stellen, ob und wie der »Erfolg« einer Maßnahme empirisch eingefangen werden kann. Im zuvor genannten Beispiel stellt sich die Frage, ob nur
Forschungsdesign
49
die gelungene Ausbildungs-/Arbeitsmarktintegration als »Erfolg« gewertet werden soll oder ob andere Folgen (etwa Verbesserung des Selbstbewusstseins und der Zukunftsperspektiven der Teilnehmer) nicht ebenso als solche angesehen werden können. Hier wäre eine stärkere Fallorientierung, etwa durch qualitative Leitfadeninterviews mit einzelnen Maßnahmenteilnehmern eine sinnvolle Ergänzung rein quantitativer Designs. MERKEN Evaluationsdesigns basieren auf der Anwendung wissenschaftlicher Methoden zur Beantwortung (berufs-)praktischer, anwendungsorientierter Fragestellungen. Ziel ist es, Entscheidungsträgern im sozialen Bereich konkrete Handlungshilfen bereitzustellen. Quantitative Forschungsmethoden und Statistik können hierzu ihren Beitrag leisten, sollten jedoch nicht einseitig als Instrument einer »Wirkungskontrolle« verwendet werden, sondern durch geeignete qualitative Methoden ergänzt werden.
Für eine angemessene Evaluation, die verschiedenen Aspekten des komplexen Forschungsgegenstands gerecht wird, wäre in der Tat ein verstärkter »Mut zum Methodenmix« (Buschner 2016: 84) wünschenswert. Idealerweise ließen sich hierdurch eigene, nicht ausschließlich ökonomische Kriterien der Sozialen Arbeit zur Messung des Maßnahmenerfolgs entwickeln. Hierzu können nicht nur, aber eben auch Methoden der quantitativen Sozialforschung einen wichtigen Beitrag erbringen. Experimentelle Designs
In den Naturwissenschaften, aber auch in relevanten »Bezugsdisziplinen« der Sozialen Arbeit/Sozialpädagogik – etwa der Psychologie – sind sogenannte »experimentelle Designs« weit verbreitet. Allgemein bezeichnen Experimente auf allgemeinster Ebene ein Vorgehen, bei dem es zu einer »planmäßige[n] Beobachtung bestimmter Sachverhalte und ihrer Veränderungen unter vom Forscher kontrollierten und variierten Bedingungen« (FuchsHeinritz et al. 2011: 191) kommt. Der Unterschied zur klassischen Vorgehensweise bei hypothesentestenden Untersuchungen besteht dabei in der aktiven Kontrolle der untersuchungsrelevanten Rahmenbedingungen durch die Forschenden. Idealerweise teilen diese die Zielgruppe zunächst in zwei Gruppen auf, eine »Experimentalgruppe« und eine »Kontrollgruppe« bzw. »Vergleichsgruppe«. Die Experimentalgruppe wird anschließend einem bestimmten externen Einfluss (treatment) ausgesetzt, der bei der Vergleichsgruppe nicht zum Tragen kommt. Anschließend wird geprüft, ob der externe Einfluss bei der Experimentalgruppe zu einer bestimmten »Wirkung« geführt hat, die bei der Vergleichsgruppe
50
Von der Forschungsfrage zum Forschungsprojekt
nicht auftritt. Bekannt ist ein solches Vorgehen etwa aus der pharmazeutischen Forschung, in der Patient*innen mit einem identischen Krankheitsbild entweder ein Medikament erhalten (Experimentalgruppe) oder nicht (Kontrollgruppe). Bewirkt das Medikament bei der Experimentalgruppe eine Heilung oder Linderung, so kann davon ausgegangen werden, dass das entsprechende Medikament wirksam ist. Experimente beruhen somit implizit auf zwei Messungen – vor und nach der Gabe des treatments (hier des Medikaments). Grundlegend für den Kausalschluss zwischen Ursache (Gabe eines Medikaments) und Wirkung (Heilung) ist dabei, dass alle anderen potenziellen Einflussfaktoren der Genesung (etwa das Alter oder der allgemeine Gesundheitszustand) in ihrer Auswirkung auf das Testergebnis ausgeschlossen werden können. Hierfür spielt die zufällige Aufteilung in zwei Untersuchungsgruppen ebenso wie die Kontrolle der Rahmenbedingungen im Untersuchungszeitraum eine zentrale Rolle. In dieser systematischen Kontrolle von Gruppenzuweisungen und Untersuchungsverlauf offenbaren sich gleichwohl die Beschränkungen eines experimentellen Designs im sozialwissenschaftlichen Bereich und insbesondere im Kontext sozialer Dienstleistungen. Bei Beobachtungen in der alltäglichen sozialen Realität lassen sich Personen meist nicht zufällig verschiedenen Gruppen zuweisen, die ein bestimmtes treatment (im sozialarbeiterischen Kontext etwa eine Hilfsmaßnahme) erhalten oder nicht. Neben den rein pragmatischen Gründen einer solchen zufälligen Aufteilung in Untersuchungsgruppen ergeben sich ethische Probleme hinsichtlich der Frage, inwiefern es gerechtfertigt werden kann, dass nur spezifische Personen ein Hilfsangebot erhalten (und andere nicht). Neben diesen Problemen in der zufälligen Gruppenaufteilung ergeben sich im sozialen Alltag zudem auch Probleme bei der Kontrolle der Untersuchungssituation. Die oben skizzierten bildungsbenachteiligten Jugendlichen, die ein Unterstützungsangebot zur Ausbildungs-/Arbeitsmarktintegration erhalten, führen außerhalb der Maßnahmenteilnahme ein sehr unterschiedliches Alltagsleben, das sich seinerseits auf das Maßnahmenergebnis auswirken kann. Relevante Einflussfaktoren wären hier etwa persönliche Belastungslagen bzw. das familiäre und/oder soziale Umfeld. Eine Kontrolle derartiger Einflussfaktoren erweist sich in der Forschungspraxis meist als schwierig. Eine Möglichkeit, derartige Probleme zu umgehen, bestünde in der künstlichen Herstellung »kontrollierter« Bedingungen der Untersuchungssituation. Sozialwissenschaftliche Laborexperimente finden beispielsweise in spezifisch eingerichteten »Teststudios« statt, in denen externe Einflüsse möglichst ausgeschaltet werden sollen (etwa indem keine anderen Personen zugegen sind und keine äußeren Störungen erfolgen). Unter diesen »kontrollierten Bedingungen« erhalten die Personen Stimuli (zum Beispiel Produkte oder Angebote), die sie dann unbeeinflusst bewerten sollen. Wenngleich hier externe Faktoren weitgehend ausgeschlossen werden können, stellt sich nichtsdestotrotz die Frage, inwiefern deren Ergebnisse auf reale »natürliche Situationen« übertragen werden können (vgl.
Forschungsdesign
51
z. B. Eifler und Leitgöb 2019). Insbesondere in sozialarbeiterischen Bezügen, in denen der Lebenswelt der Klienten oftmals eine zentrale Rolle zugeschrieben wird, erscheint ein solcher Rückschluss grundsätzlich problematisch. Feldexperimente hingegen versuchen, ein experimentelles Design in die soziale Alltagsrealität zu übertragen. Ein vielzitiertes Beispiel für ein solches Feldexperiment bietet die verkehrspsychologische Studie von Lefkowitz et al. (1955), die an drei Fußgängerampeln untersuchten, inwiefern das verbotene Überqueren einer roten Straßenampel durch entsprechende Vorbilder anderer Verkehrsteilnehmer bzw. deren durch Kleidung erkennbaren sozialen Status beeinflusst wird. Das Auftreten solcher »schlechten Vorbilder« bzw. ihre Kleidung wurden dabei durch die Forscher systematisch variiert. Es zeigte sich, dass das Überqueren einer roten Ampel durch andere Personen individuelles Fehlverhalten beförderte, und zwar insbesondere dann, wenn diese von ihrer Kleidung her als statushöhere Personen erkennbar waren. Ein derartiges Forschungsdesign weist fraglos eine deutlich höhere Realitätsnähe auf als ein Laborexperiment. Gleichwohl ließen sich hier die Verkehrsteilnehmer als Proband*innen weder zufällig verschiedenen Gruppen zuweisen, noch konnte ausgeschlossen werden, dass andere relevante Faktoren sich auf deren Verkehrsverhalten auswirkten, sodass auch hier die Aussagekraft des Experiments eingeschränkt bleibt. Aufgrund der oben skizzierten Probleme der Herstellung experimenteller Bedingungen im strengen Sinne hat sich in den Sozialwissenschaften vielfach ein quasi-experimentelles Design etabliert. Die Aufteilung in Gruppen wird hierbei nicht zufällig vom Forscher herbeigeführt, sondern erfolgt beispielsweise durch natürliche Selektionsprozesse. Beispiele hierfür sind politische Reformen, wie etwa die Einführung von zwei zusätzlichen Monaten Elternzeit für Väter: Diese betreffen nur diejenigen Personen, die von dieser Reform »profitieren« können. Durch den Vergleich dieser »anspruchsberechtigten« Väter mit Vätern früherer Kohorten lassen sich somit indirekt Schlüsse dahingehend ziehen, inwiefern die Reform die Beteiligung von Vätern an familiären Aufgaben verändert hat. Kausale Schlüsse in derartigen »Quasi-Experimenten« auf die Wirksamkeit spezifischer Interventionen sind jedoch nicht unproblematisch: Im zuvor genannten Beispiel der Einführung der Elternzeit für Väter wäre beispielsweise nicht auszuschließen, dass andere Faktoren (wie etwa öffentliche Diskussionen oder ein sich stetig vollziehender Wertewandel zu Kindern und Familie) ebenso das Väterhandeln beeinflussen. Auch die nicht zufällige Selektion in Experimental- und Untersuchungsgruppe kann Interpretationen von Ergebnissen behindern. Betrachten wir hierzu das Beispiel einer freiwilligen Dienstleistung (etwa der zuvor diskutierten Fördermaßnahme für bildungsschwache Jugendliche), deren Erfolg durch einen Vergleich von Teilnehmer*innen (Experimentalgruppe) mit Nicht-Teilnehmer*innen (Vergleichsgruppe) untersucht werden soll. Ist die Teilnahme an der Maßnahme freiwillig, kann davon ausgegangen werden, dass sich die Zusammen-
52
Von der Forschungsfrage zum Forschungsprojekt
setzung beider Gruppen unterscheidet; hochgradig motivierte und leistungsbereite Teilnehmer und Teilnehmerinnen werden etwa umfassender an einem derartigen Angebot teilnehmen und aufgrund dieser Eigenschaften ggf. auch in der Erwerbsaufnahme erfolgreicher sein. Entsprechend wäre auch eine einseitige Rückführung des EingliederungsErfolgs auf die angebotene Maßnahme irreführend. Der Durchführung experimenteller Studien in Kontexten der Sozialen Arbeit und Sozialpädagogik sind somit durchaus Grenzen gesetzt, da hier experimentelle Bedingungen meist nur ansatzweise erreicht werden können. Berücksichtigt man diese Einschränkungen, können quasi-experimentelle Studien gleichwohl einen ersten Anhaltspunkt für die Beurteilung politischer Reformen oder sozialarbeiterischer/sozialpädagogischer Interventionen liefern. MERKEN Experimentelle Designs basieren auf der Beobachtung von Sachverhalten bzw. der Überprüfung von Zusammenhängen unter vom Forscher kontrollierten Bedingungen. In Kontexten der Sozialen Arbeit bzw. Sozialpädagogik ist eine Untersuchung unter derartigen kontrollierten Bedingungen nicht möglich. Verbreitet sind hingegen »Quasi-Experimente« die – bei Berücksichtigung ihrer Beschränkungen – durchaus Impulse für die Praxis bieten können.
3.1.2 Unterscheidung nach Erhebungshäufigkeit und Erhebungsobjekt Neben der Unterscheidung nach Zielsetzungen lassen sich Forschungsdesigns auch hinsichtlich zweier weiterer Fragestellungen unterscheiden: der Frage, ob eine einmalige oder eine mehrmalige Erhebung von Daten geplant ist und – im Falle einer mehrmaligen Befragung – ob die sich ergebenden Daten immer von denselben Personen oder von unterschiedlichen Personen erhoben werden sollen. Die sich hierdurch ergebenden Designvarianten – Querschnittsdesign, Trenddesign und Paneldesign – sollen im Folgenden grundlegend skizziert und hinsichtlich ihrer spezifischen Vor- und Nachteile kritisch hinterfragt werden. Querschnittsdesign
Die einfachste und am wenigsten aufwendige Anlage empirischer Erhebungen hinsichtlich des Erhebungszeitpunkts stellt das sogenannte Querschnittsdesign dar. Abbildung 3.1 gibt schematisch einen Überblick über dessen grundsätzliche Logik. Ein Querschnittsdesign basiert auf der einmaligen Erhebung einer (oder mehrerer) untersuchungsrelevanten
Forschungsdesign
53
Eigenschaft (etwa des Alters einer Person, deren Einkommen, deren Gesundheitszustand oder deren Einstellung zu einem bestimmten Sachverhalt). Eine nochmalige Wieder holung der Befragung wird dabei nicht als notwendig angesehen und entsprechend nicht angestrebt.
Abbildung 3.1: Querschnittsdesign (schematische eigene Darstellung)
Reine Querschnittsdesigns finden sich beispielsweise bei Umfragen zu tagesaktuellen Themen. Ein typisches Beispiel aus der Umfrageforschung für eine Studie mit klassischen Querschnittselementen sind etwa die aus dem öffentlich-rechtlichen Fernsehen bekannten Politbarometer-Erhebungen, die seit 1977 in monatlichen Abständen Themen aus dem aktuellen politischen Diskurs erheben (vgl. z. B. Wüst 2003). Im Januar 2017 wurde beispielsweise die folgende Frage gestellt: »Der neue amerikanische Präsident Donald Trump hat im Wahlkampf in vielen Bereichen radikale Positionen vertreten. Glauben Sie, dass er … • diese radikalen Positionen jetzt auch als US-Präsident vertreten wird, oder • glauben Sie, dass er jetzt gemäßigtere Positionen einnehmen wird?« (Politbarometer 2017) Ziel einer solchen Frage ist es, zu einem ganz bestimmten Zeitpunkt – hier kurz nach der amerikanischen Präsidentschaftswahl im November 2016 – eine spezifische Meinung zu erheben; hier die Frage, inwiefern der amerikanische Präsident seine im Wahlkampf vertretenen Positionen in Zukunft beibehalten wird. Eine nochmalige Erhebung derselben Frage, etwa mehrere Monate nach dieser Wahl, wäre kaum sinnvoll gewesen, da dann bereits erste Erfahrungen mit der tatsächlichen Politik des amerikanischen Präsidenten vorlägen. Querschnittsbefragungen müssen dabei nicht notwendigerweise rein deskriptiven Zwecken dienen. So ließe sich im zuvor genannten Beispiel etwa auch ein hypothesentestendes Design verfolgen; beispielsweise wenn auf Basis entsprechender theoretisch fundierter Annahmen untersucht würde, inwiefern die gegenwärtige politische Selbsteinordnung der Befragten mit der Erwartung hinsichtlich der zukünftigen Politik Donald Trumps zusammenhängt.
54
Von der Forschungsfrage zum Forschungsprojekt
Eine im strengen Sinne kausale Ursache-Wirkungs-Beziehung lässt sich mit einem derartigen Studiendesign nicht testen, da sämtliche Daten lediglich zu einem Zeitpunkt vorliegen, und der Zusammenhang zwischen einer zeitlich vorausgehenden »Ursache« und einer zeitversetzt folgenden »Wirkung« somit nicht rekonstruiert werden kann. Auf Basis einer Querschnittsbefragung kann ein solcher Zusammenhang lediglich plausibel vermutet werden. Diese Einschränkung muss auch bei der Interpretation von auf Querschnittsdaten beruhenden Zusammenhangsanalysen (vgl. Kapitel 5 f.) entsprechend beachtet werden. In »klassischen Querschnittsbefragungen« wird – wie im obigen Beispiel – davon ausgegangen, dass alle interessierenden Variablen zum jeweils aktuellen Zeitpunkt erhoben werden. In bestimmten Kontexten können jedoch auch zeitlich vorausgegangene Ereignisse von Bedeutung für einen gegenwärtigen Zustand sein. Wenn beispielweise die aktuelle Lebenszufriedenheit von Menschen und deren Einflussfaktoren untersucht werden sollen, so nehmen darauf nicht nur gegenwärtige Aspekte (wie etwa der gegenwärtige Gesundheitszustand) Einfluss. Ebenso können zeitlich zurückliegende Faktoren – wie etwa die Erfahrung von persönlichen Schicksalsschlägen in der Vergangenheit oder die Häufigkeit von Arbeitslosigkeitserfahrungen in den vergangenen fünf Jahren – durchaus eine bedeutsame Rolle spielen. Es bietet sich daher bei einigen Fragestellungen an, zusätzlich zu gegenwärtigen Eigenschaften auch Ereignisse aus der Vergangenheit zu erfragen. Abbildung 3.2 verdeutlicht die Logik eines solchen Querschnittsdesigns (es wird nach wie vor nur eine Erhebung durchgeführt) mit zusätzlichen Retrospektivfragen.
Abbildung 3.2: Querschnittsdesign mit Retrospektivfragen (schematische eigene Darstellung)
In der Erhebungspraxis sind derartigen retrospektiven Fragen gleichwohl Grenzen gesetzt. So sind Befragte in aller Regel zwar gut in der Lage, zentrale Lebensereignisse (etwa den Hochzeitstag oder die Geburt der Kinder) oder häufig abgefragte Informationen (etwa Zeit und Ort des letzten Schulabschlusses) auch nach längeren Zeiträumen verlässlich zu erinnern. Fragt man aber nach weniger bedeutsamen oder nur selten abgefragten Informationen (etwa der Anzahl an Restaurantbesuchen im vergangenen Halbjahr), so wird man hier selbst in kürzeren Zeiträumen deutlich unzuverlässigere Informationen erhalten, die mehr auf einer Schätzung als auf der konkreten Erinnerung beruhen. Ebenso können
Forschungsdesign
55
bei der Vorgabe von spezifischen Berichts-Zeiträumen (»im letzten halben Jahr«, in den vergangenen zehn Jahren) die Häufigkeiten von bestimmten Ereignissen durch Vor- oder Rückdatierung leicht unter- oder überschätzt werden (vgl. Schnell 2019: 31 ff.). Durch bestimmte Hilfen – etwa durch den Verweis auf wichtige historische oder persönliche Ereignisse (»vor bzw. nach der deutschen Wiedervereinigung«, »vor bzw. nach der Geburt der Kinder«) – können die Befragten in ihrer Erinnerung unterstützt werden. Gleichwohl stellen auch bei derartigen Hilfestellungen »Vergessens-Effekte« oder Datierungsfehler für retrospektive Erhebungen eine bedeutsame Einschränkung dar. Grundsätzlich problematisch sind retrospektive Fragen bei der Erhebung von Einstellungen und subjektiven Befindlichkeiten. Die Lebenszufriedenheit vor einem Jahr mag durchaus ein wesentlicher Einflussfaktor für die gegenwärtige Lebenszufriedenheit sein. Retrospektiv lässt sie sich jedoch kaum erfragen, da hier meist eine nachträgliche Anpassung an den Ist-Zustand stattfindet. Ist man beispielweise gegenwärtig mit seinem Leben sehr zufrieden, wird man eine frühere Unzufriedenheit eventuell verzerrt darstellen, indem man sie an den heutigen Zustand anpasst (und damit zu positiv darstellt) oder vom heutigen Zustand abgrenzt (und damit zu negativ darstellt). Die Anwendbarkeit retrospektiver Querschnittsdesigns empfiehlt sich somit nur bei leicht und zuverlässig erinnerbaren Informationen, die nicht in allzu großer zeitlicher Vergangenheit liegen. Darüber hinaus sollte bei Interesse an zeitlichen Verläufen – soweit möglich – auf längsschnittliche Designs mit mehreren Erhebungszeitpunkten zurückgegriffen werden, die im Folgenden näher erläutert werden. MERKEN Querschnittsdesigns basieren auf einer einmaligen Erhebung einer oder mehrerer interessierender Variablen. Bei leicht und zuverlässig erinnerbaren Informationen können sie zudem durch Retrospektivfragen ergänzt werden. Sie eignen sich insbesondere für deskriptive Studien und die Untersuchung tagesaktueller Fragestellungen. In der Zusammenhangsanalyse ist ihre Aussagekraft begrenzt, zur Rekonstruktion kausaler Zusammenhänge können sie streng genommen nicht verwendet werden.
Längsschnittliche Designs: Trenddesign
Vielfach ist man in der empirischen Sozialforschung nicht ausschließlich an gegenwärtigen Momentaufnahmen interessiert, sondern will allgemeinere gesellschaftliche Trends in ihrem zeitlichen Verlauf nachzeichnen. Sozialforscher*innen möchten die Lebensqualität
56
Von der Forschungsfrage zum Forschungsprojekt
der Bevölkerung nicht nur zu einem konkreten Zeitpunkt rekonstruieren, sondern wollen langfristige Entwicklungen der Lebensqualität, etwa in wirtschaftlich angespannten und florierenden Zeiten, nachzeichnen. Familienpolitik-Forschende möchten überprüfen, inwiefern eine Reform – etwa der Ausbau von Kinderbetreuungseinrichtungen – tatsächlich nach Einführung zu einer höheren Beteiligung von jungen Müttern mit Kindern im Vorschulalter am Erwerbsleben beigetragen hat. Sozialpolitische Akteure möchten überprüfen, ob die durchschnittliche Betroffenheit von Armut in der Gesamtbevölkerung seit der Wirtschaftskrise zugenommen hat. In den oben genannten (und vielen anderen) Fällen bietet sich die Verwendung eines sogenannten Trenddesigns an. Abbildung 3.3 verdeutlicht die Logik eines solchen Trenddesigns. Im Gegensatz zu Querschnittserhebungen werden hierbei nicht nur eine, sondern mehrere Datenerhebungen in bestimmten Zeitabständen bei der interessierenden Zielgruppe durchgeführt, um eine Entwicklung im Zeitverlauf nachzeichnen zu können. Hierbei werden die wiederholten Befragungen nicht notwendigerweise bei identischen Befragungspersonen durchgeführt; mitunter ist das im Erhebungskontext auch nicht zweckmäßig. So beziehen sich etwa Erhebungen zur Erwerbstätigkeit von Müttern mit Kindern im Vorschulalter jeweils auf diese (in ihrer Zusammensetzung wechselnde) Zielgruppe. Untersuchungen zur Verbreitung von Armut oder zur Lebensqualität beziehen die entsprechende Gesamtbevölkerung zum jeweiligen Erhebungszeitpunkt – etwa der Bundesrepublik Deutschland – in ihre Analysen ein.
Abbildung 3.3: Trenddesign (schematische eigene Darstellung)
Grundlage für einen belastbaren Vergleich ist, dass jeweils die untersuchte Zielgruppe zwischen den Zeiträumen in ihrer Zusammensetzung vergleichbar ist. Belastbare Wahlumfragen sollten sich immer auf eine sogenannte »repräsentative« Auswahl der wahlberechtigten Bevölkerung (vgl. Kapitel 3.2) beziehen, wiederholte Armutsmessungen auf eine entsprechende Auswahl aus der Gesamtbevölkerung. Ebenso sollten die Fragen zwischen den verschiedenen Erhebungszeitpunkten in identischer Form gestellt werden, um deren Ergebnisse miteinander vergleichen zu können. Trenddesigns basieren meist auf wiederholten, identischen Querschnittsbefragungen und werden dementsprechend oft auch als »replikative Surveys« bezeichnet.
Forschungsdesign
57
Ein Beispiel für eine Trend-Studie in Deutschland ist etwa die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS; https://www.gesis.org/allbus/; vgl. z. B. Koch und Wasmer 2004 für einen Überblick), die seit 1980 in zweijährigem Turnus jeweils eine Repräsentativbefragung der erwachsenen Wohnbevölkerung in den alten und neuen Bundesländern durchführt. Neben von Erhebungswelle zu Erhebungswelle rotierenden themenspezifischen »Schwerpunktmodulen« werden eine Reihe von sozialstatistischen Informationen (etwa zu Familie, Gesundheit oder Arbeitsmarkt) in jeder Befragung erhoben und erlauben damit einen Vergleich wichtiger sozialer Indikatoren im Zeitverlauf. Auch die zuvor erwähnten Politbarometer-Befragungen beinhalten mehrere wiederkehrende Fragen, die monatlich erhoben werden und somit beispielsweise einen sehr detaillierten Vergleich der Wahlabsichten oder der Beliebtheit von Politikern und Politikerinnen im Zeitverlauf erlauben. MERKEN Trenddesigns basieren auf der mehrfachen Erhebung identischer Variablen zu verschiedenen Erhebungszeitpunkten. Hierbei werden von Erhebungszeitpunkt zu Erhebungszeitpunkt unterschiedliche Ausschnitte aus der Zielgruppe erhoben; die Erhebung erfolgt somit meist bei unterschiedlichen Befragten. Bei jeweils repräsentativer Erhebung und identischen Fragen eignen sich Querschnittsdesigns zur detaillierten Nachzeichnung von aggregierten Trends und Entwicklungen.
Längsschnittliche Designs: Paneldesign
In den vorangegangenen Beispielen interessierten wir uns jeweils für Entwicklungsmuster bei gesellschaftlichen Aggregaten, d. h. Großgruppen. Es sollte untersucht werden, wie sich die Lebensqualität der Bevölkerung zwischen verschiedenen Erhebungszeitpunkten unterscheidet, wie sich die Erwerbsteilnahme der Großgruppe von Frauen mit Vorschulkindern im Zuge des Ausbaus der Kinderbetreuung verändert hat oder ob die bundesweite Armutsquote in Deutschland seit der Wiedervereinigung angestiegen ist. Änderungen auf persönlicher Ebene standen dabei nicht im Fokus: Es sollte also nicht untersucht werden, ob sich beispielsweise individuelle Wahlabsichten von Erhebungswelle zu Erhebungswelle ändern. Individuelle Veränderungen können jedoch an anderen Stellen durchaus von Belang sein. Bei Evaluationsdesigns ist man beispielsweise gerade daran interessiert, ob eine sozialarbeiterische Maßnahme bei zuvor erwerbslosen Personen bei genau diesen Personen zu einem Wiedereintritt in den Arbeitsmarkt beigetragen hat. Ebenso mag es aus
58
Von der Forschungsfrage zum Forschungsprojekt
sozialpolitischer Sicht nicht nur von Belang sein, wie sich die gesellschaftsweite Armutsquote seit Ausbruch der Wirtschaftskrise verändert hat, sondern ebenso, wie viele Personen seitdem unter dauerhafter Langzeitarbeitslosigkeit leiden. Um dies abzuschätzen, müssten auch hier mehrere Messungen des Erwerbsstatus bei der identischen Person zu mehreren Zeitpunkten vorgenommen werden. Derartige Studien, die eine solche mehrmalige Erhebung von individuellen Veränderungen (statt Veränderungen im Aggregat) durch eine mehrmalige Erhebung identischer Variablen bei derselben Person anstreben, bezeichnet man als Panelstudien. Abbildung 3.4 verdeutlicht schematisch die Logik dieses Untersuchungsdesigns.
Abbildung 3.4: Paneldesign (schematische eigene Darstellung)
Panelstudien stellen von den drei skizzierten Forschungsdesigns diejenige mit dem weitaus höchsten Analysepotenzial dar. Werden sie mit Hilfe eines geeigneten Auswahlverfahrens regelmäßig und über lange Zeiträume hinweg durchgeführt, erlauben sie es, nicht nur gesellschaftliche Trends, sondern auch individuelle Lebens- und Entwicklungsverläufe detailliert und ohne die zuvor diskutierten, bei Retrospektivstudien bekannten Erinnerungsprobleme nachzuzeichnen. Durch die mehrmalige Erhebung von Daten identischer Personen ermöglichen sie es zudem, die zeitliche Abfolge von Ursache und Wirkung empirisch zu rekonstruieren und damit – im Gegensatz zu Querschnittstudien – kausale Zusammenhänge zu überprüfen. Die in Deutschland bekannteste Panelstudie stellt das Sozio-ökonomische Panel (SOEP; https://www.diw.de/soep; vgl. auch Schupp 2009) dar, das seit 1994 jährlich auf repräsentativer Basis bis zu 11.000 Haushalte bzw. 30.000 Befragte wiederholt zu allgemeinen Themen wie Einkommen, Erwerbstätigkeit und Gesundheit befragt. Das 2009 gestartete »Nationale Bildungspanel« (NEPS; https://www.neps-data.de/; vgl. z. B. Blossfeld, von Maurice und Schneider 2019) ergänzt diese Globalumfrage um detaillierte Daten zu Bildungs- und Ausbildungsverläufen von der frühen Kindheit bis hin zum Ruhestand. Neben diesen befragungsbasierten Panelstudien gewinnen sogenannte prozessproduzierte Längsschnittdaten der öffentlichen Verwaltung für die empirische Sozialforschung zunehmend an Bedeutung. Eine Reihe politischer Organisationen sammeln im Rahmen ihres politischen Auftrags detailliert Daten für die Erfüllung ihrer Aufgaben. Die Renten-
Forschungsdesign
59
versicherung sammelt beispielsweise auf Basis von Meldungen der Arbeitgeber oder anderer Fachministerien kontinuierlich Informationen zum Verlauf der Erwerbskarriere, zum Verdienst aus abhängiger Beschäftigung, zu familien- oder studienbedingten Erwerbsunterbrechungen etc., um hieraus die individuellen Rentenanwartschaften im Alter berechnen zu können. Da dies auf personenbezogener Ebene geschehen muss und die Erhebung regelmäßig erfolgt, weisen auch diese Daten Panelformat auf. Solche Datenbestände der öffentlichen Verwaltung werden in zunehmendem Maße auch der wissenschaftlichen Forschung zur Verfügung gestellt. Die Studie »Vollendete Versichertenleben« der Deutschen Rentenversicherung (VVL) beinhaltet beispielsweise umfangreiche längsschnittliche Informationen zu individuellen Merkmalen sowie den im Zeitverlauf erworbenen Rentenanwartschaften durch Erwerbstätigkeit oder andere Anspruchsgründe, die eine detaillierte Rekonstruktion von Lebens- und Erwerbsverläufen bis zur Rente ermöglichen (vgl. z. B. Söhn und Mika 2017). Andere staatliche Behörden (wie etwa die Bundesagentur für Arbeit oder die Statistischen Ämter des Bundes und der Länder) stellen ebenfalls zunehmend Teile ihrer längsschnittlichen Datenbestände wissenschaftlicher Forschung zur Verfügung; ein Prozess, der durch den sogenannten Rat für Sozial- und Wirtschaftsdaten (RatSWD) begleitet wird (ein kontinuierlich aktualisierter Überblick über die Daten findet sich unter: https:// www.ratswd.de/forschungsdaten/fdz). In Ergänzung zu »klassischen« Befragungsdaten stellen diese Datenbestände eine zunehmend relevante Quelle für die Sozialforschung dar. MERKEN Panelstudien beruhen auf der mehrfachen Erhebung identischer Variablen bei denselben Personen bzw. Untersuchungseinheiten. Sie sind vergleichsweise aufwendig, ermöglichen aber bei regelmäßiger Durchführung die detaillierte Nachzeichnung individueller Lebensverläufe sowie die Analyse komplexer kausaler Zusammenhänge.
Trotz ihrer unbestreitbaren Stärken in der Nachzeichnung individueller Entwicklungsverläufe und der Analyse kausaler Zusammenhänge weisen Panelstudien gleichzeitig jedoch auch einige Probleme auf: Ȥ Panelstudien sind vergleichsweise aufwendig und setzen umfangreiche finanzielle und personelle Ressourcen voraus. Entgegen dem Querschnitts- und Trenddesign müssen bei Panelstudien nicht Personen einer zufälligen Gruppe, sondern möglichst immer dieselben Personen befragt werden. Dies setzt voraus, dass Kontaktmöglichkeiten detailliert festgestellt und Kontakte zu diesen Personen kontinuierlich gehalten werden. Insbesondere bei Umzügen der Befragungspersonen kann ein solches »Tracking« der Befragungspersonen einen hohen zeitlichen und finanziellen Aufwand mit sich bringen.
60
Von der Forschungsfrage zum Forschungsprojekt
Ȥ Ein großes Problem der Panelforschung stellt der spätere »Ausstieg« von Panelteilnehmern aus der Befragung – die sogenannte »Panelmortalität« – dar. Dieser kann zum einen »natürlich« erfolgen, indem Panelteilnehmer*innen zwischen zwei Befragungswellen versterben. Mobile Panelteilnehmer*innen, deren neue Kontaktdaten sich auch nach einem umfangreichen Tracking nicht eruieren lassen, können ebenfalls zur Panelmortalität beitragen. Schließlich können Panelmitglieder die Teilnahme an weiteren Befragungswellen verweigern. Ein derartiger Ausstieg aus der Panelbefragung verringert nicht nur die allgemeine Fallzahl der Studie, sondern kann auch dann problematisch sein, wenn er bei bestimmten Befragungsgruppen überdurchschnittlich hoch ausfällt und diese damit in der Befragung zunehmend unterrepräsentiert sind. Panelstudien bemühen sich daher meist um eine intensive »Pflege« ihrer Teilnehmer*innen, etwa durch regelmäßige Kontaktaufnahme, die Erhöhung des Interesses durch Zwischenberichte oder die direkte Vergabe von finanziellen Anreizen für die Panelteilnahme. Tabelle 3.1 fasst die Charakteristika der verschiedenen Designs noch einmal zusammen. Das Querschnittsdesign beruht als einzige Designform auf einer einmaligen Erhebung von Daten. Es ist damit das vergleichsweise kostengünstigste und aufwandsärmste der drei Verfahren. Häufig kommt es bei Umfragen zu tagesaktuellen Themen zur Anwendung. Es eignet sich entsprechend besonders für deskriptive Analysen, kommt aber auch – wenn Längsschnittdaten fehlen – in der hypothesentestenden Forschung zur Anwendung. Es ist dann zu beachten, dass kausale Beziehungen mit nur einem Erhebungszeitpunkt meist nicht adäquat untersucht werden können. Die Erweiterung von Querschnittsdesigns durch Retrospektivfragen ist möglich, beschränkt sich aber auf leicht erinnerbare Charakteristika bzw. Lebensverlaufsereignisse. Für experimentelle Designs bzw. über eine reine Beschreibung hinausgehende Evaluationen sind Querschnittsdesigns nicht geeignet. Tabelle 3.1: Forschungsdesigns nach Erhebungshäufigkeit und Erhebungsobjekt (eigene Darstellung) Erhebungszeitpunkt einmalig
Erhebungsobjekte
mehrmalig
unterschiedlich
Trend
X
X
Panel
X
Querschnitt
identisch
X X
Trend- und Panelstudien zählen beide zu den längsschnittlichen Designformen, da sie auf einer mehrmaligen Erhebung derselben Variablen beruhen. Das Trenddesign erhebt diese Variablen wiederholt bei vergleichbaren Bevölkerungsgruppen, nicht jedoch bei identischen Befragungspersonen. Vielmehr werden wiederholt ähnliche Befragungsgruppen
Auswahlverfahren
61
ausgewählt. Trendstudien eignen sich besonders für die Beschreibung von aggregierten Trends im Zeitverlauf. Da es sich hier meist um wiederholte Querschnittsbefragungen handelt, sind kausale Zusammenhangsanalysen im strengen Sinne nicht möglich, ebenso wie deren Verwendung in Evaluationsstudien, wenn diese auf eine individuelle Veränderung (und nicht auf eine Änderung im Aggregat) abzielen. Panelstudien basieren schließlich auf der wiederholten Befragung identischer Personen. Sie können, ebenso wie Trendstudien, zur Beschreibung gesellschaftlicher Trends verwendet werden. Darüber hinaus ermöglichen sie aber auch die Beschreibung von Veränderungen auf individueller Ebene. Durch die Erhebung von Variablen zu verschiedenen Erhebungszeitpunkten eignen sie sich entsprechend auch für die Analyse komplexer Ursache-Wirkungs-Beziehungen sowie für Evaluationsstudien.
3.2 Auswahlverfahren Gehen wir davon aus, Sie sind sich über Ihre Forschungs-Fragestellung im Klaren und haben ggf. bereits grundlegende Hypothesen für Ihre Bearbeitung entwickelt. Sie haben sich zudem gut begründet für ein konkretes Forschungsdesign entschieden. Sie planen nun, eine empirische Erhebung durchzuführen, die es Ihnen ermöglicht, verallgemeinerbare Aussagen hinsichtlich Ihrer Forschungsfragestellung für die Sie interessierenden Zielgruppen zu treffen. Wen sollen Sie aber nun befragen? Und wie können Sie sicherstellen, dass die Auswahl der Befragungspersonen tatsächlich verlässliche Rückschlüsse auf Ihre Zielgruppe zulässt? Mit den Problemen und Möglichkeiten einer solch adäquaten Selektion von Befragungsteilnehmer*innen beschäftigen sich die sogenannten Auswahlverfahren, die im Mittelpunkt dieses Teilkapitels stehen. In einem ersten Schritt werden wir uns zunächst mit grundlegenden Begrifflichkeiten und den basalen Grundfragen derartiger Verfahren vertraut machen (Abschnitt 3.2.1). Wir diskutieren anschließend drei etablierte Möglichkeiten der Durchführung von Auswahlen, die sogenannte willkürliche Auswahl (3.2.2), die bewusste Auswahl (3.2.3) sowie zufallsbasierte Auswahlverfahren (3.2.4). Eine kritische Diskussion dieser Verfahren hinsichtlich der Umsetzung in der Forschungspraxis rundet dieses Kapitel ab (3.2.5). 3.2.1 Das Grundprinzip von Auswahlverfahren Um eine für Ihre zu untersuchende Zielgruppe angemessene Auswahl von Befragungspersonen zu treffen, müssen Sie sich zunächst genau über die Eigenschaften dieser Zielgruppe im Klaren sein. Es empfiehlt sich demnach, vor Beginn einer empirischen Forschung die Untersuchungsgruppe klar und trennscharf zu definieren: Wer gehört zu Ihrer Zielgruppe,
62
Von der Forschungsfrage zum Forschungsprojekt
wer nicht? Bei der Abfrage von Wahlpräferenzen für die kommende Bundestagswahl wäre es inhaltlich beispielsweise nicht zielführend, die gesamte Wohnbevölkerung zu befragen. Im Mittelpunkt stünde hier die »wahlberechtigte Bevölkerung«. Personen, die noch nicht die Volljährigkeit erreicht haben, die nicht die deutsche Staatsbürgerschaft besitzen und weniger als drei Monate in Deutschland wohnhaft sind, müssten entsprechend durch einleitende Kontrollfragen aus Ihrer Befragung ausgeschlossen werden. Möchten Sie die Auswirkungen des Ausbaus der vorschulischen Kinderbetreuung in Deutschland auf die Erwerbsbereitschaft von Müttern untersuchen, so würden zu Ihrer Zielgruppe vermutlich nur Mütter mit Kindern im Vorschulalter zählen usw.
Grundgesamtheit
Stichprobe
Grundgesamtheit
Ausschnitt
Rückschluss
Stichprobe Abbildung 3.5: Stichprobe und Grundgesamtheit (eigene Darstellung)
Die Zielgruppe Ihrer Untersuchung wird in der Literatur meist als Grundgesamtheit bezeichnet. Sie umfasst »diejenige Menge von Individuen, Fällen, Ereignissen […], auf die sich die Aussagen der Untersuchung beziehen sollen und die im Hinblick auf die Fragestellung und die Operationalisierung vorher eindeutig abgegrenzt werden muss« (Kromrey/ Strübing 2009: 255). Auch innerhalb dieser eingeschränkten theoretischen Grundgesamtheit werden nicht immer alle Befragungspersonen tatsächlich erreichbar sein. Ausgeschlossen wären in den beiden obigen Beispielen beispielsweise Personen, die prinzipiell zwar zur Grundgesamtheit zählen, sich derzeit jedoch in Krankenhäusern oder Haftanstalten befinden bzw. zum Befragungszeitpunkt auf einer längeren Auslandsreise sind. Bei großen Bevölkerungsumfragen fallen solche Unterschiede zwischen der theoretischen Grundgesamtheit und der praktisch erreichbaren Auswahlgesamtheit meist nicht stark ins Gewicht. Trotzdem lohnt es sich, mögliche Gründe eines prinzipiellen Ausfalls vorher kritisch zu überprüfen (es wäre beispielweise wenig sinnvoll, eine Befragung von jungen Familien mitten in den Schulferien durchzuführen). Die Entwicklung von Auswahlverfahren ist deshalb nötig, da es meist nicht möglich sein wird, eine Erhebung für alle relevanten Untersuchungseinheiten der Grundgesamtheit (eine sogenannte Vollerhebung) durchzuführen. Dies wird lediglich bei vergleichsweise kleinen Gruppen – etwa der Befragung eines von der Teilnehmerzahl
Auswahlverfahren
63
her überschaubaren Seminars in Ihrem Studiengang – realisierbar sein. Bei größeren Gruppen – etwa der Wahlbevölkerung – werden Sie sich aus organisatorischen und finanziellen Gründen hingegen auf einen kleinen Ausschnitt der Zielgruppe beschränken müssen. Dieser Ausschnitt wird in der Literatur meist Stichprobe genannt und bezeichnet »eine Teilmenge aller Untersuchungsobjekte […], die die untersuchungsrelevanten Eigenschaften der Grundgesamtheit möglichst genau abbilden soll« (Bortz und Schuster 2010: 80). Die Stichprobe stellt somit einen Ausschnitt der Grundgesamtheit dar, der allerdings so ausgewählt werden soll, dass er inhaltlich einen Rückschluss auf die Grundgesamtheit zulässt (vgl. Abbildung 3.5). Bortz und Schuster (2010) sprechen in diesem Zusammenhang davon, dass die Stichprobe bezüglich der für die Forschungsfrage relevanten Eigenschaften der Befragten ein »Miniaturbild« der Grundgesamtheit darstellen soll: Trotz ihrer geringeren Größe soll sie von der Grundgesamtheit in den für die Untersuchung relevanten Eigenschaften nicht maßgeblich abweichen. Es sollte also nach Möglichkeit jeder Personengruppe der Grundgesamtheit die Teilnahme an der Untersuchung möglich sein. Mit anderen Worten: Keine Personengruppe der Grundgesamtheit sollte von der Teilnahme an der Untersuchung in irgendeiner Weise ausgeschlossen werden. Wenn dies gegeben ist – also jeder Befragte aus der Grundgesamtheit eine prinzipiell vergleichbare Chance hat, an der Befragung teilzunehmen – spricht man von der Repräsentativität einer Stichprobe. MERKEN Eine Stichprobe stellt eine begrenzte Auswahl der Erhebungseinheiten Ihrer Zielgruppe, der Grundgesamtheit, dar. Eine Stichprobe lässt dann Rückschlüsse auf die Grundgesamtheit zu, wenn sie in den für die Forschungsfrage relevanten Eigenschaften der Befragten ein »Miniaturbild« der Grundgesamtheit darstellt, diese also dort in gleichem Maße repräsentiert sind.
Auswahlverfahren sind nun nichts anderes als mehr oder weniger systematische Verfahren, die bestimmte »Regeln zur Konstruktion von solchen Stichproben angeben« (Schnell, Hill und Esser 2008: 271). Wir werden die drei bekanntesten Verfahren hierzu im Folgenden darstellen, die willkürliche, die bewusste und die zufällige Auswahl. Als Beispiel hierfür soll ein studiennahes Beispiel dienen: Wir gehen davon aus, Sie möchten eine Befragung an Ihrer Universität oder Hochschule durchführen, die die Zufriedenheit der Studierenden mit den vorhandenen Räumlichkeiten thematisieren soll. Wie können Sie eine Auswahl von Befragungspersonen treffen, die es Ihnen ermöglicht, belastbare Aussagen für alle Studierenden Ihrer Hochschule vorzunehmen?
64
Von der Forschungsfrage zum Forschungsprojekt
3.2.2 Willkürliche Auswahlverfahren Eine vielleicht zunächst naheliegende Möglichkeit, um für die beschriebene hochschulweite Umfrage möglichst viele Studierende zu erreichen, bestünde darin, sich an einem zentralen Platz Ihrer Hochschule, ggf. mit mehreren Interviewer*innen, zu positionieren und die dort ankommenden Studierenden zu befragen. Nehmen wir also an, Sie stellen sich vor die Mensa Ihrer Universität und befragen die dort eintreffenden Studierenden. Führt dieses Vorgehen zu einer verlässlichen und belastbaren Stichprobe? Vermutlich nicht: Nicht jeder Student/jede Studentin wird beispielsweise das Mittagessen in der Mensa einnehmen wollen, manch eine*r mag eher das hippe italienische Bistro um die Ecke, andere ziehen das vegane Suppenrestaurant in der Stadtmitte vor. Personen, die nicht »dem Mensageschmack entsprechen« gelangen somit vermutlich nicht in Ihre Stichprobe. Ebenso nehmen unter Umständen junge Väter oder Mütter mit Betreuungsverpflichtungen nicht an Ihrer Befragung teil, da sie bereits vor der Mittagspause die Universität verlassen. Ähnliches gilt für Studierende, die sich im Urlaubssemester befinden oder am Erhebungstag keine Veranstaltungen besuchen usw. Bestimmte Personengruppen werden somit aus Ihrer Studie systematisch ausgeschlossen, deren Charakteristika durchaus »untersuchungsrelevante Eigenschaften« darstellen könnten. Sowohl die Besucher*innen des »Bistros« als auch die an veganem Essen orientierten Studierenden mögen spezifische Präferenzen hinsichtlich der räumlichen Ausstattung Ihrer Universität haben. Junge Eltern wünschen sich evtl. eine großzügiger gestaltete Kindertagesstätte oder einen ebenerdigen und barrierefreien Zugang zur universitätsnahen U-Bahn-Haltestelle usw. Auswahlverfahren wie das oben beschriebene werden meist als »willkürliche Auswahlen« bezeichnet. Der in der englischen Literatur übliche Begriff des convenience samples – convenience lässt sich im Deutschen etwa mit »Bequemlichkeit« oder »Komfort« übersetzen – macht deutlich, worum es hierbei geht. Forscher*innen folgen in der Rekrutierung ihrer Untersuchungsobjekte keiner erkennbaren Systematik, und »machen es sich bequem«, indem sie einen für sie leicht erreichbaren Ort für ihre Befragung wählen. Wie gezeigt, werden dadurch aber meist größere Personengruppen systematisch von der Teilnahme an der Studie ausgeschlossen. Ein derartiges Vorgehen ist zum Einfangen von Schlaglichtern ggf. für illustrative Zwecke sinnvoll, ein belastbarer Rückschluss auf die Grundgesamtheit lässt sich so aber nicht ziehen. MERKEN Willkürliche Auswahlverfahren basieren auf einer Auswahl der Untersuchungsobjekte ohne erkennbare Systematik und vorgegebenen Auswahlplan. Sie eignen sich nicht zur Konstruktion repräsentativer Stichproben.
Auswahlverfahren
65
3.2.3 Bewusste Auswahlverfahren Bewusste Auswahlverfahren unterscheiden sich von willkürlichen Auswahlverfahren dadurch, dass sie bei der Auswahl von Untersuchungspersonen durchaus systematischen, von Forscher*innen festgelegten Kriterien folgen. Sie könnten beispielweise Ihre Kommiliton*innen bitten, Ihren Fragebogen zur räumlichen Ausstattung der Universität auszufüllen und ihn an fünf Studienfreunde weiterzureichen. Eventuell sollen diese dann den Fragebogen an fünf weitere Studierende weitergeben usw. Dieses auf persönlichen Netzwerken beruhende sogenannte Schneeballverfahren verfolgt wesentlich deutlicher einen systematischen Erhebungsplan als die zuvor skizzierte »Mensabefragung«. Es weist jedoch ebenfalls hinsichtlich der »Repräsentativität« für die Grundgesamtheit erkennbare Probleme auf. So werden Ihre Kommiliton*innen (und deren Freund*innen) ggf. dasselbe oder ein ähnliches Fach studieren wie Sie (z. B. Soziale Arbeit oder Sozialpädagogik), sich häufig in einem vergleichbaren Semester befinden oder ähnliche Hobbys und Freizeitaktivitäten verfolgen wie Sie (z. B. bestimmte sportliche Aktivitäten und/oder politisches Engagement). Personen, die sich in den genannten Eigenschaften von Ihnen und Ihrem Freundeskreis deutlich unterscheiden, werden voraussichtlich nur in geringem Maße in der Stichprobe vorkommen. Ebenso würden Personen, die nur über ein kleines Freundschaftsnetzwerk verfügen, wenige Möglichkeiten haben, in Ihre Stichprobe zu gelangen, während besonders kontaktfreudige Personen darin vermutlich überdurchschnittlich häufig auftauchen würden (Gabler 1992: 53). Da Schneeballverfahren somit die Selektion spezifischer Personen befördern und andere Personen weitgehend ausschließen, erreichen sie meist keine Repräsentativität. Eine mögliche Alternative zur oben beschriebenen Auswahl mittels Schneeballverfahren bestünde in der eigenen Formulierung spezifischer Auswahlkriterien. So könnten Sie beispielsweise bestrebt sein, darauf zu achten, dass in Ihrer universitätsweiten Stichprobe zum einen »typische« Student*innen vorkommen (die z. B. ein Vollzeitstudium absolvieren, regelmäßig ihre Veranstaltungen besuchen und das Studium in der vorgesehenen Regelstudienzeit abschließen). Gleichzeitig würden Sie darauf achten, auch besondere »Spezialfälle« in Ihre Stichprobe aufzunehmen, wie etwa den bereits im zwölften Studiensemester befindlichen »Langzeitstudierenden«, Studierende im Teilzeitstudium oder Teilnehmer des Programms »Studierende ab 50«. Im Gegensatz zum Schneeballverfahren würden Sie hier – insbesondere dann, wenn Sie über eine gute Kenntnis der verschiedenen »Studierendentypen« verfügen – eine ausgewogenere Stichprobe erhalten. Allerdings wäre die Auswahl stark subjektiv geprägt. Es wäre nicht sichergestellt, dass die von Ihnen vorgenommene Unterscheidung von »typischen« und »speziellen« Fällen die tatsächliche Studienrealität widerspiegelt. Vielleicht sind – entgegen Ihrer Vermutung – ganz andere Studienmuster »typisch« oder »speziell«. Selbst bei einer angemessenen Unterscheidung
66
Von der Forschungsfrage zum Forschungsprojekt
von Typen bestünde ein weiteres Problem darin, deren Proportionen zu quantifizieren. Wie häufig tritt beispielsweise der »typische Studierende« auf und wie selten sind die oben beschriebenen »Spezialfälle«? Diese Problemlagen stellen auch hier die Repräsentativität der erzielten Stichprobe grundsätzlich in Frage. Eine Möglichkeit, der »subjektiven Komponente« der oben beschriebenen kriteriengebundenen Auswahl zu begegnen, bestünde schließlich darin, sich objektive Informationen über Ihre Zielgruppe – die Studierenden Ihrer Universität bzw. Hochschule – zu beschaffen. Sie könnten beispielsweise an die Statistikabteilung Ihrer Lehrstätte herantreten und dort um einige wesentliche Informationen zur Zusammensetzung der Studierenden bitten. Sie würden dort beispielsweise erfahren, dass das Geschlechterverhältnis an Ihrer Hochschule ausgewogen ist (50 % männliche und 50 % weibliche Studierende) und die Anzahl der Personen in den sozial- und gesellschaftswissenschaftlichen Studiengängen (40 %) die Anzahl in den technischen (30 %) und geisteswissenschaftlichen Studiengängen (30 %) deutlich übersteigt. Ebenso würde Ihnen mitgeteilt, dass etwa die Hälfte der Studierenden (48 %) 18–24 Jahre alt ist, weitere 32 % 25–34 Jahre und lediglich 20 % der Studierenden ein Alter von 35 Jahren und mehr aufweisen. Diese Informationen könnten Sie nutzen, um Ihre Stichprobe entsprechend so zu gestalten, dass auch in ihr die Verhältnisse im Hinblick auf Geschlecht, Studiengang und Alter denen Ihrer Grundgesamtheit – den Studierenden Ihrer Hochschule – entsprechen. In der Praxis wird die konkrete Zusammenstellung solcher Vorgaben nicht unbedingt einfach sein. Große Umfrageinstitute verwenden hierfür ausgeklügelte Quotenpläne, die jedem ihrer Interviewer*innen genaue Vorgaben machen, welche Eigenschaftskombinationen die auszuwählenden Zielpersonen aufweisen sollen. Entsprechend wird ein solches Verfahren auch oftmals als Quotenstichprobe bezeichnet. In jedem Fall scheint auf den ersten Blick der zuvor aufgestellten Erwartung, dass die Stichprobe »ein Miniaturbild der Grundgesamtheit« darstellt (vgl. Abschnitt 3.2.1), ausreichend Rechnung getragen worden zu sein. In der zuvor aufgestellten Definition von Repräsentativität wurde gleichwohl erwartet, dass mittels der Stichprobe ein Miniaturbild der Grundgesamtheit bezüglich der für die Forschungsfrage relevanten Eigenschaften der Befragten erreicht wird. Können Sie tatsächlich sicher sein, dass die zuvor genannten Eigenschaften Geschlecht, Studiengang und Alter die einzigen und zentralen Eigenschaften für Ihre Forschungsfrage darstellen? Mit Blick auf die räumliche Ausstattung wäre es zum Beispiel denkbar, dass der persönliche Gesundheitszustand oder die Frage, ob Studierende parallel Kinderbetreuungsaufgaben haben, sich maßgeblich auf deren Erwartungen an die räumliche Ausstattung der Hochschule auswirken. Wird den Interviewer*innen diesbezüglich keine klare »Quotenvorgabe« gegeben, könnten solche Personen in der Stichprobe eventuell nicht angemessen repräsentiert sein. Derartige zusätzliche Kriterien ließen sich nun natürlich (bei Vorliegen entsprechender Vergleichsdaten) auch in spezifische Quotenvorgaben integrieren. Hierdurch
Auswahlverfahren
67
würde jedoch zum einen die konkrete Auswahl von Untersuchungspersonen aufwendiger, da nun mehrere Quotenvorgaben gleichzeitig erfüllt werden müssen. Zum anderen wäre auch dann nicht sichergestellt, dass die Vorgaben wirklich alle untersuchungsrelevanten Merkmale der Befragten abdecken. MERKEN Bewusste Auswahlverfahren beruhen im Gegensatz zu den willkürlichen Verfahren auf einer erkennbaren Systematik der Auswahl nach vom Forscher zuvor festgelegten Kriterien. Beispiele sind das Schneeballverfahren, die Festlegung »typischer« und »untypischer Gruppen« oder die Quotenauswahl. Keines der genannten Verfahren erreicht jedoch das notwendige Kriterium der Repräsentativität.
Quotenstichproben sind somit immer nur hinsichtlich der entsprechenden Quoten dimensionen ein »Miniaturbild« der Grundgesamtheit. Inwiefern sie jedoch »globale Repräsentativität« (also Repräsentativität im Hinblick auf alle denkbaren relevanten Untersuchungsmerkmale) erreichen, bleibt fraglich. Ihre Anwendung erscheint somit nur bei Forschungsthemen sinnvoll, in denen aus theoretischen Vorarbeiten eine sehr genaue Kenntnis relevanter Einflussfaktoren auf das zu untersuchende Forschungsphänomen vorliegt. Ist dies der Fall, stellen sie meist in der Praxis eine kostengünstige Alternative zu den im Folgenden skizzierten Verfahren der zufälligen Auswahl von Untersuchungspersonen dar. 3.2.4 Zufällige Auswahlverfahren Die im Folgenden beschriebenen Auswahlverfahren zählen alle zu den sogenannten zufallsbasierten Verfahren. Sie stellen – im Gegensatz zu den zuvor diskutierten willkürlichen und bewussten Verfahren – die einzige Auswahlmethode dar, die grundsätzlich repräsentative Stichproben generieren kann. Ebenso wie die bewussten Auswahlverfahren folgen sie einer erkennbaren Systematik in der Auswahl der Untersuchungspersonen. Zentral ist hierbei jedoch, dass die Bildung der Stichprobe durch einen »kontrollierten Zufallsprozess« erfolgt, der eine unverzerrte Abbildung der Grundgesamtheit sicherstellt. Er sorgt dafür, dass jedes Element der Stichprobe »eine angebbare, von Null verschiedene Wahrscheinlichkeit [hat], in die Stichprobe aufgenommen zu werden« (Häder 2015: 149). Jedes Element hat also grundsätzlich die Möglichkeit, in die Stichprobe aufgenommen zu werden. Jedoch muss die Wahrscheinlichkeit nicht für alle Gruppen der Grundgesamtheit gleich hoch, sondern lediglich »angebbar« sein. Der zuvor skizzierte »typische Stu-
68
Von der Forschungsfrage zum Forschungsprojekt
dierende« sollte – so er in der Grundgesamtheit besonders häufig auftaucht und bei acht von zehn Studierenden zu finden ist – entsprechend häufig auch in der Stichprobe vorzufinden sein. Damit diese Proportionalität sichergestellt werden kann, erfolgt die Auswahl durch einen zufälligen Prozess. Der Begriff des »Zufalls« sollte dabei nicht mit dem zuvor verwendeten Begriff der »Willkür« verwechselt werden, auch wenn beide im deutschen Sprachgebrauch verhältnismäßig nahe beieinanderliegen (umgangssprachlich könnte man einem Lehrenden beispielsweise sowohl eine zufällige Entscheidung als auch persönliche Willkür unterstellen, wenn er/sie in einer Lehrveranstaltung einen Studierenden bittet, eine soeben gestellte Frage zu Auswahlverfahren in der Sozialforschung zu beantworten). Die im Englischen gebräuchlichen Begriffe machen hier die Unterscheidung deutlicher: Eine willkürliche Auswahl (convenience sample) beruht auf einer unsystematischen Auswahl, die primär an einer »bequemen«, leichten Realisierbarkeit ausgerichtet ist. Bei der zufälligen Auswahl (random sample; random ist im Englischen der Begriff für den »statistischen Zufall«) hingegen unterliegt die Auswahl einer strengen, vorab festgelegten Systematik, die sicherstellen soll, dass der Zufall – und nur der Zufall – die Auswahl der Befragungspersonen für die zu realisierende Stichprobe bestimmt. Im zuvor aufgegriffenen Beispiel der Befragung zur Qualität der Räumlichkeiten Ihrer Hochschule könnte man sich beispielsweise an die Hochschulleitung wenden und diese bitten, eine vollständige Liste aller Studierenden zur Verfügung zu stellen. Angenommen, deren Anzahl würde 10.000 betragen, könnte man dann per Zufall jede zehnte Person aus dieser Liste für die eigene Befragung auswählen, um eine Stichprobe von 1.000 Befragten zu erhalten. Durch die Tatsache, dass das einzige Kriterium für die Auswahl einer Befragungsperson deren Position in der Liste ist, werden alle anderen Auswahlmechanismen ausgeschlossen – die Auswahl erfolgt somit streng zufällig. Eine solche Auswahl wird üblicherweise als Listenauswahl bezeichnet. Sie ist für Fälle, in denen eine Liste aller Mitglieder der Grundgesamtheit vorliegt, optimal geeignet. Mögliche Anwendungsfelder wären etwa die Auswahl von Teilnehmer*innen eines bestimmten Dienstleistungsangebots, die Befragung von Teilnehmern einer Pflichtvorlesung oder der Mitglieder eines Sportvereins. Von zentraler Wichtigkeit für die Durchführung einer solchen Listenauswahl ist es, dass die Liste vollständig ist, um zu vermeiden, dass Personen von der Teilnahme an der Befragung ausgeschlossen werden. Bei der Vorlesungsbefragung sollte also sichergestellt werden, dass diese alle tatsächlichen Vorlesungsteilnehmer*innen enthält – ggf. auch jene, die erst zu einem späteren Zeitpunkt in die Vorlesung eingestiegen sind. Die Liste der Mitglieder eines Sportvereins sollte auch Neumitglieder enthalten usw. Ist dies alles der Fall, so stellt die Listenauswahl eine leicht realisierbare und gute Möglichkeit zur Zusammenstellung einer repräsentativen Stichprobe dar. In vielen Fällen werden Sie jedoch damit konfrontiert sein, dass eine solche Liste nicht vorliegt bzw.
Auswahlverfahren
69
Ihnen nicht zur Verfügung gestellt werden kann. Vermutlich würde Ihre Hochschulleitung Ihnen als Reaktion auf Ihre Anfrage mitteilen, dass die Herausgabe einer solchen Liste aus datenschutzrechtlichen Gründen leider nicht möglich ist und Ihnen entsprechend nicht geholfen werden kann. Was könnten Sie nun tun? Eine alternative Möglichkeit bestünde für Sie eventuell darin, ersatzweise an die Dekanate (oder die Studiengangsbeauftragten) Ihrer einzelnen Fakultäten heranzutreten und diese zu bitten, die von Ihnen erstellten Fragebögen nach dem Zufallsprinzip an Studierende ihrer jeweiligen Fakultäten zu verteilen. Sie müssten dann nicht selbst eine Studierendenliste erhalten, sondern könnten die Zufallsverteilung den einzelnen Fakultäten überlassen (selbstverständlich erst, nachdem Sie sich zuvor über eine angemessene Anwendung eines Zufallsmechanismus – siehe oben – geeinigt hätten). Ein solches Verfahren wird in der Forschungsliteratur meist als geschichtete Zufallsauswahl bezeichnet. In einem ersten Schritt teilen Sie Ihre Grundgesamtheit zunächst in verschiedene Untergruppen – oder »Schichten« – auf, im zuvor geschilderten Fall in die verschiedenen Fakultäten Ihrer Hochschule. Im zweiten Schritt wird dann innerhalb dieser einzelnen Schichten eine zufällige Auswahl realisiert (zum Beispiel durch das zuvor skizzierte Listenverfahren). Den Anforderungen der Repräsentativität wird dabei Rechnung getragen: Im ersten Schritt wird keine Untersuchungsperson von der Teilnahme an Ihrer Befragung ausgeschlossen – die einzelnen Studierenden werden lediglich in verschiedene Fächergruppen aufgeteilt. Im zweiten Schritt erfolgt dann die Auswahl durch ein Verfahren, in der nur der statistische Zufall Einfluss auf die Auswahl der Befragungspersonen hat. Die aus einem solchen Verfahren resultierende Stichprobe ist somit grundsätzlich repräsentativ. Hinsichtlich der konkreten Realisierung einer geschichteten Zufallsauswahl lassen sich zwei verschiedene Formen unterscheiden: die sogenannte disproportional und proportional geschichtete Stichprobe. Sie könnten beispielsweise jedes Dekanat Ihrer Universität bitten, aus der entsprechenden Fakultät jedem zehnten Studierenden Ihren Fragebogen zukommen zu lassen. Vermutlich variieren aber die Studierendenzahlen von Fakultät zu Fakultät: Großen Fakultäten mit vielen Studierenden werden kleinere Fakultäten mit weniger Studierenden gegenüberstehen (siehe Abbildung 3.6). Durch den Auftrag, jeweils nur jeden zehnten Studierenden auszuwählen, bleibt das Verhältnis von Studierenden großer Fakultäten zu Studierenden kleiner Fakultäten erhalten. Aus der großen Fakultät 4 werden durch dieses Verhältnis 450 Studierende ausgewählt, und damit neunmal mehr als aus der Fakultät 5 (50 Studierende). Dieses Verhältnis von 9:1 entspricht demjenigen in der Gesamtzahl aller Studierenden: Auch hier weist die Fakultät 4 (4500) neunmal so viele Studierende auf wie Fakultät 5 (500). Die in der Grundgesamtheit existierenden Proportionen zwischen den Fakultäten bleiben also auch in der Stichprobe erhalten – man spricht daher auch von einer proportional geschichteten Stichprobe. Ein großer Vorteil eines solchen Stichprobendesigns besteht darin, dass hieraus direkt Hochrechnungen – etwa von
70
Von der Forschungsfrage zum Forschungsprojekt
Häufigkeiten (vergleiche Kapitel 5) – für die Gesamtheit aller Studierenden vorgenommen werden können, da die Stichprobe die Grundgesamtheit proportional abbildet. Grundgesamtheit
Universität 10.000 Studenten
Schichten
Auswahl (»jeder 10.«)
Stichprobe
Fakultät 1 2.000 Studierende
200 Befragte
Fakultät 2 1.500 Studierende
150 Befragte
Fakultät 3 1.500 Studierende
150 Befragte
Fakultät 4 4.500 Studierende
450 Befragte
Fakultät 5 500 Studierende
50 Befragte
Abbildung 3.6: Proportional geschichtete Stichprobe (eigene Darstellung)
Problematisch an dem oben beschriebenen Design könnte die Tatsache sein, dass aus der verhältnismäßig kleinen Fakultät 5 insgesamt nur 50 Befragte in die Stichprobe gelangen. Solange man hier nur Hochrechnungen für die Gesamtheit aller Studierenden durchführen will, ist dies verhältnismäßig unproblematisch. Möchte man jedoch spezifischere Aussagen für Studierende der Fakultät 5 treffen, könnte sich die geringe Fallzahl als Pro blem erweisen. Prozentangaben ließen sich bei derart wenigen Befragten (50 Studierende) nur sehr grob berechnen. Eine alternative Möglichkeit, um dieses Problem zu vermeiden, bestünde darin, jede der fünf Fakultäten zu bitten, 200 Personen zufällig für die geplante Stichprobe von 1.000 Befragten auszuwählen (vgl. Abbildung 3.7), um an jeder Fakultät ausreichend Befragte zu erhalten. Prozentberechnungen wären auf dieser Basis wesentlich differenzierter möglich. Die Verhältnisse der Auswahlwahrscheinlichkeiten zwischen den verschiedenen Fakultäten wären aber in diesem Design nicht mehr proportional. Studierende der Fakultät 1 hätten beispielsweise eine Auswahlwahrscheinlichkeit von 200 zu 2000, also 10 % – jeder zehnte Studierende würde hier also für die finale Stichprobe ausgewählt. In Fakultät 4 wäre die Auswahlwahrscheinlichkeit mit 200 aus 4500 Studierenden deutlich niedriger, sie läge hier bei ca 4.4 %. Hingegen würden aus Fakultät 5 immerhin 40 % aller Studierenden ausge-
71
Auswahlverfahren
wählt (200 von 500). Die Proportionalität der Studierendenverhältnisse aus der Grundgesamtheit ist hier nicht mehr gegeben, weshalb diese Form der Stichprobenziehung als disproportional geschichtete Stichprobe bezeichnet wird. Grundgesamtheit
Universität 10.000 Studenten
Schichten
Auswahl (»jeweils 200«)
Stichprobe
Fakultät 1 2.000 Studierende
200 Befragte
Fakultät 2 1.500 Studierende
200 Befragte
Fakultät 3 1.500 Studierende
200 Befragte
Fakultät 4 4.500 Studierende
200 Befragte
Fakultät 5 500 Studierende
200 Befragte
Abbildung 3.7: Disproportional geschichtete Stichprobe (eigene Darstellung)
Auch wenn sich diese für Vergleiche innerhalb der Gruppen eignet, müssten bei einer Hochrechnung auf die Grundgesamtheit die unterschiedlichen Auswahlwahrscheinlichkeiten berücksichtigt werden. Da die tatsächlichen Größenverhältnisse der Studierendenzahlen jedoch bekannt sind, wäre eine solche Umrechnung grundsätzlich mit Hilfe sogenannter Gewichtungsfaktoren möglich. Die geringe Auswahlwahrscheinlichkeit von Personen der Fakultät 4 könnte beispielsweise dadurch »korrigiert werden«, dass man für die Datenanalyse deren Auftreten mit dem Kehrwert der Auswahlwahrscheinlichkeit (1/4,4 % = 1/0,044 = 22,72) multipliziert, sodass diese im Vergleich zur kleineren Fakultät 5 (1/40 % = 1/0,4 = 2,5) wieder relativ an Bedeutung gewinnt. Auf den ersten Blick scheint das vorgestellte Verfahren der geschichteten Zufallsauswahl dem unter den »bewussten« Auswahlverfahren abgehandelten »Quotenauswahl-Verfahren« ähnlich zu sein. In beiden Verfahren handelt es sich um ein Verfahren über zwei Auswahlstufen und in beiden wird zunächst eine Aufteilung gemäß zuvor festgelegter Kriterien vorgenommen, die sich am beobachtbaren Verteilungen in der Grundgesamtheit orientiert. Der zentrale Unterschied zwischen beiden Verfahren liegt jedoch in der finalen Auswahl der Befragten
72
Von der Forschungsfrage zum Forschungsprojekt
(vgl. Abbildung 3.8). Während diese bei der geschichteten Zufallsauswahl nach einem streng vorgegebenen Zufallsverfahren erfolgt (etwa der Listenauswahl), ist den Interviewer*innen bei der Quotenauswahl eine Auswahl jenseits der vorgegebenen Quotenverteilung nach eigenen Kriterien möglich. Solange sie im oben beschriebenen Beispiel etwa die Quoten nach Geschlecht, Studiengang und Alter einhalten, könnten sie die Befragten vor allem in ihren Freundeskreisen rekrutieren – mit den besprochenen negativen Konsequenzen. Eine geschichtete Auswahl folgt somit einem kontrollierten Zufalls-Verfahren, das die Repräsentativität der Gesamtstichprobe gewährleistet. Bei der Quotenstichprobe ist dies aufgrund möglicher willkürlicher Entscheidungen des Interviewers im letzten Auswahlschritt nicht gewährleistet. Grundgesamtheit Geschichtete Zufallsauswahl
Quotenstichprobe
Aufteilung in Schichten (deren relativer Umfang an der GG bekannt ist)
Vorgabe von Quoten (gemäß der bekannten Aufteilung in der Grundgesamtheit)
Systematische Zufallsauswahl (z. B. gemäß Listenauswahl, Random Route)
Willkürliche Auswahl durch Interwiever (Räumliche Nähe, Bekanntenkreis)
Repräsentativ
Nicht repräsentativ
Abbildung 3.8: Geschichtete Zufallsauswahl und Quotenstichprobe im Vergleich (eigene Darstellung)
Ein weiteres bei der zufälligen Stichprobenauswahl häufig verwendetes Verfahren ist die sogenannte Klumpenstichprobe. Der Begriff der Klumpenstichprobe rührt daher, dass die Grundgesamtheit zunächst in verschiedene cluster (zu Deutsch etwa »Klumpen«) aufgeteilt wird, aus denen anschließend eine zufällige Auswahl erfolgt. Im Unterschied zur geschichteten Zufallsstichprobe, in der die Zufallsauswahl auf der zweiten Auswahlebene erfolgt, wird diese hier also auf der ersten Auswahlebene vorgenommen. Betrachten wir hierzu wieder unser zuvor verwendetes Beispiel der Hochschulbefragung. Hier könnten Sie sich alternativ dazu entschließen, als Auswahlkriterium für Ihre Stichprobe nicht die relativ großen Fakultäten zu verwenden, sondern stattdessen die Aufteilung der Studierenden nach Studiengängen zu nutzen. Wenn wir der Einfachheit halber davon ausgehen, dass jede Fakultät zehn Studiengänge anbietet, hätten wir es insgesamt mit fünfzig verschiedenen
Auswahlverfahren
73
Studiengängen zu tun. Der Logik einer Klumpenstichprobe zufolge würden Sie aus dieser Gesamtzahl aller Studiengänge nun zufällig eine bestimmte Anzahl von Studiengängen auswählen – beispielsweise jeden fünften. Innerhalb der sich hierdurch ergebenden zehn Studiengänge würde dann ausnahmslos jeder Student befragt. Die notwendigen Rahmenbedingungen der Repräsentativität blieben auch hier gewahrt: Auf der ersten Auswahlstufe findet eine zufällige Auswahl von Studiengängen statt, die Auswahl orientiert sich somit lediglich am statistischen Zufall. Auf der zweiten Stufe wird schließlich jeder Studierende der verbleibenden Studiengänge befragt – durch diese studiengangsinterne »Vollerhebung« wird somit ebenfalls niemand systematisch von der Stichprobenteilnahme ausgeschlossen. Für eine gelungene Klumpenstichprobe sollte die Anzahl der auszuwählenden Cluster verhältnismäßig hoch sein. Mit Blick auf unser Beispiel bedeutet das: Hätten wir statt der Studiengänge die Fakultäten als Auswahleinheit genommen, hätten wir (bei einer zufälligen Auswahl von zwei aus fünf Fakultäten) etwa die eher studierendenarmen Fakultäten 1 und 5 erhalten können. Angesichts der geringen Studierendenzahl wäre es plausibel anzunehmen, dass die Seminar- und Vorlesungsräume hier eventuell weniger überfüllt sind als in den großen Fakultäten und die Beurteilung der räumlichen Gegebenheiten hier positiver ausfällt. Es wäre fraglich, inwiefern eine solche Auswahl tatsächlich »repräsentativ« für die Gesamtheit aller Studierenden wäre. Je größer die Anzahl der Auswahleinheiten ist, umso weniger häufig wird ein vergleichbares Problem bei einer zufälligen Auswahl auftreten. Aus erhebungspraktischer Sicht empfiehlt es sich zudem, Klumpen von einer verhältnismäßig geringen Größe auszuwählen, um die Vollerhebung mit einem vertretbaren Aufwand durchführen zu können. Sowohl die geschichtete Zufallsstichprobe als auch die Klumpenstichprobe scheinen bei umfangreicheren, etwa landesweiten Befragungen weniger geeignet. Hier kommt vielfach eine sogenannte mehrstufige Zufallsauswahl zur Anwendung. Wie der Name schon vermuten lässt, basiert diese auf einer hierarchischen Anordnung von verschiedenen Zufallsauswahlen, die alle auf einer unterschiedlichen Ebene von Auswahleinheiten (»Stufen«) beginnen. Abbildung 3.9 skizziert das Vorgehen schematisch. Zunächst wird auf einer ersten Ebene die Grundgesamtheit (bei bevölkerungsweiten Befragungen etwa die Bundesrepublik Deutschland) in verschiedene Regionen aufgeteilt, aus denen mittels einer Zufallsauswahl eine ausreichende Anzahl ausgewählt wird. Ggf. können auf einer weiteren Ebene innerhalb dieser Regionen wiederum weitere Untergruppen, z. B. Bezirke, unterschieden werden, aus denen wiederum per Zufall eine bestimmte Zahl ausgewählt wird. Dieser schrittweise Prozess setzt sich im Weiteren auf der Haushaltsebene und innerhalb der Haushalte auf der Personenebene fort. Da auf jeder der Ebenen eine Zufallsauswahl stattfindet, resultiert dieses Vorgehen in einer Stichprobe, die ihrerseits auch in ihrer Gesamtheit als repräsentativ angesehen werden kann. Wie sieht ein solches Vorgehen in der Praxis aus? Ein typisches Beispiel hierfür bildet das sogenannte ADM-Design für die Ziehung einer mehrstufigen Stichprobe bei persön-
74
Von der Forschungsfrage zum Forschungsprojekt
lichen Befragungen, ein von der Arbeitsgemeinschaft Deutscher Markt- und Sozialforschungsinstitute (ADM) eingeführtes Verfahren, das in einer Vielzahl aktueller Studien der Markt-, Meinungs- und Sozialforschung Anwendung findet. 1. Stufe (z. B. Auswahl von Regionen)
2. Stufe (z. B. Auswahl spezifischer Bezirke)
3. Stufe (z. B. Auswahl von Haushalten)
4. Stufe (z. B. Auswahl von Befragungspersonen)
Abbildung 3.9: Mehrstufige Auswahl (eigene Darstellung)
Im Rahmen des ADM-Designs wird üblicherweise eine dreistufige Auswahl durchgeführt: Ȥ Auf einer ersten Auswahlstufe wird das bewohnte Gebiet Deutschlands, unterstützt durch Daten der amtlichen Statistik, in etwa 50.000 bis 60.000 Flächen (etwa kleine Gemeinden oder Stadtteile) aufgeteilt, die bis auf die Straße genau voneinander abgegrenzt werden können (vgl. Häder 2015). Aus diesen Flächen werden üblicherweise per Zufall pro 1000 zu realisierende Interviews 258 Flächen ausgewählt (202 in den alten Bundesländern, 13 in Berlin und 43 in den neuen Bundesländern; vgl. Heckel und Hofmann 2014: 105), die als sampling points bezeichnet werden; jeder dieser Punkte weist dabei eine Größe von ca. 700–800 Haushalten auf. Ȥ Innerhalb der sampling points wird anschließend in einem zweiten Schritt per Zufallsverfahren der Zielhaushalt ausgewählt. Eine hierzu oft verwendete Methodik ist das »Zufallswegverfahren« (im Englischen oft als random route bezeichnet). Hierbei erhält der Interviewer bzw. die Interviewerin eine zufällig ausgewählte Startadresse innerhalb des ausgewählten sampling points, von der aus er/sie einen bestimmten – wiederum per Zufallsprinzip vorgegebenen – Weg laufen soll (vgl. ADM 2014). Dieser Weg wird durch eindeutige Begehungsregeln festgelegt; etwa »vom Startpunkt x Hausnummern aufwärts laufen, die x-te Straße rechts abbiegen, den x-ten Haushalt auf der linken Straßenseite auswählen, bei mehreren Hauhalten an dieser Adresse den in alphabetisch absteigender Reihenfolge x-ten Haushalt auswählen«. Der Begehungsplan enthält zudem Regeln für Fälle, in denen die »normale Methode« der Begehung nicht umgesetzt werden kann (»in Sackgassen umkehren und auf der Seite mit geraden Hausnummern weiterlaufen«). Ist der Zielhaushalt erreicht, kann der Interviewer bzw. die Interviewerin den Zielhaushalt direkt kontaktieren, indem er/sie beispielsweise an der entsprechenden Tür klingelt (random route ohne Adressvorlauf). Eine alternative
75
Auswahlverfahren
Methodik sieht vor, die Daten des Zielhaushaltes zunächst an die Untersuchungsleitung zurückzumelden, die ihrerseits aus allen Zielhaushalten wiederum eine Zufallsauswahl vornimmt, die dann von einem anderen Interviewer bzw. einer Interviewerin befragt wird (random route mit Adressvorlauf). Ȥ Gelangt der Interviewer/die Interviewerin schließlich zu seinem (zufällig ausgewählten) Zielhaushalt, muss hier auf der dritten Auswahlebene die Befragungsperson ausgewählt werden. In Ein-Personen-Haushalten ist diese Auswahl eindeutig; bei mehreren volljährigen Personen im Haushalt (etwa bei einem Familienhaushalt oder einer Wohngemeinschaft) kommt meist ein weiteres Zufalls-Instrument zur Anwendung. So kann beispielsweise diejenige volljährige Person befragt werden, die zuletzt Geburtstag hatte: Alternativ können auch alle volljährigen Personen des Befragungshaushaltes in eine Liste gereiht nach ihrem Geburtstag aufgenommen werden, aus der dann zufällig die x-te Person ausgewählt wird (wobei x jeweils gleich oder kleiner der Anzahl der im Haushalt lebenden Personen sein muss). Auch hier muss wieder (wie im Beispiel der geschichteten Zufallsauswahl) die Auswahlwahrscheinlichkeit der Zielperson berücksichtigt werden: Eine Person in einem Ein-Personen-Haushalt hat letztlich eine hundertprozentige Auswahlwahrscheinlichkeit; diejenige in einem Haushalt mit fünf volljährigen Personen (etwa einer Wohngemeinschaft) nur noch eine von 1/5, also 20 %. Durch geeignete Gewichtungs-Verfahren muss dieses Ungleichgewicht wiederum ausgeglichen werden. Die Komplexität des zuvor beschriebenen Verfahrens verdeutlicht, dass dieses in der Praxis meist nur von größeren Befragungsunternehmen mit entsprechender finanzieller, personeller und infrastruktureller Ausstattung umgesetzt werden kann. Folgen die Interviewer*innen jedoch den vorgegebenen Auswahlverfahren, so garantiert das selbst bei großflächigen Umfragen die repräsentative Auswahl von Befragungspersonen. Tabelle 3.2: Zufallsbasierte Auswahlverfahren im Überblick (eigene Darstellung) Verfahren
1. Auswahlstufe
2. Auswahlstufe
3. Auswahlstufe
Einstufige Auswahlverfahren Zufallsauswahl
Listenauswahl Mehrstufige Auswahlverfahren
Aufteilung der Grund gesamtheit in Schichten
Zufallsauswahl
Klumpenstichprobe
Zufallsauswahl
Vollerhebung
Mehrstufige Zufallsauswahl
Zufallsauswahl
Zufallsauswahl
Geschichtete Zufallsauswahl
Zufallsauswahl
76
Von der Forschungsfrage zum Forschungsprojekt
Tabelle 3.2 fasst die zufallsbasierten Auswahlverfahren zur besseren Unterscheidung nochmals kompakt zusammen. Die Listenauswahl stellt als einstufiges Verfahren die einfachste Form der Zufallsauswahl dar. Hierbei werden Befragte direkt aus einer vollständigen Liste von Erhebungseinheiten mittels eines Zufallsmechanismus ausgewählt. In der Praxis liegen derartige Erhebungslisten jedoch meist nicht vor. In diesen Fällen kommen andere mehrstufige Verfahren zur Anwendung, die sich durch die jeweilige Position des Zufallsmechanismus im Auswahlverfahren unterscheiden. Bei der geschichteten Zufallsauswahl steht dieser an zweiter Stelle, nachdem zuvor die Stichprobe in verschiedene Schichten aufgeteilt wurde. Klumpenstichproben nehmen hingegen im ersten Schritt eine Zufallsauswahl solcher Untergruppen vor; im zweiten Schritt wird innerhalb der ausgewählten Cluster dann eine komplette Vollerhebung durchgeführt. Mehrstufige Zufallsstichproben basieren schließlich auf einer sequenziellen Abfolge von hierarchisch aufgebauten Zufallsauswahlen auf verschiedenen Ebenen von Auswahleinheiten. MERKEN Zufallsbasierte Auswahlverfahren beruhen auf der Auswahl von Befragungspersonen nach einem kontrollierten Zufallsmechanismus, bei der jede Person der Grundgesamtheit mit einer angebbaren Wahrscheinlichkeit die Möglichkeit hat, in die Stichprobe zu gelangen. Hierbei kann nach ein- und mehrstufigen Verfahren unterschieden werden. Bei korrekter Durchführung ermöglichen zufallsbasierte Verfahren die Ziehung einer repräsentativen Stichprobe.
3.2.5 Zur Größe von Stichproben und der Wahl des geeigneten Auswahlverfahrens Die bisherige Auseinandersetzung mit der Konstruktion von Stichproben konzentrierte sich vor allem auf die Wahl eines geeigneten Auswahldesigns. Nicht betrachtet wurde bislang die Frage, wie groß eine Stichprobe sein sollte, um zu einem belastbaren Ergebnis zu führen, wie viele Personen also idealerweise befragt werden sollten. Häufig führen die tatsächlich realisierten Stichprobengrößen von deutschlandweiten Bevölkerungsumfragen, wie beispielsweise die ca. 3.500 Befragten der ALLBUS-Studie, bei Nicht-Fachleuten zur Verwunderung: »Solch eine kleine Anzahl von Befragungspersonen soll ausreichend sein, um Aussagen über eine Bevölkerung von mehr als 80 Millionen Bürger*innen zu treffen?« Gleichzeitig wird Studien mit einer großen Zahl an Befragten nahezu »automatisch« eine hohe Verlässlichkeit zugeschrieben: Bei einer solch großen Anzahl von Befragten müsse das Ergebnis ja quasi schon stimmen.
Auswahlverfahren
77
Eine in der statistischen Forschung viel zitierte Studie stellt den skizzierten »Mythos der großen (Befragten-)Zahl« grundsätzlich in Frage. Es handelt sich dabei um die amerikanische Präsidentenwahl des Jahres 1936, in der von republi kanischer Seite der Gouverneur Alfred M. Landon und von demokratischer Seite der bisherige Amtsinhaber FrankAbbildung 3.10: Schlagzeilen zur Literary Digest Studie 1936 lin D. Roosevelt kandidierten. Die zu dieser Zeit vergleichsweise populäre amerikanische Zeitschrift »The Literary Digest« führte vor diesem Hintergrund die vermutlich größte Umfrage der Geschichte der Sozialforschung durch, indem sie etwa 10 Millionen Wahlberechtigte anschrieb: Grundlage dieser Auswahl waren sowohl die eigenen Abonnenten, Namen aus Telefonbüchern, Mitgliederlisten von Clubs und Vereinen und Listen von Besitzern eines Automobils. Die ca. 2,4 Millionen ausgefüllten Fragebögen, die an die Zeitschrift zurückgesendet wurden, sagten einen fast schon erdrutschartigen Sieg des Herausforderers Landon voraus, der etwa 60 Prozent der Wählerstimmen erhalten sollte; ein Ergebnis, das hohe mediale Aufmerksamkeit erhielt (siehe Abbildung 3.10). Das tatsächliche Wahlergebnis stellte die Vorhersage nahezu vollständig auf den Kopf. Roosevelt erhielt mehr als 60 Prozent der Stimmen und gewann die Präsidentenwahl deutlich. Wie konnte die Umfrage des Literary Digest trotz ihrer großen Stichprobe eine derartige Fehlvorhersage treffen? Die Gründe werden noch heute in der wissenschaftlichen Literatur ausführlich und kontrovers diskutiert. Dabei scheinen mehrere Faktoren eine Rolle zu spielen. Eindeutig folgte die Auswahl der Befragungsteilnehmer*innen keinem erkennbaren Zufallsverfahren. Im Gegenteil: Die angeschriebenen Personen waren eher Angehörige der besserverdienenden Schichten, die im Jahre 1936 bereits über einen eigenen Telefonanschluss oder ein persönliches Automobil verfügten. Auch die Leser*innen des Literary Digest sowie Vereins- und Clubmitglieder waren eher dieser Personengruppe zuzuordnen, die eher als klassische Wähler der republikanischen Partei gelten können. Angehörige der eher arbeiternahen Demokraten waren in der Stichprobe dagegen vermutlich deutlich unterrepräsentiert. Gleichzeitig wurde das Ergebnis mutmaßlich auch dadurch beeinflusst, dass selbst die befragten Roosevelt-Anhänger*innen in geringerem Maße an der Befragung teilnahmen, während Angehörige der Mittelschicht eher zur Teilnahme an der schriftlichen
78
Von der Forschungsfrage zum Forschungsprojekt
Befragung neigten (Lusinchi 2012) – bei einer gleichmäßigeren Teilnahme hätte mutmaßlich zumindest Roosevelts Sieg korrekt vorhergesagt werden können, wenngleich nicht in dem tatsächlichen Ausmaß (Squire 1988). Unabhängig davon, welche der vorgeschlagenen Erklärungen tatsächlich maßgeblich für die Fehlvorhersage war, zeigt das Beispiel deutlich, dass eine große Stichprobe allein nicht automatisch zu einer besseren Vorhersage der Grundgesamtheit beiträgt; von größerer Bedeutung ist vielmehr die richtige Wahl der Auswahlmethode. Seit dem »Literary Digest-Desaster« hat sich die Praxis der Umfrageforschung deutlich weiterentwickelt. Heute ermöglichen verschiedene, im Internet von großen Befragungsinstituten angebotenen »Stichproben-Rechner«, die für eine Befragung notwendige Mindest-Stichprobengröße anhand gewünschter Parameter zu berechnen. Hier zeigt sich in der Tat, dass selbst für eine große Grundgesamtheit wie die der Bundesrepublik bei Anwendung einer Zufallsauswahl eine Stichprobengröße von wenigen tausend Befragten ausreichend ist, um belastbare Vorhersagen mit geringen Fehlerwahrscheinlichkeiten und einer hohen Vorhersagegenauigkeit zu treffen. Die bisherigen Ausführungen haben deutlich gemacht, dass Zufallsauswahlen die besten und verlässlichsten Ergebnisse für die empirische Sozialforschung liefern. Nur bei ihrer Anwendung sind im strengen statistischen Sinne belastbare inferenzstatistische Auswertungen zulässig, wie wir sie in späteren Kapiteln dieses Buches vorstellen werden (vgl. Kapitel 6 ff.). Bei spezifischen Zielgruppen der Sozialen Arbeit ist deren Realisierung jedoch mitunter problematisch. Will man beispielsweise nicht räumlich residente Zielgruppen wie Obdachlose untersuchen, so greifen klassische mehrstufige Zufallsauswahlen wie das ADM-Design ins Leere, da diese von einem festen Wohnort der Befragten ausgehen. Auch eine Quoten-Auswahl oder geschichtete Zufallsauswahl wäre hier nur bedingt möglich, da ausreichende Basisinformationen zur Bildung von Quoten- bzw. Schichtungskriterien nicht vollständig vorliegen. Auch die Zielgruppen mancher sozialen Dienstleistungsmaßnahmen (etwa eines Stadtteilangebotes zur Freizeitgestaltung) mögen nicht immer mittels einer Zufallsauswahl abgebildet werden können, da zum einen die adressierte Grundgesamtheit nicht immer vollständig klar und der Zugang zu ihr ggf. mit Kontakthürden behaftet ist. Zum anderen können Prozesse der Selbstselektion die Stichprobenbildung behindern, wenn spezifische Zielgruppen kein Interesse an einer Maßnahme und einer entsprechenden Befragung haben. Hier muss ggf. von einer idealerweise anzuwendenden Zufallsstichprobe abgewichen und auf andere Methoden der Stichprobenziehung zurückgegriffen werden. Möglich wäre im oben skizzierten Obdachlosen-Beispiel etwa die Anwendung eines Schneeballverfahrens, indem über wichtige Kontaktpersonen der Kontakt zu einigen Obdachlosen hergestellt wird, die wiederum über persönliche Netzwerke weitere Kontakte herstellen können. Auch im Fall der oben skizzierten Dienstleistungsmaßnahme wäre der Einsatz
Erhebungsformen
79
von erfahrenen Sozialarbeiter*innen bzw. Sozialpädagog*innen im Stadtteil als »Multiplikatoren« sinnvoll, um Zugang zu einer möglichst großen Breite von Zielpersonen zu erhalten. In Abwesenheit von geeigneteren Methoden der Stichprobenziehung ermöglichen auch derartige »bewusste« Auswahlverfahren ggf. wertvolle Einblicke in das Untersuchungsfeld. Die hierdurch entstehenden Probleme der Repräsentativität, die Sie in den vergangenen Subkapiteln kennengelernt haben, müssen gleichwohl bei der Ergebnisinterpretation kritisch reflektiert und transparent gemacht werden.
3.3 Erhebungsformen Sind das Forschungsdesign zur Bearbeitung der Forschungsfrage (3.1) und die Auswahl der Untersuchungseinheiten (3.2) festgelegt, so muss in einem letzten Schritt geklärt werden, wie genau die Datenerhebung bei der avisierten Zielgruppe durchgeführt werden soll. Die in der quantitativen Sozialforschung verbreitetste Form der Datenerhebung stellt die Befragung der Zielpersonen dar, die ca. 90 % der vom Arbeitskreis deutscher Markt- und Sozialforschungsinstitute durchgeführten Erhebungen ausmacht (Häder 2015: 190). Der Begriff der Befragung umfasst dabei eine große Bandbreite an verschiedenen Erhebungstechniken, mit denen Sie im Alltag möglicherweise schon einmal konfrontiert worden sind. Vielleicht haben Sie schon einmal an einer Straßenumfrage zu einem bestimmten Thema teilgenommen oder sind vielleicht sogar schon einmal von einem Interviewer der großen Meinungsforschungsinstitute in Ihrem Haushalt aufgesucht worden. Möglicherweise hat Sie ein Umfrageinstitut auch zu Hause angerufen und um die Teilnahme an einer Umfrage gebeten. Und mit relativ hoher Sicherheit sind Sie beim Surfen im Internet auch schon einmal von einem »aufploppenden« Fenster überrascht worden, das Sie auf der Website eines Dienstleistungsanbieters (etwa der Deutschen Bahn) zu einer Kundenbefragung einlädt. Diese Beispiele stehen stellvertretend für die drei Grundformen der sozialwissenschaftlichen Befragung, die persönliche Befragung, die telefonische Befragung und die in zunehmendem Maße bedeutsame schriftliche Befragung, die mittlerweile mehrheitlich online erfolgt. Diese drei Erhebungsformen werden im Folgenden ausführlicher dargestellt und ihre Vor- und Nachteile diskutiert. Bevor wir uns jedoch mit konkreten Formen der Befragung auseinandersetzen, wollen wir uns zunächst verdeutlichen, was genau bei einer Befragung passiert und welche Grundvoraussetzungen hierfür gegeben sein müssen. Unabhängig von der konkreten Form der Erhebung bitten wir bei einer Befragung unsere Zielperson – den »Befragten« oder die »Befragte« – uns Informationen über seine Person mitzuteilen, von einfachen sozialstatistischen Angaben (z. B. Alter, Bildung, Geschlecht, Familienstand), individuellem Verhalten bis hin zu Einstellungen, Präferenzen und Meinungen. Wir bitten die
80
Von der Forschungsfrage zum Forschungsprojekt
Befragungsperson also um eine verbale Selbstauskunft über die eigene Person. Bei einer Befragung zu alltäglichen Gewohnheiten oder Verhaltensweisen beobachten wir diese bei einer Befragung also keinesfalls direkt, sondern bitten die Befragungsperson, uns hierüber Auskunft zu geben – statt tatsächlichem Verhalten messen wir also streng genommen »nur« das verbale Verhalten der Befragungsperson. Damit diese Form der Informationsweitergabe tatsächlich zu verwendbaren Ergebnissen führen kann, müssen eine Reihe von Rahmenbedingungen gegeben sein: Ȥ Damit das Interview zustande kommt, müssen Befragungspersonen zunächst eine grundsätzliche Kooperation signalisieren, sie müssen bereit sein, an dem gesamten Interview teilzunehmen. Die zuvor diskutierten Probleme der »Verweigerung« der Antwortteilnahme bei Panel-Studien (vgl. Abschnitt 3.2) haben bereits verdeutlicht, dass eine solche Kooperation keineswegs selbstverständlich ist; bei einigen der im Folgenden diskutierten Erhebungsformen stellt sie zudem ein manifestes Problem dar. Bei Befragungen sollten man daher bestrebt sein, die Teilnahme der Befragten an der Studie zu fördern, etwa durch ausführliche Informationen über Sinn und Zweck der Befragung oder direkte Befragungsanreize (etwa in Form einer materiellen Entschädigung). Ȥ Ist die Kooperation der Befragten grundsätzlich gesichert, ist es von zentraler Bedeutung, dass diese die ihnen gestellten Fragen verstehen (vgl. z. B. Schnell 2019: 21 f.). Dies betrifft zum einen die Sprache, in der ein Interview durchgeführt wird. So könnten beispielsweise kürzlich zugewanderte Personen ohne ausreichende Sprachkenntnisse Schwierigkeiten haben, einen landessprachlichen Fragebogen hinreichend zu verstehen. Die ALLBUS-Studien schließen beispielsweise Personen von der Teilnahme an der Befragung aus, wenn das Interview nicht in deutscher Sprache durchgeführt werden kann. Ein solcher Ausschluss kann jedoch ggf. zu Verzerrungen in der Stichprobe beitragen. Sollen diese Personen in die Stichprobe integriert werden, so müssen Sprachhilfen zur Unterstützung oder ggf. auch der gesamte Fragebogen in mehreren Sprachen angeboten werden. Hierbei ist jedoch zu beachten, dass der Bedeutungsgehalt der Fragen bei der Übersetzung erhalten bleibt. Ȥ Neben diesem linguistischen Aspekt ist für das Verständnis des Fragebogens auch die Art der Formulierungen, die verwendet werden, von Bedeutung. Beinhaltet beispielsweise die Befragung eine Reihe von akademischen Fachbegriffen aus der Sozialen Arbeit (etwa »Klienten« für die Empfänger*innen sozialer Dienstleistungen und »Professionelle« für die verantwortlichen Sozialarbeiter*innen), so werden diese Fragen möglicherweise von Nicht-Akademiker*innen nicht richtig verstanden, sodass Fragen nicht adäquat beantwortet werden können. Vor der Durchführung der Befragung sollte die Zielgruppe und ihr Sprachvermögen bedacht und der Fragebogen entsprechend daran angepasst werden. Ȥ Die Befragten sollten vom verfügbaren Wissen her in der Lage sein, eine ihnen gestellte Frage zu beantworten. Bei Fragen zur eigenen Person oder dem eigenen Umfeld ist
Erhebungsformen
81
dies meist unkritisch. Werden hingegen Fragen zu politischen Einstellungen erfragt, so muss davon ausgegangen werden, dass das Einstellungsobjekt hinreichend bekannt ist. Eine Frage zur Beurteilung der letzten Rentenreform der Bundesregierung könnte z. B. daran scheitern, dass diese einzelnen Befragten nicht in einem derartigen Ausmaß bekannt ist, dass er/sie dazu Stellung nehmen kann. Auf derartige Fragen müsste entsprechend in einer Befragung entweder verzichtet oder ggf. die Inhalte der Reform (z. B. schrittweise Anhebung des Rentenalters von 65 auf 67 Jahre) dem Befragten in einem kurzen Einleitungstext noch einmal erläutert werden. Ȥ Schließlich muss davon ausgegangen werden, dass eine »Norm der Aufrichtigkeit« gilt (Diekmann 1995: 377), die Befragten also auf die Fragen ehrlich antworten. Auch dies kann in Befragungen problematisch sein, etwa wenn Befragte im Sinne einer positiven Außendarstellung ihre Aussagen an die von ihnen erwartete Antwort anpassen. Wir werden sehen, dass dieses Phänomen bei spezifischen Befragungsformen besonders häufig auftreten kann. Eine Versicherung, dass die Fragen anonym (also nicht in Verbindung mit der Person) ausgewertet werden und dass persönliche Meinungen im Mittelpunkt des Interesses stehen, kann derartige Effekte zumindest reduzieren. MERKEN Befragungen stellen die häufigste Form der quantitativen Datenerhebung dar. Sie lassen sich in persönliche, telefonische und schriftliche Befragungen unterscheiden. Notwendige Voraussetzungen für die Durchführung einer Befragung sind die Kooperationsbereitschaft der Befragten, das sprachliche Verständnis der Untersuchungsfragen, die inhaltliche Kompetenz bezüglich des Untersuchungsthemas sowie die Bereitschaft zu ehrlichen Antworten.
3.3.1 Persönliche Befragung Bei der persönlichen Befragung erfolgt die Erhebung durch entsprechend geschulte Interviewer, die dem bzw. der Befragten z. B. direkt gegenübersitzen – es wird daher auch häufig von Face-to-face-Befragungen gesprochen. Die Aufzeichnung der Antworten kann dabei zum einen auf einem Papierfragebogen erfolgen, hier wird auch häufig von Paper-PencilBefragungen oder vom Paper-Assisted Personal Interviewing (PAPI) gesprochen. Die ausgefüllten Fragebögen werden anschließend dem verantwortlichen Umfrageinstitut zugesandt und dort manuell in ein elektronisches Format überführt, um sie anschließend mittels statistischer Software (etwa des auch hier im Buch vorgestellten Statistikpakets SPSS) auswerten zu können. Gebräuchlicher als diese schriftliche Form der Aufzeichnung ist – insbesondere in der professionellen Umfrageforschung – mittlerweile die Verwendung eines
82
Von der Forschungsfrage zum Forschungsprojekt
Personal Computers (»Computer-Assisted Personal Interviewing«; CAPI). Auf diesem PC ist meistens eine spezielle Befragungssoftware installiert, in die die Interviewer*innen die Antworten der Befragten eintragen und die die Interviewer automatisch von Frage zu Frage leitet. Dieses Vorgehen bietet eine Reihe von Vorteilen: Zum einen liegen hier die Daten direkt in einem elektronischen Format vor und können damit prinzipiell direkt nach der Dateneingabe verwendet werden. Durch die direkte elektronische Erfassung der Daten werden zudem Übertragungsfehler, wie sie beim »Eintippen« der Papierfragebögen entstehen können, vermieden. Bei Verwendung eines PCs können zudem parallel interessante Rahmendaten ohne Mitwirkung der Interviewer festgehalten werden, etwa die vom Befragten verwendete »Überlegungszeit« zur Beantwortung einer Frage. Ein zentraler Vorteil von persönlichen Befragungen liegt in der Unmittelbarkeit und Verbindlichkeit der persönlichen Befragungssituation. Der anwesende Interviewer bzw. die Interviewerin kann die Befragungsperson durch den direkten Kontakt während des Interviews zum einen optimal zur Teilnahme an dem Interview motivieren (vgl. Häder 2015, Möhring und Schlütz 2010). Gleichzeitig ist die Schwelle zur Beendigung eines Interviews bei direktem Kontakt mit der Befragungsperson höher als bei telefonischen oder schriftlichen Befragungen (ein Telefonat kann man durch Auflegen vergleichsweise unvermittelt beenden, einen schriftlichen Fragebogen bei Desinteresse an die Seite legen). Interviewer können während des Interviews zudem Hilfestellungen geben, Fragen bei Verständnis problemen nochmals erläutern oder – im Fall von Inkonsistenzen in den Antworten – direkt Nachfragen stellen. Persönliche Befragungen ermöglichen darüber hinaus eine optimale Kontrolle der Befragungssituation. Interviewer*innen können beispielsweise dafür Sorge tragen, dass keine weitere Person während des Interviews zugegen ist, die die Antworten der Befragungsperson beeinflussen könnte. Schließlich können Interviewer*Innen besondere Eindrücke während des Interviews – etwa zum Interviewverlauf oder dem Verhalten der Befragungsperson – festhalten, die eine bessere Einschätzung der Interviewqualität ermöglichen. Ein weiterer Vorteil von persönlichen Befragungen besteht in der Verwendung verschiedener möglicher Hilfsmittel. Den Befragten können während des Interviews zur Unterstützung oder Auflockerung der Interviewsituation beispielsweise Listen oder Karten mit Antwortmöglichkeiten vorgelegt werden. Ebenso können konkrete Aufgaben gestellt oder Proben genommen werden – der internationale Alterssurvey SHARE (»Survey of Health, Ageing and Retirement in Europe«) führt mit seinen älteren Befragungspersonen beispielsweise standardmäßig einen Greifkrafttest mit einem Dynamometer durch und erhebt deren Schritttempo; in der sechsten Erhebung im Jahr 2015 wurden den Befragten nach deren Einverständniserklärung sogar Blutproben entnommen (vgl. Börsch-Supan und Jürges 2015 bzw. Malter und Börsch-Supan 2017).
Erhebungsformen
83
In der Praxis gelten persönliche Befragungen aufgrund der oben skizzierten Vorteile als die Befragungsform mit der höchsten Teilnahmebereitschaft und der geringsten Abbruchquote (Möhring und Schlütz 2010). Die Befragungsdauer kann angesichts des direkten Kontakts bei der mündlichen Befragung zudem mit einer Stunde und mehr deutlich umfangreicher gestaltet werden als bei anderen Befragungsformen (vgl. Schröder 2015). Es mag vor diesem Hintergrund überraschen, dass im Zeitverlauf die Verbreitung persönlicher Interviews deutlich abgenommen hat: Basierten beispielsweise 1990 noch knapp zwei Drittel aller vom Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute durchgeführten Interviews auf persönlicher Befragung, so ging deren Anzahl seitdem deutlich zurück; 2018 wurden nur noch 23 % aller Interviews mit dieser Erhebungsform durchgeführt (Häder 2015: 191; ADM 2019: 15). Mögliche Gründe hierfür – neben der zunehmenden Verfügbarkeit alternativer Erhebungsarten (siehe die folgenden beiden Abschnitte) – sind vermutlich die hohen zeitlichen und finanziellen Kosten, die mit persönlichen Interviews verbunden sind. So müssen Befragungsinstitute bei landesweiten Befragungen über einen beachtlichen Stamm von Interviewer*innen in verschiedensten Teilen des Landes verfügen, um Befragungen mit vertretbarem logistischem Aufwand durchführen zu können. Sowohl die Stichprobenziehung mittels des beschriebenen Random-route-Verfahrens als auch die Kontaktaufnahme sind durch An- und Rückfahrtzeiten mit einem hohen zeitlichen Bedarf und ggf. finanziellen Kosten verbunden, insbesondere dann, wenn die Befragten zum jeweiligen Zeitpunkt nicht anzutreffen sind und/oder weitere Befragungstermine vereinbart werden müssen. Mündliche Befragungen gelten zudem als besonders anfällig für sogenannte Interviewer effekte. Zwar wird von Interviewern erwartet, dass sie sich im Rahmen des Interviews neutral verhalten, d. h. die Antworten der Befragten lediglich registrieren und ihrerseits nicht kommentieren. Gleichwohl ist davon auszugehen, dass insbesondere bei sensiblen Fragen (etwa nach politischen Einstellungen oder eigenem Verhalten) die Anwesenheit eines Interviewers oder einer Interviewerin erwünschte Antworten befördert; die Befragten also eher als wünschenswert angesehene Antworten geben. Gleichzeitig zeigen Studien, dass auch Charakteristika des Interviewers – etwa dessen wahrnehmbare Persönlichkeitsmerkmale oder dessen Geschlecht und ethnische Herkunft – eine Auswirkung auf das Antwortverhalten haben können (vgl. Glantz und Michael 2014 für einen kompakten Überblick). Ein anschauliches Beispiel für derartige Effekte ist die von Klein und Kühhirt (2010) berichtete Beobachtung, dass bei Fragen nach der Übernahme von Aufgaben im eigenen Familienhaushalt Männer ihr Engagement höher einschätzen, wenn sie von einer Frau befragt werden, als wenn der Interviewer ein Mann ist. Die Autoren erklären dieses Ergebnis dadurch, dass Männer gegenüber Frauen ihre Beteiligung unbewusst so darstellen, dass sie dem gesellschaftlichen Ideal einer egalitären Arbeitsteilung zwischen Mann und Frau entsprechen. Zwar lassen sich derartige Interviewereffekte durch intensive
84
Von der Forschungsfrage zum Forschungsprojekt
Schulung der Interviewer (Glantz und Michael 2014) oder das Ausweichen auf schriftliche Selbstausfüll-Fragebögen bei sensiblen Fragen (vgl. Schröder 2015) reduzieren; sie lassen sich jedoch nicht grundsätzlich vermeiden. Durch die dezentrale Durchführung der Interviews am Wohnort der Befragten sind zudem die Möglichkeiten der direkten Kontrolle der Interviewer*innen beschränkt; es besteht somit grundsätzlich ein erhöhtes Risiko von Fälschungen. Insbesondere in größeren Sozialforschungs-Studien führen Befragungsunternehmen daher regelmäßige Qualitätskontrollen der Feldarbeit durch. Im Rahmen der ALLBUS-Befragungen werden etwa an befragte Personen Kontrollfragebögen gesendet, die stichprobenartig einige wesentliche Charakteristika der Befragungspersonen sowie Informationen im Interviewverlauf erheben. Hiermit lassen sich mitunter vorkommende Fälschungen identifizieren und aus der Befragung ausschließen; ein völliger Ausschluss von Fehlverhalten des Interviewers ist jedoch nicht möglich. MERKEN Die persönliche Befragung beruht auf einem direkten Kontakt zwischen Interviewer und Befragten. Hieraus ergeben sich eine Reihe von Vorteilen für die Interviewsituation: Hilfe stellungen können gegeben und komplexe Fragetypen verwendet werden. Die hohe Motivation der Befragten erlaubt eine Interviewlänge von bis zu 60 Minuten. Potenziell nachteilig sind die hohen Erhebungskosten sowie die relativ große Bedeutung negativer Interviewereffekte; zudem sind mündliche Befragungen vergleichsweise fälschungsanfällig.
3.3.2 Telefonische Befragung Auch telefonische Befragungen beruhen auf einem direkten Austausch zwischen Interviewer und Befragtem, hier findet das Interview jedoch nicht persönlich, sondern fernmündlich im Rahmen eines Telefongesprächs statt. Da gemäß dem Statistischen Bundesamt (2018) mittlerweile nahezu jeder Haushalt in Deutschland entweder über einen Festnetzoder Mobilfunkanschluss verfügt, lässt sich diese Form der Befragung ebenfalls bevölkerungsweit praktizieren. In der Regel ist es heutzutage üblich, die Befragung computer gestützt durchzuführen (»Computer Assisted Telephone Interviews«; CATI). Die Befragung wird dabei meistens von zentralen »Telefonstudios« aus koordiniert, in denen bis zu dreißig Interviewer parallel arbeiten. Ein wesentlicher Vorteil von telefonischen Befragungen liegt in ihrer hohen Kosteneffizienz. Aufgrund der zentralen Durchführung der Interviews in Telefonstudios entfallen die hohen Kosten für die Pflege eines umfangreichen Interviewerfeldes sowie die
Erhebungsformen
85
An- und Abreise zu den Befragten; eine hohe regionale Streuung der Interviews schlägt kostentechnisch somit nicht mehr negativ zu Buche (Hüfken 2019). Eine Besonderheit telefonischer Umfragen stellt die spezifische Form der Stichprobenziehung dar, die jedoch auch zu deren Kosteneffizienz beiträgt (vgl. Gabler und Häder 1997). Die Auswahl von Befragungshaushalten erfolgt bei telefonischen Befragungen nicht im Rahmen einer mehrstufigen Zufallsauswahl durch den Interviewer/die Interviewerin, sondern automatisiert durch eine computergenerierte Zufallsauswahl von Telefonanschlüssen. Wegen des Fehlens einer vollständigen Liste aller Telefonanschlüsse können die Telefon nummern dabei nicht direkt aus einem Telefonverzeichnis heraus ausgewählt werden. Stattdessen werden existierende Festnetznummern als Ausgangsbasis genommen und die letzten zwei Ziffern einer ausgewählten privaten Telefonnummer durch vom Computer generierte Zufallszahlen ersetzt. Diese als randomized large digit (RLD) bezeichnete Methodik ermöglicht es, auch nicht im Telefonverzeichnis vorhandene Telefonanschlüsse zu erreichen. Ein analoges Verfahren zur Generierung von Zufallsnummern auf Basis der von den Netzbetreibern vergebenen Nummern wird ebenso für Mobilfunkanschlüsse durchgeführt, deren Anzahl in den vergangenen Jahren rapide zugenommen und die Festnetzanschlüsse mittlerweile in ihrer Verbreitung überholt hat. Um auch Anschlüsse in die Stichprobe aufnehmen zu können, die nur über eine der beiden Kontaktmöglichkeiten (Mobilfunk oder Festnetz) verfügen, werden die beiden Auswahlverfahren miteinander kombiniert. Innerhalb des kontaktierten Zielhaushaltes wählt der Interviewer schließlich wiederum die Befragungsperson mittels eines Zufallsschlüssels aus. Ist ein Anschluss besetzt oder nicht erreichbar, werden automatisch regelmäßige Rückrufe veranlasst, der Interviewer/die Interviewerin wird also auch hier bei der Koordinierung des Stichprobenzugangs entlastet. Aufgrund der bis zur Befragtenauswahl komplett automatisierten Form der Stichprobenauswahl sind telefonische Stichproben somit sowohl personal- als auch zeitsparend. Die verantwortliche Studienleitung besitzt während der telefonischen Interviews die Möglichkeit, sich als Zuhörer*in »einzuklinken« und dementsprechend den Interviewverlauf stichprobenartig zu überprüfen. Durch diese besseren direkten Kontrollmöglichkeiten ist die Einschränkung von Interviewerfälschungen hier effektiver möglich als bei persönlichen Befragungen. Nachteile der telefonischen Befragung liegen in der geringeren möglichen Dauer von Interviews, die sich angesichts des weniger direkten Kontakts erfahrungsgemäß auf 30–45 Minuten bei Telefoninterviews beschränkt; sie werden von den Befragten auch häufiger als langweilig eingestuft (vgl. Häder 2015). Während des Interviews können Hilfsmittel (wie Listen oder Kartenspiele) meist nicht verwendet werden. Komplexe Fragen, etwa Fragen mit umfangreichen Antwortmöglichkeiten, können ebenfalls nur in sehr begrenztem Maße aufgenommen werden. Schließlich werden Interviewereffekte durch den weniger direkten, rein akustischen Kontakt bei telefonischen Interviews zwar redu-
86
Von der Forschungsfrage zum Forschungsprojekt
ziert; gleichwohl treten sie auch hier auf, da grundlegende Charakteristika des Interviewers (z. B. das Geschlecht) ebenso wie Persönlichkeits- und Verhaltensmerkmale nach wie vor durch die Befragten wahrgenommen werden können und ihr Verhalten beeinflussen. Telefonische Befragungen erlebten ihre »Hochphase« etwa zur Jahrtausendwende; der ADM berichtet, dass etwa 45 % aller Interviews in den Jahren 2000 bzw. 2005 mittels telefonischer Befragung durchgeführt wurden (vgl. Häder 2015: 191). Seitdem ist deren Anteil deutlich rückläufig, im Jahre 2018 wurden nur noch etwas mehr als ein Viertel aller Interviews telefonisch durchgeführt (ADM 2019: 217). Ein Grund für die abnehmende Nutzung dieser Erhebungsmethodik sind die sinkenden Ausschöpfungsquoten telefonischer Befragungen, die Teilnahme wird also in zunehmendem Maße durch die Befragten verweigert. Eine wesentliche Ursache hierfür ist mutmaßlich die zunehmende Nutzung von Telefonanrufen für Werbung und Produktmarketing, die zu einer steigenden Skepsis gegenüber telefonischer Kontaktaufnahme geführt haben. Die führende Rolle nehmen heutzutage Online-Interviews ein, die gegenwärtig 40 % aller Interviews ausmachen (ADM 2019) und die im folgenden Kapitel näher erläutert werden. MERKEN Bei telefonischen Befragungen wird der Kontakt zwischen Befragtem und Interviewer fernmündlich hergestellt. Die Durchführung erfolgt meist zentral in speziellen Telefonstudios, wodurch Untersuchungskosten deutlich gesenkt werden können, während viele Vorteile einer persönlichen Befragung erhalten bleiben. Nachteilig sind vor allem die Reduzierung der möglichen Interviewzeit sowie die begrenzteren Möglichkeiten zur Nutzung von Hilfsmitteln und komplexeren Fragedesigns. Der zunehmende Missbrauch von Telefonkontakten zu Marketing- und Verkaufszwecken trägt zudem zu steigenden Verweigerungsraten bei.
3.3.3 Schriftliche Befragung Online-Befragungen stellen letztlich eine Sonderform der sogenannten schriftlichen Befragung dar. Bei schriftlichen Befragungen wird auf Interviewer*innen verzichtet, die/der Befragte füllt den ihr/ihm vorgelegten Fragebogen unkontrolliert und eigenständig aus. Dies kann zum einen im Hause der/des Befragten selbst stattfinden. Eine andere Variante beruht darauf, dass Fragebögen in Anwesenheit eines/einer »Versuchsleiter*in« selbst ausgefüllt werden. Dies ist beispielsweise dann der Fall, wenn innerhalb einer Schulklasse eine Befragung während des Unterrichts durchgeführt wird und der Forscher/die Forscherin selbst zugegen ist. Dies hat zwei grundsätzliche Vorteile: Zum einen kann er/ sie z. B. bei Verständnisfragen selbst als kompetente*r Ansprechpartner*in dienen. Zum
Erhebungsformen
87
anderen kann der Fragebogen im direkten Anschluss an das Ausfüllen wieder eingesammelt werden, ein relativ hoher Rücklauf ist damit garantiert. In der klassischen Form der schriftlichen Befragung wird ein Papierfragebogen ausgefüllt. Diese Variante ist heute nur noch sporadisch vorzufinden; etwa wenn einer Ausgabe einer Zeitschrift ein Fragebogen zur Kundenzufriedenheit beigelegt ist, den Sie in einem (ebenfalls beigelegten) frankierten Briefumschlag an den Verlag zurücksenden sollen. Laut ADM (2019) werden heute nur noch ca. 5 % aller Umfragen auf diese Weise durchgeführt. Üblicher ist die sogenannte Online-Befragung. Die Befragten füllen hierbei einen elektronisch programmierten Fragebogen eigenständig auf dem privaten PC aus und versenden ihn auch direkt von dort aus durch »Anklicken« an das erhebende Institut. Schriftliche Befragungen weisen eine Reihe von Vorteilen auf: Durch das Fehlen von Interviewern treten keine Interviewer-Effekte auf, das Problem vermeintlich erwünschter Antworten kann entsprechend minimiert werden. Schriftliche und Online-Studien eignen sich dadurch sehr gut für die Untersuchung sensibler Fragestellungen. Ein weiterer Vorteil liegt in der sehr hohen Kosteneffizienz derartiger Studien. Da auf Interviewer*innen verzichtet wird, fallen Kosten zunächst einmal nur für den Druck und Versand der Fragebögen (bei der klassischen schriftlichen Befragung) bzw. für die Programmierung (beim Online-Fragebogen) sowie für die Datenaufbereitung/-auswertung an. Die Programmierung von Online-Fragebögen ist dabei keineswegs nur eine Sache für spezialisierte Informatiker*innen: Heute ermöglichen eine Reihe von (zum Teil kostenfreien) Internetportalen (z. B. SoSci Survey, SurveyMonkey oder LimeSurvey) das eigenständige und schnelle Erstellen optisch ansprechender Online-Befragungen. Sie sind mittlerweile entsprechend nicht nur in der professionellen Forschung, sondern auch bei der Durchführung von Lehrforschungen oder Abschlussarbeiten weit verbreitet. Online-Studien ermöglichen es, innerhalb kurzer Zeit mit wenig Aufwand viele Befragte zu erreichen. Ist der Fragebogen einmal programmiert, so kann er durch das Bereitstellen eines Links einer hohen Befragtenzahl gleichzeitig zur Verfügung gestellt werden. Den Befragten ist zudem freigestellt, wann und wo sie den Fragebogen ausfüllen möchten. Das bei Telefoninterviews und persönlichen Befragungen oftmals recht aufwendige Vereinbaren von Befragungsterminen (und ggf. -orten) entfällt somit. Schriftliche Befragungen erlauben den Befragten schließlich auch ein besseres »Durchdenken« der Fragen. Während sich der/die Befragte bei der telefonischen oder persönlichen Befragung möglicherweise aus Höflichkeitsgründen genötigt fühlt, die eigene Antwort nicht lange zu verzögern, entscheidet er/sie bei einer schriftlichen Befragung selbst über die notwendige Bedenkzeit. Diesen Vorteilen stehen jedoch auch eine Reihe von Nachteilen gegenüber. Der Wegfall von Interviewer*innen bedeutet nicht nur den Wegfall störender Interviewereffekte; gleichzeitig können auch keine Hilfestellungen mehr gegeben, Fragen erläutert oder Unklarhei-
88
Von der Forschungsfrage zum Forschungsprojekt
ten geklärt werden. Um dennoch die Beantwortung möglichst aller Fragen sicherzustellen, sollten diese einfach und präzise formuliert und notwendige Fachbegriffe ggf. schriftlich erläutert werden. Interviewer*innen entfallen auch als Motivator*innen der Befragung, die Ausfüllsituation wird dadurch unverbindlicher. Ist kein/e Versuchsleiter*in vor Ort, so ist es den Befragten völlig freigestellt, ob und wann sie den Fragebogen ausfüllen und zurücksenden. Ein großes Problem schriftlicher Befragungen stellt daher die verhältnismäßig geringe Rücklaufquote dar. Mit der Abwesenheit von Interviewer*innen entfällt zudem die Kontrolle der Befragungssituation; es kann somit (außer bei Anwesenheit eines Versuchsleiters/einer Versuchsleiterin) nicht mehr sichergestellt werden, dass die Befragten den Fragebogen eigenständig und unbeeinflusst ausfüllen. Problematisch erscheint bei der schriftlichen bzw. Online-Befragung auch die Gestaltung der Stichprobenziehung. Lagen bei schriftlicher und telefonischer Befragung Zufallsverfahren vor, um die Befragten repräsentativ auszuwählen, so gestaltet sich das Vorgehen bei schriftlichen Befragungen deutlich schwieriger. Während beim klassischen Versand von Papierfragebögen oftmals Zufallsauswahlen aus umfangreichen Adresslisten zur Anwendung kommen, stellt sich die Situation bei Online-Befragungen deutlich problematischer dar. Bestimmte Personengruppen – etwa hochaltrige Personen – verfügen zudem oft über keinen PC bzw. haben keine ausreichenden Online-Kenntnisse, sodass diese in derartigen Befragungen meist schwerer zu erreichen sind. Eine im strengen Sinne repräsentative Stichprobe kann mit Hilfe von Online-Befragungen daher nicht erreicht werden. Ein zumindest teilweiser Lösungsansatz bestünde zwar darin, die Befragten vor der Online-Befragung »offline« – etwa durch ein mehrstufiges Zufallsverfahren gemäß dem ADM-Design – zu rekru tieren; hierdurch geht jedoch der Vorteil höherer Kosteneffizienz nahezu völlig verloren. MERKEN Die schriftliche Befragung wird durch den Befragten eigenständig ohne Hilfe eines Interviewers durchgeführt; sie erfolgt heutzutage meist online. Interviewereffekte können hierdurch weitestgehend ausgeschlossen werden, gleichzeitig fallen jedoch die Möglichkeiten zur Motivation und Hilfestellung weg. Schriftliche Fragebögen müssen daher verhältnismäßig einfach und verständlich gestaltet werden, die unpersönliche Befragungssituation befördert zudem geringe Ausschöpfungsquoten.
Die vorangegangenen Darstellungen verdeutlichen bereits, dass letztlich keine grundsätzlich »optimale Form« der Befragung existiert. Alle Befragungsmethoden verfügen über
89
Erhebungsformen
spezifische Stärken und Schwächen, die Tabelle 3.3 zusammenfassend verdeutlicht. Die Auswahl sollte daher je nach verfügbarem Kosten- und Zeitrahmen bzw. vor dem Hintergrund der eigenen Fragestellung getroffen werden. Persönliche Befragungen stellen diejenige Methode dar, die den höchsten Rücklauf garantiert und eine relativ lange Interviewdauer ermöglicht. Aufgrund der möglichen Unterstützung durch Interviewer*nnen, des Einbaus komplexer Fragenformate, der möglichen Nutzung von Hilfsmitteln und der Kontrolle der Befragungssituation weisen mündliche Befragungen zudem eine hohe Datenqualität auf. Tabelle 3.3: Vor- und Nachteile verschiedener Befragungsformen (eigene Darstellung) Vorteile
Nachteile
Persönliche Befragung
– Bewährte Verfahren der repräsentativen Stichprobenziehung – Kontrolle der Interviewsituation – Vergleichsweise hohe Ausschöpfungsquoten – Unterstützung durch Interviewer möglich – Einsatz von Hilfsmitteln und komplexen Fragen
– Interviewereffekte, erwünschte Antworten – Hoher Kostenaufwand
Telefonische Befragung
– Bewährte Verfahren der repräsentativen Stichprobenziehung – Kontrolle der Interviewsituation – Geringer Kostenaufwand – Unterstützung durch Interviewer möglich
– Interviewereffekte, erwünschte Antworten – Notwendigkeit einer entsprechenden Infrastruktur (Telefonstudio) – Nur bedingter Einsatz komplexerer Frageformen – Steigende Verweigerungsraten
Online-Befragung
– Bei ausreichenden Ausschöpfungsquoten: Geringe Kosten – Zeitliche/räumliche Flexibilität – Keine negativen Interviewereffekte → hohe Eignung für sensible Themen – Besseres Durchdenken der Fragen
– Problem der repräsentativen Stichprobenziehung – Keine Hilfestellung durch Interviewer → Notwendigkeit einfacher Fragebogengestaltung – Voraussetzung von Medienkompetenz und technischer Ausstattung – Oft geringe Rücklaufquoten – Keine Kontrolle der Befragungssituation
Gegen die mündliche Befragung sprechen die – insbesondere bei geografisch breit gestreuten Stichproben – notwendigen hohen Kosten für Interviewer*innen und Stichprobengenerierung. Bei sensiblen Themen kann sich die Anwesenheit von Interviewer*innen negativ auswirken und die Ergebnisse verzerren. Telefonische Befragungen stellen eine kostengünstige Alternative zu persönlichen Interviews dar, die eine Reihe gemeinsamer Vorteile aufweisen (Möglichkeit einer repräsen-
90
Von der Forschungsfrage zum Forschungsprojekt
tativen Stichprobenziehung, Unterstützung durch Interviewer). Hier wird jedoch eine gewisse technische Grundausstattung (Telefonstudio) benötigt. Weitere Begrenzungen liegen in der Verwendung komplexerer Fragenformate und der Gesamtdauer der Interviews. Trotz des weniger direkten Kontaktes zwischen der/dem Befragtem und dem Interviewer/der Interviewerin ist auch hier die Eignung des Verfahrens bei sensiblen Themenstellungen fraglich. Ein besonders markanter Nachteil besteht in jüngerer Vergangenheit in den hohen Verweigerungsraten. Schriftliche bzw. Online-Befragungen erscheinen hingegen bei sensiblen Themen besonders geeignet, da Interviewereffekte weitgehend ausgeschlossen werden können. Die Anwendung des Verfahrens ist zudem aufgrund des geringen finanziellen und zeitlichen Aufwands auch für kleinere Forschungskontexte wie etwa Lehrforschungen oder Abschlussarbeiten geeignet. Maßgebliche Probleme liegen in der notwendigerweise einfachen Gestaltung des Fragebogens und in den bislang unzureichenden Möglichkeiten zur Ziehung einer statistisch repräsentativen Stichprobe. 3.3.4 Alternative Formen quantitativer Datenerhebung: Beobachtung und Inhaltsanalyse Befragungen stellen in der quantitativen Sozialforschung die mit Abstand am weitesten verbreitete Form der Datenerhebung dar. In manchen Kontexten kann es aber sinnvoll sein, andere Erhebungstechniken anzuwenden. Im Folgenden sollen die beiden verbreitetsten Alternativformen – die Beobachtung und die Inhaltsanalyse – zumindest in groben Ansätzen skizziert werden (ausführlichere Darstellungen einer quantitativen Nutzung dieser Verfahren finden sich etwa bei Diekmann 2012 oder Häder 2015). Bei beiden Verfahren handelt es sich – im Gegensatz zum zuvor beschriebenen standardisierten Interview – um Erhebungsformen, die sich sowohl in der quantitativen als auch in der qualitativen Forschung finden. Das Spezifikum der quantitativen Nutzung beider Verfahren besteht darin, dass beide Methoden verwendet werden, um Beobachtungen in Form von zuvor festgelegten Kategorien festzuhalten, sodass diese anschließend einer quantitativstatistischen Analyse unterzogen werden können. Beobachtung
Stellen Sie sich zunächst einmal vor, Sie möchten an einer Schule, in der es in der jüngeren Vergangenheit zu Mobbingfällen gekommen ist, eine Untersuchung zum Thema »Gewalt auf dem Schulhof« durchführen. Hierbei sollen die Häufigkeit und das Ausmaß von Gewalt während der Unterrichtspausen untersucht werden. Die Durchführung einer Befragung von Schülerinnen und Schülern wäre in diesem Kontext kaum sinnvoll. Selbst bei einer verhältnismäßig anonymen schriftlichen Erhebung würden Ihnen die Schü-
Erhebungsformen
91
ler*innen vermutlich aus Scham nicht mitteilen, wann sie selbst schon einmal zum Opfer von schulischer Gewalt geworden sind bzw. selbst schon einmal Gewalt ausgeübt haben. Eine naheliegende Alternative bestünde in einer Beobachtung des Verhaltens der Schüler*innen während der Schulpausen. Sie positionieren sich (idealerweise zusammen mit anderen Forscher*innen) an verschiedenen Stellen des Schulhofs und beobachten das Verhalten der Schülerinnen und Schüler nach einer vorher festgelegten Systematik. Dafür sind detaillierte Absprachen mit Ihrem Forschungsteam über die Beobachtung von zentraler Bedeutung. Zunächst einmal sollten die Beobachtungsorte eindeutig aufgeteilt werden. Im oben genannten Fall könnte dies bedeuten, den Schulhof beispielsweise in verschiedene »Sektoren« aufzuteilen, für die jeweils ein Forscher/eine Forscherin eigenständig verantwortlich ist. Abgesprochen werden müsste zudem der Gegenstand der Beobachtung, also was genau beobachtet werden soll. Geht es bei der Beobachtung nur um das Auftreten körperlicher Gewalt (etwa das Schlagen oder Schubsen auf dem Schulhof)? Oder sollen auch Formen verbaler Gewalt (Beschimpfungen, Beleidigungen) beobachtet werden? Welche weiteren Charakteristika der Situation sollen beobachtet werden (etwa das Geschlecht und/oder die Anzahl der beteiligten Schüler*innen)? Schließlich sollten zuvor Absprachen darüber getroffen werden, wie das Verhalten von Schüler*innen eingeordnet werden soll. Ist beispielsweise das Schubsen auf dem Schulhof noch ein Ausdruck kumpelhafter Spielerei zwischen Jugendlichen? Oder kann dies schon als Ausdruck von Gewalt eingestuft werden? Eine gemeinsame Absprache von Kategorien verschiedener Verhaltensweisen zwischen den Interviewer*innen ist entsprechend notwendig, um die einzelnen Beobachtungen miteinander vergleichen zu können. Werden die Beobachtungen gemäß einer vorher abgesprochenen Systematik festgehalten, lässt sich hieraus ein Datensatz generieren, der ähnlich wie Befragungsdaten aufbereitet und ausgewertet werden kann. Im vorangegangenen Beispiel sind wir davon ausgegangen, dass die Beobachtung verdeckt stattfindet, die Schüler*innen also über die Durchführung der Erhebung nicht vorab informiert werden. Dies erscheint im vorliegenden Fall auch sinnvoll, da Schüler*innen bei Kenntnis über die Beobachtung sich ggf. erwünscht verhalten (hier also auf Gewaltanwendung verzichten) würden. In anderen Befragungskontexten kann es sinnvoll oder sogar notwendig sein, die Beobachtung offenzulegen. Will man beispielsweise das Verhalten von Kindern und Jugendlichen bei einem inklusiven Freizeitangebot beobachten, wird es kaum möglich sein, dies aus einer größeren Distanz zu tun. Hier müssen Kinder, Betreuungspersonen und ggf. Erziehungsberechtigte entsprechend vorab über die (sichtbare) Anwesenheit eines Forschers informiert werden. Probleme von Beobachtungen ergeben sich zum einen durch die fehlende Kommunikation mit dem Untersuchungsobjekt. So kann beispielsweise nicht sichergestellt werden, ob die vom Forscher bzw. von der Forscherin beobachtete Rangelei auf dem Pausenhof tatsächlich als Gewalthandlung vom betroffenen Jugendlichen wahrgenommen
92
Von der Forschungsfrage zum Forschungsprojekt
wird (Wahrnehmungsfehler). Da unter Umständen eine Aufzeichnung der Beobachtungen während des Beobachtungsprozesses nicht möglich ist, können bei deren nachträglicher Rekonstruktion Verzerrungen auftreten (Erinnerungsfehler). Ebenso können persönliche Dispositionen des Forschers ggf. dessen Wahrnehmung beeinflussen (vgl. Häder 2015: 314 ff.). MERKEN Beobachtungen basieren auf einer systematischen Erfassung des Verhaltens von Personen und relevanter Kontexte. Sie eignen sich besonders bei Fragestellungen, die aufgrund ihres inhaltlich sensiblen Charakters einer direkten Befragung nicht zugänglich sind.
Inhaltsanalyse
Eine weitere alternative Möglichkeit der Datenerhebung besteht in der strukturierten Inhaltsanalyse. Gegenstand der Erhebung sind hier meist nicht das Verhalten von Individuen, sondern Kommunikationsinhalte, wie etwa Texte, Bilder oder Dokumente, die einer systematischen Betrachtung unterzogen werden. Ein großer Vorteil besteht in der »Nicht-Reaktivität« dieses Verfahrens: Texte »reagieren« nicht mehr auf die nachträgliche Untersuchung (wie ggf. Befragte während einer Befragung oder Schüler während der oben skizzierten Beobachtung), sodass Interviewer- bzw. Beobachtungseffekte ausgeschlossen werden können. Der Untersuchungsaufwand ist vergleichsweise gering und kann im Extremfall sogar durch eine einzelne Person erbracht werden (was bei Beobachtungen und Befragungen meist nicht möglich ist). Ebenso kann das Unter suchungsmaterial geduldig und ggf. mehrfach ausgewertet werden; der bei Beobachtungen auftretende Erinnerungsfehler spielt hier also ebenfalls keine Rolle. Schließlich lassen sich Untersuchungsgegenstände auch rückwirkend analysieren; Inhaltsanalysen bieten also die Möglichkeit zur Langzeitbeobachtung gesellschaftlicher Trends bzw. historischer Analysen. Gehen Sie beispielsweise davon aus, Sie wollen analysieren, wie sich die öffentliche Wahrnehmung einer bestimmten Adressat*innengruppe – etwa der Empfänger*innen sozialstaatlicher Hilfeleistungen (z. B. Hartz-IV-Leistungen) – in der medialen Darstellung verändert hat. Werden diese als bedürftige Empfänger*innen einer staatlichen Hilfeleistung angesehen, die unverschuldet in eine Notlage geraten sind (die sogenannten deserving poor)? Oder werden diese als Leistungsempfänger*innen beschrieben, die sich aus eigenem Verschulden in einer Notlage befinden und nur unzureichende Maßnahmen ergreifen, um ihre Transferabhängigkeit zu reduzieren (undeserving poor; vgl. Katz 2013)?
Erhebungsformen
93
Eine Möglichkeit, diese Fragestellung zu untersuchen, bestünde darin, einen möglichst repräsentativen Ausschnitt von Presseerzeugnissen daraufhin zu überprüfen, inwiefern die eine oder andere Darstellungsweise darin Verwendung findet. Sie könnten hierzu aus Pressearchiven oder Mediatheken Zufallsstichproben von Artikeln, die sich auf das Thema Armut beziehen, entnehmen und überprüfen, mit welchen Eigenschaften Bezieher*innen sozialer Transferleistungen dort in Verbindung gebracht werden. In einem ersten Schritt könnte dann beispielsweise untersucht werden, in welcher Häufigkeit der Begriff »Transferleistungsempfänger*in« (oder synonyme Bezeichnungen) in Presseerzeugnissen überhaupt erwähnt wird (Frequenzanalyse). Eine Analyse des gemeinsamen Auftretens der Formulierung »Transferleistungsempfänger*in« mit begleitenden positiven bzw. negativen Adjektiven über längere Zeiträume hinweg könnte darüber hinaus dabei helfen, einen ersten Überblick zu erhalten, wie die Personengruppe medial beschrieben wird und wie sich diese Beschreibung im Zeitverlauf verändert (Kontingenzanalyse). Ebenso ließe sich die Intensität der Bewertung aus den Texten rekonstruieren: Wird das Verhalten von Leistungsbezieher*innen von Journalist*innen etwa als »schwierig« oder »ausgesprochen problematisch« bezeichnet (Intensitätsanalyse)? Problematisch ist bei Inhaltsanalysen ggf. die Verfügbarkeit von Quellen: Für welche Zeiträume liegen im obigen Beispiel etwa Presserzeugnisse vor und in welchem Ausmaß bzw. in welcher Form (elektronisch oder schriftlich) sind diese zugänglich? Auswertungen bedürfen bei mehreren Auswertern einer sehr detailreichen Absprache über zentrale Forschungsaspekte; so müssen die Auswahl des zu untersuchenden Materials (z. B.: Welche Zeitungen/Zeitungsarchive sollen genutzt werden? Welche Art von Texten?) ebenso wie die Kategorisierung verwendeter Begrifflichkeiten (Welche Begrifflichkeiten werden als Synonym für »Hartz-IV-Bezieher« angesehen? Welche beschreibenden Adjektive sind positiv, welche negativ konnotiert?) vorab detailliert festgelegt werden, um auch bei mehreren Auswerter*innen konsistente Analyseergebnisse zu erhalten. Selbst dann kann es auch hier zu Interpretationsfehlern kommen, z. B. wenn verwendete Begrifflichkeiten mehrdeutig sind. MERKEN Inhaltsanalysen bezeichnen eine systematische nachträgliche Analyse von Kommunikationen (etwa Texten oder Dokumenten). Sie eignen sich sehr gut für retrospektive bzw. historische Analysen.
4. Messung
In den vorangegangenen Kapiteln haben Sie sich mit einigen wesentlichen Schritten des quantitativen Forschungsablaufs beschäftigt. Sie haben betrachtet, wie Forscher*innen zu einer theoretisch fundierten Forschungsfragestellung gelangen und diesbezüglich Hypothesen entwickeln (Kapitel 2). Sie haben sich mit der Frage beschäftigt, welches Forschungsdesign – deskriptive Forschung, hypothesentestende Forschung, evaluierende Forschung oder experimentelle Forschung – am geeignetsten ist, um der zuvor aufgestellten Forschungsfragestellung gerecht zu werden (Abschnitt 3.1): Basierend hierauf haben Sie sich mit den zur Verfügung stehenden Auswahlverfahren zur Rekrutierung der Erhebungseinheiten (Abschnitt 3.2) sowie verschiedenen Modi der Datenerhebung (Abschnitt 3.3) befasst. Nach Klärung dieser grundlegenden Fragestellungen wird in diesem Kapitel nun als letzter Schritt der »Erhebungsvorbereitung« der Frage nachgegangen, wie die Forschungsfrage empirisch messbar gemacht werden kann. Hierzu gliedert sich das Kapitel in mehrere Teilabschnitte. Zunächst befassen wir uns einleitend mit der Frage, was genau unter Messung in der quantitativen Sozialforschung verstanden wird und wie man von einem abstrakten theoretischen Konzept zu einer konkreten Form der Erfassung relevanter Informationen gelangen kann, die es uns ermöglicht, die zuvor aufgestellten Hypothesen auf Basis empirischer Daten zu überprüfen (Abschnitt 4.1). Hierbei werden wir als Beispiel auf das sowohl in der Sozialen Arbeit als auch in der Sozialpädagogik hochgradig relevante Feld der Erforschung von Armut zurückgreifen (vgl. z. B. Butterwegge et al. 2004, 2015; Otto 2006; Maier 2009; Markert & Otto 2008), das uns durch dieses Kapitel begleiten wird. Anhand dieses Beispiels werden wir uns in Abschnitt 4.2 auch die Grundidee sogenannter Skalen- bzw. Messniveaus verdeutlichen, die unterschiedliche Arten der Erfassung empirisch beobachtbarer Phänomene beschreiben. Während für eine Reihe empirischer Phänomene (etwa das Geschlecht, das Einkommen oder der höchste Bildungsabschluss) die Messung verhältnismäßig einfach mittels einer einzelnen Frage erfolgen kann, sind etwa individuelle Einstellungsmuster deutlich komplexere Untersuchungsgegenstände. Abschnitt 4.3 fokussiert entsprechend auf die Messung mehrdimensionaler Phänomene. Für jede Form der Messung ist es von zentraler Bedeutung, dass diese tatsächlich eine gute Messung des zugrunde liegenden empirischen Phänomens darstellt. Abschnitt 4.4 beschäftigt sich entsprechend mit den hierfür zur Beurteilung vielfach zu Rate gezogenen Gütekriterien der Messung in der quantitati-
Was versteht man unter Messung?
95
ven Sozialforschung. Abschnitt 4.5 verdeutlicht schließlich anhand einiger ausgewählter Beispiele aus der praktischen Forschung exemplarisch, wie ein Messinstrument konkret aussehen kann und welche grundlegenden Regeln bei dessen Erstellung zu beachten sind.
4.1 Was versteht man unter Messung? Stellen Sie sich vor, Sie sind von einem Wohlfahrtsverband beauftragt worden, das Ausmaß von Armut an Ihrem Wohnort bzw. in Ihrer Region zu ermitteln. Wie häufig tritt Armut auf und bei welchen gesellschaftlichen Gruppen ist diese besonders vorzufinden? Als gewissenhafter Leser des vorangegangenen Kapitels haben Sie schnell erkannt, dass es sich hierbei zunächst um eine beschreibende (deskriptive) Form der Forschung handelt (vgl. Abschnitt 3.1). Sie haben (ggf. unterstützt durch ein einschlägiges Sozialforschungsunternehmen) sichergestellt, dass Sie innerhalb Ihrer Stadt bzw. Ihrer Region eine repräsentative Stichprobe von Befragten ziehen können (etwa durch Verwendung einer mehrstufigen Zufallsauswahl; vgl. Abschnitt 3.2). Zudem haben Sie sich möglicherweise für eine telefonische Erhebung entschieden, um beim sensiblen Thema Armut das Ausmaß an Interviewereffekten möglichst zu minimieren, gleichzeitig die Befragten aber in der Beantwortung der Fragen persönlich unterstützen zu können (Abschnitt 3.3). Wie aber wollen Sie nun konkret das Auftreten von Armut in Ihrer Stichprobe erheben? Eine direkte Frage (»Sind Sie arm?«) erscheint hier wenig sinnvoll, da das Phänomen der Armut komplex ist und viele unterschiedliche Facetten aufweist. Ein kleiner Exkurs in die Armutsforschung mag diese Komplexität etwas verdeutlichen. Armut ist ein Begriff, der sowohl in der Fach- als auch in der Umgangssprache regelmäßig Verwendung findet, beispielsweise, wenn von »Kinderarmut« oder »Altersarmut« gesprochen wird. Unterstellt wird dabei meist ein grundlegendes, allgemein vergleichbares Verständnis des Begriffs der Armut. Europäische Umfragedaten aus dem Jahr 2009 (TNS Opinion and Social 2010: 8 ff.) belegen indes, dass innerhalb der Bevölkerung europäischer Länder sehr unterschiedliche Auffassungen von Armut vorherrschen: Etwa ein Viertel aller Befragten bezieht sich bei der Frage nach der persönlichen Definition von Armut auf Aspekte sozialer Teilhabe (»Menschen sind arm, wenn ihre finanziellen Mittel so begrenzt sind, dass sie nicht uneingeschränkt am gesellschaftlichen Leben teilhaben können«; ausgewählt von 24 % der Befragten) bzw. die Möglichkeiten privaten Konsums (»Menschen sind arm, wenn sie sich die grundlegenden Dinge des Lebens nicht leisten können [Lebensmittel, Unterkunft, Kleidung etc.], 22 %). Weitere 21 % orientieren ihre persönliche Armutsdefinition am Angewiesen-Sein auf öffentliche Unterstützungsleistungen, während sich immerhin noch 18 % auf die offizielle nationale Armutsgrenze zur Abgrenzung berufen.
96
Messung
Diese Ambiguität in der öffentlichen Wahrnehmung des Armutsbegriffs findet ihr Pendant in der wissenschaftlichen Forschung. Hier wird beispielsweise »vom Elend eines Begriffs« gesprochen, der »keine überzeugende und verbindliche Definition aufweist« (Brenke 2018: 260). Auch die seit 2001 durchgeführten Einkommens- und Reichtums berichte der Bundesregierung betrachten Armut als »ein gesellschaftliches Phänomen mit vielen Facetten«, das sich »einer einfachen und eindeutigen Messung« entzieht (Bundes regierung 2017: 550) bzw. deren sozialwissenschaftliche Messung »im streng wissenschaftlichen Sinne nicht lösbar ist« (Bundesregierung 2000: 28). Die Problematik einer einheitlichen Definition wird darauf zurückgeführt, dass »die Festlegung von Armuts- oder Armutsrisikogrenzen […] immer auf Werturteilen [beruht]« (Brenke 2018: 266) und entsprechend »kein zu jeder Zeit und an jedem Ort der Welt passendes Maß für Armut« (Butterwegge 2018: 29) existiert. Bei dem Gegenstandsbereich Armut handelt es sich somit um ein komplexes und vielschichtiges Phänomen. Bevor Sie Ihr empirisches Forschungsvorhaben zur Untersuchung von Armut beginnen, müssen Sie daher zunächst einmal den Kernbegriff der Armut und seine verschiedenen Dimensionen für die Zwecke Ihrer Untersuchung genauer bestimmen. Was verstehen Sie unter Armut und welche Dimensionen weist sie auf? Ein solcher erster Schritt der genaueren Bestimmung von Begrifflichkeiten und Dimensionen wird als Konzeptspezifikation bezeichnet. MERKEN Unter Konzeptspezifikation wird die eindeutige Definition von Kernbegriffen Ihrer Untersuchung bzw. eine Unterscheidung der für Ihre Untersuchung relevanten Dimensionen des Begriffs verstanden.
Zur näheren Bestimmung des Armutsbegriffs könnten Sie sich beispielsweise die geläufige Definition des Rates der EU von 1984 zu eigen machen, die als arm »Einzelpersonen, Familien und Personengruppen« ansieht, »die über so geringe (materielle, kulturelle und soziale) Mittel verfügen, dass sie von der Lebensweise ausgeschlossen sind, die in dem Mitgliedsstaat, in dem sie leben, als Minimum annehmbar ist« (Rat der Europäischen Gemeinschaften 1985: 1). Die hier vorgenommene Definition deutet bereits drei Unterdimensionen an: die materielle, kulturelle und soziale Dimension von Armut. Eine umfassende Untersuchung von Armut könnte dementsprechend versuchen, Daten zu allen diesen verschiedenen Dimensionen zu erheben. Aus Gründen der Einfachheit der Darstellung werden wir uns im Folgenden vor allem auf den Aspekt materieller Ressourcen beschränken.
Was versteht man unter Messung?
97
Woran kann man nun festmachen, ob eine Person aus materieller Sicht als arm angesehen werden kann? Auch hier finden sich in der Armutsforschung eine Reihe unterschiedlicher Ansätze. Viele davon machen sich an dem verfügbaren Einkommen einer Person fest, um die alltäglichen Bedürfnisse zu decken. Ein möglicher Ansatz zur Bestimmung von Armut könnte nun darin bestehen, eine feste Einkommensgrenze zu definieren, unterhalb derer eine Deckung alltäglicher Bedürfnisse nicht mehr möglich ist. Derartige absolute Armutsgrenzen sind in der Tat weit verbreitet. Auf globaler Ebene wird von internationalen Organisationen ein täglich zur Verfügung stehender Betrag von 1,90 US-Dollar als eine solche absolute Armutsgrenze angesehen (World Bank 2017). Eine Armutsgrenze, die primär ein absolutes physisches Existenzminimum markiert, erscheint jedoch in einem vergleichsweise entwickelten Wohlfahrtsstaat mit staatlicher Mindestsicherung gegen existentielle Probleme nicht als angebracht. Staatliche Armutsgrenzen zur Festlegung von Regelsätzen sozialstaatlicher Unterstützung bezogen sich in Deutschland stattdessen bis Ende der 1990erJahre auf einen von wissenschaftlichen Experten zusammengestellten Warenkorb, der eine Reihe als unverzichtbar angesehener alltäglicher Güter und Dienstleistungen (etwa Lebensmittel, Wohn- und Heizkosten) umfasste (Hauser 2018). Durch regelmäßige Erhebungen des Statistischen Bundesamtes wurden die für einen solchen typischen Warenkorb anfallenden Ausgaben festgestellt, deren Summe entsprechend als geeigneter Grenzwert für Armut verwendet wurde. Problematisch an dieser Form der Armutsbestimmung ist zum einen die Tatsache, dass angesichts häufiger Preisänderungen regelmäßige, zeitaufwendige Aktualisierungen der Armutsgrenzen notwendig sind. Kritisiert werden kann zudem die starke Subjektivität der Zusammenstellung des Warenkorbs; d. h. die Frage, welche Güter oder Dienstleistungen letztlich als »notwendig« angesehen werden sollten. Gehört beispielsweise ein eigener PKW in den Warenkorb? Oder ist ein Ticket der öffentlichen Nahverkehrsbetriebe ausreichend? Es erscheint zudem plausibel anzunehmen, dass sich Konsummuster zwischen verschiedenen Einkommensgruppen unterscheiden und entsprechend auch der Warenkorb unterschiedlich zusammengesetzt sein könnte (vgl. Schneider et al. 2017). Seit 1990 wird dieser Ansatz zur gesellschaftsweiten Festlegung eines Warenkorbs vom Statistischen Bundesamt daher nicht mehr als Armutsgrenze verwendet, stattdessen orientiert man sich an den spezifischen Einkommensbedarfen unterer Einkommensschichten (Hauser 2018). Alle oben beschriebenen Armutsgrenzen stellen absolute Maße zur Armutsbestimmung dar, die eine feste, expertenbasierte Einkommensgrenze voraussetzen. In der internationalen Sozialstatistik wird heutzutage meist eher eine relative Armutsgrenze verwendet, gemäß derer diejenige Person als arm angesehen werden kann, »deren bedarfsgewichtetes Nettoeinkommen pro Kopf (Nettoäquivalenzeinkommen) weniger als 60 Prozent des
98
Messung
statistischen Mittelwertes (Median) in der Gesellschaft beträgt« (BMFSFJ 2008: 71). An dieser Definition sind mehrere Aspekte zu beachten: Ȥ Das Auftreten von Armut wird hierbei nicht mehr an einem von Expert*innen definierten Grenzwert festgemacht, sondern in Beziehung zu den mittleren Einkommen in einer Gesellschaft gesetzt: Wer weniger als zwei Drittel des in einer Gesellschaft vorhandenen Mittelwertes zur Verfügung hat, wird entsprechend als arm angesehen. Eine aufwendige regelmäßige Aktualisierung der Einkommensgrenze durch Preiserhebungen entfällt somit; die Armutsgrenze kann nun durch die (regelmäßig erhobenen) Daten der Einkommensverteilung in Deutschland bestimmt werden. Ebenso trägt diese relative Definition von Armut der Tatsache Rechnung, dass in unterschiedlich wohlhabenden Gesellschaften Armut sehr unterschiedlich ausfallen kann. Ȥ Einkommensverhältnisse werden bei relativen Armutsdefinitionen üblicherweise auf Haushaltsebene erhoben, da hierdurch – im Gegensatz zum individuellen Einkommen – die persönlich zur Verfügung stehenden Einkommensverhältnisse besser erfasst werden können. Studierende, die beispielsweise bei ihren Eltern wohnen, die ihnen ihr Studium in vollem Umfang finanzieren, mögen selbst über kein eigenes Einkommen verfügen. Angesichts der im Haushalt vorliegenden Ressourcen, an denen sie Anteil haben (indem ihnen z. B. Unterkunft und Verpflegung kostenfrei zur Verfügung gestellt werden), können sie jedoch nicht als »arm« angesehen werden. Die Erfassung der insgesamt im Haushalt zur Verfügung stehenden finanziellen Ressourcen erscheint hier entsprechend angemessener. Ȥ Haushalte weisen meist eine unterschiedliche Struktur auf; so lassen sich beispielsweise Singlehaushalte, Familienhaushalte, Mehrgenerationenhaushalte, Wohngemeinschaften und viele andere Haushaltsformen unterscheiden. Mit der unterschiedlichen Personenzahl und ihrem unterschiedlichen Alter gehen unterschiedliche materielle Bedarfe einher. So kann beispielweise davon ausgegangen werden, dass die materiellen Bedarfe eines Paarhaushaltes mit zwei Personen nicht dem doppelten Bedarf eines Single-Haushaltes entsprechen, da Ausgaben (etwa für Lebensmittel, technische Geräte und Einrichtungsgegenstände) geteilt werden können und dementsprechend nicht doppelt anfallen. Ebenso kann davon ausgegangen werden, dass ein Vierpersonenhaushalt mit vier erwachsenen Personen (etwa eine Studierenden-WG) einen höheren Bedarf aufweist als ein gleich großer Familienhaushalt mit zwei Kleinkindern, da die für Kinder notwendigen Ausgaben (etwa für Lebensmittel oder Nahverkehrstickets) diejenigen eines Erwachsenen unterschreiten. Diese je nach Haushaltsform unterschiedlichen Bedarfe werden in der Armutsforschung dadurch vergleichbar gemacht, dass jeder 1
Was unter den hier verwendeten Begriffen »Mittelwert« bzw. »Median« verstanden werden kann, werden Sie in Kapitel 5 ausführlicher erfahren.
Was versteht man unter Messung?
99
im Haushalt wohnenden Person ein unterschiedliches »Gewicht« zugeschrieben wird, durch deren Summe dann das gesamte zur Verfügung stehende Einkommen geteilt wird.2 Die durch eine derartige Bedarfsgewichtung bereinigten Durchschnittseinkommen pro Kopf werden dann als Basis für die Überprüfung relativer Armut verwendet. MERKEN Indikatoren ermöglichen es, abstrakten theoretischen Konstrukten (hier: materieller Armut) konkrete, empirisch beobachtbare Sachverhalte (hier: das einem Haushalt zur Verfügung stehende Haushaltseinkommen) zuzuordnen.
Nach diesem kurzen Exkurs in die Armutsforschung ist Ihnen klar geworden, dass eine bewährte Möglichkeit zur Erfassung materieller Armut in der Erfassung von Haushaltseinkommen besteht (die Sie dann anschließend haushaltsspezifisch in bedarfsgewichtete Pro-Kopf-Einkommen umrechnen). Das Haushaltseinkommen stellt damit einen möglichen, durch empirische Forschung feststellbaren Indikator der abstrakten Dimension der materiellen Armut dar. Die Festlegung derartiger Indikatoren ist ein zweiter wichtiger Schritt der sozialwissenschaftlichen Messung. Die Festlegung eines geeigneten empirischen Indikators kann dabei in unterschiedlicher Weise erfolgen. Etliche Sozial- und Wirtschaftsforscher*innen halten beispielsweise die einseitige Orientierung an verfügbarem Einkommen zur Bestimmung von Armut für grundsätzlich problematisch. Alternativ wird stattdessen vorgeschlagen, zu erfassen, für welche alltäglichen Ausgaben eine Person aufkommen kann und für welche nicht. Ist die Deckung mehrerer dieser Ausgaben nicht mehr möglich, so leidet die Person an Deprivation, die als alternatives Maß von Armut angesehen wird. Abbildung 4.1 gibt einen Überblick über die gemäß der klassischen Studie von Townsend (1979) verwendeten Dimensionen einer solchen deprivationsbasierten Bestimmung von Armut.
2 So wird etwa gemäß der verbreiteten modifizierten Skala der OECD dem Haupteinkommensbezieher ein Wert von 1 zugewiesen, jeder weiteren erwachsenen Person ein Wert von 0,5 und jedem Kind ein Wert von 0,3 (Hagenaars et al. 1994). Für einen Familienhaushalt mit zwei erwachsenen Personen und zwei Kindern ergäbe sich entsprechend ein Gewicht von 1,0 + 0,5 + 0,3 + 0,3 = 2,1. Würde dieser Haushalt ein Gesamteinkommen von 2.100 € aufweisen, läge das äquivalenzgewichtete Pro-Kopf-Einkommen bei 2.100 €/2,1 = 1.000 Euro.
100
Messung
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12.
Ernährung Kleidung Heizung und Beleuchtung Haushaltsausstattung mit Einrichtungsgegenständen inkl. technischer Geräte Wohnqualität Arbeitsbedingungen Gesundheit Wohnumgebung Bildung Familienleben Erholung und Urlaub Soziale Beziehungen
Abbildung 4.1: Dimensionen materieller Deprivation (Quelle: Townsend 1979)
Beide Vorgehensweisen – die Bestimmung von Einkommensarmut und die Feststellung von Deprivation – stellen alternative und äquivalente Möglichkeiten der Festlegung von Indikatoren desselben Konzeptes (materielle Armut) dar. Wie lässt sich nun das Haushaltseinkommen im Rahmen einer sozialwissenschaftlichen Umfrage konkret erfassen? In der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) wird es wie folgt erfragt: F122. Wie hoch ist das monatliche Netto-Einkommen Ihres Haushaltes insgesamt? Ich meine dabei die Summe, die nach Abzug der Steuern und Sozialversicherungsbeiträge übrigbleibt. Euro Abbildung 4.2: Offene Abfrage des Haushaltseinkommens (Quelle: ALLBUS 2018)
Zur Vermeidung von Missverständnissen wird den Befragten zunächst erläutert, was unter dem erfragten »Netto-Haushaltseinkommen« verstanden werden soll. Anschließend werden die Befragten gebeten, eigenständig einen Eurobetrag anzugeben, der dem Nettoeinkommen ihres Haushalts entspricht. Die hier angegebenen Zahlenwerte können direkt übernommen und für statistische Auswertungen verwendet werden. So ließe sich auf Basis dieser Einkommenswerte etwa das durchschnittliche Einkommen von Männern und Frauen direkt errechnen (vgl. Kapitel 5). In der Umfragepraxis hat eine derartige direkte Abfrage von Einkommensbeträgen allerdings durchaus ihre Tücken. So mag etwa aufgrund mangelnder Kenntnisse bzw. Informationen nicht jeder oder jede Befragte in der Lage sein, einen genauen Euro-Betrag für seinen/ihren Haushalt anzugeben. Darüber hinaus könnten Befragte mit besonders hohem oder niedrigem Einkommen aus Scham oder Bescheidenheit nicht bereit sein, Interviewern
101
Was versteht man unter Messung?
eine genaue Auskunft über ihre eigenen Einkommensverhältnisse zu geben. Im schlimmsten Fall hätte dies eine hohe Anzahl an fehlenden Antworten zur Folge, die eine realistische Einkommensschätzung entsprechend erschweren würde. Im ALLBUS wird den Befragten im Fall einer Antwortverweigerung daher alternativ eine Liste möglicher Einkommenskategorien vorgelegt, aus denen sie die für sie zutreffende auswählen soll (vgl. Abbildung 4.3). Dabei soll dem/der Interviewer*in nicht die konkrete Einkommenskategorie, sondern der ihr zugeordnete Großbuchstabe des Alphabets genannt werden. Listenvorgabe B T P F E H L N R M S K Z C G Y J V Q A D W
200 300 400 500 625 750 875 1.000 1.125 1.250 1.375 1.500 1.750 2.000 2.250 2.500 2.750 3.000 4.000 5.000 7.500
(Numerischer Eintrag im Datensatz) 1 unter 200 Euro 2 bis unter 300 Euro 3 bis unter 400 Euro 4 bis unter 500 Euro 5 bis unter 625 Euro 6 bis unter 750 Euro 7 bis unter 875 Euro bis unter 1.000 Euro 8 9 bis unter 1.125 Euro 10 bis unter 1.250 Euro 11 bis unter 1.375 Euro 12 bis unter 1.500 Euro 13 bis unter 1.750 Euro 14 bis unter 2.000 Euro 15 bis unter 2.250 Euro 16 bis unter 2.500 Euro 17 bis unter 2.750 Euro 18 bis unter 3.000 Euro 19 bis unter 4.000 Euro 20 bis unter 5.000 Euro 21 bis unter 7.500 Euro bis Euro und mehr 22
Abbildung 4.3: Kategoriale Abfrage des Haushaltseinkommens (Quelle: ALLBUS 2018)
Der Vorteil einer solchen kategorialen Abfrage besteht einerseits darin, dass die Befragten ihr Einkommen nun nicht mehr genau kennen, sondern es lediglich in verhältnis mäßig breite Einkommenskategorien einordnen müssen. Durch die Bereitstellung von breit gefassten Niedrigst- und Höchstwerten (»unter 200 Euro« bzw. »7.500 Euro und mehr«) müssen die Befragten zudem ihre Einkommensverhältnisse nicht mehr vollständig offenlegen, sondern können sich in entsprechend breitere Antwortvorgaben einordnen. Die zufällige Verknüpfung einzelner Einkommensgruppen mit Buchstaben des Alphabets soll es den Befragten zusätzlich erleichtern, eine ehrliche Antwort zu geben, da an dem genannten Buchstaben die konkrete Einkommenskategorie nicht
102
Messung
mehr erkennbar ist. Interviewereffekte (vgl. Abschnitt 3.3) werden hierdurch zumindest ansatzweise minimiert. Wie Abbildung 4.3 verdeutlicht, werden auch hier – ähnlich wie im vorangegangenen Beispiel (Abbildung 4.2) – den Angaben des/der Befragten entsprechend konkrete Zahlenwerte zugewiesen, die ihrerseits als Ausgangspunkt für spätere statistische Auswertungen dienen können (Kapitel 5). Hierzu werden für die einzelnen Einkommenskategorien entsprechende Zahlenbeträge von 1 bis 22 in aufsteigender Form vergeben. Es wären ggf. sogar weitere Vereinfachungen der Einkommensabfrage denkbar. Wären Sie beispielsweise nicht an der konkreten Höhe des Einkommens im Befragtenhaushalt interessiert, sondern nur an der Frage, ob dieser an Armut gebundene Transferleistungen erhält oder nicht, könnten Sie dies im Rahmen einer direkten Frage erheben, wie beispielsweise im ALLBUS 2014 umgesetzt (vgl. Abbildung 4.4). Hier wird der/die Befragte gebeten, sämtliche Einkommenskomponenten seines/ihres Haushaltes zu nennen. Hierzu wird eine detaillierte Liste von Einkommensarten (z. B. Einkommen aus aktueller Erwerbstätigkeit, aus Vermögen, andere Einkommensarten) vorgelegt, darunter auch der Bezug von Arbeitslosengeld II bzw. vergleichbaren Leistungen. Für jede Einkommensart wird anschließend vermerkt, ob diese vom Befragten genannt wurde. Nannte die befragte Person Arbeitslosengeld II als bezogene Einkommensart, so wird ihr im späteren Datensatz der Zahlenwert »1« zugewiesen, andernfalls der Zahlenwert »0«. Der Bezug dieser Leistung könnte wiederum als Indikator von (staatlich geprüfter) Einkommensarmut angesehen werden. F140/V510. Hier ist eine Liste mit Einkommensarten, die ein Haushalt beziehen kann. Bitte geben Sie alle Einkommensarten an, die in Ihrem Haushalt vorkommen. […] Arbeitslosengeld II/Sozialgeld (Leistungen nach Hartz IV) (Numerischer Eintrag in Datensatz) Genannt Nicht genannt
1 0
Abbildung 4.4: Kategoriale Abfrage des Bezugs von Transferleistungen (Quelle: ALLBUS 2014)
Das vorliegende Beispiel verdeutlicht anschaulich das Grundprinzip von Messungen in der quantitativen Sozialforschung. Einer Merkmalsausprägung einer Erhebungsperson – hier: dem Haushaltseinkommen der bzw. des Befragten oder dem Vorliegen einer spezifischen Einkommensart – wird entsprechend ein Zahlenwert zugewiesen. Einem beobachtbaren empirischen Relativ (dem messbaren Einkommen bzw. der gewähl-
Was versteht man unter Messung?
103
ten Einkommenskategorie) wird ein numerisches Relativ (ein bestimmter Zahlenwert) gegenübergestellt. Die Verknüpfung folgt hierbei einer konkreten Zuordnungsregel, die durch die hier vorgegebene Antwortskala festgelegt wird (vgl. Abbildung 4.2 bzw. 4.3). Das Beispiel der drei skizzierten Messungsvarianten verdeutlicht, dass für einen identischen Indikator (»Haushaltseinkommen«) verschiedene Formen der Messung (offene numerische oder kategoriale Abfrage) denkbar sind bzw. sogar miteinander kombiniert werden können. MERKEN Messung bedeutet die systematische Zuordnung von Zahlenwerten (»numerisches Relativ«) zu Objekten bzw. deren Eigenschaften (»empirisches Relativ«). Eine Skala legt dabei die Zuordnungsregeln zwischen empirischem und numerischem Relativ fest.
Die Auswahl der geeigneten Form der Messung sollte dabei nach Ermessen der Sozialforscher*innen vor dem Hintergrund der gewählten Forschungsfragestellung erfolgen. So wäre etwa bei einer Befragung zur Einkommensarmut, die auch explizit Niedrigverdiener einbeziehen soll, eine »anonymere« kategoriale Abfrage angemessen; ist hingegen die konkrete Berechnung eines Durchschnittseinkommens innerhalb einer bestimmten Zielgruppe beabsichtigt, sollte die (exaktere) offene Messung vorgezogen werden. Abbildung 4.5 fasst nochmals die notwendigen drei Schritte zur empirischen Messung eines abstrakten Untersuchungsgegenstands zusammen: Ȥ Im Rahmen der Konzeptspezifikation muss zunächst der Untersuchungsgegenstand eindeutig definiert werden. Hierzu gehört eine klare terminologische Abgrenzung ebenso wie eine Herausarbeitung verschiedener Dimensionen, in die sich der Untersuchungsgegenstand ggf. unterteilen lässt. Im Beispiel der Armutsmessung haben wir hier den Begriff der Armut auf Basis aktueller Literatur klar definiert und verschiedene Dimensionen von Armut unterschieden. Ȥ Anschließend müssen den im ersten Schritt festgelegten, abstrakten Dimensionen konkrete, empirisch beobachtbare Sachverhalte zugeordnet werden. Im vorangegangenen Beispiel haben wir hier das Haushaltseinkommen als einen geeigneten Indikator der materiellen Armut identifiziert. Das kurz skizzierte Beispiel der Deprivationsforschung verdeutlichte, dass mitunter verschiedene Indikatoren zur Untersuchung desselben abstrakten Konzeptes denkbar sind. Ȥ Abschließend müssen konkrete Formen der empirischen Erfassung des ausgewählten Indikators entwickelt werden. Hierbei werden beobachtbaren Eigenschaftsausprägungen eines Individuums Zahlenwerte zugeordnet, die später als Basis statisti-
104
Messung
scher Auswertungen dienen können. Im vorangegangenen Beispiel haben wir hierzu verschiedene Möglichkeiten der Messung des Haushaltseinkommens betrachtet. Die drei Alternativen zur Einkommensmessung verdeutlichten, dass verschiedene Möglichkeiten zur Messung desselben Indikators denkbar sind. Konzeptspezifikation: Eindeutige Klärung von Kernbegriffen und (für die Untersuchung relevanten) Dimensionen Indikatoren: Zuordnung beobachtbarer Sachverhalte zu theoretischen Konstrukten Messung: Zuordnung numerischer Werte zu konkreten Merkmalsausprägungen mittels einer vorgegebenen Zuordnungsregel (»Skala«) Abbildung 4.5: Notwendige Schritte der Messung (eigene Darstellung)
4.2 Skalenniveaus Im vorangegangenen Abschnitt haben Sie drei verschiedene Möglichkeiten zur Messung von Einkommensarmut kennengelernt: die offene Einkommensabfrage, die Erhebung der Zugehörigkeit zu spezifischen Einkommenskategorien und die Frage, ob der/die Betrachtete soziale Transferleistungen als Teil seines Haushaltseinkommens erhält. Alle drei Varianten zielen auf Einkommensarmut als Untersuchungsgegenstand; dennoch ist erkennbar, dass der mit den verfügbaren Antwortkategorien verbundene Informationsgehalt sehr unterschiedlich ausfällt: Während der Bezug von Transferleistungen lediglich das Über- oder Unterschreiten einer bestimmten Armutsgrenze konstatiert, ermöglicht die offene Abfrage des Haushaltseinkommens eine ungleich differenziertere Rekonstruktion der Einkommenssituation der Befragten. Basierend auf den mit den Antwortmöglichkeiten verbundenen Informationsgehalten werden in der quantitativen Sozialforschung verschiedene sogenannte Skalenniveaus unterschieden, denen wir uns im Folgenden näher zuwenden werden. Diese verschiedenen »Stufen des Messens« (Bortz & Schuster 2010: 13) definieren dabei, in welcher Weise Untersuchungspersonen basierend auf ihren Skalenwerten miteinander verglichen werden können. Je höher das Skalenniveau ausfällt, desto differenzierter kann der Vergleich stattfinden.
105
Skalenniveaus
MERKEN Skalenniveaus informieren darüber, in welcher Differenziertheit Untersuchungspersonen basierend auf ihren Skalenwerten miteinander verglichen werden können. Je höher das Skalenniveau, umso höher ist der Informationsgehalt einer Skala, d. h. umso differenzierter kann der Vergleich stattfinden.
Betrachten wir hierzu zunächst die einfache Unterscheidung nach Sozialleistungsbezug (Abbildung 4.4). Die hier vergebenen Zahlenwerte ermöglichen es, die Befragten in zwei unterschiedliche Gruppen aufzuteilen – die der Sozialleistungs-Bezieher und die der Nicht-Sozialleistungs-Bezieher. Identische Zahlenwerte zweier Befragungspersonen verweisen dementsprechend auf die Zugehörigkeit zur selben Gruppe (wenn beide den Wert 1 aufweisen, sind beide Sozialleistungsbezieher), unterschiedliche Werte verweisen auf eine unterschiedliche Gruppenzugehörigkeit. Die zugeordneten Zahlenwerte informieren somit über die Gleichheit oder Ungleichheit von Untersuchungsobjekten hinsichtlich der gemessenen Eigenschaft. Eine solche Skala, die lediglich eine Kategorisierung von Objekten in unterschiedliche Klassen oder Gruppen vornimmt, bezeichnet man als Nominalskala. Sie stellt das einfachste der drei in diesem Abschnitt betrachteten Skalenniveaus dar. F048. Geschlecht, Befragte(r) 1 Männlich 2 Weiblich
F048. Wahlabsicht Bundestagswahl 1 CDU bzw. CSU 2 SPD 3 FDP 4 Bündnis 90/die Grünen 5 Die Linke 6 AfD (Alternative für Deutschland) 7 Andere Partei
F143 Konfession, Befragte(r) 1 Der evangelischen Kirche (ohne Freikirchen) 2 Einer evangelischen Freikirche 3 Der römisch-katholischen Kirche 4 Einer anderen christlichen Religionsgemeinschaft 5 Einer anderen, nicht-christlichen Religionsgemeinschaft 6 Keiner Religionsgemeinschaft Abbildung 4.6: Beispiel für Nominalskalen (Quelle: ALLBUS 2018)
106
Messung
MERKEN Nominalskalen stellen das geringste Skalenniveau mit dem niedrigsten Informationsgehalt dar. Personen lassen sich hinsichtlich der gemessenen Eigenschaft in Kategorien aufteilen. Untersucht werden kann damit lediglich die Gleichheit bzw. Ungleichheit von Individuen hinsichtlich der gemessenen Eigenschaft.
In der Umfrageforschung finden sich eine Reihe derartiger Nominalskalen (vgl. Abbildung 4.6). Ein »klassisches« Beispiel ist die Erfassung des Geschlechts der Befragten, bei der üblicherweise zwischen männlichen und weiblichen Befragten unterschieden wurde; die gegenwärtige Diskussion um ein drittes Geschlecht legt es nahe, dies ggf. in Zukunft um eine dritte Kategorie »divers« zu erweitern. Andere Beispiele für eine Nominalskala sind die Fragen nach der Konfession oder der Wahlabsicht für die kommende Bundestagswahl, in der wiederum die Befragten bestimmten Klassen eindeutig zugewiesen werden können (wobei deren Anzahl hier um einiges höher ausfällt als in den vorangegangenen Beispielen). Die kategoriale Messung des Einkommens in Abbildung 4.3 geht über das nominale Skalenniveau erkennbar hinaus. Zwar können auch hier die Befragten anhand der mit den Kategorien verbundenen Zahlenwerte daraufhin verglichen werden, ob sie zu derselben oder einer unterschiedlichen Einkommensgruppe gehören. Darüber hinaus informieren die Zahlenwerte jedoch auch über die relative Höhe des Einkommens. Personen der Kategorie 20 (»4.000 bis unter 5.000 Euro«) weisen z. B. ein höheres Einkommen auf als Personen der Einkommensklasse 18 (»2.750 bis unter 3.000 Euro«), aber ein geringeres als Personen der Einkommensklasse 22 (»7500 Euro und mehr«). Diese Korrespondenz von höherem Skalenwert und höherem Einkommen lässt sich für alle möglichen Vergleiche innerhalb der Skala bestätigen. Die durch die Zahlenwerte signalisierte Rangfolge von Kategorien entspricht also einer entsprechenden Rangfolge der gemessenen Eigenschaft. Eine derartige Skala, in der die Zahlenwerte nicht ausschließlich über Gleichheit bzw. Ungleichheit informieren, sondern darüber hinaus auch Größer/Kleiner-Vergleiche – also die Bildung einer Rangfolge hinsichtlich der gemessenen Eigenschaft – erlauben, bezeichnet man als Ordinalskala. MERKEN Ordinalskalen weisen ein höheres Skalenniveau als Nominalskalen auf. Sie erlauben es, zusätzlich zur Unterscheidung nach Gleichheit/Ungleichheit, Personen hinsichtlich einer gemessenen Eigenschaft in eine Rangfolge zu bringen, d. h. Größer/Kleiner-Verhältnisse herzustellen.
Skalenniveaus
107
In der Praxis der empirischen Sozialforschung findet sich eine große Anzahl von Ordinalskalen (vgl. Abbildung 4.7). Ein typisches Beispiel ist die Messung des höchsten Schulabschlusses, bei der mittels einer Skala unterschiedliche, hierarchisch geordnete Schulabschlüsse miteinander verglichen werden. Ebenso sind Ordinalskalen in der Einstellungsmessung gebräuchlich, ein Beispiel dafür stellt etwa die ebenfalls in Abbildung 4.7 wiedergegebene Einstellung zur staatlichen Verringerung von Einkommensunterschieden dar. Hier wurden die Befragten gebeten mitzuteilen, inwiefern sie einer Aussage zur staatlichen Zuständigkeit für die Reduzierung von Einkommensunterschieden zustimmen würden. Auch hier lassen sich die verschiedenen Antwortmöglichkeiten von »stimme voll und ganz zu« bis »stimme überhaupt nicht zu« in eine eindeutige (absteigende) Reihung bringen.3 F056. Allgemeiner Schulabschluss, Befragte(r) (gekürzt) 1 Schule beendet ohne Abschluss 2 Volks-/Hauptschulabschluss bzw. Polytechische Oberschule m. Abschluss 8./9. Klasse 3 Mittl. Reife, Realschulabschluss bzw. Polytechn. Oberschule m. Abschluss 10. Klasse 4 Fachhochschulreife (Abschluss einer Fachoberschule) 5 Abitur bzw. erweiterte Oberschule mit Abschluss 12. Klasse I00c. Einkommensunterschiede verringern, Staat (gekürzt) Inwieweit stimmen Sie den folgende Aussagen zu oder nicht zu: Es ist die Aufgabe des Staates, die Einkommensunterschiede zwischen den Personen mit hohem Einkommen und solchen mit niedrigem Einkommen zu verringern. 1 Stimme voll und ganz zu 2 Stimme zu 3 Weder noch 4 Stimme nicht zu 5 Stimme überhaupt nicht zu Abbildung 4.7: Beispiel für Ordinalskalen (Quelle: ALLBUS 2018)
Allerdings informieren uns die Skalen in Abbildung 4.7 nicht über das Ausmaß der Unterschiede zwischen den einzelnen Rangkategorien. Mit anderen Worten: Die mathematische Bedeutung der mit bestimmten Eigenschaftsausprägungen verbundenen Zahlenwerte lassen sich nicht auf konkrete Rechenoperationen übertragen. Ein Angehöriger der Einkommensklasse 10 (»1.125 bis unter 1.250 Euro«) weist beispielsweise keinesfalls ein halb so hohes Einkommen auf wie ein Befragter der Einkommensklasse 20 (»4.000 bis unter 3 Bemerkenswert ist hierbei, dass der Zahlenwert mit abnehmender Zustimmung zunimmt; eine hohe Zustimmung entspricht hier also nicht einem hohen Zahlenwert. Diese kontraintuitive Skalierung ist auf Konventionen der Fragenprogramme zurückzuführen, ändert aber nichts am Vorhandensein der grundsätzlichen Eigenschaften einer Ordinalskala.
108
Messung
5.000 Euro«). Ein Befragter mit Fachhochschulabschluss (Zahlenwert 4) weist nicht eine doppelt so hohe Schuldbildung auf wie ein Hauptschulabsolvent (Zahlenwert 2). Ebenso wenig ist der Abstand zwischen dem Erwerb der Mittleren Reife und der Fachhochschulreife (Zahlenwerte 3 und 4) inhaltlich gleichzusetzen mit dem Abstand zwischen der Fachhochschul- und der Hochschulreife (Zahlenwerte 4 und 5), obwohl dieser rein numerisch gleich ist. Bei der direkten, offenen Erhebung von Haushaltseinkommen (vgl. Abbildung 4.2) ist diese Verhältnismäßigkeit gleichwohl gegeben: Ein Haushalt mit beispielweise 4.000 Euro Haushaltseinkommen weist ein doppelt so hohes Einkommen auf wie ein Haushalt mit 2.000 Euro. Ebenso ist der Abstand zwischen zwei Personen mit einem Einkommen von 200 und 300 Euro mit dem zweier Personen mit 300 und 400 Euro Einkommen direkt vergleichbar (jeweils 100 Euro). Die in Abbildung 4.2 betrachtete »offene« EinkommensSkala weist also wiederum einen höheren Informationsgehalt auf als die zuvor betrachtete ordinale Messung. Man bezeichnet eine solche Skala in der empirischen Forschung als metrische Skala.4 Neben der Einkommensbestimmung finden sich metrische Skalen häufig bei Fragen nach dem Alter der Befragten, der Kinderzahl oder der Dauer der Ausübung einer bestimmten Tätigkeit (etwa der täglichen Zeit für Haushaltsarbeit in Minuten). MERKEN Metrische Skalen weisen ein höheres Skalenniveau als Nominal- bzw. Ordinalskalen auf. Sie erlauben es, zusätzlich zur Unterscheidung nach Gleichheit/Ungleichheit (Nominalskalen) bzw. Größer/Kleiner-Verhältnissen (Ordinalskalen), die Angaben von Personen zu einer gemessenen Eigenschaft direkt mathematisch miteinander zu vergleichen, also Abstände zu bestimmen und Verhältnisse zu berechnen. Die Merkmalsausprägungen haben somit »dieselben Eigenschaften wie »richtige« Zahlen« (Micheel 2010: 42).
Abbildung 4.8 fasst die Eigenschaften der drei dargestellten Skalenniveaus noch einmal zusammen: Ȥ Die Nominalskala stellt das niedrigste der drei Skalenniveaus dar; sie ermöglicht lediglich die Unterscheidung von Untersuchungseinheiten gemäß der Gleichheit/Ungleich4 In der statistischen Literatur wird innerhalb des metrischen Skalenniveaus nochmals nach »Intervallskalen« und »Verhältnisskalen« unterschieden (vgl. Bortz & Schuster 2010). Intervallskalen weisen im Gegensatz zu Verhältnisskalen keinen absoluten Nullpunkt auf: Ein Beispiel ist etwa die Temperaturskala nach Celsius, deren Minimalwert nicht bei einem Wert von 0 ° (dem Gefrierpunkt), sondern bei −273,15 ° liegt. Fehlt ein solcher absoluter Nullpunkt, so lassen sich Abstände zwar bestimmen (der Temperaturabstand zwischen 5 ° und 10 ° bzw. 10 ° und 15 ° ist etwa vergleichbar), aber keine Verhältnisse aufstellen (eine Temperatur von 10 ° ist nicht »doppelt so hoch« wie eine Temperatur von 5 °). Da reine Intervallskalen in der Sozialforschung jedoch selten zu finden sind, wird hier auf diese Unterscheidung verzichtet.
109
Erfassung mehrdimensionaler Phänomene: Indexbildung
heit der gemessenen Eigenschaft. Typische Beispiele sind Skalen zur Messung von Geschlecht, Staatsangehörigkeit, Konfession oder Wohnort. Ȥ Die Ordinalskala stellt das nächsthöhere Skalenniveau dar. Zusätzlich zur Unterscheidung nach Gleichheit/Ungleichheit sind hier auch Größenverhältnisse im Hinblick auf die gemessene Eigenschaft bestimmbar. Typische Beispiele sind Skalen zur Messung des höchsten erworbenen Schulabschlusses, des Ausmaßes der Zustimmung zu vorgegebenen Statements oder der kategorialen Erfassung von Einkommen. Ȥ Die metrische Skala stellt das höchste Skalenniveau dar. Sie ermöglicht neben der Unterscheidung von Gleich-/Ungleich- bzw. Kleiner/Größer-Verhältnissen auch die mathematische Bestimmung von Abständen und Verhältnissen zwischen Eigenschaftswerten. Typische Beispiele sind die offene Bestimmung von Einkommen oder Alter bzw. Fragen nach Zeiträumen, Häufigkeiten oder Anzahlen. Skalenniveau Inhaltliche Interpretation
Nominal
Ordinal
Mathematische Interpretation von Verhältnissen und Abständen
Größer/Kleiner-Verhältnisse Gleich/Ungleich-Verhältnisse
Metrisch
Abbildung 4.8: Skalenniveaus im Vergleich (eigene Darstellung)
Jedes höhere Skalenniveau weist somit die (Interpretations-)Eigenschaften des jeweils niedrigeren Skalenniveaus auf und ergänzt diese um eine weitere Eigenschaft. Wie die folgenden Kapitel zeigen werden, ist die Bestimmung des Skalenniveaus von zentraler Bedeutung für die Anwendung statistischer Verfahren. Wir werden entsprechend in den Folgekapiteln noch mehrfach darauf zurückkommen.
4.3 Erfassung mehrdimensionaler Phänomene: Indexbildung In den bisherigen Beispielen sind wir davon ausgegangen, dass die im Fokus stehende Eigenschaft jeweils durch einen einzelnen Indikator gemessen werden kann. Dies erscheint bei Eigenschaften wie Geschlecht, Bildung oder Haushaltseinkommen verhältnismäßig unproblematisch. Oft hat man es in der empirischen Sozialforschung jedoch mit komplexeren, mehrdimensionalen Phänomenen zu tun, deren Messung die Verwendung verschiedener Indikatoren erfordert. Verfahren der Messung derartiger mehrdimensionaler Eigenschaften stehen daher im Mittelpunkt dieses Teilkapitels. Ein Beispiel für ein sol-
110
Messung
ches mehrdimensionales Phänomen innerhalb des Bereichs der Armutsforschung ist das bereits in Abschnitt 4.1 kurz diskutierte Konzept der Deprivation. Es bezeichnet »einen Zustand des unfreiwilligen Mangels oder der Benachteiligung in wesentlichen Bereichen des Lebens« (Statistisches Bundesamt 2018: 188). In der klassischen Deprivationsforschung werden eine Reihe von derartigen Benachteiligungen unterschieden, etwa im Hinblick auf Ernährung, Kleidung, Wohnen, Haushaltsausstattung, Arbeitsbedingung u. v. m. (vgl. Townsend 1979; siehe auch Abbildung 4.1). Wir betrachten im Folgenden die von der Europäischen Union verwendete Definition »materieller Deprivation«, die verschiedene der zuvor genannten Aspekte zusammenfasst. Abbildung 4.9 gibt einen Überblick über die hierfür von der EU verwendete Skala. Materielle Deprivation liegt gemäß der Skala dann vor, wenn drei der in Abbildung 4.9 genannten Formen von Benachteiligung in einem Haushalt vorliegen. Erhebliche materielle Deprivation liegt dann vor, wenn vier oder mehr der genannten Einschränkungen zutreffen (Statistisches Bundesamt 2017: 13). 1. 2. 3. 4. 5. 6. 7. 8. 9.
Finanzielles Problem, die Miete, Hypotheken, Konsumentenkredite oder Rechnungen von Versorgungs-Betrieben rechtzeitig zu bezahlen. Finanzielles Problem, die Wohnung angemessen warm zu halten. Finanzielles Problem, unerwartet anfallende Ausgaben in einer bestimmten Höhe aus eigenen Finanzmitteln zu bestreiten. Finanzielles Problem, mindestens jeden zweiten Tag eine Mahlzeit mit Fleisch, Geflügel oder Fisch oder eine hochwertige vegetarische Mahlzeit zu essen. Finanzielles Problem, mindestens eine Woche pro Jahr Urlaub woanders als zu Hause zu verbringen (auch Urlaub bei Freunden/Verwandten oder in der eigenen Ferienunterkunft). Fehlen eines Pkw im Haushalt aus finanziellen Gründen. Kein Firmenoder Dienstwagen. Fehlen einer Waschmaschine im Haushalt aus finanziellen Gründen. Fehlen eines Farbfernsehgeräts im Haushalt aus finanziellen Gründen. Fehlen eines Telefons im Haushalt aus finanziellen Gründen.
Abbildung 4.9: Skala zur Erfassung materieller Deprivation (gemäß EU; Quelle: Statistisches Bundesamt 2017: 13)
Tabelle 4.1 zeigt ein Beispiel für die Anwendung der EU-Skala für vier hypothetische Befragte. In den einzelnen Spalten sind die neun zuvor genannten Deprivationsdimensionen wiedergegeben. Für jede dieser Dimensionen wird nun im Rahmen einer Umfrage (üblicherweise des Europäischen Haushaltspanels EU-SILC) erhoben, ob diese im Haushalt der bzw. des Befragten »vorliegt« (Zahlenwert 1) oder »nicht vorliegt« (0). Diese Angaben werden in Tabelle 4.1 zeilenweise für jeden Befragten abgetragen. Durch die Addition der Einzelwerte über alle neuen Einzelindikatoren hinweg (Spalte ⅀) lässt sich anschließend feststellen, in welchem Ausmaß die vier Erhebungspersonen von materieller Deprivation betroffen sind.
111
Erfassung mehrdimensionaler Phänomene: Indexbildung
Person 1 weist beispielsweise nur in zwei Dimensionen (im Hinblick auf unerwartet anfallende Ausgaben/Dimension 3 und die Verfügbarkeit einer Waschmaschine/Dimension 7) einen Mangel auf; zusammengenommen kann diese Person entsprechend als »nicht depriviert« angesehen werden. Person 2 ist hingegen in sechs der neun Dimensionen benachteiligt und ist dementsprechend »erheblich depriviert«. Gemäß der oben angewandten Logik zeigt sich weiterhin, dass Person 4 depriviert ist (3 von 9 Dimensionen), während Person 3 keine Anzeichen von Deprivation aufweist (0 von 9 Dimensionen). Tabelle 4.1: Messung materieller Deprivation (hypothetisches Beispiel, eigene Darstellung) Deprivationsdimensionen
⅀
1
2
3
4
5
6
7
8
9
Befragter 1
0
0
1
0
0
0
1
0
0
2
Befragter 2
1
1
0
1
1
0
0
1
1
6
Befragter 3
0
0
0
0
0
0
0
0
0
0
Befragter 4
1
0
1
0
0
0
1
0
0
3
MERKEN Ein Index ist ein aus mehreren Einzelindikatoren zusammengesetzter Wert zur Messung eines komplexen, mehrdimensionalen Phänomens. Er basiert auf einer theoretisch begründeten Dimensionalisierung des Untersuchungsgegenstands sowie einer nach zuvor festgelegten Regeln vorgenommenen mathematischen Verrechnung der Einzeldimensionen zu einem gemeinsamen Wert.
Das hier skizzierte Vorgehen ist typisch für eine Indexbildung zur Messung mehrdimensionaler Phänomene. Unter einem Index versteht man »eine Variable, die sich aus der Rechenoperation mehrerer anderer Variablen ergibt« (Häder 2015: 86). Der Berechnung eines solchen Indexwertes geht üblicherweise die nähere Bestimmung der Dimensionen des mehrdimensionalen Problems voraus, das mit dem Index erfasst werden soll (in unserem Fall: die Dimensionen von Deprivation; vgl. Abbildung 4.1). Anschließend wird ermittelt, mit Hilfe welcher Indikatoren sich das Phänomen messen lässt (in unserem Fall: der konkreten Ausformulierung von möglichen Einschränkungen und der Festlegung der Grenzen des Vorliegens von Deprivation, vgl. Abbildung 4.9). Schließlich wird durch eine geeignete Rechenoperation (in unserem Fall: die Addition der Einzelwerte) aus den Werten der Einzelindikatoren ein Index gebildet, der die komplexe Dimension in einem Zahlenwert zusammenfasst (Häder 2015: 88).
112
Messung
Indizes werden ebenfalls häufig in der Einstellungsforschung verwendet. Zur vereinfachten Illustration gibt Abbildung 4.10 einen Ausschnitt aus einer Skala zur Messung der grundlegenden Gerechtigkeitsprinzipien staatlicher Altersvorsorge wieder, die auf insgesamt drei Einzelaussagen beruht, denen mittels einer fünfstufigen Ordinalskala mehr oder weniger zugestimmt werden kann. Im Mittelpunkt steht hierbei inhaltlich der »Askriptivismus«, also eine »Gerechtigkeitsvorstellung, nach der Güter gerechterweise auf Grundlage zugeschriebener Rechte (Stand, Zunft oder heute der Beruf) verteilt werden sollen« (Mühleck und Scheller 2014: 5). In den folgenden Aussagen geht es um die Altersvorsorge in Deutschland. Sagen Sie mir bitte zu jeder Aussage, ob Sie voll zustimmen, etwas zustimmen, weder zustimmen noch ablehnen oder ob Sie etwas ablehnen oder ganz ablehnen. 1. Wer es im Beruf weit gebracht hat, sollte im Alter Ansehen und Wohlstand genießen. 2. Es ist ungerecht, dass die, die in ihrem Beruf viel verdient haben, auch eine hohe Rente bekommen. 3. Es ist gerecht, dass Leute mit höherem Einkommen höhere Rente bekommen können als andere. Antwortoptionen: 5 = stimme voll zu, 4 = stimme etwas zu, 3 = weder/noch, 2 = lehne etwas ab, 1 = lehne ganz ab
Abbildung 4.10: Skala zur Erfassung von Gerechtigkeitsideologien bei der Altersvorsorge: Subskala Askriptivismus (Quelle: Mühleck & Scheller 2014).
Tabelle 4.2 gibt wiederum ein hypothetisches Beispiel für vier Befragungspersonen wieder: Für jeden der Befragten sind die Zahlenwerte der gegebenen Antworten entsprechend abgetragen. Person 1 hat beispielsweise die erste Aussage, gemäß derer eine Person, die es im Beruf weit gebracht hat, auch Ansehen und Wohlstand im Alter genießen soll, ebenso vollständig abgelehnt wie die dritte Aussage, dass Leute mit höherem Einkommen eine höhere Rente erhalten sollen. Gleichzeitig ist sie der Ansicht, dass es ungerecht ist, dass Personen mit hohem Verdienst auch eine hohe Rente erhalten sollen (Aussage 2). Hier handelte sich augenscheinlich um eine Person, die eine an askriptivistischen Kriterien orientierte Rentenhöhe rundheraus ablehnt. Wie lässt sich für diese Person nun ein Gesamtindex zur Bestimmung der Zustimmung zum Askriptivismus berechnen? Tabelle 4.2: Messung Askriptivismus (hypothetisches Beispiel, eigene Darstellung) Einstellungsaussagen
⅀
Aussage 1
Aussage 2
Aussage 3
Befragter 1
1
5
1
?
Befragter 2
3
2
3
?
Befragter 3
4
2
4
?
Befragter 4
1
–
2
?
113
Erfassung mehrdimensionaler Phänomene: Indexbildung
Analog zum Vorgehen beim Deprivationsindex (Tabelle 4.1) könnte man die Zahlenwerte einfach für alle drei Aussagen zu einem Gesamtindex aufaddieren. Eine direkte Addition erscheint angesichts des unterschiedlichen Inhaltes der drei Aussagen jedoch nicht angebracht. Während bei den ersten beiden Aussagen eine hohe Befürwortung des Gerechtigkeitsprinzips des Askriptivismus mit einer hohen Zustimmung, d. h. einem hohen Skalenwert einhergeht, ist diese bei der zweiten Aussage umgekehrt: Befragte, die das Prinzip des Askriptivismus stark befürworten, sollten die Aussage, dass es ungerecht ist, dass »die, die in ihrem Beruf viel verdient haben, auch eine hohe Rente bekommen«, stark ablehnen. Um einen additiven Index zu bilden, der die zugrunde liegende Dimension des Askriptivis mus konsistent misst, müssen aber die inhaltlichen Bedeutungen der einzelnen Skalen werte vergleichbar sein. Dies kann in unserem Fall dadurch sichergestellt werden, dass für die zweite Aussage die Zahlenwerte »umgekehrt werden«, eine hohe Zustimmung zu der (anti-askriptiven) Aussage also entsprechend den niedrigsten Zahlenwert 1 erhält und eine starke Ablehnung der Aussage den Zahlenwert 5. Analog müssen auch die anderen Zahlenwerte der Skala (2 → 4, 3 → 3, 4 → 2) angepasst werden. Tabelle 4.3 gibt die Zahlenwerte mit entsprechend geänderter Kodierung bei Aussage 2 wieder. Nach der vorgenommenen Transformation der Werte von Aussage 2 können die Zahlenwerte nun aufaddiert werden. Befragungsperson 1 »entpuppt« sich dann – nach der eingehenderen Betrachtung zuvor wenig überraschend – als ein eindeutiger Ablehner des Askriptionsprinzips (minimaler Indexwert von 3), während Person 3 diesem wesentlich stärker zustimmt (Indexwert von 12). Person 4, die bei einer der Aussagen die Antwort verweigerte, wird aus den Analysen ausgeschlossen, da für sie wegen der fehlenden Angabe kein Indexwert berechenbar ist. Tabelle 4.3: Messung Askriptivismus mit geänderter Kodierung (eigene Darstellung) Einstellungsaussagen Aussage 1
Aussage 2 (umkodiert)
⅀ Aussage 3
Befragter 1
1
1
1
3
Befragter 2
3
4
3
10
Befragter 3
4
4
4
12
Befragter 4
1
–
2
–
Sie mögen sich an dieser Stelle die Frage stellen, warum die zweite Aussage »inhaltlich umgekehrt« gestellt wurde, obwohl dies doch einen nicht geringen Aufwand zur Berechnung des Gesamtindex mit sich brachte. Ziel dieser »umgekehrten Polung« ist es, Personen, die beispielsweise eine generelle Zustimmungs- (oder Ablehnungs-)Tendenz bei Befragungen aufweisen, oder Personen, die auf die Fragen des Fragebogens unaufmerksam antworten, besser identifizieren und dann aus der späteren Datenanalyse ausschließen zu
114
Messung
können (vgl. Diekmann 1995: 183). Insbesondere bei längeren Fragebögen mit umfangreicher Anzahl an Einzelindikatoren ist eine solche Kontrolle zur Vermeidung von Verzerrungen im Gesamtergebnis durchaus angebracht. MERKEN Um falsches oder unkonzentriertes Ausfüllen einer Skala mit mehreren Items zu vermeiden, wird meist mindestens ein Item umgekehrt gepolt, es kann also nicht in gleicher Weise beantwortet werden wie die anderen Items. Bei der Zusammenfassung der Einzelergebnisse zu einem Index muss diese umgekehrte Polung berücksichtigt werden.
4.4 Gütekriterien der Messung Kehren wir wieder zum Beispiel der Ihnen übertragenen Forschung zum Thema »Armut« zurück. Sie haben sich nun verdeutlicht, was genau die Messung von Armut bedeutet, d. h. Sie haben konzeptionell Armut (und ggf. ihre einzelnen Dimensionen) definiert, geeignete Indikatoren identifiziert, die das Armutsphänomen empirisch messbar machen können und sich konkrete Formen der Messung von Armut überlegt, die sie nun in einer Befragung umsetzen möchten. Wie können Sie aber nun sicher sein, dass die von Ihnen ausgewählten bzw. entwickelten Messinstrumente allgemeinen fachlichen Qualitätsstandards entsprechen und das von Ihnen ausgewählte Forschungsproblem tatsächlich angemessen erfassen? Mit anderen Worten: Wie können Sie überprüfen, dass die von Ihnen verwendeten Messinstrumente tatsächlich eine »gute Messung« liefern? Zur Beantwortung dieser Fragen haben sich in der empirischen Forschung drei zentrale »Gütekriterien« der Messung etabliert – Objektivität, Reliabilität und Validität – die wir im Folgenden etwas näher betrachten werden. MERKEN Gütekriterien der Messung legen eine Reihe allgemeingültiger Standards fest, die erfüllt sein müssen, um von einer »guten Messung« des Untersuchungsphänomens sprechen zu können.
Gütekriterien der Messung
115
Objektivität
Die Objektivität einer Messung ist dann gegeben, »wenn verschiedene Personen bei einer Untersuchung dieselben Ergebnisse erzielen« (Häder 2015: 104). Das Messergebnis ist somit personenunabhängig. In der Literatur werden dabei drei Formen von Objektivität der Messung unterschieden (vgl. z. B. Diekmann 2012, Krebs und Menold 2019, Tausendpfund 2018). Durchführungsobjektivität liegt dann vor, wenn bei einer Erhebung zwei verschiedene Interviewer zu einem identischen Ergebnis gelangen, das Ergebnis der Messung also nicht vom Interviewer abhängig ist. Sie wäre beispielsweise nicht gegeben, wenn Interviewer mit feiner Kleidung bei der Durchführung Ihrer Befragung zum Thema »Armut« andere Antworten provozieren würden als Interviewer, die unauffällige durchschnittliche Kleidung tragen. Ein ähnlich verzerrender Effekt kann von Interviewern bzw. Interviewerinnen erwartet werden, die das Interview in eloquenter akademischer Fachsprache durchführen, statt eine übliche Alterssprache zu verwenden. Um solche (in Kapitel 3.3 bereits angesprochenen) Interviewereffekte zu vermeiden – und damit eine möglichst objektive Durchführung der Erhebung zu gewährleisten – könnten Interviewer*innen beispielsweise durch klare Handlungsvorgaben gebeten werden, auf ihr Auftreten bzw. die Wortwahl zu achten. Alternativ könnte – im Sinne der Durchführungsobjektivität – bei sensiblen Themen auch ganz auf persönliche Interviews verzichtet und die Befragung stattdessen schriftlich durchgeführt werden. Auswertungsobjektivität bezieht sich nicht auf den Aspekt der Durchführung einer Datenerhebung, sondern nimmt die anschließende Auswertung der Daten in den Blick. Sie ist dann gegeben, »wenn verschiedene Personen mit den gleichen Daten und den gleichen Auswertungsverfahren zu den gleichen Ergebnissen kommen« (Tausendpfund 2018: 126). Bei der Verwendung standardisierter Fragebögen mit festen Antwortvorgaben ist diese Form der Objektivität selten kritisch. Wählt beispielsweise eine Person in Ihrer Befragung bei der Frage zum Haushaltseinkommen eine bestimmte Antwortkategorie aus, so werden dies unterschiedliche Interviewer*innen auch identisch vermerken. Ein größerer Spielraum in der Auswertung bestünde hingegen bei der Datenerhebung durch Beobachtung (vgl. Abschnitt 3.4). Würden Sie beispielweise den Interviewer*innen als zusätzliche Aufgabe mitgeben, die Qualität der Wohnungseinrichtung einzuschätzen, so könnten hier – bei nicht eindeutiger Festlegung, was zum Beispiel als »gehobener Standard« angesehen werden kann – unterschiedliche Interviewer*innen zu abweichenden Einschätzungen derselben Einrichtung gelangen. Die Auswertung ist daher umso objektiver, je höher der Grad der Standardisierung von Antwortvorgaben bzw. Beobachtungskategorien ausfällt. Auf entsprechend eindeutige Vorgaben sollte daher in quantitativen Erhebungen Wert gelegt werden.
116
Messung
Interpretationsobjektivität bezieht sich schließlich auf den wiederum nächsten Schritt der Interpretation von Daten und liegt dann vor, wenn unterschiedliche Wissenschaftler in der Interpretation der Daten zu demselben Ergebnis gelangen. Ein anschauliches Beispiel dafür, dass diese Form von Objektivität in der sozial- und wirtschaftswissenschaftlichen Forschung nicht immer einfach herzustellen ist, ist die seit Langem andauernde Diskussion um »Altersarmut«. Während einige Sozialforscher hier die Ansicht vertreten, dass diese bereits »ein beachtliches Niveau erreicht« hat (Noll und Weick 2013: 137) und angesichts langfristiger Entwicklungen der Rentenversicherung auch weiterhin für die Zukunft ein Anstieg zu erwarten ist (Noll und Weick 2013; Faik und Köhler-Rama 2013), vertreten andere die Ansicht, dass »mit einer geschickten Kombination von Arbeitsmarktund Sozialversicherungsreform […] unser Lebensstandard auch in Zukunft zumindest gehalten werden, vielleicht sogar steigen« kann (Börsch-Supan 2011: 26). Vollständige Interpretationsobjektivität ist angesichts der Tatsache, dass Interpretationen subjektiven Bewertungen bzw. Werturteilen unterliegen (Krebs und Menold 2019: 490) kaum herstellbar – und im Sinne einer pluralen Meinungsbildung wohl auch nicht wünschenswert. Der beste und redlichste Umgang bestünde vor diesem Hintergrund darin, dass Wissenschaftler die grundlegenden (Wert-)Annahmen ihrer Forschung bestmöglich offenlegen sollten, um damit eine grundlegende Nachvollziehbarkeit (und Kritik) ihrer Argumentation zu ermöglichen. MERKEN Objektivität einer Messung liegt dann vor, wenn die Messung personenunabhängig von Forscher*in oder Interviewer*in erfolgt. Sie sollte während der Erhebung von Daten (Durchführungsobjektivität), bei deren Auswertung (Auswertungsobjektivität) sowie bei deren inhaltlicher Interpretation angestrebt werden (Interpretationsobjektivität).
Reliabilität
Die Objektivität einer Messung geht von einer weitgehenden interpersonellen Unabhängigkeit der Messergebnisse aus; die Messung unterscheidet sich also im Idealfall nicht von Interviewer*in zu Interviewer*in (oder von Forscher*in zu Forscher*in). Das zweite Gütekriterium des Messens, die Reliabilität, geht davon aus, dass sich die Messergebnisse nicht zwischen zwei unterschiedlichen oder aufeinanderfolgenden Messungen unterscheiden sollten. Es beschreibt also das Ausmaß, in dem einmalige Messungen reproduzierbar sind und stellt damit ein Maß der Zuverlässigkeit der Messung dar. Würde man beispielsweise mehrere Messungen der Einstellungen zur Verteilungsgerechtigkeit der Alterssicherung
Gütekriterien der Messung
117
(vgl. Abbildung 4.10) bei vergleichbaren Befragtengruppen durchführen, so sollten sich die Ergebnisse der verschiedenen Messungen nicht wesentlich unterscheiden. Lassen sich Ergebnisse einer Messung nicht in angemessener Weise replizieren, so kann davon ausgegangen werden, dass das Messinstrument unzuverlässig, also wenig reliabel ist. In der methodischen Literatur werden meist drei verschiedene Verfahren zur Bestimmung der Reliabilität eines Messinstruments beschrieben (vgl. z. B. Diekmann 2012, Krebs und Menold 2019, Tausendpfund 2009). Gemäß der Logik der sogenannten Test-Retest-Methode wird bei den gleichen Personen eine Messung zu unterschiedlichen Zeitpunkten, also etwa in einem Abstand von mehreren Monaten, durchgeführt. Weisen die Ergebnisse der beiden Messungen einen hohen statistischen Zusammenhang auf (zur genauen mathematischen Bestimmung dieses Zusammenhangs vgl. Kapitel 6), so wird davon ausgegangen, dass das Messinstrument zuverlässig ist und entsprechend eine hohe Reliabilität aufweist. Ein wesentlicher Nachteil dieser Methode besteht darin, dass sie nur sinnvoll angewendet werden kann, wenn man von einer Stabilität des zu messenden Sachverhalts ausgeht (vgl. Häder 2015: 105). Während man bei einer Reihe grundlegender soziodemographischer Merkmale (etwa Geschlecht, höchster Bildungsabschluss, Geschwisterzahl, zentrale Lebenslaufereignisse etc.) von einer solchen Konstanz meist ausgehen kann, ist diese bei komplexeren Messobjekten meist nicht gegeben. Bei einer zweimaligen Messung von Armut in größeren zeitlichen Abständen könnten sich Unterschiede in der Messung auch dadurch ergeben, dass einige ehemals arme Personen die Armut verlassen konnten (beispielsweise durch Aufnahme einer Erwerbstätigkeit). In Abhängigkeit von der allgemeinen Wirtschaftslage könnten wiederum andere Personen im gleichen Zeitraum in Armut geraten sein. Die Änderungen im Messergebnis lassen dann keinen Schluss mehr auf die Zuverlässigkeit des Messinstrumentes zu, sondern sind vielmehr durch Änderungen in der allgemeinen Armutslage bedingt. Die Paralleltest-Methode berücksichtigt diese Problematik, indem hier die Messungen nicht notwendigerweise zeitversetzt, sondern parallel erfolgen. Hierbei werden zwei unterschiedliche Messinstrumente verwendet, die denselben zu untersuchenden Sachverhalt erfassen sollen und identische Messeigenschaften haben (vgl. Tausendpfund 2018: 128). Stimmen die Testergebnisse hier weitgehend überein, kann davon ausgegangen werden, dass diese das Untersuchungskonzept verlässlich messen. Liegen vergleichbare Messinstrumente vor, ist ein derartiges Vorgehen durchaus praktikabel. In der Medizin kann beispielsweise die Messung des Blutdrucks durch medizinisches Fachpersonal bei Unsicherheiten noch einmal durch eine maschinelle Messung »kontrolliert« werden. In den Sozialwissenschaften sind derartige Kontrastierungen von unmittelbar vergleichbaren Messinstrumenten jedoch vergleichsweise schwierig und die Paralleltest-Methode ist entsprechend wenig verbreitet. Selbst bei den zuvor diskutierten alternativen Möglichkeiten
118
Messung
der Armutsbestimmung (vgl. Kapitel 4.1 und 4.2) argumentieren Fachleute meist, dass diese unterschiedliche Facetten des Armutsphänomens beschreiben und entsprechend zu unterschiedlichen Ergebnissen führen können (Hauser 2018). Ein drittes Vorgehen zur Überprüfung der Reliabilität einer Messung stellt die SplitHalf-Methode dar, die insbesondere bei umfangreichen mehrdimensionalen Messungen mit einer hohen Zahl an Aussagen, die alle auf einen identischen Sachverhalt bezogen sind, zur Anwendung kommt. Derartig umfangreiche Skalen werden per Zufall in zwei Hälften unterteilt, deren statistischer Zusammenhang dann untersucht wird. Fällt dieser hoch aus, kann wiederum von einer hohen Reliabilität der Gesamtskala ausgegangen werden. MERKEN Die Reliabilität einer Messung beschreibt die Zuverlässigkeit eines Messinstruments und ist ein Maß der Reproduzierbarkeit von Messergebnissen. Sie liegt dann vor, wenn die Messung sich in aufeinanderfolgenden (Test-Retest-Methode) bzw. parallelen Tests (Parallel test-Methode) reproduzieren lässt bzw. wenn eine umfangreiche Skala auch bei zufälliger Aufteilung in zwei Teile vergleichbare Messergebnisse erzielt (Split-Half-Methode).
Validität
Objektivität und Reliabilität stellen wichtige Aspekte einer Messung dar; sie allein reichen jedoch nicht aus, um eine adäquate Messung zu gewährleisten. Denken Sie beispielsweise an ein Tachometer, der die tatsächlich gefahrene Geschwindigkeit aufgrund eines Einstellungsfehlers konstant 10 km/h zu niedrig anzeigt. Die Messung wäre zweifelsohne objektiv, da die Fehlanzeige nicht vom Fahrer bzw. der Fahrerin abhinge. Ebenso wäre sie hochgradig reliabel, da sich das Ergebnis mühelos replizieren ließe. Gleichwohl wäre der Tachometer als Messinstrument nicht geeignet, da er nicht die korrekte Geschwindigkeit dokumentiert. Ebenso kritisch wäre ein Instrument zur Messung von Armut zu betrachten, dass das Ausmaß von Armut systematisch unter- oder überschätzen würde. Für ein sozialwissenschaftliches Messinstrument sollte zusätzlich zu Objektivität und Reliabilität daher auch die Gültigkeit – oder Validität – geprüft werden, also der Grad, in dem das Messinstrument das misst, was es messen soll. Auch hier lassen sich verschiedene Aspekte unterscheiden. Bei der Inhaltsvalidität eines Messinstrumentes steht die Frage im Mittelpunkt, inwiefern dieses das zu messende Konstrukt tatsächlich angemessen widerspiegelt. Ein gutes Messinstrument sollte die zu messende Eigenschaft »möglichst umfassend« erheben (Krebs und Menold 2019: 497), diese »vollständig repräsentieren« (Häder 2015: 109) und dabei
Gütekriterien der Messung
119
»möglichst alle Dimensionen des Konstrukts« berücksichtigen (Tausendpfund 2018: 129). Im Falle der Messung von Armut sollte eine geeignete Messung also möglichst alle relevanten Dimensionen von Armut berücksichtigen, die aus der Armutsforschung bekannt sind. Nach den bisherigen Diskussionen der unterschiedlichen Messungsvarianten von Armut dürfte es Ihnen nachvollziehbar erscheinen, dass eine derartige Kontrolle der Validität einen höchst subjektiven Charakter haben mag: Was sind beispielsweise »alle relevanten Dimensionen« und wann werden diese angemessen berücksichtigt? In der empirischen Forschung wird bei der Einschätzung der Inhaltsvalidität daher häufig auf ausgewiesene Expert*innenurteile vertraut (Expertenvalidität). Vor der Durchführung Ihres Forschungsprojektes zum Thema Armut könnten Sie also beispielsweise ausgewiesene Armutsforscher hinzuziehen, die Ihre Skala nach einschlägigen fachlichen Standards vorab überprüfen. Auch hier ist jedoch eine gewisse Subjektivität – etwa in Ihrer Auswahl der Fachexpert*innen oder bei deren spezifischem Blick auf das Armutsthema – nicht auszuschließen. Der Versuch einer »objektiveren« Messung des Armutsphänomens könnte darin bestehen, Ihr Messkonzept mit einem anderen etablierten Instrument zu vergleichen, das seinerseits als valides Messinstrument gilt – und zu prüfen, inwiefern die Ergebnisse beider Konzepte miteinander übereinstimmen. Bei hoher Übereinstimmung könnte entsprechend von einer hohen Validität gesprochen werden. Sie könnten Ihr Instrument zur Armutsmessung beispielsweise mit den Grenzen staatlicher Transferbedürftigkeit vergleichen, oder anhand von Surveydaten überprüfen, inwiefern Ihr Maß von Armut mit der tatsächlichen Selbsteinschätzung von Menschen (als arm/nicht arm) übereinstimmt. Aufgrund der Orientierung dieses Ansatzes an einem externen Kriterium, mit dem das eigene Messkonzept verglichen wird, wird hier auch häufig von Kriteriumsvalidität gesprochen. Die Problematik dieses Ansatzes zur Validitätsbestimmung liegt darin, ein geeignetes Außenkriterium zu finden, das dieselbe zugrunde liegende Eigenschaft ebenfalls valide erfasst. Es ließe sich beispielsweise berechtigt die Frage stellen, inwiefern offizielle, administrative Armutsgrenzen die tatsächliche Armut von Menschen widerspiegeln. Ebenso belegt die aktuelle Forschung, dass objektive Armutsmaße keineswegs inhaltlich mit der subjektiv wahrgenommenen Armut übereinstimmen müssen (vgl. z. B. Neumann-Schmidt et al. 2018). Beides wären insofern kritisierbare Kriterien zur Validierung eines Armutsmaßes. Selbst im Falle der Identifikation eines geeigneten und validen Kriteriums würde sich mit gutem Recht die Frage stellen lassen, »ob man nicht gleich auf die Messung verzichten und sich stattdessen des sicheren Kriteriums bedienen sollte« (Häder 2015: 110). Die Idee der Konstruktvalidität geht noch einen Schritt weiter als die der Kriteriums validität. Während bei Letzterer die Orientierung an einem Außenkriterium ausschlag gebend war, wird bei der Konstruktvalidität unterstellt, dass »das von einem Messinstrument erfasste Konstrukt mit möglichst vielen anderen Variablen in theoretisch
120
Messung
begründbaren Zusammenhängen steht und hieraus Hypothesen ableitbar sind, die einer empirischen Prüfung standhalten« (Diekmann 2012: 258). Das zu untersuchende Mess instrument wird also in einen größeren theoretischen Zusammenhang gestellt und in diesem daraufhin überprüft, in welchem Maße es sich bewährt. Im Falle der Armutsforschung würden auf Basis des bisherigen Stands der Forschung also belastbare Hypothesen zum Thema Armut identifiziert (z. B. »Je ärmer eine Person, desto geringer deren Lebenszufriedenheit«, »Je ärmer eine Person, desto geringer deren räumliche Mobilität« etc.) und geprüft, inwiefern das neue Armutsmaß sich empirisch zur Bestätigung verwenden lässt. Auch hier zeigen sich jedoch Probleme in der praktischen Umsetzung: Zum einen stellt eine derartig ausführliche Prüfung ein aufwendiges Verfahren dar, das nur als Langzeitprojekt realisierbar und entsprechend bei explorativen oder spontanen Ad-hoc-Studien kaum praktikabel ist. Zum anderen könnte sich eine Nicht-Bestätigung einer zuvor formulierten Hypothese auch durch Probleme des theoretischen Zusammenhangs (die formulierte Hypothese ist falsch), der Untersuchung (die Stichprobe ist z. B. nicht repräsentativ) oder der Messung (das andere Konzept lässt sich selbst nicht valide messen) ergeben. MERKEN Die Validität einer Messung beschreibt das Ausmaß, in dem ein Messinstrument das misst, was es messen soll. Möglichkeiten zur Überprüfung bestehen in der Prüfung der konzeptionellen Angemessenheit des Messkonzeptes (Inhaltsvalidität) – ggf. durch Fachexperten (Expertenvalidität), des Vergleichs mit geeigneten Außenkriterien (Kriteriumsvalidität) und der Bewährung in umfassenderen theoretischen Zusammenhängen (Konstruktvalidität).
Wie die bisherigen Ausführungen gezeigt haben dürften, sind Objektivität, Reliabilität und Validität nicht in jedem denkbaren Forschungskontext (leicht) realisierbar. Gleichwohl stellen sie Qualitätskriterien dar, die bei jeder sozialwissenschaftlichen Messung kritisch reflektiert werden sollten, um eine möglichst gute Messung eines Untersuchungsgegenstandes zu gewährleisten.
4.5 Gestaltung des Erhebungsinstruments In den bisherigen Subkapiteln sind wir davon ausgegangenen, dass wir mit einzelnen bzw. wenigen Fragen einen konkreten Untersuchungsgegenstand erheben. Zur Verdeutlichung einiger grundlegender Aspekte des Messens ist eine solche reduzierte Perspektive zweifelsohne zweckdienlich. Im Falle einer realen Forschung würden Fragen zum Thema Armut
121
Gestaltung des Erhebungsinstruments
aller Wahrscheinlichkeit in den größeren Kontext eines umfassenderen Fragebogens eingebunden werden. Dies ist auch sinnvoll, da Sie vermutlich nicht nur an der reinen Messung der Häufigkeit des Auftretens von Armut interessiert wären, sondern darüber hinaus untersuchen möchten, wie häufig diese in spezifischen Bevölkerungsgruppen auftritt, welches mögliche Risikofaktoren für das Auftreten von Armut sind etc. In diesem letzten Abschnitt wollen wir daher auch diesen größeren Kontext des gesamten Fragebogens thematisieren. Die Tatsache, dass in diesem Zusammenhang oft von der »Kunst der Fragestellung« (vgl. Payne 1951 »The Art of Asking Questions«) die Rede ist, verdeutlich bereits, dass es sich hierbei um ein verhältnismäßig umfangreiches Themenfeld handelt, das wir im Rahmen eines einzelnen Subkapitels nicht erschöpfend behandeln können. Wir werden entsprechend nur auf einige Grundprinzipien der Fragebogengestaltung eingehen: den allgemeinen Aufbau eines Fragebogens, typische Frageformen sowie allgemeine Grundregeln zur Formulierung von Fragen. Aus Gründen der Anschaulichkeit beschränken wir uns dabei auf das Beispiel eines schriftlichen Selbstausfüller-Fragebogens. Leser mit weitergehendem Interesse seien zur Vertiefung auf das ausgezeichnete Arbeitsbuch von Rolf Porst (2014) verwiesen, aus dem auch einige der folgenden Beispiele entnommen sind. 4.5.1 Aufbau des Fragebogens Allgemein sollte ein Fragebogen einen Aufbau aufweisen, der über die gesamte Befragungsdauer das Interesse der Befragten möglichst hoch hält, gleichzeitig aber auch bei der Art der Fragen die variierenden Aufmerksamkeitsspannen der Befragten berücksichtigt. Üblicherweise lassen sich verschiedene grobe Bestandteile eines Fragebogens unterscheiden (vgl. Abbildung 4.11). Zu Beginn der Befragung steht meist ein Titelblatt. Ziel ist es hier, dem/der Befragten Ursprung und Zielsetzung der Befragung zu verdeutlichen, auf deren Seriosität hinzuweisen und ihn/sie im Folgenden für die Befragung zu gewinnen. Porst (2014) veranschaulicht anhand einiger Beispiele, dass dieses Titelblatt attraktiv gestaltet sein sollte, was die Verwendung von Grafiken und/oder Bildern mit sich bringen kann. Titelblatt
»Eisbrecherfragen«
Block I
Block II
Sozialstatistik
Abbildung 4.11: Typischer Aufbau eines Fragebogens (eigene Darstellung)
Inhaltlich enthält das Titelblatt zunächst einmal Informationen zur ausführenden Institution sowie ggf. zum Auftraggeber der Befragung. Insbesondere bei schriftlichen Befragungen, bei denen kein direkter Interviewerkontakt besteht, empfiehlt es sich, zudem Ansprechpartner und Kontaktmöglichkeiten zu nennen, um den Befragten die Möglichkeit für Rückfragen zu bieten.
122
Messung
Die erste Seite des Fragebogens sollte der bzw. dem Befragten Transparenz über die allgemeinen Themenbereiche des Fragebogens verschaffen. Die hier gegebenen Informationen sollten aber so allgemein gehalten werden, dass das Antwortverhalten der bzw. des Befragten hierdurch nicht beeinflusst wird (vgl. Hollenberg 2016: 9). Den Befragten unmittelbar mitzuteilen, dass es in der von Ihnen durchgeführten Befragung um das Thema »Armut in Deutschland« gehen soll, wäre problematisch, da diese ihre Antworten entsprechend strategisch anpassen könnten, etwa indem sie sich bemühen, den Eindruck einer Betroffenheit von Armut zu vermeiden. Eine allgemeinere Betitelung der Umfrage – etwa »Lebensverhältnisse in Deutschland heute« – würde derartige Assoziationen vermeiden und gleichzeitig die allgemeine Thematik des Fragebogens zumindest grob verdeutlichen. Den Befragten sollte zumindest eine grobe Schätzung des Zeitaufwandes der Befragung vermittelt werden. Diese sollte möglichst realistisch auf Basis vorheriger Testfragebögen geschätzt werden, um Demotivationseffekte des Befragten zu vermeiden. Den Befragten sollte zudem zugesichert werden, dass die Befragung aktuell geltenden Standards des Datenschutzes folgt und die erhobenen Daten anonymisiert werden, d. h. dass »die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können« (RatSWD 2017: 14). Darüber hinaus sollte sichergestellt werden, dass die Daten nur für wissenschaftliche Zwecke genutzt werden und eine Weitergabe an Dritte ausgeschlossen wird. Den Befragten muss zudem das Recht eingeräumt werden, einmal getätigte Aussagen auf Wunsch zurücknehmen zu können. An die Titelseite geheftet sollten sich schließlich Hinweise zur Beantwortung des Fragebogens finden, die den Befragten anhand einiger anschaulicher Beispiele den Umgang mit den im Fragebogen verwendeten Fragetypen demonstrieren (für ausführliche Beispiele vgl. Porst 2014: 47 ff.). Der eigentliche Fragebogen sollte anschließend möglichst durch Eisbrecher- oder Aufwärmfragen eingeleitet werden. Diese sollten spannend genug formuliert sein, um die Aufmerksamkeit der Befragten für die Thematik des Fragebogens zu gewinnen. Die gesellschaftliche ebenso wie die persönliche Relevanz des Untersuchungsgegenstandes können dabei hervorgehoben werden. Andererseits sollten diese Fragen einfach und angenehm zu beantworten sein, um bereits zu Beginn des Interviews eine angenehme und vertrauensvolle Gesprächsatmosphäre zu schaffen. Sie sollen »die Befragungsperson persönlich betreffen, aber nicht betroffen machen« (vgl. Porst 2014: 139 f.). Ein anschau liches und gelungenes Beispiel hierfür bildet die folgende Einstiegsfrage des schriftlichen Ergänzungsfragebogens zum Deutschen Alterssurvey (DEAS) 2017:
Gestaltung des Erhebungsinstruments
123
»Im ersten Teil dieses Fragebogens ist uns Ihre persönliche Meinung besonders wichtig. Wir möchten von Ihnen wissen, wie Sie sich selbst und bestimmte Erfahrungen, die Sie gemacht haben, beurteilen. Alle Menschen werden älter. Was Älterwerden für den Einzelnen jedoch bedeutet, kann sehr unterschiedlich sein. Die folgenden Aussagen beziehen sich auf Veränderungen, die mit dem Älterwerden einhergehen können.« Der mehrfache Bezug auf die Person des Befragten (»Ihre persönliche Meinung«, »Erfahrungen, die Sie gemacht haben«, »Was Älterwerden für den Einzelnen jedoch bedeutet«) verdeutlicht hierbei zum einen das ausdrückliche Interesse an der Meinung der bzw. des Befragten und versucht sie bzw. ihn damit für die Befragung zu gewinnen. Gleichzeitig verdeutlicht der Fragetext, dass es sich bei der folgenden Frage um eine Thematik von allgemeinem Interesse handelt (»Alle Menschen werden älter«). Der Fragebogen sollte anschließend in Themenblöcke unterteilt werden, die es den Befragten erleichtern, der inhaltlichen Logik der Befragung zu folgen. So ließe sich beispielsweise bei der avisierten Befragung zum Thema Armut zunächst ein Fragenblock zum gegenwärtigen Konsumverhalten des Haushalts platzieren, dem sich mehrere Fragen zur finanziellen Situation des Haushalts anschließen, gefolgt von Fragen zu deren subjektiver Wahrnehmung. Wird von einem Fragenblock zum nächsten gewechselt, sollten thematische Überleitungen dem Befragten den Themenwechsel verdeutlichen, um Irritationen zu vermeiden. Die Kernfragen des Forschungsvorhabens – im vorliegenden Fall also die armutsbezogenen Fragen – sollten möglichst in die Mitte des Fragebogens gestellt werden. Diese Platzierung ist zum einen der Tatsache geschuldet, dass die Aufmerksamkeit der bzw. des Befragten mit zunehmender Interviewdauer sinkt (vgl. Diekmann 2012: 484). Zum anderen wird so im Falle eines späteren Interviewabbruchs sichergestellt, dass die zentralen Fragen der Untersuchung noch von einem größeren Teil der Befragten beantwortet wurden (Klöckner und Friedrichs 2014: 676). Sozialstatistische Fragen werden üblicherweise gegen Ende des Fragebogens gestellt, da sie aufgrund ihres förmlichen Charakters zu Beginn des Fragebogens der Schaffung einer angenehmen Gesprächsatmosphäre eher im Weg stünden (Porst 2014). Zudem sind sie selbst mit nachlassender Konzentration meist noch einfach zu beantworten (Klöckner und Friedrichs 2014). Eine Ausnahme von dieser Faustregel bietet sich lediglich dann an, wenn eine bestimmte Zielgruppe befragt werden soll, die durch vorherige Kontrollfragen identifiziert werden muss. Bei einer Untersuchung von Armut im Rentenalter könnten Fragen zum Alter und Erwerbsstatus des Befragten entsprechend vorgezogen werden. Beendet werden sollte ein Fragebogen mit einem ausdrücklichen Dank an die Befragten und der Möglichkeit, abschließend Kommentare zum Fragebogen zu hinterlassen.
124
Messung
4.5.2 Grundlegende Frageformen Bei der vorangegangenen Betrachtung verschiedener Möglichkeiten zur Messung von Armut haben Sie bereits einige Möglichkeiten der Gestaltung von Fragen kennengelernt (Abbildung 4.2–4.4). Diese wollen wir hinsichtlich ihrer Frageform nun noch einmal etwas systematischer betrachten. Die Erfassung des Haushaltseinkommens mit Hilfe vorgegebener Einkommenskategorien (Abbildung 4.3) stellt eine sogenannte geschlossene Frage dar. Bei dieser Art von Fragen werden den Befragten nach dem Fragetext mehrere vorgegebene Antwortmöglichkeiten zur Auswahl gestellt, aus denen sie die für ihn zutreffende auswählen sollen. Andere Antwortmöglichkeiten neben den im Fragebogen vorgegebenen stehen den Befragten dabei nicht zur Verfügung, die Auswahl an Antwortmöglichkeiten ist also in gewisser Weise »(ab)geschlossen« und kann nicht mehr erweitert werden. Derartige Fragen stellen die »klassische« Frageform »par excellence« in der quantitativen Sozialforschung dar (vgl. Möhring und Schlütz 2010: 74, Porst 2014: 55). Geschlossene Fragen weisen eine Reihe von Vorteilen auf. Von besonderer Bedeutung ist die über alle Befragungspersonen standardisierte Form der Erhebung, die garantiert, dass die Antworten über Personen hinweg unmittelbar vergleichbar sind. Aufgrund dessen wird derartigen Fragen auch ein hohes Maß an Reliabilität und Validität zugeschrieben (vgl. Möhring und Schlütz 2010). Darüber hinaus können aufgrund der identischen Form der Erhebung meist unmittelbar statistische Analysen für alle Befragten durchgeführt werden. Nachteile können sich ergeben, wenn die vorgegebenen Antwortvorgaben Befragten keine angemessene Einordnung ermöglichen. Im Falle einer lückenlosen Vorgabe von Einkommenskategorien wie in Abbildung 4.3 ist dieses Problem vernachlässigbar, da für jede denkbare Einkommensangabe eine Einordnung in eine Kategorie möglich erscheint. Im Falle der Frage nach der Zustimmung zu vorgegebenen Statements (Abbildung 4.10) ist dies ggf. problematischer: Wo kann sich beispielsweise ein Befragter einordnen, der eines der Statements mehr als nur »etwas« ablehnt, dem die »ganze« Ablehnung der Aussage gleichwohl als zu drastisch erscheint? MERKEN Geschlossene Fragen geben den Befragten eine begrenzte Liste von Antwortmöglichkeiten vor, aus denen sie die für sie zutreffende(n) auswählen soll. Sie stellen die am häufigsten verwendete Frageform in quantitativen Befragungen dar. Geschlossene Fragen sind einfach erfass- und analysierbar und weisen eine hohe Reliabilität und Validität auf. Sie sind zur Erfassung leicht standardisierbarer Eigenschaften wie Alter oder Einkommen sehr gut geeignet. Als problematisch kann sich die zu starre Vorgabe bestimmter Antworten
Gestaltung des Erhebungsinstruments
125
erweisen, die die Befragten zu einer Auswahl einer ggf. nicht (vollständig) zutreffenden Antwort »zwingen«.
Noch problematischer können sich geschlossene Fragen bei der Begründung eigenen Verhaltens erweisen. Abbildung 4.12 gibt hierzu eine Frage aus dem Internationalen Fragenprogramm ISSP wieder, in dem Befragte gebeten wurden, im Falle einer kürzlichen Erwerbsaufgabe den Hauptgrund hierfür zu nennen. Zwar umfasst die hierzu verwendete Antwortskala durchaus viele unterschiedliche Gründe, die eine Erwerbsaufgabe bedingen könnten. Die durchaus denkbare Motivation, aus dem Erwerbsleben ausgestiegen zu sein, da man es sich finanziell leisten konnte, fehlt hier jedoch; weitere Begründungen (z. B., da man mehr Freizeit haben wollte) wären ebenfalls denkbar. Es ist aus erhebungstechnischer Sicht sicher nachvollziehbar, dass die Verantwortlichen der ISSP-Befragung die Befragten nicht mit einer mehrseitigen Liste aller denkbaren Gründe konfrontieren wollten. Gleichwohl kann das Fehlen eines zutreffenden Grundes in der Skala den Befragten ggf. dazu bringen, eine »Ersatzantwort« zu wählen (die gar nicht dem maßgeblichen Grund der Erwerbsaufgabe entsprach), die Antwort zu verweigern oder schlimmstenfalls die Befragung zu beenden. Was war der Hauptgrund dafür, dass Sie aufhörten, erwerbstätig zu sein? Nur EINE Markierung möglich! 1. Ich hatte das Rentenalter erreicht 2. Ich bin freiwillig vorzeitig in Rente gegangen 3. Ich musste vorzeitig in Rente gehen 4. Ich wurde dauerhaft krank/behindert 5. Meine Firma/Niederlassung machte zu 6. Ich wurde entlassen 7. Mein Arbeitsvertrag lief aus 8. Familiäre Verpflichtungen 9. Ich heiratete Abbildung 4.12: Geschlossene Skala zur Erfassung von Gründen des Erwerbsausstiegs (Quelle: ISSP 2015)
Was war der Hauptgrund dafür, dass Sie aufhörten, erwerbstätig zu sein?
Abbildung 4.13: Offene Skala zur Erfassung von Gründen des Erwerbsausstiegs (eigene Darstellung)
126
Messung
Vor dem Hintergrund der skizzierten Nachteile bestünde eine mögliche Alternative der Erhebung darin, die Gründe des Erwerbsausstiegs ohne die Vorgabe spezifischer Antwortkategorien zu erfragen. In schriftlichen Fragebögen wird dies meist dadurch getan, dass anstatt fester Antwortkategorien den Befragten einige Zeilen Platz eingeräumt werden, in denen sie eigenständig eine Antwort formulieren können (vgl. Abbildung 4.13). Eine solche Frageform, bei der keine Antwortkategorien vorgegeben werden und Befragte frei in ihren eigenen Worten antworten können, bezeichnet man als offene Frage. Der Vorteil einer solchen weniger standardisierten Form der Fragestellung besteht darin, dass die Art der Fragestellung am ehesten einer normalen Gesprächsführung entspricht. Den Befragten müssen keine umfangreichen Listen ausgehändigt werden und deren Antworten werden nicht durch vorgegebene Texte beeinflusst. Insbesondere dann, wenn viele verschiedene Antworten auf eine Frage möglich sind (etwa bei numerischen Angaben, z. B. zum Einkommen oder Alter), ist eine offene Frage einer langen Liste vorzuziehen. Es ist zudem davon auszugehen, dass sich die Möglichkeit, auf einzelne Fragen eigenständig antworten zu können, auch positiv auf die Motivation der Befragten auswirkt (vgl. Porst 2014: 66). Offene Fragen eignen sich darüber hinaus besonders bei explorativen Studien, in denen das Themenfeld noch umfassender erschlossen werden muss und bei denen der relevante »Antworthorizont« noch weitgehend unbekannt ist (Hollenberg 2016: 12). Ein wesentlicher Nachteil offener Fragen besteht darin, dass seitens der Befragten eine ausreichende Verbalisierungskompetenz vorausgesetzt wird, sie oder er also in der Lage und bereit sein muss, die eigene Sichtweise auch entsprechend in eigene Worte zu fassen. In der Auswertung sind offene Fragen zudem meist sehr aufwendig. Um später statistische Analysen durchführen zu können, müssen die gegebenen Antworten nachträglich durch qualifiziertes Fachpersonal in Kategorien eingeordnet und Zahlenwerten zugeordnet werden. Dieser Zusammenfassung in Kategorien kann zudem eine bestimmte Subjektivität unterstellt werden, da unklar bleibt, ob die vom Forscher unterstellte Bedeutung einer Antwort auch vom Befragten intendiert war. So könnte im Fall des obigen Beispiels der offenen Erhebung von Gründen des Erwerbsausstiegs der Forscher die Antworten »wegen meiner Hobbys«, »um meine Enkel häufiger sehen zu können« und »mehr Zeit« einer gemeinsamen Kategorie »Freizeit« zuordnen, obwohl diese aus Sicht der Befragten unterschiedliche Gegenstandsbereiche kennzeichnen. MERKEN Offene Fragen geben keine Antwortmöglichkeiten vor, sondern fordern auf, eine Antwort in eigenen Worten zu formulieren. Vorteile derartiger Fragetypen bestehen in der unbeeinflussten Erfassung der Antworten des/der Befragten; sie eignen sich zudem gut für
Gestaltung des Erhebungsinstruments
127
explorative Studien. Gleichzeitig setzt die Verwendung offener Fragen eine hohe Verbalisierungskompetenz der/des Befragten voraus; deren Auswertung ist zudem meist sehr zeit- und kostenaufwendig.
Halboffene Fragen (oder auch »Hybrid-Fragen«) versuchen, die Vorteile offener und geschlossener Fragen miteinander zu kombinieren. Hierbei wird eine eigentlich »geschlossene« standardisierte Skala um eine weitere Kategorie ergänzt, in die sich Befragte bei Nicht-Zutreffen der anderen Antwortmöglichkeiten einordnen und in einem Freitextfeld ihre Antwort eigenständig eintragen können. Ein typisches Beispiel hierfür stellt die Erfassung der Staatsangehörigkeit in sozialwissenschaftlichen Befragungen dar (vgl. Abbildung 4.14). Da es für die Befragten sehr aufwendig wäre, eine vollständige Liste aller 193 Staaten der Welt durchzusehen, werden hier meist die in Deutschland am häufigsten vorkommenden Staatsangehörigkeiten als Antwortkategorien vorgegeben und darüber hinaus eine offen gestaltete »Residualkategorie« angeboten, in der der/die Befragte eine darüber hinausgehende Staatsangehörigkeit selbst eintragen kann. Diese Art der Frage lässt sich also insbesondere dann gut verwenden, wenn die wahrscheinlichen Antworten sehr gut abgeschätzt, aber nicht definitiv bestimmt werden können bzw. wenn eine lückenlose Bestimmung sehr aufwendig wäre (Porst 2014: 59). Dadurch, dass Befragte sich eindeutig einordnen können, wird deren Motivation zur weiteren Teilnahme gesteigert. Durch die Verwendung nur einer offenen Antwortmöglichkeit neben einer Reihe fester Antwortvorgaben wird zudem der Aufwand zur nachträglichen Bearbeitung der offenen Antworten deutlich verringert; er fällt im untenstehenden Beispiel im Grunde nur dann an, wenn Befragte sich nicht den häufigsten Staatsangehörigkeiten zuordnen können. F. 017 Welche Staatsbürgerschaft haben Sie? Wenn Sie die Staatsbürgerschaft mehrerer Länder besitzen, nennen Sie mir bitte alle. Mehrfachnennungen möglich, außer wenn »staatenlos« genannt! 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Deutschland Griechenland Italien Kroatien Polen Rumänien Russische Föderation Türkei Anderes Land, und zwar: Keine, bin staatenlos
Abbildung 4.14: Halboffenes Format zur Erfassung der Staatsangehörigkeit (Quelle: ALLBUS 2016)
128
Messung
MERKEN Halboffene Fragen stellen eine Hybridform zwischen offenen und geschlossenen Fragen dar. Sie kombinieren eine geschlossene Frage mit einer einzelnen, offenen Antwortmöglichkeit. Sie eignen sich insbesondere bei Fragen, bei denen das Antwortspektrum nicht vollständig bekannt ist: Ebenso können sie bei einer hohen Zahl von Antwortmöglichkeiten eingesetzt werden, um die (demotivierende) Verwendung langer Listen zu vermeiden.
Nicht immer müssen jedoch Fragen von den Forscher*innen selbst neu konzipiert werden. Nahezu jede Umfrage beinhaltet einen Teil mit allgemeinen sozio-demographischen Fragen, die eine Differenzierung der erzielten Ergebnisse nach grundlegenden sozio-ökonomischen Kriterien ermöglichen sollen. Für Ihre Armutsstudie könnte es zum Beispiel zweckmäßig sein, zu prüfen, inwiefern sich Geschlechter-, Bildungs- oder Altersunterschiede im Risiko, von Armut betroffen zu sein, zeigen. Für derartige Standardindiktoren stellt das Statistische Bundesamt in Zusammenarbeit mit dem Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute (ADM) und der Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e. V. (ASI) seit mehreren Jahren beispielhafte Formulierungen zur Verfügung, die sich in der bisherigen Forschung mehrfach bewährt haben. Diese sogenannten »demographischen Standards« (Statistisches Bundesamt 2016) sind offen auf der Internetpräsenz des Statistischen Bundesamtes zugänglich und werden in regelmäßigen Abständen – zuletzt im Jahr 2016 – aktualisiert. Derartige Standardformulierungen erleichtern zum einen dem Sozialforscher die eigene Fragebogenerstellung. Sie ermöglichen zum anderen, dass Ergebnisse verschiedener Umfragen auch auf Subgruppenebene aufgrund der einheitlichen Verwendung von Frageformulierungen besser miteinander vergleichbar sind. MERKEN Für allgemeine sozialstatistische Fragen liegen geläufige und bewährte Fragenentwürfe als »Demographische Standards« öffentlich vor und werden regelmäßig aktualisiert.
4.5.3 Grundregeln zur Formulierung von Fragen Neben der Entscheidung für eine bestimmte Frageform sind bei der Formulierung von Fragen auch eine Reihe von »Dos and Don’ts« zu beachten. Die wichtigsten dieser allgemeinen Grundregeln werden im Folgenden kurz dargestellt.
Gestaltung des Erhebungsinstruments
129
Ȥ Berücksichtigung des Kenntnisstands der Befragten: Bei der Formulierung von Fragen sollte jeweils der erwartbare Kenntnisstand der Befragten berücksichtigt werden. Sind diese auf Basis der Ihnen vorliegenden Informationen in der Lage, die Frage zu beantworten? Eine Frage nach der Beurteilung der Kernaussagen des letzten Armutsund Reichtumsberichts der Bundesregierung sollten Sie in einer Befragung zur Armut möglichst vermeiden, da nur wenige Teilnehmer*innen über dieses »Expertenwissen« verfügen werden. Dies könnte zu einem hohen Maß an Antwortverweigerungen oder – noch schlimmer! – zur Auswahl von beliebigen Antwortkategorien führen, ohne dass der Befragte hinreichend über den Befragungsgegenstand informiert ist. Ȥ Einfache, kurze Frageformulierung/Vermeidung von Fachtermini: Fragen sollten möglichst einfach und ohne die Verwendung wenig bekannter Fremdworte gestellt werden. Es würde beispielsweise wenig Sinn machen, Befragte danach zu fragen, ob sie sich »materiell depriviert« fühlen oder von »sozialer Exklusion« betroffen sind, obwohl diese Termini in der Armutsforschung durchaus zum Standardvokabular zählen. Zur einfachen Gestaltung von Fragen zählt auch die Verwendung möglichst kurzer Fragen. Alwin und Beattie (2016) zeigen anhand einer Untersuchung verschiedener amerikanischer Paneldatensätze, dass die Reliabilität von Fragen mit der Länge der Frage bzw. ihrer Wortanzahl abnimmt. Das hieraus von ihnen abgeleitete »KISS«-Prinzip (»Keep it simple, stupid!«) mag zwar in der Formulierung recht derb ausfallen, stellt aber zweifelsohne einen wertvollen Ratschlag für die Fragengestaltung dar. Üblicherweise werden hierbei in Anlehnung an Payne (1951) Längen von bis zu zwanzig Wörtern als angemessen angesehen (Schnell 2019: 65, Tausendpfund 2018). Ȥ Eindeutigkeit von Begriffen: Die in Fragen verwendeten Begriffe sollten eindeutig formuliert sein, um sicherzustellen, dass sie »von allen Befragten in gleicher Weise verstanden werden« (Tausendpfund 2018: 255). So wird etwa in vielen Befragungen der Begriff des Haushaltseinkommens dem Befragten noch einmal erläutert, um sicherzustellen, dass alle Befragten sich hier auf dieselbe Zielgröße beziehen (vgl. Abbildung 4.2). Zur eindeutigen Formulierung von Fragen gehört auch die klare Formulierung von Zeithorizonten, auf die sich die Frage bezieht. Die Frage ob man »in den letzten Jahren aus finanziellen Gründen auf einen Auslandsurlaub verzichten musste« wäre beispielsweise nicht eindeutig genug, da die »letzten Jahre« von den Befragten unterschiedlich interpretiert werden könnten. Ȥ Vorgabe erschöpfender und überschneidungsfreier Antwortkategorien: Die dem Befragten zur Verfügung gestellten Antwortkategorien sollten erschöpfend und überschneidungsfrei sein (vgl. auch Kapitel 2). Ein bei der Einkommensabfrage häufig auftretender Fehler ist beispielsweise die Überlappung von Antwortkategorien, z. B. wenn Einkommenskategorien »100 bis 200 Euro« und »200 bis 500 Euro« gebildet werden – hier hätte ein Befragter mit einem Einkommen von exakt 200 Euro Schwierigkeiten,
130
Messung
sich eindeutig zuzuordnen. Ebenso sollte sich jede*r Befragte auch in eine der Einkommenskategorien einordnen können. Dies gilt im obigen Beispiel etwa auch für Personen ohne eigenes Einkommen, für die eine entsprechende Antwortkategorie (z. B. »kein Einkommen«, oder »0 bis 99 Euro« geschaffen werden sollte). Ȥ Vermeidung von Suggestivfragen: Eine Frageformulierung sollte nicht suggestiv sein, d. h. den Befragten nicht in der Auswahl bestimmter Antwortkategorien durch vorangehende Informationen beeinflussen. Die im Teletext kursierenden »TED-Befragungen« privater Fernsehsender bieten hier häufig ein reiches und amüsantes Anschauungs material. So überrascht es sicher nicht, dass auf die Frage »Alkoholfreies Bier wird immer beliebter: Trinken Sie es auch?« ganze 42,6 % behaupten, sie tränken es »nur noch« und immerhin noch weitere 31,7 % behaupten, sie tränken es »hier und da« (ProSieben Teletext 2019). Der hohe Anteil steht in klarem Kontrast zu repräsentativen Studien (z. B. VuMa 2019: 18), gemäß derer mehr als 80 % aller Deutschen noch nie alkoholfreies Bier konsumiert haben. Diese massive Abweichung ist mutmaßlich nicht nur durch das nicht repräsentative Design der TED-Befragungen zu erklären (bei denen sich die Befragten selbst zur Teilnahme entschließen; vgl. die Ausführungen zu willkürlicher Auswahl in Kapitel 3.2). Ebenso von Bedeutung ist hier auch die einleitende Erläuterung, gemäß derer alkoholfreies Bier »immer beliebter wird« – wer möchte da nicht Teil dieses offenbar gesellschaftsweiten Trends sein … Ȥ Vermeidung mehrdimensionaler Fragen: Bei Fragen sollte dem Befragten kein »doppel ter Stimulus« präsentiert werden, also etwa nicht Fragen zu zwei Einstellungsobjekten in einer Frage gestellt werden. Ein Beispiel hierfür bietet eine Frage aus dem Polit barometer 2013, in dem die folgende Frage gestellt wurde: »Die von der Bundeswehr geplante Anschaffung von Drohnen, also von unbemannten Aufklärungsflugzeugen, ist wegen Problemen bei der Zulassung gescheitert. Jetzt gibt es den Vorwurf, dass Verteidigungsminister Thomas de Maizière die Anschaffung der Drohnen zu spät gestoppt und über die Probleme nicht hinreichend informiert hat. Trifft dieser Vorwurf Ihrer Meinung nach zu (1) oder trifft er nicht zu (2)« (Jung et al. 2013: Fragebogen 4.–6. Juni, S. 20). iese Frage fokussiert auf zwei gegebenenfalls zu kritisierenden Verhaltensweisen des D damaligen Verteidigungsministers: das zu späte Stoppen eines Ankaufs von Drohnen und die unzureichende Information. Beide sollen aber mit einer Frage (Trifft der Vorwurf zu oder nicht zu?) bewertet werden. Solange Befragte zu beiden genannten Vorwürfen eine identische Meinung aufweisen, ist die Beantwortung der Frage unproblematisch. Befragte, die hingegen der Ansicht sind, dass die Anschaffung grundsätzlich falsch war (dem ersten Teil-Vorwurf also zustimmen würden), jedoch die anschlie-
Gestaltung des Erhebungsinstruments
131
ßende Informationspolitik für ausreichend halten (den zweiten Vorwurf also ablehnen würden), gerieten in Schwierigkeiten, eine angemessene Antwort zu finden. Hier wäre entsprechend eine separate Abfrage beider Sachverhalte (1. Wurde die Anschaffung zu spät gestoppt? 2. Wurde hinreichend informiert?) sinnvoller. Ȥ Vermeidung doppelter Verneinungen: Ebenso sollten in Fragestellungen doppelte Verneinungen vermieden werden. Porst (2014: 107) präsentiert als hypothetisches Beispiel hierfür die Aussage »Es ist nicht gut, wenn Kinder ihren Eltern nicht gehorchen«. Ist allein schon der vorliegende Satz erst mit einiger Überlegung zu verstehen, so verkompliziert sich die Angelegenheit weiter, wenn man dieser Aussage zustimmen oder sie ablehnen soll. Welche Ansicht vertritt man, wenn man nicht der Meinung ist, dass es nicht gut ist, wenn Kinder ihren Eltern nicht gehorchen? Eine derartige Fragestellung überfordert den Befragten und sollte entsprechend vermieden werden. Eine bessere Alternative stellt hier die auch von Porst (ebd.) vorgeschlagene positive Formulierung der Aussage (»Es ist gut, wenn Kinder ihren Eltern gehorchen«) dar. Ȥ Überforderung des/der Befragten: Auch andere Formen der Überforderung sollten nach Möglichkeit vermieden werden. Die in einem Fragebogen zur Armutserfassung prinzipiell durchaus relevante Frage, wie viel Prozent des Monatseinkommens ein Haushalt für die Miete ausgibt, stellt nicht nur bei einer mündlichen Befragung eine Überbeanspruchung des Befragten dar; wird doch erwartet, dass er nicht nur beide Beträge kennt, sondern diese auch ohne Hilfsmittel miteinander verrechnen kann (vgl. Diekmann 2012: 482 f.). Bestenfalls würden hier wohl grobe Schätzungen von den Befragten gegeben werden können. Sinnvoller wäre es, stattdessen nach beiden Größen separat zu fragen. Ein Statistikprogramm wie beispielsweise SPSS kann dann aus beiden Einzelbeträgen problemlos den exakten Prozentanteil errechnen. Ȥ Vermeidung von Kontexteffekten: Schließlich sollte nicht nur die Formulierung einzelner Fragen, sondern auch deren mögliche wechselseitige Beeinflussung beachtet werden. In einer Umfrage zum Thema Armut sollten entsprechend nicht im Anschluss an die Erhebung von Deprivation (Abbildung 4.1) gefragt werden, wie zufrieden der oder die Befragte mit seiner/ihrer gegenwärtigen finanziellen Lage ist. Hier könnte plausibel davon ausgegangen werden, dass eine explizite und unmittelbare Verdeutlichung der nicht leistbaren Güter die individuelle Beurteilung der finanziellen Gesamtsituation negativ beeinflusst. Solche »Kontexteffekte« sollten bereits bei der Fragebogenkonstruktion vermieden werden. Ein »Pre-Test« des Fragebogens bei einer begrenzten Anzahl von Test-Personen vor der Durchführung der »Hauptbefragung« kann zudem helfen, derartige Kontexteffekte zu erkennen (Tausendpfund 2018, Porst 2014). Die Ausführungen in diesem Kapitel verdeutlichen, dass die verschiedenen Schritte zur Messung des interessierenden Phänomens vielfältig und aufwendig sind. Für diese Phase
132
Messung
sollte entsprechend in der Forschungsplanung ausreichend Zeit vorgesehen werden. Schnell (2019: 9) veranschlagt hier – bei Vorliegen einer klaren und eindeutigen Fragestellung (die ihrerseits auch einen hohen Zeitaufwand erfordert) – allein für die Entwicklung des Fragebogens mehrere Wochen.
5 Univariate Datenauswertungen
5.1 Häufigkeitsverteilungen/Skalenniveaus Nachfolgend werden die besten »Gründe« aufgelistet, warum man sich mit Datenauswertungen beschäftigen sollte: 1. Die Wahrscheinlichkeit, dass ein Statistiker einen Job bekommt, liegt bei > .9999. 2. Parameter zu schätzen ist einfacher als der effektive Umgang mit dem »wirklichen Leben«. 3. Statistiker*innen sind signifikant. 4. Sie wollten schon immer mal das gesamte griechische Alphabet kennenlernen. 5. Wenn Sie mal ausflippen, können Sie immer einen Job im Ingenieurs- oder Wirtschaftswesen annehmen. 6. Statistiker*innen arbeiten immer mit Vertrauen, Häufigkeit und Variabilität. 7. Sie müssen nie recht haben – nur nah dran sein. 8. Wir sind normal und alle anderen sind verzerrt. 9. Statistiker*in zu sein bedeutet, dass sie niemals etwas mit Sicherheit aussagen können, nur mit einer gewissen Wahrscheinlichkeit. 10. Es ist leicht, Statistiken zu fälschen, aber es ist auch nicht schwerer, ohne sie zu lügen. Nachdem wir nun echte Überzeugungsarbeit geleistet haben, wenden wir uns der entsprechenden Datenauswertung zu. Nach der Erhebung der Daten ist es sehr nützlich, ein Diagramm zu erstellen, aus dem erkennbar ist, wie oft jede Merkmalsausprägung auftritt. Dabei werden die Werte der jeweiligen Beobachtungen auf der horizontalen Achse (Abszissenachse) aufgetragen, wobei ein Balken die Anzahl oder den Anteil der individuellen Beobachtungen aufzeigt. Häufigkeitsverteilungen können sehr nützlich sein für die Bewertung der Eigenschaften der Verteilung einer Variablen. Um eine gebräuchliche allgemeine Beschreibung der Verteilung zu gewinnen, können Häufigkeitsverteilungen in vielen verschiedenen Formen erstellt werden. Somit lassen sich hier erste Einsichten innerhalb der Struktur der Daten gewinnen. Dabei kann beispielsweise festgestellt werden, wie gewichtig eine Merkmalsausprägung ist bzw. welche Merkmalsausprägung den größten Stellenwert besitzt. Die Überprüfung der Verteilung auf Multimodalität, die Annäherung an die Normalverteilung (bei metrisch skalierten Variablen), Extremwerte und Lücken
134
Univariate Datenauswertungen
können mit Hilfe von Diagrammen und Häufigkeitstabellen untersucht werden. Eine solche Überprüfung soll nun für die Variable »Internetnutzung: Soziale Netzwerke« erstellt werden. Die Daten entstammen dem Eurobarometer, einer regelmäßigen Befragung von Bürger*innen in der Europäischen Union (n = 1536). In der nachfolgenden Abbildung 5.1 sind zunächst alle Länder (außer Deutschland) dargestellt. Abbildung 5.2 hingegen gibt die Ergebnisse für Deutschland wieder. Wenn beide Abbildungen miteinander verglichen werden, zeigt sich, dass Unterschiede zwischen Deutschland und den restlichen europäischen Ländern vorhanden sind. Während
Abbildung 5.1: Internetnutzung: Soziale Netzwerke alle Länder außer Deutschland (eigene Darstellung nach Eurobarometer 87.1, 2017)
Abbildung 5.2: Internetnutzung: Soziale Netzwerke in Deutschland (eigene Darstellung nach Eurobaro meter 87.1, 2017)
Häufigkeitsverteilungen/Skalenniveaus
135
37,6 % der Befragten in Europa »jeden Tag« Soziale Netzwerke nutzen, sind es nur 26 % der Deutschen. Weiterhin geben 42 % der europaweit Befragten an, nie soziale Netzwerke zu nutzen. In Deutschland geben im Vergleich hierzu jedoch 53 % diese Antwortkategorie an, was eine Differenz von 11 Prozentpunkten ausmacht. Schließlich geben 2 % der Deutschen an, keinen Internetzugang zu haben, während sich dieser Wert im restlichen Teil Europas bei 2,6 % einpendelt. Anhand des hier aufgeführten Beispiels wird deutlich, dass die Verteilungsform, aber auch das Messniveau entscheiden, welche Form die Häufigkeitsverteilung annimmt. In unserem Beispiel liegt ein nominal skaliertes Merkmal vor, d. h. es können nur Unterschiede zwischen den jeweiligen Antwortoptionen festgestellt werden. Die Häufigkeiten für ein nominal skaliertes Merkmal bzw. für Häufigkeitsverteilungen, als Säulendiagramm dargestellt, müssen somit im Rahmen der Ausprägungen (Antwortoptionen) auf der Abszisse keine Reihenfolge bilden. Nominale Daten können meist in jeder beliebigen Reihenfolge genannt werden, wobei man sie jedoch sinnvollerweise ordnet. Diese willkürlich wählbare Anordnung kann auf den Betrachter eine gewisse Wirkung haben, indem die Häufigkeiten unterschiedlich betont werden, was wiederum die Wahrnehmung bezüglich der Antwortoptionen beeinflussen kann. Hier ist zu beachten, dass sich mit Ausschluss der Antwortoption »kein Internetzugang« aus der Darstellung das Skalenniveau der Variable ändert. Nach Entfernung liegt eine ordinalskalierte Variable vor, d. h. zusätzlich zur Unterschiedlichkeit könnten wir auch eine Rangfolge zwischen den Antwortoptionen festlegen. Die Abbildung 5.2 verändert sich, wenn die Antwortoption »kein Internetzugang« nicht dargestellt wird (vgl. Abbildung 5.3):
Abbildung 5.3: Internetnutzung: Soziale Netzwerke (Antwortoptionen ohne »kein Internetzugang«; eigene Darstellung nach Eurobarometer 87.1, 2017)
136
Univariate Datenauswertungen
Mit Hilfe dieser Häufigkeitsverteilung kann man erkennen, dass die Reihenfolge der Antwortoptionen in absteigenden Häufigkeiten geordnet ist: Wir wissen, dass die Antwortoption »Jeden Tag« einen häufigeren Wert bedeutet als »zwei oder drei Mal die Woche«. Mit Hilfe der Häufigkeitsverteilung werden die wichtigsten Eigenschaften »visuell« schnell erfasst. Das erzeugt in unserer Vorstellung einen Abgleich der empirischen Verteilung mit Verteilungsformen, welche wir vielleicht aus dem Mathematikunterricht (proportional, degressiv, progressiv, s-förmig, u-förmig usw.) noch kennen. Wir könnten beispielsweise für Abbildung 5.3, wenn die Zwischenwerte zwischen den Balken definiert wären, behaupten, dass die Verteilung der Antwortkategorien einem u-förmigen (parabelförmigen) Verlauf folgt. Eine solche Interpretation stellt jedoch lediglich eine erste, einfache Beschreibung der vorliegenden Verteilung dar. Anknüpfend an die vorangegangenen Überlegungen kann es für eine Fragestellung auch sinnvoll sein, die Informationen aus einer Verteilung zu verdichten, d. h. die wesentlichen Eigenschaften noch knapper anhand statistischer Maßzahlen zu erfassen. Derartige Maßzahlen reduzieren die Verteilung einer Variable auf einen einzelnen Wert; es gehen damit also gegebenenfalls wichtige Informationen verloren. Jedoch kann es manchmal durchaus nützlich sein, die Datenvielfalt bis auf einige wichtige Maßzahlen zu reduzieren. Im nächsten Abschnitt betrachten wir verschiedene Maßzahlen, die wesentliche Aspekte der Verteilung beschreiben, deren zentrale Tendenz und deren Streuung.
5.2 Maßzahlen der zentralen Tendenz/Mittelwerte/Lagemaße Nach der Erstellung der Häufigkeitsverteilung besteht der nächste Schritt darin, den »Kern« einer Verteilung näher zu betrachten. Welche Maßzahlen in diesem Zusammenhang geeignet sind, hängt nicht nur vom Zweck der Analyse ab, sondern auch vom Messniveau der untersuchten Variablen. Das bedeutet, man darf Zahlen nur Eigenschaften unterstellen, die sie auch tatsächlich abbilden, und es dürfen weiterhin nur Rechenoperationen durchgeführt werden, die dem Messniveau der Daten entsprechen bzw. zulässig sind. Es gibt drei gängige Lagemaße, welche dabei betrachtet werden: Modus, Median und Mittelwert. 5.2.1 Der Modus Der Modus spiegelt den am häufigsten vorkommenden Wert einer Verteilung wider. Dieser ist schon bei der Betrachtung der Häufigkeitsverteilung leicht zu erkennen, da der höchste Balken den jeweiligen Modus darstellt. Will man den Modus nicht rein »optisch« bestimmen, sondern berechnen, werden die Werte einer Variable gezählt, und es wird festgelegt, wie oft jeder Wert auftritt, um die jeweils am häufigsten auftretenden Werte als Modus
Maßzahlen der zentralen Tendenz/Mittelwerte/Lagemaße
137
zu definieren. Liegen mehrere häufigste Werte vor, spricht man von einer bimodalen (bei zwei gleich häufigen Werten) oder einer multimodalen Verteilung.
Abbildung 5.4: Bimodale Verteilung (eigene Darstellung)
Abbildung 5.4 gibt ein fiktives Beispiel für eine solche bimodale Verteilung. Diese Verteilung weist insgesamt zwei Gipfel auf. Beim Vorliegen einer Bimodalität deuten die Daten möglicherweise darauf hin, dass zwei Gruppen mit sehr unterschiedlichen Präferenzen für die Internetnutzung in den zugrunde liegenden Daten vorhanden sind. 5.2.2 Der Median Eine andere Möglichkeit, einen bedeutsamen Wert einer Verteilung zu bestimmen, besteht darin, jenen Wert zu suchen, welcher in einer größenmäßig geordneten Reihe der ausgewählten Messwerte genau in der Mitte liegt. Der sogenannte Median erfüllt diese Funktion, d. h. er teilt eine geordnete Verteilung so auf, dass 50 % der Variablenwerte vor und 50 % der Variablenwerte nach dem Median vorkommen. Dies bedeutet wiederum, dass mindestens ordinalskalierte Daten vorhanden sein müssen, damit wir neben der Unterschiedlichkeit auch eine Rangordnung der Merkmalsausprägungen vornehmen können. Betrachten wir dies anhand eines weiteren Beispiels: Wie Sie sich erinnern können, ist ein »Troll« ein Nutzer, der in den sozialen Netzwerken oft provokante bis bösartige Kommentare hinterlässt und somit darauf abzielt, Zwietracht im Internet zu säen. Trolle drücken normalerweise negative Gefühle in ihren Posts aus, sodass anhand der Häufigkeit von negativ konnotierten Inhalten in den Posts eine Klassifizierung von Trollen vorgenommen werden kann. Tabelle 5.1 gibt ein fiktives Beispiel für verschiedene Trolle wieder, die sich in der Häufigkeit der von ihnen geposteten negativ konnotierten Inhalte unterscheiden.
138
Univariate Datenauswertungen
Tabelle 5.1: Anzahl der provokanten Kommentare (ungeordnet) Troll1
Troll2
Troll3
Troll4
Troll5
Troll6
Troll7
Troll8
Troll9
Troll10
Troll11
18
13
25
39
57
40
53
22
16
590
31
Um den Median zu berechnen, ordnen wir diese Werte zuerst in aufsteigender Reihenfolge an. Dabei lässt sich unmittelbar erkennen, dass Troll11 mit 31 negativen Posts die Verteilung mittig aufteilt (siehe Tab. 5.2). Tabelle 5.2: Anzahl der provokanten Kommentare (geordnet) Troll2
Troll9
Troll1
Troll8
Troll3
Troll11
Troll4
Troll6
Troll7
Troll5
Troll10
13
16
18
22
25
31
39
40
53
57
590
Median = 31
Diese Vorgehensweise zur Bestimmung des mittleren Werts einer Verteilung funktioniert hervorragend, wenn wir eine ungerade Anzahl von Beobachtungseinheiten (elf Trolle wie in dem obigen Beispiel) haben. Wenn jedoch eine gerade Anzahl von Beobachtungseinheiten vorliegt, wird es keinen derartig einfach bestimmbaren »mittleren Befragten« geben. Wenn ordinal skalierte Variablen vorliegen, können wir nur einen Medianbereich angeben, im Beispiel (Tabelle 5.2) läge dieser zwischen Troll 3 und Troll 11, also bei 25–31 negativen Kommentaren. Bei metrischem Skalenniveau hingegen lässt sich der Median mathematisch exakt bestimmen. Betrachten wir hierzu nochmals das obige Beispiel: die geordnete Reihe mit zehn Internettrollen. Dabei wurde »Extrem-Troll10« aus der Betrachtung entfernt (Tabelle 5.3): Tabelle 5.3: Gerade Anzahl der provokanten Kommentare (geordnet) Troll2
Troll9
Troll1
Troll8
Troll3
Troll11
Troll4
Troll6
Troll7
Troll5
13
16
18
22
25
31
39
40
53
57
Median = 28
Maßzahlen der zentralen Tendenz/Mittelwerte/Lagemaße
139
Der Median berechnet sich nun, indem wir zur Summe der zehn vorgenommenen Beobachtungen 1 addieren und diesen Term halbieren, sodass wir (n + 1)/2 = 11/2 = 5,5 erhalten. Dies bedeutet, dass der Median auf halbem Weg zwischen dem fünften und sechsten Beobachtungswert liegt. Um den Medianwert zu erhalten, addieren wir diese beiden Werte und dividieren sie durch 2. In diesem Beispiel lag die fünfte Merkmalsausprägung in der geordneten Liste bei 25 und die sechste Merkmalsausprägung bei 31. Wir addieren beide (25 + 31 = 56) und teilen diesen Wert anschließend durch zwei (56/2 = 28). Der Median der Troll-Beiträge liegt somit rechnerisch bei 28. Bei der Bestimmung des Medians ist das Skalenniveau der betrachteten Variable von zentraler Bedeutung: Wie gezeigt, kann der Median bei ordinalskalierten oder metrischen Daten herangezogen werden. Der Median kann jedoch nicht bei nominalen Daten bestimmt werden, da diese nicht in eine Rangfolge gebracht werden können. Der Median ist oftmals ein sehr stabiler Wert zur Bestimmung des Kerns einer Verteilung. Durch seine Orientierung an einer »zentralen Tendenz« ist er vergleichsweise unbeeinflusst von extremen Werten an beiden Enden der Verteilung. Der Median ist ebenso relativ unbeeinflusst, wenn schiefe, verzerrte Verteilungen vorliegen. Um diese Vorteile noch besser verstehen zu können, muss noch ein weiteres Lagemaß herangezogen werden. 5.2.3 Das arithmetische Mittel Das arithmetische Mittel gehört zu den Maßzahlen, die in Medien und Öffentlichkeit am häufigsten verwendet werden. Häufig wird es auch als durchschnittlicher Wert einer Verteilung bezeichnet. Um das arithmetische Mittel zu berechnen, addieren wir alle Werte einer Verteilung und teilen diese durch die Gesamtzahl der Beobachtungseinheiten: Gleichung 5.1
Für die Berechnung des arithmetischen Mittels nehmen wir zunächst wieder die Beiträge der elf Internettrolle (Tabelle 5.1):
Wenn jedoch für die Berechnung des arithmetischen Mittels nur die Werte von zehn Internettrollen herangezogen werden und wir den aktivsten Troll – denjenigen mit sage
140
Univariate Datenauswertungen
und schreibe 590 Posts – entfernen, erhalten wir für das arithmetische Mittel einen deutlich geringeren Wert:
Aufgrund der Tatsache, dass wir den Mittelwert einmal mit und einmal ohne unsere ex trem mitteilungsfreudige Person berechnen (d. h. ohne den Wert 590), sinkt der Mittelwert also deutlich von durchschnittlich 82,18 auf 31,4 Beiträge. Es zeigt sich somit, dass der arithmetische Mittelwert durch extreme Werte an den Enden einer Verteilung sehr stark beeinflusst werden kann. Vergleichen Sie diesen Unterschied mit dem Median: Dieser würde sich kaum verändern, wenn wir den »Extrem-Troll« mit 590 Beiträgen ein- oder ausschließen. Er ist somit weniger empfindlich gegenüber Extremwerten. MERKEN Das arithmetische Mittel ist sensitiv gegenüber extremen Ausreißerwerten.
Werden Ausreißerwerte/Extremwerte im Rahmen einer Datenauswertung erkannt, stellt sich die Frage, wie mit ihnen umgegangen werden soll. Für die Bestimmung der Lagemaße kann es manchmal sinnvoll sein, die Ausreißer aus dem Datensatz temporär auszuschließen. Vor allem bei kleinen Stichproben kann das Vorhandensein von Ausreißern ein unrealistisches Bild der Verteilung erzeugen. In Kapitel 5.3.3 wenden wir uns dieser Thematik daher ausführlicher zu. Wird für die Berechnung des arithmetischen Mittels SPSS oder ein anderes SoftwareProgramm herangezogen, ist zu beachten, dass diese Programme oftmals für alle Skalenniveaus das arithmetische Mittel berechnen – auch wenn es sich um ein nominal- oder ordinalskaliertes Merkmal handelt. Beim Einsatz von Software ist es daher entscheidend, dass Sie als Anwender*in über die Methodenkenntnisse verfügen, um beurteilen zu können, welches Lagemaß sinnvoll ist und berechnet werden darf. Nachfolgend finden Sie daher eine Zusammenfassung, also wichtiges Anwenderwissen, um zentrale Lagemaße je nach Skalenniveau bestimmen zu können. MERKEN Bei nominalskalierten Merkmalen kann nur der Modus herangezogen werden. Bei ordinalskalierten Merkmalen sind Median und Modus einsetzbar.
Maßzahlen der zentralen Tendenz/Mittelwerte/Lagemaße
141
Bei metrischen Merkmalen sind alle Lagemaße – Modus, Median und arithmetischer Mittel wert – bestimmbar.
Verteilungen können verschiedene Formen aufweisen und lassen sich häufig anhand ihrer Form charakterisieren. Deskriptive Statistiken und grafische Häufigkeitsverteilungen stellen gute Möglichkeiten dar, um ein erstes Bild von der Verteilung zu erhalten. Diese visuelle Inspektion der Daten ist sehr wichtig im Forschungsprozess. Zusätzlich zu den Maßen der zentralen Lage gibt es eine Reihe von Streuungsmaßen. In einer idealen Modell-Welt würden unsere Daten symmetrisch um die Mitte verteilt liegen. Eine symmetrische Verteilung hat einen Gipfel in der Mitte und links und rechts davon etwa gleich viele Datenwerte. Wenn wir also eine vertikale Linie durch die Mitte der Verteilung ziehen, wäre es ein »Traum« für alle Statistiker, wenn auf beiden Seiten die Verteilung gleich aussehen würde. Eine symmetrische Verteilung, die sehr oft herangezogen wird, ist bekannt als Normalverteilung und zeichnet sich durch eine glockenförmige Kurve aus. Diese Form impliziert im Wesentlichen, dass die Mehrheit der Punkte um den Mittelpunkt der Verteilung liegt (die größten Balken im Histogramm liegen also alle um den zentralen Wert herum). Eine Normalverteilung kann auf zwei Arten abweichen: Erstens Mangel an Symmetrie (Schiefe) und zweitens Wölbung (Kurtosis). Eine schiefe Verteilung kann dabei entweder positiv oder negativ verzerrt sein wie in Abbildung 5.5 zu sehen ist:
Abbildung 5.5: Positiv und negativ verzerrte (schiefe) Verteilungen (eigene Darstellung)
Die Wölbung ist bei der bekannten Normalverteilung gleich Null. Gibt es ein »Gedränge« um den Mittelwert, sodass die Wölbung der Verteilung schmalgipfliger ausfällt, liegt eine positive Kurtosis vor. Wirkt die Verteilung jedoch breitgipfliger, so liegt eine negative Kurtosis vor. Vergleichen Sie hierzu Abbildung 5.6. Bei einer solchen schiefen (asymmetri-
142
Univariate Datenauswertungen
schen) Verteilung oder bei Vorhandensein von extremen Ausreißern ist der Median selbst für metrisch skalierte Merkmale besser geeignet.
Abbildung 5.6: Verteilungen mit positiver Kurtosis (steilgipflig, linke Figur) und negativer Kurtosis (flachgipflig, rechte Figur) (eigene Darstellung)
5.3 Streuungswerte 5.3.1 Range – Reichweite Neben den zentralen Lagemaßen lassen sich Verteilungen auch durch sogenannte Streuungsmaße beschreiben, die den Grad der Unterschiedlichkeit oder Ausbreitung der Werte quantifizieren. Der einfachste Weg, die Streuung zu betrachten, besteht darin, die größte Merkmalsausprägung auszuwählen und davon die kleinste Merkmalsausprägung abzuziehen. Wenn von der maximalen Merkmalausprägung nun das Minimum subtrahiert wird, erhalten wir ein erstes und einfaches Streuungsmaß: Range oder – auf Deutsch – die Reichweite. Tabelle 5.4: Range – Reichweite Troll2
Troll9
Troll1
Troll8
Troll3
Troll11
Troll4
Troll6
Troll7
Troll5
Troll10
13
16
18
22
25
31
39
40
53
57
590
Range = Reichweite = 590 − 13 = 577
143
Streuungswerte
Ein Problem dieses Streuungsmaßes besteht darin, dass es relativ leicht durch extreme Ausreißer der Verteilung beeinflusst wird. Entfernen wir hierzu wieder Troll10 mit seinen 590 Beiträgen aus der Betrachtung und ermitteln erneut die Reichweite: Tabelle 5.5: Range – Reichweite (ohne Extremwert) Troll2
Troll9
Troll1
Troll8
Troll3
Troll11
Troll4
Troll6
Troll7
Troll5
13
16
18
22
25
31
39
40
53
57
Range = Reichweite = 57 − 13 = 44
Es lässt sich feststellen, dass ohne diesen extremen Ausreißer die Reichweite von 577 auf 44 dramatisch fällt. 5.3.2 Der mittlere Quartilsabstand Eine Möglichkeit, um der Verzerrung durch Extremwerte zu umgehen, besteht darin, sich einen Streubereich anzusehen, aus dem die Extremwerte der Verteilung ausgeschlossen werden. Eine Konvention könnte so aussehen, die oberen und unteren 25 % der Verteilung zu bestimmen (das erste Quartil = Q1 und das dritte Quartil = Q3). Das erste Quartil teilt die geordnete Datenreihe in das untere Viertel und das obere Dreiviertel. Das zweite Quartil ist der Median und das dritte Quartil teilt die sortierte Datenreihe in das untere Dreiviertel und das obere Viertel. Wenn vom dritten Quartil (Q3) das erste Quartil (Q1) abgezogen wird, erhalten wir den mittleren Quartilsabstand. Mit der Anzahl der TrollBeiträge werden wir zunächst die Quartile und anschließend den mittleren Quartils abstand berechnen. Zuerst berechnen wir hierzu den Median, der auch als zweites Quartil bezeichnet wird. Wir wissen bereits, dass der Median für diese Daten 31 beträgt. Das erste Quartil ist dann der Median der unteren Hälfte der Daten und das dritte Quartil der Median der oberen Hälfte der Daten. Der mittlere Quartilsabstand (IQR) definiert die Differenz zwischen dem dritten und ersten Quartil. Um die Quartile zu bestimmen, müssen mindestens ordinalskalierte Merkmale vorliegen. Eine Berechnung des Abstands zwischen diesen Quartilswerten kann jedoch erst dann erfolgen, wenn metrisch skalierte Merkmale vorliegen (da die Berechnung von Abständen grundsätzlich erst ab metrischem Skalenniveau zulässig wird). In unserem Beispiel beträgt der mittlere Quartilsabstand 53–18 = 35. Im Gegensatz zur Range ist der mittlere Quartilsabstand nicht durch Ausreißer beeinflusst und somit robuster. Der mittlere Quartilsabstand kann somit eine
144
Univariate Datenauswertungen
wichtige Rolle bei der beschreibenden Betrachtung einer Verteilung spielen. Eine weitere Möglichkeit einer deskriptiven Beschreibung stellt der sogenannte Box-Plot dar, den wir im Folgenden näher betrachten. Tabelle 5.6: Quartile Troll2
Troll9
Troll1
Troll8
Troll3
Troll11
Troll4
Troll6
Troll9
Troll5
Troll10
13
16
18
22
25
31
39
40
53
57
590
1. Quartil
2. Quartil (Median)
3. Quartil
5.3.3 Ausreißer und Box-Plots Ein Ausreißer ist als Wert definiert, welcher deutlich außerhalb der üblichen Struktur einer Verteilung liegt. Statistiker haben in diesem Kontext viele Verfahren entwickelt, um aufzuzeigen, was man als Ausreißer bezeichnen sollte und was nicht. Eine oft genutzte Regel lautet, dass ein Wert ein Ausreißer ist, falls er mehr als das Anderthalbfache des mittleren Quartilsabstandes (1,5 · IQR) oberhalb des dritten Quartils (Q3) oder unterhalb des ersten (Q1) liegt. Wenden wir diese Regel zur Bestimmung für die Ausreißer auf die obige Verteilung an:
Da Troll-Beiträge in Höhe von = −34,5 nicht im Wertebereich vorkommen – sie würden inhaltlich betrachtet auch wenig Sinn ergeben! – gibt es am unteren Ende der Verteilung keine Ausreißer. Am oberen Ende der Verteilung können wir indes den uns bereits wohl bekannten Troll10 mit 590 Beiträgen als Ausreißer identifizieren. Im nächsten Schritt zeigen wir eine Möglichkeit, die Struktur einer Verteilung in Form einer Grafik zu visualisieren und dabei mehrere uns bereits bekannte Maßzahlen miteinander zu kombinieren. Diese Grafik wird Box-Plot oder Box-Whisker-Plot genannt. In einem Box-Plot erstellen wir zunächst einen Kasten zwischen dem ersten und dem dritten Quartil der Verteilung. Beim Medianwert durchkreuzt eine vertikale Linie diesen Kasten. Die Whisker, die den Kasten umgeben, verbinden die beiden Quartile entweder (wenn Ausreißer vorliegen) mit den oben benannten Grenzwerten, also dem des Quar-
Streuungswerte
145
tilsabstandes (1,5 · IQR) oberhalb des oberen Quartils (Q3) oder unterhalb des unteren Quartils (Q1). Liegen keine Ausreißer vor, entsprechen diese dem Minimum bzw. dem Maximum der Verteilung. Wenn Merkmalsausprägungen vorliegen, die nach der genannten Regel als Ausreißer identifiziert sind, werden diese als Punkte ausgewiesen. Betrachten wir unsere Verteilung in Abbildung 5.9 ohne den Ausreißer (Troll 10 mit 590 Beiträgen). Wenn Troll 10 als Ausreißer zugelassen wird, ändert sich die Grafik (vgl. Abbildung 5.10):
Abbildung 5.9: Box-Plot Anzahl von Troll- Beiträgen ohne Ausreißer (eigene Darstellung)
Abbildung 5.10: Box-Plot Anzahl von Troll-Beiträgen mit Ausreißern (eigene Darstellung)
Abbildung 5.10 zeigt in diesem Kontext die Wirkung des Ausreißers, wodurch die Box proportional gestaucht wird und kaum zu interpretieren ist. Jedoch werden die weiteren Parameter (Quartile, Median) die in einem Box-Plot dargestellt werden, nicht beeinflusst. Box-Plots geben somit einen zusammenfassenden Überblick über die Lage von Medianen, oberen und unteren Quartilen sowie Extremwerten bzw. Ausreißern. Die Lage des Medianwertes innerhalb der Box gibt zudem einen Hinweis auf die Symmetrie oder Schiefe einer Verteilung. Liegt er in der Mitte, so ist die Verteilung symmetrisch.
146
Univariate Datenauswertungen
5.3.4 Varianz und Standardabweichung Ein weiteres Maß, das die Unterschiedlichkeit unserer Werte beschreibt, ist die sogenannte Varianz oder die aus ihr berechnete Standardabweichung einer Variablen. Im Gegensatz zu den bisher betrachteten Streuungsmaßen orientiert sie sich nicht an den Eckpunkten der Gesamtverteilung (Range) oder den Eckpunkten der mittleren 50 % der Werte (Quartils abstand), sondern betrachtet die einzelnen Werte einer Verteilung und ihre Streuung um deren Mittelwert. Eines der einfachsten Maße zur Bestimmung des mittleren Werts, das wir bereits kennengelernt haben, ist das arithmetische Mittel. Bei unserem Beispiel haben die Internettrolle aus unserer Stichprobe im Durchschnitt 31,4 Beiträge gepostet. Dabei handelt es sich um einen mathematisch berechneten Wert, der kein tatsächlich beobachteter Wert innerhalb der Daten sein muss. Im nächsten Schritt überprüfen wir für jeden einzelnen Wert, wie gut unser Mittelwert bzw. der hypothetische Wert die einzelnen Ausprägungen abbildet. Der einfachste Weg, dies zu tun, besteht darin, Differenzen zu berechnen. In Abbildung 5.11 stellt die horizontal gestrichelte Linie unseren Mittelwert dar und die Punkte sind die beobachteten Merkmalsausprägungen.
Abbildung 5.11: Unterschied zwischen dem beobachteten Wert und dem arith metischen Mittel (eigene Darstellung)
Die vertikalen Linien verbinden die beobachteten Werte mit dem Mittelwert. Diese Linien zeigen die Abweichung vom Mittelwert an. Die absolute Abweichung für Troll2 beträgt beispielsweise:
Bitte beachten Sie, dass die Abweichung negativ ist. Das bedeutet, dass das arithmetische Mittel den tatsächlich beobachteten Wert für Troll 2 überschätzt. Für Troll 5 hingegen betrüge die Abweichung
Streuungswerte
147
In diesem Fall würde das arithmetische Mittel den tatsächlich beobachteten Wert also unterschätzen. Wie können wir nun diese verschiedenen Abweichungen nutzen, um die Genauigkeit des Modells zu schätzen? Eine Möglichkeit wäre z. B., alle Abweichungen aufzusummieren: Summe der Abweichungen
Das Ergebnis zeigt uns, dass es auf den ersten Blick keine Diskrepanz zwischen unserem Modell (arithmetischer Mittelwert) und den beobachteten Daten gibt (die Summe der Abweichungen ist gleich Null). Ist somit der arithmetische Mittelwert eine perfekte Darstellung der Daten? Augenscheinlich nicht, denn wir haben beobachtet, dass nicht ein Wert tatsächlich dem arithmetischen Mittel entspricht und viele sogar recht stark davon abweichen. Dass trotzdem die Summe der einzelnen Abweichungen einen Gesamtwert von Null ergibt, liegt darin begründet, dass einige Werte positive und einige Werte negative Abweichungen aufweisen und sie sich somit gegenseitig aufgehoben haben. Um dieses Problem zu vermeiden und die Genauigkeit unseres hypothetischen Wertes zu ermitteln, kann die Summe der Abweichungen quadriert werden. Anstatt die Summe der Abweichungen zu berechnen, berechnen wir die Summe der quadrierten Abweichungen: Quadrierte Summe der Abweichungen
Diese Summe der quadrierten Abweichungen ist augenscheinlich ein besseres Maß für die Genauigkeit unseres auf dem Mittelwert beruhenden Vorhersage-Modells. Jedoch wird dies immer größer, je größer die Anzahl von Merkmalswerten (N) sind. Um dieses Problem zu umgehen, können wir den durchschnittlichen Mittelwert der Summe der quadrierten Abweichungen berechnen und gelangen damit zur Varianz s2 (vgl. Gleichung 5.2):
148
Univariate Datenauswertungen
Gleichung 5.2:
MERKEN Die Varianz ist ein Streuungsmaß, welches die Verteilung von Werten um den Mittelwert kennzeichnet. Berechnet wird die Varianz, indem die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel durch die Anzahl der Messwerte dividiert wird.
Bei der Interpretation der Varianz als Maß ist zu beachten, dass die Werte quadriert wurden. In unserem Beispiel mussten wir sagen, dass der durchschnittliche Fehler in unseren Daten bezüglich der Varianz 213,84 Troll-Beiträge »im Quadrat« betrug. Augenscheinlich macht es nur wenig Sinn, über Beiträge »im Quadrat« zu sprechen. Aus diesem Grund wird die Quadratwurzel der Varianz herangezogen, um die vorangegangene Quadrierung wieder rückgängig zu machen. Das stellt sicher, dass das Maß der durchschnittlichen Abweichung in den gleichen Einheiten bemessen wird, wie sie ursprünglich gemessen wurden. Dieses Streuungsmaß wird als Standardabweichung s bezeichnet (vgl. Gleichung 5.3): Gleichung 5.3:
MERKEN Die Standardabweichung ist definiert als die Quadratwurzel der Varianz.
Wenn viele Beobachtungswerte nahe dem Mittelwert liegen, wird die Standardabweichung klein ausfallen. Große Standardabweichungen zeigen wiederum, dass die Datenpunkte weit vom Mittelwert entfernt liegen bzw. streuen. Die Streuungsmaße Varianz und Standardabweichung zeigen somit auf, wie gut die Variablenwerte vom Mittelwert repräsen-
149
Streuungswerte
tiert werden. In unserem Beispiel beträgt die durchschnittliche Abweichung vom Mittelwert 14,62 Troll-Beiträge. An dieser Stelle lässt sich eine häufig vorkommende Herangehensweise innerhalb der Statistik und Datenauswertung aufzeigen. Durch den Vergleich von hypothetischem Modellwert mit den empirisch erhobenen Werten wird das Residuum ermittelt. (vgl. Gleichung 5.4). Gleichung 5.4:
Ergebnisi = (Modell) + Residuumi Als Residuum bezeichnet man die Abweichung vom durch das hypothetische Modell vorhergesagten Ergebnis. Wenn das Residuum klein ist, so hat man eine gute Modellierung vorgenommen. In unserem Beispiel bedeutet dies für Troll 1 Folgendes: Ergebnis1 = (Modell) + Residuum1 13 = (31,4) + Residuum1 −18,4 = Residuum1 Vielleicht haben Sie den Eindruck, dass die Autoren hier redundant wieder über Abweichungen sprechen. Trotzdem empfehlen wir Ihnen, die Gleichung 5.4 in Ihr Langzeitgedächtnis aufzunehmen, da viele statistische Modelle letztendlich auf dieser Gleichung beruhen. MERKEN Abweichungen zwischen den vom Modell vorhergesagten und tatsächlichen empirischen Messwerten nennen wir Residuen.
Selbst bei bestmöglicher Anpassung zwischen Modell und empirischen Daten entstehen in empirischen Untersuchungen fast immer Residuen. Indem wir eine Gleichung (5.4) definieren, unterstellen wir eine Beziehung zwischen Modell (und implizit im Modell getroffenen Annahmen) und den tatsächlichen empirischen Messwerten. Wenn die Residuen klein sind, sind die Annahmen, die wir im Modell aufgestellt haben, mit den empirischen Daten gut vereinbar. Sind dagegen die Residuen groß, ist davon auszugehen, dass die im Modell aufgestellten Annahmen zumindest teilweise falsch sind. Welche Annahmen für die Modellierung getroffen werden, beruht in vielen empirischen Studien auf den jeweiligen Verteilungsformen der herangezogenen Variablen. Um
150
Univariate Datenauswertungen
Modelle bilden zu können, muss vorher für die herangezogenen Variablen eine fundierte deskriptive Analyse durchgeführt werden. Am Beispiel des Mittelwertes zeigt sich zunächst, wie die Verteilungen auf eine Maßzahl zusammengefasst werden können. Weiterhin haben wir gesehen, dass die Standardabweichung die Streuung der Daten um den Mittelwert aufzeigt. Diese Sammlung und Auswertung der Daten dient letztendlich dazu, Rückschlüsse aus einer Stichprobe auf die Grundgesamtheit zu ziehen. Wenn aus einer Grundgesamtheit aller Facebook-Nutzer mehrere zufällige Stichproben gezogen werden, werden diese Stichproben sich immer leicht unterscheiden hinsichtlich der Lage- und Streuungsmaße. Um Aussagen darüber treffen zu können, wie die geschätzten Parameter (Lagemaße und Streuungsmaße der Stichproben) inhaltlich sinnvoll für die Grundgesamtheit letztendlich zu interpretieren sind, müssen wir das wichtige Konzept der Standardfehler einführen. Wenn mehrere Stichproben aus einer Grundgesamtheit heraus untersucht werden, ergeben sich je nach Größe und Art der Stichprobe unterschiedliche Mittelwerte und Varianzen. Die Bestimmung der Lage- und Streuungsmaße für die Grundgesamtheit (das was uns »Datenliebhaber« wirklich interessiert) ist hingegen nur bei einer Vollerhebung umsetzbar. Vollerhebungen scheitern in den meisten Fällen aus Kostengründen. Somit stellen statistische Maßzahlen aus Stichproben Schätzwerte für die Parameter der Grundgesamtheit dar. Angenommen, wir haben sehr gute geschäftliche Kontakte zu Facebook und bekommen lückenlos die Beiträge aller deutschen Nutzer zur Verfügung gestellt. Mit dem notwendigen Forschungskapital (finanziell und personell) gepolstert, identifizieren wir anhand der Inhaltsbeiträge alle Internettrolle in Deutschland. Anschließend berechnen wir den Mittelwert µ (»mü«; der 12. Buchstabe des griechischen Alphabets) für die Grundgesamtheit aller Troll-Beiträge. Angenommen wir erhalten µ = 40 Beiträge im Durchschnitt in der Grundgesamtheit. Um zu illustrieren, was der Standardfehler ist, ziehen wir nun neun Stichproben aus dieser Grundgesamtheit aller deutschen sozialen Netzwerk-User. Für die einzelnen Stichproben berechnen wir anschließend die unterschiedlichen Stichprobenmittelwerte x¯. Stellen wir uns vor, die erste Stichprobe liefert einen Mittelwert von 30 Troll-Beiträgen im Durchschnitt, die zweite Stichprobe liefert uns einen Wert von 35 usw. Diese Vorgehensweise veranschaulicht, dass die Stichprobenmittelwerte eine gewisse Variation aufweisen. Wenn die Stichprobenmittelwerte aus Tabelle 5.7 anhand eines Diagrammes dargestellt werden, ergibt sich Abbildung 5.12: Tabelle 5.7: Stichprobenmittelwerte Stichprobenmittel werte Xl
i=1
i =2
i =3
i =4
i =5
i =6
i =7
i =8
i =9
30
35
50
40
35
45
45
40
40
Streuungswerte
151
Abbildung 5.12: Histogramm der neun Stichprobenmittelwerte
Wenn die Stichproben anhand einer Zufallsauswahl gewonnen wurden, sind die Abweichungen der aus der Stichprobe gewonnenen Maßzahlen vom Parameter der Grundgesamtheit und deren zufällige Ergebnisse anzusehen. Ohne dass Sie es gemerkt haben, durchschreiten wir nun die inferenzstatistische »Pforte«, die im Folgenden weiter beschrieben wird. Das heißt, wir können nun die wahrscheinlichkeitsbasierten Überlegungen heranziehen, um mit Hilfe der Stichproben den wahren Wert der Parameter (Lage- und Streuungsmaße) der Grundgesamtheit abzuschätzen.
Abbildung 5.13: Illustration von Grundgesamtheit und Stichproben (Bildquelle: David Leikam)
152
Univariate Datenauswertungen
MERKEN Statistische Inferenz = Schluss von einer Stichprobe auf die Grundgesamtheit.
Wie in Kapitel 5.3.4 aufgezeigt wurde, können wir nun mit Hilfe der Stichprobenmittelwerte x¯ die Standardabweichung berechnen. Dadurch erhalten wir eine Standardabweichung für jede der neun Stichproben. Diese Abweichung der Stichprobenmittelwerte x¯ bezeichnet man auch als Standardfehler. Er wird wie folgt berechnet: Gleichung 5.5:
Standardabweichung Stichprobenmittelwerte x¯
Bitte beachten Sie in diesem Zusammenhang die Grundannahme: Es sind nicht neun Stichproben notwendig, sondern unendlich viele, um den Standardfehler zu berechnen. Bei Nicht-Erfüllung der Grundvoraussetzungen kann es zu möglichen Schätzfehlern kommen. Unendlich viele Stichproben zu ziehen, könnte sich im weiteren Verlauf als sehr unrealistisch und zeitaufwendig herausstellen. Glücklicherweise gibt es Tools, die solche Approximationen und Berechnungen für uns durchführen können. Unter Approximation wird das Vorgehen verstanden, eine bestimmte Kenngröße näherungsweise zu bestimmen. So lässt sich aufzeigen, dass, wenn viele Stichproben (gewöhnlich mehr als dreißig) gezogen werden, die Verteilung der Stichproben-Maßzahlen der Normalverteilung sich annähern. Dies ist bekannt als zentraler Grenzwertsatz. Durch die Gleichung 5.5 wird bei einer hinreichend großen Fallzahl die Approximation des Standardfehlers durch die Standard abweichung der Stichprobenmittelwerte ermöglicht. MERKEN Zentraler Grenzwertsatz Der Standardfehler ist die Standardabweichung der Stichprobenmittelwerte. Er zeigt an, wie die Parameter der Grundgesamtheit durch die Stichproben-Maßzahlen repräsentiert werden. Ein großer Standardfehler (relativ zum Stichprobenmittelwert) bedeutet, dass eine große Variabilität besteht zwischen den Mittelwerten verschiedener Stichproben. Die Stichproben lassen keinen Schluss auf die Parameter der Grundgesamtheit zu.
Streuungswerte
153
Kleine Standardfehler weisen darauf hin, dass die meisten Stichprobenmittelwerte dem Mittelwert der Grundgesamtheit entsprechen und die Stichprobe daher ein kleines Abbild der Grundgesamtheit darstellt.
5.3.5 Konfidenzintervall für das arithmetische Mittel Bisher haben wir Mittelwerte und Streuungsmaße von Verteilungen (in Abhängigkeit vom Messniveau) zur Charakterisierung von empirischen Verteilungen betrachtet. Wenn wir nun anhand der Mittelwerte der Stichprobe auf den Mittelwert in der Grundgesamtheit schließen wollen, befinden wir uns im Feld der Inferenzstatistik. Verschiedene Stichproben können zu unterschiedlichen Mittelwerten führen (siehe Abbildung 5.13). Die Berechnung des Standardfehlers liefert uns eine Vorstellung davon, in welchem Umfang die Stichprobemittelwerte sich unterscheiden. Ein anderer Ansatz zur Beurteilung der Genauigkeit, wie gut Rückschlüsse auf die Parameter der Grundgesamtheit zulässig sind, besteht darin, Begrenzungspunkte zu bestimmen, innerhalb derer der Mittelwert liegt. Solche Grenzen bezeichnen wir als Konfidenzintervall oder Vertrauensintervall. MERKEN Ein Konfidenzintervall, auch Vertrauensbereich genannt, ist in der Statistik ein Intervall, das die Präzision der Lageschätzung eines Parameters, zum Beispiel eines Mittelwerts, angeben soll.
Betrachten wir die Berechnung der Konfidenzintervalle anhand des Beispiels der Interviewdauer. Angenommen, die durchschnittliche Interviewdauer in der Grundgesamtheit beträgt vierzig Minuten. Insgesamt führen wir jeweils 1000 Interviews in dreißig europäischen Ländern durch. Für jedes Land berechnen wir zunächst den Stichprobenmittelwert. Um das Vertrauensintervall für die Grundgesamtheit zu verstehen, ist es nun an der Zeit, sich genauer mit der Glockenkurve (Normalverteilungen) vertraut zu machen. Die Normalverteilung ist eine der wichtigsten Verteilungen der Wahrscheinlichkeitsrechnung.
154
Univariate Datenauswertungen
MERKEN Die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die sämtlich derselben Grundgesamtheit entnommen wurden, geht mit wachsendem Stichprobenumfang in eine Normalverteilung über.
Abbildung 5.14: Normalverteilungskurve (eigene Darstellung nach Eurobarometer 87.1, 2017)
Abbildung 5.15: Normalverteilungskurve und Wahrscheinlichkeitsdichte (eigene Darstellung nach Eurobarometer 87.1, 2017)
Die zentrale Idee hinter einer Normalverteilung liegt in der Annahme, dass die mittlere Interviewdauer wahrscheinlicher ist als sehr kurze oder sehr lange Interviews. Zunächst wollen wir in diesem Zusammenhang auf die Wahrscheinlichkeitsdichte f(x) (vgl. Abbildung 5.15 und Gleichung 5.6) eingehen.
155
Streuungswerte
Gleichung 5.6:
Das ist die Fläche des Stabes bzw. die vertikale Linie um den Punkt x. Um die Dichte berechnen zu können, betrachten wir das Intervall (x−ε, x+ε). Wenn wir von Dichte sprechen, ist dabei die Fläche des Stabes um den Punkt x gemeint (vgl. Gleichung 5.7): Gleichung 5.7:
Dichte = Höhe * Intervallbreite (x−ε, x+ε) Die weiteren Parameter in der Gleichung 5.6 sind: π (Pi) Kreiszahl = 3,14159 e: Euler’sche Zahl = μ (Mü): Mittelwert σ (Sigma): Standardabweichung Will man Aussagen darüber treffen, in welchem Intervall der Mittelwert der Variable der Interviewdauer liegt, benötigen wir die Werte der Normalverteilung bzw. der Standardnormalverteilung. Diese Standardnormalverteilung hat einen Erwartungswert (Mittelwert) von μ = 0 und eine Streuung (Standardabweichung) von σ = 1. Um nun zu einer Standardnormalverteilung zu gelangen, nehmen wir eine z-Transformation vor. Die z-Transformation wird auch als Standardisierung bezeichnet. Die z-transformierten Werte werden vor allem dadurch vergleichbar, dass die Stichprobenwerte nach der Transformation nicht mehr in den Originalmaßeinheiten gemessen werden, sondern in Vielfachen der Standardabweichung der Stichprobe. Dazu subtrahiert man von jedem Messwert den arithmetischen Mittelwert, teilt die resultierende Differenz durch die Standardabweichung und erhält dadurch die sog. z-transformierten Werte (Standardisierung, vgl. Gleichung 5.8) vor: Falls die Variable x normalverteilt ist mit N (μ, σ), so gilt: Gleichung 5.8:
156
Univariate Datenauswertungen
Durch die z-Transformation werden sämtliche Normalverteilungen auf einen Standard gebracht. Leider hat die Dichtefunktion der Normalverteilung Gleichung 5.6 den Nachteil, dass man auf rechnerischem Weg recht schwer zur Wahrscheinlichkeit gelangt, hierfür müsste man Integrale lösen, die mathematisch gar nicht lösbar sind, weshalb man innerhalb der Statistik vorrangig Tabellen verwendet. Mit Hilfe von Normalverteilungsfunktionen können nur Wahrscheinlichkeiten von Intervallen berechnet werden. Will man Aussagen mit 95 % Sicherheit formulieren, sollte man immer bedenken, dass die Normalverteilungs-Funktion die Wahrscheinlichkeiten von Intervallen angibt. Die Tabelle der Standardnormalverteilung würde uns für 2,5 % einen Wert von –1,96 liefern. Aufgrund der Symmetrie der Standardnormalverteilung ergibt sich für 97,5 % ein Wert von +1,96. Die Differenz von 97,5 % – 2,5 % entspricht somit 95 %. Anders gesagt, bei der Standardnormalverteilung liegen 95 % der Werte im Intervall (–1,96; +1,96). Die folgende Abbildung 5.16 verdeutlicht diesen Aspekt nochmals:
Abbildung 5.16: 95 % Konfidenzintervall (Quelle: http://www.wolframalpha.com/)
Um die Konfidenzintervalle für Deutschland für unser Beispiel berechnen zu können, setzen wir den Stichprobenmittelwert und die Standardabweichungen ein. Somit liegt der Mittelwert der Interviews (Erwartungswert μ) mit 95-prozentiger Sicherheit innerhalb des folgenden Intervalls um den Stichprobenmittelwert x¯: Gleichung 5.9:
Streuungswerte
157
Wir können die Gleichung 5.9 umformen:
Durch Einsetzen der Werte gelangen wir schließlich zum Konfidenzintervall:
Somit liegt der Interviewdurchschnitt μ der Bevölkerung der Bundesrepublik (Grundgesamtheit) mit 95-prozentiger Sicherheit in dem folgenden Intervall:
Für alle Länder aus dem Eurobarometer ergeben sich die folgenden Konfidenzintervalle (vgl. Abbildung 5.17). Dabei sind die Werte für Deutschland (DE-W) hervorgehoben. Bei Kenntnis der arithmetischen Mittel der Stichprobe können wir mit einer Wahrscheinlichkeit von 95 % (Vertrauensintervall) die Grenzen für den Mittelwert der Grundgesamtheit benennen.
Abbildung 5.17: Konfidenzintervalle für die Länder aus dem Eurobarometer (eigene Darstellung nach Eurobarometer 87.1, 2017)
158
Univariate Datenauswertungen
5.4 Einführung SPSS – Häufigkeiten, deskriptive Statistiken und Diagramme Im vorangegangenen Kapitel haben Sie die Grundlagen zur Berechnung von Mittel- und Streuungswerten kennengelernt. Es ist wichtig, diese grundlegenden mathematischen Zusammenhänge zu kennen, um diese Maßzahlen angemessen zur Interpretation von Forschungsergebnissen anwenden zu können. In der alltäglichen Forschungspraxis wird es jedoch vergleichsweise selten vorkommen, dass Sie diese Maßzahlen selbst »per Hand« berechnen müssen. Hierzu stehen Datenanalyseprogramme wie etwa das Statistikprogramm IBM SPSS 23 zur Verfügung, das wir im Folgenden zur Veranschaulichung verwenden. Die umfangreichen Analysemöglichkeiten in SPSS ermöglichen vielen Studierenden, wichtige statistische Verfahren nachvollziehbar und praxisorientiert anzuwenden. In diesem Buch fokussieren wir uns mit Hilfe von Datensätzen aus der sozialarbeiterischen Forschungspraxis darauf, einige wesentliche Möglichkeiten dieses Programms darzustellen. Der Fokus liegt im Wesentlichen auf bestimmten Funktionen und einer Auswahl von häufig genutzten Befehlen. Mit Hilfe von Datenbeispielen werden Sie Einblicke in die Datenauswertung bekommen. Im vorliegenden Kapitel werden wir Ihnen zunächst einen grundlegenden Einstieg für die Anwendung von statistischen Auswertungen und deskriptiven univariaten Statistiken mit Hilfe von SPSS 23 aufzeigen. Wenn IBM SPSS Statistics 23 für Windows gestartet wird, bekommen Sie zunächst die folgende Eröffnungs-Dialogbox aufgezeigt (Abbildung 5.18):
®
®
Abbildung 5.18: Eröffnungs-Dialogbox (IBM /SPSS )
159
Einführung SPSS
Markieren Sie »Neues Dataset« und klicken auf »OK«. Es öffnet sich das Daten-Editorfenster. In SPSS gibt es fünf verschiedene Fenster:
®
®
Abbildung 5.19: Statistics-Dateneditor (IBM /SPSS )
Ȥ Dateneditor: Enthält zwei Registerkaten »Datenansicht« und »Variablenansicht«. Hier können Dateien erstellt, geöffnet und geändert werden. In der Registerkarte »Datenansicht« können die Merkmalsausprägungen der Variablen eingegeben werden. Die Registerkarte »Variablenansicht« dient der Definition der Variablen (vgl. Abbildung 5.19).
®
®
Abbildung 5.20: Statistics-Ausgabefenster IBM SPSS (IBM /SPSS )
160
Univariate Datenauswertungen
Ȥ SPSS Viewer (Ausgabefenster): In diesem Fenster werden die Ergebnisse der Berechnungen ausgegeben und zweigeteilt. Wie Abbildung 5.20 zeigt, befindet sich links das Gliederungsfenster und rechts die Ergebnisausgabe. Das Ausgabenfenster kann als Datei gespeichert werden. Zusätzlich gibt es drei weitere Fenster: Ȥ Diagramm-Editor für die Bearbeitung von Grafiken, Ȥ Pivot-Tabellen-Editor für die Bearbeitung von Pivot-Tabellen, Ȥ Syntax-Editor für die Bearbeitung von Befehlselementen. Im Folgenden stellen wir Ihnen die Menüs des Dateneditors vor:
®
®
Abbildung 5.21: Menüleiste des Dateneditors (IBM /SPSS )
Datei: Hier können Daten gespeichert, geöffnet und importiert werden. Außerdem können Dateien anderer Statistikprogramme und ASCII-Dateien importiert werden. Schließlich können über das Menü auch weitere Fenster (Syntax-, Ausgabedateien) und Druckinformationen weitergeleitet werden. Bearbeiten: Hier können Daten kopiert, gelöscht und eingefügt werden. Der Menübefehl »Optionen« (vgl. Abbildung 5.22) dient zur Einstellung von verschiedenen SPSS-Bereichen.Vor allem, wenn Sie eine sehr hohe Anzahl an Variablen in Ihrer Forschung erhoben haben, kann es sehr nützlich sein, die Variablennennung »alphabetisch« zu sortieren. Ansicht: Hier können Status- und Symbolleisten ein- oder ausgeblendet werden. Zudem lassen sich Rasterlinien und Wertelabel in diesem Menü anzeigen. Daten: Hier können Variablen definiert werden. Das Einfügen von Variablen und Fällen, das Kombinieren, Transponieren und Umstrukturieren von Dateien wird unter diesem Menüpunkt ausgeführt. Bitte beachten Sie, dass die Änderungen nicht dauerhaft sind, wenn diese nicht ausdrücklich gespeichert werden. Transformieren: Die Veränderung und Berechnung von neuen Variablen findet unter diesem Menüpunkt statt. Analysieren: Dieser Menüpunkt stellt den Mittelpunkt des Programms dar, indem eine große Auswahl statistischer Verfahren ausgewählt werden kann. Grafik: Dieser Menüpunkt dient zur Erzeugung der verschiedenen Arten von Diagrammen. Die Diagramme können anschließend im Diagramm-Editor vielförmig editiert und gestaltet werden.
161
Einführung SPSS
®
®
Abbildung 5.22: Dialogbox »Optionen« (IBM /SPSS )
Extras: Hier werden viele Optionen zur Verfügung gestellt, wie beispielsweise Informationen über Datendateien, das Bearbeiten von Skripten und die Erstellung von Produktionsjobs. Fenster: Hier kann eine Auswahl von aktiven SPSS-Fenstern getroffen werden. Hilfe: Hier finden sie unterschiedliche Hilfestellungen. IBM SPSS kennt die folgenden Befehlsschaltflächen, welche zur unmittelbaren Befehlsausführung leiten (Abbildung 5.23):
®
®
Abbildung 5.23: Befehlsschaltflächen (IBM /SPSS )
OK: Führt die gewünschte Analyse unmittelbar aus. Einfügen: Durch das Anklicken wird der Befehl innerhalb der Befehlssprache von SPSS ins Syntaxfenster übermittelt. Mit dieser Möglichkeit können Sie ohne Kenntnis von
162
Univariate Datenauswertungen
Programmiersprachen eine replizierbare Abfolge von Analysen dokumentieren und speichern. Zurücksetzen: Bereits eingegebene Angaben werden mit dieser Befehlsschaltfläche wieder zurückgesetzt. Abbrechen: Die Eingabe wird abgebrochen und man kehrt zum Ausgangsmenü zurück. Hilfe: Führt zu einer kontextbezogenen Hilfe für die ausgewählten Befehlsabfolgen. 5.4.1 Daten eingeben und definieren Vor der Analyse eines Datensatzes müssen die Daten im Dateneditorfenster vorhanden sein. In unserem einführenden Beispiel sind die Daten bereits eingegeben. Als Beispieldatensatz werden ausgewählte Variablen für vierzig Fälle aus der ALLBUS-Studie (einer allgemeinen Bevölkerungsumfrage) des Jahres 2014 verwendet. Um die Darstellungen übersichtlich zu gestalten, ziehen wir zunächst nur vierzig Befragte, die mit der Fallnummer von 1 bis 40 im ALLBUS-2014 Datensatz vorhanden sind, heran. Neben der entsprechenden Fallnummer wurden auch die Variablen Geschlecht, höchster schulischer Bildungsabschluss, Einkommen und Freizeitbeschäftigungen als Teilauszug aus dem Datensatz herangezogen. Die »Datenansicht« hat die Gestalt eines Tabellenkalkulationsblattes. Die Zeilen des Tabellenblattes sind mit den Ziffern 1, 2 usw. durchnummeriert. Die Spalten sind einheitlich mit V2, V7 usw. (Variable) beschriftet. Die Variablenausprägung (Wert) einer Variablen wird in eine Zelle eingetragen. Mit der Eingabe wird in SPSS automatisch ein Variablenname angelegt. Wie in Kapitel 2 dargestellt, beschreibt die Merkmalsausprägung die kodierte Angabe über die Ausprägung des jeweils betrachteten Falles. So bedeutet z. B. bei der Variable (V7) »Erhebungsgebiet« der Wert 1 »ALTE BUNDESLAENDER« und der Wert 2 »NEUE BUNDESLAENDER«.
®
®
Abbildung 5.24: Datenansicht (IBM /SPSS )
163
Einführung SPSS
Wenn Sie Veränderungen im Datensatz vornehmen, sollten sie die Daten zunächst speichern. Mit den folgenden Klicks werden Daten gespeichert: Datei → Speichern unter
®
®
Abbildung 5.25: Daten speichern (IBM /SPSS )
Es erscheint dann sofort, wie in Abbildung 5.25 dargestellt, das Feld Daten speichern als. Sie müssen in der Maske Dateiname den gewünschten Dateinamen eintragen und mit der Schaltfläche Speichern die Eingabe bestätigen. Im nächsten Schritt wechseln wir in die Registerkarte »Variablenansicht«. Hier finden Sie eine Darstellung der Variablen im Datensatz. Dabei können variable Labels, fehlende Werte und Beschriftungen zugewiesen werden. Ein Variablenname kann in dem Fall aus höchstens 64 Zeichen, Ziffern, aber auch Unterstrichen bestehen. In Abbildung 5.26 finden Sie in den Spalten umfangreiche Spezifikationsmöglichkeiten, die IBM SPSS für die Gestaltung von Variablen bietet. In der Spalte »Werte« sollten Sie insbesondere für kategorische Daten Wertelabels vergeben. Dadurch wird die Datenauswertung und Ergebnisdarstellung erst möglich. In der Spalte »Messniveau« können Sie das jeweilige Skalenniveau (nominal, ordinal, metrisch) der Variable eintragen.
164
Univariate Datenauswertungen
®
®
Abbildung 5.26: Variablenansicht (IBM /SPSS )
Unsere Datei enthält bereits sehr viele Spezifikationen für die darin vorhandenen Variablen. Wenn Sie z. B. mit dem Cursor in die Spalte »Name« klicken, können Sie einen neuen Variablennamen eingeben. In der Spalte »Beschriftung« können Labels für die Variablen vergeben werden, welche bis zu 120 Zeichen lang sein können. Bitte beachten Sie, bei sehr vielen Ergebnisausgaben können, durch Standardeinstellungen bedingt, weniger Zeichen angezeigt werden. Deswegen gilt die Formel: »In der Kürze liegt die Würze«. Sie können für jede Variable die fehlenden Werte eingeben. Fehlende Werte müssen von statistischen Analyseschritten ausgeschlossen werden, da deren Einbezug das Ergebnis verfälschen könnte. SPSS trägt einen fehlenden Wert auch dann ein, wenn in Zellen keine Merkmalsausprägungen eingegeben werden. Die Benennung von verschiedenen Arten (z. B. »weiß nicht« oder »keine Angabe« usw.) von fehlenden Werten ist bei der Änderung der Variablendefinitionen notwendig. SPSS erlaubt dabei nur maximal drei Werte als fehlende Werte zu vergeben. Wenn jedoch mehr als drei Werte vorliegen, besteht zusätzlich die Option, einen Wertebereich festzulegen. Sie können beispielsweise für den niedrigsten Wert »Kleinster Wert« 99997 und für den höchsten Wert »Größter Wert« 99999 eintragen und die Eingabe mit OK starten.
®
®
Abbildung 5.27: Fehlende Werte (IBM /SPSS )
165
Einführung SPSS
In der Spalte »Werte« sollten Sie insbesondere für kategorische Daten entsprechende Wertelabels vergeben. Die Variable V12 (FREIZEIT: BUECHER LESEN) hat die folgenden Wertebeschriftungen, die deren Bedeutung für die Variable festlegt (Abbildung 5.28):
®
®
Abbildung 5.28: Wertebeschriftungen (IBM /SPSS )
Wenn Sie, wie in unserem Fall, mehrere Variablen mit den gleichen Wertbeschriftungen haben, können Sie durch Kopieren und Einfügen die Dateneingabe vereinfachen. Bitte beachten Sie, dass mehrere Definitionselemente nicht gleichzeitig kopiert und eingefügt werden können. 5.4.2 Daten bereinigen und visualisieren Bevor mit der eigentlichen Datenauswertung begonnen wird, müssen fehlerhafte oder gar mehrfach vorhandene Fälle in der Datei beseitigt werden. Unter Fehlerquellen können die folgenden Punkte subsumiert werden: Ȥ Inhaltliche Widersprüchlichkeiten, Ȥ Außergewöhnliche Werte. In den meisten Fällen werden bei der Betrachtung der Häufigkeitsauszählung unzulässige Werte entdeckt, die dann aus den Daten entfernt werden können. Eine Begutachtung aller Daten können Sie durch folgende Befehlsanalyseschritte in SPSS erreichen: Analysieren → Deskriptive Statistiken → Häufigkeiten Die im Hauptmenü vorhandene Option »Analysieren« enthält sämtliche Klassen statistischer Verfahren. Wählen Sie hier bitte aus der Liste der Optionen Deskriptive Statistiken und anschließend das Untermenü Häufigkeiten (Abbildung 5.29):
166
Univariate Datenauswertungen
®
®
Abbildung 5.29: Dateneditor: Optionen analysieren im Hauptmenü (IBM /SPSS )
Für die Bereinigung von Fehlerquellen werden alle Variablen ausgewählt (Abbildung 5.30):
®
®
Abbildung 5.30: Dialogfenster »Häufigkeiten« (IBM /SPSS )
Durch das Anklicken mit dem Cursor auf das Schaltfeld können die Variablen für die Analyse ausgewählt und in die Liste der zu analysierenden Variablen verschoben werden. Mit »Ok« kann die Auswertung danach gestartet werden, wobei die Ergebnisse im Ausgabefenster angezeigt werden. Die linke Seite des Ausgabefensters ist eine Gliederung und dient der schnellen Orientierung innerhalb der Ausgabe (Abbildung 5.31).
167
Einführung SPSS
®
®
Abbildung 5.31: Ausgabefenster mit der Häufigkeitsverteilung der Variable »Freizeit: Bücher lesen« (IBM /SPSS )
®
®
Abbildung 5.32: Im Tabelleneditor geöffnete Häufigkeitsverteilung »Freizeit Bücher lesen« (IBM /SPSS )
Es besteht die Möglichkeit, einzelne Gliederungspunkte ein- und auszublenden oder innerhalb der Ausgabe zu verschieben. Auf der rechten Seite des Ausgabefensters finden Sie die Tabellen und Diagramme, die sich bearbeiten lassen. Durch das Doppelklicken auf Tabellen lassen sich die Elemente der Objekte bearbeiten. Bevor wir die ausgegebenen Werte inhaltlich interpretieren, wollen wir Ihnen zeigen, wie sich aus diesen Tabellen Diagramme erstellen lassen Danach werden wir die Häufigkeitstabellen beschreiben. Ebenfalls durch einen Doppelklick auf das Diagramm im Ausgabefenster kann die Überarbeitung über die verschiedenen Menüs und Symbole umgesetzt werden. Um die Tabellen zu formatieren, z. B. um die Schriftart zu ändern, klickt man die rechte Maustaste und wählt in dem sich öffnenden Fenster die Option Symbolleiste (Abbildung 5.33):
®
®
Abbildung 5.33: Dialogfenster »Formatierungssymbolleiste« (IBM /SPSS )
168
Univariate Datenauswertungen
Angenommen, Sie wollen für die Prozente in der Tabelle in Abbildung 5.30 ein Diagramm erstellen. Hierzu müssen die Werte, die im Diagramm dargestellt werden sollen, ausgewählt werden und ebenfalls durch einen Rechtsklick innerhalb der Option Diagramm erstellen ausgewählt werden (vgl. Abbildung 5.34).
®
®
Abbildung 5.34: Erstellung von Diagrammen im Tabelleneditor (IBM /SPSS )
Dadurch wird ein Diagramm erzeugt, welches beispielsweise für Präsentationszwecke ansprechender gestaltet werden kann. Die Bearbeitung und Gestaltung des Diagramms wird im Diagramm-Editor umgesetzt. Auf der X-Achse (Abszisse) sind die gemessenen Werte dargestellt. Auf der y-Achse (Ordinate) ist die Häufigkeit der Werte angegeben (Abbildung 5.35). So haben 25 % der Befragten die Antwortkategorie »Täglich« angegeben. Durch das Doppelklicken auf das zu bearbeitende Grafikelement wird die Dialogbox Eigenschaften geöffnet, die viele Gestaltungsmöglichkeiten zur Bearbeitung bietet. Hier können Sie Datenbeschriftungen einblenden. Bei zweidimensionalen Diagrammen kann es manchmal nützlich sein, Diagramme um 90 Grad zu drehen (vgl. Abbildung 5.36).
Abbildung 5.35: Häufigkeitsverteilung: Gültige Prozente (IBM /SPSS )
®
®
169
Einführung SPSS
®
®
Abbildung 5.36: Diagramm um 90 Grad gedreht (IBM /SPSS )
Eine Veränderung des Grafiktyps kann in der Registerkarte Variablen in der Dialogbox Eigenschaften vorgenommen werden (Abbildung 5.37). In SPSS stehen unterschiedliche markierbare Grundelemente zur Verfügung, die standardmäßig ausgegeben werden. Bitte beachten Sie, dass durch das Klicken auf ein Diagrammelement die Auswahl der anderen Diagrammelemente wieder aufgehoben wird. Nur ein einzelnes Datenelement bleibt immer zur Bearbeitung ausgewählt. Wird in einer Grafik z. B. ein Textfeld für den Titel ausgewählt, so wird die Markierung durch eine Umrandung angezeigt. In diesem Textbearbeitungsmodus können zudem Änderungen vorgenommen werden. Auch im DiagrammEditor haben Sie eine Menüleiste, die zahlreiche Befehle für die Erstellung und Bearbeitung von Diagrammen enthält.
Abbildung 5.37: Kreisdiagramm: Änderung Grafiktyp (IBM /SPSS )
®
®
170
Univariate Datenauswertungen
®
®
Abbildung 5.38: Diagrammelemente (IBM /SPSS )
Im Folgenden wollen wir die Menübefehle im Diagrammeditor genauer betrachten: Datei: Bei »Diagrammvorlage speichern« werden überarbeitete Diagrammlayout-Vorlagen gespeichert.
®
®
Abbildung 5.39: Menübefehle im Diagrammeditor (IBM /SPSS )
Datei: Bei »Diagrammvorlage zuweisen« können Layouts übertragen werden. Bearbeiten: Bei »Diagramm kopieren« wird das Diagramm in die Zwischenablage kopiert und kann z. B. in MS Word wieder einfügt werden. Ansicht: Hier können Symbol- und Statusleisten ein- oder ausgeblendet werden. Optionen: Die Befehle in diesem Menü dienen den von Daten nicht gebundenen Elementen, wie z. B. Bezugslinien, Gitterlinien, Texten, Legenden etc. Elemente: Die Befehle in diesem Menü fügen datengebundene Elemente ein, wie z. B. Datenbeschriftungen, Interpolationslinien etc. Zusätzlich zu den Befehlen aus den Menüs stehen Ihnen viele Möglichkeiten als Symbole zur Verfügung. Beispielsweise können Sie hier eine Aktion rückgängig machen oder wiederholend durchführen. Durch das Schieben des Cursors auf die jeweiligen Symbole wird angezeigt, welche Aktionen mit dem jeweiligen Symbol möglich sind. Im Folgenden wurde mit dem Cursor auf das Symbol »Lasso« gezeigt (vgl. Abbildung 5.40):
171
Einführung SPSS
®
®
Abbildung 5.40: Symbole im Diagrammeditor (IBM /SPSS )
Dabei sollte man beachten, dass Diagramme gewollt oder ungewollt so gestaltet sein können, dass sie einen falschen Eindruck vermitteln. Die Gestaltungsarbeit eines Diagramms darf nicht dem Grafikassistenten des Programms überlassen werden. Als Forscher*in bestimmen Sie, welche Aussagen aus der Visualisierung der erhobenen Daten – basierend auf der bestmöglichen Ausgestaltung des Diagramms – objektiv vermittelt werden sollen. 5.4.3 Erste statistische Auswertung und Interpretation mit SPSS Mit Hilfe von SPSS können Sie vielseitige statistische Maßzahlen ermitteln und die Ergebnisse in Diagrammen umfänglich darstellen. Eine solche Auswertung soll für die Variable V12 »Freizeit Bücher Lesen« vorgenommen werden. Für die Erstellung der Tabelle und des Diagramms müssen die folgenden Befehlsschritte vorgenommen werden:
®
®
Abbildung 5.41: Deskriptive Statistiken: Maßzahlen (IBM /SPSS )
172
Univariate Datenauswertungen
Analysieren → Deskriptive Statistiken → Häufigkeiten Wählen Sie die Variable V12 aus. Klicken Sie die Schaltfläche Statistiken und wählen Sie aus der Gruppe Lagemaße und Streuung durch das Anklicken der Kontrollkästchen aus. Mit Weiter bestätigen Sie die Eingabe. Um Diagramme zu erstellen, klicken Sie auf die Schaltfläche Diagramme. Hierbei kann festgelegt werden, welche Diagrammtypen, ob Prozentwerte oder die absoluten Merkmalshäufigkeiten ausgewiesen werden sollen. Durch die Bestätigung mit Weiter und mit OK wird der Befehl entsprechend ausgeführt.
®
®
Abbildung 5.42: Deskriptive Statistiken: D iagramme (IBM /SPSS )
Im Ausgabefenster erscheint anschließend die Abbildung 5.32 (vgl. S. 167). Hieraus erfährt man in der ersten Spalte alle vorhandenen Variablenwerte. In Spalte 2 sind die absoluten Häufigkeiten aufgelistet und in der dritten Spalte werden prozentuale Anteile aufgezeigt. So zeigt sich, dass 25 % der Befragten »täglich« in der Freizeit Bücher lesen. Da keine fehlenden Werte im Datensatz vorhanden sind, sind die beiden Spalten (3 und 4) »Prozent« und »Gültige Prozente« identisch. In der letzten Spalte finden Sie Abbildung 5.43: Maßzahlen (IBM®/SPSS®) die aufsummierten bzw. kumulierten Prozentwerte. Die im Dialogfenster Statistik ausgewählten Maße werden in einer vorangestellten Tabelle mit der Überschrift Statistiken ausgewiesen (vgl. Abbildung 5.43). Demnach beträgt der Median 3,00, der häufigste Wert (Modus) beträgt 4, der Range (Spannweite) weist eine Breite von vier Einheiten auf, die sich aus
Einführung SPSS
173
der Differenz zwischen dem niedrigsten Wert (»Minimum«,1) und dem höchsten Wert (»Maximum«, 5) ergibt. Im Anschluss an die Tabelle wird das Balkendiagramm im Ausgabefenster angezeigt (vgl. Abbildung 5.35). 5.4.4 SPSS-Syntax In den vorangegangen Abschnitten wurde eine menübasierte Herangehensweise für die Datenbeschreibung und Datenauswertung beschrieben. In diesem Abschnitt zeigen wir, welche syntaktische Vorgehensweise in SPSS zur Verfügung steht. Die wesentlichen Vorteile, mit Befehlssyntaxen statt einer menübasierten Datenanalyse zu arbeiten, sind folgende: Ȥ Syntaxbefehle ermöglichen eine dauerhafte Dokumentation der eigenen Vorgehensweise im Gegensatz zu einer Ausführung der Befehle und Berechnungen über das Menü. Ȥ Auswertungsschritte werden zu einem späteren Zeitpunkt leicht und komfortabel wiederholbar. Ȥ Bei Vorhandensein von Datensätzen, die umfangreich sind, können Auswertungen schneller und zielgerichteter umgesetzt werden. Ȥ Mehrere Befehle werden in Form eines Programmablaufs zusammengeführt, wodurch komplexe Abläufe übersichtlich und automatisiert durchgeführt werden können. Ȥ Sie können in IBM SPSS Statistics den Programmierungstext (Syntax) durch sogenannte »Point-and-click-Operationen« ganz einfach im Syntax-Editor einfügen. Das Arbeiten mit SPSS-Syntax soll anhand des einfachen Beispiels aus dem Abschnitt über deskriptive Statistik veranschaulicht werden. Unser Datensatz »MiniAllbus2014« ist bereits geöffnet. Für die Erstellung von Häufigkeitstabellen und Diagrammen werden die Arbeitsschritte aus dem vorangegangenen Abschnitt durchgeführt. Das Öffnen eines Syntax-Eingabefensters (Abbildung 5.44) erfolgt über die folgenden Arbeitsschritte: Datei → Neu → Syntax Als nächstes werden die Ihnen bereits bekannten Arbeitsschritte zur Erstellung von Häufigkeiten (Abbildung 5.45) vorgenommen: Analysieren → Deskriptive Statistiken → Häufigkeiten Wählen Sie die Variable V12 aus. Klicken Sie anschließend die Schaltfläche Statistiken an und wählen Sie aus der Gruppe Lagemaße und Streuung die gewünschten Maße. Mit Weiter bestätigen Sie die Eingabe. Um Diagramme zu erstellen, klicken Sie auf die Schaltfläche Diagramme. Hierbei kann festgelegt werden, welche Diagrammtypen, ob Prozent-
174
Univariate Datenauswertungen
®
®
Abbildung 5.44: Syntax-Eingabefenster (IBM /SPSS )
werte oder die absoluten Merkmalshäufigkeiten, ausgewiesen werden sollen. Durch die Bestätigung mit Weiter und mit OK wird der Befehl ausgeführt. Statt nun durch die Bestätigung mit OK den Befehl auszuführen, klicken Sie aber auf Einfügen. Dadurch wird der Syntaxeditor geöffnet (Abbildung 5.46). Hier finden Sie die angeklickten Eingaben über das Menü in Form eines Programmierungstextes bzw. in Form von Befehlseingaben.
Abbildung 5.45: Syntax-Erstellung für Häufigkeiten (IBM /SPSS )
®
®
175
Einführung SPSS
®
®
Abbildung 5.46: Dialogfenster »Syntaxeditor« (IBM /SPSS )
In Zeile 1 im Syntaxfenster soll das aktive DataSet 1 für die folgenden Analyseschritte herangezogen werden. In der Befehlszeile 2 soll eine Häufigkeitsanalyse FREQUENCIES für die Variable V12 ausgegeben werden. In der folgenden Zeile 3/STATISTICS sind die Kennwerte und Maßzahlen Range, Minimum, Maximum, Median und Modus angefordert. Die Häufigkeitsverteilung in Diagrammform wird in Zeile 4/BARCHART PERCENT in Syntaxform umgesetzt. Schließlich wird in Zeile 5/ORDER=ANALYSIS die Analyse so organisiert, dass eine Statistik-Tabelle für alle Variablen ausgegeben wird. Damit die im Syntaxeditor formulierten Befehle zu einer Datenauswertung führen, müssen diese durch den Befehl Ausführen dem Programm SPSS mitgeteilt werden (Abbildung 5.47). Hierfür können Sie über die folgenden Arbeitsschritte die Befehlseingabe erzeugen:
®
®
Abbildung 5.47: Befehle ausführen im Syntaxeditor (IBM /SPSS )
Oder Sie führen die Befehlseingabe durch den grünen Pfeil im Syntaxeditor wie in Abbildung 5.48 dargestellt aus. Durch die Befehlsausführung wird die Umsetzung in den oben genannten Analyseschritten veranlasst.
176
Univariate Datenauswertungen
®
®
Abbildung 5.48: Auswahl ausführen (IBM /SPSS )
Standardmäßig ist in SPSS voreinstellt, dass die Syntax im Syntaxeditor ausgegeben wird. Sollten Sie die Syntax-Befehle nicht erhalten, liegt es daran, dass durch den Befehl: SET PRINTBACK OFF die Syntaxausgabe verhindert ist. Die Aktivierung der Syntax-Ausgabe erfolgt dann über der Befehl SET PRINTBACK ON.
®
®
Abbildung 5.49: Syntaxerweiterung für weitere Variablen (IBM /SPSS )
Im Syntaxeditor sind nun alle Befehle zusammengefasst. Das Hinzufügen von neuen Variablen oder anderen statistischen Kenngrößen kann sehr einfach modifiziert werden, wie z. B. Abbildung 5.49 zeigt. Dabei wird nun die Variable V13 bis V15 der Variablenliste hinzugefügt und die jeweiligen Häufigkeitstabellen werden ausgegeben: Die Erzeugung der Syntaxbefehle durch Einfügen aus der menübasierten Eingabe ist die einfachste Vorgehensweise, um Befehlstexte ohne Programmierungskenntnisse zu erstellen. Wenn Programmierungskenntnisse vorhanden sind, können Sie die Befehle auch direkt im Syntaxeditor eingeben.
6. Bivariate Zusammenhangsanalyse
Im vorangegangenen Kapitel haben Sie sich mit der Beschreibung der Verteilung einzelner Variablen beschäftigt. Sie haben hierzu eine beschreibende Darstellungsform – die Häufigkeitsverteilung – sowie mehrere Maßzahlen – Mittelwerte und Streuungswerte – kennengelernt, mit denen sich derartige Verteilungen kompakt beschreiben lassen. Dieses Wissen stattet Sie bereits mit einigen wichtigen Grundkenntnissen zur deskriptiven Beschreibung von Untersuchungsergebnissen aus. Gleichwohl wird sich empirische Sozialforschung in vielen Fällen nicht auf die rein beschreibende Darstellung von Häufigkeitsverteilungen einzelner Variablen in ihrer Stichprobe beschränken. Sie werden beispielsweise wissen wollen, wie sich Verteilungen zwischen spezifischen Untergruppe Ihrer Stichprobe – etwa alten und jungen Befragten oder Männern und Frauen – unterscheiden. Darüber hinaus könnten Sie daran interessiert sein, nach welchem der beiden genannten Merkmale sich ihre betrachtete Variable markanter unterscheidet – mit anderen Worten: mit welchem Charakteristikum des Befragten die Verteilung ihrer Variable stärker zusammenhängt. Die Untersuchung derartiger Zusammenhänge zwischen zwei Variablen stellt auch für die Überprüfung von Hypothesen einen wichtigen ersten Schritt dar. Wir werden uns daher im vorliegenden Kapitel eingehender mit derartigen bivariaten Zusammenhangsanalysen beschäftigen. Grundsätzlich folgt das Kapitel dabei einer ähnlichen Grundstruktur wie das vorangegangene Kapitel zur univariaten Statistik. Wir werden zunächst eine Form der deskriptiven Darstellung des Zusammenhangs zwischen zwei Variablen kennenlernen, die sogenannte »Kreuztabelle« (Abschnitt 6.1). Ähnlich wie die Häufigkeitsverteilung im vorangegangenen Kapitel stellt diese eine sehr detaillierte Form der Beschreibung eines Zusammenhangs dar und kann in Form von Maßzahlen kompakt zusammengefasst werden. Wir werden derartige Maßzahlen in den darauffolgenden Kapiteln ausführlich behandeln. Die Maßzahlen orientieren sich – wiederum analog zu den zuvor behandelten univariaten Maßen – am Skalenniveau der betrachteten Variablen: Entsprechend lassen sich Maßzahlen für nominales (Abschnitt 6.2), ordinales (Abschnitt 6.3) und metrisches Skalenniveau (Abschnitt 6.4) unterscheiden. Wir werden diese Maßzahlen abschließend einander gegenüberstellen. Ein Überblick über die Durchführung von Zusammenhangsanalysen mittels des Statistikprogramms SPSS beschließt das Kapitel (Abschnitt 6.5). Bei allen Darstellungen werden wir dabei nicht nur die Verwendung der einzelnen Maßzahlen verdeutlichen, sondern auch deren mathematische Berechnung skizzieren. Dies ist
178
Bivariate Zusammenhangsanalyse
ein Schritt, den Sie üblicherweise in der Praxis der Sozialforschung nicht (mehr) vollziehen müssen – die Berechnung erfolgt hier meist durch ein Statistikprogramm. Gleichwohl ermöglicht eine grundlegende Kenntnis der Herleitung der verschiedenen Maßzahlen ein besseres Verständnis der Frage, warum sich Zusammenhangsmaße zwischen Variablen verschiedener Skalenniveaus unterscheiden, und erleichtert zudem deren Interpretation.
6.1 Die Analyse bivariater Tabellen Für die ersten beiden Subkapitel legen wir ein Beispiel für die empirische Analyse eines Zusammenhangs zwischen zwei Variablen zu Grunde, das auf Daten der ALLBUS-Umfrage des Jahres 2002 beruht. Diese enthielt, wie bereits mehrere ALLBUS-Umfragen zuvor, ein spezifisches Fragenmodul zum Thema »Familie und Geschlechterrollen«, mit dem regelmäßig untersucht wird, ob – und wenn ja, wie – sich die Einstellungen der deutschen Bevölkerung zur Rolle der Familie und zur Arbeitsteilung zwischen Männern und Frauen verändern. Im Rahmen dieser Umfrage wurden die Befragten unter anderem auch mit der Frage konfrontiert, welchen Umfang von Erwerbstätigkeit sie bei Frauen in verschiedenen Phasen der Familienentwicklung erwarten würden – von der kinderlosen Phase über verschiedene Kindesalter bis hin zur Phase, in der die Kinder bereits das Elternhaus verlassen haben. Befragte wurden gebeten, hier anzugeben, ob Frauen ihrer Meinung nach in diesen Phasen ganztags, halbtags oder gar nicht erwerbstätig sein sollten.1 Die Ergebnisse zeigten, dass – bezogen auf Gesamtdeutschland – die Deutschen 2002 für Frauen mit noch nicht schulpflichtigen Kindern weitgehend ein sogenanntes »Zuverdienermodell« für angemessen hielten; d. h. ein Modell, in dem die Mutter teilzeiterwerbstätig ist und damit einen »Zuverdienst« zum männlichen »Haupteinkommen« des Haushalts erbringt. 52,3 % aller Deutschen befürworteten eine solche Halbtagstätigkeit von Müttern mit Vorschulkindern, während 39,9 % sich dafür aussprachen, dass die Mutter in dieser Phase gar nicht erwerbstätig sein soll. Lediglich 7,8 % waren der Meinung, Mütter sollten in dieser Zeit ganztags erwerbstätig sein (Zahlen nach ALLBUS 2002; eigene Berechnungen). Vor dem Hintergrund existierender Forschungen aus der Arbeitsmarktund Geschlechterforschung erscheint es jedoch plausibel zu vermuten, dass die skizzierten Zahlen deutliche Unterschiede zwischen alten und neuen Bundesländern überdecken. 1
Die konkrete Fragestellung lautete: »Sind Sie der Meinung, dass Frauen unter folgenden Umständen ganztags, halbtags oder überhaupt nicht außer Haus arbeiten sollten? 1. Wenn sie verheiratet sind, aber noch keine Kinder haben; 2. wenn ein Kind da ist, das noch nicht zur Schule geht; 3. dann, wenn auch das jüngste Kind zur Schule geht, 4. nachdem die Kinder das Elternhaus verlassen haben. Die zur Verfügung stehenden Antwortmöglichkeiten lauteten: »ganztags arbeiten«, »halbtags arbeiten« und »gar nicht arbeiten«.
179
Die Analyse bivariater Tabellen
Den alten Bundesländern wird vielfach die Dominanz eines konservativen »Ernährermodells« (Lewis und Ostner 1994) unterstellt, in dem der Mann hauptverantwortlich für das Einkommen eines Haushalts ist und Frauen auch in späteren Phasen des Familienverlaufs bestenfalls in Teilzeit erwerbstätig sind. In den neuen Bundesländern herrschte hingegen zu Zeiten des Sozialismus eine auch im zeitlichen Umfang stark ausgebaute Kinder betreuungs-Infrastruktur vor, die Frauen meist schon in frühen Phasen des Familienverlaufs eine Vollzeit-Erwerbstätigkeit ermöglichte (etwa Pfau-Effinger und Smidt 2011, Marold 2009). Es wäre vor diesem Hintergrund entsprechend plausibel anzunehmen, dass sich die Einstellungen zur Frauenerwerbstätigkeit zwischen Befragten in West- und Ostdeutschland unterscheiden: In den alten Bundesländern sollten die Befragten eine (umfangreiche) Erwerbstätigkeit von Frauen weniger befürworten als in den neuen Bundesländern. Es kann also davon ausgegangen werden, dass die geäußerte Präferenz für ein bestimmtes Erwerbstätigkeitsmodell von Müttern vom Wohnort des Befragten abhängig ist. Gemäß der oben skizzierten Hypothese wäre die Einstellung zur Erwerbstätigkeit von Frauen entsprechend die abhängige und der Wohnort (in den alten oder neuen Bundesländern) die unabhängige Variable (vgl. Kapitel 2). Zur Überprüfung dieser Hypothese könnte man nun die Antworten von Befragten in alten und neuen Bundesländern zur Erwerbstätigkeit von Müttern einander gegenüberstellen. Tabelle 6.1 tut dies in Form einer gemeinsamen Tabelle beider Variablen. Diese gibt entsprechend die Häufigkeiten wieder, mit denen Ost- und Westdeutsche die einzelnen Antwortalternativen zur Erwerbstätigkeit von Müttern mit Vorschulkindern ausgewählt haben. Tabelle 6.1 stellt ein typisches Beispiel für eine bivariate Tabelle dar, in der zwei Variablen einander gegenübergestellt werden. In der Statistik hat sich hier der Begriff der Kreuztabelle etabliert, den wir auch im Folgenden verwenden werden. Tabelle 6.1: Erwartete Erwerbstätigkeit von Müttern mit Vorschulkindern in Deutschland, Ost-West- Vergleich, absolute Häufigkeiten (Quelle: ALLBUS 2002, eigene Berechnungen) Wohnort Erwartete Erwerbstätigkeit von Müttern mit Vorschulkind
Alte Bundesländer
Neue Bundesländer
Gesamt
27
69
96
Halbtags arbeiten
373
272
645
Gar nicht arbeiten
433
59
492
Gesamt
833
400
1233
Ganztags arbeiten
Im Gegensatz zur einfachen Häufigkeitsverteilung (vgl. Kapitel 5) wird hier in jeder Zelle der Tabelle nicht die Verteilung einer einzelnen Variable wiedergegeben, sondern die gemeinsame Verteilung zweier Variablen. Der Zahlenwert »27« in der oberen linken Zelle
180
Bivariate Zusammenhangsanalyse
der Tabelle bedeutet etwa, dass 27 Personen gleichzeitig angegeben haben, aus den alten Bundesländern zu stammen und der Meinung zu sein, dass Frauen mit Vorschulkindern ganztags arbeiten sollten. Analog wohnen 272 aller Befragten in den neuen Bundesländern und sind der Ansicht, Frauen sollten während dieser Zeit halbtags erwerbstätig sein. MERKEN Eine bivariate Tabelle bzw. Kreuztabelle gibt die gemeinsame Verteilung zweier Variablen wieder. Die Werte in den Zellen der Tabelle entsprechen der (absoluten oder relativen) Häufigkeit, mit der ein bestimmter Wert der einen und gleichzeitig ein bestimmter Wert der anderen Variable ausgewählt wurde.
Die Ergebnisse scheinen erste Anhaltspunkte für die Gültigkeit unserer aufgestellten Hypothese zu liefern, dass Personen in den alten Bundesländern eher eine Erwerbstätigkeit von jungen Müttern ablehnen als Befragte in den neuen Bundesländern. So sind etwa 433 Befragte in Westdeutschland – und damit mehr als die Hälfte aller westdeutschen Befragten – der Ansicht, junge Mütter sollten »gar nicht arbeiten«, während diese Meinung nur von 59 Befragten in Ostdeutschland vertreten wird. Ein derartiger direkter Vergleich der in der Tabelle wiedergegebenen absoluten Häufigkeiten erscheint hier jedoch problematisch, da in den neuen Bundesländern mit 400 Befragten deutlich weniger Personen befragt wurden als in den alten Bundesländern (833 Befragte; vergleiche die letzte Zeile »Gesamt«). Die Zahlen müssen entsprechend vergleichbar gemacht werden, indem man sie nicht als absolute Werte, sondern als Anteil aller Befragten in den alten bzw. neuen Bundesländern wiedergibt. Dies entspricht einer Prozentuierung innerhalb der alten bzw. neuen Bundesländer. Tabelle 6.2 gibt entsprechend neben den absoluten auch noch die relativen Häufigkeiten (in Prozent; kursiv) wieder, wobei die Prozente jeweils innerhalb der beiden Landesteile gebildet wurden. Vergleicht man die Prozentwerte nun zwischen den beiden Landesteilen, so finden sich mehrere Belege für die Gültigkeit der zuvor aufgestellten Hypothese einer geringeren Erwerbspräferenz in den alten Bundesländern. So sprechen sich 52,0 % aller Befragten in den alten Bundesländern dafür aus, dass Mütter mit Vorschulkindern gar nicht arbeiten sollten, während nur 14,8 % der ostdeutschen Befragten dieser Ansicht sind; eine Differenz von nahezu dreißig Prozentpunkten! Darüber hinaus sind mit 68 % mehr als zwei Drittel aller befragten Ostdeutschen der Ansicht, dass eine Halbtagsbeschäftigung ausgeübt werden sollte. In den alten Bundesländern wird diese Antwort zwar ebenfalls von immerhin 44,8 % aller Befragten ausgewählt, der Wert bleibt jedoch ebenfalls wiederum zwanzig Prozentpunkte unter demjenigen der Ostdeutschen. Eine Vollzeittätigkeit
181
Die Analyse bivariater Tabellen
wird in beiden Landesteilen nur von einer Minderheit der Befragten präferiert; auch hier bleiben allerdings die alten (3,2 %) deutlich unter dem Niveau der neuen Bundesländer (17,3 %). Alle drei zeilenweisen Vergleiche scheinen somit unsere Hypothese einer höheren Erwerbsneigung ostdeutscher Befragter zu bestätigen: Die Einstellung zur Erwerbstätigkeit von jungen Müttern weist einen beachtlichen und systematischen Zusammenhang mit dem Wohnort der Befragten auf. Tabelle 6.2: Erwartete Erwerbstätigkeit von Müttern mit Vorschulkindern in Deutschland, Ost-West- Vergleich, absolute und relative Häufigkeiten (Quelle: ALLBUS 2002, eigene Berechnungen) Wohnort Erwartete Erwerbstätigkeit von Müttern mit Vorschulkind
Alte Bundesländer
Neue Bundesländer
Gesamt
Ganztags arbeiten
27 3,2 %
69 17,3 %
96 7,8 %
Halbtags arbeiten
373 44,8 %
272 68,0 %
645 52,3 %
Gar nicht arbeiten
433 52,0 %
59 14,8 %
492 39,9 %
Gesamt
833 100 %
400 100 %
1233 100 %
Tabelle 6.3 gibt die analogen Ergebnisse für Ost-West-Unterschiede bei der Frage nach der erwarteten Erwerbstätigkeit von Müttern in späteren Phasen des Familienlebens wieder: wenn das jüngste Kind sich bereits im schulpflichtigen Alter befindet bzw. wenn die Kinder den elterlichen Haushalt bereits wieder verlassen haben (empty nest). Auch bei Müttern mit Kindern im schulpflichtigen Alter zeigen sich noch erkennbare Ost-West-Unterschiede. Ein vollständiger Verzicht auf eine Erwerbstätigkeit findet nun in beiden Landesteilen kaum mehr Zuspruch, allerdings in den alten Bundesländern (15,9 %) noch eher als in den neuen (4,8 %). Etwa ein Drittel aller ostdeutschen Befragten befürworten nun eine ganztägige Erwerbstätigkeit, während dies bei weniger als zehn Prozent der Westdeutschen der Fall ist. Diese sprechen sich eher für eine Halbtags-Tätigkeit aus (75,4 % im Vergleich zu 61,3 % bei den ostdeutschen Befragten). Trotz der weiterhin bestehenden Unterschiede zwischen alten und neuen Bundesländern scheinen diese nun etwas kleiner auszufallen; die Prozentsatzdifferenzen zwischen alten und neuen Bundesländern sind weniger ausgeprägt als in Tabelle 6.2. Der Zusammenhang zwischen der Einstellung und dem Wohnort scheint entsprechend geringer zu sein.
182
Bivariate Zusammenhangsanalyse
Tabelle 6.3: Erwartete Erwerbstätigkeit von Müttern mit schulpflichtigen Kindern bzw. in der »Empty-nestPhase«, Deutschland, Ost-West-Vergleich, absolute und relative Häufigkeiten (Quelle: ALLBUS 2002, eigene Berechnungen) a) … mit schulpflichtigen Kindern
b) … nachdem Kinder das Elternhaus verlassen haben
Alte BL
Neue BL
Gesamt
Alte BL
Neue BL
Gesamt
Ganztags arbeiten
8,7 %
34,0 %
16,9 %
71,4 %
87,8 %
76,8 %
Halbtags arbeiten
75,4 %
61,3 %
70,8 %
26,8 %
11,8 %
21,8 %
Gar nicht arbeiten
15,9 %
4,8 %
12,3 %
1,8 %
0,5 %
1,4 %
Gesamt
100 %
100 %
100 %
100 %
100 %
100 %
Ein ähnliches Bild zeigt sich für die Erwerbserwartungen nach dem Auszug der Kinder. Eine Mehrheit in Ost und West spricht sich nun für eine ganztägige Erwerbstätigkeit aus, wobei die Unterstützung wiederum in Ostdeutschland (87,8 %) etwas höher ausfällt als in Westdeutschland (71,4 %). Ein spiegelbildliches Muster zeigt sich bei der Befürwortung einer Halbtags-Tätigkeit. Nur sehr wenige Befragte verlangen weiterhin einen Verzicht auf Erwerbstätigkeit. Auch hier würde man aufgrund der insgesamt geringeren Prozentsatz-Differenzen von einem geringeren Zusammenhang als in Tabelle 6.2 ausgehen; sie unterschreiten sogar die Differenzen für den Fall des Vorhandenseins von schulpflichtigen Kindern. Mit zunehmendem Alter der Kinder scheinen die Unterschiede zwischen Ost- und Westdeutschland somit abzunehmen; der Zusammenhang der Einstellung mit dem Wohnort verringert sich. Das hier beschriebene, intuitiv einleuchtende Vorgehen für die Interpretation einer bivariaten Tabellen lässt sich entsprechend als Standardvorgehen auch abstrakter beschreiben: MERKEN Standardvorgehen zur deskriptiven Analyse einer bivariaten Tabelle 1. Berechnung relativer Häufigkeiten: Zur Analyse einer bivariaten Tabelle sind absolute Häufigkeiten meist nicht geeignet. Sie müssen entsprechend durch relative Häufigkeiten (d. h. Prozentwerte) ergänzt werden. 2. Prozentuierung in Richtung der unabhängigen Variablen: Die Berechnung relativer Häufigkeiten orientiert sich dabei jeweils an der unabhängigen Variablen, in der die Prozentuierung vorgenommen wird. Im vorangegangenen Beispielfall war der Wohnort der Befragten die unabhängige Variable: Entsprechend wurde innerhalb dieser Ausprägungen (alte/neue Bundesländer) spaltenweise prozentuiert. 3. Vergleich in Richtung der abhängigen Variablen: Die Vergleichsrichtung der Prozentwerte orientiert sich schließlich an den Kategorien der abhängigen Variablen. Im vorangegan-
Die Analyse bivariater Tabellen
183
genen Beispiel haben wir die Prozentwerte für jede einzelne Kategorie der abhängigen Variable (ganztags/halbtags/gar nicht arbeiten) zwischen alten und neuen Bundesländern zeilenweise verglichen. 4. Vergleich der Prozentsatzdifferenzen: Um die Stärke des Zusammenhangs zwischen abhängiger und unabhängiger Variable zu überprüfen, empfiehlt es sich, die Differenzen der ermittelten Prozentsätze systematisch miteinander zu vergleichen. Große Prozentsatzdifferenzen deuten darauf hin, dass die abhängige Variable systematisch mit den Ausprägungen der unabhängigen Variablen variiert, beide Variablen also miteinander zusammenhängen. Je größer die Prozentsatzdifferenzen ausfallen, umso stärker ist der entsprechende Zusammenhang.
Der oben skizzierte Ablauf stellt ein standardisiertes, leicht handhabbares Vorgehen zur Analyse von bivariaten Zusammenhängen dar. Es ist gleichwohl verhältnismäßig aufwendig. So mussten in dem oben skizzierten Fall drei »Prozentsatzpaare« miteinander verglichen werden (Tabelle 6.2). Im Falle des Vergleichs von Zusammenhängen über mehrere Variablenpaare hinweg (Tabelle 6.3) müssen die Differenzen der Prozentsätze wiederum über die Tabellen hinweg miteinander verglichen werden. Dabei gilt es zu beachten, dass der oben vollzogene Kontrast der Einstellung zur Frauenerwerbstätigkeit mit einer dichotomen unabhängigen Variablen – also einer Variablen, die nur zwei Ausprägungen aufweist – noch vergleichsweise einfach ist. Es ist leicht vorstellbar, dass die Tabellenanalyse bei Variablen mit mehreren Merkmalsausprägungen (etwa der Gegenüberstellung der Frauenerwerbstätigkeit mit einer kategorisierten Altersvariable, die zehn verschiedene Altersgruppen unterscheidet) ungleich aufwendiger ist. Darüber hinaus war die bislang vorgenommene Interpretation der Stärke des Zusammenhangs eher recht subjektiv an der intuitiven Einschätzung von Prozentsatz-Unterschieden orientiert. Es fehlte bislang ein verlässliches und objektives Maß dafür, wie stark der beobachtete Zusammenhang ist und ggf., um wie viel stärker er im Vergleich zu anderen Zusammenhängen ausfällt. Hier helfen die sogenannten Zusammenhangsmaße weiter, mit denen wir uns in den drei Folgeabschnitten (6.2 bis 6.4) beschäftigen werden. Ähnlich wie die im vorangegangenen Kapitel vorgestellten Streuungsmaße bzw. Mittelwerte verfolgen sie das Ziel, einen vergleichsweise komplexen Sachverhalt in einer einzelnen Maßzahl zusammenzufassen, die über die wesentliche Charakteristik des betrachteten Zusammenhangs informiert. Ähnlich wie die Mittel- und Streuungswerte stellen sie jedoch auch ein vereinfachtes statistisches Maß dar, dass die Komplexität des Zusammenhangs entsprechend verkürzt. Die Berechnung derartiger Zusammenhangsmaße sollte entsprechend möglichst immer in Kombination mit einer Betrachtung der (ungleich detaillierteren) Tabellenanalyse durchgeführt werden.
184
Bivariate Zusammenhangsanalyse
Zusammenhangsmaße variieren mit dem Skalenniveau der beiden in eine Zusammenhangsanalyse eingehenden Variablen. Im Folgenden werden wir daher zwischen Maßen für Variablen mit nominalem (Abschnitt 6.2), ordinalem (Abschnitt 6.3) und metrischem Skalenniveau (Abschnitt 6.4) unterscheiden. Ausschlaggebend für die Auswahl des geeigneten Zusammenhangsmaßes ist dabei das niedrigere Skalenniveau der beiden Variablen. Soll etwa für einen Zusammenhang zwischen einer ordinalskalierten und einer nominalskalierten Variable ein geeignetes Zusammenhangsmaß verwendet werden, so bieten sich hier die nominalen Maßzahlen an (nominal ist das niedrigere Skalenniveau). Bei der Betrachtung des Zusammenhangs zwischen zwei ordinalskalierten Variablen kann hingegen ein für Ordinalskalen geeignetes Zusammenhangsmaß ausgewählt werden (ordinal ist das niedrigste Skalenniveau). Um Zusammenhangsmaße besser miteinander vergleichen zu können, haben sich in der deskriptiven Statistik eine Reihe von »Standards« etabliert, die für jede der besprochenen Maßzahlen gelten sollen (vgl. Benninghaus 2007: 90 f.): Ȥ Wertebereich zwischen 0 und +/−1: Zusammenhangsmaße sollten zwischen einem Minimalwert von 0 und einem Wert von +/−1 variieren. Ein Wert von 0 zeigt dabei immer an, dass kein Zusammenhang zwischen beiden Variablen besteht, ein Wert von 1 verweist hingegen auf einen perfekten Zusammenhang, d. h. die Werte der abhängigen Variablen lassen sich vollständig aus den Werten der unabhängigen Variablen ableiten und damit perfekt vorhersagen. Das Vorzeichen deutet auf die Richtung des Zusammenhangs hin (vergleiche hierzu ausführlicher Abschnitt 6.3 ff.). Ȥ Klare Interpretation/Sensibilität für unterschiedliche Grade eines Zusammenhangs: Nur ausgesprochen selten hat man es in den Sozialwissenschaften mit perfekten Zusammenhängen bzw. mit der vollständigen Abwesenheit eines Zusammenhangs zu tun. Oftmals nehmen Zusammenhänge eine Position zwischen diesen beiden Extrempolen ein. Zusammenhangsmaße sollten entsprechend anhand ihrer Werte verschiedene Grade eines Zusammenhangs unterscheiden können. Ein schwacher Zusammenhang sollte mit Hilfe eines Zusammenhangsmaßes von einem mittleren oder stärkeren Zusammenhang abgegrenzt werden können. Ȥ Unabhängigkeit von den absoluten Häufigkeiten einer Tabelle: Der Wert eines Zusammenhangsmaßes sollte – bei gleicher Verteilung der relativen Häufigkeiten – unabhängig von den absoluten Häufigkeiten einer Tabelle sein. Die für den in Tabelle 6.1 wiedergegebenen Zusammenhang zu bestimmende Maßzahl soll also – bei gleicher Verteilung der spaltenweise berechneten Prozente – unabhängig davon sein, ob 1233 oder etwa 10-mal so viele Personen (N = 12.330) befragt wurden.
Zusammenhangsmaße für nominales Skalenniveau
185
MERKEN Zusammenhangsmaße fassen die Charakteristika eines Zusammenhangs in einer einzelnen Maßzahl zusammen. Die Auswahl eines geeigneten Zusammenhangsmaßes hängt vom Skalenniveau der beiden in einen Zusammenhang eingehenden Variablen ab. Ausschlaggebend für die Auswahl des geeigneten Zusammenhangsmaßes ist dabei das niedrigere Skalenniveau der in einen Zusammenhang eingehenden Variablen. Zusammenhangsmaße nehmen Werte zwischen 0 und +/−1 ein, wobei 0 anzeigt, dass kein Zusammenhang zwischen beiden Variablen besteht, während ein Wert von 1 einen perfekten Zusammenhang markiert. Die Werte zwischen diesen Extrempunkten zeigen verschiedene Grade des Zusammenhangs an, d. h. sie erlauben es, z. B. schwache, mittlere und starke Zusammenhänge voneinander zu unterscheiden.
6.2 Zusammenhangsmaße für nominales Skalenniveau Für die Bestimmung von Maßzahlen für nominales Skalenniveau greifen wir auf das bereits in Tabelle 6.1 wiedergegebene Beispiel des Zusammenhangs zwischen den Erwerbserwartungen an Frauen mit kleinen Kindern und dem Wohnort der Befragten in den alten bzw. neuen Bundesländern zurück. Hierbei handelt es sich um den Zusammenhang zwischen einer ordinalskalierten Variablen (der Erwerbserwartung) und einer nominalskalierten Variablen (dem Wohnort der Befragten), für die ein Zusammenhangsmaß für nominales Skalenniveau geeignet ist (nominal ist das niedrigere Skalenniveau der beiden Variablen). Die Logik der Berechnung der hier behandelten Zusammenhangsmaße für nominales Skalenniveau basiert auf der Grundidee der Abweichung der tatsächlichen Verteilung zweier Variablen von einer Verteilung bei statistischer Unabhängigkeit. Etwas umgangssprachlicher formuliert wird also geprüft, inwiefern die tatsächlich beobachtete Verteilung zweier Variablen (etwa derjenigen in Tabelle 6.1) von einer gedachten Verteilung abweicht, bei der beide Variablen in keiner Weise miteinander zusammenhängen, also maximal unabhängig voneinander sind. In statistischen Fachtermini spricht man hier von dem Unterschied zwischen den Werten einer Kontingenztabelle (der tatsächlich beobachteten Verteilung) und denen einer Indifferenztabelle (der Verteilung bei statistischer Unabhängigkeit). Je geringer der Unterschied zwischen Kontingenz- und Indifferenztabelle ausfällt, umso eher entspricht der tatsächlich beobachtete Zusammenhang einem »Nicht-Zusammenhang«, das Zusammenhangsmaß müsste dann entsprechend einen geringen Wert (nahe dem Wert 0) annehmen. Je stärker allerdings die tatsächlich beobachtete Verteilung von der Verteilung einer Indifferenztabelle abweicht, desto weniger entspricht der tatsächlich
186
Bivariate Zusammenhangsanalyse
beobachtete Zusammenhang einem »Nicht-Zusammenhang«, das Zusammenhangsmaß sollte dann einen hohen Wert (nahe dem Wert 1) annehmen. Tabelle 6.4: Erwartete Erwerbstätigkeit von Müttern mit Vorschulkindern, Kontingenz- und Indifferenz tabelle (Quelle: ALLBUS 2002, eigene Berechnungen) Kontingenztabelle; vgl. Tab 6.1 beobachtete Verteilung
Indifferenztabelle Verteilung bei Unabhängigkeit
Alte BL
Neue BL
Gesamt
Alte BL
Neue BL
Gesamt
Ganztags arbeiten
27 3,2 %
69 17,3 %
96 7,8 %
? 7,8 %
? 7,8 %
96 7,8 %
Halbtags arbeiten
373 44,8 %
272 68,0 %
645 52,3 %
? 52,3 %
? 52,3 %
645 52,3 %
Gar nicht arbeiten
433 52,0 %
59 14,8 %
492 39,9 %
? 39,9 %
? 39,9 %
492 39,9 %
Gesamt
833 100 %
400 100 %
1233 100 %
833 100 %
400 100 %
1233 100 %
Die Kontingenztabelle hatten wir mit Tabelle 6.1 bereits bestimmt; sie ist in Tabelle 6.4 aus Gründen der Übersichtlichkeit nochmals in der linken Spalte abgebildet. Wie aber sieht die Indifferenztabelle – d. h. die Tabelle für statistische Unabhängigkeit – aus? Betrachten wir hierzu nochmals unsere in Abschnitt 6.1 vorgenommenen Tabellenanalysen: Hier waren wir davon ausgegangen, dass deutliche Unterschiede in den Erwerbserwartungen an junge Mütter zwischen alten und neuen Bundesländern auf einen starken Zusammenhang hindeuten: Die individuelle Einstellung hängt stark vom Wohnort der Befragten ab. Je geringer die Unterschiede, umso geringer sollte der Zusammenhang sein. Eine komplette statistische Unabhängigkeit sollte dieser Logik entsprechend dann vorliegen, wenn sich die Antworten der Befragten in alten und neuen Bundesländern überhaupt nicht mehr unterscheiden, also identisch sind. Es existieren dann keine Einstellungsunterschiede zwischen Ost- und Westdeutschland mehr, die individuelle Einstellung hängt dementsprechend nicht vom Wohnort der Befragten ab. Die Indifferenztabelle entspricht also einer in den alten und neuen Bundesländern identischen Verteilung, die der relativen Verteilung in Gesamtdeutschland entspricht (vgl. Spalte »Gesamt«). Wenn beispielsweise in Gesamtdeutschland 7,8 % aller Befragten der Ansicht sind, Frauen mit Vorschulkindern sollten während dieser Familienphase ganztags arbeiten, so müssten dies bei statistischer Unabhängigkeit Befragte in den alten bzw. neuen Bundesländern in gleicher Weise tun (vgl. Tabelle 6.4). Da die Gesamtzahlen der Befragten in alten und neuen Bundesländern mit 833 bzw. 400 bekannt sind, lassen sich auf Basis der Prozentzahlen nun auch die notwenigen Befragtenzahlen in der Indifferenztabelle errechnen (vgl. Tabelle 6.5). 7,8 % der insgesamt 833 befragten Personen in Westdeutschland
187
Zusammenhangsmaße für nominales Skalenniveau
entsprechen etwa einem Wert von 64,97; bei den 400 Befragten in Ostdeutschland liegt der Wert entsprechend bei 31,2. Die Nachkommastellen verdeutlichen, dass es sich hierbei um einen mathematisch berechneten theoretischen Wert der statistischen Unabhängigkeit und nicht etwa um reale Personen handelt. Tabelle 6.5: Erwartete Erwerbstätigkeit von Müttern mit Vorschulkindern, Indifferenztabelle ohne (linke Spalte) und mit errechneten Befragtenzahlen (rechte Spalte) (Quelle: ALLBUS 2002, eigene Berechnungen) Indifferenztabelle
Indifferenztabelle mit errechneten Befragtenzahlen
Alte BL
Neue BL
Gesamt
Alte BL
Neue BL
Gesamt
Ganztags arbeiten
? 7,8 %
? 7,8 %
96 7,8 %
64,97 7,8 %
31,20 7,8 %
96 7,8 %
Halbtags arbeiten
? 52,3 %
? 52,3 %
645 52,3 %
435,66 52,3 %
209,20 52,3 %
645 52,3 %
Gar nicht arbeiten
? 39,9 %
? 39,9 %
492 39,9 %
332,37 39,9 %
159,60 39,9 %
492 39,9 %
Gesamt
833 100 %
400 100 %
1233 100 %
833 100 %
400 100 %
1233 100 %
Tabelle 6.6: Abstand zwischen Kontingenz- und Indifferenztabelle, Berechnung des Wertes Χ2 (Quelle: ALLBUS 2002; Daten aus Tabelle 6.4/6.5) fb
fe
[1] fb−fe
[2] (fb−fe)2
[3] (fb−fe)2/fe
27
64,97
−37,97
1441,72
22,19
373
435,66
−62,66
3926,28
9,01
433
332,37
100,63
10126,40
30,47
69
31,20
37,80
1428,84
45,80
272
209,20
62,80
3943,84
18,85
59
159,60
−100,60
10120,36
63,41 [4] X2 =189,73
Anmerkung: fb = beobachtete Verteilung; fe= erwartete Verteilung bei statistischer Unabhängigkeit.
Da nun alle Werte von Kontingenz- und Indifferenztabelle vorliegen, kann auch die Abweichung zwischen beiden Tabellen berechnet werden. Tabelle 6.6 gibt die hierfür notwendigen Rechenschritte wieder. In Rechenschritt 1 wird dabei zunächst für jede einzelne Zelle der vorangegangenen Tabelle die einfache Differenz zwischen der beobachteten Häufigkeit (fb) und der bei statistischer Unabhängigkeit zu erwartenden Häufigkeit (fe) gebildet. Um zu vermeiden, dass sich die daraus ergebenden positiven und negativen Unterschiede ausgleichen (und damit das Ausmaß der Abweichung unterschätzt wird), werden die Werte in Rechenschritt 2 quadriert. In Rechenschritt 3 werden die ermittelten
188
Bivariate Zusammenhangsanalyse
quadrierten Abstände schließlich mittels der Division durch die erwartete Häufigkeit auf ein vergleichbares Maß »normiert«. Der durch das Aufaddieren der in Schritt 3 berechneten Werte entstehende Summenwert wird als Χ2 (gesprochen: Chi-Quadrat) bezeichnet und bildet die Grundlage für die Berechnung der nominalen Zusammenhangsmaße. Der Χ2-Wert selbst erfüllt jedoch erkennbar noch nicht die zuvor aufgestellten Kriterien für Zusammenhangsmaße. Zum einen liegt er nicht zwischen 0 und 1, zum anderen ist die Höhe des Χ2-Wertes abhängig von der Anzahl der untersuchten Fälle – sein Wert nimmt mit zunehmender Fallzahl kontinuierlich zu (Sie können dies leicht nachvollziehen, indem Sie in Tabelle 6.6 für fb bzw. fe jeweils die 10-fachen Werte einsetzen). Es sind somit noch weitere mathematische Transformationen nötig, um ein Zusammenhangsmaß zu erhalten, dass den zuvor genannten Kriterien entspricht. Ein erster naheliegender Schritt zur Berücksichtigung der Fallzahlabhängigkeit des Χ2-Wertes bestünde darin, ihn direkt durch die Fallzahl zu teilen. Dies entspricht dem sogenannten Φ-Koeffizienten (gesprochen: Phi): Gleichung 6.1:
In 2x2-Tabellen (d. h. Tabellen mit zwei Zeilen und zwei Spalten) liegt dieser Wert in der Tat zwischen einem Maximum von 0 und einem Minimum von 1. Für Tabellen, die mehr als zwei Zeilen oder Spalten aufweisen, kann der Wert jedoch Werte oberhalb 1 annehmen (vgl. Benninghaus 2007: 112). Es hat sich daher etabliert, zur Berechnung von Zusammenhangsmaßen noch weitere Transformationen vorzunehmen, die die Grundidee des Φ-Koeffizienten aufgreifen, jedoch explizit die Form der Tabelle berücksichtigen. Der von Cramer vorgeschlagene Koeffizient V nimmt dabei die Tabellenstruktur direkt in den Nenner des Bruchs auf, indem dort die Fallzahl unmittelbar mit dem Minimum der Zeilen bzw. Spalten der vorliegenden Tabelle multipliziert wird (Gleichung 6.2). Der von Karl Pearson eingeführte Kontingenzkoeffizient C verrechnet den Χ2-Wert im Nenner zunächst additiv mit der Fallzahl (Gleichung 6.3). Da der hieraus resultierende Wert eine Obergrenze unterhalb von 1 hat und somit den zuvor genannten Kriterien für Zusammenhangsmaße nicht komplett entspricht, wird auch hier eine Korrektur unter Berücksichtigung der Tabellenstruktur vorgenommen (Gleichung 6.3; vgl. ausführlich Benninghaus 2007: 116 ff.). Gleichung 6.2:
r = Anzahl der Zeilen; c = Anzahl der Spalten
Zusammenhangsmaße für nominales Skalenniveau
189
Gleichung 6.3:
Gleichung 6.3.1:
Gleichung 6.3.2:
Gleichung 6.3.3:
Alle drei Zusammenhangsmaße – Φ, C und V – nehmen ausschließlich positive Werte oder einen Wert von 0 an, da sowohl im Zähler (den aufaddierten quadrierten Abständen zwischen Kontingenz- und Indifferenztabelle) als auch im Nenner des Bruches (der Fallzahl; ggf. multipliziert mit der Fallzahl oder der Anzahl von Zeilen und Spalten in einer Tabelle) immer positive Werte stehen. Wir werden im Folgenden sehen, dass dies eine ausschließliche Eigenart von nominalen Zusammenhangsmaßen darstellt, Maßzahlen für ein höheres Skalenniveau können ebenso negative Werte annehmen. Durch Einsetzen der Werte aus dem betrachteten Bespiel ergeben sich für den Zusammenhang zwischen der Erwerbserwartung an Frauen mit Vorschulkindern und dem Wohnort des Befragten Werte von 0,39 (Cramer’s V) bzw. 0,52 (Pearson’s C). Was genau bedeuten diese Werte inhaltlich? Gemäß der vorangegangenen Bestimmung von Werten für Zusammenhangsmaße liegt der Zusammenhang zunächst einmal zwischen einem Nicht-Zusammenhang (Wert 0) und einem perfekten Zusammenhang (Wert 1), wobei sich der C-Wert eher »in der Mitte« zwischen beiden Polen und der V-Wert etwas näher in Richtung eines Nicht-Zusammenhangs befindet. Um klarere Richtlinien zur Interpretation vorliegen zu haben, haben sich in der sozialwissenschaftlichen Statistik typische Grenzwerte etabliert, mit denen sich die Werte von Zusammenhangsmaßen in unterschiedliche Stärkegrade unterscheiden lassen (vgl. Tabelle 6.7).
190
Bivariate Zusammenhangsanalyse
Tabelle 6.7: »Faustregel« zur Interpretation der Stärke von Zusammenhängen (eigene Darstellung gemäß Müller-Benedict 2007: 197 bzw. Häder 2015: 433) Wertebereich
Stärke
> 0,7 bis 0,5 bis 0,7
Stark
> 0,2 bis 0,5 (Häder) > 0,3 bis 0,5 (Müller-Benedict)
Mittel
> 0,005 bis 0,2 bzw. 3
Gering
0,7 als sehr starker Zusammenhang angesehen, ein Zusammenhang zwischen 0,7 und 0,5 als starker Zusammenhang. Hinsichtlich der Frage, was als mittlerer Zusammenhang angesehen werden kann, gibt es in der Sozialforschung keine einheitliche Meinung. Während einige (z. B. Häder 2015) bereits Werte ab 0,2 als Hinweis auf einen mittleren Zusammenhang ansehen, gehen andere von einem höheren Grenzwert von 0,3 aus (z. B. Müller-Benedict 2007). Ein Grund für diese Uneinigkeit zwischen Experten mag sein, dass die Grenzwerte aus Tabelle 6.7 sich nicht aus einer mathematischen Herleitung ergeben, sondern bewährte Erfahrungswerte aus früheren Forschungen darstellen. Unterschiedliche Grenzwerte mögen entsprechend aus unterschiedlichen Einschätzungen untersuchter Zusammenhänge resultieren. Beide Grenzwerte gelten indes in der Sozialforschungs-Praxis als vertretbar. Schwache Zusammenhänge liegen jeweils unterhalb des unteren Grenzwertes, während Zusammenhänge von 50). Wenn die Linearität erfüllt ist, aber die Homogenität als Voraussetzung nicht erfüllt werden kann, dann sind Schätzungen der Standardfehler nicht korrekt. Statistiksoftware wie SPSS und Stata bieten hier die Option, robuste Schätzungen vorzunehmen. Tabelle 8.1 zeigt die gängigsten Transformationen mit den Möglichkeiten der Verzerrungen, die in Datensätzen vorkommen, auf. In Rahmen multipler Regressionsmodelle sind auch Kombinationen der einzelnen Transformationen möglich und manchmal nötig. So müssen zum Beispiel negative Werte meist in den positiven Bereich verschoben werden (Addition einer Konstanten), um sie dann z. B. mit dem Logarithmus weiter transformieren zu können. Es ist wichtig, an dieser Stelle Folgendes festzuhalten: Nicht lineare Variablen sind in empirischen Untersuchungen omnipräsent. Davon zu unterscheiden ist die Voraussetzung der Linearität der Koeffizienten, die zwingend erfüllt sein muss. Tabelle 8.1: Transformationen Transformation
Funktion
Verwendung
Logtransformation
log (x)
Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität
Wurzelfunktion
√x
Positive Schiefe, positive Kurtosis, ungleiche Varianzen
Kehrwert
1/x
Positive Schiefe, positive Kurtosis, ungleiche Varianzen
Addieren einer Konstanten
x+a
Diese Transformation kann angewendet werden, wenn die Variable negative Werte oder Nuller enthält.
Anwendungsbeispiel einer multiplen Regressionsanalyse
255
8.3 Anwendungsbeispiel einer multiplen Regressionsanalyse Im vorangegangenen Kapitel 7 wurde die lineare Einfachregression betrachtet. Bei der Erweiterung der multiplen Regression werden wiederum mehrere unabhängige Varia blen verwendet. Dabei gibt es verschiedene Selektionsmethoden für die lineare Regressionsmodellierung, um anzugeben, welche unabhängigen Variablen in die Analyse aufgenommen werden sollen. Mithilfe verschiedener Methoden kann hier eine Vielzahl von Regressionsmodellen aus demselben Satz von Variablen erstellt werden. SPSS bietet in diesem Kontext verschiedene Methoden an, um die unabhängigen Variablen in das Modell einzupflegen. Ȥ Einschluss: Bei dieser Methode werden alle Variablen gleichzeitig in das Modell eingefügt. Diese Methode wird angewendet, wenn das Modell im Wesentlichen hypothesentestend verwendet wird. Das heißt, sie eignet sich vorrangig, um Theorien zu testen, während die übrigen Methoden eher im Rahmen explorativer Studien eingesetzt werden. Ȥ Vorwärts-Selektion: Die Variablen werden sequenziell in das Modell aufgenommen. Diejenige unabhängige Variable, welche am stärksten mit der abhängigen Variable korreliert, wird als erste zum Modell hinzugefügt. Anschließend wird jene der verbleibenden Variablen hinzugefügt, die die höchste partielle Korrelation mit der abhängigen Variablen aufweist. Dieser Schritt wird wiederholt, bis sich die Modellgüte (R-Quadrat) nicht weiter signifikant erhöht oder alle Variablen ins Modell aufgenommen worden sind. Ȥ Rückwärts-Elimination: Zunächst sind alle Variablen im Regressionsmodell enthalten und werden anschließend sequenziell entfernt. Schrittweise wird immer diejenige unabhängige Variable entfernt, welche die kleinste partielle Korrelation mit der abhängigen Variable aufweist, bis entweder keine Variablen mehr im Modell vorhanden sind oder keine die verwendeten Ausschlusskriterien erfüllen. Ȥ Schrittweise: Diese Methode ist ähnlich wie die »Vorwärts«-Selektion, wobei zusätzlich bei jedem Schritt getestet wird, ob die am wenigsten »nützliche« Variable entfernt werden soll. Wie genau die Merkmalsselektionsverfahren anzuwenden sind, werden wir nun anhand des Datensatzes für die Hassvorfälle mit SPSS genauer untersuchen. Im Ordner »Regression« im Downloadmaterial befindet sich die Datei »Hassvorfälle.sav«. Öffnen Sie die Datei. Sie enthält Daten, die wir bereits für die einfache lineare Regression verwendet haben. Falls die Datei die Variablennamen im Dialogfenster nicht aufzeigt, können Sie über die folgende Klicksequenz die Variablenbezeichnungsanzeige umändern:
256
Multivariate Datenauswertungen
Bearbeiten → Optionen → Allgemein Die Ausgangsgleichung (Gleichung 8.1) für die Überprüfung der Gültigkeit eines linearen Zusammenhangs wird in der folgenden Modellgleichung dargestellt: Gleichung 8.1:
yi = b0 + b1 ∙ xi + b2 ∙ xi + ∙∙∙ + bn ∙ xn + ei (i = 1, ∙∙∙, n)
yi = Schätzer der abhängigen Variable xi = unabhängige Variable i bi = Regressionskoeffizient der Variable xi ei = Fehlerterm Das Grundprinzip der multiplen Regressionsanalyse basiert wie die einfache Regressionsanalyse auf der Anwendung der Methode der kleinsten Quadrate (auch OLS-Methode, engl.: Ordinary Least Square Method, vgl. Kapitel 7.3.1). Die Interpretation der Regressionskoeffizienten folgt dabei ebenfalls dem gleichen Schema: Wenn die Prädiktoren-Werte xi um eine Einheit steigen, so verändert sich yi um bi Einheiten, wobei alle anderen gegebenen unabhängigen Variablen konstant gehalten werden. Damit ist gemeint, dass die Koeffizienten unter der Kontrolle der übrigen unabhängigen Variablen berechnet werden. Je nach Vorzeichen der Regressionskoeffizienten bi ist diese Veränderung eine Zunahme oder eine Abnahme. Suchen Sie im Hauptmenü das Dialogfenster für die lineare Regressionsanalyse: Analysieren → Regression → Linear Verschieben Sie nun, wie in Abbildung 8.1 dargestellt, sämtliche Prädiktorvariablen in das Feld für unabhängige Variablen. Die anderen Einstellungen können beibehalten werden, und die Analyse muss anschließend mit OK bestätigt werden. Die Tabellen und Kennwerte, die nun ausgegeben werden, haben Sie im Grunde bereits im Kapitel der linearen Einfachregression kennengelernt und entsprechend den Kenngrößen interpretiert. Aus diesem Grund wird im Folgenden nur noch auf die Kennwerte eingegangen, die für die multiple Regressionsanalyse relevant sind. Abbildung 8.2 zeigt in diesem Zusammenhang die Modellzusammenfassung der multiplen Regression.
257
Anwendungsbeispiel einer multiplen Regressionsanalyse
®
®
Abbildung 8.1: Dialogfenster »Koeffizienten der multiplen Regressionsgleichung« (IBM /SPSS )
Abbildung 8.2: Modellzusammenfassung: alle Prädiktoren (eigene Berechnungen)
Der Korrelationskoeffizient (R) beschreibt den Zusammenhang zwischen den neun Prädiktorvariablen und der abhängigen Variable in unserer Schätzung bei den durchschnittlichen Hassvorfällen pro hundert Einwohner in den US-amerikanischen Bundesstaaten. Die Korrelation zwischen den Prädiktoren und den beobachteten Werten der durchschnittlichen Hassvorfälle beträgt 0,484. Gemäß dem Bestimmtheitsmaß (R-Quadrat) werden insgesamt 23,5 % der Varianz der Variable bei Hassvorfällen durch die verschiedenen Prädiktoren erklärt. Das R-Quadrat ist der Anteil der Variation von y (der abhängigen Variable), der durch die Regressionsgerade an der Gesamtvariation erklärt wird. Der Wertebereich des R-Quadrats ist wie folgt:
258
Multivariate Datenauswertungen
Wiederum gilt, dass ein niedriges R-Quadrat darauf hindeuten kann, dass ein Großteil der Variation der zu erklärenden Variable durch das Modell nicht erklärt wird. Das bedeutet jedoch nicht, dass das spezifizierte Modell ungültig ist. Wenn sich jedoch die Anzahl der Prädiktoren im Modell der Anzahl der Beobachtungen annähert, so wird R-Quadrat gegen 1 tendieren. Anders formuliert: Nimmt die Anzahl der Freiheitsgrade ab, konvergiert der Wert von R-Quadrat gegen 1. Freiheitsgrade = Beobachtung − Koeffizienten Somit berücksichtigt R-Quadrat das Problem einer Modellüberspezifikation nicht und verliert damit an Aussagekraft. Deshalb wird bei multiplen Regressionsanalysen das sogenannte korrigierte R-Quadrat (Gleichung 8.2) berechnet. Dieser Kennwert korrigiert das Bestimmtheitsmaß um den Einfluss, der durch den Verlust von Freiheitsgraden entstehen kann. Gleichung 8.2:
N = Anzahl der Beobachtungen im Modell K = Koeffizienten = unabhängige Variablen + Konstante Nur wenn eine zusätzlich hinzugefügte erklärende Variable die Güte der Schätzung genügend verbessert, um den Verlust eines weiteren Freiheitsgrades auszugleichen, wird das korrigierte R-Quadrat steigen. In unserem Datensatz beträgt das korrigierte R-Quadrat nur 7,8 % der Varianzaufklärung. Ein weiteres Maß für die grundsätzliche Güte des multiplen Regressionsmodells ist der Standardfehler des Schätzers. Im Beispiel ergibt sich in Bezug auf den arithmetischen Mittelwert der Variable »durchschnittliche Hassvorfälle pro hundert Einwohner« ein Standardfehler der Schätzung von se = 1,1288 (vgl. Abb. 8.2). Dieser Kennwert gibt an, welcher mittlere Fehler bei der Verwendung der ermittelten Regressionsfunktion zur Schätzung der abhängigen Variablen gemacht wird. Tabelle 8.2 zeigt in diesem Zusammenhang die Koeffizienten der multiplen Regressionsgleichung an. Sie sagen uns, inwieweit sich jeder Prädiktor auf das Ergebnis auswirkt, wenn die Auswirkungen aller anderen Prädiktoren konstant gehalten werden. In unserem Beispiel haben fast alle Prädiktoren positive Regressionskoeffizienten, nur der Anteil der weißen Bevölkerung zeigt einen negativen Zusammenhang an:
259
Anwendungsbeispiel einer multiplen Regressionsanalyse
Tabelle 8.2: Koeffizienten der multiplen Regressionsgleichung Koeffizientena Nicht standardisierte Koeffizienten Modell 1
(Konstante)
Regressionskoeffizient B
Std.-Fehler
–29,89
16,30
Standardisierte Koeffizienten
T
Sig.
–1,83
,07
Beta
Median Haushaltseinkommen
,00
,00
,44
1,35
,18
Anteil der Arbeitslosigkeit
6,40
22,44
,06
,29
,78
Einwohner in den Metropolen
,61
1,49
,09
,41
,68
Anteil Bevölkerung mit High-School-Abschluss
15,64
11,79
,45
1,33
,19
Anteil von Ausländern
16,91
13,91
,35
1,22
,23
Gini-Index
27,69
15,14
,41
1,83
,07
Anteil weißer Bevölkerung
–1,28
2,11
–,16
–,61
,55
Anteil Trump Wähler
1,81
2,80
,15
,65
,52
a. Abhängige Variable: Durchschnittliche Hassvorfälle pro hundert Einwohner (eigene Berechnungen)
Tabelle 8.2 verdeutlicht die Effekte der unterschiedlichen Prädiktoren, die wir nun einzeln beschreiben: Ȥ Median Haushaltseinkommen (b = 0,00): Dieser Wert gibt an, dass sich die durchschnittlichen Hassvorfälle pro hundert Einwohner um 0,00 Einheiten verändern, wenn die mittleren Haushaltseinkommen um eine Einheit, also 1 $, erhöht werden. Der Regressionskoeffizient beträgt exakt 0,0000057, was hier aufgrund von nur zwei Komma stellen nicht sichtbar ist. Der unstandardisierte Regressionskoeffizient zeigt dementsprechend keinen Effekt auf Hassverbrechen. Diese Auslegung trifft hier – ebenso wie in den folgenden Fällen – nur zu, wenn die Auswirkungen der anderen Prädiktoren konstant gehalten werden. Ȥ Anteil der saisonalen Arbeitslosigkeit (b = 6,40): Dieser Wert gibt an, dass die durchschnittlichen Hassvorfälle um 6,4 pro hundert Einwohner steigen, wenn die saisonale Arbeitslosenquote um 1 % steigt. Ȥ Anteil der Einwohner in den Metropolen – Urbanisierungsgrad (b = 0,61): Wenn sich in den jeweiligen Bundesstaaten der Anteil der Einwohner in den Städten um 1 % erhöht, erhöhen sich die Hassvorfälle jeweils um 0,61 pro hundert Einwohner. Ȥ Anteil der Bevölkerung mit High-School-Abschluss (b = 15,64): Wenn sich in den jeweiligen Bundesstaaten der Anteil der High-School-Abschlüsse um 1 % erhöht, erhöhen sich die Hassvorfälle pro hundert Einwohner um 15,64. Ȥ Anteil von Ausländern – Diversität (b = 16,91): Bei einer Erhöhung des Anteils der aus-
260
Multivariate Datenauswertungen
ländischen Bevölkerung um 1 % erhöhen sich die durchschnittlichen Hassvorfälle um 16,91 pro hundert Einwohner. Ȥ Gini-Index – Grad der Einkommensungleichheit (b = 27,69): Wenn der Grad der Einkommensungleichheit um eine Einheit erhöht wird, erhöhen sich die durchschnittlichen Hassvorfälle um 27,69 pro hundert Einwohner. Ȥ Anteil weißer Bevölkerung (b= –1,28): Wenn der Anteil der weißen Bevölkerung sich um 1 % erhöht, sinken die durchschnittlichen Hassvorfälle um 1,28 pro hundert Einwohner. Ȥ Anteil Trump-Wähler (b = 1,81): Wenn der Anteil der Trump-Wähler sich um 1 % erhöht, erhöhen sich die durchschnittlichen Hassvorfälle um 1,81 pro hundert Einwohner. Anhand dieser Werte kann eine erste Einschätzung der Bedeutung der einzelnen Prädiktoren vorgenommen werden. Der Regressionskoeffizient des Prädiktors Einkommensungleichheit ist im Vergleich zu dem Koeffizienten aus dem einfachen linearen Regressionsmodell kleiner (vgl. Abbildung 7.17). Alle anderen Prädiktoren haben noch geringere Regressionskoeffizienten. Beim Signifikanztest der Regressionskoeffizienten ergibt sich nur für die Variable der Einkommensungleichheit ein signifikant (p < 0.05) von Null verschiedener Regressionskoeffizient. Neben dem Regressionskoeffizienten werden die standardisierten Koeffizienten (Beta) durch das Softwarepaket SPSS automatisch ausgegeben. Zusätzlich kann mit den standardisierten Koeffizienten aus der multiplen Regressionsanalyse der Einfluss der einzelnen Prädiktorvariablen untereinander vergleichbar gemacht werden. Der Vorteil standardisierter Koeffizienten liegt darin, dass sie dimensionslos sind, d. h. nicht von der gewählten Maßeinheit, in der sie gemessen werden, abhängen. Ein standardisierter Beta-Koeffizient von 0,41 (Gini-Index) bedeutet, dass eine Veränderung in Höhe von einer Standardabweichung σx der unabhängigen Variable zu einer Veränderung der abhängigen Variablen in Höhe von 0,41 σy Standardabweichungen führt. Diese Vergleichbarkeit aufgrund der Normalisierung (also, wenn Koeffizienten in Standardabweichungseinheiten miteinander vergleichbar gemacht werden), ist für die Interpretation ungemein wichtig. Jeder dieser Beta-Werte weist einen Standardfehler auf, der angibt, inwieweit sich diese signifikant von Null unterscheiden. In der einfachen Regressionsanalyse zeigt ein signifikanter Wert, dass die Steigung der Regressionslinie statistisch bedeutend ist. Verglichen mit der einfachen linearen Regression ist es bei der multiplen Regressionsanalyse nicht so leicht, die jeweiligen Steigungen zu visualisieren. Anhand der t-Tests können wir jedoch erkennen, welcher der Prädiktoren einen wesentlichen Beitrag zum Modell leistet. Je kleiner sich der Wert der Signifikanzniveaus darstellt (und je größer der Wert von t), desto statistisch belastbarer ist der Beitrag dieses Prädiktors. Der Vergleich der Beta-Koeffizienten zeigt, dass die Bildungsvariable (High-School-Abschlüsse), der Median Haushaltseinkommen und die Variable der Einkommensungleichheit, operationalisiert durch den Gini-Index, die größten Einflüsse bei der Vorhersage der Hass-
261
Anwendungsbeispiel einer multiplen Regressionsanalyse
vorfälle aufweisen. Nur der Regressionskoeffizient für die Einkommensungleichheit ist auf dem 0,1-Niveau signifikant. 8.3.1 Multikollinearität Eine Interpretation nur anhand der Beta-Koeffizienten lässt mögliche Auswirkungen und Probleme, die mit einer sogenannten Multikollinearität einhergehen, jedoch unberücksichtigt. Multikollinearität liegt dann vor, wenn die Prädiktoren in einem multiplen Regressionsmodell untereinander stark korreliert sind. Zunächst die schlechte Nachricht: Multikollinearitäten in multiplen Regressionsmodellen führen tendenziell zu insignifikanten Koeffizienten. Bei Vorhandensein perfekter Multikollinearität werden keine Koeffizienten mehr ermittelt. Nun die gute Nachricht: Im Falle einer Multikollinearität bleiben die OLSSchätzer unverzerrt. Anders gesprochen, die Koeffizienten sind zwar richtig berechnet, allerdings können keine inferenzstatistischen Aussagen getroffen werden. Zusammenfassend lässt sich sagen, dass bei Vorhandensein von Multikollinearität eine Überspezifizierung des Modells vorliegt. Um mögliche Multikollinearität aufzudecken, betrachten wir im Folgenden die Korrelationsmatrix zwischen den Prädiktoren. Ein möglicher Ausweg bei Vorliegen eines Multikollinearitätsproblems ist es, auf einen oder gar mehrere Prädiktoren zu verzichten. Ist bei der Untersuchung der paarweisen Korrelationskoeffizienten der Wert größer als 0,7, dann liegt möglicherweise ein Multikollinearitätsproblem vor. Suchen Sie im Hauptmenü des Dialogfensters die lineare Regressionsanalyse und aktivieren Sie hier zusätzlich die Voreinstellungen der Optionen der deskriptiven Statistik und der Kollinearitätsdiagnose, wie in Abbildung 8.3 dargestellt.
®
®
Abbildung 8.3: Dialogfenster »Kollinearitätsdiagnose« (IBM /SPSS )
Sig. (1–seitig)
Korrelation nach Pearson
,11 ,45 ,02 ,32 ,50
Anteil der Arbeitslosigkeit
Einwohner in den Metropolen
Anteil Bevölkerung mit High-School-Abschluss
Anteil von Ausländern
Gini-Index
,04
.
Median Haushaltseinkommen
Durchschnittliche Hassvorfälle pro hundert Einwohner
–,11
–,07
Anteil von Ausländern
Anteil Trump-Wähler
,29
Anteil Bevölkerung mit High-School-Abschluss
,00
,02
Einwohner in den Metropolen
–,26
–,18
Anteil der Arbeitslosigkeit
Anteil weißer Bevölkerung
,25
Median Haushaltseinkommen
Gini-Index
1,00
Durchschnittliche Hassvorfälle pro hundert Einwohner
Durchschnittliche Hassvorfälle pro hundert Einwohner
,01
,00
,00
,02
,00
.
,04
–,59
–,07
–,33
–,81
,67
,29
–,42
1,00
,25
Median Haushaltseinkommen
Tabelle 8.3: Korrelationsmatrix (eigene Berechnungen)
,00
,03
,00
,02
.
,00
,11
–,06
,55
,48
,28
–,62
,31
1,00
–,42
–,18
,00
,00
,06
.
,02
,02
,45
–,54
,57
,46
–,38
–,23
1,00
,31
,29
,02
Einwohner in den Metropolen
Korrelationen Anteil der Arbeitslosigkeit
,00
,00
.
,06
,00
,00
,02
–,22
–,58
–,68
–,51
1,00
–,23
–,62
,67
,29
Anteil Bevölkerung mit HighSchool- Abschluss
,06
.
,00
,00
,03
,00
,32
,50
–,17
,22
1,00
–,51
–,38
,28
–,81
–,07
Anteil von Ausländern
.
,06
,00
,00
,00
,01
,50
–,17
,51
1,00
,22
–,68
,46
,48
–,33
,00
Gini-Index
,00
,13
,00
,00
,00
,31
,04
–,32
1,00
,51
–,17
–,58
,57
,55
–,07
–,26
Anteil weißer Bevölkerung
,13
,00
,06
,00
,35
,00
,22
1,00
–,32
–,17
,50
–,22
–,54
–,06
–,59
–,11
Anteil Trump- Wähler
262 Multivariate Datenauswertungen
N
48 48 48 48 48 48 48 48 48
Median Haushaltseinkommen
Anteil der Arbeitslosigkeit
Einwohner in den Metropolen
Anteil Bevölkerung mit High-School-Abschluss
Anteil von Ausländern
Gini-Index
Anteil weißer Bevölkerung
Anteil Trump-Wähler
,22
Anteil Trump-Wähler
Durchschnittliche Hassvorfälle pro hundert Einwohner
,04
Anteil weißer Bevölkerung
Durchschnittliche Hassvorfälle pro hundert Einwohner
48
48
48
48
48
48
48
48
48
,00
,31
Median Haushaltseinkommen
48
48
48
48
48
48
48
48
48
,35
,00
48
48
48
48
48
48
48
48
48
,00
,00
Einwohner in den Metropolen
Korrelationen Anteil der Arbeitslosigkeit
48
48
48
48
48
48
48
48
48
,06
,00
Anteil Bevölkerung mit HighSchool- Abschluss
48
48
48
48
48
48
48
48
48
,00
,13
Anteil von Ausländern
48
48
48
48
48
48
48
48
48
,13
,00
Gini-Index
48
48
48
48
48
48
48
48
48
,01
.
Anteil weißer Bevölkerung
48
48
48
48
48
48
48
48
48
.
,01
Anteil Trump- Wähler
Anwendungsbeispiel einer multiplen Regressionsanalyse
263
264
Multivariate Datenauswertungen
Analysieren → Regression → Linear → Statistiken Die Ergebnisausgabe aus diesen Befehlen enthält zunächst eine Tabelle, in der für alle Prädiktoren Mittelwerte, Standardabweichungen und Stichprobengrößen definiert werden. Aus Platzgründen werden nicht alle Tabellen hier dargestellt, sondern in der Korrelationsmatrix von Tabelle 8.3 nur die bivariaten Korrelations-Koeffizienten. Die relativ niedrigen Korrelationen zwischen abhängigen und unabhängigen Variablen zeigen in diesem Fall schwache bis mittlere Beziehungen und sind somit zur Vorhersage der Hassvorfälle nur bedingt geeignet. Die Signifikanzwerte aus dem mittleren Teil der Tabelle zeigen, dass drei Prädiktoren untereinander korrelieren, und zwar jeweils auf dem 5 %-Niveau. Weiterhin zeigt sich, dass die signifikante Korrelation zwischen den Variablen »Median Haushaltseinkommen« und »Anteil Ausländer« aufgrund der hohen Korrelation zu Verzerrungen bezüglich der Multikollinearität führen kann. Die Korrelationsmatrix weist somit wichtige Informationen zur Spezifizierung des Modells auf. Steigt die Anzahl der Prädiktoren im Modell, ist eine solche Analyse allerdings recht unübersichtlich. Tabelle 8.4 zeigt anschließend die Regressionskoeffizienten inklusive der Kollinearitätsstatistik, wobei die Tabelle um zwei weitere Spalten erweitert wurde. Diese Tabelle liefert einige Messgrößen, die es ermöglichen zu prüfen, ob die jeweiligen Prädiktoren multikollinear sind. SPSS bietet zur Aufdeckung von Multikollinearitäten im Modell den Varianzinflationsfaktor VIF gemäß Gleichung 8.3 sowie die Toleranz-Kennwerte gemäß Gleichung 8.4 an. Diese Kennwerte werden für jeden Prädiktor im multiplen Regressionsmodell berechnet. Hierfür werden Prädiktoren zu abhängigen Variablen umgemünzt und entsprechend durch die übrigen Prädiktoren vorhergesagt. Die Toleranz wird berechnet, indem das Bestimmtheitsmaß dieser Regression von 1 abgezogen wird: Gleichung 8.3:
Gleichung 8.4:
Somit entspricht der VIF-Wert dem Kehrwert der Toleranz-Werte. Bei Toleranzwerten unter 0,1 bzw. VIF-Werten > 10, sollten die Auswirkungen und Probleme einer Multikollinearität im Kontext des Modells berücksichtigt werden (vgl. Bowerman und O’Connell, 1990) für eine ausführliche Interpretation und Erklärung der VIF-Werte).
265
Anwendungsbeispiel einer multiplen Regressionsanalyse
Tabelle 8.4: Regressionskoeffizienten inklusive Kollinearitätsstatistik (eigene Berechnungen) Koeffizientena Nicht standardisierte Koeffizienten
Modell 1
(Konstante)
Regressionskoeffizient B
Std.Fehler
Standardisierte Koeffizienten
T
Sig.
Beta
Kollinearitäts statistik
Toleranz
VIF
–29,89
16,30
–1,83
,07
Median Haushaltseinkommen
,00
,00
,44
1,35
,18
,19
5,34
Anteil der Arbeitslosigkeit
6,40
22,44
,06
,29
,78
,50
2,01
,61
1,49
,09
,41
,68
,41
2,41
Anteil Bevölkerung mit High-SchoolAbschluss
15,64
11,79
,45
1,33
,19
,17
5,92
Anteil von Ausländern
16,91
13,91
,35
1,22
,23
,24
4,14
Gini-Index
27,69
15,14
,41
1,83
,07
,39
2,57
Anteil weißer Bevölkerung
–,28
2,11
–,16
–,61
,55
,29
3,43
Anteil Trump-Wähler
1,81
2,80
,15
,65
,52
,39
2,56
Einwohner in den Metropolen
a. Abhängige Variable: Durchschnittliche Hassvorfälle pro hundert Einwohner
In Rahmen der Kollinearitätsdiagnose wird als weitere Tabelle 8.5 ausgegeben, bei der die Eigenwerte der Kreuzproduktmatrix in die jeweiligen Varianzkomponenten zerlegt werden. Ein niedriger Eigenwert und ein hoher Konditionsindex in der Spalte 3 und 4 deuten auf hohe Korrelationen zwischen den Prädiktoren hin. So werden 2 % der Varianz des Regressionskoeffizienten vom Median des Haushaltseinkommens der Komponente 3, 1 % der Komponente 5, 3 % der Komponente 6, 74 % der Komponente 7 und 19 % der Komponente 8 zugeordnet. Sind nun einer Komponente (Gini-Index) mehrere beträchtliche Varianzanteile zugeordnet, sind diese Prädiktoren gemeinsam an einem Multikollinearitätseffekt beteiligt. In diesem Beispiel ist dies für die Komponente 9 der Fall, deren hohe Varianzanteile auf Kollinearitätseffekte beim Anteil der Bevölkerung mit High-SchoolAbschluss, Gini-Index, Anteil weißer Bevölkerung und Anteil Trump-Wähler hindeuten. Wenn nun diese Vielzahl an Variablen multikollinear sind und anhand bestehender Theorien nicht hypothesengeleitet geschätzt werden kann, ist es ratsam, auf einige dieser
266
Multivariate Datenauswertungen
Prädiktoren zu verzichten. Aus diesem Grund kommt es in der Praxis sehr oft vor, dass irrelevante Prädiktoren in die Modellspezifikation einbezogen werden, wodurch jedoch Freiheitsgrade verloren gehen. Dabei kommt es manchmal unter Statistik-Fans zu der Phrase, ihre Schätzstrategie entspreche einem kitchen sink approach, was einer alles umfassenden Lösung gleichkommt. Damit will man andeuten, dass die Schätzfunktion vielleicht zu ausführlich und überspezifiziert ist. Tabelle 8.5: Kollinearitätsdiagnose (eigene Berechnungen) Kollinearitätsdiagnosea
2
,20
6,63
,00
,00
3
,10
9,52
,00
,02
4
,03
17,49
,00
,00
5
,02
22,95
,00
,01
,00
,00
,00
,01
,00
,05
,19
,00
,04
,00
,25
,14
,32
,00
,11
,00
,03
,00
,00
,00
,00
,01
,02
,02
,13 ,71
Anteil Trump-Wähler
,00
Anteil weißer Bevölkerung
Median Haushaltseinkommen
,00
Gini-Index
(Konstante)
1,00
Anteil von Ausländern
Konditionsindex
8,65
Anteil Bevölkerung mit HighSchool-Abschluss
Eigenwert
1
Einwohner in den Metropolen
Dimension
1
Anteil der Arbeitslosigkeit
Modell
Varianzanteile
,00
,00
,00
,00
,18
,01
,00
,04
,01
6
,01
24,07
,00
,03
,07
,27
,00
,19
,00
,10
,33
7
,00
60,62
,00
,74
,05
,03
,01
,44
,06
,04
,24
8
,00
109,31
,00
,19
,00
,16
,14
,03
,41
,11
,02
9
,00
350,47
,99
,00
,03
,00
,84
,14
,52
,25
,24
a. Abhängige Variable: Durchschnittliche Hassvorfälle pro hundert Einwohner
Auf der anderen Seite werden Spezifikationsfehler aufgrund von Nichtberücksichtigung von Prädiktoren als omitted variable bias – also eine Verzerrung durch das Auslassen von Variablen – bezeichnet. Diese Art der Fehlspezifikation hat durchaus weitreichende Folgen. Punkt- und Intervallschätzung der Koeffizienten bi und der Konstanten b0 sowie Hypothesentests für die Regressionsparameter führen in Modellen mit ausgelassenen Variablen zu verzerrten Punktschätzern und verzerrten Konfidenzintervallen sowie wertlosen Hypothesentests. Das ist implizit auch der Grund, warum Statistiker im Zweifelsfall lieber mehr Prädiktoren einbeziehen als sich den Vorwurf eines omitted variable bias aussetzen.
267
Anwendungsbeispiel einer multiplen Regressionsanalyse
8.3.2 Merkmalselektionsverfahren In diesem Abschnitt geht es um Methoden, wie eine optimale Prädiktorenmenge ausfindig gemacht werden könnte, um für die abhängige Variable bestmögliche Vorhersagen zu treffen. Es werden also diejenigen Prädiktoren gesucht, die statistisch abgesichert zur Vorhersage signifikant beitragen, d. h. redundante Prädiktoren sollen aus den Spezifikationen entfernt werden. Geben Sie in SPSS hierfür die bekannte Klick-Sequenz für die lineare Regression ein. Unter Methode können Sie ein Merkmalselektionsverfahren auswählen. Die voreingestellte Methode ist die sogenannte Einschluss-Methode. Wählen Sie nun, wie in Abbildung 8.4 dargestellt, im Auswahlfenster die Option Rückwärts aus. Im Dialogfenster »Statistiken« aktivieren Sie anschließend die Option »Änderung in R-Quadrat anzeigen« und starten danach die Analyse.
®
®
Abbildung 8.4: Dialogfenster zur Auswahl der Methode (IBM /SPSS )
Bei der Rückwärtseliminations-Methode werden zunächst im ersten Modell alle Prädiktoren aufgenommen, um anschließend schrittweise diejenigen auszuschließen, die zu keiner signifikanten Verringerung im Bestimmtheitsmaß führen. Tabelle 8.6 zeigt in diesem Zusammenhang zunächst die Modellzusammenfassung des Rückwärtsverfahrens an. Dabei zeigt sich, dass bis zu Modell 5 das korrigierte Bestimmtheitsmaß auf 14 % der Varianzaufklärung leicht ansteigt. Die Vorhersage mit wenigen Prädiktoren wird bis zu diesem Modell also besser bewertet. In der fünften Spalte werden jeweils die Differenzen
268
Multivariate Datenauswertungen
von R-Quadrat zum jeweils vorhergehenden Modell ausgegeben. Diese Änderungen werden mittels eines F-Tests statistisch überprüft. Bitte prüfen Sie dies anhand Ihres Outputs; aus Platzgründen wurde auf die Darstellung der Modelle 1 bis 4 sowie 6 und 7 verzichtet. Hinsichtlich der Rückwärtsmethode besteht der optimale Merkmalssatz aus den Prädiktoren »Median Haushaltseinkommen«, »Anteil Bevölkerung mit High-School-Abschluss«, »Anteil von ausländischer Bevölkerung« und dem Gini-Index (vgl. Tabelle 8.6 und 8.7). Tabelle 8.6: Modellzusammenfassung: Methode Rückwärtsverfahren (eigene Berechnungen) Modellzusammenfassung h
Modell
R
R-Quadrat
Korrigiertes R-Quadrat
Standardfehler des Schätzers
Statistikwerte ändern ÄndeÄnderung in rung in F R-Quadrat
df1
df2
Sig. Änderung in F
1
,48a
,23
,08
1,13
,23
1,50
8
39
,19
2
,48
,23
,10
1,12
,00
,08
1
39
,78
b
3
,48
c
,23
,12
1,11
,00
,22
1
40
,64
4
,47d
,22
,13
1,10
,00
,26
1
41
,62
5
,46
e
,21
,14
1,09
–,01
,64
1
42
,43
6
,42f
,18
,12
1,10
–,03
1,76
1
43
,19
7
,40
,16
,12
1,10
–,02
1,23
1
44
,27
g
a. Einflussvariablen: (Konstante), Anteil Trump-Wähler, Anteil der Arbeitslosigkeit, Gini-Index, Anteil von Ausländern, Anteil weißer Bevölkerung, Einwohner in den Metropolen, Median Haushaltseinkommen, Anteil Bevölkerung mit High-School-Abschluss b. Einflussvariablen: (Konstante), Anteil Trump-Wähler, Gini-Index, Anteil von Ausländern, Anteil weißer Bevölkerung, Einwohner in den Metropolen, Median Haushaltseinkommen, Anteil Bevölkerung mit HighSchool-Abschluss c. Einflussvariablen: (Konstante), Anteil Trump-Wähler, Gini-Index, Anteil von Ausländern, Anteil weißer Bevölkerung, Median Haushaltseinkommen, Anteil Bevölkerung mit High-School-Abschluss d. Einflussvariablen: (Konstante), Anteil Trump-Wähler, Gini-Index, Anteil von Ausländern, Median Haushaltseinkommen, Anteil Bevölkerung mit High-School-Abschluss e. Einflussvariablen: (Konstante), Gini-Index, Anteil von Ausländern, Median Haushaltseinkommen, Anteil Bevölkerung mit High-School-Abschluss f. Einflussvariablen: (Konstante), Gini-Index, Anteil von Ausländern, Anteil Bevölkerung mit High-SchoolAbschluss g. Einflussvariablen: (Konstante), Gini-Index, Anteil Bevölkerung mit High-School-Abschluss h. Abhängige Variable: Durchschnittliche Hassvorfälle pro hundert Einwohner
Die Rückwärtsmethode führt dazu, dass die Prädiktoren mit den kleinsten partiellen Korrelationen (also dem kleinsten Ausmaß einer zusätzlichen Varianzaufklärung) aus dem Modell entfernt werden, was zur geringsten Verminderung des Bestimmtheitsmaßes führt. Mit dieser Methode kann jeweils für die im Modell verbleibenden Prädiktoren die statis-
269
Anwendungsbeispiel einer multiplen Regressionsanalyse
tische Bedeutsamkeit der Vorhersagekraft im Kontext der jeweiligen Modelle betrachtet werden. Die bereits angesprochenen Varianzinflationsfaktoren (VIF) stellen ein formales Kriterium zum Auffinden von Multikollinearität dar. Dabei weisen als »Daumenregel« VIFWerte, die größer als 10 sind, auf eine Multikollinearität hin. Im dargestellten Modell 5 liegen alle VIF-Werte unterhalb dieses kritischen Wertes, so dass bei diesem Modell keine Multikollinearität vorliegen sollte (vgl. Tabelle 8.7). Tabelle 8.7: Modellzusammenfassung: Methode Rückwärtsverfahren, Koeffizienten-Modell 5 (eigene Berechnungen) Koeffizientena Nicht standardisierte Koeffizienten
T
Sig.
Regressionskoeffizient B
Std.- Fehler
(Konstante)
–29,12
11,60
–2,51
,02
Median Haushaltseinkommen
,00
,00
,36
1,33
Anteil Bevölkerung mit High-SchoolAbschluss
17,79
8,39
,51
Anteil von Ausländern
19,58
11,29
Gini-Index
25,44
12,87
Modell 5
Standardisierte Koeffizienten Beta
Kollinearitätsstatistik
Toleranz
VIF
,19
,25
3,96
2,12
,04
,31
3,21
,40
1,73
,09
,34
2,92
,38
1,98
,05
,50
1,99
a. Abhängige Variable: Durchschnittliche Hassvorfälle pro 100 Einwohner
SPSS bietet neben der Funktion »Einschluss« auch die Optionen »Schrittweise«, »Entfernen«, »Rückwärts-« und »Vorwärtselimination« zur Variablenauswahl an. Während bei der Rückwärtselimination zunächst alle Variablen in die Gleichung aufgenommen und anschließend sequenziell die Variablen, die zum geringsten Rückgang des Bestimmtheitsmaßes führen, aus dem Modell ausgeschlossen werden, werden bei der Vorwärtsauswahl die Variablen nacheinander in das Modell aufgenommen. Begonnen wird mit der Prädiktorvariablen mit dem höchsten Korrelationskoeffizienten. Wenn sich durch das Hinzufügen weiterer Prädiktoren eine signifikante Zunahme des Bestimmtheitsmaßes einstellt, werden weitere Variablen im Modell aufgenommen. Zusammenfassend kann festgestellt werden, dass mit Hilfe der verschiedenen Auswahlmethoden jeweils die optimale Prädiktoren-Menge gesucht wird, um die Vorhersagekraft eines Modells zu verbessern. Merk-
270
Multivariate Datenauswertungen
malsselektionsverfahren eignen sich dabei vor allem bei explorativen Studien, um neue Hypothesen zu entwickeln. Wenn bereits fundierte theoretische Überlegungen vorliegen, kann die »Einschluss«-Methode gewählt werden. Für unseren zugrunde liegenden Datensatz ergeben sich bei der Anwendung der dargestellten Verfahren die in Tabelle 8.8 erfassten optimalen Merkmalsmengen. Tabelle 8.8: Prädiktorenselektion bei unterschiedlichen Methoden (eigene Darstellung) Methode
Einschluss
Rückwärts
Vorwärts
Median Haushaltseinkommen
Median Haushaltseinkommen
Anteil der Arbeitslosigkeit Einwohner in den Metropolen Anteil Bevölkerung mit High-School-Abschluss
Anteil Bevölkerung mit High-School-Abschluss
Anteil von Ausländern
Anteil von Ausländern
Gini-Index
Gini-Index
Anteil Bevölkerung mit High-School-Abschluss
Anteil weißer Bevölkerung Anteil Trump-Wähler korr. R-Quadrat
0,08
0,14
0,06
Die jeweiligen Methoden liefern in diesem Zusammenhang unterschiedliche Prädiktorenauswahlergebnisse, was unter anderem daran liegen kann, dass hier ein Querschnittsdatensatz vorliegt. Es wird vermutet, dass viele Hassverbrechen Vergeltungsmaßnahmen sind und nach einem vorangegangenen Ereignis stattfinden. Solche Ereignisse sind beispielsweise umstrittene Strafverfahren wegen Verbrechen zwischen verschiedenen Rassen, tödliche Terroranschläge und Berufungsgerichtsentscheidungen in Bezug auf gleichgeschlechtliche Ehen. Die Ergebnisse von Zeitreihenanalysen zeigen, dass umstrittene Gerichtsurteile und tödliche Terroranschläge die Häufigkeit von rassistisch oder religiös motivierten Hassverbrechen erhöhen, während nach Berufungsurteilen, die gleich geschlechtlichen Partnern Rechte gewähren, weniger Beweise für Hassverbrechen gegen Homosexuelle gefunden werden (vgl. King und Sutton 2013). Das in diesem Kapitel vorgestellte Querschnitts-Modell kann solche zeitlichen Effekte nicht abbilden. Die Interpretation der Ergebnisse der Merkmalselektionsverfahren ist somit sehr schwer zu analysieren. Nur inhaltliche Überlegungen können Entscheidungshilfen bei der Gestaltung von möglichen Schätzungen bieten. Vieles deutet darauf hin, dass Hassaktivitäten nur »gedeihen«
Anwendungsbeispiel einer multiplen Regressionsanalyse
271
können, wenn Vorurteile und Hass gegen bestimmte Gruppen zumindest in Teilen der Gesellschaft salonfähig werden. Offensichtlich fühlten sich Hunderte durch die Veränderung des gesellschaftlichen Klimas nach der Wahl Donald Trumps ermutigt, ihren Vorurteilen und ihrem Hass freien Lauf zu lassen. Doch um diesen Effekt einzufangen, sind Zeitreihenanalysen notwendig. Vor jedem Testen oder Schätzen ist eine sorgfältige Datenbearbeitung unerlässlich, um Fehler zu überprüfen, gefolgt von der Datenzusammenfassung. Eine der wichtigsten und häufigsten Fragen ist, ob es eine statistische Beziehung zwischen einer Kriteriums variable (Y) und erklärenden Variablen-Prädiktoren (Xi) gibt. Eine Möglichkeit, um diese Frage zu beantworten, besteht darin, Regressionsanalysen durchzuführen. Wenn wir an einer effektiven Vorhersage für durchschnittliche Hassvorfälle interessiert sind, dürften uns die 14 % der Varianzaufklärung kaum zufriedenstellen. Die multiple Regressionsanalyse in Tabelle 8.7 zeigt, dass der Median des Haushaltseinkommens, der Anteil der Bevölkerung mit High-School-Abschluss, die Diversität und der Gini-Index einen positiven Einfluss auf die durchschnittliche Anzahl der Hassvorfälle aufweist (F = 2,898, p = ,033, n = 48). Steigt der Gini-Index um eine Einheit, so steigt auch die durchschnittliche Anzahl der Hassvorfälle um ca. 25 Vorfälle pro hundert Einwohner. Zusammenfassend halten wir fest, dass nur 14 % der Streuung der durchschnittlichen Zahl der Hassvorfälle durch die vier Prädiktoren erklärt werden, was insgesamt eine schwache Varianzaufklärung darstellt. In diesem Modell sind jedoch drei der vier Prädiktoren statistisch signifikant auf dem 5 %-Niveau, was in unserer Kitchen-sink-approach-Tabelle 8.2 nicht der Fall war. Es ist eine Sache, Zusammenhänge theoretisch herzuleiten, eine ganz andere ist es, dies empirisch nachzuweisen. Im Folgenden sollen Erweiterungen der Regressionsanalyse mit kategorial unabhängigen Variablen erarbeitet werden. Die Durchführung und Analyse von multivariaten Regressionsanalysen ist eine geeignete Methode, um Zusammenhänge in Querschnittsdaten abzubilden. Die Entstehung von Hassverbrechen ist jedoch ein dynamischer Prozess. Normen, Einstellungen und Interessen sind nicht variabel, sondern haben feste Grenzen. Auf diese Einstellungen wirken soziale Netzwerke und Medien. Diese Medien sind mittlerweile zu Gefühlskatalysatoren mutiert, die gezielt dafür optimiert werden, den Anwender wieder und wieder zu erreichen. Auch die klassischen Medien sind in diese Spirale der Sensationalisierung involviert. All diese Überlegungen werden jedoch in den multiplen linearen Regressionsmodellen nur fragmentiert abgebildet.
272
Multivariate Datenauswertungen
8.4 Die multiple lineare Regression mit kategorialen Variablen 8.4.1 Jugenddelinquenz und Herkunftsfamilien Gewalthandlungen und abweichendes Verhalten von Jugendlichen sind regelmäßig Gegenstand öffentlicher, wissenschaftlicher und sozialpolitischer Diskussionen. Von besonderem Interesse ist hier die Frage nach den Ursachen und den jeweiligen Bedingungen, die für die Entwicklung dieses abweichenden Verhaltens verantwortlich sind. Erörtert wird dabei eine ganze Reihe von Erklärungsansätzen. Prozessorientierte Erklärungsansätze versuchen, abweichendes und kriminelles Verhalten durch Einbettung der vielfältigen sozialen Kontexte zu erklären. Abweichendes und gewaltbereites Verhalten wird dabei als dynamisches Geschehen verstanden. Diese Ansätze unterstreichen die Bedeutung von zeitlich vorgelagerten Reaktionen auf vorangegangenes Fehlverhalten. Diese komplexen Dynamiken müssen innerhalb der Ursachen und Bedingungen berücksichtigt werden. In diesem Zusammenhang wird vielfach die Einschätzung vertreten, dass verfestigte Formen abweichenden Verhaltens mit den sozialen Reaktionen auf frühe Delinquenz in Zusammenhang stehen (vgl. Sampson und Laub 1993). In diesem und im nächsten Abschnitt erweitern wir das lineare Regressionsmodell um kategorial unabhängige Variablen und Interaktionsterme. Im Ordner Regressionsanalyse im Downloadmaterial ist der Datensatz brokenhome.sav enthalten. Es handelt sich dabei um einen Datenauszug aus der Evaluationsstudie des sozialtherapeutischen Angebots der JVA Neustrelitz. In der Untersuchung wird analysiert, wie familiäre Gegebenheiten, spontanes und reaktives Aggressionsverhalten von Jugendlichen mit der Anzahl der Vorstrafen zusammenhängen. Die Beschäftigung mit den Ursachen kriminellen Verhaltens kommt ohne Untersuchung der familiären Gegebenheiten nicht aus. Die Familie gibt die bedeutendsten Impulse für die Sozialisation und individuelle Entwicklung junger Menschen. Dazu liegen Datensätze von 120 Probanden vor, die im Rahmen einer aufwendigen Aktenanalyse erhoben wurden, um die Wirkungen von sozialtherapeutischen Maßnahmen für junge Straftäter unter Berücksichtigung ihrer familiären Gegebenheiten, ihrer Schul- und Berufsausbildungssituation sowie ihrer Persönlichkeitsmerkmale zu untersuchen. In Deutschland ist der Umgang mit jugendlichen Straftätern im Jugend gerichtsgesetz (JGG) geregelt. So gilt in Deutschland im Jugendstrafrecht das Primat erzieherischer und sozialarbeiterischer Maßnahmen. Hierbei wird angenommen, dass sich die jugendlichen Straftäter noch in der Entwicklung befinden, kriminelle Verhaltensweisen noch nicht verfestigt sind. Somit steht die Person des Kindes oder des Jugendlichen im Vordergrund, um das Ziel der Rückfallprävention, der Förderung sowie der sozialen Eingliederung des Täters zu erreichen. Defizite in der familiären Erziehung werden gemäß
Die multiple lineare Regression mit kategorialen Variablen
273
sozialisationstheoretischen Studien als wichtiger Indikator für straffälliges Verhalten betrachtet (vgl. Schwind 2013). Die Aufnahme der Variablen der Herkunftsfamilie in die Reihe der unabhängigen Variablen eines Regressionsmodells ist problematisch, weil eine Veränderung dieser Variablen von einer Einheit zur nächsten nicht in regelmäßigen, diskreten Schritten vollzogen werden kann (vgl. Kapitel 4.2). So ist es nicht sinnvoll anzunehmen, der Zustand, nie bei beiden Eltern aufgewachsen zu sein, oder die Situation, sowohl bei beiden Elternteilen als auch bei anderen aufgewachsen zu sein, schaffe für delinquentes Verhalten die gleichen Voraussetzungen wie ein biografischer Hintergrund, der ein Kind ausschließlich bei beiden Eltern aufwachsen lässt. Genau diese Behauptung würde man jedoch implizit treffen, wenn man eine solche kategoriale Variable mit mehreren Ausprägungen unverändert in ein Regressionsmodell aufnehmen würde. Aus diesem Grund müssen für kategoriale Variablen Kontraste für die einzelnen Kategorien gebildet werden. Um Aussagen über die Stabilität der Sozialisationsbedingungen treffen zu können, werden sowohl die Herkunftsfamilie als auch die Kontakte während der Inhaftierung betrachtet. Unser Kriterium beschreibt dabei die Anzahl der individuellen Vorstrafen. Betrachtet werden zudem Persönlichkeitsmerkmale zum aggressiven Verhalten der 120 inhaftierten jugendlichen Probanden, das mit Hilfe eines spezifischen psychologischen Fragebogens (FAF) erhoben wurde. Der FAF gehört zu den deutschsprachigen Fragebogenkonstruktionen, die am Psychologischen Institut in Freiburg initiiert wurden. Er ermöglicht Aussagen zu verschiedenen Aggressionsbereichen: 1. Spontane Aggressivität, 2. Reaktive Aggressivität, 3. Erregbarkeit, 4. Selbstaggression und 5. Aggressionshemmungen. Anhand von 77 Fragen, die mit Ja oder Nein beantwortet werden, werden die fünf Dimensionen von Aggression erhoben. Abbildung 8.5 zeigt, dass von der Untersuchungsgruppe der inhaftierten Jugendlichen 24,6 % (n = 29) nie bei beiden Elternteilen aufgewachsen sind. Lediglich 18,6 % (n = 22) sind ausschließlich bei beiden Elternteilen aufgewachsen. Somit wird deutlich, dass ein großer Teil der Probanden in einem höheren Maße von der Situation des broken home betroffen war, was ein deutliches Indiz für einen instabilen Sozialisationsprozess bilden würde. Ein weiteres Indiz für stabile Sozialisationsprozesse sind die Besuche während der Haft (Abbildung 8.6). Überhaupt nicht besucht wurden 4,3 % (n = 5) der inhaftierten Jugendlichen. Es sind vor allem die Eltern und die Geschwister, die die größte Besuchergruppe darstellen und die Jugendlichen während der Inhaftierung mit Kontakten unter-
274
Multivariate Datenauswertungen
stützten (Tabelle 8.9)2. Insgesamt waren 86,7 % der 104 Probanden vor dem Anlassdelikt bereits vorbestraft (Tabelle 8.10). Bei diesen Probanden waren in den Akten strafbare Handlungen dokumentiert, für die aus Altersgründen keine Verurteilung erfolgt war. Bei den in der Vorgeschichte bekannten Handlungen handelte es sich um Diebstahl, Vergehen gegen das Betäubungsmittelgesetz, sexualisierte Handlungen und Sachbeschädigungen – bis hin zu (wiederholter) gefährlicher Körperverletzung, aber auch Tierquälereien. Die übrigen Delikte gehörten keiner dieser Kategorien an. Nach der kurzen Darstellung des Datensatzes soll nun mit Hilfe der kategorial unabhängigen Variable untersucht werden, ob Jugendliche, die einen Elternverlust erlitten hatten oder teilweise nicht bei den Eltern aufgewachsen sind, tatsächlich ein erhöhtes Delinquenz-Risiko aufweisen. Tabelle 8.9: Besucher in der Haft (eigene Berechnungen) Besucher während der Haftzeit Antworten $Besuchhaft
a
N
Prozent
Eltern als Besucher
88
27,9 %
Großeltern als Besucher
17
5,4 %
Geschwister als Besucher
73
23,2 %
Partner(in) als Besucher
37
11,7 %
Freunde als Besucher
64
20,3 %
Sonstige Gesamt
36
11,4 %
315
100,0 %
a. Dichotomie-Gruppe, tabellarisch dargestellt bei Wert 1.
2 Die Variablen zur Beantwortung der Besucherart liegen als Mehrfachantwortenset vor. Jeder Fall hat Gelegenheit, bei einer Frage mehrere Angaben zu machen. Die Analyse von Mehrfachantworten (MFA) ist hinsichtlich der Kodierung, des Datenmanagements und der Interpretation besonders anzugehen. Jede Antwortausprägung einer Frage ist separat zu kodieren. Die Ausprägungen von »Frage Besucherart« wurden in sechs Einzelitems mit den Ausprägungen »1« und »2« kodiert. Daher wird für die Ausprägung 1 die Häufigkeit aufgeführt.
Die multiple lineare Regression mit kategorialen Variablen
Abbildung 8.5: Herkunftsfamilie (eigene Darstellung)
Abbildung 8.6: Besuche in der Haft (eigene Darstellung)
275
276
Multivariate Datenauswertungen
Tabelle 8.10: Anzahl Vorstrafen (eigene Berechnungen) Anzahl Vorstrafen Häufigkeit Gültig
Fehlend
%
Gültige %
Kumulierte %
1
15
12,5
14,4
14,4
2
19
15,8
18,3
32,7
3
16
13,3
15,4
48,1
4
20
16,7
19,2
67,3
5
9
7,5
8,7
76,0
6
5
4,2
4,8
80,8
7
7
5,8
6,7
87,5
8
6
5,0
5,8
93,3
9
4
3,3
3,8
97,1 100,0
10
3
2,5
2,9
Gesamt
104
86,7
100,0
keine Vorstrafen
15
12,5
keine Angabe
1
,8
Gesamt Gesamt
16
13,3
120
100,0
8.4.2 Anwendungsbeispiel Wie bereits erwähnt, ist die Aufnahme von kategorial unabhängigen Variablen in ein Regressionsmodell problematisch, weil eine Veränderung dieser Variablen von einer Einheit zur nächsten nicht in regelmäßigen, diskreten Schritten erfolgt. Keine Probleme bereitet es, in das Modell eine Variable aufzunehmen, die zwischen nie bei den Eltern aufgewachsen und bei den Eltern aufgewachsen unterscheidet. Um hier entsprechende Kontraste abzubilden, wird eine sogenannte Dummy-Variable gebildet mit der Ausprägung 1 für nie bei den Eltern aufgewachsen. Diese Variable erhält folgerichtig den Wert 0 für die Merkmalsausprägungen teilweise oder immer bei den Eltern aufgewachsen. Mit Hilfe dieser drei neu gebildeten dichotomen Variablen kann man nun Aussagen darüber treffen, dass Jugendliche, die nie bei den Eltern aufgewachsen sind, eine um b Einheiten größere Anzahl aktenkundiger Vorstrafen aufweisen. Hier könnte man entsprechend den Vorgaben auch weitere mögliche Kontraste bilden. In diesem Abschnitt werden alle eingegebenen Befehle in Syntax-Form zusammengefasst. Die Syntax-Datei kann abgespeichert und jederzeit durchgeführt werden: RECODE v_010_EH (1=1) (2=0) (3=0) (ELSE=SYSMIS) INTO nie. EXECUTE.
277
Die multiple lineare Regression mit kategorialen Variablen
Mit dieser Syntax wird die Variable v_010_EH der jeweiligen Herkunftsfamilie kontrastiert. Weiterhin können Sie mit dem Recode-Befehl Kategorien zusammenfassen oder auf missing (also als fehlenden Wert) setzen. Dabei können Sie wählen, ob Sie bei der Umkodierung in die alte Variable umkodieren wollen oder ob Sie nach dem Umkodieren eine neue Variable erzeugen möchten. Zur Sicherheit sollten Sie hier möglichst immer eine neue Variable erzeugen, so dass die ursprüngliche Variable erhalten bleibt. Alternativ können Sie selbstverständlich auch eine menügestützte Umcodierung vornehmen. Häufig ist es jedoch notwendig, die gleichen umfangreichen Analysen mit verschiedenen Variablen durchzuführen, wobei sich eine menügestützte Klick-Technik dann meist sehr zeitaufwendig darstellt. Für die Kontrastbildung zeigen wir Ihnen zunächst, wie Sie die oben genannte Recode-Syntax erzeugen können. Wählen Sie hierzu im Menü: Transformieren → Umcodieren in andere Variablen
®
®
Abbildung 8.7: Dialogfenster »RECODE-Transformation« (IBM /SPSS )
Wenn sich Abbildung 8.8 öffnet, verschieben Sie nun die Variable über den kleinen Pfeil in das Auswahlfenster. Wählen Sie die Variable Herkunftsfamilie v_010_EH aus, um diese mit Hilfe des Pfeils in das mittlere Feld zu übertragen. Die Variable weist drei Kategorien
278
Multivariate Datenauswertungen
(variable Werte) auf. Sie müssen der neuen Variablen einen Namen geben, in dem Feld »Beschriftung« können Sie anschließend eine Variablenbezeichnung vergeben. Es ist sehr wichtig darauf zu achten, dass Sie auf Ändern klicken, da die neue Variable ansonsten nicht erzeugt wird. Anschließend klicken Sie auf Alte und neue Werte, wonach sich ein neues Fenster öffnet, in dem Sie die neuen Werte eingeben können (vgl. Abbildung 8.9). Alle anderen Werte werden nun abschließend als missing umkodiert SYSMIS (vgl. Abbildung 8.10). Nun klicken Sie auf Weiter.
®
®
Abbildung 8.8: Dialogfenster »Umcodieren in andere Variablen« (IBM /SPSS )
®
®
Abbildung 8.9: Dialogfenster »Alte und neue Werte« (IBM /SPSS )
Die multiple lineare Regression mit kategorialen Variablen
279
Abbildung 8.10: Dialogfenster »Alle anderen Werte« (IBM®/SPSS®)
Um die Recode-Syntax zu erzeugen, wird anstelle von OK auf Einfügen geklickt. Daraufhin öffnet sich das Fenster des Syntax-Editors, der in Kapitel 5 dargestellt wurde. Die Umcodierung kann nun durch das grüne Dreieck im Syntax-Editor gestartet werden. Die beiden weiteren Kontraste werden wie folgt durch Änderung des Syntax-Codes gebildet: RECODE v_010_EH (2=1) (1=0) (3=0) (ELSE=SYSMIS) INTO sowohl. EXECUTE. RECODE v_010_EH (3=1) (2=0) (1=0) (ELSE=SYSMIS) INTO ausschließlich. EXECUTE.
Die hier beschriebene Bearbeitung in einer Syntax bietet die flexibelste Form, um schnell die neuen Dummy-Variablen zu erstellen. Jede dieser Dummy-Variablen bildet den Kon trast zwischen den Merkmalsausprägungen der Variable »Herkunftsfamilie« ab. Im folgenden Regressionsmodell verwenden wir die Dummy-Variablen als unabhängige Variablen, wobei wir jedoch eine Kategorie in unserem Modell auslassen müssen. Würden wir alle drei neu gebildeten Variablen in die Modellgleichung aufnehmen, wäre die Gleichung aufgrund der Kollinearität der Kategorien (vgl. Kapitel 7) nicht mehr lösbar. Die ausgelassene Kategorie bildet somit die Referenzkategorie und kann bei der späteren Analyse mit den übrigen Merkmalsausprägungen verglichen werden. Die Referenzkategorie, welche hier mit der Konstante gleichzusetzen ist, stellt sich für die Interpretation des Modells als sehr wichtig dar. Die Konstante entspricht dabei dem vorhergesagten Wert, wenn alle
280
Multivariate Datenauswertungen
unabhängigen Variablen des Modells den Wert Null aufweisen. Damit Sie die folgenden Beispiele nachvollziehen können, berechnen wir zunächst die Regression mit der Variable Familienherkunft mit Kontrastbildung für die jeweiligen Kategorien. Dabei ist die Anzahl der Vorstrafen die abhängige Variable: Koeffizientena Nicht standardisierte Koeffizienten Modell 1
Regressions koeffizient B
Std.-Fehler
(Konstante)
4,542
,484
sowohl bei beiden Eltern aufgewachsen als auch bei anderen
−,169
,574
ausschließlich bei den Eltern aufgewachsen
−2,121
,728
Standardisierte Koeffizienten Beta
T
Sig.
9,385
,000
−,034
−,294
,769
−,335
−2,913
,004
a. Abhängige Variable: Anzahl Vorstrafen
Abbildung 8.11: Regressionskoeffizienten mit Dummy-Variablen für die Familienherkunft (eigene Berechnung)
Abbildung 8.11 zeigt uns, dass die durchschnittliche Anzahl der Vorstrafen der Probanden, die nie bei den Eltern aufgewachsen sind, 4,54 Einheiten beträgt. Im obigen Modell haben diejenigen, die ausschließlich bei den Eltern aufgewachsen sind, eine um durchschnittlich 2,12 kleinere Vorstrafenanzahl. Die Jugendlichen, die sowohl bei Eltern als auch bei anderen Personen aufgewachsen sind (Pflegeeltern oder auch zeitweise Heimunterbringung), haben lediglich eine um 0,17 kleinere Vorstrafenanzahl. Die Aufnahme der Variablen der Familienherkunft ohne Bildung der einzelnen Kon traste führt zu der im Regressionsmodell dargestellten Abbildung 8.12. Bereits die Interpretation der Konstante ist hier jedoch höchst problematisch. Die in diesem Modell erzielten Koeffizienten sind mehr als nur etwas überraschend und nicht sinnvoll interpretierbar. Denn wenn die Herkunftsfamilie die Merkmalsausprägung 0 annimmt, was inhaltlich keinerlei Bedeutung hat, beträgt die durchschnittliche Anzahl der Vorstrafen 6. Wenn sich die Herkunftsfamilie jedoch um eine Einheit verändert, also beispielsweise den Wert 1 annimmt, was inhaltlich gleichbedeutend ist mit nie bei den Eltern aufgewachsen, sinkt die durchschnittliche Anzahl der Vorstrafen um eine Einheit. Koeffizientena Nicht standardisierte Koeffizienten Modell 1
Regressions koeffizient B
Std.-Fehler
(Konstante)
6,000
,754
Herkunftsfamilie/Aufgewachsen?
−1,000
,367
Standardisierte Koeffizienten Beta
−,263
T
Sig.
7,952
,000
−2,724
,008
a. Abhängige Variable: Anzahl Vorstrafen
Abbildung 8.12: Regressionskoeffizienten ohne Bildung von Dummy-Variablen (eigene Darstellung)
Die multiple lineare Regression mit kategorialen Variablen
281
Da lediglich eine Spezifizierung und Interpretation der Regressionskoeffizienten mit den Dummy-Hilfsvariablen (wie in Abbildung 8.11 gezeigt) sinnvoll ist, betrachten wir nun die T-Werte und Signifikanzwerte für dieses Modell. Da sich im Beispiel ein signifikanter Effekt für die Gruppe der Jugendlichen, die ausschließlich bei den Eltern aufgewachsen sind, ergeben hat (p = 0,00), kann die Annahme, dass die Herkunftsfamilie eine bedeutende Rolle spielt, durchaus unterstützt werden. Ein fundamentales Problem, das nicht nur die kategorialen unabhängigen Variablen, sondern alle statistischen Zusammenhangsanalysen betrifft, ist der Unterschied zwischen Korrelation und Kausalität. Anders formuliert, die Verwechslung zwischen einem statistischen und einem inhaltlichen Zusammenhang kann zu viel wohlklingendem Unsinn führen. Nur wenn es in diesem Zusammenhang gelingt, mit Hilfe eines theoretisch begründeten Ursache-Wirkungs-Zusammenhangs bestehende Hypothesen zu verifizieren, können sinnvolle Schlussfolgerungen hieraus abgeleitet werden. Abschließend soll auf die methodischen Probleme der Analyse hingewiesen werden. Die untersuchten Einflussfaktoren, die in diesem Fall herangezogen werden, sind nicht ausreichend, um die Komplexität des Themas richtig einzufangen. Besonders, wenn man bedenkt, dass viele weitere Variablen unzureichend berücksichtigt worden sind. Dies ist der bekannten Omitted-variables-bias-Problematik geschuldet, die zu einer Nichtberücksichtigung der relevanten Variable und zu systematisch verzerrten Schätzergebnissen führt. Weiterhin können die Ergebnisse auf der Basis von Querschnittsdaten nur im Sinne von Zusammenhangsaussagen richtig interpretiert werden. Was den biografischen Verlauf vom Verhalten und Gewaltbereitschaft krimineller Jugendlichen betrifft, so heben einschlägige Studien (vgl. Moffitt 1993) hervor, dass deviantes Verhalten ab dem 13. Lebensjahr stark ansteigt, aber spätestens nach dem 20. Jahr wieder absinkt. Die Analyse zeigt, dass es hier zwei Gruppen zu unterscheiden gilt: Eine Gruppe der Frühstarter, deren Gewalthandlungen sich weitestgehend auf die Adoleszenz beschränkt (adolescence-limited), sowie die der Spätstarter, die über die gesamte Lebensphase Gewaltbereitschaft zeigen (life-course-persistent antisocial behaviour). Während Frühstarter oft durch eine häusliche Umgebung mit geringer elterlicher Aufsicht, negativen Erziehungspraktiken und aggressivem Verhalten während der Kindheit und eine Ablehnung durch Gleichaltrige charakterisiert sind, weisen Spätstarter während der Kindheit nur in geringem Maße aggressive Verhaltensweisen auf. Vielfach kommen Eltern von Spätstartern ihrer Aufsichtspflicht eher mäßig nach und haben selbst häufig entsprechende Partnerschaftskonflikte. Bei Jugendkriminalität handelt es sich oftmals um ein überaus vielschichtiges Ereignis, das sich einer einfachen Typisierung entzieht. Vor allem reicht es nicht aus, sich auf einen einseitig linearen Kausalitätsschluss von der Herkunftsfamilie als Ebene sozialen Verhaltens zu beschränken. Hierbei werden viele Rückkopplungen zwischen Umwelt und anderen Sozialisationsprozessen außer Acht gelassen. Wir weisen darauf hin, dass scheinbar eindeutige Zusammenhänge
282
Multivariate Datenauswertungen
und Dichotomisierungen zu hinterfragen sind, um komplexere Bezüge zu den Ursachen von Strafhandlungen aufzeigen zu können. Der Versuch, hier tentative Bezüge zwischen Strukturierung von Lebensläufen und Herkunftsfamilien zu kriminellen Handlungen herzustellen, kommt in der Konsequenz nicht umhin, weitere gewichtige Prädiktoren mit einzubeziehen. Das von uns verwendete Modell dient primär dazu, den Umgang mit kategorial unabhängigen Variablen aufzuzeigen. Um das Phänomen krimineller Handlungen deutlicher zu erklären, ist das Modell viel zu kurz gegriffen, denn Jugendkriminalität hängt von vielen strukturellen Bedingungen wie Arbeitslosigkeit, enge Wohnverhältnisse, wenig sinnvolle Freizeitangebote etc. ab. Hierzu gehören auch jugendtypische Lebensmuster, risikoreiches Konsum- und Suchtverhalten, die in unserem Modell nicht adäquat berücksichtigt worden sind. Schließlich wäre es falsch, Delinquenz-Verläufe anhand der in der kriminologischen Forschung verbreiteten Kategorien (z. B. broken home, Kontakt zu delinquenten Peers) zu generalisieren. Vielmehr haben wir es hier mit komplexen Dynamiken zu tun, die in ihrer jeweils individuellen Bedeutung untersucht werden müssen. Verbindungen zu sozialen Dynamiken im Peerkontext kann die durchgeführte Analyse trotz tentativ plausibler Zusammenhänge nicht aufzeigen. Dennoch ist es möglich, mit Hilfe dieses realen Datensatzauszugs aus der sozialarbeiterischen Forschungspraxis wesentliche Aspekte der behandelten Verfahren zu demonstrieren.
8.5 Interaktionseffekte Das Beispiel aus Kapitel 8.4 dient weiterhin als Grundlage, um wichtige Anwendungen in Zusammenhang mit der multiplen Regressionsanalyse hier exemplarisch durchzuführen. In einer qualitativen Studie des Deutschen Jugendinstituts könnten die verschiedenen familiale Umgangsmuster mit Delinquenz durch die Eltern rekonstruiert werden. Die folgende familialen Typisierungen wurden aufgrund vergleichbarer Fälle erstellt (vgl. Rieker, 2001, S. 306 ff.): Ȥ Diktat: Elterliche Reaktionen sind überwiegend straforientiert und gehen zum Teil mit erheblichen Reaktionen, u. a. mit Ohrfeigen, Schlägen, Taschengeldentzug und Hausarrest einher. Diese Art von einseitiger und vehementer Verständigung trägt nur zum Teil dazu bei, dass Kinder Perspektiven und Gefühle der Eltern verinnerlichen. Ȥ Dialog: In teilweise fragendem und offenem Dialog thematisieren die Eltern die Motive des Handeln der Kinder und Jugendlichen. Es wird in einem gleichberechtigten Dialog nach Lösungsansätzen gesucht. Dabei findet eine wechselseitige Verständigung von Gefühlen und Erklärungen statt. Ȥ Fehlende Bearbeitung: Hierbei versuchen die Eltern, ihre Kinder vor allem vor Anschuldigungen zu beschützen und bagatellisieren bzw. thematisieren kaum das Fehlverhal-
Interaktionseffekte
283
ten der Kinder und Jugendlichen. Auch innerhalb der Familie gibt es kaum elterliche Reaktionen. Ȥ Misslingende Bearbeitung: Hierbei findet eine inkonsequente Reaktion und Thematisierung durch die Eltern statt bzw. elterliche Reaktionen sind nicht eindeutig. Verständigung und Austausch finden so gut wie nicht statt. Misslingende elterliche Bearbeitung wird als passive Reaktion gedeutet. Gemäß dieser Typisierung aus den qualitativen Studien wollen wir ermitteln, ob in unserem Datensatz misslingende familiäre Bearbeitung zu einer Verfestigung der Vorstrafen- Karriere geführt hat. Diese Vermutung werden wir durch die Berücksichtigung von Interaktionstermen überprüfen. Interaktionsterme werden vor allem bei der Analyse von Moderatoreffekten in Regressionsgleichungen berücksichtigt. Wenn die Stärke des Zusammenhangs (Steigungskoeffizient) sich jeweils grundlegend verändert, je nachdem, welche Ausprägung eine Variable annimmt, dann werden solche Variablen als Moderatoren bezeichnet. In unserem Beispiel ist es denkbar, dass die Beeinflussung der Anzahl der Vorstrafen durch die Herkunftsfamilie davon abhängig ist, ob eine misslingende familiäre Bearbeitung des Fehlverhaltens stattgefunden hat. Die Vermutung liegt nahe, dass in der Gruppe mit misslingenden Bearbeitungsmustern im familiären Kontext die Anzahl der Vorstrafen höher ausfällt. Das hat zur Folge, dass die gruppenspezifischen Regressionssteigungen der familiären Bearbeitung (misslingend bzw. nicht misslingend) sich stark unterscheiden. In Abbildung 8.13 ist ein solcher Moderatoreffekt dargestellt:
Abbildung 8.13: Veranschaulichung »Moderatoreffekt« (eigene Darstellung)
284
Multivariate Datenauswertungen
Der Zusammenhang zwischen der abhängigen Variable »Anzahl Vorstrafen« und dem Persönlichkeitsmerkmal »spontane Aggressivität« kann durch misslingende familiäre Bearbeitungsmuster beeinflusst sein. Weiterhin wäre es vorstellbar, dass die Beeinflussung durch spontane Aggression durch misslingende elterliche Bearbeitung nicht nur auf direktem Wege, sondern teilweise indirekt die Anzahl der Vorstrafen beeinflusst. Um diese unmittelbare Einwirkung zu untersuchen, bilden wir zunächst einen Interaktionsterm. Die Berechnung wird durch Produktbildung von Prädiktor und potenzieller Moderatorvariable durchgeführt. Die neu gebildete Produktvariable wird anschließend zur Vorhersage der multiplen Regression einbezogen. Wenn in der Schätzung der Koeffizient des Interaktionsterms statistisch signifikant ist, kann davon ausgegangen werden, dass eine Moderatorwirkung vorliegt. In unserem Anwendungsbeispiel ist unsere Moderatorvariable »misslingende Bearbeitung« eine Dummyvariable. Falls die Bearbeitung in der Familie misslingend war, weist diese Variable den Wert 1 auf, alle andere Fälle weisen den Wert Null auf. Die Spezifizierung der multiplen Regressionsgleichung mit dem Interaktionsterm als Produktvariable weist nun die folgende Form auf: Gleichung 8.5:
Yi = β0 + β1 ∙ Xi + β2 ∙ Mi + β3 ∙ Xi ∙ Mi + εi (i = 1,…, n) Yi = Wert der abhängigen Variable des Probanden i Xi = Wert der unabhängigen Variable des Probanden i Mi = Wert der Moderatorvariable des Probanden i εi = Residuum des Probanden i β0, β1, β2 , β3 = Regressionskoeffizienten n = Regressionskoeffizienten Eine Besonderheit bei der Bildung und Interpretation von Interaktionstermen ist die Zentrierung. Das bedeutet, dass von jedem Wert einer Variablen der Mittelwert dieser Variable subtrahiert wird. Eine zentrierte Variable ist somit immer gleich null, wenn ihr ursprünglicher Wert dem Mittelwert entspricht. Durch die Zentrierung werden Verzerrungen aufgrund hoher Multikollinearität gemindert, denn in einem Modell mit Interaktion korrelieren Xi und Mi hoch mit der Variablen, die aus dem Produkt beider Variablen gebildet worden ist. In SPSS wird die Zentrierung durch die Bildung neuer Variablen gebildet. Daher muss zuvor der Mittelwert berechnet werden. Die Ergebnisse in Tabelle 8.11 zeigen den Mittelwert der Variable »spontane Aggression« an:
285
Interaktionseffekte
Tabelle 8.11: Deskriptive Statistiken für spontane Aggression (eigene Bearbeitung) Deskriptive Statistik N
Mittelwert
Rohwert: Spontane Aggression
95
9,7368
Gültige Werte (listenweise)
95
Der hier berechnete Mittelwert kann zur Erzeugung der zentrierten Variablen herangezogen werden. Um die neue zentrierte Variable zu berechnen, klicken Sie die folgende Sequenz an und das in Abbildung 8.14 dargestellte Dialogfenster erscheint: Transformieren → Variable berechnen
®
®
Abbildung 8.14: Berechnung der zentrierten Variable (IBM /SPSS )
Hierbei wird von der Variable »spontane Aggression« der Mittelwert von 9,7368 subtrahiert. Durch Bestätigung mit OK oder über das Syntax-Einfügen wird die zentrierte Variable SponA_zentr im Dateneditor angezeigt (Abbildung 8.15). Die gleiche Vorgehensweise ist durchzuführen, um den Interaktionsterm durch die Multiplikation der Variablen zu erzeugen.
286
Multivariate Datenauswertungen
®
®
Abbildung 8.15: Berechnung der zentrierten Variable, Dateneditor (IBM /SPSS )
®
®
Abbildung 8.16: Berechnung »Lineare Regression mit Interaktionsterm« (IBM /SPSS )
287
Interaktionseffekte
Anschließend sollten im Dateneditor für die neu gebildeten Variablen Labels eingegeben werden. Nach Erstellung diese Variablen kann nun die multiple Regression mit den Interaktionstermen durchgeführt werden. Im Dialogfenster »Lineare Regression« wird die Anzahl der Vorstrafen in das Feld »Abhängige Variable« eingetragen; in das Feld »Unabhängige Variable« werden die Kontrastvariablen der Herkunftsfamilie sowie zentrierte Variablen der spontanen Aggression, misslingenden Bearbeitung und ihre Produktvariable (Interaktionsterm) eingetragen (vgl. Abbildung 8.16). Tabelle 8.12: Koeffizienten der multiplen Regressionsgleichung mit Interaktionsterm Koeffizientena Nicht standardisierte Koeffizienten
T
Sig.
Regressions koeffizient B
Std.-Fehler
(Konstante)
1,821
,572
3,186
,002
Sowohl bei beiden Eltern aufgewachsen als auch bei anderen
1,868
,641
,362
2,912
,005
Nie bei beiden Eltern aufgewachsen
2,594
,763
,430
3,400
,001
Misslingende Bearbeitung delinquenten Verhaltens durch die Eltern
2,953
,605
,471
4,881
,000
Spontane Aggression zentriert
,015
,029
,056
,504
,616
Interaktionsterm spontane Aggression zentriert mit misslingender Bearbeitung
,029
,055
,057
,520
,605
Modell 1
Standardisierte Koeffizienten Beta
a. Abhängige Variable: Anzahl Vorstrafen
Es zeigt sich bezüglich des Interaktionsterms (vgl. Tabelle 8.12) kein signifikantes Ergebnis (p = 0,616), daher kann die Annahme einer Moderatorwirkung der Variablen »Misslingende Bearbeitung« nicht bestätigt werden. Durch die Aufnahme des Interaktionseffekts und der mittelwertzentrierten Variablen in das Modell verändert sich die Interpretation der Effekte für Familienherkunft. Die Modellkonstante gilt für Personen mit durchschnittlichem Aggressionsverhalten und gelingender familiärer Bearbeitung, die ausschließlich bei beiden Eltern aufgewachsen sind. Diese haben im Durchschnitt 1,821 Vorstrafen. Um die Werte für die Vorstrafen für Personen vorherzusagen, die nie bei den Eltern aufge-
288
Multivariate Datenauswertungen
wachsen sind und eine misslingende Bearbeitung erfahren haben, müssen die konditionalen Effekte gemäß Gleichung 8.5 errechnet werden.
Der Effekt einer misslingenden Bearbeitung bei Personen mit durchschnittlichen Aggressionswerten, die nie bei den Eltern aufgewachsen sind, beträgt 7,80. Die Aufnahme von Interaktionseffekten in Regressionsgleichungen führt zu grundlegend anderen Effekten. Während bei Personen mit gelingender familiärer Bearbeitung von Delinquenz die Familienherkunft kaum Einfluss auf die Vorstrafenzahl hat, sind bei Personen mit nicht gelingenden Bearbeitungsmustern große Unterschiede vorhanden. Der nicht signifikante Interaktionsterm zeigt, dass zwischen dem Persönlichkeitsmerkmal der spontanen Aggression und Bearbeitungsmustern keine Moderatorwirkung vorhanden ist. Zusammenfassend kann anhand der Analysen hier nur dafür plädiert werden, dass fundierte Aufklärung über Bedingungsfaktoren, Verlaufsformen und Verarbeitung von Delinquenz und kriminellem Fehlverhalten Aufgabe der Jugendhilfe vor allem im Strafverfahren ist. Jugendhilfe muss anhand profunden Handlungswissens Stigmatisierungstendenzen entgegentreten und den Gestaltungsauftrag des SGB VIII vollumfänglich im Sinne der Parteilichkeit für den Adressaten ernst nehmen. Eine fundierte wissenschaftliche Betrachtung der Lebensverhältnisse und Sozialstrukturen ist für die Erklärung der Entstehungsbedingungen von kriminellem Verhalten von Jugendlichen durchaus nützlich. Klicksequenz: Transformieren → Umcodieren in andere Variablen Syntax: Regression mit Kontrastbildung für die kategorial unabhängige Variable REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT v_048b /METHOD=ENTER sowohl ausschließlich.
Interaktionseffekte
289
Regression ohne Kontrastbildung für die kategorial unabhängige Variable REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT v_048b /METHOD=ENTER v_010_EH
Zentrierte Variable DATASET ACTIVATE DataSet1 DESCRIPTIVES VARIABLES=v_049b_1r /SAVE /STATISTICS=MEAN COMPUTE SponA_zentr=v_049b_1r – 9.7368 EXECUTE Bildung Interaktionsterm COMPUTE Interaktion_sponA_missB=SponA_zentr * v_miss_B EXECUTE
Lineare Regression mit Interaktionsterm REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT v_048b /METHOD=ENTER sowohl auschließlich v_miss_B SponA_zentr Interaktion_sponA_ missB
290
Multivariate Datenauswertungen
8.6 Nicht lineare Funktionen 8.6.1 Allgemeines zur Wirksamkeitsuntersuchung von Sozialtherapie In diesem Abschnitt werden wir uns mit der Verwendung von sogenannten Polynomen (quadrierten Effekten) in multiplen Regressionen beschäftigen. Bei der Bildung von Polynomen handelt es sich um eine einfache Transformation von unabhängigen Variablen. In unserem Beispiel soll auf den Zusammenhang zwischen den metrischen Variablen der Hellfeld-Legalbewährung (also der Anzahl der Rückfälle nach Bundeszentralregisterauszug fünf Jahre nach der Haftentlassung) und der Dauer einer zuvor in Anspruch genommenen Sozialtherapie eingegangen werden. Anhand dieses Beispiels wird aufgezeigt, welche Verzerrungen entstehen, wenn Nicht-Linearitäten ignoriert werden. Im Zentrum steht die Frage, ob Maßnahmenteilnehmer3 von sozialtherapeutischen Maßnahmen innerhalb von fünf Jahren nach Entlassung erneut straffällig und gerichtlich verurteilt werden. Zu beachten ist dabei, dass Rückfallraten nicht notwendigerweise und ausschließlich als unmittelbare Wirkung von sozialtherapeutischen Maßnahmen zu deuten sind. Die polizeiliche Kriminalstatistik weist für das Jahr 2019 insgesamt 177.082 tatverdächtigte Jugendliche (14 bis unter 18 Jahren) auf, im Jahr 2018 waren es 177.431 (vgl. Abbildung 8.17). Insgesamt ist somit ein leichter Rückgang von Straftaten festzustellen. Eine Differenzierung nach Deliktbereichen zeigt ein breites Spektrum auf, unter anderem Diebstahl, Rauschgiftkriminalität, vorsätzliche einfache Körperverletzung, Gewaltkriminalität und Sachbeschädigung sowie viele weitere Bereiche, die überwiegend von jugendlichen Straftätern ausgeübt werden (vgl. Bundeskriminalamt 2019 BKA-Tabellen, KA – Übersicht Tatverdächtige). Jugendliche Straftäter stammen häufig aus einem erheblich problembelasteten sozialen und familiären Umfeld. Gemäß Thornberry und Krohn (2003) ist Kriminalität das Ergebnis einer schwachen Bindung an die Gesellschaft mit damit einhergehender mangelnder Selbstkontrolle. Besonders gewichtig sind zudem Kontakte mit delinquenten Gleichaltrigen und die Übernahme delinquenter Werte. Diese Bedingungen machen es möglich, dass kriminelles Verhalten in Interaktion mit anderen (Peergroups) gelernt wird. Derartige Wechselwirkungen verstärken kriminelles Verhalten. Delinquente Handlungsmuster verlieren hingegen an Attraktivität, wenn starke soziale Bindungen zu Eltern, Freundeskreis und Schule vorhanden sind. Wenn es Chancen auf Anerkennung birgt, sich in die Gesellschaft einzubringen, stellt dies attraktive Handlungsoptionen für Jugendliche dar. 3 Da an der Evaluationsstudie ausschließlich männliche Personen teilnahmen, ist die alleinige Verwendung des männlichen Genus’ im Folgenden nicht der Lesbarkeit geschuldet, sondern auch sachlich korrekt.
Nicht lineare Funktionen
291
Die Lebenslauftheorie von Sampson und Laub (1993) stellt den verlaufsabhängigen Zusammenhang zwischen geschwächten Bindungen, Kriminalität und einer kumulativen Anhäufung von Problemen im Jugendalter in den Mittelpunkt. Mit zunehmendem Lebensalter können dabei lebenslaufbedingte Wendepunkte wie Eheschließung, Arbeit und Elternschaft zum Abbruch der kriminellen Handlungen führen.
Abbildung 8.17: Straftaten insgesamt in Deutschland von Jugendlichen im Alter von 14 bis unter 18 Jahren (eigene Darstellung nach polizeilicher Kriminalstatistik)
Viele weitere Prädiktoren, wie etwa der Bildungs- und Erwerbsstatus, müssen bei der Erklärung der Legalbiografien berücksichtigt werden. Bildungs- und Ausbildungsdefizite mindern zudem die Chancen für die gesellschaftliche Integration nach der Entlassung. Während der Inhaftierung von Jugendlichen kann eine gezielte Vorbereitung auf die Entlassungssituation zur Vermeidung von Rückfällen beitragen. Viele sozialtherapeutische Programme setzen voraus, dass die inhaftierten Jugendlichen eine gewisse Resozialisierungsfähigkeit mitbringen müssen. Doch viele Adressaten weisen in diesem Zusammenhang multikomplexe Problemlagen auf. Dies können psychisch komorbide Störungen, Suchterkrankungen und/oder dissoziale Persönlichkeitsstörungen (spontane Aggressivität, Impulsivität und fehlende Reflexionsfähigkeit des eigenen Handelns) sein, was wiederum zu einer hohen Identifikation mit kriminellen Rollenmodellen führen kann. Sozialthe-
292
Multivariate Datenauswertungen
rapeutische Maßnahmen können nur ihre Wirkung entfalten, wenn es den Adressaten gelingt, die erworbenen Fähigkeiten aus den sozialtherapeutischen Maßnahmen in der Alltagssituation anzuwenden. Auch die Sozialisationsinstanzen (Familie) unter spezieller Berücksichtigung von sozioökonomischen und kulturellen Gegebenheiten sind für den Verlauf krimineller Karrieren entscheidend. Weiterhin wurde ein positiver Zusammenhang zwischen Delinquenz und Suchtmittelmissbrauch in verschiedenen Untersuchungen aufgezeigt (Bühringer 2003; Kreuzer 2005). In der Literatur wird für Vorstrafen berichtet, dass deren hohe Anzahl mit erhöhter Rückfälligkeit einhergeht (Dahle 2010; Egg 2004). Hinsichtlich des Alters von Gefangenen zeigt sich, dass die Wahrscheinlichkeit von Rückfällen mit steigendem Alter rückläufig ist (z. B. Hahn 2007; Jehle et al. 2003, 2010). Es gibt jedoch auch Studien, die aufzeigen, dass das Alter nur einen geringen Einfluss auf die Rückfälligkeit hat (Dahle 2005; Schmucker 2004). 8.6.2 Anwendungsbeispiel Bei der vorliegenden Untersuchung des Beispieldatensatzes handelt es sich um eine Studie mit Kontrollgruppen. Aus ethischen Gründen ist eine zufällige Zuteilung zur Sozialtherapie schlichtweg nicht möglich. Stattdessen wurde der Ansatz gewählt, nur Behandlungsgruppen über die Zeit mit Gruppen zu vergleichen, die nicht an einer Sozialtherapie teilgenommen haben. Ein solcher Ablauf lässt keine Kausalschlüsse zu, die im Rahmen eines zufälligen Kontrollgruppendesigns möglich wären. Dennoch kann anhand der Unterschiede in Biografie, Alter und Vorstrafen bei den entlassenen Gruppen unter Kontrolle ein Zusammenhang mit Rückfälligkeit angenommen werden. Die Differenzierung nach Behandlungs- und Kontrollgruppen wird jedoch für die Einführung von Polynomen nicht nötig sein. Aus didaktischen Gründen sollen die Beispiele so einfach wie möglich gehalten werden. Erst im Kapitel 8.7, im Rahmen der logistischen Regression, werden wir entsprechende Differenzierungen von Gruppen vornehmen. Die Legalbewährung wurde bei einer Stichprobe von 108 Gefangenen überprüft, die nach ihrer Entlassung aus der Jugendvollzugsanstalt einen KatamneseZeitraum von fünf Jahren außerhalb des Vollzugs verbrachten (bzw. vorher rückfällig wurden). Von den Entlassenen (n = 108) wurden während des Risikozeitraums 72 Personen (ca. 67 %) erneut verurteilt, die meisten davon zu einer Jugendstrafe ohne Bewährung (n = 63, Tabelle 8.13).
293
Nicht lineare Funktionen
Tabelle 8.13: Sanktionsbezeichnung Sanktionsbezeichnung
Freiheitsstrafe ohne Bewährung
Gesamt
Häufigkeit
Prozent
Gültige Prozente
Kumulierte Prozente
3
2,8
4,2
4,2
Jugendstrafe mit Bewährung
6
5,6
8,3
12,5
Jugendstrafe ohne Bewährung
63
58,3
87,5
100,0
Gesamt
72
66,7
100,0
kein Rückfall
30
27,8
System
6
5,6
Gesamt
36
33,3
108
100,0
Stellt man die Anzahl der Rückfälle (Hellfeld Legalbewährung) anhand des Bundeszen tralregisters (BZR) mit der Dauer der Sozialtherapie in einer einfachen linearen Regression gegenüber, käme man zu dem Ergebnis, dass sozialtherapeutische Maßnahmen keinerlei Wirkung aufweisen (vgl. Abbildung 8.18). Neben den beobachteten Werten ist auch die Schätzgerade einer linearen Regression eingezeichnet. Da sich die Ab- und Zunahme der abhängigen Variablen im Verlauf von unabhängigen Variablen gegenseitig aufhebt, weist das lineare Modell keinen Zusammenhang zwischen beiden Variablen auf. Der Regressionskoeffizient ist gleich null.
Abbildung 8.18: Lineare Regression zwischen Anzahl und Dauer der Sozialtherapie bei Rückfälligkeit gemäß Bundezentralregister/BZR (eigene Darstellung)
294
Multivariate Datenauswertungen
Das Problem der Nicht-Linearität zwischen diesen Variablen wird deutlich, wenn ein weiteres Streudiagramm wie in Abbildung 8.19 erstellt wird. Anhand des Streudiagramms zeigt sich ein U-förmiger Zusammenhang zwischen den Variablen. Mit steigender Dauer der Sozialtherapie (gemessen in Tagen), nimmt die Rückfallrate zunächst bis zu einem Minimalwert ab, danach jedoch wieder zu. Bei einem U-förmigen Zusammenhang ist eine Transformation der unabhängigen Variablen, also eine Quadrierung, notwendig. Hier spricht man von einer Polynombildung zweiter Ordnung. Wenn anhand des Streudiagramms festgestellt wird, dass ein S-förmiger Zusammenhang vorliegt, so wäre die Einführung eines Polynoms dritter Ordnung zur Linearisierung der Schätzung vonnöten. In vielen empirischen Schätzungen werden Polynome zusätzlich zum linearen Koeffizienten hinzugefügt.
Abbildung 8.19: Lineare Regression zwischen der Dauer der Sozialtherapie und der Rückfälligkeit gemäß Bundeszentralregister/BZR mit quadriertem Term (eigene Darstellung)
Die Schätzung einer Regressionsgleichung mit einem quadrierten Term ist in der folgenden Gleichung 8.6 dargestellt: Gleichung 8.6:
Yi = β0 + β1 ∙ x + β2 ∙ x2 + ε Je nach Größe und Vorzeichen für β2 ergeben sich sehr unterschiedliche Verläufe der Anpassungslinie. In unserem Fall zeigt der positiv quadrierte Koeffizient für die Dauer der
Nicht lineare Funktionen
295
Sozialtherapie in Monaten, dass sich der Effekt mit zunehmendem Wertbereich verstärkt. Mit Hilfe der Aufnahme eines quadrierten Terms in die Regressionsgleichung lässt sich implizit überprüfen, ob die Linearitätsannahme erfüllt ist. Ist der entsprechende Koeffizient β2 signifikant ungleich null, liegt ein nicht linearer Zusammenhang zwischen den Variablen vor. Umgekehrt ist eine solche Schlussfolgerung jedoch nicht zulässig. Denn nicht immer, wenn β2 gleich null ist, liegt ein linearer Zusammenhang vor. Es kann sich in diesem Kontext auch um einen nicht linearen Zusammenhang, der durch Polynome höherer Ordnung abzubilden ist, handeln. Hierbei ist zu beachten, dass bei Aufnahme von Polynomen in eine Schätzgleichung das Problem der Multikollinearität zunimmt. Daher ist es ratsam, wie auch bei den Interaktionseffekten mittelwertzentrierte Variablen anzuwenden. Ein weiteres Problem bei der Verwendung von Polynomen ist, dass eine Anpassung der Regressionsfunktion am Rand des Wertebereichs nicht ausreichend ist. Um dies zu verdeutlichen, wird in einem ersten Schritt ein lineares Modell geschätzt, um einen Vergleichsmaßstab für andere Modellierungen zu erhalten. Das Ergebnis der Schätzung ist in Tabelle 8.13 dargestellt (Modell 1). Tabelle 8.13: Regression mit quadrierten Termen im Modellvergleich
Bemerkungen: Abhängige Variable: Rückfälle gemäß BZR, unabhängige Variable: Dauer der Sozialtherapie während der Inhaftierung in Monaten * p < 0,05, ** p < 0,01, ***p < 0,001
Das Modell verweist auf einen insignifikanten Einfluss für die Dauer der Sozialtherapie. Dabei bleibt die Rückfallrate mit jedem Monat konstant. R-Quadrat zeigt in diesem Fall, dass 0 % der Varianz der abhängigen Variable durch die Dauer der Sozialtherapie erklärt werden können. Die Gegenüberstellung des Schätzergebnisses mit der Aufnahme eines quadrierten Terms zeigt, dass sich der lineare Effekt negativ darstellt, während der quadrierte Effekt deutlich kleiner und positiv ist. Zunächst dominiert der negative Effekt für die
296
Multivariate Datenauswertungen
Dauer der Sozialtherapie. Aufgrund der Quadrierung der Variablen zur Dauer der Sozialtherapie gewinnt der entsprechende positive Koeffizient mit zunehmender Dauer stark an Bedeutung. Dadurch kehrt sich der Einfluss auf die Einschätzung der Rückfallrate um. Der Punkt, an dem sich der sozialtherapeutische Effekt umkehrt, ist analytisch bestimmbar. Der Extremwert liegt an dem Punkt, an dem die erste Ableitung der Schätzgleichung 0 ergibt. Gleichung 8.74:
Während die Anzahl der Rückfälle zunächst abnimmt, nimmt sie ab der Dauer von ca. 23 Monaten wieder zu. Das Modell mit einer quadrierten Anpassung erklärt 15 % der Varianz der abhängigen Variablen »Anzahl Rückfälle«. Um dem Problem der Multikollinearität zu begegnen, werden die Terme nochmals auf Basis der mittelwertzentrierten Dauer der Variablen der Sozialtherapie berechnet (vgl. Tabelle 8.13, Modell 3 und 4). Die Vorzeichen der Regressionskoeffizienten mit den zentrierten Variablen zeigen dabei keine Änderungen, lediglich die Koeffizienten werden kleiner. In unserem Beispiel bleiben die Koeffizienten mit dem quadrierten Term bei einer sehr geringen Irrtumswahrscheinlichkeit signifikant. Sowohl die grafische Darstellung des Zusammenhangs als auch die inhaltlichen Überlegungen deuten darauf hin, dass die Modellschätzung sich bei Aufnahme eines quadrierten Terms verbessert. In einem nächsten Analyseschritt können Polynome höherer Ordnung in das Modell mit aufgenommen werden. Diese Vorgehensweise würde das Problem der Multikolinearität verschärfen. Die Schätzung mit einem Polynom dritter Ordung zeigt in diesem Kontext jedoch keine höhere Varianzaufklärung. Auch der hinzugenommene Term zeigt keine signifikanten Werte, so dass wir diese Schätzungen übergehen können. Anhand des Datensatzes können die Schätzungen von Ihnen selbstständig durchgeführt werden. Die Aufnahme weiterer Variablen führt nicht zu einer Verbesserung der Schätzung. Um es noch einmal zu wiederholen: Bei der Interpretation des Modells mit quadrierten Termen ist zu beachten, dass die Wirkung eines zusätzlichen Monats der Sozialtherapie mit folgendem Ausdruck beschrieben wird: Gleichung 8.8:
4
Zur genaueren Berechnung werden drei Stellen nach dem Komma herangezogen, während zur übersichtlicheren Darstellung in der Tab. 8.13 auf die dritte Kommastelle verzichtet wurde.
Nicht lineare Funktionen
297
Das heißt, es ist nicht möglich, isoliert den Koeffizienten β1 oder auch β2 zu interpretieren, da ja bei einer zusätzlichen Dauer von einem Monat die Sozialtherapie automatisch auch der quadrierten Zahl der Dauer der Maßnahmen entspricht und zunimmt. Der marginale Effekt eines zusätzlichen Monats sieht somit wie in der folgenden Gleichung aus: Gleichung 8.9:
Er ist also nicht mehr – wie im linearen Modell – nur einfach gleich dem geschätzten Koeffizienten β1. Zusammenfassend kann festgestellt werden: Wenn eine lineare Regressionsgleichung geschätzt wird, obwohl der wahre Zusammenhang zwischen der abhängigen und den exogenen Variablen nicht linear ist, führt dies zu verzerrten Koeffizientenschätzungen. Es muss darauf hingewiesen werden, dass das Phänomen »Jugendkriminalität« gerade aus präventiven Überlegungen heraus großer Aufmerksamkeit und Forschungsvorhaben bedarf. Hier war das grundsätzliche Anliegen, die statistischen Verfahren mit Hilfe von Forschungsdaten aus den jeweiligen Handlungsfeldern der sozialen Arbeit einfach und übersichtlich darzustellen. Das Problem der Nicht-Linearität zwischen diesen Variablen nicht zu beachten, führt zu Modellfehlspezifikationen und Fehlinterpretationen. Mit Hilfe des Datensatzes betrachten wir, wie in SPSS Polynome in die Schätzung aufgenommen werden. Die nicht lineare Regressions- und Korrelationsanalyse wird in SPSS als »Kurvenanpassung« bezeichnet. Dazu geben Sie die folgende Befehle ein: Analysieren → Regression → Kurvenanpassung. Es öffnet sich die in Abbildung 8.20 dargestellte Dialogbox der Kurvenanpassung. Aus der Variablenliste wird anschließend durch Markieren und Klicken auf den Pfeilschalter die Variable »Anzahl der Rückfälle« in das Feld abhängige Variable(n) und »Dauer der Sozialtherapie« in das Feld der unabhängigen Variablen übertragen. Aus den verfügbaren Modellen werden nun Linear und Quadratisch ausgewählt. Weiterhin soll die Konstante in die Gleichung eingeschlossen werden. Diese Voreinstellung kann durch einen entsprechenden Mausklick aktiviert werden. Auch die ANOVA-Tabelle soll in diesem Zusammenhang angezeigt werden. Durch die Aktivierung der ANOVA-Tabelle wird für jedes Modell eine zusammenfassende Tabelle zur varianzanalytischen Prüfung des Zusammenhangs ausgegeben. Sie entspricht der aus der Regressionsanalyse bekannten Tabelle. Mit Hilfe der Diagramme der Modelle wird der Zusammenhang in einem Streudiagramm dargestellt. Durch das Klicken auf die Schaltfläche Speichern öffnet sich die Dialogbox Kurvenanpasssung: Speichern (vgl. Abbildung 8.21).
298
Multivariate Datenauswertungen
®
®
Abbildung 8.20: Dialogbox »Kurvenanpassung« (IBM /SPSS )
Abbildung 8.21: Dialogbox »Kurvenanpassung: Speichern« (IBM / SPSS )
®
®
Die folgenden Auswahloptionen können als Variablen gespeichert werden: Ȥ Vorhergesagte Werte: Die Vorhersagewerte (Schätzwerte) des jeweiligen Modells. Ȥ Residuen: Abweichungen zwischen tatsächlichen und Vorhersagewerten. Ȥ Vorhersageintervalle: Es kann zwischen dem 95- (voreingestellt), 90- und 99-%-Konfidenzintervall für die vorhergesagten Werte gewählt werden. Mit der Befehlsfolge Daten → Fälle auswählen kann aus den verfügbaren Fällen eine Auswahl der Beobachtungseinheiten für die Schätzung erfolgen. Die Option Vorhersagen bis steht nur für Zeitreihenmodelle zur Verfügung. Mit ihr kann der Vorhersagezeitraum über das Ende der Zeitreihe hinaus verlängert werden. Nach Anklicken von OK werden die Analysen durchgeführt. In der Ergebnisausgabe von SPSS werden anschließend die detaillierten Ergebnisse der Regressionen ausgegeben. Die wichtigsten Kennwerte wur-
Nicht lineare Funktionen
299
den dabei in Tabelle 8.13 zusammengefasst und bereits interpretiert. Weiterhin betrachten wir hier ganz grundsätzlich, wie Tabellen übersichtlich und leserfreundlich gestaltet sein sollten. Beispielsweise sollte die Anzahl der Nachkommastellen immer mit Bedacht gewählt werden. Weiterhin ist es wichtig, für eine bestimmte Kennzahl die Anzahl der Nachkommastellen einheitlich zu gestalten. Für wissenschaftliche Veröffentlichungen, aber auch für Abschlussarbeiten gibt es mittlerweile Standards, die die Formatierung und einheitliche formale Tabellengestaltung vorgeben. Eine Standardformatierung, die auch in anderen Disziplinen herangezogen wird, ist die der American Psychological Association (APA). Die APA publiziert in unregelmäßigen Abständen von mehreren Jahren einen Leitfaden zur Veröffentlichung wissenschaftlicher Artikel, das sogenannte Publication Manual. Dort enthalten sind Vorgaben für fast jede Frage zum Aufbau einer wissenschaftlichen Arbeit, Schreibstil, Zitieren oder eben zur verständlichen Darstellung von empirischen Ergebnissen als Tabelle. Sollen empirische Ergebnisse leserfreundlich präsentiert werden, gilt der Grundsatz: Weniger ist mehr. Gemäß dem Publication Manual sind hier die folgenden Aspekte zu beachten: Für den Leser der Studie kann es anstrengend sein, wenn viele Tabellen durchgearbeitet werden müssen. Daher sollten im Verlauf nicht alle Tabellen, die im Rahmen der Analyse im Ausgabefenster dargestellt werden, aufgenommen werden. Alle Analyseschritte können Sie jedoch selbstverständlich anhand der Syntaxbefehle in der Datei Polynomsyntax nachvollziehen. Letztlich lassen sich bestimmte Informationen (wie das Ergebnis einer einzigen Regressionsanalyse) auch leicht in den Text integrieren. Im Publication Manual vieler internationaler Zeitschriften ist eindeutig beschrieben, dass Tabellen für sich verständlich sein sollen. Abkürzungen müssen daher auch dort erklärt werden. Im Programm SPSS kann man sich die Arbeit jedoch erleichtern und Tabellen direkt nach APA ausgeben lassen. Dazu muss die folgende Klicksequenz angewählt werden: Bearbeiten → Optionen → Pivot Tabellen. In dem sich neu öffnenden Fenster wird nun die Schaltfläche der Pivot-Tabellen im APAFormat ausgewählt (vgl. Abbildung 8.22). Dort kann man die allgemeine Vorlage der jeweiligen Ergebnistabellen einstellen.
300
Multivariate Datenauswertungen
®
®
Abbildung 8.22: Dialogbox »Pivot-Tabellen APA-Format« (IBM /SPSS )
8.7 Logistische Regressionsanalysen 8.7.1 Vorüberlegungen und Erklärungsebenen für Kriminalität Die Erforschung der Ursachen und der Entstehungsbedingungen von Jugendkriminalität ist immer wieder Thema in der breiten Öffentlichkeit. Die Eintragungen im Zentral- und Erziehungsregister, die in der Regel mindestens fünf Jahre erhalten bleiben, dienen dabei der Untersuchung von Rückfällen der Entlassenen aus der Haft. Rückfallprävention ist eine der wichtigsten Aufgaben des Strafrechts und der jeweiligen involvierten Behörden (Gericht, Jugendgerichtshilfe und andere Strafbehörden). Mit den personenbezogenen Daten soll überprüft werden, wie strafrechtliche Sanktionen mit dem Rückfallverhalten der Registrierten zusammenhängen. Je nach Blickwinkel, theoretischen Perspektiven sowie den herangezogenen empirischen Methoden konstruiert die Kriminologie unterschiedliche Typen krimineller Verhaltensweisen (Blumstein et al. 2016; Moffitt 1993). Hinsichtlich der Verlaufsformen gibt es kürzere, auf die Jugendlichen und Heranwachsenden beschränkte Phasen und persistierende kriminelle Karrieren. Die zweite Gruppe
Logistische Regressionsanalysen
301
zeigt bereits in der Kindheit antisoziales Verhalten, das sich weit in das Erwachsenenalter fortsetzt. Als Entstehungsbedingungen dieses chronischen kriminellen Verhaltens werden überwiegend Sozialisationsdefizite, individuelle psychische und soziale Faktoren genannt (Sampson und Laub 1993). Nach Meier (2018, 37) gilt es drei Erklärungsebenen für Kriminalität zu unterscheiden, nämlich die Mikro-, Makro- und Konstruktionsebene. Auf der Mikroebene wird das individuelle Verhalten analysiert. Die Ursachen für Kriminalität liegen demnach in den »individuellen Besonderheiten der betreffenden Menschen« oder in den »Besonderheiten der sozialen Problemlagen, in denen es zu kriminellem Handeln kommt«. Auf der Makroebene werden die Ursachen von Kriminalität aus der Perspektive der gesellschaftlichen Rahmenbedingungen betrachtet. Auf der Konstruktionsebene werden die von den behördlichen Instanzen vorgenommenen Zuschreibungen kritisch hinterfragt und reflektiert (»Kriminalität als Ergebnis von Etikettierungsprozessen«). Jugendstrafe und JugendStrafvollzug haben in diesem Zusammenhang einen präventiven Charakter mit der Zielsetzung, den Gefangenen zu befähigen, nach Entlassung ein straffreies Leben zu führen. Stelly und Thomas (2015, 13 ff.) zeigen anhand der Re-Analyse der Tübinger Jungtäter-Vergleichsuntersuchung, dass das Vorliegen von Problemen in der Kindheit und Jugend die Fortführung kriminellen Verhaltens nicht unbedingt beeinflusst. Faktoren wie familiäre Belastungen, Kontakte zu Peergroups, frühkindliche Verhaltensauffälligkeiten oder Delinquenz als Jugendlicher und Heranwachsender hatten keinen Einfluss auf die spätere Delinquenzentwicklung. Nach der Verbüßung von Freiheitstrafen verändern sich die Zusammenhänge gravierend. Vielmehr zeigt sich, dass durch die Inhaftierung eine Integration und ein Aufbau positiver sozialer Bindungen vielfach nicht stattfinden. Die kumulativen Ausgrenzungsprozesse zeigen einen größeren Erklärungsfaktor für die Rückfälligkeit als vorangegangene biografische Einflüsse. Anhand welcher Kriterien gefährliche Rückfalltäter identifiziert werden, hängt auch davon ab, welche Analysemethoden im Einzelnen herangezogen werden. Dabei werden Kohortenstudien und multifaktorielle Ansätze, Biografieforschung und psychologische und soziologische Untersuchungen durchgeführt mit der Zielsetzung, präventive Handlungsempfehlungen zu entwickeln. Bei der Gruppe der Intensiv- und Mehrfachtäter handelt es sich vorrangig um Personen, die zahlreiche Straftaten über einen längeren Zeitraum begangen haben. Diese spezifische Gruppe von Tätern weist vielfältige Problemlagen – etwa frühe Verhaltensauffälligkeiten, einen sozio-ökonomisch belasteten familiären Hintergrund, Gewaltbereitschaft, Schwierigkeiten in der Schule bzw. Schulversagen auf. Die aufgeführten Problemlagen stellen die Vollzugseinrichtungen vor große Herausforderungen, vor allem, wenn die Inhaftierungsdauer sehr lang ist. Sowohl in der Öffentlichkeit und der Forschung, aber auch bei den Strafverfolgungsbehörden gibt es vielfältige Bemühungen, um das Phänomen von sogenannten Intensiv- bzw. Mehrfachtätern zu beleuchten.
302
Multivariate Datenauswertungen
8.7.2 Datenbasis und Vorgehensweise Die Untersuchungsdaten entstammen einer Evaluationsstudie der sozialtherapeutischen Einrichtung der JVA Neustrelitz. Der in diesem Abschnitt herangezogene Teildatensatz basiert auf einer detaillierten Auswertung der Bundeszentralregisterauszüge und deren Verknüpfung mit Straf- und Gefangenenpersonalakten. Anhand dieses Datensatzes soll vor allem die folgende Frage näher analysiert werden: Welchen Einfluss haben vollzugsinterne sozialtherapeutische Maßnahmen auf die zukünftige Legalbewährung der jugendliche Straftäter? Es lagen insgesamt auswertungsfähige Datensätze von 120 Teilnehmern vor. Der Anteil der Verurteilungen zu einer mehr als fünfjährigen Jugendstrafe beträgt in unseren Datensatz ca. 12 % (vgl. Abbildung 8.23). Im bundesweiten Durchschnitt liegt der Anteil der Verurteilungen zu mehr als fünfjährigen Jugendstrafen bei unter 2 % (vgl. Schmidt-Esse 2018, 6). Den größten Anteil hatten Verurteilungen mit einer Dauer von zwölf bis 36 Monaten. Von sozialtherapeutisch Behandelten ab 2008 lagen insgesamt 36 Datensätze vor, außerdem aus zwei Untersuchungsgruppen (Kontrollgruppen), die sozialtherapeutisch nicht behandelt wurden, insgesamt 61 Datensätze und schließlich 23 Datensätze von Rückverlegten aus der Sozialtherapie (Programmabbrecher). Die Programmteilnehmer und Kontrollgruppen weisen von der Altersstruktur keine erkennbaren Unterschiede auf. Bei der Betrachtung der Deliktstrukturen muss berücksichtigt werden, dass bei Vorhandensein einer vorherigen rechtskräftigen Verurteilung gemäß § 31 II JGG die Bildung einer Einheitsjugendstrafe vollzogen wird. So kann es sein, dass Delikte wie Diebstahl zu einem höheren Strafrahmen führen, weil vorherige Aburteilungen mitberücksichtigt werden. In unserem Datensatz gab es insgesamt 89,9 % (n = 105) Untersuchungseinheiten, die vor dem Anlassdelikt bereits vorbestraft waren. Bei diesen Probanden waren in den Akten strafbare Handlungen dokumentiert, für die aus Altersgründen keine Verurteilung erfolgt war. Eine differenziertere Betrachtung der Deliktstruktur zeigt, dass die Untersuchungsgruppe im Vergleich zur Vergleichsgruppe 3 eine höhere Anzahl an Tötungsdelikten aufweist (19,4 %, n = 7 vs. 3,2 % n = 1). Weiterhin weist die Gruppe der sozialtherapeutisch Behandelten zwei Fälle auf, die den Sexualstraftätern zuzuordnen sind. Hinsichtlich der anderen Deliktanlässe gibt es zwischen den Untersuchungsgruppen und der Kontrollgruppe wiederum keinen Unterschied, allenfalls einen fallzahlbedingten. Bei den strafrechtlich verfolgten Handlungen handelte es sich mehrheitlich (30 %, n = 36) um Körperverletzungsdelikte, gefolgt von Raub und Erpressungsdelikten (26,7 %, n = 32). Die übrigen Delikte gehörten in keine dieser Kategorien. In vielen sozialwissenschaftlichen Untersuchungen werden häufig Tatbestände untersucht, die in dichotomen Variablen abgebildet werden. Eine dichotome Variable ist dadurch gekennzeichnet, dass sie nur zwei Zustände annehmen kann. Daher ist es sinnvoll, wenn
Logistische Regressionsanalysen
303
Abbildung 8.23: Dauer der Jugendstrafe (eigene Darstellung)
die Variable 0/1 codiert ist. Nehmen wir an, die Variable soll beschreiben, ob eine Person eine positive oder negative Legalprognose aufweist, so würde man sinnvollerweise eine negative Prognose mit 0 und eine positive mit 1 codieren. Aufgrund des Fehlens einer intervallskalierten Variablen können die Methoden der multiplen linearen Regression hier nicht angewandt werden. Die Methode der sogenannten logistischen Regressionsanalyse kann im Fall einer dichotomen abhängigen Variablen jedoch herangezogen werden. Um die Auswertungsergebnisse bei SPSS bei der Anwendung der logistischen Regression zu verstehen, betrachten wir zunächst die sogenannten Odds Ratios (OR), die für den Zusammenhang zwischen einer Heimunterbringung vor Inhaftierung und der Legalprognose berechnet werden. Dazu wird mit der folgenden Klicksequenz zunächst eine Kreuztabelle der beiden Variablen erstellt: Analysieren → Deskriptive Statistiken → Kreuztabellen. Es erscheint ein Dialogfenster (Abbildung 8.24). Die Variable »Legalprognose« wird in das Feld für Zeilen und die Variable »Heimunterbringung« in das Feld für Spalten verschoben. Weiterhin werden über die Schaltfläche Zellen zusätzlich zu den beobachteten Häufigkeiten die Spaltenprozente aktiviert (Abbildung 8.25). Danach kann die Analyse gestartet werden.
304
Multivariate Datenauswertungen
®
®
Abbildung 8.24: Dialogfenster »Kreuztabellen« (IBM /SPSS )
®
®
Abbildung 8.25: Dialogfenster »Kreuztabellen: Zellen anzeigen« (IBM /SPSS )
Tabelle 8.14 gibt die entsprechende Kreuztabelle wieder. Es zeigt sich, dass 27 Jugendliche eine negative Legalprognose erhalten, obwohl sie nicht in Heimen betreut wurden bzw. gewohnt haben. In der Spalte »Gesamt« sind die Randsummen der jeweiligen Häufigkei-
305
Logistische Regressionsanalysen
ten dargestellt. Demzufolge erhalten beispielsweise 41 Jugendliche eine negative Legalprognose, unabhängig davon, ob sie in Heimen betreut wurden oder nicht. In der zweiten Zeile jeder Zelle können die Spaltenprozente abgelesen werden. Diese Prozentzahl zeigt die sogenannte »bedingte Wahrscheinlichkeit« an: Unter der Bedingung, dass ein Jugendlicher vor Inhaftierung nicht in Heimen betreut wurde, beträgt die Wahrscheinlichkeit, eine negative Legalprognose zu erhalten, 46,6 %. Tabelle 8.14: Kreuztabelle »Legalprognose und Heimunterbringung« (eigene Berechnungen) Verarbeitete Fälle Fälle Gültig
Legalprognose * im Heim/ betreuten Wohnen
Fehlend
Gesamt
N
Prozent
N
Prozent
N
Prozent
84
70,0 %
36
30,0 %
120
100,0 %
Legalprognose * im Heim/betreuten Wohnen Kreuztabelle im Heim/betreuten Wonen Legalprognose
Anzahl negativ
% innerhalb von im Heim/ betreuten Wohnen Anzahl
positiv Gesamt
% innerhalb von im Heim/ betreuten Wohnen Anzahl % innerhalb von im Heim/ betreuten Wohnen
nein
ja
27
14
Gesamt 41
46,6 %
53,8 %
48,8 %
31
12
43
53,6 %
46,2 %
51,2 %
58
26
84
100,0 %
100,0 %
100,0 %
Mit den bedingten Wahrscheinlichkeiten aus der Kreuztabelle können nun die Odds berechnet werden. Mit Odds bezeichnet man die Auftrittswahrscheinlichkeit, mit der ein bestimmtes Ereignis eintritt: Gleichung 8.10:
Odds (p) = p/(1−p) Im Beispiel ergibt sich folgende Wahrscheinlichkeit für einen Jugendlichen ohne Unterbringung im Heim/im betreuten Wohnen, eine negative Legalprognose zu erhalten:
306
Multivariate Datenauswertungen
Demgegenüber wird die Wahrscheinlichkeit, eine negative Legalprognose zu erhalten, mit Heimunterbringung auf 1,16 geschätzt. Eine Zusammenfassung der Odds kann in Tabelle 8.16 nachvollzogen werden. Die Tabelle 8.15 zeigt die Wahrscheinlichkeiten in schematischer Form auf. Tabelle 8.15: Bedingte Wahrscheinlichkeiten (eigene Darstellung) Heimbetreuung Nein (H = 0)
Heimbetreuung Ja (H = 1)
Legalprognose negativ (L= 0)
p00 = P (L = 0 | H = 0)
p01 = P (L = 0 | H = 1)
Legalprognose positiv (L= 1)
p10 = P (L = 1 | H = 0)
p11 = P (L = 1 | H = 1)
Tabelle 8.16: Auftrittswahrscheinlichkeit Odds (eigene Berechnungen) Heimbetreuung Nein (H = 0)
Heimbetreuung Ja (H = 1)
Legalprognose negativ (L = 0)
0,87
1,16
Legalprognose positiv ( L = 1)
1,15
0,86
Darauf aufbauend berechnet sich die Odds Ratio als Chance, eine negative Legalprognose zu erhalten, wenn man in Heimen betreut wurde, im Verhältnis zu einer negativen Legalprognose für nicht in Heimen Lebende. Dieses Verhältnis beschreibt den Faktor, um den die Chance einer negativen Legalprognose steigt, wenn man vor der Inhaftierung in Heimen betreut wurde. Die Odds Ratio als Chancenverhältnis kann daher wie folgt definiert werden:
Die Chance, eine negative Legalprognose zu erhalten, ist bei Jugendlichen, die in Heimen betreut wurden, um 1,34 größer als bei Jugendlichen, die nicht in Heimen betreut wurden. Der Wertebereich der Odds Ratio liegt zwischen 0 und unendlich. Wenn OR < 1 Werte vorliegen, dann erhöht eine Heimunterbringung positive Legalprognosen. Bei OR = 1 ist die Chance für eine positive Prognose bei beiden Unterbringungsarten gleich groß. Bei OR > 1 ist die Chance für eine negative Legalprognose bei Heimunterbringung deutlich größer. Anhand der Kreuztabellen lassen sich in diesem Kontext einfache Zusammenhänge zwischen zwei Variablen, die die Chancenverhältnisse aufzeigen, leicht berechnen.
Logistische Regressionsanalysen
307
Wenn jedoch weitere unabhängige Variablen, die auch unterschiedliche Skalenniveaus aufweisen, im Modell berücksichtigt werden sollen, werden die Berechnungen entsprechend komplexer. Dafür bietet das SPSS die Möglichkeit, eine logistische Regressionsanalyse durchzuführen. 8.7.3 Modell der logistischen Regression Bei der Erklärung von Variablen, die eine dichotome Merkmalsausprägung aufweisen, kann eine lineare Regressionsanalyse nicht durchgeführt werden, da die vorhergesagten Werte aus der Schätzfunktion zwischen 0 und 1 definiert sein müssten. Im Gegensatz zur linearen Regression wird hier keine unmittelbare Je-desto-Hypothese zwischen der abhängigen Variable y und den Prädiktoren x aufgestellt, sondern zwischen den Prädiktoren und der Wahrscheinlichkeit, dass die abhängige Variable den Wert 1 annimmt (y = 1). Daher ist es möglich, für die funktionale Form den folgenden Ansatz (Gleichung 8.8) zu wählen: Gleichung 8.11:
Durch Umformung erhält man Gleichung 8.12 und Gleichung 8.13: Herleitung Auftretenswahrscheinlichkeit und Effektkoeffizienten e β
Da wir an der Wahrscheinlichkeit p interessiert sind, wird die Gleichung nach p aufgelöst. Da eIn x = lnex = x gilt, ergibt sich:
308
Multivariate Datenauswertungen
Multiplikation mit 1 − p
Ausmultiplizieren
Um pe β0 +β1xi ausklammern zu können, wird es auf der linke Seite addiert
Dividieren durch (1 + e β0 +β1xi)
Gleichung 8.12:
Gleichung 8.13:
Yi : dichotome abhängige Variable Y der i-ten Untersuchungseinheit X1i, X2i, ∙∙∙ Xki Werte der unabhängigen Variablen β0, β1, ∙∙∙, βk: Koeffizienten der logistischen Regression n: Anzahl der Untersuchungseinheiten In der logistischen Regression wird die abhängige Variable durch zweifache Transformation (Bildung von Odds und Logarithmierung der Odds) zu den unbeobachteten Auftrittswahrscheinlichkeiten umgeformt. Die Logarithmierung der Odds (Logit) führt dazu,
Logistische Regressionsanalysen
309
dass der Wertebereich der zu erklärenden Variablen von 0/1 auf den Wertebereich −∞ bis +∞ verändert wird. Diese Umformungen verändern somit die funktionale Form der Regressionsanpassungslinie. Die umgeformte Gleichung 8.11 zeigt die Wahrscheinlichkeit, dass die Legalprognose den Wert 1 annimmt. Wenn die Linearkombination (z in der Gleichung 8.13) der unabhängigen Variablen den Wert 0 erreichen, dann beträgt die Auftrittswahrscheinlichkeit P(Y = 1) = 0,5.
Die logistische Funktion stellt eine Wahrscheinlichkeitsbeziehung zwischen der abhängigen und der unabhängigen Variablen dar. Es ist zu beachten, dass es sich bei der Auftretenswahrscheinlichkeit in Gleichung 8.11 um einen nicht linearen Zusammenhang zwischen dem Eintreten von y und xi handelt (S-Kurve), das Zustandekommen der aggregierten Einflussstärke zi (Gleichung 8.13) aber als linear unterstellt wird. Die logistische Regressionsanalyse unterscheidet sich von der Methode der kleinsten Quadrate dadurch, dass sie auf der Maximum-Likelihood-Schätzung (auch MLE genannt, engl. Maximum-likelihood estimation) beruht. Die Gemeinsamkeit von OLS und MLE besteht darin, dass wie bei der linearen Regressionsanalyse eine funktionale Form gesucht wird, die möglichst gut die Daten abbildet. Die logistische Funktion ist s-förmig, symmetrisch und verläuft asymptotisch gegen y = 0 und y = 1 (Abbildung 8.26).
Abbildung 8.26: Logistische Funktion (Quelle: http://www. wolframalpha.com/) Bemerkung: Mit Hilfe von Wolfram Mathematica kann man die entsprechenden Funktionen darstellen lassen.
Anhand des Verlaufs der logistischen Funktion kann erkannt werden, wie gut die jeweilige Schätzung ist. Je steiler in diesem Zusammenhang der Anstieg der Funktion um z = 0 ist, desto trennschärfer ist auch die Schätzung mit Hilfe der logistischen Regression. Wenn eine Untersuchungseinheit in den Werten der unabhängigen Variablen sehr viele Risikofaktoren zur Erhöhung der Rückfallrate aufweist, dann wird der Linearkombinationswert z sehr hoch sein und somit die Wahrscheinlichkeit für das eintretende Ereignis
310
Multivariate Datenauswertungen
ebenfalls hoch. In unserem bivariaten Fall bedeutet ein hoher Wert der Heimunterbringung vor Inhaftierung eine korrespondierende negative Legalprognose. Wenn Logit zur Interpretation herangezogen wird, können die Koeffizienten analog zur OLS-Regression interpretiert werden. Die Konstante ist in diesem Fall der y-Achsenabschnitt. Wenn die unabhängige Variable sich dabei um eine Einheit verändert, dann zeigen die Regressionskoeffizienten in Form der logarithmierten Odds die Steigung der Geraden an. Hier ist zu beachten, dass die logarithmierten Odds nicht inhaltlich interpretierbar sind. Nur die Richtung des Zusammenhangs ist unmittelbar interpretierbar. Um die geschätzten Koeffizienten sinnvoll interpretieren zu können, müssen die Effektkoeffizienten (e β ) oder Odds-Ratios (OR) berechnet werden.
Aufgrund der Entlogarithmisierung bzw. Berechnung der Odds Ratios wird aus dem linear-additiven Modell ein multiplikatives Modell. Aus der Definition der OR wird erkennbar, dass die e β-Koeffizienten (Effektkoeffizienten) anders zu interpretieren sind als die β-Koeffizienten. Diese beziehen sich auf eine Veränderung der Odds und nicht auf die der Logits. Die multiplikative Verknüpfung hat zur Konsequenz, dass e βi = 4 eine Vervierfachung der Odds bedeutet, wenn die unabhängige Variable sich um eine Einheit verändert. Ein e βi < 1 zeigt einen negativen Zusammenhang an, e βi >1 steht für einen positiven Zusammenhang, und schließlich zeigt e βi = 1 keinen Zusammenhang an. Die e β-Koeffizienten können als Odds Ratios interpretiert werden. Odds sind Auftrittswahrscheinlichkeiten und Odds Ratios sind Chancenverhältnisse, die jeweils von der Basiswahrscheinlichkeit abhängig sind. Somit stellen Odds-Ratio das Verhältnis zweier Chancen dar. Ein OR von 1,34 bedeutet eben nicht, dass Jugendliche, die in Heimen betreut wurden, vor Inhaftierung eine 1,34-mal höhere Wahrscheinlichkeit für eine negative Legalprognose aufweisen. Je nach Basiswahrscheinlichkeit ist das relative Risiko zwischen 1 und 1,34 möglich. Daher ist anhand der in SPSS erstellten Kennzahlen nur die Effekt-Richtung bzw. Vorzeichen-Interpretation ratsam. Sobald komplexere Modelle geschätzt werden, in denen sehr viele unabhängige Variablen enthalten sind, wird eine Interpretation über die Vorzeichen hinaus aufgrund der Basiswahrscheinlichkeit sehr schwer. Aus diesem Grund ist die Berechnung von marginalen Effekten eine Alternative zu Odds Ratios.
Logistische Regressionsanalysen
311
MERKEN Ergebnisinterpretation bei logistischen Regressionen: – Bei b > 0 steigen die logarithmierten Chancen für y = 1 um b Einheiten, wenn die unabhängige Variable um eine Einheit ansteigt. – Das heißt: Bei b > 0 lässt sich zu den Wahrscheinlichkeiten nur sagen, dass sie bei Anstieg der Kovariate steigen bzw. bei b < 0 sinken. – Sie steigen/sinken – bei metrischen Kovariaten – jedoch nicht um b, da die Regressionskurve nicht linear, sondern s-förmig verläuft (!). – Bei einem Odds Ratio > 1 steigen die Chancen für y = 1 um eβi, wenn die unabhängige Variable um eine Einheit ansteigt – Bei einem Odds Ratio < 1 sinken die Chancen für y = 1 entsprechend um eβi, und bei einem Odds Ratio = 1 besteht kein Zusammenhang zwischen der Kovariate und der Chance für y = 1.
Unter dem sogenannten average marginal effect (AME) versteht man den durchschnittlichen Einfluss der unabhängigen Variable auf die Wahrscheinlichkeit des Auftretens P(y = 1|x), so dass die Legalbewährung bei gegebenen x-Werten positiv ausfällt. Hierbei sollte man sich jedoch im Klaren sein, dass der marginale Effekt von den Merkmalsausprägungen der xi-Werte abhängt und sich in einer multiplen Logit-Regression auch die Ausprägungen der anderen unabhängigen Variablen verändern. Der AME gibt den Effekt von xi auf einem durchschnittlichen Niveau an; der Durchschnitt kann jedoch auf zwei Arten berechnet werden: Entweder man berechnet den Durchschnittseffekt als Mittelwert der marginalen Effekte über alle Beobachtungen oder als marginalen Effekt am Mittelwert aller Variablen. Wenn Marginaleffekte über alle im Modell enthaltenen Variablen berechnet werden, werden sie als marginal effect at the mean (MEM) bezeichnet und sind nicht identisch mit dem average marginal effect (AME) (Wooldridge 2003, 470 ff.). Es zeigt sich, dass der durchschnittliche marginale Effekt (AME) bei Vorhandensein der Omitted variable bias-Problematik durch die unbeobachtete Heterogenität nicht verzerrt wird. Aus diesem Grund ist der AME geeignet, um Koeffizienten von schrittweise aufgebauten Modellen miteinander zu vergleichen. Es ist zu beachten, dass der MEM diese Eigenschaft nicht besitzt, vielmehr verändert er sich, wenn in ein Logit-Modell weitere unkorrelierte Prädiktoren aufgenommen werden. Insofern ist MEM für den Vergleich zwischen Modellen nicht geeignet. Was in diesem Zusammenhang sogar noch wichtiger ist, neben den Vorteilen, dass AME robust gegenüber unbeobachteter Heterogenität sind, ist die Tatsache der intuitiven Interpretationsmöglichkeiten des jeweiligen Logit-Modells. AME können als durchschnittlicher Effekt auf die Wahrscheinlichkeit betrachtet werden. Insofern steigt die Wahrscheinlichkeit von y = 1 durchschnittlich um AME-Punkte an,
312
Multivariate Datenauswertungen
wenn sich die unabhängige Variable um eine Einheit verändert. Daher ist die Anwendung von AME in logistischen Regressionsmodellen den Odds Ratios vorzuziehen. MERKEN Formal ist eine Chance (odds) als Verhältnis von zwei Wahrscheinlichkeiten definiert (im Beispiel: Wahrscheinlichkeit einer positiven Legalprognose durch Gegenwahrscheinlichkeit). Odds Ratio stellen das Verhältnis zweier Chancen dar. Unter dem average marginal effect (AME) versteht man den durchschnittlichen Einfluss der unabhängigen Variablen auf die Wahrscheinlichkeit des Auftretens eines Ereignisses. Wenn Marginaleffekte über alle im Modell enthaltenen Variablen berechnet werden, werden sie als marginal effect at the mean (MEM) bezeichnet. AME sind aufgrund ihrer Robustheit, Interpretierbarkeit und Unversehrtheit gegenüber
unbeobachteter Heterogenität gegenüber OR und MEM vorzuziehen.
8.7.4 Anwendungsbeispiel In diesem Abschnitt wird das Verhältnis von Koeffizienten, OR und AME an einem einfachen Beispiel betrachtet. Dafür gehen wir von dem bereits bekannten Modell aus und erweitern dieses um weitere unabhängige Variablen. Die Einführung der Unterschiede zwischen den jeweiligen Gruppen der sozialtherapeutisch Betreuten und der Kontrollgruppen wird schrittweise im Modell aufgezeigt. Dabei untersuchen wir, inwieweit die Legalprognose in Abhängigkeit von Broken-home-Situation, Alter der Inhaftierten und Teilnahme an sozialtherapeutischen Maßnahmen abhängt. Während bei der linearen Regression die Regressionsparameter nach der Methode der kleinsten Quadrate bestimmt werden, erfolgt die Schätzung bei der logistischen Regression nach der Maximum-Likelihood- Methode. In der logistischen Regression werden diejenigen Regressionskoeffizienten gesucht, bei denen das Produkt der Wahrscheinlichkeiten einer jeweils konkreten Gruppe (positiv oder negative Legalprognose) zugeordnet werden kann, wobei die Produkte maximiert werden (Gleichungen 8.14 und 8.15). Gleichung 8.14:
Logistische Regressionsanalysen
313
Der Wert der Likelihood-Funktion (L) kann maximal den Wert 1 annehmen, wenn jede Beobachtungseinheit aus der Stichprobe einer konkreten Gruppe (Y = 1 oder Y = 0) zugeordnet werden kann. Minimal kann diese Funktion einen Wert von 0 annehmen. Innerhalb der logistischen Regression wird für die Schätzung die logarithmierte Likelihood-Funktion (LL LogLikelihood-Funktion) verwendet. Die gesuchten Regressionskoeffizienten werden durch das Maximieren der LogLikelihood-Funktion berechnet. Gleichung 8.15:
Die beiden zu addierenden Summen entsprechen dabei den verschiedenen Vorhersagewerten für die beiden Ausprägungen der abhängigen Variablen, in unserem Beispiel der Legalprognose (yi = 1 und yi = 0). Die LogLikelihood-Funktion kann Werte zwischen 0 (bestmögliches Modell) und –∞ annehmen. Der Wert 0 wird erreicht, wenn für alle beobachteten Fälle yi = 1 auch eine Wahrscheinlichkeit P = 1 durch das Regressionsmodell vorhergesagt wird und für alle beobachteten Fälle yi = 0 eine Wahrscheinlichkeit von p = 0 geschätzt wird. Je größer die Differenzen zwischen den vorhergesagten Wahrscheinlichkeiten und den Beobachtungswerten sind, desto kleiner ist auch die Funktion LL. In SPSS wird die Funktion LL allerdings mit –2 multipliziert, was den Wert –2LL ergibt. Diese Funktion kann Werte zwischen 0 und +∞ annehmen. Bei –2LL = 0 handelt es sich wiederum um ein perfekt angepasstes Modell. Je größer –2LL wird, desto schlechter ist das Modell an die Daten angepasst. Auf der –2LL-Funktion basieren in diesem Fall zwei wesentliche Kennziffern zur Güte des Gesamtmodells. Zum einen der Omnibus-Test der Modellkoeffizienten, welcher dem F-Test der linearen Regression entspricht sowie dem der Pseudo-R²-Maßzahlen zur Erklärungskraft des Modells. Der Omnibus-Test der Modellkoeffizienten testet die Nullhypothese, so dass alle b-Koeffizienten des Modells in der Grundgesamtheit = 0 ergeben. Für ein besseres Verständnis sollen hier die Arbeitsschritte und der Output von SPSS aufgezeigt werden, wenn ein logistisches Regressionsmodell angewandt wird. Unsere Fragestellung für das Beispiel sieht dabei wie folgt aus: Mit welcher Wahrscheinlichkeit erhält ein Jugendlicher eine positive Legalprognose? Die Legalprognose (0 = negativ und 1 = positiv) ist somit unsere abhängige Variable (vgl. Tabelle 8.17). Die unabhängigen Variablen sind Alter der Person bei der Inhaftierung, Teilnahme/Nichtteilnahme an sozialtherapeutischen Maßnahmen, Abbruch der sozialtherapeutischen Maßnahmen und Betreuung/Nichtbetreuung in Heimen vor der Inhaf-
314
Multivariate Datenauswertungen
tierung. Um die unterschiedlichen Gruppen miteinander zu vergleichen, muss für jede Gruppe eine Dummy-Variable gebildet werden, welche die Zugehörigkeit zur jeweiligen Gruppe aufzeigt. Innerhalb der logistischen Schätzung werden dann zwei Kategorien als unabhängige Variable eingegeben, wobei die dritte Kontrastvariable die Referenzkategorie bildet. Alle Modellvariablen werden in Tabelle 8.18 dargestellt. Für die Variable »Alter bei Haftbeginn« haben wir ein Histogramm verwendet, um die Daten bestmöglich zu ver anschaulichen. Histogramme bieten bei metrischen Variablen die Möglichkeit, die Normalverteilungsannahme visuell zu überprüfen. Tabelle 8.17: Legalbewährung (eigene Darstellung) Legalbewährung Untersuchungsgruppe 1 – sozialtherapeutisch Behandelte (ab 2008) Vergleichsgruppe 2 – Rückverlegte aus der Sozialtherapie (ab 2008) Vergleichsgruppe 3 – sozialtherapeutisch nicht Behandelte (ab 2010)
0 negativ
1 positiv
7
23
23,3 %
76,7 %
18
2
90,0 %
10,0 %
16
19
45,7 %
54,3 %
41
44
48,2 %
51,8 %
Für 35 Beobachtungseinheiten liegen keine Informationen zur Legalbewährung vor. Tabelle 8.18: Übersicht der Variablen (eigene Darstellung) Typ der Variable
Aussage der Variable
Name der Variable im Datensatz
Skalierung
Abhängige Variable
Positive Legalbewährung
v_080c
Dichotom
Unabhängige Variablen
Alter der Person bei Inhaftierung
alter_HBc
Metrisch
Teilnahme/Abbruch an sozialtherapeutischen Maßnahmen
v_006
Nominal
Heimbetreuung bzw. nie bei den Eltern gelebt
v_010_EH
Dichotom
Der Mittelwert (vgl. Abbildung 8.27) zeigt, dass die durchschnittliche Person bei der Inhaftierung 19,5 Jahre alt war. Die Altersvariable wird hier vor der Berechnung der logistischen Regression zentriert und standardisiert. Dadurch können wir die Koeffizienten dann leichter interpretieren. Mit der Standardisierung können wir die unabhängigen Variablen
Logistische Regressionsanalysen
315
variieren und interpretieren nicht mehr in Jahren, sondern in Standardabweichungen. In SPSS kann die Standardisierung sehr leicht durchgeführt werden. Nach der Zentrierung der metrischen Variable Altersangabe bei Haftbeginn klicken wir über die Klicksequenz Analysieren → Deskriptive Statistiken → Deskriptive Statistik.
Abbildung 8.27: Altersangabe bei Haftbeginn (eigene Darstellung)
Nun wird nach der Auswahl unten links ein Haken bei »Standardisierte Werte als Variable speichern« gesetzt (Abbildung 8.28). In der Variablenansicht entsteht eine neue standardisierte und zentrierte Altersangabe.
316
Multivariate Datenauswertungen
®
®
Abbildung 8.28: Dialogfenster »Standardisierte Werte als Variable speichern« (IBM /SPSS )
Nachdem wir unsere Daten deskriptiv betrachtet und vorbereitet haben, können wir über das Dialogfenster (Abbildung 8.29) die Regression durchführen. Analysieren → Regression → Binär Logistisch
Abbildung 8.29: Dialogfenster »Regression – binär logistisch« (IBM /SPSS )
®
®
317
Logistische Regressionsanalysen
In dem sich öffnenden Fenster wählen wir die abhängige Variable und die unabhängigen Variablen aus (Abbildung 8.30). Damit die Referenzkategorie (Konstante) für die Interpretation eindeutig definiert ist, können wir über die Schaltfläche Kategorial (Abbildung 8.31), die mit 0 kodierten, also diejenigen, die nicht an sozialtherapeutischen Maßnahmen teil genommen haben, nicht in Heimen vor der Inhaftierung betreut wurden und bei Haftbeginn im Durchschnitt 19,5 Jahre alt sind, festlegen. Mit der Bestätigung OK wird die logistische Regressionsanalyse durchgeführt. Im Ausgabefenster werden anschließend zahlreiche Tabellen dargestellt. Im Folgenden werden nur die wichtigsten interpretiert.
®
®
Abbildung 8.30: Dialogfenster »Logistische Regression« (IBM /SPSS )
®
®
Abbildung 8.31: Dialogfenster »Referenzkategorie festlegen« (IBM /SPSS )
318
Multivariate Datenauswertungen
Tabelle 8.19: Logistische multiple Regression (eigene Darstellung) Variablen in der Gleichung Regressionskoeffizient B
Standardfehler
Wald
df
Sig.
Exp(B)
,62
,27
5,03
1
,02
1,85
im Heim/betreuten Wohnen
–,19
,61
,10
1
,76
,83
Untersuchungsgruppe 1 – sozialtherapeutisch Behandelte
1,25
,59
4,47
1
,03
3,50
Vergleichsgruppe 2 – Rückverlegte aus der Sozialtherapie
–2,40
,87
7,55
1
,01
,09
,12
,37
,10
1
,75
1,13
Schritt 1a Alter beim Haftbeginn (zentriert und standardisiert)
Konstante
a. In Schritt 1 eingegebene Variablen: z-Faktorwert: Alter beim Haftbeginn zentriert, im Heim/betreuten Wohnen, Untersuchungsgruppe 1 – sozialtherapeutisch Behandelte (ab 2008), Vergleichsgruppe 2 – Rückverlegte aus der Sozialtherapie (ab 2008). Tabelle 8.20: Omnibus-Test der Modellkoeffizienten
Schritt 1
Chi-Quadrat
df
Sig.
Schritt
29,23
4
,00
Block
29,23
4
,00
Modell
29,23
4
,00
Tabelle 8.21: Modellzusammenfassung Schritt
–2 Log-Likelihood
Cox und Snell R-Quadrat
Nagelkerke R-Quadrat
1
87,18a
,29
,39
a. Schätzung beendet bei Iteration Nummer 5, weil die Parameterschätzer sich um weniger als ,001 änderten.
Die Tabelle 8.19 zeigt, dass das Alter beim Haftbeginn, die Teilnahme an sozialtherapeutischen Maßnahmen und die Vergleichsgruppe der Maßnahmenabbrecher signifikant von 0 verschiedene Regressionskoeffizienten aufweisen. Pro Anstieg des Durchschnittsalters um eine Standardabweichung erhöht sich die Wahrscheinlichkeit für eine positive Legalprognose um b = 0,62. Wenn Sie aufmerksam mitgelesen haben, wissen Sie, dass die logis-
Logistische Regressionsanalysen
319
tische Funktionskurve s-förmig verläuft; somit erhöht sich die Wahrscheinlichkeit für eine positive Legalprognose nicht proportional, sondern je nach Altersbereich unterschiedlich stark. In dieser Tabelle finden Sie die Logit-Werte in der Spalte mit der Bezeichnung Regressionskoeffizient B, sowie die Odds-Werte in der Spalte Exp(B). Die Altersvariable und die Teilnahme an sozialtherapeutischen Maßnahmen zeigen dabei einen besonders positiven Zusammenhang: Je älter die Personen bei der Inhaftierung und Kontrolle der übrigen unabhängigen Variablen sind, desto größer ist die Wahrscheinlichkeit für eine positive Legalprognose. Die Betrachtung der Odds-Werte zeigt, dass der Wert 1 überschritten wird und hier ein positiver Zusammenhang besteht. Die Chance für eine positive Legalprognose ist bei Personen mit erfolgreicher Teilnahme an sozialtherapeutischen Maßnahmen um das 3,5-fache höher als für Personen, die nicht an Maßnahmen teilgenommen haben. Wir können die Regressionsgleichung nun wie folgt angeben.
Diese Gleichung5 fasst alle Informationen kurz und prägnant zusammen, und wir können für jede Konstellation die Auftrittswahrscheinlichkeit berechnen. In den vorangegangenen Kapiteln haben wir Ihnen gezeigt, dass sich gute empirische Forschungsberichte durch Kürze und Verständlichkeit auszeichnen. Aus diesem Grund haben wir Konzepte vorgestellt (durchschnittliche Marginaleffekte AME), die bei Weitem bessere Darstellungsformen für Interpretationen der Schätzgleichung bieten. Die schlechte Nachricht – die durchschnittlichen Marginaleffekte können Sie bequem nur in Statistikprogrammen wie Stata oder R berechnen. In SPSS kann nur mit Hilfe eines linearen Wahrscheinlichkeitsmodells die AME approximiert werden. Bevor die Marginaleffekte hier näher diskutiert werden, möchten wir zwei weitere wichtige SPSS-Ergebnisausgaben näher vorstellen. In Tabelle 8.20 ist der Omnibus-Test der Modellkoeffizienten dargestellt. Im Beispiel kann die Nullhypothese, dass alle Regressionskoeffizienten gleich 0 sind, abgelehnt werden, da das Chi-Quadrat in Höhe von 29,23 bei vier Freiheitsgraden) hoch signifikant ist. Da alle angezeigten Signifikanzen sehr klein sind, bedeutet dies, dass unser Modell besser ist als das Nullmodell. Bei Aufnahme der ausgewählten unabhängigen Variablen in unserem Modell steigt die Modellgüte. In Tabelle 8.21 sind die Parameter für die Modellgüte aufgezeigt. Hier finden Sie den maximierten –2LogLikelihood-Wert (87,18) und zwei R-Quadrat-Werte. Gemäß Cox und Snell beträgt die Varianzaufklärung 29 %. Wenn das Nagelkerke’sche R-Quadrat betrach5 In der Syntaxdatei log_reg finden Sie den Algorithmus, anhand dessen Sie die Zuordnungswahrscheinlichkeit in SPSS berechnen können.
320
Multivariate Datenauswertungen
tet wird, liegt sie bei 39 %. Die Ausgabe von zwei Bestimmtheitsmaßen liegt daran, dass das erste Maß nie den Wert 1 (100 % Varianzaufklärung) erreichen kann, selbst bei perfekter Vorhersagekraft der Modellspezifikation nicht. Daher wird analog zur multiplen Einfachregression ein korrigiertes Maß in Form des Nagelkerke’schen R-Quadrats ausgegeben. Bei Vorhandensein von extrem schief verteilten abhängigen Variablen (d. h. stark überwiegenden Einsen oder Nullen) werden geringere Pseudo-R²-Werte erzielt als bei ausgeglichener Verteilung. Zur Analyse der Determinanten der Legalprognose schätzen wir drei logistische Regressionen (vgl. Tabelle 8.22). Für alle Modelle sind Logit-Koeffizienten (b), OddsRatios (OR) und die durchschnittlichen marginalen Effekte (AME) sowie der Standardfehler angegeben. Die Betrachtung der durchschnittlichen marginalen Effekte zeigt, dass sich der Alterseffekt positiv auf dem 1 %-Niveau bewegt. Mit zunehmendem Alter erhöht sich die Wahrscheinlichkeit einer positiven Legalprognose um 15,4 Prozentpunkte. Der Dummy für Heimbetreuung als Indiz für die Broken-home-These zeigt dabei einen negativen b-Koeffizienten, der statistisch nicht signifikant ist. Der durchschnittliche marginale Effekt, der mit einem Wert von –0,047 angezeigt wird, gibt wieder, dass Heimbetreute eine um 4,7 Prozentpunkte niedrigere Wahrscheinlichkeit für eine positive Legalprognose aufweisen. Um den Effekt der sozialtherapeutischen Maßnahmen zu untersuchen, werden in Modell 3 Variablen für die Teilnahme, Nichtteilnahme und Abbruch an den sozialtherapeutischen Programmen aufgenommen. Die Modellanpassung verbessert sich im Vergleich zu Modell 1 und 2 deutlich. Da diese Variablen als Dummys berücksichtigt wurden, wird eine Gruppe als Referenzkategorie ausgewiesen. Somit zeigt sich, dass die Teilnahme an sozialtherapeutischen Maßnahmen während der Inhaftierung die Wahrscheinlichkeit für positive Legalprognosen um 30,2 Prozentpunkte erhöht, während ein Abbruch der Maßnahmen die Wahrscheinlichkeit für positive Legalprognosen um 49,3 Prozentpunkte verringert.
321
Logistische Regressionsanalysen
Tabelle 8.22: Regressionskoeffizienten, Odds-Ratios und AME
b M1
M2
M3
M1
M2
M3
M1
M2
M3
VARIABLES
Legal prognose
Legal prognose
Legal prognose
Legal prognose
Legal prognose
Legal prognose
Legal prognose
Legal prognose
Legal prognose
0.503**
0.478**
0.617**
1.654**
1.613**
1.853**
0.126**
0.119**
0.154**
(0.239)
(0.240)
(0.275)
(0.395)
(0.387)
(0.509)
(0.060)
(0.060)
(0.069)
−0.282
−0.187
0.755
0.829
−0.070
−0.047
(0.488)
(0.607)
(0.368)
(0.503)
(0.121)
(0.151)
Alter beim Haftbeginn (zentriert & standardisiert)
im Heim/betreuten Wohnen
b
Untersuchungsgruppe 1 – sozialtherapeutisch Behandelte
Untersuchungsgruppe 3 – Rückverlegte aus der Sozialtherapie
Konstante
N Pseudo R2
b
OR
OR
OR
AME
AME
AME
1.253**
3.500**
0.302**
(0.593)
(2.075)
(0.132)
−2.398***
0.0909***
−0.493***
(0.873)
(0.0793)
(0.116)
0.070
0.138
0.120
1.072
1.148
1.127
(0.223)
(0.269)
(0.371)
(0.239)
(0.309)
(0.418)
85
84
84
85
84
84
85
84
84
0.04
0.04
0.25
0.04
0.04
0.25
0.04
0.04
0.25
Standard errors in parentheses *** p