373 54 17MB
German Pages XIII, 374 [382] Year 2020
Matthias-W. Stoetzer
Regressionsanalyse in der empirischen Wirtschaftsund Sozialforschung Band 2 Komplexe Verfahren Inkl. SN Flashcards Lern-App
Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2
Matthias-W. Stoetzer
Regressionsanalyse in der empirischen Wirtschaftsund Sozialforschung Band 2 Komplexe Verfahren
Matthias-W. Stoetzer Fachbereich Betriebswirtschaft Ernst-Abbe-Hochschule Jena Jena, Deutschland
ISBN 978-3-662-61437-2 ISBN 978-3-662-61438-9 (eBook) https://doi.org/10.1007/978-3-662-61438-9 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer Gabler © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Springer Gabler ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Gesamtüberblick
Band 1 zur Regressionsanalyse (Stoetzer 2017) erläutert, dass es sich um ein vielfältig einsetzbares statistisches Verfahren handelt. Der vorliegende Band 2 führt dies fort und zeigt, wie mit spezifischen Verfahren auch andere Formen von Daten analysierbar sind: • Wovon hängt es ab, ob ein Passagier den Untergang der Titanic im Jahr 1912 überlebt hat oder nicht? (Kap. 2) • Welche Faktoren beeinflussen die Wahlentscheidung für „Die Linke“, „SPD“, „CDU“ „FDP“ oder „AfD“? (Kap. 2) • Wie lässt sich die monatliche Entwicklung der Arbeitslosigkeit in Deutschland für den Zeitraum 2005 bis 2019 erklären? (Kap. 3) • Inwieweit ist es möglich, die tägliche Kursentwicklung der BMW-Aktie vom August 2017 bis zum August 2019 zu prognostizieren? (Kap. 3) • Welche Auswirkung auf die Zahl der Erstsemester an den deutschen Hochschulen hatte die Einführung von Studiengebühren in einer Reihe von Bundesländern von 2006 bis 2014? (Kap. 4) • Ist das hohe Sparvolumen oder die Geldpolitik der Europäischen Zentralbank ursächlich für die extrem niedrigen Zinsen in der Eurozone? (Kap. 4) • Welche Folgen hat es, wenn bei einzelnen Beobachtungen die Daten für bestimmte Variablen nicht vorhanden sind, und welche Möglichkeiten des Umgangs mit diesem Problem existieren? (Kap. 5) Es wird deutlich, dass die Regressionsanalyse geeignet ist, Daten zu analysieren, egal, • ob diese metrisches, ordinales oder nominales Skalenniveau besitzen, • ob diese erklärt werden sollen (abhängige Variablen) oder zur Erklärung herangezogen werden (unabhängige Variablen), • ob Querschnittsdaten, Zeitreihen oder Paneldaten vorliegen, und in bestimmten Fällen auch einzelne fehlende Datenwerte ersetzt werden können, also eine Regression nicht verhindern. Die oben genannten Fragen zielen darauf ab, eine
V
VI
Gesamtüberblick
Entwicklung vorherzusagen oder insbesondere kausal zu erklären. Einführend stellt Kap. 1 daher zunächst dar, welche grundsätzlichen Probleme kausale Schlussfolgerungen aufwerfen. Auch der vorliegende Band verzichtet – trotz erhöhter Komplexität – auf mathematische Ausführungen sowie statistisch-ökonometrische Herleitungen und Beweise. Die folgenden fünf Aspekte bilden den roten Faden: • Welche Fragestellung kann ich mit welchem Regressionsverfahren untersuchen? • Welche Voraussetzungen muss ich bei der praktischen Durchführung des jeweiligen Verfahrens berücksichtigen? • Wie führe ich mittels SPSS oder Stata eine konkrete Regression durch? • Wie sind meine Ergebnisse richtig zu interpretieren? • Wo liegen die Probleme und Grenzen dieser Interpretation? Die Kapitel sind so aufgebaut, dass ein selbstständiges Studium problemlos möglich ist. Dazu sind jedem Kapitel die wichtigsten Lernziele und Schlüsselbegriffe vorangestellt. Jedes Kapitel wird abgeschlossen von einer Reihe von Übungsaufgaben, deren Lösungen sich am Ende des jeweiligen Kapitels befinden. Die vielen Beispiele im Text und in den Aufgaben basieren in der Regel auf realen Daten und praktischen Problemen. Sämtliche Datensätze werden über die Homepage zur Verfügung gestellt. Die Inhalte aller wichtigen Elemente der Regressionsverfahren werden verbal und häufig auch grafisch erläutert. Alle Schritte sind daher intuitiv nachvollziehbar, nur die Grundrechenarten und das Lesen einer einfachen Gleichung müssen bekannt sein. Wer tiefer in exakte statistische Herleitungen und Beweise einsteigen möchte, erhält dazu genauere Literaturhinweise. In allen Kapiteln zu den Regressionsverfahren und Tests werden diese jeweils an Hand der Statistikprogramme SPSS und Stata kurz erklärt. Diese Abschnitte haben lediglich einführenden Charakter; es wird hauptsächlich der leicht verständliche menübasierte Umgang Schritt für Schritt mittels Screenshots erläutert. Weitergehende syntaxbasierte Verfahren werden nur ausnahmsweise behandelt. Einige Stellen geben Hinweise zu den in SPSS und Stata ebenfalls existierenden Makros für speziellere statistische Methoden. Obwohl die grundlegenden mathematischen Verfahren übereinstimmen, haben sich in den Sozialwissenschaften, d. h. der Ökonomie, der Soziologie, der Politikwissenschaft und der Psychologie, historisch bedingt sehr unterschiedliche Begriffe durchgesetzt. Da rüber hinaus verwenden auch die medizinische Forschung und die Biostatistik ihre eigenen Ausdrucksweisen. Um Gemeinsamkeiten aufzuzeigen und zur Entwirrung beizutragen, verweist der Text einerseits an vielen Stellen auf solche Synonyme und erläutert andererseits, dass bestimmte identische Begriffe unterschiedliche Bedeutungen haben. Aufbau des Buches Grundlegende Probleme, Grenzen und Möglichkeiten der Datenanalyse stellt Kap. 1 dar. Es rekapituliert und vertieft die entsprechenden Ausführungen des vierten Kapitels im ersten Band (Stoetzer 2017). Kap. 2 erläutert Regressionsverfahren, bei denen die
Gesamtüberblick
VII
abhängige Variable kein metrisches Skalenniveau besitzt. Die Analyse von Zeitreihen weist Besonderheiten auf, die im Kap. 3 beschrieben werden. Darauf aufbauend erlauben Paneldatensätze weitergehende Untersuchungen. Die entsprechenden Möglichkeiten hinsichtlich der Überprüfung kausaler Wirkungen erörtert Kap. 4. Viele Datensätze besitzen nicht für alle Variablen und alle Beobachtungen komplette Informationen. Der Umgang mit solchen fehlenden Werten wird im Kap. 5 dargestellt. Literaturhinweise Die gängigen Lehrbücher behandeln die hier thematisierten Probleme zum Teil nur relativ knapp. Die im Folgenden erörterten Verfahren werden aber umfassend in der jeweiligen Spezialliteratur dargestellt. Im Vergleich zum ersten Band sind daher in jedem Kapitel vermehrt einschlägige Literaturhinweise zu finden. Eine sehr eingängige Erläuterung anhand von konkreten Anwendungen der Regression bietet Studenmund (2016). Die besten englischen Lehrbücher zur Regression in der Volkswirtschaftslehre sind Wooldridge (2018) sowie Stock und Watson (2015). In den Sozialwissenschaften vermitteln Field (2018) sowie Tabachnick und Fidell (2019) einen Einstieg – insbesondere hinsichtlich des Einsatzes von SPSS. Eine gute Einführung in Deutsch auf soziologischem Hintergrund geben Urban und Mayerl (2018). Für die Betriebswirtschaftslehre sind Backhaus et al. (2018) und Herrmann et al. (2014) zu empfehlen. Sie behandeln in Einzelbeiträgen nicht nur die Regressionsanalyse, sondern auch eine ganze Reihe weiterer statistischer Verfahren. Hervorzuheben ist für beide Sammelbände die Orientierung und Erläuterung anhand konkreter Anwendungen aus der Marktforschung. Wer sich für die exakten mathematischen Herleitungen und statistischen Fundierungen der Regression interessiert, dem ist der weltweit verbreitete Referenztext von Greene (2018) zu empfehlen. Onlineeinführungen/Ressourcen zu SPSS und Stata Als Einstieg sollten Sie eine komplette Einführung (wie das vorliegende Buch) durcharbeiten, um die Orientierung zu behalten. Wenn notwendig, greifen Sie zunächst auf die folgenden Onlineressourcen zurück, die sich durch eine hohe Qualität und Verständlichkeit auszeichnen: • • • •
UCLA (University of California Los Angeles – IDRE): ats.ucla.edu/stat/ Williams, Richard: University of Notre Dame: www3.nd.edu/~rwilliam/ Stata Video Tutorials: www.stata.com/links/video-tutorials/ IBM SPSS Video Tutorials: econometricsacademy/home/about.
Die Econometrics Academy ist eine Non-Profit-Organisation. Ihre Videos sind verlässliche Anleitungen für den Umgang mit SPSS, aber auch Stata und andere statistische Softwareprogramme. Die von IBM SPSS selbst bereitgestellten Videotutorials sind im wesentlichen Marketingvideos, die kaum weiterhelfen.
VIII
Gesamtüberblick
Wichtige und häufig hilfreiche Informationsquellen bei speziellen Problemen und konkreten Fragen sind die einschlägigen Diskussionsforen. Die folgenden Onlineforen sind empfehlenswert: • Stata: https://www.statalist.org/forums/ • SPSS: http://www.spss-forum.de/ Ob zum eigenen Problem Antworten vorliegen, ist vorab natürlich nicht sicher. Aber in beiden Foren können nach Anmeldung auch Fragen gestellt werden. Darüber hinaus enthalten – wie oben erwähnt – die einzelnen Kapitel dieses Buches an zahlreichen Stellen Hinweise auf weiterführende und vertiefende Literatur sowie Onlinequellen. Die Darstellungen und Beispiele beziehen sich im Wesentlichen auf SPSS in der Version 25 und auf Stata Release 16. Alle für SPSS 25 vorhandenen PDF-Dokumentationen finden sich unter IBM SPSS 25 (2017). Die älteren Dokumentationen zu den Versionen IBM SPSS 20 und 22 sind aber wesentlich ausführlicher und daher erheblich besser geeignet. Die Stata-Dokumentationen sind äußerst umfangreich und außerdem sehr gut nachvollziehbar, da sie die Verfahren anhand von (praktischen) Beispielen erläutern. Darüber hinaus werden dort für alle Methoden die zugrundliegenden Fachaufsätze und verwendeten statistischen Formeln aufgeführt. Sämtliche Dokumentationen sind frei im Internet zugänglich (Stata 2019). Auch der vorliegende 2. Band der Regressionsanalyse profitiert von den zahlreichen Fragen und Hinweisen der Studierenden – insbesondere aus meinem Lehrforschungsprojekt im Rahmen des Masterstudiums an der EAH Jena. Besonderer Dank gilt diesmal Herrn Ralf Klinkowski, der verschiedene Kapitel kritisch durchgesehen hat. Anregenden Diskussionen mit den Kollegen Klaus Watzka, Martin Bösch und Thomas Wöhner verdankt das Buch eine Reihe von Verbesserungen.
Literatur Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2018). Multivariate Analysemethoden (15. Aufl.). Berlin/Heidelberg. Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London. Greene, W. H. (2018). Econometric analysis (8. Aufl.). Boston. Herrmann, A., & Homburg, Chr. (2014). Marktforschung: Methoden – Anwendungen – Praxisbeispiele (3. Aufl.). Wiesbaden. IBM SPSS 25. (2017). ftp://public.dhe.ibm.com/software/analytics/ spss/documentation/ statistics/25.0/en/client/Manuals. Zugegriffen am 09.08.2019. Stata. (2019). https://www.stata.com/features/documentation/. Zugegriffen am 09.08.2019.
Gesamtüberblick
IX
Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics, updated 3. Aufl. (Global Edition). Amsterdam. Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts-und Sozialforschung, Eine nichtmathematische Einführung mit SPSS und Stata. Berlin. Studenmund. (2016). Using econometrics: A practical guide (7. Aufl.). Harlow. Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7. Aufl.). Boston. Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden. Wooldridge, J. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston.
Inhaltsverzeichnis
1 Einführung: Kausale Aussagen und Prognosemodelle������������������������������������ 1 1.1 Überblick������������������������������������������������������������������������������������������������������ 2 1.2 Deskriptive und explorative Datenanalyse���������������������������������������������������� 2 1.3 Kausale Schlussfolgerungen ������������������������������������������������������������������������ 3 1.3.1 Kausalität als Problem���������������������������������������������������������������������� 3 1.3.2 Das Rubin-Neyman-Kausalmodell �������������������������������������������������� 6 1.3.3 Granger-Kausalität���������������������������������������������������������������������������� 15 1.3.4 Strukturgleichungsmodelle (Kausalmodelle)������������������������������������ 17 1.3.5 Fazit: Kausale Identifikation oder Fiktion?�������������������������������������� 19 1.4 Prognosemodelle und Klassifikationsmodelle���������������������������������������������� 20 1.5 Ausblick: Data Mining, Big Data und Deep Learning �������������������������������� 21 1.6 Übungsaufgaben������������������������������������������������������������������������������������������� 23 1.7 Lösungen������������������������������������������������������������������������������������������������������ 24 Literatur������������������������������������������������������������������������������������������������������������������ 26 2 Abhängige Variablen mit begrenztem Wertebereich���������������������������������������� 29 2.1 Überblick������������������������������������������������������������������������������������������������������ 30 2.2 Einführung���������������������������������������������������������������������������������������������������� 30 2.3 Logistische Regression (Logit-, Probit-Analyse) ���������������������������������������� 30 2.3.1 Der Ansatz der logistischen Regression�������������������������������������������� 30 2.3.2 Modellschätzung und Interpretation ������������������������������������������������ 42 2.3.3 Voraussetzungen und Probleme�������������������������������������������������������� 51 2.3.4 Ergänzungen und Fazit���������������������������������������������������������������������� 61 2.4 Andere Formen abhängiger Variablen mit begrenztem Wertebereich���������� 64 2.4.1 Ordinale und multinomiale abhängige Variablen������������������������������ 64 2.4.2 Zählvariablen und spezielle Variablenbeschränkungen�������������������� 67 2.4.3 Zusammenfassung���������������������������������������������������������������������������� 69 2.5 Durchführung in SPSS und Stata������������������������������������������������������������������ 70 2.6 Übungsaufgaben������������������������������������������������������������������������������������������� 98 2.7 Lösungen������������������������������������������������������������������������������������������������������ 101 Literatur������������������������������������������������������������������������������������������������������������������ 105 XI
XII
Inhaltsverzeichnis
3 Zeitreihenanalyse und dynamische Modelle ���������������������������������������������������� 109 3.1 Überblick������������������������������������������������������������������������������������������������������ 110 3.2 Datengrundlage �������������������������������������������������������������������������������������������� 110 3.3 Einfache Regressionsanalyse der Daten mehrerer Perioden������������������������ 121 3.4 Autokorrelation der Fehler���������������������������������������������������������������������������� 123 3.4.1 Einführung���������������������������������������������������������������������������������������� 123 3.4.2 Überprüfung�������������������������������������������������������������������������������������� 127 3.4.3 Vorgehen bei Autokorrelation ���������������������������������������������������������� 131 3.5 Exogenität der unabhängigen Variablen������������������������������������������������������� 134 3.6 Stationarität von Zeitreihen�������������������������������������������������������������������������� 136 3.6.1 Überblick������������������������������������������������������������������������������������������ 136 3.6.2 Folgen und Überprüfung von Nicht-Stationarität ���������������������������� 140 3.6.3 Vorgehen bei Nicht-Stationarität������������������������������������������������������ 148 3.7 Modellspezifikation�������������������������������������������������������������������������������������� 151 3.7.1 Ermittlung der Lags und Leads�������������������������������������������������������� 151 3.7.2 Zusammenfassung���������������������������������������������������������������������������� 152 3.8 Weiterführende Verfahren ���������������������������������������������������������������������������� 153 3.8.1 Prognosemodelle������������������������������������������������������������������������������ 153 3.8.2 Langfristige Zusammenhänge���������������������������������������������������������� 157 3.9 Durchführung in SPSS und Stata������������������������������������������������������������������ 158 3.10 Übungsaufgaben������������������������������������������������������������������������������������������� 212 3.11 Lösungen������������������������������������������������������������������������������������������������������ 213 Literatur������������������������������������������������������������������������������������������������������������������ 223 4 Paneldatenanalyse������������������������������������������������������������������������������������������������ 227 4.1 Überblick������������������������������������������������������������������������������������������������������ 228 4.2 Grundlagen: Datenbasis und Vorteile von Panelverfahren���������������������������� 228 4.3 Abweichungsanalysen bei Paneldaten���������������������������������������������������������� 233 4.4 Echte Paneldaten (Longitudinal Data)���������������������������������������������������������� 236 4.4.1 Überblick������������������������������������������������������������������������������������������ 236 4.4.2 Gepooltes OLS-Verfahren���������������������������������������������������������������� 237 4.4.3 Fixed-Effects-Verfahren�������������������������������������������������������������������� 240 4.4.4 Random-Effects-Verfahren �������������������������������������������������������������� 244 4.4.5 First-Differences-Methode���������������������������������������������������������������� 245 4.4.6 Wahl des Spezifikationsansatzes������������������������������������������������������ 252 4.4.7 Zusammenfassung���������������������������������������������������������������������������� 254 4.5 Unechte Paneldaten (gepoolte Querschnittsdaten) �������������������������������������� 256 4.6 Weiterführende Aspekte�������������������������������������������������������������������������������� 261 4.7 Durchführung in SPSS und Stata������������������������������������������������������������������ 265 4.8 Übungsaufgaben������������������������������������������������������������������������������������������� 285 4.9 Lösungen������������������������������������������������������������������������������������������������������ 287 Literatur������������������������������������������������������������������������������������������������������������������ 294
Inhaltsverzeichnis
XIII
5 Fehlende Datenwerte/Missing Values���������������������������������������������������������������� 297 5.1 Überblick������������������������������������������������������������������������������������������������������ 298 5.2 Die Relevanz fehlender Datenwerte�������������������������������������������������������������� 298 5.3 Formen von Missing Values�������������������������������������������������������������������������� 300 5.3.1 Einführung���������������������������������������������������������������������������������������� 300 5.3.2 Missing Completely at Random (MCAR)���������������������������������������� 301 5.3.3 Missing at Random �������������������������������������������������������������������������� 303 5.3.4 Missing Not at Random�������������������������������������������������������������������� 304 5.4 Umgang mit fehlenden Daten ���������������������������������������������������������������������� 304 5.4.1 Fallweiser Ausschluss (Listwise Deletion) �������������������������������������� 305 5.4.2 Imputationsmethoden������������������������������������������������������������������������ 306 5.4.3 Maximum-Likelihood-Verfahren������������������������������������������������������ 310 5.5 Zusammenfassung���������������������������������������������������������������������������������������� 310 5.6 Durchführung in SPSS und Stata������������������������������������������������������������������ 312 5.7 Übungsaufgaben������������������������������������������������������������������������������������������� 352 5.8 Lösungen������������������������������������������������������������������������������������������������������ 353 Literatur������������������������������������������������������������������������������������������������������������������ 356 6 Anhang I Maximum-Likelihood-Schätzung������������������������������������������������������ 359 6.1 Einführung in die Maximum-Likelihood-Schätzung������������������������������������ 359 6.2 Anwendungen des Maximum-Likelihood-Verfahrens���������������������������������� 368 Literatur������������������������������������������������������������������������������������������������������������������ 369 Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
1
Einführung: Kausale Aussagen und Prognosemodelle
Lernziele
Der Studierende soll: • deskriptive und explorative Datenanalysen kennzeichnen können, • in der Lage sein, die Probleme unbeobachteter Heterogenität (Omitted Variable Bias), Simultanität und Selbstselektion zu erläutern, • das Rubin-Neyman-Kausalmodell verstehen, • die Aussagekraft der Granger-Kausalität überblicken, • einschätzen können, inwieweit Kausalanalysen in Form von Strukturgleichungsmodellen Ursache-Wirkungs-Beziehungen ermitteln, • wissen, worin sich Prognosemodelle von kausalen Analysen unterscheiden, • die Möglichkeiten und Grenzen kontrollierter Zufallsexperimente verstehen, • die wichtigsten Verfahren überblicken, um kausale Zusammenhänge zu identifizieren, wie Matching- und Paneldatenanalyse, Instrumentvariablen und Regression-Discontinuity-Methode, • Quasiexperimente und natürliche Experimente charakterisieren können.
cc Wichtige Grundbegriffe Explorative Datenanalyse, Granger-Kausalität, Rubin- Neyman-Kausalmodell, Kausalanalyse, Beobachtungsdaten, Experimentaldaten, RCT – Randomized Controlled Trial, Strukturgleichungsmodelle, Cochrane-Richtlinien, evidenzbasierte Wirtschaftspolitik, unbeobachtete Heterogenität, Selbstselektion, Average Treatment Effect (ATE)
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. -W. Stoetzer, Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2, https://doi.org/10.1007/978-3-662-61438-9_1
1
2
1.1
1 Einführung: Kausale Aussagen und Prognosemodelle
Überblick
Regressionsmodelle können im einfachsten Fall zur Ermittlung und Beschreibung von Zusammenhängen zwischen Variablen herangezogen werden (Abschn. 1.2). Zweitens besteht ihr Nutzen aber vor allem darin, kausale Abhängigkeiten zu identifizieren und drittens Prognosen zukünftiger Entwicklungen zu fundieren. Abschn. 1.3 erläutert daher grundlegende Probleme bei der Ermittlung von Ursache-Wirkungs-Zusammenhängen. Er konkretisiert und erweitert den Abschnitt 4.1 im Band 1 (Stoetzer 2017). Darauf basierend beschreibt Abschn. 1.4 kurz Aspekte des Einsatzes von Regressionsanalysen zur Vorhersage zukünftiger Entwicklungen. Abschließend fasst Abschn. 1.5 die Ergebnisse zusammen und erläutert deren Relevanz im Kontext der aktuellen Diskussion zu Big Data und Data Mining.
1.2
Deskriptive und explorative Datenanalyse
Empirische Untersuchungen haben ggf. nur den Zweck, mögliche Muster bzw. Zusammenhänge in den Daten zu beschreiben und zu entdecken. Dies ist ein klassisches Anwendungsfeld der deskriptiven Statistik. Die Datendiagnose (bspw. Darstellung von Minimum, Maximum, Mittelwert und Standardabweichung aller Variablen) und grafische Methoden der Datenanalyse (bspw. Streudiagramme, Histogramme und Boxplots der Variablen) sind wichtige Elemente. Sie gehören als Vorstufe zu jeder Regressionsanalyse. Dies gilt auch für evtl. sinnvolle Datentransformationen (bspw. Logarithmierung von Variablen). Darüber hinaus können die Regressionsschätzungen ohne Probleme als Beschreibungen von Zusammenhängen interpretiert werden. Zum Beispiel ermittelt eine Analyse der Einkommensunterschiede, dass der Regressionskoeffizient der unabhängigen Variablen „Geschlecht Frau“ negativ und signifikant ist. Die deskriptive Auswertung lautet, dass das Einkommen (im Durchschnitt) geringer ist, wenn es sich bei einem Beschäftigten um eine Frau handelt. Zum kausalen Problem, ob das Einkommen genau deshalb geringer ist, weil es sich um eine Frau und nicht um einen Mann handelt, wird dabei aber keine Aussage getroffen. Gleiches gilt etwa für einen positiven Regressionskoeffizienten einerseits des Umfangs der Forschungs- und Entwicklungs- (F&E-)Subventionen, die ein Unternehmen erhält, und andererseits der Zahl der von diesem Unternehmen angemeldeten Patente. Die Regressionsanalyse bietet hier den Vorteil, die Beziehungen zwischen einer abhängigen und mehreren unabhängigen Variablen zu ermitteln. Zum Beispiel kann so der Zusammenhang von Einkommen und Geschlecht unter Berücksichtigung der gleichzeitigen Abhängigkeit des Einkommens vom Alter, Ausbildungsniveau und Familienstand berechnet werden. Solche deskriptiven Auswertungen dienen – ähnlich wie in Fallstudien – häufig dazu, komplexere Beziehungen und mögliche weitere Einflussfaktoren festzustellen. Dies wird
1.3 Kausale Schlussfolgerungen
3
in der Statistik auch als EDA – Exploratory Data Analysis bezeichnet. Insbesondere können so u. U. weitere oder andere Wirkungsmechanismen analysiert werden, die dann die Grundlage besserer und komplexerer (oder auch einfacherer) Theorien bilden. Sie sind insoweit (wertvolle) Vorstufen anschließender Kausalanalysen. Wichtig ist dabei – im Gegenteil zu Hypothesentests – vorurteilsfrei und möglichst flexibel die vorliegenden Daten zu untersuchen. EDA kann vereinfacht, wie in Übersicht 1.1 dargestellt, charakterisiert werden (Behrens 1997). Übersicht 1.1 Elemente explorativer Datenanalyse
• Hervorhebung der inhaltlichen Bedeutung der Daten. Es geht primär um ein substanzielles Verständnis von Variablen und deren möglichen Zusammenhängen • Betonung der grafischen Darstellung und Inspektion von Variablen bzw. Datenmengen • Schwerpunkt liegt auf der versuchsweisen Modellbildung und Hypothesengenerierung in einem iterativen Prozess der Modellspezifikation und Modellneuspezifikation • Ausgangspunkte sind Skepsis, Flexibilität und Sparsamkeit bezüglich der anzuwendenden statistischen Methoden
Big Data, Data Mining und Machine Learning sind aktuelle Anwendungen explorativer Analysen. Zu den statistischen Methoden, die dabei zum Einsatz kommen, gehören unter anderem diverse Regressionsverfahren. Auch Untersuchungen mittels der klassischen Regression sind deskriptiv und zur Generierung von neuen Hypothesen sinnvoll (Tukey 1980). Standardmäßig ist dies zum Beispiel bei Strukturgleichungsmodellen mittels PLS (Partial Least Squares) der Fall. Es muss aber bei der Interpretation der Ergebnisse immer (!) beachtet werden, dass so nur bedingt bereits existierende Hypothesen getestet und kausale Beziehungen dabei nicht „bewiesen“ werden. Dies gilt auch dann, wenn Verfahren der schließenden Statistik (Inferenzstatistik, konfirmatorische Analyse) zum Einsatz kommen. Ein klassisches Lehrbuch ist Tukey (1977), für den deutsche Sprachraum Cleff (2015) und aktuell im Kontext Data Mining Tan et al. (2019).
1.3
Kausale Schlussfolgerungen
1.3.1 Kausalität als Problem Führt die Vorgabe einer Mietobergrenze in Berlin (Mietendeckel) dazu, dass sozial schwache Bevölkerungsschichten eher eine bezahlbare Wohnung finden? Welche Auswirkungen haben Weiterbildungsmaßnahmen auf die Zahl der Langzeitarbeitslosen? Hat die Einführung der Akkreditierung von Studiengängen im Rahmen der Bologna-Reform seit 2004
4
1 Einführung: Kausale Aussagen und Prognosemodelle
die Qualität der Studiengänge erhöht? Eine seit langem geführte und aktuelle Frage ist auch der Nutzen eines generellen Tempolimits auf den deutschen Autobahnen. Praktisches Beispiel: Der unklare Nutzen des Tempolimits
Im Dezember 2019 hat Bundesumweltministerien Svenja Schulze (SPD) eine allgemeine Obergrenze der Geschwindigkeit auf den deutschen Straßen von 130 Kilometer pro Stunde gefordert. Prompt lehnte der Bundesverkehrsminister Andreas Scheuer (CSU) ein solches Tempolimit strikt ab. Im Jahr 2018 gab es in Deutschland 1424 Getötete im Straßenverkehr, davon 1012 auf Landstraßen, 232 auf Autobahnen und 180 innerorts. Der Deutsche Verkehrssicherheitsrat schätzt durch Hochrechnungen der Unfallstatistik des Jahres 2013, dass auf Autobahnabschnitten ohne Tempolimit durchschnittlich 30 % mehr Verkehrstote zu beklagen sind als auf Strecken mit Geschwindigkeitsgrenze. Dagegen verweist der ADAC darauf, dass auf Abschnitten mit Tempolimits von 120 oder 130 Kilometern pro Stunde nicht weniger schwere Unfälle auftreten. Auch internationale Vergleiche mit Ländern, die Tempolimits vorschreiben (bspw. Belgien, Frankreich und die USA) zeigen keinen klaren Zusammenhang von Geschwindigkeitsbegrenzungen und der Zahl der Verkehrstoten (European Transport Safety Council). Der Gesamtverband der deutschen Versicherungswirtschaft stellt fest, dass geklärt werden sollte, ob und in welchem Ausmaß eine Höchstgeschwindigkeit die Sicherheit auf den Autobahnen erhöht. Er spricht von einer Forschungslücke, die diesbezüglich in Deutschland existiert. Auch die Gewerkschaft der Polizei plädiert für ein entsprechendes unabhängiges wissenschaftliches Gutachten. Quelle: Frankfurter Allgemeine Zeitung, 31.12.2019, Seite 17 ◄ Bei allen diesen Fragen geht es um die Klärung von Ursache einerseits und darauf zurückzuführender Wirkung andererseits. Die Lösung solcher Probleme ist insbesondere von David Hume (1748) auf eine empirische Grundlage gestellt worden.1 John Stuart Mill hat 1882 die Antwort folgendermaßen präzisiert: „If an instance in which the phenomenon under investigation occurs, and an instance in which it does not occur, have every circumstance in common save one, that one occurring only in the former; the circumstance in which alone the two instances differ, is the effect, or the cause, or an indispensable part of the cause, of the phenomenon.“ (Mill 1882, S. 483). Allerdings ist der empirische Nachweis einer solchen Ursache-Wirkungs-Beziehung auf der Basis von Beobachtungsdaten (Observational Data), d. h. Umfragedaten oder Der Philosoph David Hume (1711–1776) gehört zu den englischen Empiristen des 17. Jh. Das Problem kausaler Zusammenhänge ist vorher in der Regel (auch) mit theologischen Argumenten beantwortet worden. Im Mittelalter wurde bspw. die Walnuss als Mittel gegen Kopfschmerz verwendet, weil die göttliche Schöpfung ihr ein Form gegeben hat, die dem menschlichen Gehirn ähnelt (Signaturenlehre).
1
1.3 Kausale Schlussfolgerungen
5
Modell 1
Modell 2
Störche
Urbanisierung
Geburten
Geburten
Modell 3 Störche
Urbanisierung
Geburten
Modell 4 Störche
Urbanisierung
Geburten
Abb. 1.1 Zahl der Störche und Geburtenrate
aten der amtlichen Statistik, schwierig. Probleme kausaler Schlussfolgerungen mittels D Beobachtungsdaten verdeutlicht das Storchenbeispiel der Abb. 1.1 (Atteslander 2010, S. 27–32). Zwischen der Zahl der Störche und der Zahl der Geburten in einer Region existiert eine signifikante positive Korrelation (mehr Störche mehr Babys bzw. weniger Störche weniger Babys). Dies bestätigt eindrucksvoll die Theorie des Modells 1, dass Babys von Störchen gebracht werden. Kritiker bezweifeln dies. Sie zeigen in ihrem Modell 2, dass die Zahl der Geburten negativ mit dem Urbanisierungsgrad einer Region korreliert – also nichts mit den Störchen zu tun hat. Die Anhänger der Storchentheorie (sogenannte Storchisten) halten dagegen und beweisen mit Modell 3, dass natürlich die Störche kausal für die Zahl der Geburten verantwortlich sind. Tatsächlich ist es nämlich so, dass die zunehmende Urbanisierung zu weniger Störchen geführt hat und deshalb die Zahl der Babys gesunken ist. Die Verfechter der Urbanisationstheorie (inzwischen als Urbanisten bezeichnet) halten mit ihrem Modell 4 dagegen. Danach ist die zunehmende Urbanisierung die Ursache sowohl von sinkenden Storchen- als auch Geburtenzahlen. Storchisten und Urbanisten stehen sich inzwischen unversöhnlich gegenüber, und ein Storchist hat keine Chance, auf eine Professur an einer von Urbanisten dominierten Hochschule berufen zu werden (umgekehrt gilt dies natürlich auch für Urbanisten). Das Beispiel erscheint uns nur deshalb absurd, weil wir die kausalen Zusammenhänge kennen, bzw. uns ihrer zumindest subjektiv sicher sind. Das heißt, wir besitzen unabhängig von den empirischen Daten (einer einzelnen Untersuchung) eine Vorstellung über die
6
1 Einführung: Kausale Aussagen und Prognosemodelle
wahren Einflussrichtungen der Variablen. Dies wird deutlich, wenn wir zur Illustration die Störche durch Kühe ersetzen und die Daten sich nicht auf Deutschland, sondern auf Uttar Pradesh (einen Bundesstaat in Indien) beziehen. Für einen gläubigen Hindu wäre die kausale Wirkung der Abnahme der Zahl der Kühe und den daraus entstehenden negativen Folgen für die Geburtenrate und den wirtschaftlichen Erfolg in diesem Bundesland plausibel oder sogar zwingend. Viele Korrelationen von Variablen erhalten nur eine plausible kausale Interpretation, weil wir bereits a priori eine Theorie besitzen, was Ursache und was Wirkung ist. Bei den in den Sozialwissenschaften fast immer vorhandenen zahlreichen möglichen Auswirkungen und Einflussrichtungen vieler Faktoren ist dies aber unbefriedigend. In empirischen Analysen muss anhand der Datenlage klarer ermittelbar sein, welche der konkurrierenden Theorien (Modelle, Vermutungen) richtig sind oder zumindest welche Ergebnisse bestimmte (gesellschafts-)politische Maßnahmen tatsächlich entfalten. Um deutlich zu machen, dass zunächst nur Daten vorliegen, von denen offen ist, wie sie und damit die Zusammenhänge zwischen ihnen genau zustande gekommen sind, wird in der neueren Literatur üblicherweise von einem (unbekannten) Daten generierenden Prozess (Data Generating Process) gesprochen. Die Ermittlung kausaler Zusammenhänge bezeichnet man dann als Identifikationsproblem, bzw. die Methode, die dazu eingesetzt wird, als Identifikationsmethode. Die in den Sozialwissenschaften heute überwiegend akzeptierte Definition kausaler Beziehungen ist das Rubin-Neyman-Kausalmodell (Abschn. 1.3.2). Andere Ansätze, um kausale Aussagen zu fundieren, sind die Granger-Kausalität (Abschn. 1.3.3) und Strukturgleichungsmodelle (Abschn. 1.3.4). Der Abschn. 1.3.5 fasst die wesentlichen Erkenntnisse zusammen.
1.3.2 Das Rubin-Neyman-Kausalmodell Die Idee, dass kausale Beziehungen darauf basieren, Wirkungen von Eingriffen im Rahmen von Experimenten zu untersuchen, stammt aus den Naturwissenschaften, wird allerdings schon in der Bibel erwähnt.2 Bestimmte Rahmenbedingungen (bspw. Luftdruck und Temperatur) oder Zugaben bestimmter Stoffe (bspw. chemische Verbindungen, Düngemittel) werden kontrolliert verändert und dann analysiert, welche Folgen dies hinsichtlich eines interessierenden Outputs (Festigkeit einer Klebeverbindung, Wachstum einer Pflanze) bewirkt. Darauf aufbauend hat die medizinische Forschung zur Wirksamkeit von
Die Fundstelle ist in der Bibel im Alten Testament das Buch Daniel. Daniel soll von der feinen Speise des Königs ernährt werden, um gesund zu bleiben. Er will dies aber aus religiösen Gründen nicht und schlägt folgendes Experiment vor: „Versuche es doch zehn Tage lang …, dass man uns Gemüse zu essen und Wasser zu trinken gibt. Danach soll man vor dir unser Aussehen und das Aussehen der anderen jungen Männer anschauen, die von der feinen Speise des Königs essen; nach dem, was du dann sehen wirst, handle weiter.“ (Daniel Kapitel 1 Satz 12–13).
2
1.3 Kausale Schlussfolgerungen
7
Medikamenten, Operationsmethoden und Behandlungsverfahren Richtlinien und Empfehlungen entwickelt. Die entsprechenden Anleitungen firmieren als Cochrane Richt linien (Cochrane 2020). Grundlegend ist, dass die Ergebnisse durch Dritte (prinzipiell) reproduzierbar sein müssen (Replikationsfähigkeit) und methodische Standards eingehalten werden. Diese Orientierung auch der Wirtschafts- und Sozialpolitik an empirisch nachweisbaren Kausalzusammenhängen wird als evidenzbasierte Politik bezeichnet, und es wird gefordert, dass die praktische Politik sich daran orientieren sollte (Wissenschaftlicher Beirat BMWi 2013 und aktuell 2019).3 In den Sozialwissenschaften wird eine politische oder ökonomische Maßnahme (In tervention) in der Literatur häufig als „Treatment“ bezeichnet. Ein solches Treatment ist bspw. die Gewährung von Subventionen zur Forschungsförderung, die Einführung von Studiengebühren, die Einrichtung eines Technologie- und Innovationszentrums oder die Einstellung zusätzlicher Vertriebsmitarbeiter in 6 der 15 Vertriebsregionen unseres Pkw-Beispiels aus Band 1 (Stoetzer 2017). Der Ausdruck meint umfassender aber auch den Einfluss der Gewerkschaftszugehörigkeit auf das Monatseinkommen eines Mitarbeiters oder die Wirkungen unterschiedlicher Zinssätze auf die Kreditinanspruchnahme von kleinen und mittleren Unternehmen (KMU). Er ist also nicht auf ökonomische Maßnahmen (oder sozialpolitische Interventionen) im Sinn eines exogenen Eingriffs oder auf nominal skalierte Einflussfaktoren beschränkt, auch wenn die folgenden Beispiele sich auf solche ökonomischen Eingriffe beziehen. Der Einfluss eines solchen Treatments auf bestimmte Ergebnisse ist dann etwa der Umfang der Innovationen (gemessen bspw. an den Patenten), die Veränderung der Zahl der Studierenden, das Unternehmenswachstum (erfasst mittels dem Umsatz) und die Entwicklung der Pkw-Verkäufe. Die interessierenden Ergebnisse werden auch Outcomes oder Response genannt. Die inhaltlichen Fragen, die dahinter stehen, sind kausaler Natur, d. h., es geht um Ursache-Wirkungs-Beziehungen: Steigern F&E-Subventionen die Innovationstätigkeit von Unternehmen oder gibt es lediglich einen Mitnahmeeffekt? Verringert die Einführung von Studiengebühren die Zahl der Studierenden? Erhöhen zusätzliche Vertriebsmitarbeiter wirklich die Verkaufszahlen eines Unternehmens? Werden durch die Einrichtung von staatlich geförderten Technologie- und Innovationszentren tatsächlich mehr Arbeitsplätze geschaffen? Die Frage, wie eine kausale Wirkung erfasst wird, war bereits im Band 1 Kap. 4 auf der Grundlage des Rubin-Kausalmodells definiert worden (Stoetzer 2017). Wir sehen uns dies hier noch einmal kurz und etwas formaler an. Das Kausalmodell von Rubin basiert auf einer kontrafaktischen Feststellung.4 Zur Illustrierung verwenden wir im Folgenden die
Dies erscheint selbstverständlich, aber insbesondere die neue politische Ökonomie hat gezeigt, dass in der praktischen Politik nicht sichergestellt ist, dass die politisch gewählten Maßnahmen geeignet sind, ein angeblich verfolgtes Ziel zu erreichen, und noch weniger berücksichtigt wird, welche Nebenwirkungen ggf. damit verbunden sind. 4 Für den kontrafaktischen Ansatz werden verschiedene Begriffe verwendet: Rubin-, Roy-Rubin-, Neyman-Rubin- und Neyman-Holland-Rubin-Modell, nach den verschiedenen Autoren, die diese Idee entdeckt, weiterentwickelt, präzisiert und popularisiert haben. 3
8
1 Einführung: Kausale Aussagen und Prognosemodelle
Frage, ob die projektbezogene Förderung (Subventionierung) von Innovationen die Zahl der Innovationen eines Unternehmens steigert oder nicht. Inwieweit eine solche (wirtschaftspolitisch gewünschte) Steigerung der Innovativität durch diese Maßnahme erreicht wird, ist offen, bspw. weil es unter Umständen lediglich zu Mitnahmeeffekten kommt. Der kausale Effekt einer Maßnahme T (hier die projektbezogene Subventionierung von F&E) auf ein Ergebnis (Outcome), d. h. eine bestimmte abhängige Variable Y (hier die Zahl der Innovationen eines Unternehmens) ist definiert als:
D i = YiT - YiK (1.1)
Das Zeichen ∆i (Delta) ist die von der Ursache bewirkte Veränderung eines (vorab definierten) Outcomes, d. h. der kausale Effekt für die Beobachtung i. YiT bezeichnet den Outcome der Beobachtung i (d. h. des Unternehmen, der Hochschule, der Region, des Individuums etc.), wenn sie einem Treatment T ausgesetzt wird. YiK ist der Outcome derselben Beobachtung i, wenn sie keinem Treatment unterzogen wird. Zur sicheren Identifizierung einer kausalen Wirkung von F&E-Subventionen müssten wir also wissen, wie sich die Zahl der Innovationen eines Subventionsempfängers entwickelt hätte, wenn dieses Unternehmen keine F&E-Förderung erhalten hätte. Und für die Unternehmen, die keine F&E-Förderung erhalten haben, wäre es notwendig zu wissen, wie die Zahl der Innovationen bei einer Förderung ausgefallen wäre. Diese kontrafaktischen Situationen (po tenzielle Outcomes) kennen wir natürlich nicht. Was wir beobachten, ist nur einerseits die Zahl der Innovationen in der Gruppe, die tatsächlich gefördert worden ist und andererseits die Zahl der Innovationen bei den Unternehmen, die nicht gefördert worden sind. Es handelt sich um das fundamentale Problem bei der Ermittlung kausaler Zusammen hänge, da ein und dasselbe Unternehmen (zu einem bestimmten Zeitpunkt) nicht gleichzeitig mit und ohne Treatment beobachtbar ist. Wie lassen sich trotzdem kausale Wirkungen identifizieren? Wenn ein Querschnittsdatensatz mit z Beobachtungen vorliegt, vergleichen wir zwei Gruppen von Unternehmen. Zum einen betrachten wir eine Gruppe von Unternehmen, die F&E-Subventionen erhalten haben YiT=1,¼,m . Dies ist die Treatmentgruppe. Zum anderen ersetzen wir die uns unbekannten kontrafaktischen Werte YiK=1,¼,m durch eine Gruppe von Unternehmen, die keine F&E-Förderung erhalten haben: YiK=n ,¼,z . Dies ist die Kontrollgruppe. Die durchschnittliche kausale Wirkung ( D ) ist dann die Differenz der durchschnittlichen Zahl der Innovationen von Treatment- und Kontrollgruppe. Sie ist wie folgt definiert:
D = YiT=1,¼,m - YiK=n ,¼,z
(1.2)
Da wir üblicherweise unterstellen, dass eine Stichprobe vorliegt, handelt es sich um geschätzte Größen. Die kausale Wirkung ist der sogenannte durchschnittliche Treatmenteffekt (ATE – Average Treatment Effect) Es ist aber intuitiv nachvollziehbar, dass diese Differenz beider Gruppen nur dann die kausale Wirkung der F&E-Subvention darstellt, wenn beide Gruppen sich nicht in anderen (relevanten) Aspekten unterscheiden. Das heißt, es darf keine sogenannte „unbeobachtete Heterogenität“ (Omitted Variable Bias) vorlie-
1.3 Kausale Schlussfolgerungen
9
gen. Mit der Regressionsanalyse ist es möglich, den Einfluss aller beobachteten Unterschiede zwischen der Treatment- und der Kontrollgruppe zu kontrollieren (d. h. deren Einflüsse „herauszurechnen“). Eine multiple Regression ermittelt den Einfluss der exogenen Variablen unter Konstanthaltung der Einflüsse der anderen exogenen Variablen – also ceteris paribus (Stoetzer 2017). Alle beobachteten Unterschiede (Heterogenitäten) zwischen den beiden Gruppen können wir also beseitigen. Für die unbeobachteten Unterschiede geht dies allerdings nicht, da wir dafür eben keine Daten (Variablen) besitzen. Leider ist es in den Wirtschafts- und allgemein den Sozialwissenschaften bei allen nicht experimentellen Daten (Beobachtungsdaten wie Umfragedaten und amtlichen Statistiken) sehr wahrscheinlich, dass weitere eventuell relevante, aber nicht erfasste oder nicht erfassbare Einflussfaktoren existieren.5 Inhaltlich ergeben sich daraus vor allem die vier Probleme der Übersicht 1.2, die sich substanziell zum Teil überschneiden. Übersicht 1.2 Probleme der Kausalanalyse
• Omitted Variable Bias (beobachtete und unbeobachtete Heterogenität, Confounder, Moderator) • Selbstselektion (Self-Selection) • Umgekehrte Kausalrichtung (Reverse Causality) • Simultanität (Simultaneity)
Bei F&E-Subventionen ist wahrscheinlich, dass Unternehmen mit stärkerer Innovationsneigung sich auch um solch eine Projektförderung bemühen. Wenn man in dieser Gruppe also die Zahl der Innovationen im Vergleich zu anderen Unternehmen analysiert, stellt man schon wegen dieser Selbstselektion einen positiven Einfluss der F&E- Subventionen fest, der tatsächlich gar nicht vorliegt. Wie kann garantiert werden, dass Treatment- und Kontrollgruppe sich nicht systematisch unterscheiden und die Wirkungsrichtung des Treatment eindeutig ist? Die Lösung Alle diese Probleme führen zu einer Korrelation der exogenen Variablen mit dem Fehlerterm. Dies firmiert in der ökonometrischen Literatur als Endogenität dieser Variablen, die eigentlich exogen sein müssten. Vereinfacht ausgedrückt existiert ein Zusammenhang zwischen den exogenen Varia blen (insbesondere den Hypothesenvariablen, hier dem Treatment) und dem Fehlerterm. Letzterer ist dann natürlich kein reines Zufallsergebnis (weißes Rauschen), da wir ihn ja mit den exogenen Variablen „vorhersagen“ könnten. Dies verletzt die Annahme der einfachen linearen Regression, nach der die Fehler (bzw. Residuen) ein reines Zufallsresultat sind (Stoetzer 2017, Kap. 1 und 4). Das Problem des Omitted Variable Bias taucht auch unter der Bezeichnung Simpson’s Paradox in der Literatur auf. Eine weitere inhaltliche Schwierigkeit firmiert als ökologischer Fehlschluss (Ecological Fallacy). Sie tritt auf, da bei Zusammenhängen (Korrelationen) zwischen aggregierten Daten nicht ohne weiteres geschlossen werden kann, dass diese Beziehung auch auf der Ebene der Individualdaten existiert. Bspw. können demografische Merkmale der Bevölkerung auf Wahlkreisebene mit den aggregierten Wahlergebnissen in den Wahlbezirken korrelieren. Daraus kann aber nicht (ohne weiteres) abgeleitet werden, dass dies auch für das individuelle Wahlverhalten gilt.
5
10
1 Einführung: Kausale Aussagen und Prognosemodelle
besteht darin, dass beide Gruppen zufällige Stichproben aus der uns interessierenden Grundgesamtheit (von Unternehmen, Individuen usw.) sind. Dies ist im Rahmen von kon trollierten Experimenten möglich, bei denen die Beobachtungseinheiten, die das Treatment erhalten, und die, die kein Treatment erhalten, mittels eines Zufallsverfahrens ausgewählt werden. Die erste Gruppe ist die Treatmentgruppe und die zweite Gruppe die Kontrollgruppe. Ein solcher Randomized Controlled Trial (RCT) hat sich in den Sozialwissenschaften als Referenzmethode (Benchmark, Goldstandard) der Datengenerierung etabliert. Durch die Zufallsauswahl ist prinzipiell sichergestellt, dass die beiden Gruppen sich nicht systematisch unterscheiden, also kein Omitted Variable Bias (keine unbeobachtete Heterogenität) vorliegt und auch keine Selbstselektion stattfindet. Darüber hinaus ist durch die Kontrolle (bewusste Manipulation) des Treatments grundsätzlich gesichert, dass keine Simultanität oder umgekehrte Kausalrichtung die Ergebnisse verfälschen. Außerhalb der Naturwissenschaften ist dies in Form von Laborexperimenten in der Psychologie schon immer eine Standardmethode der Datengewinnung gewesen. In der Ökonomie, Soziologie und Politologie geht es darum, RCT (auch) in realen Umgebungen als sogenannte Feldexperimente zu realisieren. Praktisches Beispiel: Was wirkt wirklich in der Entwicklungshilfe?
Der Nobelpreis für Ökonomie ist im Jahr 2019 an Esther Duflo, Abhijit Banerjee und Michael Kremer verliehen worden. Ihre wissenschaftliche Leistung besteht in der konsequenten Anwendung solcher Feldexperimente, um Fragen der Wirksamkeit von entwicklungspolitischen Maßnahmen zu klären. Ausgangspunkt ist, dass nach 40 Jahren Entwicklungshilfe für Afrika mit über 3 Billionen US-Dollar noch immer unklar ist, ob diese Hilfe überhaupt etwas bewirkt hat (Duflo 2010). Bspw. zeigte ein RCT in Dörfern in Kenia, dass die Senkung der Bildungskosten durch die Bezahlung von Schuluniformen die Abbrecherquoten, die Teenagerheiraten und das Kinderkriegen reduzierte. In Hyderabad, Indien, testeten sie die Vergabe von Mikrokrediten an arme Frauen. Sie fanden keine signifikanten Veränderungen in den Bereichen Gesundheit, Bildung oder Frauenförderung. Ebenfalls für Indien stellten sie fest, dass die Impfraten für Kinder in ländlichen Gebieten Indiens dramatisch ansteigen (von 5 Prozent auf 39 Prozent), wenn ihren Familien einfache, begrenzte Anreize für Impfungen, wie zum Beispiel Portionen von Linsen, als „Belohnung“ angeboten werden. Quelle: Banerjee und Duflo (2011) ◄ Im Rahmen eines kontrollierten randomisierten (Feld-)Experiments die kausale Wirkung einer Intervention zu ermitteln, basiert aber auf mehreren Voraussetzungen. Erstens sind RCT in vielen Fällen praktisch nicht realisierbar (bspw. aus ethischen Gründen, siehe kurz dazu Stoetzer 2017, Kap. 4). Zweitens ist in den Sozialwissenschaften (anders als in den Naturwissenschaften) immer das Verhalten von Menschen relevant, die sich gegenseitig beeinflussen und Veränderungen antizipieren. Für RCT bedeutet dies, dass die Ergebnisse nur unter der SUTVA-
1.3 Kausale Schlussfolgerungen
11
Bedingung (Stable Unit Treatment Value Assumption) gültig sind.6 Sie besagt, dass es keine Effekte der Wirkung in einer der beiden Gruppen dadurch geben darf, dass die andere Gruppe ein Treatment erhalten bzw. nicht erhalten hat. Konkret wird bspw. unter den Langzeitarbeitslosen einer Region eine zufällig ausgewählte Treatmentgruppe durch ein Bewerbungstraining gefördert und eine Kontrollgruppe nimmt an dieser Maßnahme nicht teil. Wenn die Kontrollgruppe darauf reagiert, indem sie sich darum bemüht die entsprechenden Informationen zwar nicht von der Arbeitsagentur, aber von den Mitgliedern der Treatmentgruppe zu erhalten, wird ein anschließender Vergleich der Erfolgsquote bei den Bewerbungen von Treatment- und Kontrollgruppe ggf. keinen Unterschied feststellen. Die falsche Schlussfolgerung ist, dass die Teilnahme am Bewerbungstraining wirkungslos war. Jede Interferenz zwischen den beiden Gruppen muss also ausgeschlossen sein, um eindeutige kausale Wirkungen zu identifizieren. Drittens kann ein kontrolliertes Zufallsexperiment ggf. die interne Validität sicherstellen, allerdings bleibt die externe Validität eine offene Frage.7 Es ist dabei unsicher, ob die Resultate von Experimenten auf andere Kontexte übertragbar sind. Bspw. führt ein von allen Langzeitarbeitslosen absolviertes Bewerbungstraining zu keinem (weiteren) Rückgang der Arbeitslosenzahlen, wenn die Zahl der offenen Arbeitsplätze begrenzt ist. Dies gilt entsprechend auch für Makroeffekte (allgemeine Gleichgewichtseffekte). Studiengebühren an den Hochschulen einzelner Bundesländer – wie in Deutschland von 2006 bis 2014 – haben mit hoher Wahrscheinlichkeit eine andere Wirkung auf die Zahl der Erstsemester einer Hochschule als gleich hohe Studiengebühren an allen deutschen Hochschulen. Viertens ist streng genommen eine kausale Wirkungen nur zu ermitteln, wenn ein Treatment (eine Veränderung, eine Manipulation) überhaupt möglich ist. Damit sind bei strenger Auslegung kausale Einflüsse von bspw. Geschlecht oder sozialer Herkunft – aber auch des Mondes auf Ebbe und Flut – nicht zu ermitteln, da sie nicht exogen im Rahmen eines Experiments manipulierbar sind (Winship und Morgan 1999). Auch ist in der Entwicklungspolitik die Relevanz der „Good Governance“ für ein erfolgreiches wirtschaftliches Wachstum recht offensichtlich. Allerdings ist es nicht durchführbar unter den 47 – entsprechend der Definition der Vereinten Nationen – am wenigsten entwickelten Staaten der Welt (Least Developed Countries – LDC) 24 nach einem Zufallsverfahren auszuwählen, dort anschließend Good Governance zu etablieren und nach 8 Jahren die ökonomische Entwicklung beider Gruppen zu vergleichen. Darüber hinaus kann mittels RCT nur begrenzt zwischen falschen und wahren Theorien unterschieden werden. Das Ergebnis des kontrollierten Zufallsexperiments
Die Bedingungen, unter denen ein Treatment unabhängig von seinen potenziellen Resultaten und damit auch von anderen Einflussfaktoren ist, werden in der Literatur unterschiedlich abgegrenzt und bezeichnet. Sie nennen sich Conditional Independence (bzw. Conditional Mean Independence), Unconfoundedness, Selection-on-Observables, Strong Ignorability (genauer dazu Drukker 2016). 7 Eine Studie besitzt interne Validität, wenn die getesteten kausalen Einflüsse auch in der Grundgesamtheit (Population) vorliegen. Externe Validität ist gegeben, wenn die Ergebnisse auch auf andere Grundgesamtheiten mit differierenden Rahmenbedingungen übertragbar sind. 6
12
1 Einführung: Kausale Aussagen und Prognosemodelle
sagt nur etwas über Ursache und Wirkung aus, aber enthält keine Informationen, warum dies so ist. In der Seeschifffahrt war seit dem 16. Jh. Skorbut als Krankheit unter den Seeleuten ein großes Problem. Eines der ersten medizinischen Experimente wurde von James Lind 1742 als Schiffsarzt durchgeführt (Thomas 1997, kritisch dazu Baron 2009). Er behandelte zwölf an Skorbut erkrankte Seeleute mit möglichst ähnlichen Symptomen und unter identischen Bedingungen gleichzeitig mit sechs verschiedenen Methoden (jeweils zwei Patienten mit der gleichen Methode). Zwei Kranke erhielten jeweils zwei Orangen und eine Zitrone pro Tag. Sie waren (anders als die anderen Patienten) nach kurzer Zeit (weitgehend) wieder gesund. Die Theorie von Lind war, dass saure bzw. säurehaltige Flüssigkeiten den Patienten helfen. Die wahre Ursache – der Mangel an Vitamin C (Ascorbinsäure) – wurde von ihm durch sein Experiment nicht identifiziert. Die eingangs beschriebene kontrafaktische Definition eines kausalen Effekts ist auch per se nicht ohne Probleme. Der oben erläuterte Average Treatment Effect (ATE) – auch als ITT (Intention-to-Treat-Effekt bezeichnet – schätzt die mittlere Differenz zwischen der Treatment- und der Kontrollgruppe in der Grundgesamtheit (der Population), auf die sich die Stichprobe bezieht. Diese mittlere kausale Wirkung ist aber bei einer großen Variabilität der Effekte zwischen den Beobachtungseinheiten, oder zwischen bestimmten Untergruppen von Beobachtungseinheiten, wenig relevant. Auch ist für viele wirtschaftspolitische Eingriffe und sozialpolitische Maßnahmen festzuhalten, dass sie auf der freiwilligen Teilnahme am Treatment beruhen und anders höchstens diktatorisch vorstellbar sind. Dies gilt bspw. für ein Weiterbildungsseminar für Langzeitarbeitslose, die Gewährung von projektbezogenen F&E-Förderprogrammen und die Einführung von E-Learning-Plattformen an bestimmten Hochschulen. Alle diese Beispiele zielen darauf ab, bestimmte positive Effekte zu erzielen. Allerdings ist es nicht möglich oder nicht gewünscht, bestimmte Interventionen zu oktroyieren. Es resultieren unterschiedliche Teilnahmen an der Treatmentund Kontrollgruppe, die nicht rein zufallsgesteuert sind und Unterschiede hinsichtlich der Befolgung (Akzeptanz) des Treatments und des Nicht-Treatments. Aus diesen Differenzen von idealem RCT und tatsächlichen Wirkungen resultieren verschiedene Effekte. Trotzdem kann eine kausale Wirkung, die sich auf die freiwillig teilnehmenden und das Treatment befolgenden Personen (bzw. Unternehmen usw.) beschränkt, natürlich relevant und wünschenswert sein. Dies ist dann der Average Treatment Effect of the Trea ted (ATT).8 Allein aufgrund der sehr hohen Kosten von (Feld-)Experimenten mit einer ausreichend großen Zahl von Teilnehmern sind wir in den Sozialwissenschaften im Allgemeinen auf In Teilen der Literatur wird darüber hinaus zwischen einer ganzen Reihe von Effekten differenziert. Die Unterschiede ergeben sich in erster Linie aufgrund der Frage, für welche Beobachtungsträger (bspw. Individuen) ein Treatment intendiert ist, im Gegensatz zu den Individuen, die tatsächlich dem Treatment ausgesetzt waren, und schließlich den Personen, die für ein Treatment in Frage kämen (d. h. die Grundgesamtheit). Winship und Morgan (1999, S. 664–668) und Guo und Fraser (2015, S. 48–52) erläutern die verschiedenen Ansätze. Die Verwendung der Begriffe bei verschiedenen Autoren ist nicht immer einheitlich.
8
1.3 Kausale Schlussfolgerungen
13
Beobachtungsdaten (Umfragedaten, Zensusdaten, Daten der amtlichen Statistik) angewiesen. Allerdings sind in der Praxis in einer Reihe von Fällen sogenannte natürliche Experimente anzutreffen (Dunning 2012).9 Dazu liegt eine Reihe von Beispielen mit interessanten Resultaten vor. Der Einzug junger Männer zum Wehrdienst in den USA fand während des Vietnamkriegs in Form eines Losverfahrens statt. Der Einfluss des Militärdienstes auf den späteren Erfolg im Berufsleben konnte so ähnlich wie in einem echten RCT analysiert werden. Im Jahr 1992 erhöhte der US-Bundesstaat New Jersey den geltenden Mindestlohn von 4,25 $ auf 5,05 $, während im benachbarten Pennsylvania der Mindestlohn unverändert bei 4,25 $ blieb. Vor allem in den angrenzenden Counties beider Staaten war es so möglich, die Auswirkungen der Mindestlohnerhöhung auf die Zahl der Arbeitsplätze in einem Niedriglohnsektor (den Fast-Food-Restaurants) zu vergleichen. Die Einführung von Studiengebühren in Deutschland an den Hochschulen einzelner Bundesländer (und mit unterschiedlicher Dauer) in den Jahren 2006 bis 2014 ist ebenfalls ein Beispiel eines natürlichen Experiments (siehe dazu Kap. 3). Sowohl bei Beobachtungsdaten als auch bei natürlichen Experimenten sind die vorhandenen Daten „verschmutzt“, d. h. sie entsprechen nicht den Daten aus einem idealen RCT. Mittels verschiedener Methoden wird dann versucht, die Daten so zu analysieren, dass sie den Eigenschaften von RCT-Daten nahekommen, bzw. die Probleme der Übersicht 1.2 beseitigen. Die entsprechenden Verfahren werden unter dem Oberbegriff Qua siexperimente zusammengefasst – Übersicht 1.3 listet die wichtigsten Varianten auf. Das erste Verfahren, die klassische multiple Regression, basiert auf der Annahme, dass alle relevanten Variablen berücksichtigt werden – die ceteris paribus Bedingung durch deren Kontrolle erfüllt ist – und die Regressionskoeffizienten unserer Hypothesenvariablen daher die kausalen Effekte identifizieren. Ob dies plausibel ist, kann nur im Einzelfall entschieden werden, ist aber häufig eher unwahrscheinlich. Das zweite Verfahren (Instrumentvariablen) hat sich seit ca. 40 Jahren vor allem in der Ökonometrie etabliert. Die anderen Ansätze sind jüngeren Ursprungs und werden seit ca. 25 Jahren vermehrt eingesetzt. Die Verfahren der Übersicht 1.3 sind miteinander kombinierbar, bspw. Instrumentvariablen und Panelmethoden zur Untersuchung von Daten, die auf natürlichen Experimenten beruhen. Alle Verfahren setzen aber jeweils voraus, dass bestimmte Annahmen erfüllt sind. Das heißt, es existiert keine Möglichkeit, kausale Wirkungen zu identifizieren, ohne dass bestimmte Voraussetzungen gegeben sind.
Weitere Beispiele sind: Welche Auswirkungen hat eine gesetzliche Krankenversicherungspflicht auf die Gesundheit der Bevölkerung? Führen kleinere Schulklassen in der Grundschule zu bessern Lernerfolgen? Diese und eine ganze Reihe von weiteren praktischen Anwendungsbeispielen erläutern Angrist und Pischke (2009, 2015) im Kontext der Verfahren der Übersicht 70.000 €“ aufgenommen. In einer Untersuchung des Innovationsverhaltens werden Unternehmen mit weniger als 10 Mitarbeitern nicht erfasst. Die Untersuchungsergebnisse sollen aber für alle Unternehmen gelten.
Multinomiale Variablen (Multinomial Models)
Modelle Logit-Modell, Probit-Modell, Logistische Regression Multinomial Logit, Multinomial Probit, Conditional Logit
Ordinale Variablen (Ordered Response Models)
Ordered Logit, Ordered Probit
Zählvariablen (Count Data Models) Corner-Solution Models, Zeroinflated Models
PoissonRegression Tobit-Modell
zensierte Daten
Censored Regression Models
trunkierte Daten
Truncated Regression Models
32
2 Abhängige Variablen mit begrenztem Wertebereich
Übersicht 2.1: Anwendungsfälle der binär logistischen Regression
• Ein bei einem Patienten entdeckter Tumor ist bösartig oder es handelt sich um eine gutartige Form. • Ein neues Medikament zur Krebsbekämpfung bewirkt eine Rückbildung des Tumors oder hat keinen Einfluss auf sein Wachstum und seine Verbreitung im Körper des Patienten. • Ein Studierender besitzt ein Apple iPhone oder ein Smartphone eines anderen Herstellers. • Ein Haushalt ist Mieter oder Eigentümer seiner Wohnung. • Ein Unternehmen der Metall verarbeitenden Industrie verkauft seine Produkte ins Ausland oder nicht. • Ein Arbeitnehmer benutzt den eigenen Pkw, um zur Arbeit zu gelangen, oder er verwendet ein anderes Verkehrsmittel. • Die Personalabteilung setzt Assessment-Center für die Personaleinstellung ein oder nicht. • Ein Kreditnehmer kommt seinen Zahlungsverpflichtungen nach oder es handelt sich um einen Kreditausfall. • Ein wahlberechtigter Bürger gehört bei der Bundestagswahl zu den Wählern der FDP oder nicht. • Ein Student wohnt in einer WG oder in einer eigenen Wohnung. solcher dichotomen (zweiwertigen bzw. binären) Fragestellungen finden sich in Übersicht 2.1.1 Die Problemlagen ähneln einem anderen statistischen Verfahren, nämlich der Diskriminanzanalyse. Die logistische Regression beruht aber auf weniger restriktiven Prämissen und besitzt daher einen breiteren Anwendungsbereich.2 Die zwei ersten Beispiele entstammen der medizinischen Forschung, in der die logistische Regression große Bedeutung hat. Sie verdeutlichen, dass dieses Schätzverfahren sowohl als Prognoseinstrument als auch für die Identifizierung kausaler Beziehungen relevant ist. Ermitteln zu können, ob ein bösartiger oder ein gutartiger Tumor vorliegt, ist wichtig, um eine geeignete Therapie festzulegen. Eine Bestrahlung ist wegen der erheblichen Nebenwirkungen nur bei einem bösartigen Tumor sinnvoll. Hier kommt es darauf an, möglichst eine richtige Prognose zu erstellen. Ob die unabhängigen Variablen kausale Ursachen oder nur Symptome eines bösartigen Tumors sind, ist nebensächlich. Im zweiten Die Namen in der Literatur variieren. Gängige andere Bezeichnungen – neben Logit- oder Probit-Analyse – sind bspw. Discrete Response Models, Dose Response Models, Dosis-Wirkungs-Modelle. 2 Die Diskriminanzanalyse wird daher in der empirischen Sozialforschung von der logistischen Regression zunehmend verdrängt. Die Eingabe entsprechender Suchworte in Google Scholar erzielt im Oktober 2019 fast doppelt so viele Treffer für die „logistische Regression“ im Vergleich zur „Diskriminanzanalyse“. 1
2.3 Logistische Regression (Logit-, Probit-Analyse)
33
Y Eigentümer 1
Mieter 0 800
2000
4000
X
Einkommen
Abb. 2.1 Lineare Schätzung einer binären abhängigen Variable
Fall geht es um die Zulassung eines neuen Medikaments. Hier ist die kausale Wirkung der Einnahme des Medikaments als unabhängige Variable (d. h. des Treatment, der Intervention) entscheidend. Medikamente sollten nur dann von der Krankenversicherung bezahlt werden, wenn sie tatsächlich wirksam sind. Die abhängige Variable Y hat in allen diesen Fällen nur zwei Ausprägungen, bspw.:
0 Haushaltmietet seine Wohnung Y= seiner Wohnung 1 Haushaltist Eigentumer
Ob die eine oder andere Alternative vorliegt (bzw. welche Entscheidung der Haushalt dazu getroffen hat), dürfte von einer Reihe von Faktoren abhängen. Einflussreich ist mit großer Sicherheit das Einkommen als unabhängige Variable. Die Überlegung ist, dass ein Privathaushalt eher bei einem hohen Einkommen (X) im Besitz einer eigenen Wohnung (bzw. eines eigenen Hauses) ist. Andere Einflussfaktoren existieren, werden aber zunächst der Einfachheit halber weggelassen. Der Zusammenhang zwischen abhängiger und unabhängiger Variable könnte dann wie im einfachen Modell der linearen Regression aufgefasst werden (wobei u der übliche Fehlerterm ist):
Y = b 0 + b1 X1 + u (2.1)
Die Beobachtungen für das Einkommen (X) und Miete (Y = 0) bzw. Eigentum (Y = 1) sind in der Abb. 2.1 als dreieckige Punkte eingezeichnet. Es wird visuell deutlich, dass Eigentümer häufiger Haushalte mit hohem Monatseinkommen sind, während Mieter eher niedrige Einkommen aufweisen. Die Schätzung einer linearen Funktion, basierend auf den abgebildeten Beobachtungspunkten mittels OLS-Verfahren, ist ebenfalls in Abb. 2.1 wiedergegeben.
34
2 Abhängige Variablen mit begrenztem Wertebereich
Was besagt die eingezeichnete Regressionsgerade? Sie kann grundsätzlich wie aus der einfachen linearen Regression bekannt interpretiert werden. Ist der Koeffizient einer unabhängigen Variable (hier des Einkommens) signifikant und positiv, erhöht die Zunahme dieser Variable um eine Einheit die Häufigkeit der mit dem Wert 1 kodierten Kategorie. Im Beispiel gibt der Koeffizient der Regressionsgerade in diesem Modell an, wie stark sich die Ausprägung, Eigentümer einer Wohnung zu sein, erhöht, wenn das Einkommen um eine Einheit steigt. Ist die Koeffizientenschätzung dagegen signifikant und negativ, verringert diese Variable die Häufigkeit des Wohneigentums. Dies wäre bspw. bei der Dummyvariable „Wohnort Großstadt mit mehr als 500 Tsd. Einwohnern“ plausibel. Die Steigung dieser Geraden – der geschätzte Regressionskoeffizient – bedeutet, dass mit steigendem Einkommen Haushalte vermehrt Eigentümer ihrer Wohnung sind und nicht Mieter. Ein geschätzter Koeffizient von bspw. 0,72 ist darüber hinaus aber schlecht interpretierbar. Denn zusätzliche 1000 Euro Monatseinkommen führen ja nicht dazu, dass ein Haushalt im Durchschnitt zu einem größeren Teil also bspw. 22 Tage von den 30 Tagen eines Monats in der eigenen Wohnung lebt in den restlichen 8 Tagen aber weiterhin zur Miete. Es existiert also kein stetiger Übergang zwischen den beiden Kategorien einerseits Mieter und andererseits Eigentümer. ˆ zu interpretieren sind, die von 0 und 1 Daher stellt sich die Frage, wie Werte für Y verschieden sind, da logisch und faktisch nur diese zwei Ausprägungen existieren. Die Lösung besteht darin, die Existenz einer nicht direkt beobachtbaren Variable in Form der Wahrscheinlichkeit, eine Wohnung zu besitzen, anzunehmen. Diese wird als latente Variable bezeichnet und mit Y* abgekürzt. Dieses Modell erklärt also Y mittels Y*. Die Beziehung zwischen Y und Y* kann wie folgt ausgedrückt werden:
1 falls Y∗ > 0, 5 Y= 0 falls Y∗ ≤ 0, 5
Das heißt, wenn die Wahrscheinlichkeit, Eigentümer zu sein, größer als 0,5 (50 %) ist, gehört eine Beobachtung zur Gruppe der Eigentümer. Liegt diese Wahrscheinlichkeit unter (bzw. genau bei) 0,5 (50 %) ist dieser Haushalt der Gruppe der Mieter zugeordnet. Eine Wahrscheinlichkeit von 0,5 ist der üblicherweise gewählte Klassifikationsgrenzwert (Trennwert, Cut-off Value). Eine darauf basierende Schätzung wird als Lineares Wahrscheinlichkeitsmodell (LPM – Linear Probability Model) bezeichnet. Die Wahrscheinlichkeit Y* bezieht sich auf das mit dem Wert 1 kodierte Ereignis (Outcome) also P(Y = 1). Das LPM schätzt folgende Gleichung: Y∗ = b 0 + b1 X1 + u (2.2) Der Koeffizient b1 ist wie üblich interpretierbar. Erhöht sich X1 um eine Einheit, steigt die Wahrscheinlichkeit des Ereignisses Y = 1 um b1 Einheiten. Da Y* als Wahrscheinlichkeit in Prozent gemessen wird und zwischen 0 und 100 % liegt, also um b1 %.
2.3 Logistische Regression (Logit-, Probit-Analyse)
35
Eine solche in Abb. 2.1 wiedergegebene OLS-Schätzung der Eigentumswahrscheinlichkeit ist aber aus mehreren Gründen immer noch problematisch. Erstens weist der Schätzer heteroskedastische Residuen auf. Zweitens wird bei hohen Einkommen (bspw. ˆ , d. h. eine Wahrscheinlichkeit, von größer 1 ermittelt und umgekehrt 4000 Euro) ein Y∗ bei sehr niedrigen Einkommen (bspw. 800 Euro) von kleiner 0. Beides ist aber logisch nicht möglich. Drittens unterstellt die gewählte lineare Funktionsform, dass der Einfluss des Einkommens auf die Kaufwahrscheinlichkeit immer gleich groß ist, was bei sehr geringen oder sehr hohen Einkommen wenig plausibel erscheint. Die Verwendung des linearen Wahrscheinlichkeitsmodells ist daher zweifelhaft, da ggf. sowohl die Koeffizientenschätzungen als auch die Standardfehler verzerrt und damit nicht verlässlich sind (Williams 2019). In der Praxis unterscheidet sich allerdings das Ergebnis der linearen Spezifikation häufig unter drei Aspekten nicht von komplexeren Methoden. Koeffizienten, die erstens im linearen Modell signifikant sind und zweitens eine bestimmte Einflussrichtung besitzen, haben diese Eigenschaften überwiegend auch in den im Folgenden erläuterten Logit- und Probit-Modellen. Drittens sind die geschätzten Koeffizienten der unabhängigen Variablen des linearen Wahrscheinlichkeitsmodells häufig gute Annäherungen an deren durchschnittlichen Einfluss in den genannten komplexeren Modellen (Wooldridge 2010, S. 563–564). Die Interpretation der latenten Variablen Y* als Wahrscheinlichkeit, eine Wohnung zu besitzen statt zu mieten, kann logisch nur zwischen minimal 0 (0 %) und maximal 1 (100 %) liegen. Es ist daher sinnvoll, einen Zusammenhang zwischen den Einflussfaktoren X und der abhängigen Variablen Y* zu modellieren, der diese Anforderung erfüllt. Hierzu wird eine Variable Z eingeführt, die den zusammengefassten Einfluss aller unabhängigen Variablen (X1, X2 usw.) auf Y* darstellt:3
Z = b 0 + b1 X1 + b 2 X 2 +…+ u (2.3)
Daran anschließend stellt sich die Frage nach der Funktionsform des Zusammenhangs von Z und Y*. Eine Funktionsform, die die oben aufgeführten inhaltlichen Probleme beseitigt, präsentiert Abb. 2.2. Diese Funktionsform führt dazu, dass unabhängig von der Größe der aggregierten Einˆ zwischen 0 und 1 liegt. Die flussfaktoren (hier des Einkommens) der geschätzte Wert Y∗ Regressionskoeffizienten b1 usw. (auch als Logits bezeichnet) entsprechen der Einflussstärke der jeweiligen exogenen Variablen auf die Höhe der Wahrscheinlichkeit, dass Y* gleich 1 ist, das heißt hier des Besitzes der eigenen Wohnung. Der prinzipiell S-förmige Zusammenhang kann mittels verschiedener Funktionsformen hergestellt werden. Die beiden praktisch wichtigsten Funktionsformen sind die logistische Funktionsform (Logit-Modell oder Logit-Schätzung) einerseits und die kumulierte
Es wird vereinfachend darüber hinweggesehen, dass die Fehler u (bzw. Residuen) in den Gl. (2.1), (2.2) und (2.3) nicht identisch sind.
3
36
2 Abhängige Variablen mit begrenztem Wertebereich
Wahrscheinlichkeit Y*
Eigentümer 1
Mieter 0
X
Einkommen
Abb. 2.2 Nichtlinearer Zusammenhang bei binärer abhängiger Variable
Standardnormalverteilung andererseits. Letztere wird als Probit-Schätzung (Probit-Modell) bezeichnet. Unabhängig von der gewählten Funktionsform gilt, dass Y* nicht linear von Z abhängt. Also kann die OLS-Methode nicht verwendet werden. Stattdessen setzt man das sogenannte Maximum-Likelihood-Schätzverfahren ein (ML-Schätzer). Die ML-Schätzung sucht die Koeffizientenwerte, bei denen die Wahrscheinlichkeit maximiert wird, die in der Stichprobe beobachteten Werte zu erhalten. Die Schritte dieser Suche heißen Iterationen. Anhang I erläutert das Schätzverfahren und seine Anwendungen genauer. Die Wahrscheinlichkeit wird mit P (für Probability) abgekürzt. Der Ausdruck P (Y = 1) oder kurz einfach P(1), bezeichnet die Wahrscheinlichkeit für das Ereignis mit dem Wert 1. Im Wohnungsbeispiel also die Wahrscheinlichkeit Eigentümer der Wohnung zu sein. Die Logit-Funktion wird im Folgenden kurz beschrieben. Sie hat als logistische Regressionsgleichung folgendes Aussehen: P (1) =
1 ez = z 1+ e 1 + e-z
(2.4)
Beide auf der rechten Seite stehenden Varianten der Formel sind in der Literatur gebräuchlich. Der Ausdruck auf der rechten Seite ist die sogenannte Link-Funktion. Sie stellt die nichtlineare Verbindung zwischen der linearen Gleichung Z und P (d. h. Y*) her. Wobei im vorliegenden Beispiel mit nur einer unabhängigen Variablen Einkommen (= X1) gilt:4 Z = b 0 + b1 X1 (2.5)
Und damit:
Der Wert e ist die Eulersche Zahl 2,718. Die Unterscheidung von einerseits den Schätzungen und andererseits den unbekannten wahren Werten bzw. Formen von P und Z werden dabei vernachlässigt.
4
2.3 Logistische Regression (Logit-, Probit-Analyse)
P (1) =
e(
37
b0 + b1 X1 )
1 + e(
b0 + b1 X1 )
(2.6)
Schließlich muss noch eine Entscheidungsregel eingeführt werden, ab welcher geschätzten Wahrscheinlichkeit eine Beobachtung zur Gruppe der Eigentümer gehört. Die Grenze wird standardmäßig bei einer geschätzten Wahrscheinlichkeit von 0,5 gezogen: Ab 0,5 wird erwartet, dass Wohnungseigentum vorliegt, bis und einschließlich 0,5 lautet die Schätzung (Prognose), dass es sich um einen Mieter handelt. Es lässt sich zeigen, dass der geschätzte Parameter b0 die horizontale Position der logistischen Funktion verändert. Im oberen Teil der Abb. 2.3 gehören die Funktionen von links nach rechts zu den Konstanten −2, −6 und −10. Die Konstante b0 verschiebt also die Logit-Funktion entlang der x-Achse (d. h. der Höhe des Einkommens) nach rechts oder nach links, beeinflusst aber den Verlauf der Steigung dieser Funktion nicht. Der Regressionskoeffizient b1 gibt mit seinem Vorzeichen an, wie sich die Wahrscheinlichkeit, Wohnungseigentümer zu sein, mit steigendem Einkommen verändert. Ein positiver Koeffizientenwert erhöht die Wahrscheinlichkeit. Dies illustriert der untere Teil der Abb. 2.3 für b1 = 0,43, b1 = 0,13 und b1 = 0,08. Die Wahrscheinlichkeit, eine Wohnung zu besitzen, wächst bei dem Koeffizienten 0,43 mit steigendem Einkommen am schnellsten. Verallgemeinert gilt, dass bei großem positivem b1 die Funktion steil ansteigt. Umgekehrt fällt die Funktion, wenn b1 negativ ist. Dies umso schneller, je kleiner (im negativen Bereich!) b1 ist. Die Koeffizienten bei mehreren unabhängigen Variablen werden analog interpretiert. Wenn das Einkommen in Tausend Euro skaliert ist und sich auf das Jahresnettoeinkommen bezieht, sagt die durchgezogene Logit-Funktion (Z = −6 + 0,13 Einkommen) der Abb. 2.3 folgendes aus: Bei einem Jahreseinkommen von 20 Tsd. Euro liegt die Wahrscheinlichkeit, dass ein Haushalt Wohnungseigentümer ist bei ca. 3 %. Bei einem höheren Jahreseinkommen steigt diese Wahrscheinlichkeit stark an und erreicht bei einem Einkommen von 80 Tsd. Euro fast 100 %. In der unteren Abb. 2.3 macht der Verlauf der Funktion für b1 = 0,13, d. h. die mittlere Logit-Funktion, deutlich, dass der Einfluss des Einkommens auf die Wahrscheinlichkeit, Wohnungsbesitzer zu sein, unterschiedlich groß ist. Bei einem niedrigen Jahreseinkommen von 20 Tsd. Euro führt eine Einkommenssteigerung von 10 Tsd. Euro nur zu einem geringen Zuwachs. Bei einem Einkommen von 40 Tsd. dagegen bewirken zusätzliche 10 Tsd. Euro eine starke Erhöhung der Wahrscheinlichkeit, Eigentümer zu sein. Die geschätzten Koeffizienten (Logits) sind nur schwierig und begrenzt interpretierbar. Exakt geben sie die Veränderung des logarithmierten Chancenverhältnisses wieder. Eindeutig ist nur die Wirkungsrichtung: Ein positiver (und signifikanter) Koeffizient erhöht die Wahrscheinlichkeit des Wohneigentums, und ein negativer Koeffizient einer unabhängigen Variablen verringert sie. Insbesondere darf ihre absolute Größe nicht als Ausmaß der Veränderung der Wahrscheinlichkeit (für Y = 1) interpretiert werden. Die Größe der Koef-
38
2 Abhängige Variablen mit begrenztem Wertebereich
Z = b0 + 0,13Einkommen:
P
b0 = -2 b0 = -6 b0 = -10
Z = -6 + b1Einkommen:
P
b1 = 0,43 b1 = 0,13 b1 = 0,08
Abb. 2.3 Der Verlauf der Logit-Funktion
fizienten verschiedener unabhängiger Variablen sagt ebenfalls nichts über deren relative Einflussstärke aus, weil sie von deren Skalierung abhängt. Darüber hinaus sind die Koeffizientenschätzungen unterschiedlicher Modelle mit differierender Datenbasis nicht vergleichbar. Um die Interpretation der Wirkung fassbarer zu machen, werden anstatt der (oder ergänzend zu den) Koeffizienten (Logits) die Chancenverhältnisse (Odds Ratios) verwendet, die wie folgt definiert sind:
2.3 Logistische Regression (Logit-, Probit-Analyse)
Chancenverhältnis =
39
P (1)
1 − P (1)
(2.7)
Liegt die Wahrscheinlichkeit des Wohnungseigentums bei 80 %, ist die Gegenwahrscheinlichkeit, nicht Eigentümer – also Mieter – zu sein, 20 %. Dies steht im Nenner der Gl. (2.7). Das Chancenverhältnis ist daher 80/20, d. h. beträgt 4 zu 1 und ist daher 4-mal höher. Beläuft sich die Wahrscheinlichkeit des Eigentums bspw. auf 99,8 %, berechnet sich das Chancenverhältnis als 99,8/0,2 und ist folglich 499-mal größer. Das Chancenverhältnis ist daher im Gegensatz zur Wahrscheinlichkeit P nicht auf den Wertebereich zwischen 0 und 1 beschränkt, sondern liegt im positiven Zahlenbereich zwischen 0 und unendlich. Da die Schätzung bspw. des Koeffizienten b1 der unabhängigen Variablen X1 deren Einfluss auf das logarithmierte Chancenverhältnis beschreibt, wird durch die Berechnung der Funktion e b1 die Logarithmierung rückgängig gemacht. Der resultierende Wert für e b1 ist der Einfluss auf das Chancenverhältnis, wenn sich die Variable X1 um eine Einheit ändert. Er entspricht der Vervielfachung des Chancenverhältnisses, wenn die betreffende unabhängige Variable sich um eine Einheit erhöht und alle anderen Einflussfaktoren konstant gehalten werden. Ist ein Logit-Koeffizient b gleich 0 beträgt das das Odds Ratio 1. Dies ist logisch, denn wenn ein Koeffizient nicht von 0 verschieden ist, besitzt er keinen Einfluss auf die Wahrscheinlichkeit des Ereignisses Y = 1, bspw. hier der Wahrscheinlichkeit, Wohnungseigentümer zu sein. Die Aussage ist identisch mit der Feststellung, dass das Chancenverhältnis mit dem Faktor 1 multipliziert wird, also gleich bleibt. Liegt das Chancenverhältnis unter 1, bspw. bei 0,25, verringert es sich um diesen Faktor. Was bedeutet, dass das Odds Ratio 4-mal kleiner wird. Dies folgt aus dem Kehrwert 1/0,25 = 4. Die Odds Ratios werden in der Literatur manchmal relative Wahrscheinlichkeiten genannt. Die beschriebene Form der Darstellung der Wirkung einer Veränderung der unabhängigen Variablen ist etwas leichter inhaltlich interpretierbar. Solche Chancenverhältnisse bezeichnet man auch als Effektstärken. Tab. 2.2 verdeutlicht den Zusammenhang von Koeffizientenwert, Chancenverhältnis und Veränderung der Wahrscheinlichkeit für die mit dem Wert 1 kodierte dichotome abhängige Variable.5 Aber auch die inhaltliche Bedeutung der Veränderungen von Chancenverhältnissen ist recht schwer erfassbar. Die klarste Darstellung der Wirkungen der exogenen Variablen bezieht sich auf die grafische Darstellung der Veränderung der geschätzten Wahrscheinlichkeiten wie in Abb. 2.3. Dies wird weiter unten erläutert. Als Fazit ist festzustellen, dass die Interpretation kontinuierlicher (metrisch skalierter) Einflussfaktoren (in der logistischen Regression häufig Kovariate genannt) deutlich komplexer ist als bei der linearen OLS-Regression. Die inhaltliche Bedeutung von nominal Ein weiterer Begriff für das Chancenverhältnis ist (relatives) Risiko bzw. Risikoverhältnis (Risk Ratio oder auch Relative Risk Ratio) (so Long und Freese 2014, S. 391). Dagegen definieren andere Autoren – bspw. der medizinischen Statistik – Chancenverhältnis und Risikoverhältnis unterschiedlich (so Diaz-Quijano 2012).
5
40
2 Abhängige Variablen mit begrenztem Wertebereich
Tab. 2.2 Koeffizienten (Logits), Odds Ratios und Wahrscheinlichkeiten Koeffizientenwert (Logit) 0
Odds Ratio (Effektstärke) 1
Veränderung von P(Y = 1) P nimmt ab P bleibt unverändert P steigt
skalierten unabhängigen Variablen (d. h. Dummyvariablen) ist glücklicherweise einfach zu verstehen. Sie messen immer den Unterschied relativ zur Referenzkategorie. Die beste Möglichkeit zur Interpretation der Zusammenhänge von Koeffizientenwerten einerseits und den Wahrscheinlichkeiten andererseits ist deren grafische Darstellung. Die Probit-Verteilungsfunktion ist im Vergleich zur Logit-Funktion mathematisch komplizierter und hat einen prinzipiell etwas steileren Verlauf. In den statistischen Programmpaketen sind in der Regel beide Verfahren implementiert. Die Forschungspraxis bevorzugt das Logit-Verfahren, da häufig mehr Beobachtungswerte an den Rändern (in den Extrembereichen) liegen, als nach der Normalverteilung (auf der das Probit-Modell beruht) zu erwarten sind. Die Unterschiede in den geschätzten Regressionskoeffizienten des Logit- und Probit-Modells sind allerdings im Allgemeinen sehr gering. Zur Überprüfung der Robustheit können beide Schätzergebnisse miteinander verglichen werden. Nach der Schätzung einer logistischen Regression ist zunächst das Gesamtmodell zu bewerten. Der generelle Modellfit wird vor allem anhand der Klassifikationsgüte, des Likelihood-Ratio-Tests und der Pseudo-R2-Werte beurteilt.6 Die Klassifikationstabelle ist ein simples Verfahren zur Charakterisierung der Klassifikationsgüte. Besitzt die geschätzte Wahrscheinlichkeit einen Wert von größer 0,5 (also 50 %), wird diese Beobachtung den Fällen zugeordnet, für die Y gleich 1 ist. In unserem Beispiel gehört ein solcher Haushalt zu den Wohneigentümern. Liegt die geschätzte Wahrscheinlichkeit bei kleiner oder gleich 0,5, zählt er zur Gruppe, für die Y gleich 0 beträgt, also zu den Mietern. Die Zahl der Fälle wird in einer Kreuztabelle aufgelistet, differenziert ˆ = 0 bzw. Y∗ ˆ = 1) einerseits und dem beobachteten nach dem geschätzten Ergebnis ( Y∗ Ergebnis (Y = 0 bzw. Y = 1) andererseits. Daraus wird die Zahl der vom Modell richtig klassifizierten Fälle abgelesen und als Prozentsatz aller Beobachtungen ausgedrückt. Die Aussagekraft dieses Prozentsatzes ist allerdings sehr begrenzt. Wenn 80 % der befragten Bewohner Eigentümer sind, wird ein Modell, das für alle Bewohner schätzt, dass es sich um Eigentümer handelt, automatisch bereits 80 % der Fälle richtig zuordnen. Ein zweites Beispiel illustriert dies noch einmal. Wenn die Chancen 50:50 stehen, kann man mit einem naiven Modell, das für alle Beobachtungen immer das Ergebnis 1 oder umgekehrt genau das Gegenteil, nämlich 0, prognostiziert, bereits eine Treffergenauigkeit von 50 % erzielen. Der Likelihood-Ratio-Test (LR-Test) vergleicht die Erklärungskraft eines Modells, das nur die Konstante b0 enthält (dieses wird als LL0 bezeichnet), mit dem Modell, das alle Weitere hier nicht behandelte Methoden zur Überprüfung der Modellgüte sind der Pearson-Chi2-Test, die Devianz (Deviance) und die Receiver Operating Curve (ROC).
6
2.3 Logistische Regression (Logit-, Probit-Analyse)
41
unabhängigen Variablen einbezieht (als LLM bezeichnet). LL steht für Log Likelihood. Die LR-Teststatistik lautet: −2(LL0 − LLM).7 Die resultierende Testgröße ist Chi2-verteilt. Sie prüft die Nullhypothese, dass die unabhängigen Variablen zusammen keine Verbesserung des Modellfits bewirken. Anhand des empirischen Signifikanzniveaus des LR-Tests können wir wie üblich entscheiden, ob die Nullhypothese abgelehnt werden kann. Das funktioniert also ganz analog zum F-Test der einfachen linearen OLS-Regression.8 Zur Einschätzung der Modellgüte existiert eine Vielzahl von Kriterien, die den aus der linearen OLS-Regression bekannten Determinationskoeffizienten R2 imitieren. Sie werden unter dem Oberbegriff Pseudo-R2-Werte zusammengefasst. Ihr Ausgangspunkt ist ein Vergleich des LL0 mit dem LLM-Wert. Sie beziehen sich auf die prozentuale Verbesserung der Schätzung des LLM-Werts im Vergleich zum LL0-Wert. Ihre Werte sind also inhaltlich als prozentuale Fehlerreduktionen zu interpretieren. Es handelt sich um eine relative Größe, die zwei verschiedene Modellspezifikationen bei gleicher Datengrundlage gegenüberstellt. Pseudo-R2-Werte können daher nicht für Vergleiche mit Modellen auf anderen Datengrundlagen oder anderen Schätzverfahren herangezogen werden.9 Werte von (oder nahe bei) 0 weisen auf keine oder eine nur sehr geringe Verbesserung, also einen schlechten Modellfit hin. Höhere Werte können als ein deutlich verbesserter und insoweit guter Modellfit interpretiert werden. Gängige Varianten von Pseudo-R2-Werten sind Cox & Snell, Nagelkerke und McFaddens R2.10 Häufig wird in der Literatur empfohlen, Nagelkerkes R2 zu verwenden, da dieser Wert – im Gegensatz zum R2 von Cox & Snell – auch den Maximalwert 1 erreichen kann. McFaddens R2 ist gleich 0, wenn alle Koeffizienten nicht von 0 verschieden sind, also gemeinsam keinen Erklärungsbeitrag liefern. Bei einem extrem guten Modell nähert sich dieser Wert 1. Generell sind die Pseudo-R2-Werte aber deutlich kleiner als die klassischen Determinationskoeffizienten der OLS-Regression. Den drei genannten Pseudo-R2-Kennzahlen ist gemeinsam, dass Werte im Bereich von 0,20 bis 0,40 als gut bis sehr gut anzusehen sind (Tabachnick und Fidell 2019, S. 506; Urban und Mayerl 2018, S. 417–418). Auch hier gilt – wie für das R2 in der OLS-Regression –, dass selbst kleine Pseudo-R2-Werte nicht bedeuten, dass das Modell unsinnig oder falsch ist. Bei der Entscheidung, ein Modell komplett zu verwerfen, ist allein der Likelihood-Ratio-Test relevant. Allen Pseudo-R2-Werten ist gemeinsam, dass sie keine so klare inhaltliche Aussage wie das R2 bzw. das korrigierte R2 der OLS-Regression erlauben. Sie geben nicht (!) die erklärte Varianz an.
Die Logik des Likelihood-Tests erläutert Anhang I ausführlicher. Weitere Bezeichnungs- und Abkürzungsvarianten dieses Tests sind: Modell Chi-Quadrat, Likelihood-Quotienten-Test, χ2, L2 und GM. 9 Dies gilt auch für das R2 der OLS-Regression. Zur begrenzten Aussagekraft des R2 siehe Stoetzer (2017, Abschn. 6.3.2). 10 Der Test von Nagelkerke wird auch Cragg-Uhler-Test genannt. Weitere Tests gehen bspw. auf Efron sowie McKelvey & Zavoina zurück. Außerdem sind besonders das AIC und das BIC für Modellvergleiche geeignet. 7 8
42
2 Abhängige Variablen mit begrenztem Wertebereich
2.3.2 Modellschätzung und Interpretation Als Beispiel einer Modellschätzung verwenden wir einen realen Datensatz, der sich auf den Untergang der Titanic bezieht. Praktisches Beispiel: Der Untergang der Titanic Der britische Luxusdampfer Titanic sank bei seiner Jungfernfahrt auf dem Weg von Southampton nach New York am 15. April 1912. Das als unsinkbar geltende Schiff riss nach einer Kollision mit einem Eisberg vermutlich über 1500 Personen in den Tod. Eine Vielzahl von Publikationen und mehrfache Verfilmungen halten die Erinnerung an eine der größten Katastrophen der zivilen Schifffahrt aufrecht. Eine eigene Website geht wichtigen Fragen zum Untergang nach – etwa dem Problem, welche letzte Melodie die Kapelle des Schiffs vor dem Sinken spielte (https://www.encyclopedia-titanica.org/). Ein Resultat dieser Beschäftigungen ist ein umfangreicher Datensatz. Es handelt sich um die Passagierliste mit einer Reihe von Informationen zu allen Passagieren: Name, Alter, Geschlecht, Familienstatus, Einschiffungsort (Ausgangshafen war Southampton, aber die Titanic nahm in Cherbourg und Queenstown weitere Passagiere auf), Staatsangehörigkeit sowie die gebuchte Klasse des Passagiers. Vor allem aber ist vermerkt, ob der jeweilige Passagier überlebt hat (gerettet wurde) oder nicht. Diese Informationen existieren für 1046 Passagiere. Die Gesamtzahl der Passagiere lag je nach Quelle zwischen 1317 und 1409 Passagieren. Der Datensatz stammt ursprünglich von Eaton und Haas (1995) und wurde mehrfach für einzelne Passagiere ergänzt (Harrell 2002). Der hier verwendete modifizierte Datensatz enthält keine Passagiere, für die einzelne Informationen fehlen. Auch die Besatzung der Titanic wird nicht einbezogen. Um den Datensatz übersichtlich zu halten, beschränkt er sich auf die Variablen Alter, Geschlecht, Passagierklasse und Überleben. Das Forschungsinteresse bezieht sich auf die Frage, welche Faktoren die Wahrscheinlichkeit der Rettung eines Passagiers positiv (bzw. negativ) beeinflusst haben. Plausible Hypothesen sind, dass das Geschlecht (weiblich) und die Altersgruppe Kinder sich positiv auswirken (Motto: „Frauen und Kinder zuerst in die Rettungsboote“). Interessant ist auch, ob die gebuchte Klasse einen Einfluss ausübt. Etwa indem Passagiere der ersten Klasse bei der Aufnahme in die Rettungsboote bevorzugt wurden. Abhängige Variable ist Survival mit dem Wert 1 für Rettung und dem Wert 0 im Fall des Ertrinkens. Unabhängige Variablen sind Age (Alter), Female (1 bei weiblichen Passagieren, 0 bei Männern) und Pass_class (die erste, zweite und dritte Passagierklasse). Die folgende Abb. 2.4 enthält den Output der binären logistischen Regression in Form der Logit- und der Probit-Schätzungen mittels Stata. Die Iterationsschritte der Maximum-Likelihood-Schätzung sind weggelassen. Im oberen Teil sind die Koeffizientenschätzungen als Logits wiedergegeben. Der mittlere Teil enthält das gleiche Modell aber mit den Chancenverhältnissen (Odds Ratios) an Stelle der Koeffizientenschätzungen und der untere Teil zeigt noch einmal dieses Modell als Probit-Schätzung. Die folgenden Erläuterungen beschränken sich auf die wichtigsten Aspekte.
2.3 Logistische Regression (Logit-, Probit-Analyse)
43
Gesamtmodell Links befindet sich die Log Likelihood des Modells LLM −491,22655. Die LL0 ist die Log Likelihood des Modells ohne exogene Variablen. Sie wird im ersten Iterationsschritt der ML-Schätzung ausgewiesen und beträgt hier −707,31022 (nicht abgebildet). Rechts oben steht der Likelihood-Ratio-Test. Er wird von Stata als „LR Chi2“ bezeichnet und beträgt 432,17 (aus: −2(−707,31022 − (−491,22655)). Die in Klammern dabeistehende 4 gibt die Freiheitsgerade an. Sie entsprechen der Zahl der unabhängigen Variablen (ohne die Kon stante). Direkt darunter sehen wir das empirische Signifikanzniveau (Prob >chi2 = 0,0000). Es liegt unter 1 %. Also lehnen wir die Nullhypothese, dass die unabhängigen Variablen unseres Modells zusammen keine (zusätzliche) Erklärungskraft besitzen, ab. Mindestens eine unabhängige Variable ist also einflussreich. Im SPSS-Output zu diesem Modell findet sich der LR-Test unter der Überschrift „Omnibus-Tests der Modellkoeffizienten“ und heißt „Chi-Quadrat“. Bei dem von Stata ausgewiesenen Pseudo-R2 in Höhe von 0,3040 handelt es sich genauer um McFaddens R2. Der SPSS-Output (hier nicht abgebildet) verwendet als PseudoR2-Werte „Cox & Snells R2“ und „Nagelkerkes R2“. Beide werden im SPSS-Output unter „Modellzusammenfassung“ abgebildet. Das R2 von Cox & Snell beträgt 0,338 und das besser interpretierbare Nagelkerke-R2 liegt bei 0,457. Das heißt, die Schätzung der Überlebenswahrscheinlichkeit wird durch den Einbezug der unabhängigen Variablen Age, Female und Pass_class um fast 46 % in Relation zu einem Modell ohne diese Einflussfaktoren verbessert. Die drei Pseudo-R2-Werte differieren also recht deutlich, obwohl sie ähnliche Vorgehensweisen nutzen. Wir können aber übereinstimmend schlussfolgern, dass ein sehr guter Modellfit vorliegt, weil alle Werte über 0,3 bzw. sogar 0,4 liegen. Der untere Teil der Abb. 2.4 gibt die Schätzung der Überlebenswahrscheinlichkeit auf der Grundlage einer Probit-Schätzung wieder. Die Ergebnisse unterscheiden sich nicht prinzipiell vom logistischen Modell. Likelihood-Ratio-Test sowie Signifikanz und Einflussrichtung der Koeffizienten stimmen überein. (McFaddens) Pseudo-R2 ist im Probit-Modell unwesentlich geringer. Die Koeffizientenschätzungen sind alle absolut gesehen kleiner. Da aber eine andere Link-Funktion verwendet wird, ist dies wenig überraschend und lässt keine weiteren Schlussfolgerungen zu. Daher folgt als Fazit, dass das Probit-Modell die logistische Regression bestätigt. Die zu diesem logistischen Modell gehörige Klassifikationstabelle (in der Version von SPSS) ist in Abb. 2.5 zu sehen. Von den 1046 Passagieren sind 619 ertrunken (beobachteter Survival = 0), und 427 sind gerettet worden (beobachteter Survival = 1). Die von unserem logistischen Modell geschätzte (vorhergesagte) Zahl der Toten (geschätzter Survival = 0) liegt bei 646, und die geschätzte Zahl der Überlebenden (geschätzter Survival = 1) beträgt 400 Passagiere. Von den tatsächlichen Toten (erste Zeile der Abb. 2.5) werden 84 % vom Modell richtig als Ertrunkene klassifiziert. Von den tatsächlich Überlebenden (zweite Zeile) werden 70,5 % vom Modell identifiziert. Insgesamt ordnet das Modell 78,5 % aller Passagiere richtig zu – nämlich 821 (520 plus 301) von 1046 Passagieren. Die Zahl von 78,5 % korrekt geschätzten Fällen ist aber per se – wie oben erläutert – wenig aussagekräftig.
44
2 Abhängige Variablen mit begrenztem Wertebereich
Logit-Koeffizienten: Logistic regression Log likelihood = -491.22655
Number of obs LR chi2(4) Prob > chi2 Pseudo R2
= = = =
1,046 432.17 0.0000 0.3055
-----------------------------------------------------------------------------Survival | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------Age | -.0343932 .0063312 -5.43 0.000 -.0468022 -.0219843 1.Female | 2.497845 .1660427 15.04 0.000 2.172407 2.823282 | Pass_class | 2 | -1.28057 .2255447 -5.68 0.000 -1.722629 -.8385103 3 | -2.289661 .225812 -10.14 0.000 -2.732244 -1.847077 | _cons | 1.024229 .2962885 3.46 0.001 .4435146 1.604944 ------------------------------------------------------------------------------
Koeffizienten als Chancenverhältnisse (Odds Ratios): Logistic regression Log likelihood = -491.22655
Number of obs LR chi2(4) Prob > chi2 Pseudo R2
= = = =
1,046 432.17 0.0000 0.3055
-----------------------------------------------------------------------------Survival | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------Age | .9661915 .0061172 -5.43 0.000 .9542761 .9782556 1.Female | 12.15626 2.018459 15.04 0.000 8.779391 16.83201 | Pass_class | 2 | .2778789 .0626741 -5.68 0.000 .178596 .4323541 3 | .1013008 .0228749 -10.14 0.000 .0650731 .1576974 | _cons | 2.784948 .8251482 3.46 0.001 1.558174 4.977582 -----------------------------------------------------------------------------Note: _cons estimates baseline odds.
Probit-Koeffizienten: Probit regression Log likelihood = -492.27639
Number of obs LR chi2(4) Prob > chi2 Pseudo R2
= = = =
1,046 430.07 0.0000 0.3040
-----------------------------------------------------------------------------Survival | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------Age | -.0194259 .0035879 -5.41 0.000 -.0264581 -.0123938 1.Female | 1.48564 .0943439 15.75 0.000 1.30073 1.670551 | Pass_class | 2 | -.7601703 .1330291 -5.71 0.000 -1.020903 -.499438 3 | -1.30316 .1261011 -10.33 0.000 -1.550314 -1.056007 | _cons | .5694616 .1717534 3.32 0.001 .2328311 .906092 ------------------------------------------------------------------------------
Abb. 2.4 Logistische Regressionen Stata
2.3 Logistische Regression (Logit-, Probit-Analyse)
45
Abb. 2.5 Klassifikationstabelle Titanic
Koeffizientenschätzungen Hinsichtlich der Signifikanz der Koeffizienten ist für unser Titanic-Beispiel festzustellen, dass alle unabhängigen Variablen (Age, Female, Pass_class 2 und Pass_class 3) auf dem 1-%-Niveau signifikant sind. Stata verwendet hier statt der aus der OLS-Regression bekannten t-Werte die z-Werte.11 Sie berechnet man – wie die t-Werte –, indem der Koeffizient durch seinen S tandardfehler dividiert wird. An der Interpretation der Signifikanzniveaus ändert sich ebenfalls nichts. Für die Variable Female beträgt der Logit +2,498, d. h., Frauen hatten im Vergleich zu Männern eine höhere Überlebenswahrscheinlichkeit. Die Koeffizienten der zweiten und dritten Passagierklasse betragen −1,281 (Pass_class 2) bzw. −2,290 (Pass_class 3). Passagiere der zweiten und dritten Klasse wiesen damit eine geringere Überlebenswahrscheinlichkeit auf als Passagiere der ersten Klasse. Die Größen der Koeffizienten solcher Dummyvariablen können (innerhalb eines Modells) miteinander verglichen werden. Der positive Einfluss des Geschlechts Female (+2,498) ist größer als der negative Einfluss, wenn man zu den Passagieren der zweiten Klasse und nicht der ersten Klasse gehört (−1,281). Das heißt, Frauen der zweiten Klasse hatten eine größere Überlebenswahrscheinlichkeit als Männer der ersten Klasse. Der Einfluss des Alters (Variable Age) ist mit dem Koeffizient −0,034 ebenfalls negativ. Ältere Passagiere besaßen also eine geringere Überlebenswahrscheinlichkeit. SPSS verwendet an Stelle des z-Tests den Wald-Test.12 Diese Prüfgröße berechnet sich aus dem quadrierten Koeffizientenwert dividiert durch den quadrierten Standardfehler dieses Koeffizienten. Die resultierende Prüfgröße ist Chi2-verteilt und testet die übliche Nullhypothese, dass der betreffende Koeffizient keinen Einfluss ausübt. Abschn. 2.5 enthält die Schätzergebnisse von SPSS, die sich inhaltlich natürlich nicht von denen der Abb. 2.4 unterscheiden. Die Literatur empfiehlt, anstelle des Wald- oder des z-Tests bei kleinen Stichprobenumfängen einen Likelihood-Ratio-Test durchzuführen, um die Signifikanz einer Variablen zu prüfen (Acock 2016, S. 353–354). Dies, weil der Wald- und der z-Test bei einer kleinen Dies, weil eine Normalverteilung statt der t-Verteilung angenommen wird. Tatsächlich ist der z-Test in Stata der originale Wald-Test und beim Wald-Test von SPSS handelt es sich um den quadrierten z-Wert. 11 12
46
2 Abhängige Variablen mit begrenztem Wertebereich
Zahl von Beobachtungen die Nullhypothese zu oft nicht ablehnen. Das heißt, eine tatsächlich einflussreiche unabhängige Variable wird als nicht signifikant verworfen, es wird also ein Fehler 2. Art begangen. Der Likelihood-Ratio-Test prüft, ob sich die Likelihood eines Modells bei Einbezug einer unabhängigen Variablen signifikant verbessert (siehe Anhang I). Im vorliegenden Fall ist dies nicht relevant, da bei einer großen Zahl von Beobachtungen – wie in unserem Titanic-Datensatz – Wald-, z- und Likelihood-Ratio-Tests zu identischen Ergebnissen kommen. Führen wir trotzdem entsprechende LR-Tests durch, bestätigen diese die Resultate der Abb. 2.4. Genauer betrachtet, besagt der Koeffizient (Logit) der Variable Female von 2,498, dass das logarithmierte Chancenverhältnis (Log (P/(1 − P)), den Untergang der Titanic zu überleben, um 2,498 steigt, wenn es sich bei dem Passagier um eine Frau und nicht um einen Mann handelt. Wobei die Einflussfaktoren Alter und Passagierklasse konstant gehalten werden. Mit Log ist im Folgenden immer der natürliche Logarithmus (Ln) gemeint. Die Gleichung dieser logistischen Regression lautet also:
log ( P / 1 - P ) = 1, 024 − 0, 034 Age + 2, 498 Female −1281Pass_ class 2 − 2, 290 Pass_ class3 + u
(2.8)
Sie beschreibt den Einfluss der unabhängigen Variablen auf die in Logits skalierte Wahrscheinlichkeit zu überleben, wenn die anderen unabhängigen Variablen kontrolliert werden. Bspw. berechnet sich für eine 50 Jahre alte Frau in der zweiten Klasse ein Logit von +0,54 (= 1,024 − 1,7 + 2,498 − 1,281). Ihre Überlebenswahrscheinlichkeit war also größer als bei einem gleichaltrigen Mann in der ersten Klasse (Logit: −0,676 = 1,024 − 1,7 + 0 + 0). Die Odds-Ratios (Chancenverhältnisse) sind in der mittleren Tabelle der Abb. 2.4 aufgelistet. Da es sich nur um eine andere Darstellungsweise der Logits aus der Tabelle da rüber handelt, sind beide Tabellen in allen anderen Beziehungen identisch. SPSS verwendet die Bezeichnung „Exp(b)“ für die Chancenverhältnisse. Das Odds Ratio der Variable Female beträgt (gerundet) 12,156. Es berechnet sich aus dem Koeffizienten +2,4978 wie folgt: e+2,4978 = 12,156. Inhaltlich besagt dies, dass das Chancenverhältnis zu überleben c.p. um den Faktor 12,156 steigt, wenn es sich um eine Frau handelt und nicht um einen Mann. Klarer ausgedrückt, hatten Frauen eine um mehr als 12-mal höhere Überlebenschance als Männer. Ein Passagier der dritten Klasse besitzt ein Odds Ratio von gerundet 0,10. Das heißt, seine relative Überlebenswahrscheinlichkeit sank bei Berücksichtigung des Geschlechts und des Alters im Vergleich zu einem Passagier der ersten Klasse um den Faktor 0,1, war also 10-mal geringer (1/0,1). Ein zusätzliches Lebensjahr verringert das Chancenverhältnis um den Faktor 0,966, d. h. senkt die relative Rettungswahrscheinlichkeit um den Faktor 1,035. Eine andere Formulierung dieser Sachverhalte ist, dass eine Frau eine um 1214,6 % größere relative Wahrscheinlichkeit zu überleben als ein Mann besaß und ein Passagier der dritten Klasse eine um 90 % (1 − 0,1) niedrigere relative Wahrscheinlichkeit bezogen auf einen Passagier der ersten Klasse. Die Erhöhung des Alters um ein Jahr bewirkt eine Abnahme der relativen Wahrscheinlichkeit des Überlebens um 3,4 % (1 − 0,966). Verständlicher als die Odds Ratio ist ggf. die gemeinsame Wirkung der unabhängigen Variablen auf die geschätzte Wahrscheinlichkeit eines Passagiers, zu überleben. Sie wird
2.3 Logistische Regression (Logit-, Probit-Analyse)
47
in der Literatur und den einschlägigen Softwareprogrammen auch „vorhergesagte“ („predicted“) Wahrscheinlichkeit genannt. Die geschätzten Wahrscheinlichkeiten jedes Passagiers, zu überleben, zeigt Tab. 2.3 am Beispiel der ersten drei Beobachtungen unseres Datensatzes, wobei die Daten gerundet werden. Alle drei Beobachtungen sind Passagiere der ersten Klasse (Pass_class = 1). Bei dem zweiten Fall handelt es sich um ein Baby (jünger als ein Jahr, daher Age = 0,9), das gerettet wurde (Survival bzw. beobachtete Wahrscheinlichkeit der Rettung = 1). Die geschätzte Überlebenswahrscheinlichkeit beträgt für dieses Baby 72,96 %. Die dritte Beobachtung ist ein zweijähriges Mädchen der ersten Klasse. Da alle drei Variablen einen positiven Einfluss ausüben, ist ihre vorhergesagte Überlebenswahrscheinlichkeit besonders groß. Sie beträgt fast 97 %. Allerdings wurde sie nicht gerettet (Survival = 0). Zur Verdeutlichung setzen wir die Werte des Datensatzes in die Gl. (2.6) ein und berechnen so den Z-Wert (Z_Value) für jeden Passagier und darauf basierend die prognostizierte Wahrscheinlichkeit für die Rettung. Den Zusammenhang von Z-Werten und geschätzten (vorhergesagten) Überlebenswahrscheinlichkeiten zeigt Abb. 2.6. Für die nominal skalierte Variable Pass_class enthält Abb. 2.7 die Mittelwerte der geschätzten Überlebenswahrscheinlichkeit aller Passagiere. Die Passagiere der ersten Klasse hatten im Mittel eine geschätzte Überlebenswahrscheinlichkeit von 63,73 %, die der zweiten Klasse von 44,06 % und der dritten Klasse von lediglich 26,15 %. Auf dieselbe Art berechnet lauten die geschätzten Wahrscheinlichkeiten des Überlebens für Frauen 75,26 % und für Männer 20,52 %. Der Unterschied in der Überlebenswahrscheinlichkeit zwischen Frauen und Männern wird hier deutlich. Er hängt aber natürlich auch von den Ausprägungen der anderen Variablen (Age und Pass_class) in unserem Datensatz ab. Verwendet man den Durchschnitt dieser Variablen in unserem Datensatz, beträgt der Unterschied von Frauen im Vergleich zu Männern 48,80 %. Das heißt, eine Frau hat eine um 48,80 % höhere Überlebenswahrscheinlichkeit als ein entsprechender Mann. Diese Differenz wird als AME (Average Marginal Effect) bezeichnet. Der AME wird im nächsten Absatz näher erläutert. Der Einfluss der nominal skalierten Variablen (hier: Pass_class und Female) ist insoweit einfach verständlich. Schwieriger ist die Erfassung der Wirkung metrisch skalierter Variablen. Wir wissen, dass dieser Einfluss bei der Variable Age negativ ist. Es existiert aber über die Logit-Funktion ein nicht linearer Zusammenhang mit der Überlebenswahrscheinlichkeit P. Außerdem hängt hier die Wirkung unmittelbar von den anderen unabhängigen Variablen Female und Tab. 2.3 Beobachtete und geschätzte Überlebenswahrscheinlichkeit
Fall 1 2 3
Pass_class 1 1 1
Age 29,0 0,9 2,0
Female 1 0 1
Survival (= beobachtete Wahrscheinlichkeit) 1 1 0
Geschätzte Wahrscheinlichkeit 0,9259 0,7296 0,9693
Residuum 0,0741 0,2704 −0,9693
48
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.6 Z-Werte und Überlebenswahrscheinlichkeit
Abb. 2.7 Mittelwerte der Überlebenswahrscheinlichkeit
Pass-Class ab. Abb. 2.8 verdeutlicht den Einfluss des Alters als ein Teil der Funktion Z auf die Wahrscheinlichkeit P, zu Überleben. Ein höheres Alter wirkt sich negativ auf die Überlebenswahrscheinlichkeit aus. Diese prinzipielle Wirkung von Age illustriert Abb. 2.8. Die Wirkung ist aber ggf. sehr unterschiedlich. Befinden wir uns beim Alter C1, haben erstens 5 zusätzliche Jahre einen starken negativen Einfluss, während bei einem höheren Alter D1 nur eine geringe Abnahme der Überlebenswahrscheinlichkeit zu beobachten ist. Der Einfluss ist also nicht konstant, und schon insoweit kann die Wirkung auch nur bedingt anhand eines einzigen Zahlenwerts ausgedrückt werden. Zweitens hängt die Wirkung davon ab, ob der Ausgangspunkt bei C1 oder bei D1 liegt. Welcher Ausgangspunkt relevant ist, bestimmen aber die anderen Kovariaten (im Fall der Titanic also Female und Pass_class). Daher müssen für die Schätzung
2.3 Logistische Regression (Logit-, Probit-Analyse) Abb. 2.8 Einfluss des Alters als Teil der Z-Funktion
49
Wahrscheinlichkeit P des Survival
1
0
C1 C2
D1 D2
+5
+5
Age
des Einflusses von Age hinsichtlich der anderen beiden exogenen Variablen Werte vorgegeben werden, um ein eindeutiges Ergebnis zu erhalten. Eine erste Option besteht darin, die durchschnittliche marginale Wirkung zu ermitteln. Dabei berechnet man die marginale Veränderung der abhängigen Variablen, wenn sich die metrisch skalierte unabhängige Variable um einen sehr kleinen Betrag erhöht. Dies realisiert man für alle Beobachtungen, wobei die tatsächlichen Ausprägungen der beiden anderen Variablen Female und Pass_class zugrunde gelegt werden. Durch Berechnung des Mittelwerts erhalten wir den durchschnittlichen marginalen Effekt (AME Average Marginal Effect) für die Beobachtungen (Population Average). Er beträgt für die Variable Alter −0,0052 und besagt, dass im Durchschnitt eine marginale Erhöhung des Lebensalters zu einer Verringerung der Überlebenswahrscheinlichkeit um 0,52 % führt. Eine zweite Option ist es, für die anderen Variablen jeweils deren Durchschnittswerte anzunehmen, dies führt zum MEM (Marginal Effect at Mean). Ein solcher „durchschnittlicher“ Passagier ist zu 37,1 % weiblich und gehört zu 27,2 % zur ersten Klasse, weil in unserem Datensatz 37,1 % der Passagier Frauen sind und 27,2 % in der ersten Klasse mitfahren. Da dies nur sehr bedingt eine sinnvolle Referenzgröße ist, wird auf die MEM im Folgenden nicht weiter eingegangen.13 Allerdings bildet der AME als Mittelwert die Veränderung der Wirkung des Alters auf die Überlebenswahrscheinlichkeit lediglich grob ab. Um die Wirkung genauer zu erfassen, zeigt Abb. 2.9 auf der x-Achse das Alter gemessen in Jahren und auf der y-Achse die geschätzte Überlebenswahrscheinlichkeit (Pr(Survival)). Mit abgebildet sind die 95 %-Konfidenzintervalle (CI – Confidence Intervalls). Ausführlicher zu diesen Effekten Cameron und Trivedi (2005, S. 467–471). Der MEM wird auch PEA (Partial Effect at the Average) genannt und der AME als APE (Average Partial Effect) bzw. „Population Averaged Effect“ bezeichnet (Greene 2018, S. 734–736). Wooldridge (2018, Kapitel 17) und Urban und Mayerl (2018, S. 405–414) sowie besonders verständlich Mood (2010) und Williams (2018) erläutern diese Verfahren. 13
50
2 Abhängige Variablen mit begrenztem Wertebereich
Die mittlere Überlebenswahrscheinlichkeit wird bis zum 80. Lebensjahr (dies war der älteste Passagier) dargestellt. Sie fällt von 57 % für ein Baby auf 18,5 % bei einem 80-jährigen Passagier. In der Grafik ist (allerdings nur schwach) erkennbar, dass die Abnahme nicht linear verläuft, sondern sich ab ungefähr dem 60. Lebensjahr etwas abschwächt. Der AME von −0,52 % (pro Jahr) ist der Durchschnitt der etwas größeren Abnahme der Überlebenswahrscheinlichkeit bei Kindern und der geringeren Abnahme bei alten Menschen. Wären ältere Passagiere ebenso wie Babys und Kinder bevorzugt in die Rettungsboote aufgenommen worden, würde die Funktion bei einem höheren Alter wieder steigen. Der AME, d. h. die durchschnittliche Abnahme, wäre dann keine sinnvoll interpretierbare Größe. Dagegen wird die Wirkung auf die Überlebenswahrscheinlichkeit in Abb. 2.9 differenziert für alle Altersstufen dargestellt. Daher empfiehlt es sich, die Einflüsse metrisch skalierter unabhängiger Variablen grafisch zu erläutern. Besondere Vorsicht ist bei der Interpretation von Interaktionseffekten in logistischen Regressionen geboten. Die Koeffizienten von Interaktionseffekten und ihre Signifikanzniveaus sind nicht so einfach wie in der linearen OLS-Regression zu deuten. Für die Analyse muss in jedem Fall klar sein, welche Annahmen hinsichtlich der Werte der anderen exogenen Variablen getroffen werden (AME oder MEM). Es empfiehlt sich außerdem, den Einfluss gezielt bei verschiedenen inhaltlich relevanten Ausprägungen der Kovariaten zu analysieren. Diese werden als MER (Marginal Effects at a Representative Value) bezeichnet. Grafische Darstellungen sind dazu besonders geeignet. Hoetker (2007) enthält
Abb. 2.9 Der Einfluss des Alters
2.3 Logistische Regression (Logit-, Probit-Analyse)
51
eine klare Darstellung der Probleme und geeigneter Vorgehensweisen mit betriebswirtschaftlichen Beispielen. Für SPSS siehe Baltes-Götz (2012, S. 31–34) und für Stata Mitchell (2012, S. 455–498).
2.3.3 Voraussetzungen und Probleme Wie bei allen statistischen Methoden muss eine Reihe von Annahmen erfüllt sein, damit die Schätzergebnisse verlässlich und sinnvoll interpretierbar sind. Dazu gehören die bereits aus der OLS-Regression bekannten Problembereiche (Stoetzer 2017, Kap. 4 und 5). Die folgenden Ausführungen fokussieren nichtlineare Beziehungen, Ausreißer/einflussreiche Beobachtungen und Heteroskedastie/Autokorrelation sowie Multikollinearität. Dazu kommen als spezielle Probleme der logistischen Regression die komplette Separierung (Complete Separation) und eine zu geringe Zellenbesetzung.14 Nichtlineare Beziehungen können in zweierlei Hinsicht vorhanden sein. Erstens sind die Logit- und die Probit-Funktion nur zwei von mehreren möglichen Link-Funktionen. Die bisher behandelten Varianten der Logit- bzw. der Probit-Funktion unterstellen eine symmetrische Beziehung zwischen der Z-Funktion und der Wahrscheinlichkeitsverteilung. Dies muss nicht so sein. Andere Link-Funktionen sind u. a. die Cauchit- und die komplementäre Log-Log Funktion (Hosmer et al. 2013, S. 434–441; Greene 2018, S. 737). Eine kurze Darstellung der Anwendungsfälle enthält Abschn. 2.4.1. In der Praxis dominiert die Verwendung der logistischen Funktion, und darüber hinaus besitzt nur noch die Probit-Methode größere Relevanz. Zweitens geht die Z-Funktion linear additiv in die Logit-Funktion ein. Hinsichtlich der Z-Funktion selbst sind aber Nicht-Linearitäten sowie Interaktionseffekte möglich bzw. plausibel. Um dies zu analysieren, werden in der Literatur u. a. der Hosmer-Lemeshow- Test und Box-Tidwell-Test eingesetzt. Der Hosmer-Lemeshow-Test basiert auf einem Vergleich der geschätzten (prognostizierten, erwarteten) Zahl der Fälle Y = 1 (also in unseren Beispielen der Wohnungseigentümer oder der Überlebenden) mit der beobachteten Zahl solcher Fälle. Er teilt den vorhandenen Datensatz in (üblicherweise) 10 Gruppen, die ungefähr gleich groß sind, und sortiert sie nach der Höhe der geschätzten Wahrscheinlichkeit. Dann analysiert er die Differenz zwischen den beobachteten und den geschätzten Werten für diese 10 Gruppen. Das Modell ist umso besser, je kleiner insgesamt die Differenz ist. Die Nullhypothese lautet: Es existiert keine Differenz. Wenn – wie wir hoffen –, unser Modell gut ist, lehnen wir die Nullhypothese nicht (!) ab. Ein nicht signifikantes
14 Darüber hinaus empfehlen einige Autoren die Überprüfung der Normalverteilung der unbekannten Fehler anhand der Residuen. In der logistischen Regression sind die Fehler nicht normalverteilt sondern besitzen eine Binomialverteilung. Allerdings nähert sich diese bei genügend großen Stichproben nach dem zentralen Grenzwertsatz der Normalverteilung. Insgesamt kommt daher dieser Annahme eine Relevanz nur bei kleinen Sampeln zu (Menard 2002, S. 83; Urban Mayerl 2018, S. 426).
52
2 Abhängige Variablen mit begrenztem Wertebereich
Ergebnis dieses Tests ist also erwünscht. Der Test kann auch verwendet werden, um zu prüfen, ob der Modellfit prinzipiell adäquat ist. Er ist in der Literatur aber umstritten, da er u. a. bei einer großen Zahl von Beobachtungen dazu tendiert, ein Modell abzulehnen, selbst wenn es einen guten Modellfit besitzt (und umgekehrt bei einer kleinen Stichprobe).15 Außerdem hängen seine Ergebnisse stark von der prinzipiell willkürlich wählbaren Zahl der Gruppen ab (Long und Freese 2014, S. 223). In unserem Titanic-Desaster führt der Hosmer-Lemeshow-Test zu folgenden Ergebnissen mit SPSS: Chi2 36,53; Signifikanzniveau 0,000 und mit Stata: Chi2 40,05; Signifikanzniveau 0,000. Die Chi2-Prüfgrößen unterscheiden sich leicht. Dies brauchen wir aber nicht weiter zu berücksichtigen. Im Detail der statistischen Formeln existieren für viele Tests Varianten, und die statistischen Programmpakete verwenden öfter unterschiedliche Möglichkeiten der Berechnung. Wichtig ist das übereinstimmende Resultat: Die Nullhypothese ist auf dem 1-%-Niveau abzulehnen. Damit wäre unsere Modellspezifikation zu verwerfen. Allerdings ist unser Datensatz mit über 1000 Beobachtungen groß, so dass unter Umständen ein zwar signifikantes, aber nicht relevantes Testresultat vorliegt. Für den Box-Tidwell-Test bildet man die Interaktionseffekte der metrisch skalierten unabhängigen Variablen eines Modells jeweils mit ihren eigenen logarithmierten Werten. Diese Interaktionseffekte werden als zusätzliche unabhängige Variable in das Modell aufgenommen. Sind diese Interaktionseffekte signifikant, liegt ein nicht linearer Zusammenhang zwischen der Z-Funktion und den Logits vor. Wir müssen unser Modell dann also anders spezifizieren. Naheliegend ist es, signifikante Interaktionseffekte in der Spezifikation zu berücksichtigen. Werden die involvierten metrisch skalierten unabhängigen Variablen inhaltlich ausgewertet – dienen sie also nicht nur als Kontrollvariablen –, hat dies Konsequenzen für deren Interpretation. Der Einfluss der Veränderung einer solchen me trisch skalierten Variablen besteht jetzt aus der gemeinsamen Wirkung von Haupt- und Interaktionseffekt. Der Box-Tidwell-Test ergibt, dass die Interaktionsvariable auf dem 5-%-Niveau nicht signifikant ist (nur auf dem 10-%-Niveau ist sie signifikant). Die Schätzungen für den Einfluss des Geschlechts und der Passagierklassen ändern sich praktisch nicht. Die Klassifizierungstabelle macht deutlich, dass die Zahl der richtig als „Überlebend“ bzw. „Nicht überlebend“ klassifizierten Passagiere von 78,5 % auf 79,3 % gestiegen ist. Es handelt sich um ein nicht ganz eindeutiges Ergebnis: Bestimmte Nichtlinearitäten scheinen im Modell vorzuliegen, die eventuell modelliert werden müssen. Welche Schlussfolgerungen sind an dieser Stelle zu ziehen? Das Gesamtmodell ist als höchst signifikant (Likelihood-Ratio-Test) und sehr gut (Pseudo-R2-Werte) einzuschätzen.
15 Bei einer sehr hohen Zahl von Beobachtungen werden auch minimale Unterschiede signifikant. Das heißt, die Signifikanz sagt noch nichts über die Relevanz (im Rahmen der OLS-Regression siehe dazu Stoetzer 2017, S. 47, 200–203). Der Pearson-Chi2-Test ist ähnlich aufgebaut und prüft ebenfalls die Nullhypothese, dass keine Differenz zwischen geschätzten und beobachteten Fällen vorliegt. Der Hosmer-Lemeshow-Test wird aber häufig als überlegenes Prüfverfahren angesehen. Hosmer et al. (1997) sowie Allison (2014) vergleichen verschiedene Testverfahren.
2.3 Logistische Regression (Logit-, Probit-Analyse)
53
Allerdings könnte die Spezifikation unseres Modells den wahren Zusammenhängen im Datensatz evtl. nur bedingt entsprechen (Hosmer-Lemeshow-Test und Box-Tidwell-Test). Stößt man im Rahmen einer eigenen empirischen Schätzung auf solch einen Befund, wäre dies genauer zu untersuchen. Ausreißer und einflussreiche Beobachtungen werden in der logistischen Regression prinzipiell so analysiert wie in der linearen OLS-Regression. Dabei unterziehen wir insbesondere die Residuen einer genaueren Analyse. In der logistischen Regression existieren aber drei verschiedene Formen von Residuen – nämlich für erstens die Koeffizienten der Logits, zweitens die Odds Ratios und drittens die geschätzten Wahrscheinlichkeiten (Predicted Probabilities). Wir fokussieren – wie in der Literatur üblich – hier nur die letzteren. Die abhängige Variable weist lediglich die Werte 0 oder 1 auf, und die geschätzten Wahrscheinlichkeiten liegen ebenfalls zwischen minimal 0 und maximal 1. Deswegen befinden sich die einfachen Residuen auch im Wertebereich von −1 bis +1. Daher ist die Berechnung der einschlägigen Prüfgrößen (standardisierte Residuen, Leverage usw.) deutlich komplexer und erfolgt in den verschiedenen statistischen Softwareprogrammen auf sehr unterschiedliche Art und Weise. SPSS und Stata ermitteln für die im Folgenden erläuterten Prüfgrößen – bei ansonsten identischen Schätzergebnissen des Titanic-Modells – fast ausnahmslos unterschiedliche Werte.16 Es wird daher jeweils darauf hingewiesen, ob es sich um das Ergebnis von SPSS oder Stata handelt. Noch weniger als in der linearen OLS-Regression sind eindeutige Tests und klare kritische Grenzwerte vorhanden. Einzelne Prüfgrößen besitzen immer nur begrenzte Aussagekraft. Es ist daher angeraten, erstens mehrere der vorhandenen Methoden einzusetzen und ihre Ergebnisse zu vergleichen. Zweitens sollten grafische Darstellungen zur Identifizierung solcher ggf. problematischer Beobachtungen verwendet werden. Ausreißer sind anhand ihrer z-standardisierten Residuen feststellbar. Sie werden auch als Pearson-Residuen bezeichnet und sind in großen Stichproben standardnormalverteilt. Das heißt, 95 % aller Beobachtungen sollten im Bereich zwischen −2 und +2 bzw. 99 % der Fälle zwischen −2,5 und +2,5 liegen. Der übliche Grenzwert für heikle Beobachtungen liegt bei > |3|. SPSS nennt die z-standardisierten Residuen „normalisierte Residuen“ und kürzt sie mit ZRESID ab. Im Titanic-Beispiel besitzt in SPSS der dritte Passagier in Tab. 2.3 ein z-standardisiertes Residuum von −5,622. Es handelt sich um die Beobachtung mit dem größten (absoluten) z-standardisierten Residuum im Datenfile. Schon das einfache Residuum war mit −0,9693 eine extreme Abweichung von tatsächlicher und geschätzˆ ∗, hier also 0 − 0,9693, gleich −0,9693). SPSS ter Rettungswahrscheinlichkeit (Y − Y SPSS arbeitet in der Prozedur LOGISTIC mit allen Beobachtungen, d. h. mit Individualresiduen. Stata berücksichtigt, dass einige Beobachtungen identische Strukturen der Kovariaten aufweisen und aggregiert diese (Gruppenresiduen). Unter bestimmten Bedingungen ist die Berechnung auf aggregierter Basis vorzuziehen bzw. einige Tests setzen dies voraus, bspw. die hier nicht behandelte Devianz (Hosmer et al. 2013, S. 155). Verschiedene Warnungsmeldungen von SPSS im Output der logistischen Regressionsverfahren sind auf dieses Problem zurückzuführen. Die Prozedur NOMREG in SPSS verwendet ebenfalls Gruppenresiduen. Genauere Darstellungen finden sich bei Baltes-Götz (2012) und Hosmer et al. (2013, S. 186–202). 16
54
2 Abhängige Variablen mit begrenztem Wertebereich
e rmittelt insgesamt drei Fälle mit z-standardisierten Residuen, deren Absolutwert größer als 3 ist. Stata findet dagegen 45 Beobachtungen mit einem Pearson-Residuum größer als |3|, darunter die dritte Beobachtung mit einem Wert von −5,622. Nur bei dieser Beobachtung stimmen die z-standardisierten Werte von SPSS und Stata überein.17 Als Beispiel für eine grafische Analyse präsentiert Abb. 2.10 die Residuen der SPSS Prozedur LOGISTIC. Die geschätzte Überlebenswahrscheinlichkeit befindet sich auf der x-Achse und die standardisierten (normalisierten) Residuen auf der y-Achse. Die Verteilung dieser Residuen weist Strukturen auf, die sich deutlich von der OLS-Regression unterscheiden. Für jede geschätzte Überlebenswahrscheinlichkeit (d. h. vorhergesagte Wahrscheinlichkeit) können nur zwei Werte der Residuen auftreten, da ja nur zwei Werte der abhängigen Variablen existieren (0 oder 1). Oberhalb der Nulllinie befinden sich links oben Passagiere mit einer sehr kleinen geschätzten Überlebenswahrscheinlichkeit (alte männliche Passagiere der dritten Klasse), die überlebt haben. Für sie ist das Resiˆ ∗ positiv und groß. Unterhalb der Nulllinie und rechts unten gilt das Gegenduum Y − Y teil. Es handelt sich um Passagiere mit einer sehr hohen geschätzten Wahrscheinlichkeit des Überlebens, die nicht gerettet wurden (sehr junge weibliche Passagiere der ersten Klasse). Hier entdecken wir ganz rechts unten unsere Beobachtung Nummer 3, die als Ausreißer deutlich heraussticht. Eine Überprüfung dieser Fälle ergibt aber, dass kein Datenübertragungsfehler o. Ä. vorliegt. Wir behalten die Beobachtungen daher selbstverständlich weiter in unserem Datensatz, da kein inhaltlicher Grund existiert, sie auszuschließen. Analog zu den entsprechenden Analysegrößen und Verfahren in der OLS-Regression können auch hier einflussreiche Beobachtungen ermittelt werden.18 Die dazu verwendeten Prüfgrößen wie bspw. Cook’s D, Hebelwert und DFBETA orientieren sich an der Residuenanalyse der OLS-Regression. Daher werden sie hier nicht noch einmal erläutert (siehe dazu Stoetzer 2017, Abschn. 5.6). Der Schwellenwert, der nicht überschritten werden sollte, liegt für Cook’s D bei 1. Bei dem Hebelwert (Leverage) beträgt er (2k + 2)/N hier also 10/N, d. h. 0,0096.19 Der kritische Wert des DFBETA beläuft sich auf 1. Wir beschränken uns auf die Analyse der genannten drei Indikatoren. Zu beachten ist, dass die Entdeckung einflussreicher Beobachtungen per se noch kein Grund für Eingriffe in den Datensatz oder Änderungen der Modellspezifikation ist! Im Fall der Titanic beziffert sich in SPSS der größte Cook’s D auf 0,0944, der maximale Hebelwert beträgt 0,0173 und die DFBETA-Werte der unabhängigen Variablen lie17 Die Ursache sind die erwähnten unterschiedlichen Berechnungsformeln in SPSS und Stata. Die dritte Beobachtung ist hinsichtlich der Ausprägungen der unabhängigen Variable singulär. Daher sind nur in diesem Fall die z-standardisierten Residuen von SPSS und Stata identisch. 18 Ausreißer mit einem großen Residuum sind nicht unbedingt einflussreiche Fälle, und umgekehrt liegen bei einflussreichen Beobachtungen nicht in jedem Fall große Residuen vor (Stoetzer 2017, Abschn. 5.6; Baltes-Götz 2012, S. 34). 19 Siehe Field (2018, S. 909). Halten wir uns beim Hebelwert alternativ an den von Menard (2002, S. 84) postulierten Grenzwert, lautet die Schwelle (k + 1)/N. Dies führt dann zu einem Grenzwert von 0,0048.
2.3 Logistische Regression (Logit-, Probit-Analyse)
55
Abb. 2.10 Grafische Analyse der Ausreißer
gen zwischen −0,0539 und 0,0225. Der Hebelwert von 0,0173 findet sich bei dem Passagier mit der Fallnummer 414. Stata berechnet eine maximale Leverage von 0,0618 für insgesamt 12 Passagiere, bspw. die Beobachtung Nummer 553. Die grafische Darstellung dieser Hebelwerte findet sich in Abb. 2.11.20 Aber auch bei diesen Beobachtungen sind keine Übertragungs- oder Kodierungsfehler festzustellen. Insgesamt ergeben sich also keine Hinweise auf außergewöhnlich einflussreiche Beobachtungen, die Anlass zu weiteren Analysen geben. In der Zusammenschau fällt auf, dass bei Passagieren der dritten Klasse häufiger Abweichungen in Form von Ausreißern und einflussreichen Fällen vorhanden sind. Das deutet darauf hin, dass vor allem in der dritten Klasse unser Modell mit den drei Einflussfaktoren Age, Female und Pass_class nur begrenzt die Überlebenswahrscheinlichkeit des einzelnen Passagiers erklären kann. Die Fehler müssen eine i.i.d.-Verteilung (independent identically distributed) aufweisen. Korrelationen der Residuen (Heteroskedastie bzw. Autokorrelation) sind Verstöße gegen diese Annahme. Im Kontext der logistischen Regression wird in der Literatur manchmal der Begriff Overdispersion (oder auch Correlated Data) verwendet, um dieses Problem zu kennzeichnen.21 Die Fehler besitzen dann eine erkennbare Struktur (ein Muster) und sind nicht rein zufällig verteilt. Die Punkte im Diagramm sind nicht einzelne Beobachtungen, sondern repräsentieren ggf. mehrere oder sogar viele Beobachtungen mit einer identischen Struktur der Kovariaten. Bspw. repräsentiert der höchste Punkt in Abb. 2.11 insgesamt 12 Passagiere. 21 Zum Teil wird der Begriff Overdispersion aber für die im Abschn. 2.4.1 kurz erläuterten logisti20
56
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.11 Grafische Analyse der Leverage
Mit dem Problem wird in der Literatur sehr unterschiedlich umgegangen. Insbesondere anwendungsorientierte Darstellungen behandeln es häufig überhaupt nicht (bspw. Backhaus et al. 2015). Andere Autoren betonen die außerordentliche Relevanz (bspw. Williams 2010 und Giles 2011). Übereinstimmend unterstreichen verschiedene Standardlehrbücher die hohe Komplexität und Unsicherheit hinsichtlich des Umgangs mit dem Problem (Hilbe 2009 Kap. 9; Long und Freese 2014, Kap. 3.1.9). Die Konsequenzen von Heteroskedastie, d. h. heterogenen Varianzen verschiedener Kategorien einer Variablen, sind prinzipiell erheblich schwerwiegender als bei der linearen OLS-Regression. Es sind nicht nur die Standardfehler und damit die statistischen Tests der Koeffizienten, sondern darüber hinaus auch die Koeffizientenschätzungen (Logits und Odds Ratios) selbst inkonsistent bzw. verzerrt (Williams 2010). Hinzu kommt, dass generell fehlende Variablen, selbst wenn sie keine Korrelation mit den unabhängigen Variablen des Modells aufweisen, die Schätzungen der Logits und Odds Ratios verzerren. Das Problem des Omitted Variable Bias (der unbeobachteten Heterogenität) ist dann immer virulent. Heteroskedastie und Autokorrelation sind häufig Indizien für eine solche Fehlspezifikation, die relevante Variablen nicht im Modell berücksichtigt hat.22 Dagegen sind die schen Modelle mit ordinalen oder multinomialen abhängigen Variablen reserviert. 22 Eine weitere Konsequenz ist, dass die Koeffizientenschätzungen (Logits und Odds Ratios) zwischen verschiedenen Datensätzen (Stichproben) nur vergleichbar sind, wenn die unbeobachtete Heterogenität bzw. Heteroskedastie übereinstimmt. Mood (2010) und Williams (2010) sind genauere nachvollziehbare Darstellungen dieser Probleme. Wooldridge (2010, S. 599–604) erläutert die Zusammenhänge und Abwägung zwischen Normalverteilung, Heteroskedastie und Konsistenz der ge-
2.3 Logistische Regression (Logit-, Probit-Analyse)
57
Schätzungen der durchschnittlichen marginalen Effekte AME und die MEM im Allgemeinen davon nicht betroffen (Mood 2010). Zur Überprüfung im Rahmen der logistischen Regression existieren keine allgemein etablierten Testverfahren. Was auch daran liegt, dass wir die Fehler nicht kennen, sondern diese anhand der geschätzten Residuen analysieren müssen. Diese sind in der logistischen Regression nicht wie in der linearen OLS-Regression eindeutig zu berechnen, da ja noch die latente Variable Y* und deren Varianz, die uns beide unbekannt sind, zwischen den beobachteten Werten von Y und den Z-Werten liegen, die ebenfalls geschätzt werden müsˆ ∗ besitzen – sen. Die Residuen der logistischen Regression in Form der Differenz Y − Y wie bereits deutlich geworden ist – immer Strukturen bzw. Muster, sind also nicht zufallsverteilt. Im Titanic-Beispiel ist es plausibel, dass die Varianz für Frauen geringer ist als für Männer (fast alle Frauen überlebten, während bei den Männern weitere Faktoren einflussreich waren), oder die Varianz mit zunehmendem Alter deutlich steigt. Dies etwa, weil fast alle Kinder in die Rettungsboote aufgenommen wurden, während bei alten Menschen das zufällig in den Rettungsbooten mehr oder weniger ausgeprägte Mitleid mit alten Menschen den Ausschlag gab. Die Überprüfung der Spezifikation mittels des Hosmer-Lemeshow-Tests oder Analysen der Residuen auf Ausreißer bzw. einflussreiche Beobachtungen sind mögliche Ansätze (Hosmer et al. 2013, S. 354–365). In der Literatur ist strittig, wie mit dem Problem umzugehen ist. Liegen Muster in den Fehlern vor (bzw. ist dies zu vermuten), können erstens robuste und insbesondere cluster-robuste Standardfehler berechnet werden.23 Wie oben erläutert, sind im Fall der Titanic das Geschlecht und das Alter der Passagiere mögliche Cluster. Alternativ kann auch die Bootstrapping-Methode verwendet werden (Wooldridge 2018, S. 203–204). Zweitens ist es möglich, das Problem zu berücksichtigen, in dem unterschiedliche Varianzen explizit in das Schätzmodell aufgenommen werden (Modelle multiplikativer Heteroskedastie). So wird versucht, die Ursachen der Heteroskedastie zu modellieren. Sie führen (bei richtiger Spezifikation) zu verlässlichen Schätzungen der unbekannten wahren Standardfehler und der Koeffizienten (Hosmer et al. 2013; S. 339, Williams 2010). Jedoch sind die Resultate in hohem Maß von der korrekten Spezifikation der Heteroskedastie (den Ursachen der unterschiedlichen Varianzen) abhängig und daher ebenfalls problematisch (Keele und Park 2005).
schätzten Koeffizienten. Urban und Mayerl (2018, S. 430–435) enthalten eine kurze und Hosmer et al. (2013, S. 313–375) ausführliche Erläuterungen. 23 Die aus der linearen OLS-Regression bekannten (einfachen) robusten Standardfehler (Stoetzer 2017, Abschn. 5.2 und 5.3) helfen nach Cameron und Trivedi (2010, S. 462) nicht weiter, werden aber andererseits von Long und Freese (2014, S. 103–105) empfohlen, um Fehlspezifikationen zu identifizieren. Allerdings führt die Verwendung von clusterrobusten Standardfehlern bei zu wenigen Clustern (bspw. weniger als 15) zu fehlerhaften Resultaten (Angrist und Pischke 2009, S. 319). Nach Greene (2018, S. 744–745) ist im Einzelfall unklar, ob die Verwendung robuster Standardfehler vorteilhaft ist.
58
2 Abhängige Variablen mit begrenztem Wertebereich
In der angewandten empirischen logistischen Regression wird Heteroskedastie in der Regel nicht weiter überprüft. Pragmatisch werden im Folgenden zwei Vorgehensweisen empfohlen. Eine erste Faustregel besteht darin, die normalen und die robusten Standardfehler der logistischen Regression zu vergleichen. Weichen sie nicht stark voneinander ab, können wir über das Problem hinwegsehen. Bei großen Unterschieden der Standardfehler ist dies vor allem als Hinweis auf Fehlspezifikation zu betrachten (Giles 2011; Cameron und Trivedi 2005, S. 462; Long und Freese 2014, S. 104). Es ist daher als Konsequenz die Spezifikation der logistischen Regression zu modifizieren (bzgl. der gewählten Link-Funktion, weiterer relevanter unabhängiger Variablen, möglicher Interaktionseffekte usw.). Zweitens ist nach Mood (2010) im Hinblick auf das Problem unbeobachteter Heterogenität die Verwendung des Linear Probability Model mit robusten Standardfehlern angeraten, da die genannten Schwierigkeiten der logistischen Regression bei der linearen OLS-Regression nicht auftreten. Weil im Linear Probability Model die Schätzungen der Koeffizienten konsistent und unverzerrt sind, kann dies eine bessere Alternative sein (Wooldridge 2010, S. 584; Angrist und Pischke 2009, S. 94, 107). Dies gilt insbesondere, wenn wir nur an der Richtung des Einflusses (also dem Vorzeichen) der unabhängigen Variablen, ihrem durchschnittlichen Einfluss und ihrer Signifikanz interessiert sind. Außerdem entsprechen die Koeffizienten des linearen Wahrscheinlichkeitsmodells in der Regel den AME. Es ist allerdings darauf zu achten, dass die AME nicht – wie in der OLS-Regression – als konstanter linearer Einfluss interpretiert werden. Ein solcher existiert approximativ in der Mitte der Funktion (siehe Abb. 2.6), gilt aber nicht für die Extremwerte. Grafische Darstellungen wie in Abb. 2.9 sind geeignet, eine solche falsche Interpretation zu vermeiden. Die genannten Verfahren der Ermittlung robuster Standardfehler bzw. des Bootstrapping unterscheiden sich hinsichtlich ihrer Implementation in SPSS und Stata deutlich. Im Fall der Titanic führt die Schätzung robuster Standardfehler mit verschiedenen Methoden jedoch zu keinen (wesentlich) anderen Schlussfolgerungen. Angrist und Pischke (2009, S. 293–325) stellen verschiedene Formen von (cluster-)robusten Standardfehlern und die damit verbundenen Probleme dar. Da Multikollinearität sich auf die unabhängigen Variablen bezieht, unterscheiden sich die Analyse und der Umgang mit diesem Problem nicht von der einfachen linearen Regression. Wir können daher die in SPSS und Stata im Rahmen der OLS-Regression vorhandenen Methoden zur Überprüfung von Multikollinearität – bspw. die VIF (Variance Inflation Factors) – einsetzen (siehe dazu Stoetzer 2017, Abschn. 5.5). Die VIF-Werte des Titanic-Modells liegen für alle unabhängigen Variablen unter 2 und sind deutlich kleiner als der kritische Grenzwert von 5. Multikollinearität wirft in unserem Modell folglich keine Probleme auf. Komplette Separierung (Complete Separation): Abb. 2.12 illustriert den Fall vollständiger Separation anhand unseres Mieter-Eigentümer-Beispiels. Hier sind alle Haushalte mit einem (Monatsnetto-)Einkommen von über 4000 Euro Wohnungseigentümer. Alle Haushalte mit weniger als 2000 Euro Einkommen sind Mieter ihrer Wohnung. Durch
2.3 Logistische Regression (Logit-, Probit-Analyse)
59
diese vollständige Trennung ist zwar eine perfekte Vorhersage (Perfect Prediction) möglich. Gleichzeitig ist es aber unmöglich, den Übergang von Miete zu Eigentum exakt zu bestimmen. Dies geht weder hinsichtlich der Lage noch bezüglich des Verlaufs der Logit-Funktion (wo beginnt sie und wie steil oder flach ist sie?). Zwischen 2000 und 4000 Euro existiert eine Lücke, in der keine Beobachtungen vorhanden sind. Die Konsequenz ist, dass auch keine logistische Regressionsfunktion berechenbar ist. Allgemein müssen, die Beobachtungswerte sich überlappen, damit Funktionsverläufe und Standardfehler geschätzt werden können. Wenn das Problem vollständiger Separierung existiert, weisen SPSS und Stata ggf. darauf hin (ähnlich wie bei perfekter Multikollinearität). Die entsprechende Warnung lautet bei Stata „Observations completely determined. Standard errors questionable.“ SPSS meldet „Schätzung beendet bei Iteration Nummer …, weil perfekte Anpassung erkannt wird. Diese Lösung ist nicht eindeutig.“ Das Problem wird uns also von der Software mitgeteilt. Schwieriger ist die Situation bei quasi kompletter Separierung (quasi vollständiger Trennung), wenn von bspw. 100 Haushalten nur einer mit hohem Einkommen kein Wohneigentum besitzt und nur ein Haushalt mit geringem Einkommen Eigentümer ist. Die Schätzung wird dann u. U. von der Statistiksoftware durchgeführt. Sie ist aber nicht verlässlich, was sich an unplausibel großen Koeffizientenschätzungen und insbesondere Standardfehlern bemerkbar macht. Das heißt für unser Beispiel, es müssen im Datensatz ausreichend viele hohe Einkommensbezieher auch Mieter sein bzw. Haushalte mit niedrigem Einkommen müssen Eigentümer sein. Ein ähnliches Problem liegt bei einer fehlenden oder zu geringen Zellenbesetzung vor. Sie bezieht sich erstens auf die abhängige Variable. Hier müssen ausreichend viele Zahlen von Beobachtungen für beide Ausprägungen der binären abhängigen Variablen existieren. Wenn im Datenfile zur Frage „Miete oder Eigentum?“ 100 Beobachtungen vorliegen und darunter nur 5 Eigentümer sind, ist eine verlässliche Schätzung nicht zu erwarten. Außerdem tritt das Problem auf, wenn die abhängige Variable bei bestimmten AusY Eigentümer 1
Mieter 0 2000
Abb. 2.12 Vollständige Separation
4000
X
Einkommen
60
2 Abhängige Variablen mit begrenztem Wertebereich
prägungen der unabhängigen Variablen immer gleich ist. Dies wäre im Titanic-Fall gegeben, wenn alle Männer ertrunken wären. In dieser Situation ist wieder eine perfekte Vorhersage möglich, aber keine Schätzung von Überlebenswahrscheinlichkeiten für Männer im Vergleich zu Frauen. Zweitens besagt sie, dass für bestimmte Kombinationen der Ausprägungen der unabhängigen Variablen nur sehr wenige oder keine Beobachtungen vorhanden sind. Im Titanic-Beispiel verwenden wir nur zwei nominal skalierte Variablen Female mit zwei Ausprägungen (Mann – Frau) und Pass_Class mit drei Ausprägungen (erste, zweite und dritte Klasse), insoweit existieren also sechs Zellen, d. h. Merkmalskombinationen. Verfügen wir über zwei weitere unabhängige Variablen (Nichtschwimmer – Schwimmer, verheiratet – unverheiratet), steigt die Zahl der Zellen schon auf 24. Auch wenn für alle diese Einflussfaktoren jeweils separat betrachtet bei allen Beobachtungen Datenwerte vorliegen, existiert ein Passagier mit einer bestimmten Kombination von Merkmalen im Datensatz u. U. nicht – etwa eine weibliche unverheiratete Nichtschwimmerin der ersten Klasse. Es ist intuitiv nachvollziehbar, dass dann eine mathematische Berechnung von Überlebenswahrscheinlichkeiten schwierig bzw. überhaupt nicht möglich ist. Verallgemeinert bedeutet dies, dass bei einer zu geringen Zahl von Beobachtungen bei bestimmten Merkmalskombinationen und/oder wenn die abhängige Variable bei diesen nicht variiert, die Ermittlung von Wahrscheinlichkeiten nicht möglich, schwierig und wenig verlässlich ist. Das Problem ist in erster Linie hinsichtlich der nominal skalierten Variablen relevant und wird mittels einer Kreuz-(Kontingenz)-Tabelle der Merkmalskombinationen überprüft. Hinsichtlich der metrisch skalierten Einflussfaktoren spielt das Problem keine Rolle. Bei unserer metrisch skalierten Variable Age sind nicht alle Altersjahre vorhanden – bspw. gibt es keine Passagiere mit 68 oder 69 Jahren. Dies führt aber nicht zu Schwierigkeiten, da man von einem kontinuierlichen Einfluss des Alters ausgeht. Die fehlenden Jahre werden sozusagen implizit aufgefüllt, indem ihr Einfluss als „strukturell identisch“ mit den Altersjahren davor und danach angesehen wird.24 Eine ähnliche Überlegung gilt bezüglich ordinal skalierter Kovariaten. Tab. 2.4 enthält die Kreuztabelle der nominal skalierten Variablen im Fall der Titanic. Es existieren 6 Zellen. Die erste Zelle oben links sagt uns, dass 151 männliche Passagiere die erste Klasse gebucht haben. Die Häufigkeiten sind in allen 6 Zellen sehr hoch, so dass keine Hindernisse bei der Schätzung zu erwarten sind. Dagegen wird das Problem bei einer nominal skalierten Variablen mit mehreren (oder sogar vielen) Kategorien häufig virulent. Eine Lösung ist dann das Zusammenlegen von Kategorien. Auf der Titanic waren ca. 25 Nationalitäten vertreten. Daraus ergeben sich
24 Das Problem tritt aber bei metrisch skalierten unabhängigen Variablen bezüglich der Prüfgrößen Pearson-Chi2-Test und Devianz auf, da diese auf dem Vergleich von beobachteten und erwarteten Häufigkeiten in den Zellen beruhen und bei metrisch skalierten Variablen extrem viele Zellen gebildet werden (Allison 2014, S. 5) Für die Variable Age des Titanic-Datensatzes existieren bspw. 97 verschiedene Altersstufen, da bei einer Reihe von Passagieren auch Monate erfasst sind. Bei dem oben erläuterten Hosmer-Lemeshow-Test wird das durch die Bildung von 10 Kategorien vermieden.
2.3 Logistische Regression (Logit-, Probit-Analyse)
61
bereits 150 Zellen (6 × 25). Eine mögliche Aggregation ist bspw. „Briten, US-Amerikaner, Iren, Sonstige“. Menard (2002, S. 78–80) und Hosmer et al. (2013, S. 145–150) stellen die Zusammenhänge und Lösungsmöglichkeiten dar.
2.3.4 Ergänzungen und Fazit Wie bei der linearen OLS-Regression und anderen Verfahren ist die logistische Regression in allen ihren Varianten nur dann als kausale Wirkung der unabhängigen auf die abhängige Variable zu interpretieren, wenn der zugrundliegende Datensatz in einem RCT (Randomized Controlled Trial) erhoben worden ist. Andernfalls sind weitere spezielle Verfahren notwendig, um kausale Beziehungen zu identifizieren (siehe dazu Kap. 1). Für Prognosezwecke ist die logistische Regression aber in vielfältiger Weise einsetzbar, ohne dass kausale Einflüsse vorhanden sein müssen. Die ML-Schätzung der Koeffizienten der logistischen Regression ist selbst asymptotisch nicht konsistent, wenn das Modell fehlspezifiziert ist, was unter einer Reihe von Aspekten (bspw. unbeobachteter Heterogenität) auftreten kann. Auch die Verwendung robuster Schätzer der Standardfehler ändert daran nichts. Da in der angewandten empirischen Forschung dies (fast) nie eine Rolle spielt, wird darauf nicht weiter eingegangen. Wir unterstellen – wie in der Literatur üblich –, dass nach Abschluss der Analysen und Tests des Abschn. 2.3.3 und den ggf. vorgenommenen Veränderungen unsere Regressionsgleichung richtig spezifiziert ist.25 Praktisches Beispiel: Kreditvergabe in der Europäischen Union Als Konsequenz der Finanzkrise sind seit 2008 die Eigenmittelvorschriften der Banken in der Europäischen Union (EU) deutlich verschärft worden (CCR – Capital Requirements Regulation). Eine zentrale Rolle spielt dabei die Liquiditätsdeckungsquote (Liquidity Coverage Ratio – LCR). Die LCR ist eine im Zuge von Basel III etablierte Kennzahl zur Tab. 2.4 Kreuztabelle der kategorialen Variablen Pass_class Female 1 2 3 Total -------------------------------------------------------0 151 158 349 658 1 133 103 152 388 -------------------------------------------------------Total 284 261 501 1,046
Die kürzeste und klarste Darstellung dazu gibt Greene (2018, S. 744–745).
25
62
2 Abhängige Variablen mit begrenztem Wertebereich
Bewertung des kurzfristigen Liquiditätsrisikos von Kreditinstituten und beschreibt das Verhältnis des Bestands als erstklassig eingestufter Aktiva zum gesamten Nettoabfluss der nächsten 30 Tage. Eine mögliche unerwünschte Folge der LCR-Vorschriften ist eine Verringerung der Kreditvergabe der Banken. Die EBA (European Banking Authority) hat dies mittels einer logistischen Regression analysiert. Die binäre abhängige Variable besitzt den Wert 1, falls eine Bank im Zeitraum 2016–2018 ihre Kreditvergabe verringert hat (siehe Abb. 2.13). Die unabhängige Variable Lcr_2016 Verallgemeinerte lineare Modelle …] schätzbar. Die binär logistische Regression kann nur dichotome abhängige Variable analysieren. Sind mehrere Kategorien vorhanden, die eine Reihenfolge aufweisen, ist die ordinale Regression zu verwenden. Haben diese Kategorien keine Reihenfolge, sondern sind nur Indikatoren verschiedener Gruppen, kommt die multinomiale Regression zum Einsatz. Die genannten drei Verfahren sind sich zwar ähnlich, aber die menübasierte Durchführung und der Output von SPSS unterscheiden sich teilweise ganz erheblich. Bestimmte Möglichkeiten der Spezifikation oder Tests, die in einer Prozedur implementiert sind, fehlen in einer anderen Prozedur. Für die Schätzung von Regressionen mit dichotomen abhängigen Variablen können auch die beiden anderen Prozeduren (PLUM und GENLIN) eingesetzt werden. Stata bietet eine noch größere Zahl an Schätzverfahren (siehe Tab. 2.7), von denen hier nur eine kleine Auswahl aufgeführt wird. Alle diese Verfahren können als Varianten des linearen OLS-Modells aufgefasst werden, bei der die abhängigen Variablen anstatt der Normalverteilung jeweils spezifische Verteilungen besitzen. Die lineare OLS-Regression ist dann ein Spezialfall der Allgemeinen linearen Modelle (GLM – Generalized Linear Models). Einen Gesamtüberblick verschaffen Hardin und Hilbe (2018) mit einem Fokus auf die entsprechenden Möglichkeiten von Stata und Tabachnick und Fidell (2019) hinsichtlich SPSS.
Tab. 2.6 Übersicht der SPSS-Verfahren
Menübezeichnung Binär logistisch Multinomial logistisch Ordinal Verallgemeinerte Lineare Modelle Verallgemeinerte Lineare Modelle
Syntaxname LOGISTIC NOMREG PLUM GENLIN (Probit, Logit) GENLIN (Poisson loglinear, Negative binomial)
70
2 Abhängige Variablen mit begrenztem Wertebereich
Tab. 2.7 Übersicht der Stata-Verfahren
2.5
Menübezeichnung Multinomial (polytomous) logistic regression Multinomial probit regression Nested logit regression Ordered logistic regression Ordered probit regression Tobit regression Truncated regression Censored regression
Syntaxname mlogit mprobit nlogit ologit oprobit tobit poisson tobit, cpoisson
Durchführung in SPSS und Stata
Im Folgenden werden nur die Prozeduren zur binär logistischen Regression dargestellt. Zur Analyse anderer Formen von begrenzten abhängigen Variablen enthalten die Tab. 2.6 und 2.7 für SPSS und Stata eine Übersicht. SPSS Die nachstehend genannten Prozeduren offerieren (leider) unterschiedliche Optionen, differierende Menüoberflächen und auch abweichende Bezeichnungen. Sie sind also wenig übersichtlich strukturiert. Durch die Screenshots und die dazu gegeben Erläuterungen wird aber deutlich, für welches Problem welche Prozedur einsetzbar ist und wie die Resultate zu interpretieren sind. Verwendet wird der Datensatz „Titanic.sav“. Er umfasst die Variablen Survival, Age, Female und Pass_class. Dabei sind Survival, Female und Pass_class nominal skalierte Variablen. Age ist metrisch skaliert. Menügesteuert rufen wir die logistische Regression wie folgt auf: [Analysieren > Regression > Binär logistisch]. In diesem Menüfeld spezifizieren wir Survival als die abhängige Variable und Age, Female und Pass_class als unabhängige Variablen. Abb. 2.14 zeigt, dass Survival als abhängige Variable und die drei anderen Variablen als unabhängige Varia blen (von SPSS hier als Kovariaten bezeichnet) spezifiziert werden. Die Variable Female ist bereits als Dummyvariable mit dem Wert 1 kodiert, wenn es sich bei dem Passagier um eine Frau handelt. Die Variable Pass_class besitzt den Wert 1 für Passagiere der ersten Klasse und die Werte 2 und 3 für Passagiere der zweiten bzw. dritten Klasse. Forschungsfrage ist, ob Passagiere der zweiten und dritten Klasse im Vergleich zu den Passagieren der ersten Klasse eine geringere Überlebenswahrscheinlichkeit haben. Dazu müssen wir SPSS kommunizieren, dass die Variable Pass_class nicht metrisch zu interpretieren ist, sondern dass es sich um eine nominalskalierte Variable handelt. Diese nennt SPSS kategoriale Variable. Wir klicken daher auf den Button „Kategorial“ oben rechts in Abb. 2.14. Im dann folgenden Fenster wird zunächst definiert, welche Variablen nominale, also kategoriale, Variablen sind (Abb. 2.15).
2.5 Durchführung in SPSS und Stata
71
Dazu wird die Variable Pass_class in das Feld „Kategoriale Kovariaten“ transferiert. Für Female ist dies nicht erforderlich, da Frauen bereits metrisch als Dummyvariable im Datenfile mit einer 1 kodiert sind. Aber für die Variable Pass_class muss dies durchgeführt werden, damit SPSS weiß, dass es sich um drei verschiedene Kategorien (von Passagieren) handelt. Außerdem soll die erste Klasse als Referenzkategorie dienen, mit der die zweite und die dritte Klasse verglichen werden. Voreingestellt ist aber in SPSS immer die letzte Kategorie, die Referenzkategorie. Dies korrigieren wir im Bereich „Kontrast ändern“. Für die Variable Pass_class aktivieren wir bei Referenzkategorie „Erste“ und müssen anschließend mit dem Button „Ändern“ dies auch durchführen. Im Feld „Kategoriale Kovariaten“ ist dies sichtbar durch den Zusatz „(Erste)“ hinter dieser Variable. Mittels drücken von „Weiter“ und „OK“ wird die logistische Regression berechnet. Das Resultat zeigt (auszugsweise) Abb. 2.16. Die Variable Pass_class(1) ist eine Dummyvariable der Passagiere der zweiten Klasse und die Variable Pass_class(2) der dritten Klasse. Die hinter den Variablen stehenden Zahlen (1) bzw. (2) sind nur die interne Nummerierung der einbezogenen Dummyvariablen durch SPSS. Die geschätzten Koeffizientenwerte (in der Spalte „ RegressionskoeffizientB“), deren Standardfehler und damit deren Signifikanzniveaus (in der Spalte „Sig.“) sind identisch mit den Werten der Abb. 2.4 oben. Allerdings verwendet SPSS eine etwas andere Teststatistik – nämlich den Wald-Test an Stelle der z-Tests. Dies ändert aber an der Interpretation der Signifikanzniveaus und – wie bereits bemerkt – an den Ergebnissen nichts. Die letzte Spalte der Abb. 2.16 mit dem Titel „Exp(B)“ enthält die Chancenverhältnisse (die Odds Ratios), die wir ebenfalls schon kennen (Abb. 2.4 oben). Die Zeile Pass_class enthält keinen Koeffizienten. Es handelt sich um einen Test, ob die kategoriale Variable
Abb. 2.14 Binär logistische Regression
72
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.15 Logistische Regression: Kategoriale Variable Variablen in der Gleichung RegressionskoeffizientB Schritt
1a
Standardfehler
Wald
df
Sig.
Exp(B)
Age
-,034
,006
29,510
1
,000
,966
Female
2,498
,166
226,304
1
,000
12,156
103,289
2
,000
Pass_class(1)
-1,281
,226
32,236
1
,000
Pass_class(2)
-2,290
,226
102,813
1
,000
,101
1,024
,296
11,950
1
,001
2,785
Pass_class
Konstante
,278
a. In Schritt 1 eingegebene Variablen: Age, Female, Pass_class.
Abb. 2.16 Schätzung logistische Regression
der drei Passagierklassen insgesamt einflussreich ist. Dies ist der Fall, da das empirische Signifikanzniveau ebenfalls bei 0,000 liegt. Der Wald-Test ist aber (in kleinen Stichproben) nur bedingt brauchbar, um signifikante Einflussfaktoren zu identifizieren. In SPSS ist der besser geeignete LR-Test durchführbar, indem wir in der obigen Abb. 2.14 den Button bei „Methode“ einsetzen. Bisher haben wir die Voreinstellung „Einschluss“ nicht verändert. Jetzt wählen wir entsprechend der Abb. 2.17 die Methode „Vorwärts: LR“. „LR“ steht für Likelihood Ratio. SPSS nimmt in dieser Prozedur sequenziell (also nacheinander) alle exogenen Variablen auf, die zu einer signifikanten Verbesserung des Modells führen. Das Kriterium, an dem dies gemessen wird, ist die Signifikanz eines Likelihood-Ratio-Tests ohne die betreffende Variable im Vergleich zu einem Modell, das diese Variable mit aufnimmt.
2.5 Durchführung in SPSS und Stata
73
Abb. 2.17 LR-Test der exogenen Variablen
Das Ergebnis nach Drücken von „OK“ ist ein umfangreicher Output, den Abb. 2.18 auszugsweise präsentiert. Alle drei Variablen Female, Age und Pass_class werden schrittweise aufgenommen und führen jeweils zu einer signifikanten Verbesserung der Log-Likelihood (rechte Spalte „Signifikanz der Änderung“). Ein Ergebnis, das uns wenig überrascht, da unsere Datenbasis mit 1046 Beobachtungen sehr groß ist. SPSS bietet in der Abb. 2.17 unter „Methode“ eine Reihe von Verfahren zur Auswahl an. Relevant sind für uns hier nur die Varianten „Vorwärts: LR“ und „Rückwärts: LR“. Letztere untersucht, ob ausgehend von einem Modell mit allen verfügbaren Variablen die schrittweise Elimination von Variablen zu einer signifikanten Verschlechterung des Modells führt. Diese sequenziellen Suchverfahren können auch benutzt (missbraucht) werden, um sich durch SPSS, ausgehend von vielen möglichen Einflussfaktoren, ein „bestes“ Modell aufspüren zu lassen. Anschließend freut man sich über die signifikanten exogenen Varia blen und denkt sich (scheinbar) plausible Hypothesen dazu aus. Dies ist ein fundamentaler Verstoß gegen die Logik von Hypothesentests bei der Überprüfung kausaler Zusammenhänge! Nur wenn wir eine rein explorative Datenanalyse durchführen oder lediglich Pro gnosemodelle entwickeln wollen, ist dies statthaft. Die Probit-Schätzung ist in SPSS unter [Analysieren > Regression > Ordinal] verborgen. Syntaxbasiert nennt SPSS diese Prozedur PLUM. Es sollte nicht (!) die Prozedur [Analysieren > Regression > Probit] verwendet werden.26 Wir können eine ordinale Schät26 Das dort beschriebene Probit-Verfahren ist (für den Sozialwissenschaftler) besonders in der deutschsprachigen Version unverständlich. Die deutschsprachige SPSS-Version verwendet bspw.
74
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.18 Resultat LR-Tests der exogenen Variablen
zung einsetzen, da die binär logistische Regression ja den Spezialfall einer ordinalen Regression mit lediglich zwei Ausprägungen darstellt (siehe Abschn. 2.3). Die Vorgehensweise gleicht der bei der logistischen Regression. Abb. 2.19 zeigt dies. Die Art der Link-Funktion kann nach Drücken des Buttons „Optionen“ gewählt werden (siehe Abb. 2.20). In der Zeile „Link:“ stehen rechts nach Anklicken des Pfeils verschiedene Link-Funktionen zur Auswahl. Die Voreinstellung ist die Logit-Funktion, die wir bereits mit der logistischen Regression durchgeführt hatten. Wir wählen also jetzt die Variante „Probit“. Ansonsten ändert man an den Default-Einstellungen nichts und führt die Probit- Schätzung mittels „Weiter“ und dann „OK“ durch. Das Ergebnis enthält Abb. 2.21 in Auszügen. Die Koeffizienten und Signifikanzniveaus der Variablen Age und Female sind wieder identisch mit den Resultaten der Probit-Schätzung aus Abb. 2.4 oben. Auch hier verwendet SPSS den Wald-Test, was aber inhaltlich keine Änderung bedeutet. Aufmerksamkeit erfordern die Schätzungen für die drei Passagierklassen. SPSS bezieht sich in dieser Prozedur bei allen nominal skalierten Variablen immer auf die letzte (höchste) Klasse als Referenzkategorie. Diese Einstellung ist nicht veränderbar. Abb. 2.21 macht dies in der untersten Zeile deutlich, indem SPSS den Schätzer für die dritte Klasse auf den Wert 0 setzt. Der Koeffizient der ersten Klasse (Pass_class=1) beträgt +1,303. Er besagt, dass Passagiere der ersten Klasse eine höhere Überlebenswahrscheinlichkeit haben als Passagiere der dritten Klasse. Dies ist das gleiche Ergebnis wie in der Abb. 2.4 bei der Probit-Schätzung. Dort haben wir festgestellt, dass Passagiere der dritten Klasse eine geringere Überlebenswahrden Begriff „Antwortvariable“ für den englischen Ausdruck „Response“ (im Sinne von Ergebnis, Outcome). Gemeint ist also die abhängige Variable. Der in den Sozialwissenschaften völlig missverständliche Begriff „Rücklaufquote“ ist die wörtliche Übersetzung von „Response Rate“. Der Ausdruck „Response Rate“ bezeichnet aber in der Medizin und Biostatistik die erfolgreichen Wirkungen eines Treatments (bspw. eines Krebsmedikaments). Das heißt den Anteil der Patienten, bei denen sich die Tumore nach Einnahme des Medikaments zurückgebildet haben. Mit der Rücklaufquote einer Umfrage hat dies nichts zu tun.
2.5 Durchführung in SPSS und Stata
75
Abb. 2.19 Probit-Schätzung
Abb. 2.20 Probit als Link-Funktion
scheinlichkeit besitzen (Koeffizientenschätzung −1,303). In Abb. 2.21 beträgt der Koeffizient der zweiten Klasse 0,543 (Zeile: Pass_class=2). Er ist signifikant und vermittelt eine neue Information. Im Vergleich zur dritten Klasse weisen auch Passagiere der zweiten Klasse eine höhere Überlebenschance auf. Dies war bisher nicht analysiert worden, da die erste Klasse als Referenzkategorie diente.
76
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.21 Ergebnis der Probit-Schätzung
Direkt unter der Tabelle der Parameterschätzer erhalten wir die Information, dass die Link-Funktion (von SPSS „Verknüpfungsfunktion“ genannt) die Probit-Funktion ist. Außerdem wird deutlich, dass die dritte Klasse jetzt die mit 0 kodierte Referenzkategorie ist („Dieser Parameter wird auf 0 gesetzt, ...“). Der Likelihood-Ratio-Test und die Pseudo-R2-Werte Cox & Snell sowie Nagelkerke werden in der logistischen Regression standardmäßig von SPSS ausgegeben. McFaddens R2 gehört im Rahmen der ordinalen Regression [Analysieren > Regression > Ordinal] zu dem automatisch berechneten und dargestellten Output, dies sowohl in der Probit- als auch der Logit-Schätzung. Zur Überprüfung der Funktionsform (der Z-Funktion) verwenden wir den Hosmer-Lemeshow-Test. Dieser wird menügesteuert (im Rahmen der Schätzung eines logistischen Modells) wie folgt aufgerufen: [Analysieren > Regression > Binär logistisch > Optionen]. Wir aktivieren ihn dann mittels eines Häkchens bei „Hosmer-Lemeshow-Anpassungs statistik“, wie Abb. 2.22 verdeutlicht. Das Ergebnis des Tests erscheint im Output unter „Hosmer-Lemeshow-Test“ und „Kontingenztabelle für Hosmer- Lemeshow- Test“. Das Testresultat (Chi2 36,525 Sig. 0,000) kennen wir aus Abschn. 2.3.3. Die Kontingenztabelle dazu enthält für die 10 gebildeten Gruppen (von SPSS als „Schritte“ bezeichnet), die jeweilige beobachtete und geschätzte (als „Erwartet“ bezeichnet) Anzahl der Fälle für „Survival = 0“ und „Survival = 1“. Für den Box-Tidwell-Test auf Nicht-Linearität ist nur die metrisch skalierte Variable Age relevant. Wir berechnen den natürlichen Logarithmus dieser Variablen mittels [Transformieren > Variable berechnen]. Im Feld „Zielvariable“ definieren wir den neuen Namen LnAge und geben dann im Feld „Numerischer Ausdruck“ LN(Age) ein. SPSS fügt diese neue Variable als letzte Spalte unserem Datensatz „Titanic_Data.sav“ hinzu. Anschließend wird wieder die logistische Regression aufgerufen [Analysieren > Regression > Binär logistisch]. Dort aktivieren wir die beiden Variablen Age und LnAge (dazu muss die „Strg“Taste gehalten werden). Der kleine (bisher rätselhafte) Button „>a*b=“ wird jetzt gedrückt und dadurch der Interaktionseffekt „Age*LnAge“ in das Modell aufgenommen (siehe Abb. 2.23).
2.5 Durchführung in SPSS und Stata
77
Abb. 2.22 Hosmer-Lemeshow-Test
Das Resultat ist aus Abschn. 2.3.3 bekannt und wird in Abb. 2.24 sichtbar. Die Interaktionsvariable nennt SPSS „Age by LnAge“. Der Interaktionseffekt ist nur auf dem 10-%-Niveau signifikant. Die Annahme eines linearen Zusammenhangs von Age und den Logits der Überlebenswahrscheinlichkeit wird insoweit nicht klar abgelehnt. Für den Umgang mit Korrelationen der Residuen (Varianzinhomogenität, Heteroskedastie) sind drei verschiedene Optionen vorhanden. Eine erste Möglichkeit ist der Einsatz des Bootstrapping-Verfahrens, mit dem sich robuste Standardfehler ermitteln lassen. Es ist unter dem Button „Bootstrap“ der Abb. 2.14 und 2.19 zwar angezeigt, aber nur syntaxbasiert durchführbar.27 Dazu rufen wir den Syntaxeditor wie folgt auf [Datei > Neu > Syntax] und geben dann im rechten Syntaxfeld unsere Befehle ein. Die entsprechende Befehlsfolge für unser Modell lautet: BOOTSTRAP /SAMPLING METHOD=SIMPLE /VARIABLES TARGET= Survival INPUT= Age Female Pass_class /CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000 /MISSING USERMISSING=EXCLUDE.
Es handelt sich um einen Bug der IBM SPSS Statistics Version 25.0.0. Zur Behebung des Pro blems existiert ein Makro. Dieser ist von der Universität Bonn downloadbar unter https://uni-bonn. sciebo.de/index.php/s/yVKmXkHRUWp1eFX. 27
78
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.23 Box-Tidwell-Test
Die abhängige Variable wird dabei unter „Target“ und die unabhängigen Variablen unter „Input“ eingefügt. In der Leiste über dem Syntaxfeld befindet sich ein grünes Dreieck. Durch dessen Anklicken führen wir das Bootstrapping durch. Direkt anschließend ist die gewünschte Schätzung durchzuführen – hier bspw. die binär logistische Regression der Abb. 2.14 und 2.15. Die Koeffizientenschätzungen bleiben identisch, und auch an der Signifikanz der unabhängigen Variablen unseres Modells ändert sich nichts. Auf die Darstellung des Outputs wird hier verzichtet. Urban und Mayerl erläutern das Vorgehen und den Output von SPSS (2018, S. 361–378). Zweitens bietet SPSS bietet in der Prozedur GLM die Möglichkeit, gegen Heteroskedastie robuste Standardfehler zu schätzen: [Analysieren > Verallgemeinerte lineare Modelle > Verallgemeinerte lineare Modelle]. Dort wird im Reiter „Typ des Modells“ die Option „Binär logistisch“ gewählt (siehe Abb. 2.25). Unter dem Reiter „Antwort“ spezifizieren wir unsere abhängige Variable – also Survival. Wir klicken dann im Feld „Typ der Abhängigen Variablen“ auf den Button „Referenzkategorie“ und aktivieren dort die Option „Erste (niedrigster Wert)“, da wir den Einfluss auf das Überleben (mit dem Wert 1 kodiert) analysieren (siehe Abb. 2.26). Unter dem Reiter „Prädiktoren“ werden die unabhängigen Variablen eingefügt. Wie Abb. 2.27 (linke Seite) verdeutlicht, setzen wir Female und Pass_class im Feld „Faktoren“ ein und Age im Feld „Kovariaten“. Dann drücken wir den Button „Optionen“ und wählen unter „Reihenfolge der Kategorien für Faktoren“ die Option „Absteigend“. Im Reiter „Modell“ befördern wir unsere drei unabhängigen Variablen in das Feld „Modell“ und ändern dabei an der Voreinstellung „Haupteffekte“ in Abb. 2.27 (rechte Seite) nichts. Mit
2.5 Durchführung in SPSS und Stata
79
Variablen in der Gleichung RegressionskoeffizientB Schritt
1a
Standardfehler
Wald
df
Sig.
Exp(B)
Age
-,135
,058
5,328
1
,021
,874
Female(1)
2,500
,167
225,284
1
,000
12,186
99,327
2
,000
Pass_class(1)
-1,233
,226
29,768
1
,000
,291
Pass_class(2)
-2,248
,226
98,711
1
,000
,106
,023
,013
3,007
1
,083
1,024
1,534
,419
13,418
1
,000
4,635
Pass_class
Age by LnAge Konstante
a. In Schritt 1 eingegebene Variablen: Age, Female, Pass_class, Age * LnAge.
Abb. 2.24 Ergebnis des Box-Tidwell-Tests
Abb. 2.25 GenLin-GENLIN-Modellauswahl
80
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.26 GENLIN-Spezifikation abhängige Variable
Abb. 2.27 GENLIN-Spezifikation unabhängige Variablen
2.5 Durchführung in SPSS und Stata
81
„Haupteffekten“ meint SPSS die einfache direkte Wirkung einer Variablen im Unterschied zu Interaktionseffekten. Jetzt geht es mit dem Reiter „Schätzung“ weiter (Abb. 2.28). Im Feld „Kovarianzma trix“ rechts oben wird die Option „Robuster Schätzer“ gewählt. Der Klick auf den Button „OK“ realisiert die Schätzung mit robusten Standardfehlern der Abb. 2.29.28 Verglichen mit der Schätzung aus Abb. 2.16 bleiben die Koeffizientenwerte unverändert. Die robusten Standardfehler für die Variablen Age und Pass_class 3 sind nur geringfügig größer und somit die Wald-Chi2-Werte kleiner (umgekehrt bei den Variablen Female und Pass_class 2). An den Schlussfolgerungen hinsichtlich der Signifikanzen der unabhängigen Variablen ändert sich nichts. Eine Alternative ist, ein lineares Wahrscheinlichkeitsmodell (Linear Probability Model) zu spezifizieren und dort robuste Standardfehler mittels der Prozedur GENLIN zu schätzen. Dies geht, indem wir in Abb. 2.25 innerhalb des Reiters „Typ des Modells“ links bei „Metrische abhängige Variable“ die Option „Linear“ (anstelle der Option „Binär
Abb. 2.28 GENLIN Robuster Schätzer
Sie entsprechen den robusten Standardfehlern der binären logistischen Regression in Stata.
28
82
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.29 Schätzung robuster Standardfehler
logistisch“) aktivieren. Das weitere Vorgehen unterscheidet sich nicht vom beschriebenen Verfahren bei der logistischen Regression. Auch hier erhalten wir keine relevant abweichenden Ergebnisse. Im Rahmen der dritten Option beziehen wir dagegen die Heteroskedastie explizit in die Spezifikation des Modells ein. Das heißt, wir berücksichtigen, dass heterogene Varianzen existieren und die Koeffizientenschätzungen verändern. Dies ist innerhalb der ordinalen logistischen Regression unter [Analysieren > Regression > Ordinal], die wir aus Abb. 2.19 kennen, möglich. In dieser Abbildung bemerkt man rechts den Button „Skala“. Die Bezeichnung ergibt sich aus dem Begriff „Location Scale Models“ (bzw. Lokations-Skalen-Modelle). SPSS verwendet diesen Begriff für logistische Modelle, die multiplikative Heteroskedastie spezifizieren. Wir gehen vom Probit-Modell der Abb. 2.19 und 2.20 aus und unterstellen, dass heterogene Varianzen nur zwischen Männern und Frauen vorliegen. Abb. 2.30 zeigt, dass dazu die Variable Female als Haupteffekt in das Feld „Skalenmodell“ befördert wird. Das Ergebnis enthält Abb. 2.31. Die Koeffizientenschätzungen befinden sich im Abschnitt „Lage“. Sie unterscheiden sich in der Größe etwas von denen der Abb. 2.16, was aber keine weiteren Schlussfolgerungen erlaubt (Wooldridge 2010, S. 602). Die grundsätzlichen Folgerungen hinsichtlich des Einflusses auf die Überlebenswahrscheinlichkeit bleiben unverändert. Wobei zu beachten ist, dass hier die Referenzkategorie der Variablen Pass_class die dritte Klasse ist und nicht die erste Klasse. Die letzte Zeile des Outputs nennt sich „Skala“. Sie enthält einen Test, ob die Varianz sich zwischen den beiden Gruppen (Frauen bzw. Männer) unterscheidet. Tatsächlich haben Frauen eine signifikant geringere Varianz im Vergleich zu Männern. Die drei genannten Verfahren sind nur geeignet, wenn wir unterstellen, dass die Koeffizientenschätzungen selbst konsistent bzw. unverzerrt sind oder zumindest die Verzerrung
2.5 Durchführung in SPSS und Stata
83
Abb. 2.30 Spezifikation der Heteroskedastie
Abb. 2.31 Ergebnisse bei Spezifikation heterogener Varianzen
so klein ausfällt, dass sie vernachlässigbar ist. Die übereinstimmenden Resultate der beschriebenen Prozeduren sind aber ein (starkes) Indiz dafür, das dies gegeben ist. Zur Schätzung von robusten Standardfehlern innerhalb von SPSS siehe Stoetzer (2017, Abschn. 5.2) sowie Olvera Astivia und Zumbo (2019). Die Berücksichtigung heterogener Varianzen durch Spezifikation innerhalb der Prozedur PLUM erläutert Williams (2010). Dies allerdings nur indirekt, da er hauptsächlich die Prozedur oglm für Stata beschreibt. Baltes-Götz (2012) enthält dazu ebenfalls eine kurze Darstellung. Um einflussreiche Beobachtungen bzw. Ausreißer zu identifizieren, existieren in der logistischen Regression verschiedene Optionen. Nach [Analysieren > Regression > Binär logistisch] und Spezifikation des Modells drücken wir den Button „Optionen“ und erhalten dann die obige Abb. 2.22. Wir setzen dort ein Häkchen bei „Fallweise Auflistung der
84
2 Abhängige Variablen mit begrenztem Wertebereich
Residuen“ und behalten die Voreinstellung „2“ bei „Ausreißer außerhalb“ bei. Damit werden nur die standardisierten Residuen mit einem Wert von größer als 2 aufgelistet. Die erste Zeile der Liste aus Abb. 2.32 sagt uns, dass der Fall Nummer 3 (also die dritte Beobachtung unseres Datensatzes) nicht überlebt hat (Spalte Survival: 0). Die geschätzte Wahrscheinlichkeit zum Überleben beträgt hier 0,969, d. h. 96,9 % (Spalte „Vorhergesagt“). Die letzten drei Spalten werden von SPSS nur temporär erzeugt, also nicht gespeichert. Die Spalte „Resid“ enthält die Residuen der (Überlebens-)Wahrscheinlichkeiten. ˆ ∗, hier also Für die dritte Beobachtung lautet das Residuum −0,969 (nämlich Y − Y 0 − 0,969). Bei der Spalte „SResid“ handelt es sich um die standardisierten Residuen (von SPSS zum Teil „Standardresiduum“, aber auch „studentisierte Residuen“ genannt). Davon zu unterscheiden sind die z-standardisierten Pearson-Residuen. Diese sehen wir in der Spalte „ZResid“. Da wir unter „Ausreißer außerhalb auflisten“ den Wert 2 übernommen haben und sich dies in SPSS auf die SResid bezieht, sind hier nur die Beobachtungen (Fälle bzw. Passagiere) aufgeführt, deren SResid größer als absolut 2 ist. Die Beobachtung Nummer 3 weist ein SResid von −2,644 auf, was zufällig auch noch das absolut größte SResid darstellt. Ändern wir die Voreinstellung bei „Ausreißer außerhalb“ von 2 auf 3, gibt uns SPSS im Output die Meldung, dass die fallweise Liste nicht produziert wurde, weil keine Ausreißer (SResid) mit einem Wert größer als absolut 3 vorhanden sind. Zur Untersuchung, ob die dritte Beobachtung einflussreich ist, setzen wir in unserer Modellspezifikation der logistischen Regression aus Abb. 2.14 unter dem Reiter „Speichern“ ein Häkchen im Feld „Einfluss“ bei „Cook“, „Hebelwerte“ und „Differenz in Beta“ (siehe Abb. 2.33). Letzteres fordert die DFBETA-Werte an. Darüber hinaus ist es möglich, verschiedene andere Größen zu berechnen und vor allem abzuspeichern. Außerdem lassen wir uns, wie Abb. 2.33 zeigt, die geschätzten (= vorhergesagten) Wahrscheinlichkeiten des Survival durch ein Häkchen bei „Wahrscheinlichkeiten“ sowie
Abb. 2.32 Tabelle der standardisierten Residuen
2.5 Durchführung in SPSS und Stata
85
zwei verschiedene Arten von Residuen („Nicht standardisiert“ und „Standardisiert“) ausgeben. Sie werden von SPSS dem Datensatz als weitere Variable hinzugefügt. Die geschätzten Wahrscheinlichkeiten des Überlebens (Survival = 1) sind als Variablen unter dem Namen „PRE_1“ mit der Bezeichnung „Vorhergesagte Wahrscheinlichkeit“ jetzt im Datenfile vorhanden. Wir können sie wie jede andere Variable für weitere Analysen und grafische Darstellungen verwenden. Nach [Analysieren > Mittelwerte vergleichen > Mittelwerte] platzieren wir bspw. im Feld „Abhängige Variablen“ die Variable Vorhergesagte Wahrscheinlichkeit(PRE_1) und im Feld „Schicht 1 von 1“ die Variable Pass_class. Nach „OK“ erscheint das Ergebnis der vorne stehenden Abb. 2.7. Es zeigt die mittleren Überlebenswahrscheinlichkeiten in den drei Passagierklassen. Wenn wir die Variable Female einsetzen, erhalten wir die geschätzten Wahrscheinlichkeiten von Frauen und Männern. Die Ergebnisse für Ausreißer und einflussreiche Beobachtungen (Residuen und standardisierte Residuen (d. h. normalisierte Pearson-Residuen), Cook’s D, Hebelwert und DFBETA haben wir, wie Abb. 2.33 zeigt, angefordert. Die Ergebnisse werden vorne im Abschn. 2.3.4 beschrieben und diskutiert. Als Beispiel für eine grafische Analyse der Ausreißer platzieren wir die geschätzte Überlebenswahrscheinlichkeit auf der x-Achse und die standardisierten (normalisierten) Residuen auf der y-Achse. Menügesteuert geht dies über [Grafik > Diagrammerstellung > Streu-/Punktdiagramm]. Das Resultat in Form der Abb. 2.10 vorne und seine Interpretation kennen wir bereits. Hinsichtlich der grafischen Untersuchung von einflussreichen Fällen beschränken wir uns auf Cook’s D. Auch hier generieren wir das einfache Streudiagramm der Abb. 2.34 mit der geschätzten Überlebenswahrscheinlichkeit auf der x-Achse und jetzt Cook’s D auf der y-Achse.
Abb. 2.33 Einflussreiche Beobachtungen
86
2 Abhängige Variablen mit begrenztem Wertebereich
Nur der Fall rechts oben nähert sich dem kritischen Grenzwert von 1. Es handelt sich dabei wieder um Beobachtung Nummer 3. Die Berechnung des durchschnittlichen marginalen Einflusses (AME) der metrisch skalierten Variablen Alter ist in SPSS ebenso wenig direkt abrufbar wie die grafische Darstellung der sich verändernden Wirkung des Alters. Beides wird syntaxbasiert von Urban und Mayerl (2018, S. 405–414) beschrieben. Tests, inwieweit Koeffizientenschätzungen übereinstimmen, speziellen Größen entsprechen oder gemeinsam einflussreich sind, können wir in SPSS nur syntaxbasiert realisieren. Hinweise finden sich bei Baltes-Götz (2012) sowie – allerdings nur bedingt hilfreich – über die Help-Funktion im Menü von SPSS [Hilfe > Befehlssyntax-Referenz]. Anschließend müssen wir unter der jeweilig von uns eingesetzten Prozedur nachsehen, welche Möglichkeiten dort implementiert sind. Backhaus et al. (2015) erläutern im 5. Kapitel die binäre logistische Regression mit betriebswirtschaftlichen Anwendungen. Urban und Mayerl (2018) geben in ihrem 8. Kapitel eine Einführung mit sozialwissenschaftlichen Beispielen. Von den englischen Lehrbüchern mit SPSS-Anwendungen ist Field (2018) unterhaltsam und verständlich geschrieben. Ergänzend kann Tabachnick und Fidell (2019) herangezogen werden. Besonders klar sind auch hier die online zugänglichen Erläuterungen der UCLA IDRE (2019) zu den verschiedenen Verfahren der logistischen Regression in SPSS. Stata Wir benutzen den Datensatz „Titanic.dta“. Er enthält die Variablen Survival, Age, Female und Pass_class. Von diesen sind Survival, Female sowie Pass_class nominal skalierte Variablen. Age ist metrisch skaliert. Die binär logistische Regression erfolgt menügesteuert
Abb. 2.34 Grafische Analyse Cook’s D
2.5 Durchführung in SPSS und Stata
87
Abb. 2.35 Logistische Regression mit Odds Ratios
über [Statistics > Binary outcomes > Logistic regression]. In diesem Feld platzieren wir Survival als abhängige Variable und die anderen drei Variablen als unabhängige Variablen (Abb. 2.35). Die nominal skalierten Variablen Female und Pass_class werden mittels des Präfix „i.“ als Faktorvariablen (d. h. nominal skalierte Variable) in die Regression aufgenommen. Durch anklicken des Button „OK“ wird die logistische Regression geschätzt. Das Resultat haben wir oben in der Abb. 2.4 bereits kennengelernt. In der Voreinstellung gibt Stata die Odds Ratios (Chancenverhältnisse) aus. Um die Koeffizientenwerte (Logits) der logistischen Regression zu erhalten, aktivieren wir unter dem Reiter „Reporting“ der Abb. 2.35 die Variante „Report estimated coefficients“. Dies führt zur uns bekannten Abb. 2.4 oben. Die z-Tests der einzelnen exogenen Variablen sind (wie der Wald-Test von SPSS) in kleinen Samples nicht geeignet, um signifikante Einflussfaktoren zu identifizieren. Besser sollten Likelihood-Ratio-Tests verwendet werden. Dies ist in Stata möglich, indem wir mittels eines LR-Tests prüfen, ob die Aufnahme einer zusätzlichen Variablen eine signifikante Verbesserung des Modells bewirkt. Dazu führt man eine logistische Regression wie in Abb. 2.35 durch, aber nur mit einer exogenen Variablen – der Einfachheit halber hier Age. Das Ergebnis dieser Schätzung speichern wir durch den Befehl „estimates store model_1“ im Feld „Command“ der Menüoberfläche. Dabei ist „model_1“ ein von uns frei
88
2 Abhängige Variablen mit begrenztem Wertebereich
wählbarer Name. Menübasiert funktioniert das umständlicher durch [Statistics > Postestimation > Manage estimation results > Store current estimates in memory] und dann Vergabe eines Namens, hier also „model_1“. Danach schätzen wir erneut die logistische Regression, allerdings mit zwei unabhängigen Variablen nämlich zusätzlich zu Age jetzt Female. Dieses Resultat wird – wie eben beschrieben – unter dem Namen „model_2“ abgespeichert. Anschließend wird der LR-Test durch den Befehl „lrtest model_1 model_2“ im Feld „Command“ aufgerufen. Stata erkennt selbstständig, dass es die Likelihood-Werte dieser beiden Modelle miteinander vergleichen muss. Stata unterstellt dabei, dass das erste der beiden Modelle das restringierte Modell darstellt („Assumption: model_1 nested in model_2“).29 Das Testresultat zeigt Abb. 2.36. Die Nullhypothese dieses LR-Tests besagt, dass die Variable Female (model_2) keine zusätzliche Erklärungskraft über die Variable Age (model_1) hinaus besitzt. Diese Hypothese wird auf dem 1-%-Niveau abgelehnt. Analog erweitern wir das zweite Modell um die Variable Pass_class, speichern das Ergebnis unter „model_3“ ab und testen „lrtest model_2 model_3“ (nicht abgebildet). Auch die Variable Pass_class ist nach dem Likelihood-Ratio-Test ein signifikanter Einflussfaktor. Das war zu erwarten, da unsere Datenbasis mit 1046 Beobachtungen sehr groß ist und daher die z-Werte aus Abb. 2.4. verlässlich sind. Alternativ ist es möglich, die LR-Tests mittels der Prozedur „Stepwise“ durchzuführen. Menübasiert erfolgt dies durch [Statistics > Other > Stepwise estimation]. Dabei werden alle unabhängigen Variablen eingegeben, und Stata sucht schrittweise das „optimale“ Modell. Es identifiziert automatisch alle Variablen, die (bspw. im LR-Test) signifikante Modellverbesserungen bewirken. Diese sequenziellen Suchverfahren können auch benutzt (missbraucht) werden, um sich ausgehend von vielen möglichen Einflussfaktoren ein „bestes“ Modell aufspüren zu lassen. Anschließend freut man sich über die signifikanten exogenen Variablen und denkt sich (scheinbar) plausible Hypothesen dazu aus. Dies ist ein fundamentaler Verstoß gegen die Logik von Hypothesentests zur Überprüfung kausaler Zusammenhänge! Nur wenn wir eine rein explorative Datenanalyse durchführen oder lediglich Prognosemodelle entwickeln wollen, ist dies vertretbar. Die Probit-Schätzung realisiert man über [Statistics > Binary outcomes > Probit regression]. Wie Abb. 2.37 verdeutlicht, spezifizieren wir die Probit-Regression genauso wie die logistische Regression.
lrtest model_1 model_2 Likelihood-ratio test (Assumption: model_1 nested in model_2)
LR chi2(1) = Prob > chi2 =
310.04 0.0000
Abb. 2.36 LR-Test einzelner Variablen
29 Zur Prüfung restringierter (nested models) im Vergleich zu unrestringierten Modellen siehe Stoetzer (2017, Abschn. 6.3.2).
2.5 Durchführung in SPSS und Stata
89
Abb. 2.37 Probit Regression
Nach klicken auf den Button „OK“ folgt das uns ebenfalls bereits bekannte Schätzergebnis der obigen Abb. 2.4. Um die Klassifizierung zu erhalten, geben wir syntaxbasiert im „Command“ Feld der Menüoberfläche von Stata den Befehl „estat class“ ein. Dies jeweils im Anschluss an die durchgeführte logistische Regression. Das Resultat ist eine Klassifikationstabelle wie in Abb. 2.5 vorne. Zur Überprüfung nichtlinearer Beziehungen (sowie des allgemeinen Modellfits) dient der Hosmer-Lemeshow-Test. Er wird menübasiert aufgerufen durch [Statistics > Binary outcomes > Postestimation > Goodness-of-fit after logistic/logit/probit]. In dem dann folgenden Menüfeld kann er (oder auch der Pearson Chi2-Test) ausgewählt und durchgeführt werden. Syntaxbasiert geht das schneller durch Eingabe in das Feld „Command“ von „estat gof, group (10)“ (Hosmer-Lemeshow-Test) bzw. „estat gof“ (Pearson-Chi2-Test).30 Abb. 2.38 enthält den resultierenden Output in verkürzter Form. Der Pearson-Chi2-Test sollte nur verwendet werden, wenn die erwartete Anzahl von Ereignissen und die erwartete Anzahl von Beobachtungen für jede Kombination der Kovariaten mindestens 5 beträgt (Allison 2014, S. 5).
30
90
2 Abhängige Variablen mit begrenztem Wertebereich
Er lehnt – genauso wie der nicht abgebildete Pearson-Chi2-Test – die Nullhypothese ab, dass keine zu große Differenz zwischen den geschätzten und den beobachteten Überlebensfällen besteht. Beide Prüfverfahren sagen damit, dass unsere Modellspezifikation Mängel aufweist. Dabei ist aber zu berücksichtigen, dass bei einer entsprechend großen Zahl von Beobachtungen die Nullhypothese immer abgelehnt wird, weil auch kleinste Unterschiede signifikant werden (siehe Abschn. 2.3.3). Für den Box-Tidwell-Test, der sich auf die einzige metrisch skalierte Variable Age beschränkt, bilden wir eine neue Variable, nämlich den natürlichen Logarithmus von Age. Dies erfolgt über [Data > Create or change data > Create new variable] (siehe Abb. 2.39). Der neuen Variablen geben wir den Namen LnAge (oder einen beliebigen anderen Namen) und berechnen die Variable dann über „Functions > Mathematical > ln()“. Dies geschieht entweder direkt durch Eingabe von „ln(Age)“ im Feld „Specify a value or an expression“ oder nach Drücken des Buttons „Create“ im Feld „Expression Builder“ (rechter Teil der Abb. 2.39). Nach „OK“ und dann noch mal „OK“ wird dies r ealisiert. Schneller geht das alles syntaxbasiert im Feld „Command“ der Menüoberfläche durch Eingabe von „generate LnAge = ln(Age)“. Diese neue Variable fügen wir unserem Modell hinzu und schätzen erneut eine logistische Regression (wie oben beschrieben). Der Interaktionseffekt wird durch Eingabe von „c.Age#c.LnAge“ gebildet. Das Präfix „c.“ teilt Stata mit, dass es sich um eine metrische skalierte Variable handelt, was sowohl für Age als auch für LnAge gilt. Das Zeichen „#“ bildet den Interaktionseffekt. Das Resultat (nach „OK“) kennen wir bereits. Es findet sich noch einmal in Abb. 2.40. Der Interaktionseffekt ist nur auf dem 10-%-Niveau signifikant und insofern lediglich ein schwaches Indiz für die Existenz von Nicht-Linearitäten.31 Es ist in Stata auf verschiedene Arten möglich, Heteroskedastie zu berücksichtigen. In den Abb. 2.35 und 2.37 zur Logistic- bzw. Probit-Regression ist ein Reiter „SE/Robust“ sichtbar. Nachdem wir diesen öffnen, werden verschiedene Möglichkeiten, heteroskedastierobuste Standardfehler zu berechnen, offeriert. Wir wählen im Feld „Standard error
. estat gof, group (10) number of observations number of groups Hosmer-Lemeshow chi2(8) Prob > chi2
= = = =
1046 10 40.05 0.0000
Abb. 2.38 Hosmer-Lemeshow-Test
Der Box-Tidwell-Test ist auch als Makro downloadbar. Nach Eingabe von „findit boxtid“ im Feld „Command“ erhalten wir dazu eine Anleitung. Ein weiterer Test auf Fehlspezifikation ist der in Stata implementierte Linktest. 31
2.5 Durchführung in SPSS und Stata
91
Abb. 2.39 Variablenbildung
type“ die Option „Robust“. Im Rahmen einer Schätzung der Logit-Koeffizienten zeigt Abb. 2.41 das Resultat. Verglichen mit der Schätzung aus Abb. 2.4 bleiben die Koeffizientenwerte natürlich unverändert. Die robusten Standardfehler für die Variablen Age und Pass_class 3 sind etwas größer als die nicht korrigierten gewöhnlichen Standardfehler und damit die z-Werte geringfügig kleiner. An den Schlussfolgerungen hinsichtlich der Signifikanzen der unabhängigen Variablen ändert sich aber nichts. Analog lassen sich für ein LPM in der linearen Regression unter [Statistics > Linear models and related > Linear regression] robuste Standardfehler ermitteln. Auch hier bleiben die Resultate prinzipiell unverändert. Als weitere Option existiert die Prozedur „hetprobit“. In diesem Schätzverfahren kann Heteroskedastie in Abhängigkeit von unabhängigen Variablen getestet und modelliert werden. Durch Eingabe von „help hetprobit“ im „Command“-Feld gelangt man zu Statas PDF-Dokumentation, die das Verfahren und dessen Interpretation erklärt. Nach [Statistics > Binary outcomes > Heteroskedastic probit regression] geben wir in Abb. 2.42 unser Modell ein und spezifizieren, dass die Variable Female heterogene Varianzen (zwischen Männern und Frauen) aufweist. Dazu fügen wir im Feld „Independent variables to model the variance“ die Variable Female ein. Hier könnten auch andere Variablen zusätzlich berücksichtigt werden. Abb. 2.43 stellt die Ergebnisse dar. Im Titanic-Beispiel müssen wir die Nullhypothese „Homoskedastie“ hinsichtlich der unabhängigen Variablen Female verwerfen. Der entsprechende LR-Test findet sich in der letzten Zeile („LR test of lnsigma2=0“). Die Koeffizientenschätzungen können mit den Probit-Schätzungen der Abb. 2.4 nicht verglichen werden. Die inhaltlichen Ergebnisse zum Einfluss von Age, Female und Pass_class gemessen an den Vorzeichen und Signifikanzen bleiben aber unverändert (zur Interpretation siehe Wooldridge 2010, S. 602).
92
2 Abhängige Variablen mit begrenztem Wertebereich
. logistic Survival Age i.Female i.Pass_class c.Age#c.LnAge, coef Logistic regression Log likelihood = -489.72535
Number of obs LR chi2(5) Prob > chi2 Pseudo R2
= = = =
1,046 435.17 0.0000 0.3076
------------------------------------------------------------------------------Survival | Coef. Std. Err. z P>|z| [95% Conf. Interval] --------------+---------------------------------------------------------------Age | -.1349749 .0584757 -2.31 0.021 -.2495851 -.0203647 1.Female | 2.500302 .1665818 15.01 0.000 2.173807 2.826796 | Pass_class | 2 | -1.233256 .2260353 -5.46 0.000 -1.676277 -.7902354 3 | -2.247964 .226259 -9.94 0.000 -2.691423 -1.804504 | c.Age#c.LnAge | .0233573 .0134694 1.73 0.083 -.0030422 .0497568 | _cons | 1.533741 .4187012 3.66 0.000 .713102 2.354381 -------------------------------------------------------------------------------
Abb. 2.40 Ergebnis Box-Tidwell-Test Logistic regression Log pseudolikelihood = -491.22655
Number of obs Wald chi2(4) Prob > chi2 Pseudo R2
= = = =
1,046 283.56 0.0000 0.3055
-----------------------------------------------------------------------------| Robust Survival | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------Age | -.0343932 .0064703 -5.32 0.000 -.0470747 -.0217117 1.Female | 2.497845 .1624204 15.38 0.000 2.179507 2.816183 | Pass_class | 2 | -1.28057 .1977481 -6.48 0.000 -1.668149 -.8929907 3 | -2.289661 .2313479 -9.90 0.000 -2.743094 -1.836227 | _cons | 1.024229 .3009039 3.40 0.001 .4344685 1.61399 ------------------------------------------------------------------------------
Abb. 2.41 Robuste Standardfehler
Der Vergleich mit dem Resultat in SPSS aus Abb. 2.31 macht deutlich, dass diese übereinstimmen. Lediglich die die Referenzkategorien der Variablen Pass_class und die Testverfahren hinsichtlich Heteroskedastie unterscheiden sich. Statt der menüseitig implementierten Prozedur „hetprobit“ ist alternativ die Prozedur „oglm“ verwendbar. Diese bietet erheblich größere Möglichkeiten der Analyse, bspw. andere Link-Funktionen an Stelle der Probit-Funktion. Allerdings muss sie zunächst installiert werden (über die Eingabe von „findit oglm“ im Feld „Command“) und ist nur syntaxbasiert verwendbar. Williams (2010) enthält eine genaue Erläuterung. Als Fazit sind die deckungsgleichen Resultate der verschiedenen Optionen ein (starkes) Indiz, dass unsere logistische Regression richtig spezifiziert ist.
2.5 Durchführung in SPSS und Stata
93
Abb. 2.42 Spezifikation der Heteroskedastie hetprobit Survival Age i.Female i.Pass_class, het(i.Female) Heteroskedastic probit model
Log likelihood = -481.8852
Number of obs Zero outcomes Nonzero outcomes
= = =
1,046 619 427
Wald chi2(4) Prob > chi2
= =
175.06 0.0000
-----------------------------------------------------------------------------Survival | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------Survival | Age | -.0080578 .0029546 -2.73 0.006 -.0138488 -.0022668 1.Female | 1.081832 .0868078 12.46 0.000 .9116915 1.251972 | Pass_class | 2 | -.3796006 .1181478 -3.21 0.001 -.611166 -.1480352 3 | -.8018614 .1678119 -4.78 0.000 -1.130767 -.4729561 | _cons | -.0957221 .191186 -0.50 0.617 -.4704398 .2789956 -------------+---------------------------------------------------------------lnsigma2 | 1.Female | -1.005975 .2353635 -4.27 0.000 -1.467279 -.544671 -----------------------------------------------------------------------------LR test of lnsigma2=0: chi2(1) = 20.78 Prob > chi2 = 0.0000
Abb. 2.43 Ergebnisse bei spezifizierter Heteroskedastie
94
2 Abhängige Variablen mit begrenztem Wertebereich
Um die geschätzten (vorhergesagten) Wahrscheinlichkeiten des Überlebens zu erhalten, geben wir im Feld „Command“ den Befehl „predict Pred_Survival“ ein. Der Name der dann von Stata neu berechneten Variablen Pred_Survival ist dabei von uns frei wählbar. In der Default-Einstellung berechnet Stata die geschätzten Wahrscheinlichkeiten jedes Passagiers für das Ereignis Survival = 1, also das Überleben, und fügt diese neue Variable dem Datensatz hinzu. Das Ergebnis für die ersten drei Beobachtungen kennen wir aus der Tab. 2.3. Die Interpretation dieser geschätzten Wahrscheinlichkeiten ist – im Vergleich zu den Koeffizienten oder den Chancenverhältnissen (Odds Ratios) – deutlich einfacher. Um die Mittelwerte der geschätzten Überlebenswahrscheinlichkeit zu vergleichen, lautet der Befehl im Feld „Command“ wie folgt: „tabulate Pass_class, summ(Pred_Survival)“. Menübasiert wird so vorgegangen: [Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Means]. Unter dem Reiter „Model“ ist unsere Variable Pred_Survival im Feld „Variable“ einzufügen und anschließend unter dem Reiter „if/in/over“ im Feld „Group over subpopulations“ die Variable Pass_class. Entsprechend gehen wir für die Variable Female vor. Die Resultate kennen wir aus Abb. 2.7 vorne. Der Einfluss der metrisch skalierten Variablen Age auf die Überlebenswahrscheinlichkeit ist nicht notwendigerweise linear. Wie berechnen sie mittels Eingabe von „margins, at(Age=(0(1)80))“ im „Command“-Feld. Stata ermittelt dann für den Bereich von 0 bis 80 Jahren in Ein-Jahres-Schritten den Einfluss des jeweiligen Alters auf die Überlebenswahrscheinlichkeit. Direkt anschließend wird durch Eingabe des Befehls „marginsplot“ im Feld „Command“ der Einfluss des Alters grafisch dargestellt, der bereits in Abb. 2.9 oben zu sehen ist. Menübasiert geht dies entsprechend Abb. 2.44 über [Statistics > Postestimation]. Unter „Marginal analysis“ aktivieren wir „Marginal means and marginal effects, fundamental analyses“ und drücken anschließend „Launch“. Im dann auftauchenden Feld geben wir die in Abb. 2.45 zu sehenden Vorgaben ein: „Covariate“ ist unsere Variable Age, „Analysis type:“ ist „Marginal means of outcome for levels of covariate“ und bei „Values to compute estimates at:“ geben wir „0(1)80“ ein. Nach „OK“ wird die Berechnung durchgeführt. Die Grafik der Abb. 2.9 erhalten wir über „Profile plots after marginal analysis“ aus Abb. 2.44. Dann wird im Feld „Variable(s) that define the x axis“ die Variable „at(Age)“ eingefügt. Durch „OK“ erscheint die Abb. 2.9 vorne. Die verschiedenen Möglichkeiten, die Einflüsse unabhängiger Variablen innerhalb der Margins-Prozedur in Stata zu analysieren – insbesondere, was die differierende Verwendung von Referenzwerten der jeweils anderen unabhängigen Variablen angeht –, erläutert am klarsten Williams (2018). Die geschätzten Überlebenswahrscheinlichkeiten sowie Informationen zur Überprüfung von Ausreißern und einflussreichen Beobachtungen generiert man menügesteuert in der Abb. 2.44 unter [Predictions > Probabilities, influence statistics, residuals, etc.]. Es erscheint das Feld der Abb. 2.46.
2.5 Durchführung in SPSS und Stata
95
Abb. 2.44 Postestimation Optionen
Dieses Kommandofeld muss direkt nach der Durchführung der logistischen Regression aufgerufen werden, weil die möglichen Optionen von der vorhergehenden Regression abhängen. Im Feld „New variable name“ geben wir einen von uns frei wählbaren Namen ein (hier „Pred_Survival“ als Abkürzung für „predicted survival“). Unter „Produce“ aktivieren wir „Predicted probability of a positive outcome“ und erhalten so die von unserem Modell geschätzten Überlebenswahrscheinlichkeiten aller 1046 Passagiere. Diese werden als neue Variable Pred_Survival dem Datensatz von Stata hinzugefügt. Weiter vorne war dies bereits syntaxbasiert erklärt worden. Die Residuen des logistischen Modells sind in Abb. 2.46 mittels der (eher unverständlichen) Option „Equation-level scores“ erhältlich. Die Residuen der geschätzten Überlebenswahrscheinlichkeiten nennen wir „Prob_Residuals“. So bekommen wir – bspw. für die ersten drei Beobachtungen – die Residuen in der rechten Spalte der Tab. 2.3 oben. Abb. 2.46 zeigt, dass im Feld „Produce“ eine ganze Reihe von Optionen vorhanden ist, um Prüfgrößen für Ausreißer und einflussreiche Beobachtungen zu erhalten. „Delta-Beta influence statistic“ ist eine Größe analog zu Cook’s D, die Leverage (den Hebelwert) ken-
96
2 Abhängige Variablen mit begrenztem Wertebereich
Abb. 2.45 Der Befehl „margins“
nen wir, das „Pearson residual (adjusted for # sharing covariate pattern)“ entspricht (nur bedingt) dem im Abschn. 2.3.3 vorgestellten z-standardisierten Pearson-Residuum (in SPSS: „normalisiertes Residuum“ bzw. „ZRESID“). Durch Vergabe eines Namens im Feld „Produce“, anschließendem Aktivieren der gewünschten Option und dann Drücken des Button „OK“ werden diese Prüfgrößen berechnet und als neue Variablen dem Datensatz hinzugefügt. Die von Stata bereitgestellten Prüfgrößen sind die von Hosmer et al. (2013) auf den Seiten 154–202 genauer beschriebenen und erläuterten Optionen. Wir vergeben den z-standardisierten Pearson Residuen den Variablennamen „Pearson_Residuals“. Die Leverage nennen wir originellerweise „Leverage“. Syntaxbasiert erhalten wir alle diese Größen deutlich schneller. Die beiden letzten bspw. im Feld „Command“ durch Eingabe von „predict Pearson_Residuals, residuals“ und „predict Leverage, hat“. An-
2.5 Durchführung in SPSS und Stata
97
Abb. 2.46 Optionen der Modellprüfung
schließend lassen wir uns die jeweiligen Minima und Maxima ausgeben. Dies am schnellsten syntaxbasiert. Dazu verwenden wir den Befehl „summarize“. Abb. 2.47 enthält die Eingaben im Feld „Command“ und darunter den resultierenden Output. Hosmer et al. (2013, S. 193–199) empfehlen grafische Darstellungen, um Ausreißer und einflussreiche Beobachtungen zu analysieren. Abb. 2.48 stellt die Syntaxeingabe und das Ergebnis für die z-standardisierten Pearson-Residuen dar. Auf der x-Achse sind die geschätzten Überlebenswahrscheinlichkeiten der Beobachtungen abgetragen und auf der y-Achse die dazugehörigen Pearson-Residuen. Zwei Beobachtungen sind deutlich erkennbare Ausreißer mit einem Pearson-Residuum von über +5 bzw. unter −5. Letztere der beiden Beobachtungen kennen wir bereits. Es handelt sich um den Passagier mit der Fallnummer 3. Die weiteren Schlussfolgerungen finden sich oben im Abschn. 2.3.3. Als Beispiel für eine grafische Identifikation einflussreicher Beobachtungen verwenden wir den Hebelwert (Leverage). Menügesteuert wird das entsprechende Streudiagramm mittels [Graphics > Twoway graph (scatter, line, etc.] erstellt. Der syntaxbasierte Befehl lautet „twoway (scatter Leverage Pred_Survival)“. Das Ergebnis ist Abb. 2.11 oben. Long und Freese (2014) bieten eine umfassende Darstellung der Möglichkeiten zu den verschiedenen Methoden der logistischen Regression in Stata. Wie immer sind auch UCLA IDRE (2019) und Williams (2019) online zugängliche, sehr gute Darstellungen auf
98
2 Abhängige Variablen mit begrenztem Wertebereich
predict Prob_Residuals, score predict Pearson_Residuals, residuals predict Leverage, hat . summarize Prob_Residuals Pearson_Residual Leverage Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------------Prob_Residuals | 1,046 -2.19e-10 .387404 -.9693291 .9433811 1,046 .1408749 1.296766 -5.621754 5.26684 Pearson_Residuals | Leverage | 1,046 .0230449 .0134427 .0020203 .0618144
Abb. 2.47 Übersicht ausgewählter Prüfgrößen twoway (scatter Pearson_Residual Pred_Survival)
Abb. 2.48 Grafische Analyse Pearson-Residuen
kurzem Raum. Zum Einstieg ist Acock (2016) hervorragend geeignet. Die umfangreichen Möglichkeiten mittels der Befehle „margins“ und „marginsplot“ Tests durchzuführen und die Schätzergebnisse auch grafisch zu erläutern, stellt Mitchell (2012) verständlich dar.
2.6
Übungsaufgaben
Übung 2.1: Modellspezifikation des Titanic-Untergangs Entwickeln und diskutieren Sie mögliche Schwachstellen und Grenzen des logistischen Modells zur Überlebenswahrscheinlichkeit der Titanic-Passagiere, hinsichtlich:
2.6 Übungsaufgaben
99
a) der Modellspezifikation der Variablen Alter und b) der Interpretation der Koeffizienten der drei Passagierklassen.
Übung 2.2: Einkommen und Wohnungseigentum Inwieweit ist ein asymmetrischer Einfluss des Einkommens auf die Wahrscheinlichkeit, Wohnungseigentum zu besitzen, inhaltlich plausibel? Übung 2.3: Linearität kategorialer Variablen Warum ist es nicht notwendig, bei der kategorialen Variable Passagierklasse (Pass_class) zu überprüfen, ob Nicht-Linearitäten existieren? Übung 2.4: Linear Probability Model Schätzen Sie ein Linear Probability Model (LPM) des Titanic-Modells und interpretieren sie das Ergebnis. Was stellen Sie bei einem Vergleich mit der logistischen Schätzung dieses Modells fest? Verwenden Sie für SPSS den Datensatz Titanic_Data_Dummy_Passclass.sav, bei dem die drei Passagierklassen bereits als Dummyvariablen kodiert sind. Übung 2.5: Alter und Überlebenswahrscheinlichkeit Abb. 2.49 zeigt für das Titanic-Unglück die Überlebenswahrscheinlichkeit Pr(Survival) abhängig vom Alter (Age) in einem Streudiagramm. Wie ist der Zusammenhang zu interpretieren?
Abb. 2.49 Überlebenswahrscheinlichkeit und Alter
100
2 Abhängige Variablen mit begrenztem Wertebereich
Übung 2.6: Komplette Separierung Erläutern Sie anhand eines selbst gewählten Beispiels, bei welcher Datenkonstellation im Titanic-Fall eine komplette Separierung vorliegen würde. Übung 2.7: Inhaltliche Fundierung der Einflussfaktoren Im ursprünglichen Datensatz für die Titanic existiert auch eine Variable, die die Nummer der Rettungsboote der jeweiligen Passagiere verzeichnet. Wie wirkt sich die Aufnahme einer entsprechenden Variablen (bspw. als Dummyvariable: Rettungsbootnummer vorhanden oder nicht vorhanden) auf den Determinationskoeffizient aus? Wie ist die Aufnahme dieser Variablen inhaltlich zu beurteilen? Übung 2.8: Skalenniveau Zur Erklärung des Erfolgs von Fußballmannschaften in der ersten Bundesliga (bspw. des Zusammenhangs mit dem durchschnittlichen Alter der Spieler und der Erfahrung des Trainers) bietet es sich an, die Punktzahl am Ende der Bundesligasaison zu verwenden. Inwiefern könnte eine ordinale abhängige Variable eine sinnvolle Alternative sein? Übung 2.9: Einflussfaktoren der Arbeitslosigkeit Verwenden Sie die Datei „Arbeitslosigkeit_Allbus_2018.dta“ bzw. „Arbeitslosigkeit_Allbus_2018.sav“. Es handelt sich um einen Auszug aus der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften des Jahres 2018 (ALLBUS 2018). Der Datensatz stellt eine repräsentative Stichprobe von 3477 Einwohnern Deutschlands im Alter von 18 bis 65 Jahren dar. Unser Forschungsinteresse ist, inwieweit Arbeitslosigkeit von einem Hochschulstudium beeinflusst wird. Die binäre abhängige Variable Arbeitslosigkeit besitzt den Wert 1, wenn die befragte Person zum Zeitpunkt der Umfrage oder in den 10 Jahren davor irgendwann einmal arbeitslos war, andernfalls hat sie den Wert 0. Unsere Stichprobe beschränkt sich auf Erwerbstätige im Alter von 18 bis 65 Jahren. Die Hypothesenvariablen sind FHAbschluss und UniAbschluss. Es handelt sich um Dummyvariablen mit dem Wert 1, wenn ein abgeschlossenes FH- bzw. Universitätsstudium beim Befragten vorliegt. Folgende Kontrollvariablen existieren: Dummyvariablen sind Mann (für männliche Personen); Ost bei einem Wohnsitz in den neuen Bundesländern; Deutsch, falls jemand seit Geburt die deutsche Staatsangehörigkeit besitzt; Alter ist eine metrisch skalierte unabhängige Variable. Aufgrund der Altersgrenzen und von fehlenden Antworten bei den genannten Variablen reduziert sich das verfügbare Sample auf 2023 Personen. a) Ermitteln Sie die Wirkung des Hochschulstudiums (FH- und Universität) unter Einbezug der Kontrollvariablen in einer logistischen Regression und interpretieren Sie die Resultate. b) Überprüfen Sie mittels des Hosmer-Lemeshow-Tests die Spezifikation der logistischen Regression aus Teilfrage a). ˆ ∗ und stellen sie diese in Abhängigkeit c) Ermitteln Sie die einfachen Residuen Y − Y ˆ von erstens Y und zweitens Y∗ jeweils in einem Streudiagramm dar. Erläutern Sie die beiden Darstellungen.
2.7 Lösungen
2.7
101
Lösungen
Lösung 2.1 a) Die Variable Alter geht in die Spezifikation des Modells linear ein. Dies ist kaum plausibel. Erstens, weil vor allem (Klein-)Kinder gerettet werden dürften, und zwar unabhängig vom Alter. Das heißt, bei Babys und Kindern bis ca. 11 oder 12 Jahren sollte durchgehend eine hohe konstante Rettungswahrscheinlichkeit vorhanden sein. Ab einem Alter von ca. 16–18 Jahren wurde aber vermutlich kaum ein Unterschied zu bspw. einem 50-Jährigen gemacht. Ab ca. 70 Jahren ist der Umgang mit den Passagieren wieder offen: Einerseits könnten ältere Menschen wegen Gebrechlichkeit und aus Mitleid eher gerettet worden sein. Andererseits ist denkbar, dass alten Passagieren es physisch häufiger nicht gelungen ist, in die Rettungsboote zu kommen. Zusammenfassend deuten diese Überlegungen darauf hin, dass ein nichtlinearer Zusammenhang plausibel ist. Auch ein recht abrupter Übergang zwischen bestimmten Altersgruppen ist möglich. Dies spricht dafür, bspw. folgende drei Altersklassen zu bilden (Klein-)Kinder bis 13 Jahre, Erwachsene 14–70 Jahre und Senioren über 70 Jahre. b) Die naheliegende Schlussfolgerung, dass eine Diskriminierung der dritten Passagierklasse vorliegt, ist nicht zwingend. Unter Umständen waren einfach die Kabinen der dritten Klasse zu weit weg von den Rettungsbooten, oder die Passagiere der dritten Klasse konnten häufig kein Englisch und sich daher im Chaos auf dem sinkenden Schiff und den englischen Anweisungen nicht orientieren. Lösung 2.2 Ein asymmetrischer nichtlinearer Zusammenhang ist vorstellbar, wenn bei niedrigeren Einkommen häufiger noch andere Faktoren eine Rolle spielen, die dazu führen, dass mit steigendem Einkommen die Wahrscheinlichkeit, Eigentümer zu sein, zunächst langsam zunimmt, während ab einem bestimmten hohen Einkommen fast jeder Wohnungseigentümer ist. Abb. 2.50 illustriert den beschriebenen Gedankengang. Eine mögliche Link-Funktion ist in diesem Fall die cloglog-Funktion. Wahrscheinlichkeit Y*
Eigentümer 1
Mieter 0
X
Einkommen
Abb. 2.50 Asymmetrische Wirkung des Einkommens
102
2 Abhängige Variablen mit begrenztem Wertebereich
Lösung 2.3 Die drei Klassen sind jede für sich als Dummyvariablen kodiert. Damit kann jede der drei Klassen gegenüber den anderen eine beliebig größere oder kleinere Überlebenswahrscheinlichkeit besitzen. Es wird keine ordinale oder sogar metrisch lineare Beziehung zwischen der Überlebenswahrscheinlichkeit und der ersten, zweiten und dritten Passagierklasse unterstellt. Da also keine Annahme hinsichtlich der Linearität existiert, wäre es sinnlos, diese zu überprüfen. Lösung 2.4 Das basierend auf SPSS (oberer Teil) bzw. Stata (unterer Teil) geschätzte lineare Wahrscheinlichkeitsmodell des Titanic-Unglücks zeigt Abb. 2.51.
SPSS:
Stata: regress Survived Age i.Female i.Pass_Class Source | SS df MS -------------+---------------------------------Model | 93.2678509 4 23.3169627 Residual | 159.421442 1,041 .153142595 -------------+---------------------------------Total | 252.689293 1,045 .241807935
Number of obs F(4, 1041) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
1,046 152.26 0.0000 0.3691 0.3667 .39133
-----------------------------------------------------------------------------Survived | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Age | -.0052695 .0009316 -5.66 0.000 -.0070975 -.0034414 | Female | male | -.4914131 .025552 -19.23 0.000 -.5415525 -.4412738 | Pass_Class | 2 | -.2113738 .0348568 -6.06 0.000 -.2797715 -.1429761 3 | -.3703874 .0325039 -11.40 0.000 -.434168 -.3066068 | _cons | 1.104955 .043821 25.22 0.000 1.018967 1.190943 ------------------------------------------------------------------------------
Abb. 2.51 LPM des Titanic-Unglücks
2.7 Lösungen
103
Die Ergebnisse von SPSS und Stata stimmen natürlich überein – nur dass SPSS und Stata unterschiedliche Referenzkategorien für die Dummyvariable Female verwenden (SPSS: Referenz Male und Stata Referenz Female). Die inhaltlichen Aussagen des linearen Wahrscheinlichkeitsmodells unterscheiden sich hinsichtlich der Wirkungsrichtung und Signifikanz nicht von der binären logistischen Regression. Lösung 2.5 Die sechs erkennbaren Linien ergeben sich aus den sechs Kombinationen des Geschlechts (Female-Male) einerseits und den drei Passagierklassen andererseits. Die Linie ganz oben in Abb. 2.49 umfasst die weiblichen Passagiere der ersten Klasse. Die Linie ganz unten repräsentiert die Männer der dritten Klasse. Es zeigt sich übereinstimmend eine Abnahme der Überlebenswahrscheinlichkeit mit zunehmendem Alter. Die sinkende Rettungswahrscheinlichkeit ist aber nicht über alle Kombinationen identisch. Es existieren zum Teil deutliche Unterschiede im Einfluss des Alters je nach Geschlecht, Passagierklasse und Alter. Die Auswirkungen des zunehmenden Alters sind mit dem geschätzten Koeffizienten des Linear Probability Model in Höhe von −0,0052695 (siehe Abb. 2.51) nur grob erfasst. Das gilt auch für die Koeffizientenschätzungen des Logit- und Probit-Modells. Lösung 2.6 Komplette Separierung wäre gegeben, wenn bspw. alle Passagiere der ersten Klasse gerettet worden wären oder alle Passagiere der dritten Klasse nicht überlebt hätten. In diesen Fällen wäre die Zugehörigkeit zur ersten bzw. dritten Klasse ein perfekter Prädiktor des Überlebens bzw. des Sterbens. Die Wahrscheinlichkeit, zu überleben, ist daher bei allen Passagieren der ersten (dritten) Klasse gleich 1 (0). Lösung 2.7 Die Aufnahme der Variable „Rettungsbootnummer vorhanden“ für jeden Passagier führt zu einer extrem guten Vorhersage der Rettungswahrscheinlichkeit. Dies, weil (fast) nur Passagiere, die in einem Rettungsboot aufgenommen wurden, eine Chance besaßen, zu überleben. Die Wassertemperatur von ca. −2 Grad Celsius verhinderte ein Überleben durch Schwimmen. Gleichzeitig ist die Berücksichtigung dieser Variable aber inhaltlich sinnlos, denn die Aufnahme in ein Rettungsboot ist im Grunde definitorisch identisch mit der Variable Survival. Die inhaltlich relevante Frage ist also, wer überhaupt und warum in die Rettungsboote gelangte bzw. aufgenommen wurde oder nicht. Prinzipiell führt die Variable „Rettungsbootnummer vorhanden“ sogar zu einer perfekten Separierung (jeder Insasse eines Rettungsboots überlebte). Allerdings ist nicht für alle Überlebenden deren Rettungsbootnummer bekannt. Als Konsequenz existiert für alle Ertrunkenen logischerweise keine Rettungsbootnummer, während nicht für alle Überlebenden deren Rettungsbootnummer vorliegt.
104
2 Abhängige Variablen mit begrenztem Wertebereich
Lösung 2.8 Eine ordinale abhängige Variable könnte bspw. folgende fünf Rangstufen unterscheiden: Abstiegsplatz, Relegationsplatz, Mittelfeldplatzierung, Vizemeister und Meister. Allerdings stellt die Verwendung der am Saisonende erreichten Punktzahl sicherlich die genaueste Identifikation von Leistungsunterschieden zwischen den Bundesligamannschaften dar. Die Verwendung der genannten ordinalen Skala impliziert daher einen Informationsverlust, der nicht zweckmäßig ist. Lösung 2.9 a) Das Ergebnis der logistischen Regression (Logit-Modell) mittels Stata enthält Abb. 2.52. McFaddens Pseudo-R2 liegt lediglich bei 0,0438. Aber das Gesamtmodell ist nach dem Likelihood-Ratio-Test signifikant (LR chi2 = 96,55, Signifikanzniveau 0,000). Die Logits der Koeffizienten sind wie folgt interpretierbar: Ein FH- oder Universitätsabschluss verringert die Wahrscheinlichkeit der Erfahrung von Arbeitslosigkeit. Die Kontrollvariablen Ost und Deutsch haben plausible Einflüsse (positiv für Ost und negativ für Deutsch). Ein signifikanter Geschlechtsunterschied von Männern gegenüber Frauen ist nicht vorhanden. Mit steigendem Alter sinkt aber die Wahrscheinlichkeit, aktuell oder während der letzten 10 Jahre arbeitslos zu sein. b) Das Resultat des Hosmer-Lemeshow-Tests bei 2023 Beobachtungen und 10 Gruppen lautet: Hosmer-Lemeshow chi2 = 13,23 und das dazugehörige Signifikanzniveau beträgt 0,1024, also 10,42 %. Die getestete Nullhypothese überprüft, ob zwischen den beobachteten und den geschätzten Werten der abhängigen Variable ein signifikanter Unterschied vorliegt. Dies ist aufgrund des Signifikanzniveaus von 10,42 nicht der Fall. Unser Modell ist also nicht zu verwerfen und kann insoweit akzeptiert werden. ˆ ∗ ) zeigt Abb. 2.53 links für Y, d. h. c) Die Residuenplots der einfachen Residuen ( Y − Y ˆ , d. h. die gedie Werte 0 und 1 der abhängigen Variable Arbeitslos und rechts für Y∗ schätzte Wahrscheinlichkeit der Erfahrung von Arbeitslosigkeit. . logistic Arbeitslos FHAbschluss UniAbschluss Mann Ost Deutsch Alter, coef Logistic regression Log likelihood = -1054.2829
Number of obs LR chi2(6) Prob > chi2 Pseudo R2
= = = =
2,023 96.55 0.0000 0.0438
-----------------------------------------------------------------------------Arbeitslos | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------FHAbschluss | -.5328113 .2243811 -2.37 0.018 -.9725901 -.0930325 UniAbschluss | -.5138636 .1409994 -3.64 0.000 -.7902173 -.2375098 Mann | -.0573895 .1083263 -0.53 0.596 -.2697052 .1549261 Ost | .4118627 .1175795 3.50 0.000 .181411 .6423143 Deutsch | -.6700411 .1481834 -4.52 0.000 -.9604754 -.3796069 Alter | -.0319683 .0045708 -6.99 0.000 -.040927 -.0230096 _cons | .8112211 .2433712 3.33 0.001 .3342223 1.28822 ------------------------------------------------------------------------------
Abb. 2.52 Logistische Regression der Arbeitslosigkeit
Literatur
105
Abb. 2.53 Streudiagramme der einfachen Residuen
Die Residuen liegen, wie in der Abbildung links zu sehen ist, dicht gepackt als senkrechte Streifen bei den beobachteten Werten der Variable Arbeitslos, d. h. bei 0 und 1. Beträgt die geschätzte Wahrscheinlichkeit bspw. 0,35 (also 35 %) liegt das Residuum entweder bei −0,35 (0 − 0,35) oder bei 0,65 (1 − 0,35). Der rechte Teil der Abb. 2.53 illustriert dies hinsichtlich der geschätzten Wahrscheinlichkeit (Pr(Arbeitslos)). Generell müssen die Residuen zwischen −1 und +1 liegen. Diese beiden Residuenplots sind bei allen logistischen Regressionen prinzipiell ähnlich strukturiert und vermitteln daher in der Regel nur bedingt verwertbare Informationen.
Literatur Acock, A. C. (2016). A gentle introduction to Stata (5. Aufl.). College Station. ALLBUS. (2018). Allgemeine Bevölkerungsumfrage der Sozialwissenschaften. https://www.gesis. org/allbus/inhalte-suche/studienprofile-1980-bis-2018/2018. Zugegriffen am 01.11.2019. Allison, P. D. (2014). Measures of fit for logistic regression, paper 1485-2014, SAS Global Forum. https:// statisticalhorizons.com/wp-content/uploads/GOFForLogisticRegression-Paper.pdf. Zugegriffen am 23.10.2019. Angrist, J. D., & Pischke, J.-S. (2009). Mostly harmless econometrics. Princeton: Princeton University Press. Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2015). Multivariate Analysemethoden (14. Aufl.). Berlin/Heidelberg: Springer Baltes-Götz, B. (2012). Logistische Regressionsanalyse mit SPSS. Universität Trier, ZIMK. https:// www.uni-trier.de/fileadmin/urt/doku/logist/logist.pdf. Zugegriffen am 14.10. 2019. Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics – Methods and applications. Cambridge: Cambridge University Press Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics using Stata, Revised Edition, College Station, Texas: Stata Press. DeCarlo, L. T. (2003). Using the PLUM procedure of SPSS to fit unequal variance and generalized signal detection models. Behavior Research Methods, Instruments, & Computers, 35(1), 49–56.
106
2 Abhängige Variablen mit begrenztem Wertebereich
Diaz-Quijano, F. A. (2012). A simple method for estimating relative risk using logistic regression. BMC Medical Research Methodology, 12(14). https://doi.org/10.1186/1471-2288-12-14. Eaton, J., & Haas, C. (1995). Titanic: Triumph and tragedy (2. Aufl.). New York/London: W. W. Norton & Company European Banking Authority. (2019). Report on liquidity measures under article 509(1) of the CRR, 2. Oktober 2019. https://eba.europa.eu/sites/default/documents/files/documents. Zugegriffen am 17.12.2019. Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London: SAGE Publications Fox, J. (2016). Applied regression analysis and generalized linear models. Thousand Oaks: SAGE Publications Giles, D. (2011). Gripe of the day. https://davegiles.blogspot.com/2011/05/gripe-of-day.html#more. Zugegriffen am 13.11.2019. Greene, W. H. (2018). Econometric analysis (8. Aufl.). New York: Pearson Hardin, J. W., & Hilbe, J. M. (2018). Generalized linear models and extensions (4. Aufl.). College Station: Strata Press Harrell, F. (2002). Titanic data. biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.html. Zugegriffen am 11.05.2019. Hilbe, J. M. (2009). Logistic Regression Models. Boca Raton: CRC Press. Hilbe, J. (2014). Modeling count data. Cambridge: Cambridge University Press Hoetker, G. (2007). The use of logit and probit models in strategic management research: Critical issues. Strategic Management Journal, 28, 331–343. Hosmer, D. W., Hosmer, T., Le Cessie, S., & Lemeshow, S. (1997). A comparison of goodness-offit-tests for the logistic regression model. Statistics in Medicine, 16, 965–980. Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3. Aufl.). Hoboken: Wiley Keele, L., & Park, D. K. (2005). Difficult choices: An evaluation of heterogenous choice models, meeting of the American Political Science Association, Chicago. /pdfs.semanticscholar.org/1a7 0/5e887e91c28503124aa91c3b1fa59b7a1570.pdf. Zugegriffen am 10.11.2019. Long, J. S., & Freese, J. (2014). Regression models for categorical dependent variables using stata (3. Aufl.). College Station: Stata Press Menard, S. (2002). Applied logistic regression (2. Aufl.). Thousand Oaks: SAGE Publications Mitchell, M.N. (2012). Interpreting and visualizing regression models using Stata. College Station: Stata Press. Mood, C. (2010). Logistic regression: Why we cannot do what we think we can do, and what we can do about it. European Sociological Review, 26(1), 67–82. Norusis, M. (2011). IBM SPSS statistics 19 advanced statistical procedures companion. Upper Saddle River: Addison Wesley Olvera Astivia, O. L., & Zumbo, B. D. (2019). Heteroskedasticity in multiple regression analysis: What it is, how to detect it and how to solve it with applications in R and SPSS, practical assessment. Research & Evaluation, 24(1), 1–16. Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung, Eine nichtmathematische Einführung mit SPSS und Stata. Berlin: Springer Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7. Aufl.). Boston: Pearson UCLA IDRE. (2019). University of California at Los Angeles, Institute for Digital Research & Education. https://stats.idre.ucla.edu/other/dae/. Zugegriffen am 28.10.2019. Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden: Springer VS Williams, R. (2010). Fitting heterogenous choice models with oglm. The Stata Journal, 10(4), 540–567.
Literatur
107
Williams, R. (2016). Understanding and interpreting generalized ordered logit models. The Journal of Mathematical Sociology, 40(1), 7–20. Williams, R. (2018). Using Stata’s margins command to estimate and interpret adjusted predictions and marginal effects. https://www3.nd.edu/~rwilliam/stats/Margins01.pdf. Zugegriffen am 10.10.2019. Williams, R. (2019). Using Stata for logistic regression, ordered logit models, multinomial logit models. https://www3.nd.edu/~rwilliam/stats/StataHighlights.html. Zugegriffen am 02.09. 2019. Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data (2. Aufl.). Cambridge: Cambridge University Press Wooldridge, J. M. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston: Cengage Learning
3
Zeitreihenanalyse und dynamische Modelle
Lernziele
Der Studierende soll: • die Besonderheiten der Analyse von Zeitreihen verstehen, • unterschiedliche Arten von dynamischen Zusammenhängen (Lags und Leads) beherrschen, • verschiedene Formen von Distributed-Lag-Modellen unterscheiden können, • wissen, was ein AR(1)-Modell (bzw. AR(2)-Modell usw.) ist, • Diagramme der Autokorrelationsfunktion (ACF) und der partiellen Autokorrelationsfunktion (PACF) interpretieren können, • überblicken, welche Grenzen die OLS-Schätzung bei Autokorrelation aufweist, • Testverfahren zur Überprüfung von Autokorrelation – wie den Durbin-Watson und den Breusch-Godfrey-Test – anwenden können, • verschiedene Möglichkeiten zum Umgang mit Autokorrelation – wie Neuspezifikation und HAC-Standardfehler – kennen, • eine Autoregressive-Distributed-Lag-Spezifikation interpretieren können, • verstehen, was die Stationarität einer Zeitreihe bedeutet, • wissen, welche Bedeutung der Exogenität einer unabhängigen Variablen im Zusammenhang mit Zeitreihen zukommt, • die Relevanz von Strukturbrüchen einschätzen können, • den ADF-Test (Augmented Dickey-Fuller-Test) beherrschen, • in der Lage sein, den Einsatz von Zeitreihenmodellen für Prognosen zu erläutern.
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. -W. Stoetzer, Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2, https://doi.org/10.1007/978-3-662-61438-9_3
109
110
3 Zeitreihenanalyse und dynamische Modelle
cc Wichtige Grundbegriffe Autokorrelation, Distributed Lag, Lead, verzögerte abhängige Variable, autoregressives Modell, Lag-Länge, Korrelogramm, Stationarität, Durbin-Watson- Test, Breusch-Godfrey-Test, HAC-Standardfehler, Autokorrelationsfunktion, ARDL-Modell, ADF-Test
3.1
Überblick
Zunächst beschreibt Abschn. 3.2 Formen und Merkmale von Zeitreihendaten (Längsschnittdaten). Abschn. 3.3 analysiert, inwieweit eine einfache OLS-Schätzung auf der Basis von Daten aus mehreren Perioden durchführbar ist. Die Abschn. 3.4, 3.5 und 3.6 veranschaulichen, welche speziellen Probleme bei der Regression auf der Basis von Zeitreihen auftreten. In diesem Kontext stellt Abschn. 3.4 das Problem der Autokorrelation dar, Abschn. 3.5 diskutiert die Exogenität der unabhängigen Variablen, und Abschn. 3.6 erläutert die Stationarität von Zeitreihen. Darauf aufbauend zeigt Abschn. 3.7, wie die Bestimmung der Modellspezifikation (Lags bzw. Leads) erfolgt und fasst die praktische Vorgehensweise zusammen. Da hier nur eine sehr kurze Einführung in die Grundlagen der Untersuchung von Zeitreihen gegeben wird, enthält abschließend Abschn. 3.8 eine Reihe von weiterführenden Hinweisen zu Prognosemodellen und Variablen mit gemeinsamen Trends.
3.2
Datengrundlage
Bei der Behandlung verschiedener Datenformen im Kap. 1 des ersten Bands (Stoetzer 2017) war die grundlegende Unterscheidung von Querschnitts- und Zeitreihenbeobachtungen bereits erläutert worden. Wichtig ist, dass auf der Basis der bisher behandelten Querschnittsdaten bestimmte Problemstellungen nicht zu beantworten sind. Dazu zählt erstens die Möglichkeit, Einflüsse aus Vorperioden mit in die Spezifikation aufzunehmen und so die Wahrscheinlichkeit eines Omitted Variable Bias zu verringern. Zweitens können die kausalen Wirkungen einer Veränderung im Zeitverlauf analysiert werden. Welche Wirkung übt die Zahl der Abiturienten eines Jahrgangs auf die Zahl der Studienanfänger in den Folgejahren aus? Hat die Erhöhung des Kindergeldes einen Einfluss auf die Zahl der Geburten in den Jahren danach? Zieht eine steigende Arbeitslosigkeit sofort oder später geringere Inflationsraten nach sich? Drittens sind Zeitreihen besonders geeignet, Aussagen über zukünftige Entwicklungen zu treffen, d. h. Prognosen zu erstellen. Wie hoch wird bspw. die Arbeitslosenquote im vierten Quartal des Jahres 2021 sein? Existiert dabei ein Zusammenhang mit den Arbeitslosenquoten in den vierten Quartalen der Jahre 2016 bis 2020? Der Ursprung der Zeitreihenanalyse ist eine solche Untersuchung von Regelmäßigkeiten und Strukturen in der Datenreihe einer einzelnen Variablen (bspw. der Entwicklung von Aktienkursen). Bei
3.2 Datengrundlage
111
solchen univariaten Prognosen geht es also nicht um die Aufdeckung kausaler Zusammenhänge zwischen mehreren Variablen. Stattdessen erklären wir die zukünftige Entwicklung einer Variablen aus ihrer eigenen Vergangenheit heraus. Aber auch bei Prognosen können ggf. zukünftige Entwicklungen besser vorhergesagt werden, wenn wir zusätzlich die Vergangenheit anderer Variablen einbeziehen (multivariate Prognosen). In beiden Fällen existieren dynamische Zusammenhänge (der Erhöhung des Kindergeldes oder der Arbeitslosenquote der Vorperiode), die in einer reinen Querschnittsbetrachtung nicht analysierbar sind. Die folgende Darstellung fokussiert Aspekte, die (auch) bei Hypothesentests, d. h. der Analyse von kausalen Zusammenhängen, relevant sind. Zeitreihen sind Daten einer Beobachtungseinheit über verschiedene Zeitpunkte (bzw. Perioden) hinweg. Typische Beobachtungseinheiten sind dabei Unternehmen, Individuen, Staaten oder Regionen. Ein mikroökonomisches Beispiel mit 30 Beobachtungen sind die jährlichen Gesamtkosten der Fluggesellschaft American Airlines im Zeitraum 1989 bis 2018. Die börsentäglich ermittelte Umlaufrendite inländischer Inhaberschuldverschreibungen vom Februar 1976 bis zum Dezember 2017 stellt ein makroökonomisches Beispiel mit über 10.000 Beobachtungen dar. Der Umfang einer Stichprobe bei Zeitreihen entspricht der Zahl der Perioden, für die wir bei einer Variablen über Daten verfügen. Wichtig ist, dass die Daten für alle Perioden des Beobachtungszeitraums komplett vorhanden sind. Außerdem müssen die Variablen über alle Perioden einheitlich und konsistent ausfallen. Bei einer Zeitreihe der Arbeitslosenquote muss diese bspw. in jeder Periode identisch definiert sein, und der Bezugszeitraum – etwa Monate, Quartale oder Jahre – hat für alle Beobachtungen übereinzustimmen (= Äquidistanz der Perioden). Sind diese Voraussetzungen nicht gegeben, ist es notwendig, diese in der Analyse zu berücksichtigen. Etwa indem fehlende Daten (Missing Values) für einzelne Perioden durch geeignete Verfahren ergänzt werden (siehe dazu Kap. 5). Der erste Schritt einer Zeitreihenanalyse ist immer eine grafische Darstellung (ein Plot) der jeweiligen Variable in einem Streudiagramm, bei der die Zeitperioden auf der x-Achse stehen. Die Abb. 3.1, 3.2 und 3.3 enthalten Beispiele für makroökonomische und mikroökonomische Variablen. Die Entwicklung des Bruttoinlandsproduktes (BIP) pro Kopf im Zeitraum 1990 bis 2017 für China, Italien und Deutschland findet sich in Abb. 3.1. Es handelt sich um Größen in US-$, die mittels Kaufkraftparitäten und den gemeinsamen Bezug auf das Jahr 2011 vergleichbar gemacht worden sind. Die Veränderung des BIP pro Kopf wird häufig verwendet, um die Entwicklung des Lebensstandards in verschiedenen Staaten zu vergleichen. Abb. 3.2 zeigt die inflationsbereinigten Ölpreise in den USA von 1946 bis 2019. Hier sind bspw. die starken Preissteigerungen der 1. Ölkrise 1973 und der 2. Ölkrise 1979 auffällig. Besonders interessant sind die monatlichen Arbeitslosenquoten (ALQ) in Deutschland von 2005 bis 2019 in Abb. 3.3. Es ist offensichtlich, dass diese Zeitreihe verschiedene sich überlagernde Komponenten besitzt. Erstens existiert eine ausgeprägte saisonale Komponente: Die ALQ steigt jeweils in den Monaten Dezember bis Februar und sinkt im Sommer. Darüber hinaus ist auch ein längerfristiger Trend zu beobachten: Die ALQ verringert
112
3 Zeitreihenanalyse und dynamische Modelle 60,000 50,000 40,000 30,000 20,000
China Germany Italy
10,000 0
Abb. 3.1 BIP pro Kopf China, Italien, Deutschland 1990–2017. BIP = (Bruttoinlandsprodukt pro Kopf (GDP per capita PPP, constant 2011 international US-$)). (Quelle: Worldbank 2019)
Abb. 3.2 Ölpreise in den USA 1946–2019. Ölpreis: Domestic US Crude Oil Prices (in $/Barrel), inflationsbereinigt. (Quelle: Inflationdata 2019)
sich über die Jahre hinweg. Diese Entwicklung lässt sich mit den Arbeitsmarktreformen der Agenda 2010 in den Jahren 2003 bis 2005 erklären. Unter Umständen sind aber auch weitere mittel- und langfristige Trends relevant: etwa konjunkturelle (zyklische) Einflüsse und demografische Veränderungen aufgrund der abnehmenden Zahl von Personen im erwerbsfähigen Alter. Alle diese Wirkungen müssen ggf. im Modell berücksichtigt werden, um inhaltlich sinnvolle Aussagen zu treffen. Bspw. sind zur Beurteilung der Entwicklung der Arbeitslosigkeit saisonale Einflüsse im Allgemeinen irrelevant. Bei Zeitreihen ist da-
3.2 Datengrundlage
113
14 12 10 8 6 4 2 0
Abb. 3.3 Monatliche Arbeitslosenquote Deutschland 1/2005–1/2019. Arbeitslosenquote in % aller zivilen Erwerbspersonen. (Quelle: Statistisches Bundesamt 2019b)
her die Bereinigung solcher Schwankungen oder alternativ ihre Berücksichtigung in der Modellspezifikation ein wichtiger Gesichtspunkt.1 Im Fall von Querschnittsdaten existiert normalerweise keine natürliche Ordnung in der Reihenfolge der Beobachtungen. Eine Tabelle der Kosten von 15 Fluggesellschaften in den USA beginnt bspw. mit Northwest Airlines und endet mit Shuttle America Airlines (Stoetzer 2017, Abschn. 1.1). Diese Reihenfolge ist aber beliebig, da unser Beobachtungsdatensatz ja prinzipiell eine Zufallsauswahl aus der Grundgesamtheit darstellt. Zum Beispiel würde eine alphabetische Aufzählung mit American Airlines beginnen und mit US Airways enden. Die Ergebnisse sind hinsichtlich der Mittelwerte und OLS-Schätzungen auf der Basis dieser Querschnittsdaten für beide Reihenfolgen identisch. Dies geht einher mit der Annahme, dass die Kosten von US Airways keinen Zusammenhang mit den Kosten der in der Tabelle folgenden Fluggesellschaft etwa Mesa Airlines besitzen. Die Kosten in der Tabelle hintereinander stehender Fluggesellschaften sind also völlig unabhängig voneinander.2 Bei Zeitreihendaten ist dies häufig nicht so. Die Beobachtungen sind hier nach der Zeit sortiert, und es ist plausibel, dass diese zusammenhängen, d. h. miteinander kor relieren. Die erheblichen Ölpreissenkungen im Jahr 2015 (Fracking-Boom, OPEC- Dies gilt bspw. für makroökonomische Werte, die sich auf Monate beziehen. Hier sind bei Produktionsdaten (BIP, Umsätze usw.) Kalenderbereinigungen durchzuführen, die unterschiedliche Zahlen der Arbeitstage in bestimmten Monaten (bspw. aufgrund von Feiertagen) berücksichtigen. 2 Für unser Pkw-Beispiel aus Band 1 (Stoetzer 2017) mit 15 Vertriebsregionen ist aber die Annahme, dass die Reihenfolge der Regionen keinerlei inhaltliche Bedeutung hat, nicht selbstverständlich. Räumlich nebeneinander liegende Verkaufsregionen könnten sich hinsichtlich der verkauften Pkw beeinflussen – bspw. durch reiche Konsumenten in einer Region, die in der Nachbarregion ihre PkwKäufe tätigen. Raum-Regressionsmodelle (Spatial Regression Models), die hier nicht behandelt werden, modellieren solche Einflüsse. 1
114
3 Zeitreihenanalyse und dynamische Modelle
Verdrängungswettbewerb) führten zur Verringerung der Flugbenzinkosten. Dies beeinflusst die Kosten von American Airlines ggf. über mehrere Jahre hinweg. Die schrittweise Senkung der Leitzinsen durch die EZB von 3,75 % im Oktober 2008 bis auf 0,00 % im März 2016 hatte im Zeitablauf Auswirkungen auf das Zinsniveau des deutschen Kapitalmarkts. Die Effekte von Ölpreisveränderungen auf die Kosten sind dabei nicht nur auf den Zeitpunkt der Änderung und das Folgejahr beschränkt, sondern werden eventuell erst später wirksam. Dies resultiert etwa aus längerfristig vereinbarten Preisen für Kerosin oder wird von der Wettbewerbsintensität auf dem Luftverkehrsmarkt beeinflusst. Die Wirkungen von Veränderungen verteilen sich also unter Umständen über mehrere Perioden (siehe Abb. 3.4). Allgemein formuliert hat ein Ereignis des Zeitpunktes t = 0 Auswirkungen bspw. auf die beiden Folgeperioden t + 1 und t + 2. Auch Leitzinsveränderungen entfalten ihre Wirkung vermutlich über längere Zeiträume hinweg, werden also von den Finanzmärkten über mehrere Perioden hindurch verarbeitet. Und insbesondere der Einfluss auf die Investitionen der Unternehmen ist mit Sicherheit nicht auf das Jahr der Zinssenkung beschränkt. Anders formuliert, wird die Variable Y zum Zeitpunkt t = 2, d. h. Y2, von der Variable X der Zeitpunkte t − 1 (d. h. Zeitpunkt 1) und t − 2 (d. h. Zeitpunkt 0) beeinflusst. Wenn die Wirkungen von Veränderungen nicht alle sofort, d. h. in derselben Periode (kontemporär), auftreten, stellt sich das Problem, wie solche dynamischen Beziehungen über mehrere Perioden hinweg modelliert werden können. In dieser Hinsicht sind prinzipiell verschiedene Effekte möglich und plausibel. Der Erfolg einer Marketingkampagne (Variable X) in einem Monat t wird bspw. erst im darauf folgenden Monat t + 1 in Form einer Erhöhung des Absatzes Y deutlich. Was bedeutet, dass der Absatz eines Monats von den Marketingmaßnahmen des Vormonats abhängt: Yt = f ( X t −1 )
(3.1)
Bei einer linearen Spezifikation ergibt sich: Abb. 3.4 Verzögerte Wirkungen
Yt = a 0 + b1 X t −1 + e t
Zeitpunkt 0
(3.2)
Zeitpunkt 1
Zeitpunkt 2
Auswirkung auf eine abhängige Variable Y zum Zeitpunkt t + 1
Auswirkung auf eine abhängige Variable Y zum Zeitpunkt t + 2
Veränderung eines Einflussfaktors X zum Zeitpunkt t
Auswirkung auf eine abhängige Variable Y zum Zeitpunkt t
3.2 Datengrundlage
115
Wobei die Konstante hier mit a0 und die Koeffizienten mit b1 usw. bezeichnet werden.3 Wir unterstellen in Gl. (3.2), erstens, dass keine kontemporären (d. h. gleichzeitigen) Wirkungen vorhanden sind, da die Variable Xt nicht als unabhängiger Einflussfaktor erscheint. Zweitens tritt die Nachwirkung (Verzögerung) ausschließlich in der Folgeperiode auf. Es handelt sich um eine Verzögerung um genau eine Periode (= Xt−1). Die Verzögerung in der Gl. (3.1) bzw. (3.2) wird auch Lag genannt. Ein Lag ist nichts anderes als eine Zeitverschiebung. Der Lag t − 1 der unabhängigen Variable X ist also eine Verzögerung dieser Variable um eine Periode, t − 2 ein Lag von zwei Perioden usw. Aus dem jeweiligen Kontext ergibt sich die Länge der betrachteten Perioden, d. h., ob es sich dabei um Tages-, Quartals-, Jahres- oder sonstige Lags handelt. Eine Verzögerung um eine Periode bezeichnen wir auch als Lag erster Ordnung, von zwei Perioden als Lag zweiter Ordnung und so fort. Tritt die Verzögerung – wie in den Gl. (3.1) und (3.2) – nur in einer einzigen der folgenden Perioden auf, handelt es sich um einen einfachen Lag. Wenn eine Ölpreiserhöhung in einem Jahr einen Einfluss im betreffenden Jahr und auch noch in zwei Folgeperioden ausübt, hängen umgekehrt die Kosten einer Fluggesellschaft zum Zeitpunkt t (= Yt) von den Ölpreisen des laufenden Jahres (= Xt) sowie der beiden vorangehenden Jahre (= Xt−1 und Xt−2) ab – bspw. weil die Lieferverträge für Kerosin Festpreise mit Laufzeiten von bis zu zwei Jahren besitzen. In Funktionsform sieht dieser Zusammenhang als lineares Modell wie folgt aus:
Yt = a 0 + b 0 X t + b1 X t −1 + b 2 X t − 2 + e t
(3.3)
Bei der Interpretation der Koeffizienten ist zu beachten, dass deren Wirkungen jeweils c. p. ermittelt werden. Der Koeffizient b2 misst den Einfluss der Ölpreiserhöhung vor zwei Jahren (zum Zeitpunkt t − 2) auf die Kosten zum Zeitpunkt t, wenn die Wirkung der Ölpreiserhöhung im letzten Jahr (d. h. t − 1) konstant gehalten wird. Der Einfluss im letzten Jahr wird also bereits berücksichtigt, und b2 ist die zusätzliche Wirkung im übernächsten Jahr. Ob man Lags in die Regressionsgleichung aufnimmt und welche Lagstruktur dabei spezifiziert wird, muss in erster Linie inhaltlich begründet werden. Bspw. wollen wir die Auswirkungen einer Kindergelderhöhung (= X) auf die jährlichen Geburtenraten in Deutschland (= Yt) ermitteln. Die Spezifikation der Regressionsgleichung (3.3) ist bei einer Analyse der Wirkung einer Kindergelderhöhung, die im Mai eines Kalenderjahres stattfindet, wenig plausibel. Aus biologischen Gründen und wegen des Zeitbedarfs von Verhaltensanpassungen ist eine Erhöhung der Fertilität schon (und vor allem nur) im gleichen Jahr unwahrscheinlich. In diesem Fall macht es Sinn, den kontemporären Einfluss Xt aus Gl. (3.3) wegzulassen.
In der Literatur werden häufig für die Koeffizienten an Stelle des lateinischen Alphabets die griechischen Buchstaben α, β, λ usw. verwendet.
3
116
3 Zeitreihenanalyse und dynamische Modelle
Die möglichen Lags sind natürlich nicht auf zwei Perioden beschränkt. In der Schreibweise einer mathematischen Gleichung bei Wirkungen über insgesamt n Perioden hinweg ausgedrückt:
Yt = f ( X t ,X t −1 ,X t − 2 ,X t −3 ,…..,X t − n )
(3.4)
Diese Gleichung in Form der Spezifikation einer linearen Regression lautet dann:
Yt = a 0 + b 0 X t + b1 X t −1 + b 2 X t − 2 + b3 X t −3 +….. + b n X t − n + e t
(3.5)
Die Wirkungen der unabhängigen Variable X auf die abhängige Variable Y verteilen sich also über die Perioden hinweg. Diese Regressionen sind daher Modelle mit verteil ten Verzögerungen (Distributed-Lag-Modelle). Die Koeffizienten a0, b0, b1, b2 usw. der Gl. (3.5) können wir wie üblich mittels der OLS-Methode schätzen. In der Regel ist es plausibel, dass die Wirkungen über die Perioden hinweg abnehmen. Für die Schätzung der Koeffizienten heißt dies, es gilt: b1 > b2 > b3 usw. Außerdem wird häufig unterstellt, dass die Wirkungen über die Zeit hinweg nur im Rahmen einer überschaubaren Zahl von Perioden auftreten: Die Auswirkungen eines dauerhaft bspw. um 6 % erhöhten Einkommens X auf das Niveau und die Struktur der Nachfrage eines Haushalts nach Urlaubsreisen Y werden nach zwei bis vier Jahren abgeschlossen sein. Weitere Veränderungen aufgrund der einmaligen 6 %igen Einkommenserhöhung zum Zeitpunkt t sind nach dieser Anpassungsphase (c. p.) nicht zu erwarten. Die Zahl der einzubeziehenden Lags des Einkommens (die Höhe der Ordnungen) wird also als begrenzt angesehen. Dann handelt es sich um begrenzte verteilte Verzögerungen (Finite Distributed Lags), sogenannte FDL-Spezifikationen.4 Unser Modell der Geburtenraten ist ein Beispiel für ein FDL(2)- Modell. Die Regressionsgleichung (3.5) beinhaltet, dass es nur eine unabhängige Variable X gibt. Diese tritt allerdings mit den verschiedenen Lags t − 1, t − 2 usw. auf. Prinzipiell kann die Gleichung um weitere unabhängige Einflussfaktoren (bspw. als Variablen Z, V, W usw. abgekürzt) erweitert werden. Auch diese zusätzlichen Einflussfaktoren können mit und ohne Verzögerungen berücksichtigt werden (bspw. als Variablen Zt, Zt−1, Zt−2, Vt−4, Wt−1, Wt−2 usw.). In der Zeitreihenanalyse sind die Wirkungen von Änderungen unter verschiedenen Aspekten zu differenzieren. Erstens dürften – wie oben bereits erläutert – die Einflüsse unterschiedlich ausfallen, je nachdem, ob bspw. die Einkommenserhöhung nur einmalig (in einer Periode) stattfindet (etwa in Form einer Bonuszahlung) oder eine permanente Steigerung ist (bspw. als Tariflohnerhöhung), die ab einem Zeitpunkt t für alle Folgemonate gilt. Zweitens sind die unmittelbaren Wirkungen (Contemporaneous Impacts) von den langfristigen Einflüssen (Long-Run Impacts) zu unterscheiden. In Gl. (3.3) ist b0 Eine genauere Darstellung der Zeitreihenanalyse bspw. auch von unbegrenzten Distributed-Lag-Modellen enthalten Pindyck und Rubinfeld (1998, S. 521–578), Kirchgässner et al. (2014) und Becketti (2013).
4
3.2 Datengrundlage
117
der unmittelbare Einfluss einer Veränderung der Variablen X in der Periode t. Die Summe der Koeffizienten b0 + b1 + b2 ist der langfristige Effekt. Damit diese Aussage richtig ist, darf es aber keine Auswirkungen über mehr als diese drei Perioden hinweg geben. Wooldridge (2016, S. 314–316) und Dougherty (2016) erläutern die Zusammenhänge anhand weiterer Beispiele. Umgekehrt ist es auch möglich, dass zukünftige Veränderungen bereits in der Gegenwart Einfluss ausüben. Dann sprechen wir von einem „Lead“. Solche Leads sind bspw. bei der Antizipation einer erwarteten Zinserhöhung der Zentralnotenbank durch die Wirtschaftssubjekte plausibel. Ein solche Zinserhöhung I ist dann als It+1, It+2 usw. in die Regressionsgleichung aufzunehmen. Zwei Fragen ergeben sich daraus. Erstens das Problem, wie lange zurückliegende (bzw. vorlaufende) Zeitpunkte einzubeziehen sind? Anders formuliert, wann sind alle Wirkungen einer Veränderung abgeschlossen – nach zwei, drei, zehn oder nach wie vielen Perioden? Und: Ab wann ist denn ein Antizipationseffekt zu erwarten? Zweitens ist anzunehmen, dass diese zeitliche Verteilung der Wirkungen von Ölpreis- oder Kindergelderhöhungen und von Leitzinssenkungen jeweils unterschiedliche temporäre Wirkungsstrukturen besitzen. Je nach den Randbedingungen treten die Effekte schneller oder langsamer und mal über längere und mal über kürzere Zeiträume hinweg auf. Beide Fragen sind unter inhaltlichen Gesichtspunkten der jeweiligen Problemstellung zu beurteilen. Die zeitliche Verteilung der Wirkungen muss daher bei jeder Variablen neu analysiert werden. Der Abschn. 3.7 unten erläutert dies genauer. Dabei ist es wichtig, im Blick zu haben, dass, wenn wir eine verzögerte Variable nicht berücksichtigen, die tatsächlich einflussreich ist, dies ggf. zu einer Verzerrung unserer Koeffizientenschätzungen führt (Omitted Variable Bias). Werden mehrere oder sogar viele Lags einbezogen, tauchen damit weitere Schwierigkeiten auf. Erstens gehen mit jedem weiteren zusätzlichen Lag Beobachtungen verloren, und gleichzeitig steigt mit jedem weiteren Lag die Zahl der unabhängigen Variablen. Dadurch werden unsere Regressionsschätzungen „ungenauer“, weil die Zahl der Freiheitsgerade schrumpft. Zweitens korrelieren die Verzögerungen einer Variablen häufig stark miteinander, so dass Multikollinearität auftritt. Dies ist problematisch, weil ggf. die Wirkungen der verschiedenen Lags einer Variablen (bspw. Xt, Xt−1, Xt−2 usw.) nicht voneinander getrennt werden können und unplausible oder sogar unsinnige Koeffizientenschätzungen resultieren (Studenmund 2016, S. 366; Stoetzer 2017, Abschn. 5.5). Dieser dynamische, d. h. zeitpunktübergreifende Zusammenhang kann auch modelliert werden, indem man unterstellt, dass die verzögerte abhängige Variable einen Einfluss besitzt. Inhaltlich ist dies plausibel, wenn bestimmte „Beharrungskräfte“ existieren (auch als Persistenzen oder Ratchet-Effekte bezeichnet). Eine solche Trägheit in der Anpassung ist inhaltlich in den gesamten Sozialwissenschaften naheliegend, weil Individuen (und damit auch Organisationen) Gewohnheiten gerne beibehalten. So existieren bspw. Konsumgewohnheiten oder Liefer- bzw. Mietverträge, die nur mittel- bis langfristig änderbar sind. Auch verhindern etwa Suchkosten, Vertragsverhandlungen oder der Verlust von Qualifikationen kurzfristige Anpassungen an veränderte Rahmenbedingungen auf dem Arbeitsmarkt. In der Arbeitsmarkökonomie firmiert das Phänomen als Hysterese und ist eine der verschiedenen Erklärungen der Arbeitslosigkeit in der Makroökonomie. Wenn bspw. die Jugendar-
118
3 Zeitreihenanalyse und dynamische Modelle
beitslosigkeit in Spanien im Januar 2018 bei 26,2 % liegt, kann sie im Februar 2018 kaum auf 8 % fallen. Plausibel ist, dass sie im Februar 2018 darunter liegt, etwa bei 23 % oder 20 %. Die Höhe der Jugendarbeitslosigkeit im Januar 2018 ist folglich ein guter Ausgangspunkt für eine Prognose der Arbeitslosenquote in den Folgemonaten des Jahres 2018. Solche Trägheiten sind vor allem relevant, wenn die Perioden, auf die sich unsere Zeitreihen beziehen, kurz sind. Sie treten also bei Monats- und Quartalsdaten eher auf als bei Jahresdaten. Liegen solche Beharrungskräfte vor, wird die verzögerte abhängige Variable als unabhängige Variable in die Spezifikation der Regressionsgleichung aufgenommen:
Yt = f ( Yt −1 )
(3.6)
Als linear spezifizierte Regression also:
Yt = a 0 + c1 Yt −1 + e t
(3.7)
Der Wert der abhängigen Variablen Y zum Zeitpunkt t wird also mittels des Wertes von Y in der vorangegangenen Periode t − 1 erklärt. Den dazugehörigen Koeffizienten kürzen wir hier mit c1 ab. Auch in diesem Fall können weitere Verzögerungen zweiter und höherer Ordnungen hinzukommen. Eine derartige Modellierung von dynamischen Zusammenhängen wird in der Zeitreihenanalyse insbesondere bei Vorhersagemodellen eingesetzt. Anwendungsbeispiele sind die Prognosen von Aktienkursen, Arbeitslosen- und Inflationsraten. Da bei den Modellen der Gl. (3.6) bzw. (3.7) die Entwicklung einer abhängigen Variable sozusagen „aus sich selbst heraus“ erklärt wird, lautet die Bezeichnung für diese Vorgehensweise autoregressives Modell (AR-Modell).5 Analog zu den Bezeichnungen im Fall von Lags ist ein AR(1)-Modell dann ein autoregressives Modell erster Ordnung. Die höchste verwendete Verzögerung wird in Klammern dazugeschrieben. Ein AR(4)-Modell umfasst also die Lags erster bis einschließlich vierter Ordnung.6 Die beiden Ansätze einerseits der verteilten Verzögerungen und andererseits der autoregressiven Modelle sind kombinierbar. Solche Spezifikationen heißen Autoregressive Distributed-Lag-Modelle (ADL-Modelle, bzw. ARDL-Modelle). Eine derartige Regression hat prinzipiell folgendes Aussehen: Yt = a 0 + c1 Yt −1 + c 2 Yt − 2 +…+ c m Yt − m + b 0 X t + b1 X t −1 + b 2 X t − 2 +…+ b n X t − n + e t (3.8) Der Lag des autoregressiven Teils Y umfasst m Perioden, und der Lag der Distributed- Lag-Variablen X beträgt n Perioden. Wie oben bereits erwähnt, können in die Gleichung Unter bestimmten Annahmen kann ein Modell mit verteilten Verzögerungen (Distributed-Lag-Modell), wenn die verzögerten Wirkungen zeitlich unbegrenzt (unendlich) auftreten, in ein Modell mit einer verzögerten abhängigen Variable überführt werden: Aus der Gl. (3.5) wird dann: Yt = a0 + b0Xt + cYt−1. Dies ist die sogenannte Koyck-Transformation (Auer und Rottmann 2010, S. 570). 6 Zum Teil werden in der Literatur nur solche AR-Modelle als dynamische Modelle bezeichnet, FDL-Modelle dagegen nicht. 5
3.2 Datengrundlage
119
natürlich auch weitere Einflussvariablen (mit oder ohne Lags und Leads) aufgenommen werden. Als Beispiel erklären wir die Inflationsrate in Deutschland anhand ihrer verzögerten Werte einerseits und der Arbeitslosenquote andererseits. Das heißt, wir modellieren eine dynamische (modifizierte) Phillipskurve. Die abhängige Variable ist in der Gl. (3.9) die Inflationsrate zum Zeitpunkt t (INFLt). Im Folgenden ADL(2,3)-Modell unterstellen wir, dass die Inflationsraten (= INFL) der beiden Vorperioden und die Arbeitslosenquote (= ALQ) der letzten drei Perioden einflussreich sind: INFLt = a 0 + c1INFLt −1 + c 2 INFLt − 2 + b0 ALQt + b1 ALQt −1 + b2 ALQt − 2 + b3 ALQt −3 + e t (3.9) Bei den Perioden kann es sich abhängig von der Fragestellung und den vorhandenen Daten bspw. um Monate, Quartale oder Jahre handeln. Neben Lags spielen Veränderungen und prozentuale Veränderungen in der Zeitreihenanalyse eine wichtige Rolle. Abb. 3.5 verdeutlicht die Beziehungen zwischen diesen Werten anhand der monatlichen Arbeitslosenquote in Deutschland im Jahr 2012 bzw. 2013. Bei einem Lag von einer Periode wird der Wert der Arbeitslosenquote zum Zeitpunkt t ersetzt durch den Wert der Vorperiode t − 1. Zum Beispiel liegt der beobachtete Wert im Januar 2013 bei 7,4 %. Bei einem Lag erster Ordnung wird dieser Wert im Ja-
Jahr
2012
2013
Monat
Arbeitslosenquote (Yt)
Lag 1.Ordnung (Yt-1)
Erste
Prozentuale
Differenz ∆Yt
Veränderung
(= Yt-Yt−1)
Yt Yt−1 100 Yt−1
Oktober
6,5
November
6,5
6,5
0,0
0,0%
Dezember
6,7
6,5
0,2
3,0%
Januar
7,4
6,7
0,7
10%
Februar
7,4
7,4
0,0
0,0%
März
7,3
7,4
−0,1
−1,4%
April
7,1
7,3
−0,2
−2,7%
Mai
6,8
7,1
−0,3
−4,3%
Juni
6,6
6,8
−0,2
−2,9%
Juli
6,8
6,6
0,2
3,0%
August
6,8
6,8
0,0
0,0%
September
6,6
6,8
−0,2
−2,9%
Oktober
6,5
6,6
−0,1
−1,5%
Abb. 3.5 Lags, erste Differenzen und Veränderungen
120
3 Zeitreihenanalyse und dynamische Modelle
nuar 2013 ersetzt durch den Wert der Vorperiode vom Dezember 2012, der bei 6,7 % liegt (d. h. durch den Wert aus t − 1). Anders formuliert, „verschieben“ wir den Wert vom Dezember 2012 in den Januar 2013 also um eine Periode weiter (t + 1). Durch die Bildung dieses Lag geht eine Beobachtung „verloren“: Unsere Zeitreihe beginnt mit dem Oktober 2012, und da für die Vorperiode, den September 2012, kein Wert vorhanden ist, kann auch kein Lag aus dem September berechnet werden. Entsprechend verschwinden in einem Paneldatensatz die Querschnittsbeobachtungen für eine Periode. Bei der Spezifikation von Lags über viele Perioden hinweg schrumpft somit die Zahl der Beobachtungen u. U. erheblich (d. h., es gehen uns Freiheitsgerade verloren). Bspw. fallen bei einem Lag dritter Ordnung die Beobachtungen von Oktober bis Dezember 2012 weg. Eine Obergrenze der berücksichtigten Lags bzw. Leads stellt die Anzahl der Perioden dar, für die Beobachtungen existieren. Für Zeitreihen und Paneldaten ist Analyse von Veränderungen häufig ein wichtiger Aspekt. Dazu berechnen wir erste Differenzen bzw. darauf basierend prozentuale Veränderungen (siehe Abb. 3.5). Bei der Bildung erster Differenzen wird vom Wert einer Variablen zum Zeitpunkt t der Wert dieser Variable in der Vorperiode (t − 1) abgezogen. Die erste Differenz der Arbeitslosenquote im Januar 2013 beträgt daher 7,4 % minus 6,7 % also 0,7 %-Punkte. Die Abkürzung für diese erste Differenz lautet üblicherweise ∆Yt. Der griechische Buchstabe Delta (= ∆) steht für den Unterschied zwischen den beiden betrachteten Perioden. Die letzte Spalte der Abb. 3.5 enthält die prozentualen Ver änderungen von einer Periode zur Vorperiode. Im Januar 2013 sind dies 0,7 geteilt durch 6,7 also (gerundet) 0,1 bzw. 10 %: Vom Dezember 2012 auf den Januar 2013 ist die Arbeitslosenquote um 10 % gestiegen. Auch bei der Berechnung von Veränderungen gehen natürlich entsprechend Beobachtungen verloren. Neben solchen Lags sind bei Untersuchungen von Zeitreihen auch die bereits erwähnten Leads relevant. Bei einem „Lead“ (einem Vorlauf) wird eine Variable zum Zeitpunkt t ersetzt durch ihren Wert in der darauf folgenden Periode t + 1. Abb. 3.6 enthält die Zahl der Abiturienten in Baden-Württemberg in den Jahren 2005 bis 2011. In der linken Spalte sehen wir den uns bereits bekannten Lag erster Ordnung – hier der Abiturienten, die um ein Jahr nach hinten verschoben werden. Dies ist inhaltlich sinnvoll, wenn es darum geht, die Zahl der Studienanfänger im Jahr 2006 zu schätzen, denn mehr Hochschulzugangsberechtigte im Jahr 2005 erhöhen im Jahr 2006 die Gruppe der (potenziellen) Studienanfänger. Die rechte Spalte zeigt den entsprechenden Lead erster Ordnung – also um ein Jahr nach vorne verschoben. Zum Beispiel befindet sich im Jahr 2005 die Zahl der Abiturienten des folgenden Jahres 2006. Wann sind solche Vorläufe sinnvoll? Sie resultieren bei vielen sozialwissenschaftlichen Fragen aus der Antizipation zukünftiger Entwicklungen. Erwartete abnehmende Abiturientenzahlen waren in der deutschen Hochschulpolitik der Grund dafür, Professoren und Mitarbeiterstellen an den Hochschulen bereits im Vorgriff zu reduzieren. Zur Erklärung der Veränderung der Professorenstellen an den Hochschulen im Jahr 2005 ist es daher sinnvoll, die Abiturientenzahlen des Folgejahres 2006 in die Regressionsgleichung aufzunehmen. Das heißt, man baut einen Lead erster Ordnung ein.
3.3 Einfache Regressionsanalyse der Daten mehrerer Perioden Abb. 3.6 Lags und Leads
121
Lag
Zahl der neuen
Lead
1.Ordnung
Hochschulzugangs-
1.Ordnung
(Yt-1)
berechtigten(Yt)
(Yt+1)
2005
–
26690
29161
2006
26690
29161
30475
2007
29161
30475
31979
2008
30475
31979
33394
2009
31979
33394
34322
2010
33394
34322
35684
2011
34322
35684
–
Jahr
Das Beispiel macht auch deutlich, dass – genau wie bei den Lags – natürlich Leads zweiter oder höherer Ordnung möglich sind. Inwieweit sie auch sinnvoll sind, muss unter inhaltlichen Aspekten entschieden werden. Leads sind ein geeignetes Instrument, um Informationen über zukünftige Veränderungen zu berücksichtigen. Die Theorie rationaler Erwartungen basiert auf dieser Idee. Beispiele für praktische Anwendungen sind das erwartete zukünftige Einkommen (Permanent Income Hypothesis) in der Konsumtheorie, die Auswirkungen erwarteter Änderungen der Arbeitsgesetze auf den Umfang der Zeitarbeit (Autor 2003) oder der Einfluss der geplanten Heirat auf die subjektive Zufriedenheit von Individuen (Clark et al. 2008).
3.3
Einfache Regressionsanalyse der Daten mehrerer Perioden
Im einfachsten Fall sind auch bei Zeitreihendaten aller relevanten Variablen die Beobachtungen einer Periode völlig unabhängig von den Beobachtungen der Vor- und Folgeperioden. Zum Beispiel hängen die Tabellenpunkte eines Vereins der Fußballbundesliga am Ende einer Spielsaison (Y) von der Spielstärke des Kaders (X) ab. Haben wir Beobachtungen für diesen Verein in den letzten 20 Jahren, umfasst unser Datensatz 20 Beobachtungen. Es ist inhaltlich plausibel zu unterstellen, dass in jeder Saison (t) die Tabellenpunkte (Yt) nur von der Spielstärke des Kaders in genau dieser Saison (Xt) abhängen. Dann liegt ausschließlich eine kon temporäre Wirkung vor, und unsere lineare Modellspezifikation lautet:
Yt = b 0 + b1 X t + e t mit t = 1, 2,…, 20
(3.10)
Bei der Spezifikation der Gl. (3.10) handelt es sich um ein statisches Modell, da keine zeitpunktübergreifenden Wirkungen vorhanden sind. Anders formuliert, hat bspw. die Spielstärke unseres Vereins in der Saison 2015/2016 keinerlei Einfluss auf seine Tabellen-
122
3 Zeitreihenanalyse und dynamische Modelle
punkte in der folgenden Saison 2016/2017. Wir schließen dynamische Beziehungen jeder Art aus. Folglich behandeln wir die Zeitreihendaten einfach als eine „Summe“ von Querschnittsdaten und berücksichtigen die Zeitkomponente t überhaupt nicht. Die Daten werden als aufeinander gepackte Querschnittsdatensätze angesehen (gepoolte Daten, Pooled Cross-Section Data). Wir können neben der Spielstärke natürlich noch beliebig viele andere kontemporäre unabhängige Variablen in die Spezifikation aufnehmen oder bspw. Variablentransformationen durchführen, um nichtlineare Beziehungen zu modellieren. Die Verwendung eines solchen Zeitreihendatensatzes hat im Vergleich zum Querschnittsdatensatz lediglich einer Periode den Vorteil, die Zahl der Beobachtungen erheblich zu vergrößern. Wenn wir bspw. die 18 Vereine der 1. Fußballbundesliga über 20 Jahre hinweg einbeziehen – also einen unechten (gepoolten) Paneldatensatz verwenden – ergeben sich 360 Beobachtungen. Eine größere Zahl von Beobachtungen, d. h. eine umfangreichere Stichprobe, ist vorteilhaft, da wir so die Nullhypothese der Koeffizientenschätzungen eher ablehnen können.7 Sind tatsächliche alle Wirkungen nur kontemporär, entstehen im Vergleich mit einer Regression auf der Basis von Querschnittsdaten für nur eine Periode keine zusätzlichen Schwierigkeiten. Wir gehen also bei der Schätzung, der Überprüfung der Voraussetzungen und der Interpretation genau wie bei einem Querschnittsdatensatz vor, der sich nur auf bspw. einen Zeitpunkt bezieht. Allerdings verzichten wir damit auf bestimmte Vorteile, die bei der Analyse von Paneldaten ausgenutzt werden können. Kap. 4 beschreibt diese Möglichkeiten. Ob die Annahme, dass alle Wirkungen innerhalb einer Periode auftreten, sinnvoll ist, hängt erstens von der jeweils behandelten Fragestellung ab, muss also unter inhaltlichen Aspekten beurteilt werden. Zweitens ist die Länge der Periode, auf die sich unsere Daten beziehen, wichtig. Bei längeren Perioden – bspw. Jahren – ist es eher denkbar, dass alle Wirkungen innerhalb des Bezugszeitraums stattfinden. Unseren Daten für die Bundesliga liegt jeweils eine komplette Saison zugrunde, und auch inhaltlich ist es möglich, saisonübergreifende Effekte auszuschließen bzw. für vernachlässigbar klein zu halten. Bei makroökonomischen Beziehungen ist dies nur noch bedingt vertretbar. Zum Beispiel sind Wirkungen der Arbeitslosigkeit eines Jahres auf die Inflationsraten des kommenden Jahres inhaltlich plausibel und sollten daher einbezogen und überprüft werden. Unter gewissen (restriktiven) Voraussetzungen können auch die behandelten dynamischen Spezifikationen der Regressionsgleichungen – FDL-, AR-, und ADL-Modelle – mit den üblichen Verfahren und dem Vorgehen der OLS-Regression geschätzt und interpretiert werden.8 Über die bereits bekannten Voraussetzungen der OLS-Regression von Quer-
Zwei Vorteile sind relevant: Erstens wächst mit zunehmendem Stichprobenumfang c. p. die Teststärke (Power). Die Teststärke gibt an, mit welcher Wahrscheinlichkeit wir den Einfluss einer Varia blen feststellen können, wenn dieser tatsächlich existiert. Zweitens hängen in der Regel die Schätzun gen kaum noch von einzelnen Beobachtungen (Ausreißern und einflussreichen Beobachtungen) ab. Sie sind also verlässlicher. 8 Exakter formuliert, müssen die Annahmen der einfachen OLS-Regression entsprechend modifiziert 7
3.4 Autokorrelation der Fehler
123
schnittsdaten hinaus sind insbesondere drei Annahmen von großer Bedeutung. Erstens darf keine Autokorrelation der Fehler vorliegen, zweitens ist dies die Exogenität der unabhängigen Variablen und drittens muss die Stationarität der Zeitreihendaten gegeben sein.
3.4
Autokorrelation der Fehler
3.4.1 Einführung Allgemein liegt Autokorrelation vor, wenn eine Variable zum Zeitpunkt t mit ihren eigenen Werten in davorliegenden Zeitpunkten korreliert. Betrachten wir dabei die Korrelation mit der unmittelbar vorangehenden Periode, handelt es sich um Autokorrelation erster Ordnung. Der Zusammenhang kann prinzipiell auch mit Verzögerungen auftreten, dann handelt es sich um Autokorrelationen zweiter und höherer Ordnungen. Bei Quartalsdaten ist häufig eine Autokorrelation vierter Ordnung zu beobachten – besonders ausgeprägt im Tourismus für die Sommermonate. Bei Monatsdaten existiert in vielen Fällen eine Autokorrelation zwölfter Ordnung. Beispielsweise sind die Arbeitslosenzahlen im Januar jedes Jahres besonders hoch. Die Autokorrelation erster Ordnung (= r1) einer Variablen Y ist wie in Gl. (3.11) definiert.9 Sie liegt zwischen −1 und +1. Die Variable Y ist der Mittelwert von Yt.
1 Σ (Y − Y)(Y − Y) t t −1 r1 = T 1 Σ ( Y − Y )2 t T
(3.11)
Im Fall der Autokorrelation zweiter Ordnung wird in Gl. (3.11) Yt−1 durch Yt−2 ersetzt. Analog wird bei höheren Autokorrelationen verfahren. Als Beispiel dient uns die Entwicklung der Arbeitslosenquote in Deutschland von 2005 bis 2019 aus der Abb. 3.3. Die Autokorrelationen dieser Variablen verdeutlicht Abb. 3.7. Auf der x‑Achse sind die Lags der Monate, links beginnend mit dem Lag 1 bis zum Lag 40, abgetragen. Die y‑Achse gibt die Autokorrelation von −1 bis +1 wieder. Die dicken Punkte zeigen die Höhe der Autokorrelation beim jeweiligen Lag. Sie sind mit der Horizontalen durch eine dünne Linie verbunden, um den Abstand zur Autokorrelation von 0 zu visualisieren. Es zeigt sich eine deutliche positive Autokorrelation der Arbeitslosenquoten, die mit steigender Lag-Länge nur bzw. ergänzt werden. Dies wird von Stock und Watson (2015, S. 587–589) genauer beschrieben. Hier wird auf eine detaillierte Darstellung verzichtet. Ausführliche Erläuterungen der Voraussetzungen finden sich auch bei Ashley (2012, S. 342–453), Dougherty (2016, S. 405–443) und Wooldridge (2016, S. 317–396). Ein Vergleich der Autoren zeigt, dass diese Annahmen unterschiedlich formuliert werden können. 9 In der Literatur wird diese häufig ausgedrückt als die geschätzte Kovarianz von Yt und Yt−1 dividiert durch die geschätzte Varianz von Yt.
124
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.7 Autokorrelationsfunktion (ACF) der Arbeitslosenquote
langsam abnimmt. Die Darstellung der Abb. 3.7 in Gestalt einer Folge von Autokorrelationen bezeichnet man als Autokorrelationsfunktion (Autocorrelation Function ACF). Beim Lag erster Ordnung, das heißt zwischen zeitlich direkt benachbarten Arbeitslosenquoten, beträgt der Autokorrelationskoeffizient fast 1. Dies ist wenig überraschend, denn hohe Arbeitslosigkeit in einem Monat ist mit einer hohen Arbeitslosigkeit im Vormonat verbunden. Dasselbe gilt für Monate mit niedriger Arbeitslosigkeit: Sie gehen mit niedriger Arbeitslosigkeit im Vormonat einher. Dieser gleichgerichtete und daher positive Zusammenhang ist über den gesamten Zeitraum 2005 bis 2019 festzustellen. Abb. 3.7. illustriert, dass diese positive Autokorrelation nur sehr langsam abnimmt und selbst bei einem Lag von 40 Monaten – also nach mehr als drei Jahren – noch vorhanden ist. Dies ist charakteristisch für Variable, die – wie unsere Arbeitslosigkeit – einen ausgeprägten Trend aufweisen. Sie resultiert, weil definitionsgemäß bei einem Trend ein enger Zusammenhang mit den Werten der Vorperioden vorliegt. Die starke und andauernde positive Autokorrelation folgt auch aus Gl. (3.11). Wenn Yt weit von Y entfernt ist, gilt dies auch für Yt−1. Der Zähler wird damit groß, und der Autokorrelationskoeffizient r1 liegt nahe bei 1. Neben der ACF ist die partielle Autokorrelationsfunktion (Partial Autocorrelation Function PACF) relevant (siehe Abb. 3.8). Die partiellen Autokorrelationskoeffizienten sind der Zusammenhang einer Variablen mit ihren verzögerten Werten, wenn der Einfluss der davorliegenden Lags berücksichtigt (also beseitigt) wird. Der partielle Autokorrelationskoeffizient des ersten Lags in Abb. 3.8
3.4 Autokorrelation der Fehler
125
Abb. 3.8 Partielle Autokorrelationsfunktion der Arbeitslosenquote
ist daher mit dem Autokorrelationskoeffizient des ersten Lags der Abb. 3.7 identisch, nämlich nahe bei 1 und positiv. Die PACF sagt uns, welche zusätzlichen Informationen – über den Einfluss der davorliegenden Verzögerungen hinaus – ein Lag für den Verlauf der Zeitreihe enthält. Statistische Probleme für die Regressionsschätzung ergeben sich aber nur im Hinblick auf die Autokorrelation der Residuen. Die Residuen einer Regression sind nichts anderes als eine neue – aus der Schätzung resultierende – Variable, die natürlich ebenfalls mit sich selbst zusammenhängen kann. Die Residuen sind unsere Schätzung der unbekannten Fehler. Vereinfachend werden im Folgenden beide Begriffe synonym verwendet.10 Es darf keine Autokorrelation (serielle Korrelation, Serial Correlation) zwischen den Fehlern (den Störtermen e) existieren. Autokorrelierte Fehler treten auf, wenn die abhängige Variable systematischen Einflüssen folgt, die nicht durch die einbezogenen unabhängigen Variablen erklärt werden. Bei Autokorrelation sind die Fehler nicht unabhängig voneinander, sondern weisen eine (negative oder positive) Korrelation mit den Fehlern der Vorperioden auf. Beispielsweise liegt positive Autokorrelation vor, wenn das e der Vorperiode größer als 0 ist und in der laufenden Periode der Fehler ebenfalls größer als 0 ausfällt.
10 Der Unterschied von Fehlern und Residuen wird im Band 1 in Abschn. 2.2 behandelt (Stoetzer 2017).
126
3 Zeitreihenanalyse und dynamische Modelle
Das Problem wird im Allgemeinen bei den Residuen der Regressionen von Querschnittsdaten nicht existieren, weil bei einer Zufallsstichprobe die Reihenfolge der Beobachtungen ja zufällig und daher ohne inhaltliche Bedeutung ist. Bei Zeitreihendaten stellt serielle Korrelation der Fehler aber aus inhaltlichen Gründen häufig ein Problem dar. Es tritt auf, wenn die Vergangenheit Auswirkungen auf die Gegenwart und Zukunft hat und diese Einflüsse nicht in der Regressionsgleichung erfasst werden. Dies sind etwa exogene Schocks, die über mehrere Perioden hinweg Einflüsse ausüben: Gesamtwirtschaftliche Beispiele sind die erste und zweite Ölkrise (1973 und 1979), die Finanzmarktkrise von 2008 und die Staatsschuldenkrise in der EU in den Jahren ab 2009. Aber Ähnliches gilt immer, wenn Trägheit oder Beharrungskräfte dazu führen, dass Wirkungen über mehrere Perioden hinweg auftreten: Zinssätze, Arbeitslosigkeit, Marktmacht oder Werbemaßnahmen sind weitere Beispiele. Sie alle führen zu positiver Autokorrelation, wenn sie nicht (oder nicht hinreichend) in der Spezifikation berücksichtigt werden. Positive Autokorre lation ist der praktisch meistens relevante Fall, negative Autokorrelation ist die seltene Ausnahme.11 Wegen des häufigen Auftretens wird außerdem als Ausgangspunkt zunächst die Autokorrelation erster Ordnung überprüft. Dann ergibt sich der Fehler der aktuellen Periode et aus der Multiplikation des Fehlers der Vorperiode et−1 mit einem Faktor c1 und einem Störterm ut. e t = c1e t −1 + u t
(3.12)
Der Summand ut in Gl. (3.12) folgt dabei einer unabhängigen, identischen Verteilung (i. i. d.-Verteilung, siehe Stoetzer 2017, Abschn. 5.1). Für den Koeffizient c1 wird in der Regel vorausgesetzt, dass er absolut kleiner als 1 ist.12 Der Einfluss vergangener Werte der Fehler nimmt also degressiv (geometrisch) ab. Wir gehen von einem „Fading-out“ einer Wirkung über die Perioden hinweg aus – was inhaltlich im Allgemeinen plausibel ist. Wenn et nur von et−1 abhängt, handelt es sich um Autokorrelation erster Ordnung. Autokorrelationen höherer Ordnung sind natürlich auch bei den Fehlern möglich. Bspw. wird bei Quartalsdaten des Einzelhandelsumsatzes Autokorrelation vierter Ordnung auftreten, wenn wir in unserem Modell nicht berücksichtigt haben, dass bspw. in den vierten Quartalen – den Weihnachtsquartalen – die Umsätze wegen der weihnachtlichen Geschenkorgien immer deutlich höher sind. Zu betonen ist (noch einmal), dass sich dies auf die Autokorrelation der Fehler bezieht. Zeitliche Korrelationen der unabhängigen Variablen sind dagegen häufig vorhanden. Sie stellen aber nur dann ein Problem dar, wenn sie zu einer seriellen Korrelation der Fehler führen. Welche Folgen hat ggf. die Autokorrelation der Fehler? Unter der Annahme, dass die lineare Spezifikation des Zusammenhangs korrekt ist und Exogenität aller unabhängigen Variablen vorliegt (letzteres wird in Abschn. 3.5 erläutert), sind die Koeffizientenschät Eine grafische Darstellung findet sich im Band 1, Abb. 5.10 (Stoetzer 2017, S. 148). Die Fälle ǀcǀ > 1 und ǀcǀ = 1 beschreibt und diskutiert Becketti (2013, S. 173–174).
11 12
3.4 Autokorrelation der Fehler
127
zungen unverzerrt. Allerdings besitzen Zeitreihendaten häufig einen nicht linearen Verlauf, und dann führt eine lineare Regression ggf. zu verzerrten – also falschen – Koeffizientenschätzungen (Winker 2017, S 177).13 Wenn wir Autokorrelation feststellen, ist dies insoweit ein Indiz, dass eine Fehlspezifikation vorliegt. Allerdings führt auch bei korrekter Spezifikation Autokorrelation der Residuen dazu, dass die Standardfehler der OLS-Schätzung verzerrt und daher die üblichen t- und F-Tests nicht länger gültig sind.14 So wird bei positiver Autokorrelation der Standardfehler i. d. R. unterschätzt (Ashley 2012, S 363). Damit lehnen wir die Nullhypothese des betreffenden Koeffizienten zu häufig ab und gehen von einem signifikanten Einfluss aus, der in Wahrheit gar nicht gegeben ist. Unter Umständen ist aber der Standardfehler fälschlicherweise auch zu groß. Die Verzerrungen können also in beide Richtungen wirken. Darüber hinaus hat Autokorrelation der Fehler bei Regressionen mit verzögerten abhängigen Variablen (AR- und ADL-Modellen) gravierende Folgen. Sie zieht in diesen Modellen zusätzlich verzerrte und inkonsistente (also falsche) Koeffizientenschätzungen nach sich. Außerdem muss dies bei der Überprüfung der Autokorrelation berücksichtigt werden und hat Konsequenzen für den Umgang mit diesem Problem. Diese Aspekte werden in den folgenden Abschnitten behandelt.
3.4.2 Überprüfung Zunächst folgt daraus, dass die mögliche serielle Korrelation der Fehler überprüft werden muss. Als einfachste Kontrolle dient die visuelle Inspektion des Zusammenhangs von Residuen einerseits und der Zeit andererseits: Wir verbinden die Residuen in einem Streudiagramm, bei dem die Zeitperioden auf der x‑Achse und die Residuen auf der y‑Achse abgetragen werden. Ist eine Struktur in der Abfolge der Residuen zu erkennen? Folgt die Häufigkeit der Überquerungen der Nulllinie einem erkennbaren Muster? Falls ja, sind dies Hinweise auf Autokorrelation. Die entsprechenden grafischen Darstellungen sind die Autokorrelationsfunktion (auch als Korrelogramm bezeichnet) und die partielle Autokorrelationsfunktion. Die Autokorrelationsfunktion der Arbeitslosenquote haben wir bereits in Abb. 3.7 kennengelernt. Um die Anwendung auf Residuen zu erläutern, wird die folgende Regressionsgleichung geschätzt:
Arbeitslosenquote = a 0 + b1 Zeit + e
(3.13)
Studenmund (2016, S. 275) unterscheidet zwischen „reiner serieller Korrelation“ (Pure Serial Correlation) und „unreiner serieller Korrelation“ (Impure Serial Correlation). Erstere ist gegeben, wenn keine Fehlspezifikation vorliegt. 14 Dies entspricht der Aussage für Querschnittsdaten, dass Heteroskedastie zu falschen Standardfehlern (und damit t-Werten) führt, aber die Koeffizientenschätzungen (bei richtiger Spezifikation) weiterhin gültig bleiben (Stoetzer 2017, Abschn. 5.2). 13
128
3 Zeitreihenanalyse und dynamische Modelle
¢
Abb. 3.9 Autokorrelationsfunktion (ACF) der Residuen
Gl. (3.13) geht davon aus, dass die Arbeitslosenquote in einem Monat nur von der Zeit (gemessen in Monaten) abhängt und dass der in Abb. 3.3 sichtbare abnehmende Trend linear ist. Die Residuen dieser Schätzung stellt Abb. 3.9 in einer Autokorrelationsfunktion (einem Korrelogramm) dar. Abb. 3.9 belegt, dass bezüglich der Residuen Autokorrelationen vorhanden sind. Sehr groß sind die positiven Autokorrelationskoeffizienten des ersten und zweiten Lags: Die Autokorrelation erster Ordnung liegt sogar bei über 0,9. Bei höheren Lags nimmt die positive Autokorrelation zunächst ab und steigt ab dem zehnten bis zum zwölften Lag wieder. Danach fallen die Koeffizienten deutlich und werden ab dem 25. Lag negativ. Wir stellen bei dieser visuellen Inspektion also fest, dass eine Struktur in den Residuen existiert. Die außerdem eingezeichnete graue Fläche wird unten erklärt. Eine weitere Darstellungsform ist die partielle Autokorrelationsfunktion (PACF). Die partielle Autokorrelationsfunktion der Residuen unserer Regressionsgleichung (3.13) finden wir in Abb. 3.10. Auch hier wird ein Muster sichtbar. Es liegt starke positive Autokorrelation erster und schwächer sowie negativ zweiter Ordnung vor. Danach gibt es eine Schwingung in den Koeffizienten bis zum 12. bzw. 13. Lag. Der 13. Lag ist eine ausgeprägte negative Spitze (Spike). Die Koeffizienten der danach folgenden Lags sind unbedeutend. Eine Ausnahme ist nur der negative Lag 37. Ordnung. Auf seine Beurteilung wird weiter unten eingegangen.
3.4 Autokorrelation der Fehler
129
Abb. 3.10 Partielle Autokorrelationsfunktion (PACF) der Residuen
Das Fazit der visuellen Analyse von Abb. 3.9 und 3.10 lautet, dass Autokorrelation vorliegt, da bestimmte Muster bzw. Strukturen der Residuen existieren. Diese bestehen aus Beharrungskräften (Persistenzen) sowie Schwingungen innerhalb von zwölf Monaten, d. h. innerhalb eines Jahres. Im Anhang 3.1 zu diesem Kapitel wird die Analyse von ACF und PACF einerseits und Autokorrelation erster und zweiter Ordnung andererseits in einem allgemeineren Kontext näher beschrieben. Häufig sind solche visuellen Inspektionen aber nicht eindeutig. Daher ist es üblich, die existierenden formalen statistischen Tests einzusetzen. Ein älteres Testverfahren ist der Durbin-Watson-Test (häufig mit „d“ oder „dw“ abgekürzt), der im Wertebereich zwischen 0 und 4 liegt. Beträgt d ungefähr 2 (eine grobe Faustregel ist der Wertebereich von 1,6 bis 2,4), existiert keine Autokorrelation.15 Kleine Werte nahe bei 0 signalisieren positive und große Werte nahe bei 4 negative Autokorrelationen. Er überprüft aber nur Autokorrelation erster Ordnung und enthält Unsicherheitsbereiche, in denen keine klare Aussage möglich ist. Darüber hinaus ist er nicht verwendbar, wenn die Regressionsgleichung verzögerte abhängige Variable einbezieht.16 Im Fall von AR- und ADL-Modellen ist daher der d-Test nicht gültig. Dies gilt, weil dw ≈ 2(1 − r1). Beträgt der Autokorrelationskoeffizient erster Ordnung r1 gleich 0, so ist dw = 2 (Hill et al. 2008, S. 239). 16 Anders formuliert, ist der d-Test nur anwendbar, wenn die unabhängigen Variablen alle strikt exogen sind. 15
130
3 Zeitreihenanalyse und dynamische Modelle
Moderne Tests weisen diese Beschränkungen nicht auf. Das heißt, sie sind auch bei AR- und ADL-Modellen einsetzbar. Und mit solchen Tests können wir nicht nur Autokorrelationen erster, sondern auch höherer Ordnung überprüfen. Die wichtigsten sind der alternative Durbin-Test17 und der Breusch-Godfrey-Test. Der alternative Durbin-Test wird in der Literatur zum Teil mit „d′“ abgekürzt. Sein Prinzip ist leicht verständlich. Er kombiniert die Ausgangsregression, d. h. Gl. (3.13), mit dem Teil c1et−1 entsprechend Gl. (3.12), wobei et die Residuen der ursprünglichen Regression sind. Dies führt zu Gl. (3.14): e t = a 0 + b1 Zeit + c1e t −1 + u t
(3.14)
Die Nullhypothese lautet, dass der Koeffizient c1 gleich 0 ist. Wird sie abgelehnt, liegt Autokorrelation erster Ordnung vor, denn dann existiert ein Einfluss des Residuums der Vorperiode (et−1) auf das Residuum der laufenden Periode (et). Alternativ spezifizieren wir diese Gleichung in folgender Form: e t = a 0 + b1 Zeit + c1e t −1 + c 2 e t − 2 + c 3 e t −3 + c 4 e t − 4 + u t
(3.15)
In diesem Fall testen wir gleichzeitig auf Autokorrelation erster bis vierter Ordnung. Die Nullhypothese lautet dann, dass alle Koeffizienten c1 bis c4 gleich 0 sind. Entsprechend modifiziert lassen sich so alle möglichen Ordnungen der Autokorrelation testen, indem wir deren Lags in die Gl. (3.14) aufnehmen. Das Residuum et der zugrunde liegenden Regression ist dabei die abhängige Variable. Auf der rechten Seite der neuen Regressionsgleichung stehen die unabhängigen Variablen der zugrunde liegenden Regression (einschließlich einer Konstanten), erweitert um die zu testenden Lags der Residuen. Im Fall von autoregressiven Modellen stehen folglich Yt−1 sowie ggf. Yt−2 usw. auf der rechten Seite. Der Breusch-Godfrey-Test basiert ebenfalls auf der Gl. (3.15). Er verwendet aber eine Lagrange-Multiplikator-Statistik (LM-Statistik) als Testgröße und wird daher auch als Lagrange-Multiplier-Test bezeichnet (Hill et al. 2008, S. 242–243). Eine weitere Variante ist der Portmanteau-Q-Test (auch Ljung-Box-Test genannt). Anstatt die Zufälligkeit bei jeder einzelnen Verzögerung zu testen, überprüfen diese Tests die „allgemeine“ Zufälligkeit basierend auf einer Reihe von Verzögerungen. Sie testen daher, ob irgendeine der Autokorrelationen aus einer ganzen Gruppe von möglichen Autokorrelationen der Residuen nicht 0 beträgt. Bspw. analysieren wir auf diese Weise, ob irgendeiner der Lags von 1 bis 12 unserer Regression der Arbeitslosenquote sich von 0 unterscheidet. Die Nullhypothese aller dieser Tests lautet immer „keine Autokorrelation vorhanden“. Wenn wir die Nullhypothese ablehnen, das empirische Signifikanzniveau also kleiner als 5 % ist, liegt Autokorrelation vor. Tab. 3.1 enthält die Ergebnisse dieser vier Tests für die Residuen der Regression der Gl. (3.13). Übereinstimmend bestätigen sie unsere Vermutung auf Basis der grafischen Analyse. Der Wert des Durbin-d-Tests liegt nahe bei 0, was eindeutig auf Autokorrelation erster Eine weitere hier nicht behandelte Variante ist der Durbin-h-Test.
17
3.4 Autokorrelation der Fehler
131
Tab. 3.1 Autokorrelationstests Durbin-Watson d-Test: 0,1224133 Durbin’s alternative test (d′-Test): Lag 1: Chi2 Lag 12: Chi2 Breusch-Godfrey LM Test: Lag 1: Chi2 Lag 2: Chi2 Lag 3: Chi2 Lag 4: Chi2 Lag 12: Chi2 Portmanteau (Q-Test)/Ljung-Box-Test: Lag 12: Chi2:
947,291 1726,262
Prob > Chi2: 0,000 Prob > Chi2: 0,000
143,801 147,528 148,342 149,173 155,076
Prob > Chi2: 0,000 Prob > Chi2: 0,000 Prob > Chi2: 0,000 Prob > Chi2: 0,000 Prob > Chi2: 0,000
870,12
Prob > Q: 0,000
Ordnung hinweist. Auch alle anderen Verfahren lehnen die Nullhypothese „keine Autokorrelation“ klar ab. Dies gilt (zumindest) für alle Autokorrelationskoeffizienten bis zum zwölften Lag. Dieses Resultat wird bereits in den Abb. 3.9 und 3.10 deutlich. Sie enthalten Bartletts Test, der überprüft, ob die Residuen einem weißen Rauschen (White-Noise Process) gehorchen. Alle Autokorrelationen, die sich außerhalb des grau getönten Bereichs befinden, sind jeweils auf dem 5-%-Niveau signifikante Koeffizienten, d. h. unterscheiden sich von 0. Dies sind in Abb. 3.9 die Autokorrelationskoeffizienten der Lags erster bis einschließlich zwölfter Ordnung. Auch die partiellen Autokorrelationskoeffizienten der Abb. 3.10 sind bis zum Lag 12 häufiger signifikant. Was machen wir mit dem negativen Ausreißer des 37. Lags in Abb. 3.10? Inhaltlich ist kein Grund ersichtlich, dass eine partielle negative Autokorrelation der Residuen zwischen zwei – mehr als drei Jahre voneinander entfernten – Monaten existieren sollte. Dieser Koeffizient dürfte nur zufällig signifikant sein. Zur Erinnerung: Das 5-%-Si gnifikanzniveau besagt, dass von 100 Fällen 5 rein zufällig signifikant sein werden! Bei den von uns betrachteten 40 Lags sind also im Mittel 2 Lags rein zufällig signifikant. Von diesen Prüfverfahren wird der Breusch-Godfrey-Test als besonders verlässlich eingestuft, und er ist auch in der praktischen Anwendung weit verbreitet. Gute Erklärungen zu Autokorrelogrammen finden sich bei Gujarati (2015, S. 252–254), Hill et al. (2008, S. 239–243) und Pindyck und Rubinfeld (1998, S. 446–459). Die verschiedenen Testverfahren und ihre Annahmen sowie Anwendungsbereiche erläutern Pindyck und Rubinfeld (1998, S. 147–149), Gujarati (2015, S. 115–121) und Wooldridge (2016, S. 376–381) sowie Pickup (2015) genauer.
3.4.3 Vorgehen bei Autokorrelation Was ist zu tun, wenn wir Autokorrelation festgestellt haben? Im Wesentlichen existieren dann drei Möglichkeiten: erstens, eine verallgemeinerte OLS-Schätzung (GLS-Schätzung), die die Variablen transformiert und so der Autokorrelation Rechnung trägt, zweitens die
132
3 Zeitreihenanalyse und dynamische Modelle
Verwendung korrigierter Standardabweichungen der geschätzten Regressionskoeffizienten (autokorrelationskonsistente Standardfehler) und drittens die Einbeziehung zusätzlicher ökonomischer Variablen, die die Autokorrelation der Fehler beseitigt (Neuspezifikation). Das erste Verfahren schätzt die Autokorrelationsstruktur und transformiert darauf basierend die Variablenwerte. Anschließend wird die Regressionsgleichung auf Grundlage dieser transformierten Daten geschätzt. Es handelt sich um das Feasible-Generalized- Least-Squares (FGLS)-Vorgehen mit den beiden Varianten der Cochrane-Orcutt- oder Prais-Winsten- (bzw. Hildreth-Lu-) Methode. Dies setzt Exogenität der unabhängigen Variablen voraus und schließt folglich verzögerte abhängige Variablen (AR-, ADL-Modelle) aus. Auf eine genauere Darstellung wird hier verzichtet. Die Methoden sind in Stata implementiert, können in SPSS aber nur syntaxbasiert oder über Zusatzmakros bspw. innerhalb des Moduls SPSS Forecasting realisiert werden. In der Praxis sind diese Methoden durch die im Folgenden erläuterten moderneren Verfahren (weitgehend) verdrängt w orden. Ausführlichere Erläuterungen geben Becketti (2013, S. 178–188), Ashley (2012, S. 374–376) und Wooldridge (2016, S. 383–387). Eine zweite Alternative besteht darin, die Standardfehler auf eine Weise zu berechnen, die deren Verzerrungen aufgrund von Autokorrelation eliminiert. Dies sind die sogenannten Newey-West-Standardfehler. Sie sind das Pendant zu den heteroskedastierobusten White-Standardfehlern bei Querschnittsdaten. Neben der bei Zeitreihen häufig vorhanden Autokorrelation kann auch Heteroskedastie auftreten. Dies führt aber zu keinen weiteren Problemen, da die Newey-West-Standardfehler sowohl gegen Autokorrelation als auch gegen Heteroskedastie der Fehler robust sind (Ashley 2012, S. 377). Entsprechend werden sie auch als Heteroskedasticity-and-Autocorrelation-Consistent (HAC)-Standardfehler bezeichnet (Stock und Watson 2015, S. 650–652). Zwei Nachteile dieses Vorgehens sind, dass erstens die Newey-West-Standardfehler nur konsistente Schätzer darstellen, sie also nicht effizient sind, was insbesondere bei einer geringen Zahl von Beobachtungen negativ zu Buche schlägt. Zweitens muss die Zahl der Lags, bis zu der Autokorrelation der Residuen vermutet wird, für die Ermittlung vorgegeben werden. Als Faustregel für die Praxis setzt Greene die Verzögerung wie folgt an: Lag HAC = 4 T , wobei T der Zahl der Perioden der jeweiligen Datenreihe entspricht (Greene 2018, S. 999). Stock und Watson empfehlen den Lag HAC = 0, 75 3 T (2015, S. 651). Bei einer starken Autokorrelation der Residuen sollte der LagHAC größer und bei einer geringen Autokorrelation kleiner gewählt werden. Es empfiehlt sich, im Rahmen einer Sensitivitätsanalyse zu prüfen, ob höhere oder kleinere Werte des LagHac zu stark unterschiedlichen Ergebnissen für die Standardfehler führen.18 Abgesehen von diesem Problem ist die Verwendung der Newey-West-Standardfehler eine einfache Lösung, da in den Statistikpro-
18 Wenn die Autokorrelation tatsächlich größer ist als das Maximum, werden die Schätzungen der Standardfehler nicht mehr konsistent sein. Ist dieses Maximum aber im Verhältnis zur Länge der Zeitreihe zu groß, resultieren ebenfalls unsinnige Schätzungen. Nach Ashley gilt ein Lag von 1 als zu groß, wenn die Zeitreihe deutlich weniger als 80 Beobachtungen aufweist (Ashley 2012, S. 378).
3.4 Autokorrelation der Fehler
133
grammpaketen (bspw. Stata; allerdings nicht in SPSS) die entsprechenden Prozeduren implementiert sind. Liegt ein AR-Modell mit Autokorrelation der Residuen vor, sind die FGLS-Verfahren und die robusten Newey-West-Standardfehler nicht zu verwenden (Becketti 2013, S. 192–196). Dann ist die im Folgenden beschriebene Neuspezifikation der Regression angebracht. Drittens könnte die Autokorrelation darauf zurückzuführen sein, dass vorhandene dynamische Beziehungen nicht berücksichtigt wurden. Stellen wir Autokorrelation fest, ist dies nämlich ein Hinweis, dass eine Fehlspezifizierung vorliegt. Konkret handelt es sich um einen „Omitted Variable Bias“, da tatsächlich einflussreiche Variablen, bspw. in Form von Lags, fehlen. Das Problem ist leicht zu lösen, indem wir weitere (verzögerte) unabhängige und/oder verzögerte abhängige Variablen mit in die Spezifikation der Regression aufnehmen. Dies ist uns in den Gl. (3.1) bis (3.9) oben, d. h. den FDL-, AR- und ADL- Modellen bereits begegnet. Die dahinter stehende Logik ist, durch den Einbezug dieser Lag-Strukturen Autokorrelationen prinzipiell vor ihrer Entstehung zu beseitigen, indem vorhandene dynamische Beziehungen explizit spezifiziert werden. Auch hier sollte die Neuspezifikation von inhaltlichen Überlegungen geleitet sein. Existiert allerdings in einem autoregressiven Modell (d. h. eine Regression mit verzögerten abhängigen Variablen) nach wie vor Autokorrelation, bleiben die im Abschn. 3.4.1 genannten Probleme bestehen. Aber wir können mit den in den Statistikprogrammpaketen implementierten Tests (Breusch-Godfrey-Test oder alternativer Durbin-Test) schnell klären, ob unsere Neuspezifikation immer noch Autokorrelation der Residuen aufweist. Auf der Basis einer Neuspezifikation, die die Autokorrelation modelliert, kann anschließend mittels OLS eine konsistente und effiziente Schätzung der Koeffizienten und Standardfehler durchgeführt werden. In der Neuspezifikation nehmen wir bspw. die verzögerte abhängige Variable mit dem Lag 2 auf, das heißt wir schätzen ein AR(2)-Modell. Danach überprüfen wir die Autokorrelation mittels des Breusch-Godfrey- oder alternativen Durbin-Tests. Ist die Nullhypothese „keine Autokorrelation vorhanden“ nicht abzulehnen, akzeptieren wir die Neuspezifikation als „richtig“.19 Zusammenfassend spricht alles dafür, eine solche explizite Neuspezifikation möglicher dynamischer Beziehungen vorzunehmen und anschließend zu testen, ob Autokorrelation (immer noch) vorliegt. Ist dies weiterhin der Fall, modifizieren wir die Spezifikation und prüfen erneut.20 Die drei Verfahren führen – obwohl alle prinzipiell adäquate Vorgehensweisen sind – zu unterschiedlichen Koeffizientenschätzungen. Bei den Newey-West-Standardfehlern blei-
19 Dies ist eine saloppe Formulierung, die nur den praktischen Umgang richtig beschreibt. Im strengen statistischen Sinn kann ein Test nur die Wahrscheinlichkeit eines Fehlers erster Art (fälschliche Ablehnung der Nullhypothese) bzw. zweiter Art (fälschliche Akzeptanz der Nullhypothese) ermitteln. 20 Weitere Probleme und Lösungsmöglichkeiten bei Autokorrelation im Rahmen von autoregressiven Regressionsgleichungen (AR- bzw. ADL-Modellen) beschreiben Auer und Rottmann (2010, S. 570–572), Ashley (2012, S. 376–382) und Gujarati (2015, S. 115–129).
134
3 Zeitreihenanalyse und dynamische Modelle
ben die OLS-Koeffizientenschätzungen gleich. Im Fall der FGLS-Methode und der Neuspezifikation resultieren im Unterschied zur OLS-Methode ggf. auch andere Koeffizienten. Becketti (2013, S. 178–198) stellt die verschiedenen Verfahren genauer dar und erläutert die unterschiedlichen Ergebnisse. Schließlich kann bei Zeitreihendaten unabhängig von Autokorrelation zusätzlich Heteroskedastie der Residuen vorhanden sein (Stoetzer 2017, Abschn. 5.2). Diesem Problem kann erstens durch eine Datentransformation, die die Heteroskedastie beseitigt, begegnet werden. Häufig wird in der Literatur dazu das Logarithmieren der Variablen empfohlen. Zweitens existieren Schätzverfahren für die Standardfehler, die gegen Heteroskedastie robust sind. Schätzen wir Newey-West Standardfehler, ist – wie oben bereits erwähnt – automatisch auch Heteroskedastie berücksichtigt.
3.5
Exogenität der unabhängigen Variablen
Zweitens muss für kausale Analysen Exogenität der unabhängigen Variablen vorliegen.21 Dabei sind zwei verschiedene Formen der Exogenität zu unterscheiden: Schwache und strikte Exogenität. Schwache Exogenität (Weak Exogeneity) ist gegeben, wenn die unabhängigen Variablen in der Periode t nicht mit dem Fehler dieser Periode t und den Fehlern der davorliegenden Perioden t − 1, t − 2 usw. korrelieren. Strikte Exogenität (Strict Exogeneity) heißt, dass die unabhängigen Variablen jedes Zeitpunktes t nicht mit den Fehlern zu irgendeinem anderen Zeitpunkt (weder vorher noch nachher) korrelieren. Die Residuen müssen ein rein zufälliges „weißes Rauschen“ sein und dürfen keinerlei Struktur hinsichtlich der unabhängigen Variablen aufweisen.22 Diese Annahme ist ggf. verletzt, wenn tatsächlich einflussreiche Variablen nicht berücksichtigt werden (Omitted Variable Bias) – bspw. in Form einflussreicher, aber nicht einbezogener verzögerter Variablen –, Fehler in den Variablen vorliegen oder die abhängige Variable Auswirkungen auf die zukünftigen Werte der unabhängigen Variablen besitzt. Letzteres erläutert das folgende fiktive Beispiel zur PISA-Studie (Programme for International Student Assessment): Der durchschnittliche Punktwert hinsichtlich der Lesekompetenz der Schüler einer Schule (d. h. die abhängige Variable PUNKT) wird im einfachsten Fall lediglich von der Größe der Klasse beeinflusst, die ein Lehrer unterrichtet. Der einzige relevante Einflussfaktor ist daher die Schüler-Lehrer-Relation, also die Zahl der
21 Ausführliche Erläuterungen finden sich bei Wooldridge (2016, S. 318–340) und Pickup (2015, S. 30–39). 22 Dies ist uns für die Analyse von Querschnittsdaten bereits bekannt. So gewährleistet bspw. eine reine Zufallsstichprobe im Rahmen eines kontrollierten Experiments, dass die unabhängigen Varia blen, deren kausale Effekte uns interessieren, keine Korrelation mit anderen (auch den nicht im Modell berücksichtigten) Einflussfaktoren aufweisen. Ist dies doch der Fall, so liegt eine Endogenität der unabhängigen Variablen vor, die verzerrte Koeffizientenschätzungen nach sich zieht (siehe Kap. 1 und Stoetzer 2017, Abschn. 4.2 und 5.7.5).
3.5 Exogenität der unabhängigen Variablen
135
Schüler pro Lehrkraft (die Klassenstärke, d. h. unabhängige Variable KLASSTÄRKE). Für beide Variablen liegen Zeitreihen für mehrere Jahre (bspw. t = 1 bis 10) vor: PUNKTt = a + b1 KLASST ÄRKEt + e t
(3.16)
Wenn zum Zeitpunkt t eine höhere Klassenstärke zu einem geringeren Punktwert führt, folgt daraus zu diesem Zeitpunkt ein im Mittel höherer Fehler et. Dies hat unter Umständen Auswirkungen in der Zukunft. Plausibel ist, dass die Schulaufsicht auf dieses schlechte Abschneiden bei PISA mit einer Erhöhung der Lehrerstellen reagiert. Das Resultat ist eine Verringerung der Zahl der Schüler pro Lehrkraft (der Klassenstärke) in zukünftigen Perioden. Ein großer Fehler e zum Zeitpunkt t ist also mit einer Abnahme der Klassenstärke in der Zukunft verbunden. Es existiert eine negative Korrelation zwischen den Fehlern zum Zeitpunkt t und der Klassenstärke in späteren Perioden. Die unabhängige Variable KLASSTÄRKE ist dann keine strikt exogene Variable! Strikt exogene unabhängige Variablen werden nicht von den vergangenen oder zukünftigen Werten der abhängigen Variablen beeinflusst. Wird im Weinanbau die Wirkung eines neuen Düngers auf den Traubenertrag über mehrere Jahre hinweg untersucht – also eine Zeitreihenanalyse durchgeführt –, sind Einflussfaktoren wie die Lage (bspw. „Nordhang“ und „Waldschatten“) strikt exogen, denn sie werden nicht von den Traubenerträgen der Vorperioden beeinflusst.23 Dies gilt auch für unabhängige Variablen wie etwa „Jährliche Niederschlagsmenge“ oder „Zahl der Nachtfröste im April“. In allen vier Fällen hängen die gegenwärtigen Werte dieser Variablen nicht systematisch vom Umfang der Traubenerträge in der Vergangenheit oder Zukunft ab. Der Arbeitseinsatz der Weinbauern für die Pflege der Weinstöcke ist dagegen mit hoher Sicherheit auch von den (erwarteten) Traubenerträgen der Vergangenheit (der Zukunft) abhängig. Dies ist zumindest sehr wahrscheinlich, wenn es sich um Beobachtungsdaten handelt, die nicht auf einem Experiment beruhen. Und gerade bei Zeitreihen handelt es sich fast immer um Beobachtungsdaten. Ein Beispiel aus der Makroökonomie ist der Zusammenhang zwischen der Veränderung des deutschen Bruttoinlandsprodukts (BIP) und den Exporten Tschechiens. Wir verwenden die Exporte Tschechiens als abhängige Variable und das deutsche BIP als unabhängige Variable. Lässt sich die Schätzung des Koeffizienten des deutschen BIP als kausale Wirkung interpretieren? Die Antwort ist von weiteren inhaltlichen Überlegungen abhängig. Prinzipiell liegt makroökonomisch Simultanität vor: Das deutsche BIP hängt von den Exporten (nach Tschechien) ab und umgekehrt das tschechische BIP von den tschechischen Exporten nach Deutschland. Diese wechselseitige Beeinflussung spricht gegen eine kausale Interpretation. Allerdings lässt sich argumentieren, dass das deutsche BIP nur marginal (kaum messbar) vom Umfang der deutschen Exporte nach Tschechien verändert wird. Unter dieser Prämisse ist der Koeffizient des deutschen BIP eine Schätzung des kausalen Einflusses (bei ansonsten richtiger Spezifikation dieses Modells). Für Siehe zum Weinanbau-Beispiel Stoetzer (2017, Abschn. 4.2).
23
136
3 Zeitreihenanalyse und dynamische Modelle
die Exporte Frankreichs, dem zweitwichtigsten Exportpartner Deutschlands, gilt dies aber nicht. In der Beziehung zu Frankreich ist eine simultane Wirkung plausibel. Generell sind in den Sozialwissenschaften die unabhängigen Variablen häufig das Ergebnis bestimmter menschlicher Entscheidungen. Bei diesen Entscheidungen, egal ob von Unternehmen, privaten Haushalten/Individuen oder der (Wirtschafts‑)Politik, werden mögliche Auswirkungen auf die abhängige Variable aber antizipiert. Als Reaktion auf gegenwärtige Ausprägungen der abhängigen Variablen wird eine unabhängige Variable bewusst verändert und beeinflusst. Sämtliche Erwartungen hinsichtlich Zinsänderungen der Zentralnotenbank, Steuerreformen, Preisentwicklungen oder jeder anderen Wirtschaftsund unternehmenspolitischen Maßnahme ziehen ggf. Korrelationen mit Fehlern der Vorund Folgeperioden nach sich. Sie verletzen die Annahme der (strikten) Exogenität und führen über Feedbacks zu umgekehrten Kausalrichtungen und Simultanität der Zusammenhänge von abhängigen und unabhängigen Variablen. Resultat ist die Endogenität der unabhängigen Variablen, ein Problem, das uns schon im ersten Kapitel begegnet war. Es ist also bei Zeitreihenbetrachtungen von mehreren Variablen besonders relevant. Allerdings gilt auch: Erstens können basierend auf Längsschnittdaten die Wirkungen der Vergangenheit auf die laufende Periode modelliert werden. Dies ist mit Querschnittsdaten nicht direkt möglich. Zweitens ist, wenn wir Zeitreihenvariablen verwenden, um Prognosen zu erstellen, die Exogenität der unabhängigen Variablen nicht erforderlich.
3.6
Stationarität von Zeitreihen
3.6.1 Überblick Die behandelten Verfahren basieren außerdem auf der Annahme, dass die verwendeten Variablen Zeitreihen darstellen, die stationär sind. Stationarität besagt vereinfacht formuliert, dass die Strukturen der Datenreihen in der Zukunft sich nicht von denen der Vergangenheit unterscheiden. Stationarität liegt vor, wenn der Mittelwert (Erwartungswert) und die Varianz einer Variablen im Zeitablauf konstant sind. Außerdem muss die Kovarianz zwischen zwei Zeitpunkten nur vom Zeitabstand abhängen und nicht vom Zeitpunkt, für den die Kovarianz berechnet wird.24 Praktisch ist Stationarität in den folgenden vier Fällen nicht gegeben: bei Trends, bei Random-Walk-Prozessen, bei Saisoneffekten und bei Strukturbrüchen. Der Begriff der Stationarität einer Zeitreihe ist anhand der Abb. 3.11, 3.12 und 3.13 zu erklären. Abb. 3.11 zeigt die Kosten (TOC) von American Airlines im Zeitraum 1990 bis 2012.
Eine solche Zeitreihe wird als schwach stationär (oder kovarianzstationär) bezeichnet. Hier erfolgt nur eine grafische bzw. intuitive Erläuterung. Genauere Darstellungen enthalten bspw. Becketti (2013, S. 81, 208–210) sowie Bofelli und Urga (2016, S. 14–17). 24
3.6 Stationarität von Zeitreihen
137
30.000.000 25.000.000 20.000.000 15.000.000 10.000.000 5.000.000 0 1985
1990
1995
2000
2005
2010
2015
Abb. 3.11 Kosten (TOC) von American Airlines. (Quelle: Macrotrends 2019)
Es handelt sich bei Abb. 3.11 um eine Zeitreihe, die erkennbar einem Trend unterliegt. Nur der Einbruch 2008/2009 spiegelt die Finanz- und Wirtschaftskrise dieser Jahre als Ausnahme wider. Das heißt, der Mittelwert der Kosten steigt und verletzt damit die Annahme der Stationarität. Bei einem Trend hängt der Wert einer Variablen Y zum Zeitpunkt t systematisch von der Zeit t ab. Bei einem deterministischen Trend ist die Entwicklung von Y ausschließlich von t bestimmt. Hinzu kommt eine Zufallskomponente et. Im Fall eines linearen deterministischen Trends resultiert Gl. (3.17):
Yt = a 0 + b1 t + e t
(3.17)
Die Konstante lautet a0 und b1 ist der Einfluss der Zeit t auf Y. In der Abb. 3.11 sind dies die Kosten von American Airlines. Komplexere nichtlineare Trends sind problemlos modellierbar – bspw. durch die zusätzliche Aufnahme von b2t2. Die entsprechenden Varia blentransformationen diskutiert Stoetzer (2017, Abschn. 3.3). Die Zeitreihe der Abb. 3.12 ist der Aktienkurs der Siemens-Aktie über einen Zeitraum von 180 Tagen. Sie weist die Eigenschaft eines sogenannten Random-Walk-Prozesses auf. Er ist optisch dadurch gekennzeichnet, dass der Kurs an einem Tag fast immer recht nahe beim Kurs des Vortags liegt. Auch hier gibt es also eine Struktur in Form einer Regelmäßigkeit. Dies ist – wie im Abschn. 3.2 dargestellt – in den Sozialwissenschaften und insbesondere bei ökonomischen Daten häufig anzutreffen, weil Beharrungskräfte existieren (bspw. in Form von Konsumgewohnheiten und sozialen oder kulturellen Traditionen). Bei einem Random Walk ist der Wert zum Zeitpunkt t (d. h. Yt) abhängig vom Wert der Vorperiode (Yt−1) plus einer zufälligen (nicht systematischen) Komponente. In Form einer Gleichung ausgedrückt:
Yt = Yt −1 + e t
(3.18)
138
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.12 Aktienkurs der Siemens-Aktie. (Quelle: Finanzen.net 2019)
Die Zufallskomponente et entspricht einem weißen Rauschen. Es handelt sich hierbei um einen Random Walk ohne Drift. Bei einem Random Walk mit Drift kommt eine Trendkomponente d hinzu. Der Wert von Y zum Zeitpunkt t ergibt sich aus seinem Wert in der Vorperiode Yt−1 zuzüglich einer Konstanten d0 und einer Zufallskomponente et (ausführlicher dazu Auer und Rottmann 2010, S. 573–582):25
Yt = d 0 + Yt −1 + e t
(3.19)
Random-Walk-Prozesse mit oder ohne Drift werden in der Literatur auch als stochas tische Trends bezeichnet. Im Folgenden wird der Begriff Trend nur für deterministische Trends verwendet. Ein Random Walk (mit und ohne) Drift und ein Trend können auch gemeinsam vorhanden sein. In beiden Fällen verändert sich die Varianz im Lauf der Zeit, was bei Stationarität nicht vorliegen darf. Saisonale Schwankungen sind ein weiterer Verstoß gegen Stationarität. Abb. 3.3 oben zeigt den klassischen Fall saisonaler Veränderungen der Arbeitslosigkeit in Deutschland. Andere Beispiele sind Erkältungskrankheiten (Grippewelle im Winter), Fahrradunfälle (im Sommer), häusliche Gewalt (zu Weihnachten und generell an Feiertagen). Strukturbrüche verdeutlicht Abb. 3.13. Sie gibt den langfristigen Zinssatz in Griechenland von 1993 bis 2018 wieder. Visuell lassen sich drei Phasen unterscheiden. Von 1993 bis 2001 sinken die Zinsen stetig und deutlich. Von 2002 bis 2009 bleiben sie unge-
25 Es handelt sich um die einfachste Form eines Random Walk. Der Aufbau ähnelt dem des AR(1)-Modells in Gl. (3.7) oben.
3.6 Stationarität von Zeitreihen
139
Abb. 3.13 Langfristiger Zinssatz Griechenlands. (Quelle: CEIC 2018)
fähr konstant, und ab 2010 nehmen sie zunächst rasant zu und zeigen dann eine deutlich gestiegene Volatilität. Es ist plausibel, dass diese drei Phasen auf zwei fundamentalen Wechseln der volkswirtschaftlichen Rahmenbedingungen beruhen. Im Jahr 2001 trat Griechenland der Eurozone bei, und im Jahr 2010 wurde die Staatsschuldenkrise Griechenlands offenkundig. Es handelt sich in beiden Fällen um sogenannte Strukturbrüche. Ihr Kennzeichen ist, dass sich die ökonomischen Zusammenhänge und Wirkungen in den drei Phasen vermutlich grundlegend unterscheiden. In der ersten Phase sinken die Zinsen im Mittel, und in der dritten Phase steigt der Zinssatz im Durchschnitt und außerdem nimmt die Varianz der Zinsen erheblich zu. Zumindest für diese beiden Phasen ist also Stationarität nicht gegeben. Weitere Beispiele für solche Strukturbrüche sind auf makroökonomischer Ebene der Übergang zu flexiblen Wechselkursen mit dem Ende des Bretton-Woods-Systems 1973, die Wiedervereinigung Deutschlands 1990 und die Finanzmarktkrise 2008. Mikroökonomische Anwendungsfälle sind für den Zuckermarkt das Auslaufen der EU- Zucker marktordnung im September 2017 und für den Bankensektor die neuen Eigenkapitalanforderungen entsprechend der Basel-III-Vorschriften seit 2013. Aber auch längerfristige Veränderungen von Werten und Einstellungen in (Teilen) der Bevölkerung (Stichwort Generation Y und Generation Z) können als Fälle von Strukturbrüchen aufgefasst werden, obwohl eher ein (mittelfristiger) Wandel als ein scharfer Sprung vorliegt. Gemeinsam ist den Abb. 3.11, 3.12 und 3.13, dass sie alle bestimmte Regelmäßigkeiten in den Daten zeigen. Dagegen besitzt die stationäre Datenreihe der Abb. 3.14 kein solches erkennbares Muster. Es handelt sich um einen rein zufälligen zeitlichen Ablauf (einen White-Noise-Prozess). Formal bedeutet dies, dass die Momente einer Verteilung (etwa Mittelwert und Standardabweichung) über die Zeit hinweg konstant sind. Die Verteilung dieser Variablen ändert sich also im Zeitablauf nicht. Grafisch schlägt sich dies darin nie-
140
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.14 Eine stationäre Zeitreihe
der, dass die Reihe zu ihrem Mittelwert zurück tendiert. Als Konsequenz können solche Variablen nicht aus ihren vorhergehenden Werten prognostiziert werden. Zusammenfassend sind Zeitreihen nicht stationär, wenn Trends, Random-Walk- Prozesse, Saisoneffekte oder Strukturbrüche existieren. Trends sind systematische Aufbzw. Abwärtsbewegungen einer Zeitreihe. Dabei spielt es keine Rolle, ob der Trend bspw. linear, quadratisch oder exponentiell ausfällt. Bei einem Random Walk kann der aktuelle Wert einer Variablen auf der Grundlage ihres zeitlich vorhergehenden Werts prognostiziert werden. Nur zufällige Schocks verändern den aktuellen Wert. Solche zufälligen Schocks bleiben im „Gedächtnis“ der Zeitreihe. Eine Variante sind Random-Walk-Prozesse mit Drift. In diesem Fall beeinflusst neben zufälligen Schocks auch eine systematische Komponente den aktuellen Wert. Saisonale Regelmäßigkeiten werden häufig bei Daten auf Monats- oder Quartalsbasis sichtbar. Darüber hinaus ist eine Zeitreihe nicht stationär, wenn ein Strukturbruch, d. h. eine fundamentale Veränderung der ökonomischen oder sozialen Rahmenbedingungen (Structural Break) vorliegt.
3.6.2 Folgen und Überprüfung von Nicht-Stationarität Sind die Variablen in der Regressionsgleichung nicht stationär, resultieren daraus verschiedene Probleme. In der Regression schätzen wir einen bedingten Mittelwert (Condi-
3.6 Stationarität von Zeitreihen
141
2.000.000 Pkw-
4.000.000
6.000.000
tional Mean). Der Mittelwert eines längeren Zeitraums ist aber nur dann aussagekräftig, wenn der erwartete Einfluss einer unabhängigen Variablen über alle Perioden dieses Zeitraums hinweg gleich ist. Wenn dieser Populationsparameter variiert, ist unklar, was wir schätzen, wenn wir davon einen Durchschnitt über die Zeit berechnen. Auch wenn die Regression nur beabsichtigt, eine möglichst gute Prognose zu schätzen, sind daher ggf. die Koeffizientenschätzungen verzerrt und die Standardfehler der OLS-Schätzung irreführend (Stock und Watson 2015, S. 600–602). Bei fehlender Stationarität besteht insbesondere die Gefahr, einer Scheinkorrelation (Spurious Correlation) aufzusitzen. Dies ist beim Vorliegen von zeitlichen Trends verschiedener Variablen offensichtlich. Zur Illustration zeigt Abb. 3.15 zwei Zeitreihen für Deutschland: die durchschnittliche Lebenserwartung von Männern bei Geburt (linke Skala) und die Zahl der produzierten Automobile (rechte Skala) – jeweils von 1901 bis 2001 ohne die Jahre des 1. Weltkriegs. Beide Variablen weisen einen steigenden Trend auf, das heißt, für beide Variablen ist die Zeit t ein wichtiger Einflussfaktor. Es ergeben sich also für die Variablen X und Y folgende Regressionsgleichungen (wobei eYt und eXt die jeweiligen unterschiedlichen Fehlerterme darstellen):
Pkw-
Quelle: Wikipedia (2019), Statistisches Bundesamt (2019a) Abb. 3.15 Pkw-Produktion und Lebenserwartung. (Quelle: Wikipedia 2019; Statistisches Bundesamt 2019a)
142
3 Zeitreihenanalyse und dynamische Modelle
Yt = b 0 + b1 t + e Yt X t = c 0 + c1 t + e Xt
(3.20) (3.21)
Was passiert, wenn wir eine Regressionsgleichung mit der Lebenserwartung (Yt) als abhängige Variable und der produzierten Kraftwagen (Xt) als unabhängige Variable – wie in der Regressionsgleichung (3.22) – spezifizieren?
Yt = d 0 + d1 X t + e t
(3.22)
Es resultiert ein hoch signifikanter und starker positiver Einfluss der Produktionsmenge auf die Lebenserwartung. In diesem Fall steigt sie konkret um 0,404 Jahre pro 100 Tsd. zusätzlich produzierter Pkw (t-Wert 13,15; Sig.: = ,000; adj.R2: 0,68). Inhaltlich handelt es sich um eine Nonsense-Korrelation (Scheinkorrelation).26 Der Fehler besteht darin, dass wir in Gl. (3.18) die einflussreiche Zeit t nicht berücksichtigt haben. Es liegt also ein „Omitted Variable Bias“ vor, da in Wahrheit die Variable t sowohl die Lebenserwartung als auch die produzierten Pkw beeinflusst und ihr Weglassen einen kausalen Zusammenhang vorgaukelt, der nicht existiert. Abb. 3.16 verdeutlicht dies. Der gestrichelte Einfluss von X auf Y ist hier die auf die Variable t zurückgehende Scheinkorrelation.27 Bei Zeitreihendaten ist das ein weit verbreitetes Problem: Wenn zwei oder mehr Varia blen in einem Beobachtungszeitraum einem Trend unterliegen, werden die einfachen Abb. 3.16 Scheinkorrelation bei Trends
t
X
Y
26 Bei Querschnittsdaten waren uns Scheinkorrelationen bspw. bei der Beziehung von Störchen und Geburtenzahlen begegnet (Stoetzer 2017, Abschn. 5.7.3). Im obigen Beispiel könnte ein unbedarfter, lebensferner Theoretiker (bspw. ein Volkswirtschaftsprofessor) etwa folgende inhaltliche Erklärung entwickeln: Vor der Erfindung des Automobils war das Pferd ein wichtiges Fortbewegungsmittel. Pferde scheuen aber, werfen ihre Reiter ab, treten mit Hufen aus usw. Sie verursachen also jedes Jahr viele Tote. Die Zunahme der Lebenserwartung ist daher völlig logisch auf die zunehmende Verdrängung des Pferdes durch das sicherere Automobil zurückzuführen. 27 Allerdings bleibt zu diskutieren, ob der Einflussfaktor „Zeit“, d. h. die Variable t, überhaupt eine inhaltlich sinnvolle unabhängige Variable ist. Die Zeit (gemessen in Jahren, Monaten usw.) besitzt per se ja keinen Einfluss (bspw. auf die Lebenserwartung der Bevölkerung). Sie ist eher eine Indikatorvariable für die wahren dahinter stehenden Wirkungen – hier von medizinischem Fortschritt, besserer Ernährung, mehr Freizeit usw. – auf die Lebenserwartung.
3.6 Stationarität von Zeitreihen
143
OLS-Regressionsschätzungen immer einen (positiven oder negativen) Zusammenhang ermitteln. Das heißt, der Determinationskoeffizient R2 und der F-Wert für das Gesamtmodell und auch die t-Werte der Koeffizientenschätzungen sind (hoch) signifikant, obwohl inhaltlich keinerlei (Kausal-)Zusammenhang vorliegt. Solche Trends sind in der Ökonomie zu beobachten, wenn Wachstumsprozesse vorliegen. Die Zunahme des realen Pro-Kopf-Bruttoinlandsproduktes in Deutschland seit 1970 ist offensichtlich ein Beispiel für eine nicht stationäre Variable aus der Makroökonomie. Demgegenüber ist die Wachstumsrate des realen Pro-Kopf-BIP, d. h. deren jährliche prozentuale Zunahme, aber (mit hoher Wahrscheinlichkeit) eine stationäre Variable: Sie verändert sich im Zeitablauf nicht systematisch steigend oder fallend. Besonders relevant wird Nicht-Stationarität, wenn aufgrund von Inflation alle nominalen Größen (Preise, Löhne, Kosten, Umsätze usw.) immer weiter zunehmen. Gleiches gilt für auch für andere Sozialwissenschaften (bspw. hinsichtlich Bevölkerungsentwicklung oder Wertewandel). Entsprechend häufig sind mögliche Scheinkorrelationen. Bei Random-Walk-Prozessen ist nicht sofort deutlich, dass sie zu Scheinkorrelationen führen können. Aber Granger und Newbold (1974) haben gezeigt, dass dies auch für Random-Walk-Prozesse gilt. Bei Random Walk mit Drift ist dies intuitiv plausibel, da eine Drift ja eine Form von zeitlich begrenztem Trend darstellt. Es gilt aber auch für Random- Walk-Prozesse ohne Drift (Auer und Rottmann 2010, S. 578–582; Dougherty 2016, S. 490–500). Als Schlussfolgerung ist festzuhalten, dass Zeitreihen in sehr vielen Fällen nicht stationär sind, weil häufig Trends oder Random-Walk-Prozesse vorliegen. Dann besteht immer die Gefahr von Scheinkorrelationen, die inhaltlich völlig sinnlose Beziehungen darstellen. Aus den obigen Beispielen folgt, dass erstens bei allen Zeitreihen vor jeder Regression geprüft werden muss, ob die Variablen stationär sind. Andernfalls könnte eine Scheinkorrelation vorliegen. Zweitens muss bei fehlender Stationarität diese durch geeignete Maßnahmen hergestellt werden. Zu Überprüfung existieren drei Ansätze: die grafische Untersuchung, Korrelogramme und Einheitswurzeltests. Nur in einfachen Fällen, d. h. vor allem bei deterministischen Trends, kann die visuelle Inspektion einer Zeitreihe klären, ob Stationarität vorliegt. Solche grafischen Darstellungen der Zeitreihen aller Variablen nehmen wir aber standardmäßig als ersten Schritt einer deskriptiven Analyse vor. Sie bestehen aus den Streudiagrammen einer Variablen entlang der Zeitachse, wie in den Abb. 3.4 bis 3.10. Dies ist auch angebracht, um (Un-)Regelmäßigkeiten und Ausreißer in den Beobachtungen zu identifizieren. Ein Streudiagramm einer Variablen auf der y-Achse mit ihrem ersten Lag auf der x-Achse eines Koordinatensystems verdeutlicht bspw., ob es eine hohe Autokorrelation erster Ordnung gibt, was bei Trends der Fall ist. Dies hat bereits Abschn. 3.4 näher beschrieben. Zur exakten Überprüfung der Stationarität einer Variablen werden standardmäßig sogenannte Einheitswurzel-Tests (Unit-Root-Tests) vorgenommen. Im Fall einer Zeitreihe mit einer Unit Root verändert sich die Varianz systematisch in Abhängigkeit von der Zeit. Dann ist diese Variable nicht stationär, da ein Muster, eine Regelmäßigkeit existiert. Im Fall von autoregressiven Modellen (also AR(p)-Modellen) gilt, dass diese einen (stochas-
144
3 Zeitreihenanalyse und dynamische Modelle
tischen oder deterministischen) Trend besitzt, wenn die Variable Yt eine sogenannte Einheitswurzel (Unit Root) aufweist. Der oben erläuterte Random Walk ist ein solcher AR(1)-Prozess. Ohne Einheitswurzel ist die betreffende Variable also stationär.28 Der Dickey-Fuller-Test prüft dies. Er basiert (in der einfachsten Form, d. h. im Fall eines AR(1)-Prozesses) auf der folgenden Regressionsgleichung:
Yt = b 0 + b1 Yt −1 + e t
(3.23)
Eine Einheitswurzel liegt vor, wenn b1 gleich 1 ist. Dann entspricht nämlich die Gl. (3.23) der oben erläuterten Gl. (3.19) eines Random-Walk-Prozesses mit Drift, bzw. insofern b0 gleich 0 ist, ohne Drift. Dass b1 den Wert 1 besitzt, ist die Nullhypothese. Die Alternative b1 > 1 wird in der Praxis vernachlässigt, da sie eine explosive Zunahme von Yt ohne jede Grenze impliziert. Dies ist für ökonomische und allgemein sozialwissenschaftliche Variablen ein kaum relevanter Fall. In der Regel wird außerdem unterstellt, dass b1 nicht kleiner als 0 ist, so dass gilt: 0 Zeitreihen erstellen …]. Außerdem lassen sich in dieser Prozedur erste Differenzen und gleitende Durchschnitte berechnen. Die Autokorrelationsfunktion der Variable Arbeitslosenquote generieren wir über [Analysieren > Vorhersage > Autokorrelationen …]. Es erscheint die Oberfläche der Abb. 3.19. Dort befördern wir die Arbeitslosenquote (wie zu sehen ist) in das Feld „Variablen“. Nach Drücken von „Optionen“ kann die Zahl der Lags, die untersucht werden sollen, eingestellt werden. Hier beschränken wir uns auf die ersten 20 Lags. Durch Einsatz des Buttons „OK“ erhalten wir die ACF und die PACF. Abb. 3.20 zeigt die Resultate in Auszügen. Zur Überprüfung der Signifikanz der Autokorrelationen führt SPSS automatisch den Ljung-Box-Test durch (SPSS bezeichnet diesen Test als Box-Ljung-Statistik). Wir sehen, dass die Autokorrelationen der Variablen Arbeitslosenquote sehr hoch sind (bspw. erster Lag: 0,965; zweiter Lag: 0,916), nur sehr langsam abnehmen und bis einschließlich des 20. Lags (mehr hatten wir nicht angefordert) hoch signifikant sind. Die hohe Persistenz der Arbeitslosigkeit in Abb. 3.3 wird also auch in den hohen positiven und signifikanten Autokorrelationen deutlich.
160
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.19 Autokorrelation und partielle Autokorrelation
Relevant ist aber unter statistischen Aspekten nur, ob die Residuen einer Schätzung autokorreliert sind. Dazu spezifizieren wir als Ausgangspunkt ein simples Modell, bei dem die Arbeitslosigkeit linear von der Zeit abhängt. Die Variable Zeit hat im Januar 2005 den Wert 1 und im Januar 2019 den Wert 169. Dies zielt darauf ab, den sinkenden Trend, der in Abb. 3.3 sichtbar ist, zu modellieren. Menügesteuert gehen wir über [Analysieren > Regression > Linear] und spezifizieren Arbeitslosenquote als abhängige und Zeit als unabhängige Variablen. Das Regressionsergebnis des Modell_1 enthält Abb. 3.21. Der trendmäßige Rückgang der Arbeitslosenquote wird im geschätzten hoch signifikanten Koeffizienten der Variable Zeit von −0,034 deutlich. Die Residuen des Modell_1 erhalten und speichern wir wie in Abb. 3.22 links bzw. rechts gezeigt. In der Menüoberfläche „Lineare Regression“ spezifizieren wir das Modell_1 und drücken auf „Speichern“. Es erscheint das Menü „Lineare Regression Speichern“, bei dem wir rechts oben ein Häkchen im Feld „Residuen“ bei „Nicht standardisiert“ setzen. Nach „Weiter“ und dann „OK“ werden die Residuen unter dem Namen „Unstandar dized residual [RES_1]“ als neue Variable dem Datensatz hinzugefügt. Diese Residuen untersuchen wir, wie oben beschrieben, mittels [Analysieren > Vorhersage > Autokorrelation] und dann Aufrufen der neuen Variable „Unstandardized Residual [RES_1]“. Nach Drücken des Buttons „Optionen“ (siehe Abb. 3.23) setzen wir die maximale Anzahl von Lags, die analysiert werden, auf den Wert 40 und wählen die Methode „Bartlett- Approximation“. Abb. 3.24 beschränkt sich darauf, vom resultierenden Output die ACF und die PACF darzustellen.
3.9 Durchführung in SPSS und Stata
161
Abb. 3.20 Autokorrelationen der Arbeitslosenquote
Die ACF und die PACF entsprechen den Abb. 3.9 und 3.10 oben, allerdings hier im Standardlayout der Grafiken von SPSS. Die dazugehörigen Erklärungen des Abschn. 3.4.2 werden hier nicht noch einmal wiederholt. Neben diesen Abbildungen enthält der SPSS-Output in Tabellenform die Werte der Autokorrelationen und partiellen Autokorrelationen bis zum von uns gewählten 40. Lag (auf die Wiedergabe wird hier verzichtet). Der
162
3 Zeitreihenanalyse und dynamische Modelle
Koeffizientena Nicht standardisierte Koeffizienten RegressionskoeffizientB
Modell 1
(Konstante) Zeit
Std.-Fehler
10,477
,123
-,034
,001
Standardisierte Koeffizienten Beta
T -,904
Sig.
85,028
,000
-27,368
,000
a. Abhängige Variable: Arbeitslosenquote aller zivilen Erwerbspersonen in %
Abb. 3.21 Modell_1 Arbeitslosenquote
Abb. 3.22 Speichern der Residuen des Modell_1
Ljung-Box-Test der Autokorrelationen bestätigt noch einmal die Resultate der Testverfahren der Tab. 3.1. Das Modell_1 weist eindeutig Autokorrelation der Residuen auf. Wir unterstellen aber vereinfachend, dass dieses Modell richtig spezifiziert ist. Da es sich nicht um ein autoregressives Modell handelt, können wir dann dem Problem durch FGLS-Verfahren oder die robusten Standardfehler nach Newey-West begegnen. In SPSS sind die Newey-West-Schätzer der Standardfehler nicht verfügbar.38 Urban/ Mayerl beschreiben ein Vorgehen mittels zweistufigem OLS-Verfahren (2018, S. 292–297). Dies entspricht prinzipiell der erwähnten FGLS-Methode. Darüber hinaus existiert in SPSS die Prozedur AREG. Als Drop-down-Menü ist sie nur in den Modulen SPSS Fore38 Eine Option, um diese durchführen zu können, ist die Integration geeigneter Makros des Statistikprogrammpakets R in SPSS. Dies erläutert in allgemeiner Form IBM SPSS (2019a).
3.9 Durchführung in SPSS und Stata
163
Abb. 3.23 Lags der Autokorrelationen
casting und SPSS Predictive Analytics implementiert.39 Sie enthält verschiedene O ptionen, darunter die FGLS-Verfahren Cochrane-Orcutt und Prais-Winsten. Innerhalb von SPSS Statistics 25 ist sie versteckt, und wir erhalten sie nur syntaxbasiert. Dazu rufen wir zunächst über das Menü mittels [Datei > Neu > Syntax] den Syntaxeditor auf. Dort geben wir folgende Befehlszeilen (ohne die Anführungszeichen) ein: „AREG Arbeitslosenquote WITH Zeit /METHOD=CO.“ Direkt am Ende nach dem Punkt drücken wir, um die Befehlsfolge auszuführen, auf das grüne Dreieck, das sich oben direkt unter der Menüzeile befindet. Das Resultat sehen wir in Abb. 3.25. Wird in der zweiten Befehlszeile „CO“ (dies steht für Cochrane-Orcutt) ersetzt durch „PW“, erfolgt die Berechnung nach Prais-Winsten. Im Vergleich zur einfachen OLS-Schätzung aus Abb. 3.21 sind der Einfluss der Zeit geringer (Koeffizient: −0,028) und der t-Wert ebenfalls kleiner (t = −4,833). Es ist aber klar, dass unser Modell_1 den tatsächlichen Verlauf der Arbeitslosenquote aus Abb. 3.3 nur fehlerhaft abbildet, weil wichtige Charakteristika nicht erfasst werden. Die Spezifikation wird daher im Modell_2 erweitert durch Aufnahme von Monatsdum-
Der IBM SPSS Support schreibt dazu: „The Cochrane-Orcutt method is available in the AREG procedure. If you are running Release 14 through 18, you will only have access to the AREG procedure if you previously had the Trends module licensed and have continued to do so. In Releases 14 and 15, AREG is accessible via the menus (Analyze > Time Series > Autoregression). In later releases, it is available only through command syntax.“ (IBM SPSS 2016).
39
164
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.24 ACF und PACF der Residuen Modell_1
mys. So kontrollieren wir die starken monatlichen (saisonalen) Schwankungen der Arbeitslosenquote.40 Das Resultat befindet sich (auszugsweise) in Abb. 3.26.
40 Zur Bildung von Dummyvariablen siehe Stoetzer (2017, Abschn. 3.6). Allgemein erfolgt die Durchführung mittels [Transformieren > Berechnen > …]. Bspw. soll das Jahr 2008 als Jahr der Finanzkrise (und insoweit Ausreißer) in Form einer Dummyvariable gesondert berücksichtigt werden. Wir geben links oben im Feld „Zielvariable“ den von uns frei wählbaren Namen der Ausprä-
3.9 Durchführung in SPSS und Stata
165
Abb. 3.25 FGLS (Cochrane-Orcutt)-Verfahren
Die Monate Mai bis einschließlich Dezember weisen im Vergleich zum Referenzmonat Januar eine signifikant geringere Arbeitslosenquote auf. Nur der Monat August unterschreitet das Signifikanzniveau von 5 % gerade nicht mehr. Die Residuen des Modell_2 speichern wir, wie oben bereits für Modell_1 beschrieben. SPSS vergibt ihnen automatisch den Namen RES_2. Für die Variable RES_2 analysieren wir die Autokorrelation und partielle Autokorrelation entsprechend dem Verfahren bei der Variable RES_1. Der einfache Durbin-Watson-Test auf Autokorrelation erster Ordnung kann mittels [Analysieren > Regression > Linear] im Feld „Statistiken“ durch ein Häkchen bei „Durbin-Watson“ direkt mit der Regression aufgerufen werden. Er steht dann im Output unter „Modellzusammenfassung“ ganz rechts. Für das Modell_2 beträgt er 0,022. Es liegt also extrem starke positive Autokorrelation erster Ordnung vor. Die Autokorrelationsfunktion und die partielle Autokorrelationsfunktion verdeutlichen dies – bis zum gewählten 40. Lag – grafisch (siehe Abb. 3.27). Die ACF macht deutlich, dass saisonale Schwankungen der Arbeitslosenquote nicht mehr vorhanden sind. Nach wie vor existiert aber eine starke positive Autokorrelation des ersten bis ca. zwölften Lags. Die PACF weist relevante partielle Autokorrelationsbeziehungen erster und deutlich kleiner zweiter Ordnung nach. Die Ljung-Box-Tests der Autogung ein, hier also „Finanzkrise“. Dann tippen wir rechts im Feld „Numerischer Ausdruck“ die Berechnungsvorschrift für diese neue Variable ein. Wenn die Jahre als Variable „Year“ in unserem Datensatz numerisch kodiert sind also: „Year = 2008“. Nach klicken des Buttons „OK“ fügt SPSS rechts an den Datensatz die neue Variable Finanzkrise an. Diese hat im Jahr 2008 den Wert 1 und in allen anderen Jahren den Wert 0.
166
3 Zeitreihenanalyse und dynamische Modelle
ANOVAa Quadratsumme
Modell 1
Regression
Mittel der Quadrate
df
496,247
12
41,354
86,135
156
,552
582,382
168
Nicht standardisierte
F 74,896
Sig. ,000b
Residuen Gesamt
Koeffizientena Standardisierte
Koeffizienten
Koeffizienten
RegressionskoeffizientB
Modell 1
Nicht standardisierte
(Konstante)
Std.-Fehler
10,976
,216
-,034
,001
,050
,276
März
-,088
April
Beta
T
Sig.
50,754
,000
-,895
-29,022
,000
,007
,180
,858
,276
-,013
-,318
,751
-,325
,276
-,048
-1,177
,241
Mai
-,605
,276
-,090
-2,192
,030
Juni
-,750
,276
-,111
-2,715
,007
Juli
-,609
,276
-,090
-2,204
,029
August
-,546
,276
-,081
-1,977
,050
September
-,805
,276
-,119
-2,914
,004
Oktober
-,928
,276
-,138
-3,360
,001
November
-,972
,276
-,144
-3,521
,001
Dezember
-,795
,276
-,118
-2,880
,005
Zeit Februar
a. Abhängige Variable: Arbeitslosenquote aller zivilen Erwerbspersonen in %
Abb. 3.26 Regression Modell_2
korrelationen bestätigen diese Struktur der Residuen. Sie befinden sich (nur für einige Lags abgebildet) im unteren Teil der Abb. 3.27. Da der Newey-West-Schätzer in SPSS nicht verfügbar ist, setzen wir erneut den FGLS-Schätzer ein – diesmal in der Prais-Winsten-Variante. Dies erfolgt wieder über den Syntax-Editor mittels:
3.9 Durchführung in SPSS und Stata
167 Nicht standardisierte Residuen
−
−
Nicht standardisierte Residuen
−
−
Autokorrelationen Zeitreihe: Nicht standardisierte Residuen Box-Ljung-Statistik Lag
Autokorrelation
Std.-Fehlera
Wert
df
Sig.b
1
,978
,077
164,676
1
,000
2
,941
,131
317,938
2
,000
3
,897
,167
457,870
3
,000
4
,855
,193
585,887
4
,000
5
,815
,214
702,801
5
,000
39
−,126
,318
1440,720
39
,000
40
−,122
,318
1444,044
40
,000
…
Abb. 3.27 ACF und PACF des Modell_2
168
3 Zeitreihenanalyse und dynamische Modelle
Standardisierte Nicht standardisierte Koeffizienten B Zeit
Std.-Fehler
Koeffizienten Beta
t
Sig.
-,041
,006
-,186
-6,434
,000
,063
,027
,091
2,323
,021
März
-,067
,037
-,096
-1,829
,069
April
-,297
,042
-,428
-6,987
,000
Mai
-,569
,046
-,821
-12,316
,000
Juni
-,706
,048
-1,019
-14,609
,000
Juli
-,558
,049
-,804
-11,370
,000
August
-,487
,048
-,703
-10,078
,000
September
-,738
,046
-1,065
-15,972
,000
Oktober
-,854
,042
-1,231
-20,106
,000
November
-,891
,037
-1,284
-24,368
,000
-,706
,027
-1,018
-26,046
,000
12,035
,935
12,877
,000
Februar
Dezember (Konstante)
Es wird das Prais-Winsten-Schätzverfahren verwendet.
Abb. 3.28 Prais-Winsten-Schätzung
„AREG Arbeitslosenquote WITH Zeit Februar März April Mai Juni Juli August September Oktober November Dezember /METHOD=PW.“ Dann drücken wir auf das grüne Dreieck unter der Menüzeile. Abb. 3.28 enthält die Schätzresultate für die Koeffizienten. Der Einfluss der Variable Zeit ist im Vergleich zur OLS-Schätzung größer (−0,041) und der dazugehörige t-Wert kleiner. Alle Monate ab April bis einschließlich Dezember zeichnen sich gegenüber dem Januar durch eine signifikant geringere Arbeitslosenquote aus. Dies ist bei der OLS-Schätzung der Abb. 3.26 etwas anders. Allerdings sind die Residuen des Modell_2 immer noch von sehr starker Autokorrelation gekennzeichnet. Der Verlauf der ACF veranschaulicht eine hohe Persistenz der Arbeitslosenquote. Die partielle Autokorrelationsfunktion des Modell_2 lässt vermuten, dass jetzt nur noch Autokorrelationen erster und zweiter Ordnung relevant sind. Wir modellieren diese durch die zusätzliche Aufnahme des Lags erster und zweiter Ordnung der Varia blen Arbeitslosenquote in unsere Regressionsgleichung. Wie diese Lags gebildet werden, war am Anfang dieses Abschnitts zu SPSS gezeigt worden. Das heißt, wir spezifizieren als Modell_3 ein dynamisches AR(2)-Modell. Abb. 3.29 enthält die Schätzung.
3.9 Durchführung in SPSS und Stata
169
Modellzusammenfassungb Modell
R
1
2
R -Quadrat
,999a
Standardfehler
Durbin-Watson-
Quadrat
des Schätzers
Statistik
,998
,998
Quadratsumme
Modell 1
Korrigiertes R2-
Regression Nicht standardisierte
,08581
2,008
Mittel der Quadrate
df
F
531,632
14
37,974
1,119
152
,007
532,751
166
Sig.
5156,885
,000b
Residuen Gesamt
a. Abhängige Variable: Arbeitslosenquote aller zivilen Erwerbspersonen in % b. Einflussvariablen : (Konstante), Lag(Arbeitslosenquote,2), Juli, Oktober, September, Februar, Juni, August, November, Mai, Dezember, März, April, Zeit, Lag(Arbeitslosenquote,1)
Nicht standardisierte
Standardisierte
Koeffizienten
Koeffizienten
Regressionsko Modell 1
effizientB (Konstante)
Std.-Fehler
,869
,099
Zeit
-,001
,000
Februar
-,894
März
-,755
April Mai
Beta
T
Sig.
8,765
,000
-,020
-2,093
,038
,050
-,134
-17,871
,000
,034
-,117
-21,977
,000
-,773
,039
-,120
-19,685
,000
-,778
,043
-,121
-18,083
,000
Juni
-,631
,045
-,098
-14,086
,000
Juli
-,410
,039
-,064
-10,521
,000
August
-,613
,033
-,095
-18,826
,000
September
-,898
,033
-,139
-26,877
,000
Oktober
-,626
,044
-,097
-14,274
,000
November
-,612
,038
-,095
-15,976
,000
Dezember
-,427
,036
-,066
-11,936
,000
Lag(Arbeitslosenquote,1)
1,419
,069
1,448
20,683
,000
Lag(Arbeitslosenquote,2)
-,448
,068
-,463
-6,596
,000
Abb. 3.29 Autoregressive Spezifikation Modell_3
170
Abb. 3.30 ACF und PACF des Modell_3
3 Zeitreihenanalyse und dynamische Modelle
3.9 Durchführung in SPSS und Stata
171
Die ACF und die PACF für die ersten 40 Lags befinden sich in Abb. 3.30, ebenso die Ljung-Box-Tests (in verkürzter Form). Die ACF und die PACF weisen keine erkennbaren Muster mehr auf, die Ljung-Box- Tests und auch der Durbin-Watson-d-Test bestätigen, dass Autokorrelation nicht existiert, bzw. wenn, dann nur noch zufällig vorhanden ist. In diesem Beispiel ist offensichtlich, dass Modell_3 die „beste“ der drei behandelten Regressionen darstellt. Die folgenden Ausführungen illustrieren daher nur das prinzipielle Vorgehen. Um das relativ geeignetste unter mehreren Modellen zu identifizieren, werden in der Literatur neben dem korrigierten R2 üblicherweise Informationskriterien benutzt. Unter den vielen existierenden Varianten von Informationskriterien haben das Akaike Information Criterion (AIC) und das Schwarz Information Criterion (SIC) die weiteste Verbreitung. In SPSS ist innerhalb der Prozedur [Analysieren > Regression > Linear] nur das korrigierte R2 verfügbar und wird dort automatisch in der Modellzusammenfassung angegeben. Es beträgt 0,817 im Modell_1, im Model_2 hat es den Wert 0,841 und im Modell_3 liegt es bei 0,998. Das AIC kann in SPSS über die Prozedur [Analysieren > Regression > Automatische lineare Modellierung] ermittelt werden. Allerdings ist der der Aufbau und die Anwendung dieser Prozedur recht komplex und unterscheidet sich erheblich von der einfachen Regression. Einen praktischen Einstieg vermitteln Oshima und Dell-Ross (2016) und IBM SPSS (2019b, S. Kap. 15). Das AIC und das BIC sind auch im Rahmen der Prognoseverfahren in SPSS verfügbar. Dies wird unten bei der Darstellung der ARIMA-Schätzung erläutert. Für die Analyse von Zeitreihen ist es notwendig, dass die Variablen stationär sind. Der Verlauf der Arbeitslosenquote besitzt aber mit Sicherheit einen Trend. Darüber hinaus darf auch kein Random-Walk-Prozess (stochastischer Trend) vorliegen. Der zur Überprüfung gängige Augmented Dickey-Fuller-Test (= ADF-Test) ist in SPSS nicht implementiert. Nur über eine Erweiterung mittels des Statistikprogrammpakets R sind der ADF-Test und andere Tests auf Stationarität verfügbar. Um den offensichtlichen deterministischen Trend zu beseitigen, haben wir ihn in Modell_1 bis Modell_3 durch Aufnahme der Variable Zeit modelliert. Eine andere Vorgehensweise, um den Trend zu eliminieren, besteht darin, die ersten Differenzen der Variable Arbeitslosenquote zu bilden. Dies erfolgt menügesteuert mittels [Transformieren > Zeitreihen erstellen …]. Es erscheint die Oberfläche der Abb. 3.31. In dieser befördern wir die Variable Arbeitslosenquote in das Feld „Variable -> Neuer Name“. Unter „Funktion:“ wählen wir „Differenz“, und bei „Reihenfolge“ setzen wir „1“, da die erste Differenz gebildet werden soll. Unter „Name“ können wir eine Bezeichnung selbst vorgeben. Hier bspw. „Arbeit_1.Diff“, und nach Drücken des Buttons „Ändern“ wird dieser Name oben im Feld „Variable -> Neuer Name“ eingefügt. Intern bezeichnet SPSS diese Variable als „DIFF(Arbeitslosenquote 1)“. Nach drücken von „OK“ wird die erste Differenz der Arbeitslosenquote berechnet und als neue Variable dem Datensatz rechts hinzugefügt. Diese neue Variable soll grafisch dargestellt werden. Dazu wird über [Grafik > Diagrammerstellung] die Oberfläche der Abb. 3.32 aufgerufen.
172
Abb. 3.31 Bildung erster Differenzen
Abb. 3.32 Grafik der ersten Differenzen
3 Zeitreihenanalyse und dynamische Modelle
3.9 Durchführung in SPSS und Stata
173
Abb. 3.33 Erste Differenzen der Arbeitslosenquote
Unten links wählen wir unter dem Reiter „Galerie“ die Option „Linie“ und ziehen diese in das weiße Feld „Diagrammvorschau verwendet Beispieldaten“. Dann ziehen wir die Variable DIFF(Arbeitslosenquote,1) auf die y-Achse und die Variable Zeit auf die x-Achse. Nach Drücken von „OK“ erscheint die Grafik der Abb. 3.33. Sie entspricht der Abb. 3.17 – allerdings im Layout von SPSS. Auch für die erste Differenz der Arbeitslosenquote ist zu prüfen, ob Stationarität vorliegt. Die visuelle Inspektion (als Ersatz für die in SPSS fehlenden üblichen Tests) zeigt, dass der Trend beseitigt ist, aber die saisonale Komponente in der Spezifikation berücksichtigt werden muss. Eventuell vorhandene Strukturbrüche lassen sich mittels der Einfügung von Dummyvariablen für Zeiträume vor (Dummyvariable = 0) und nach dem vermuteten Strukturbruch (Dummyvariable = 1) analysieren. Auf nähere Ausführungen wird hier verzichtet. Der Chow-Test ist – wie andere Strukturbruchtests – ebenfalls in SPSS nicht als Prozedur implementiert. Anleitungen für die syntaxbasierte Durchführung solcher Testverfahren mittels SPSS finden sich im Internet (SPSStools 2019; Chan 2012). Eine andere Möglichkeit der Analyse – insbesondere für Prognosen – ist die Spezifikation eines ARIMA-Modells. Die Prozedur setzt aber voraus, dass die Zeitreihe als Datum gekennzeichnet ist. Dies erfolgt über [Datum > Datum und Uhrzeit definieren]. Dort definieren wir für die Variable Arbeitslosenquote, dass der erste Fall, d. h. die erste Beobachtung, dem ersten Monat im Jahr 2005 entspricht (siehe Abb. 3.34). Offensichtlich ist, dass unsere Arbeitslosenquote einen Trend aufweist – also nicht stationär ist. Durch Bildung der ersten Differenzen wird zunächst dieser Trend beseitigt, um so eine stationäre Datenreihe zu erhalten. Dies war weiter oben schon durchgeführt worden. Um die Lags des AR- und des MA-Teils zu bestimmen, betrachten wir wie oben beschrieben die ACF und PACF dieser Datenreihe. Das Ergebnis illustriert Abb. 3.35.
174
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.34 Definition des Datums einer Zeitreihe
Lag-Nummer
Lag-Nummer
Abb. 3.35 ACF und PACF der ersten Differenzen
Anschließend wird menügesteuert mittels [Analysieren > Vorhersage > Traditionelle Modelle erstellen] die Zeitreihenmodellierung aufgerufen.41 Wie Abb. 3.36 links verdeutlicht, platzieren wir die Variable Arbeitslosenquote im Feld „Abhängige Variablen“ und unter „Methode“ wählen wir „ARIMA“. Geschätzt wird ein ARIMA(p,d,q)-Modell in der konkreten Form ARIMA(2,1,0). Der lineare Trend wird durch Bildung erster Differenzen (d = 1) beseitigt, und (stark vereinfachend) schließen wir aus der PACF der Abb. 3.35, dass ein AR(2)-Prozess vorliegt (d. h. p = 2). Für den MA-Teil unterstellen wir q = 0. 41 In der Version IBM SPSS 25. In der Version 22 mittels [Analysieren > Vorhersage > Modelle erstellen]. Syntaxbasiert werden mittels der folgenden vier nacheinander aufzurufenden Befehle zunächst die Zahl der neu von SPSS anzulegenden Variablen auf 8 gesetzt, dann bspw. das ARIMA(2,1,0)-Modell geschätzt und schließlich erst die ACF und dann die PACF der Residuen dieses Modells generiert: „TSET /MXNEWVARS=8. ARIMA Arbeitslosenquote /MODEL=(2 1 0). ACF / VARIABLES=ERR_1. PACF /VARIABLES=ERR_1.“.
3.9 Durchführung in SPSS und Stata
175
Abb. 3.36 ARIMA(2,1,0)-Modellierung 1
Abb. 3.37 ARIMA(2,1,0)-Modellierung 2
Anschließend erscheint nach Drücken des Buttons „Kriterien“ der rechte Teil der Abb. 3.36. Hier tragen wir in der Spalte „Nicht saisonal“ für den autoregressiven Teil p den Wert 2 und für den Differenzteil d den Wert 1 ein. Für den gleitenden Durchschnitt (= MA-Teil) behalten wir die Voreinstellung 0 bei. Danach gehen wir im linken Teil der Abb. 3.36 auf den Reiter „Statistik“ und nehmen dort die in Abb. 3.37 links deutlichen zusätzlichen Einstellungen vor. Das heißt, es werden Häkchen im Feld „Statistik nach einzelnen Modellen“ bei „Residuen-Autokorrelationsfunktion (ACF)“ und bei „Part. Residuen Autokorrelationsfunktion (PACF)“ gesetzt. Dann aktivieren wir den Reiter „Diagramme“ (siehe Abb. 3.37 rechts). Dort fügen wir Häkchen bei „Residuen-Autokorrelationsfunktion (ACF)“ und bei „Part. Residuen- Autokorrelationsfunktion“ ein. Wenn wir die Residuen dieses Modells speichern wollen, geschieht dies unter dem Reiter „Speichern“ und dort mit einem Häkchen bei „Restrauschen“ (siehe Abb. 3.38). SPSS fügt dann rechts in unserem Datensatz eine Spalte der Residuen unter dem Namen „ResRauschen_Arbeitslosenquote“ hinzu.
176
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.38 ARIMA(2,1,0)-Modellierung 3
Ansonsten werden die Voreinstellungen beibehalten. Durch Drücken auf „OK“ (bzw. „Weiter“ und dann „OK“) wird das ARIMA(2,1,0)-Modell geschätzt. Das Resultat ist ein umfangreicher Output, der hier nur kurz erläutert wird. Abb. 3.39 beschränkt sich auf die Wiedergabe der Koeffizientenschätzungen (AR(1) und AR(2)Lags) sowie die ACF und PACF der Residuen. Die Koeffizienten des ersten und zweiten Lags sind beide auf dem 1-%-Niveau signifikant. Das Modell ist insoweit geeignet, die Entwicklung der Arbeitslosenquote im Beobachtungszeitraum zu erklären. Aber schon die visuelle Inspektion der ACF und der PACF der Residuen zeigt saisonale Regelmäßigkeiten, die im Modell berücksichtigt werden müssen. Die Lags vierter, achter sowie zwölfter Ordnung sind signifikant, wobei außerdem der zwölfte Lag bei ACF und PACF einen sehr hohen positiven Wert besitzt. Dies bestätigt auch der nicht abgebildete Ljung-Box-Test, der die Nullhypothese eines weißen Rauschens der Residuen verwirft (Statistik: 179,691; Sig.: 0,000).42 Allerdings war schon aufgrund der Abb. 3.35 abzusehen, dass eine saisonale Struktur vorliegt, die durch autoregressive Lags erster und zweiter Ordnung nicht erfasst wird. Zum Vergleich siehe unten die Resultate des ARIMA_1-Modells in Stata.
42
3.9 Durchführung in SPSS und Stata
177
Abb. 3.39 ARIMA(2,1,0)-Modell-Ergebnisse
Im nächsten Schritt berücksichtigen wir daher die saisonalen Unterschiede in der Arbeitslosenquote. Unter Zeitreihenmodellierung im Reiter „Variablen“ (so wie bereits in Abb. 3.36) klicken wir den Button „Kriterien“, und es öffnet sich das Fenster „Zeitreihenmodellierung: ARIMA-Kriterien“. Dort geben wir die Struktur des neuen Modells wie in Abb. 3.40 gezeigt ein. Unverändert belassen wir es in der Spalte „Nicht saisonal“ bei p = 2, d = 1 und q = 0. In der Spalte „Saisonal“ geben wir den Wert 1 in der Zeile „Differenz(d)“ ein. Dies funktioniert, weil SPSS von uns eingangs bei der Definition des Datums informiert worden ist, dass die saisonale Struktur zwölf Monate umfasst (siehe in Abb. 3.40 rechts: „Aktuelle Periodizität: 12“). Wenn wir hier den Wert 1 eingeben, bildet es automatisch die saisonale Differenz. Das heißt, es zieht von der Arbeitslosenquote eines Monats den Wert des entsprechenden Vorjahresmonats ab. Die Schätzresultate enthält Abb. 3.41 in Auszügen. Die ACF und PACF der Residuen dieses Modells weisen jetzt im Wesentlichen nur noch ein weißes Rauschen auf. Entsprechend lehnt der Ljung-Box-Test die Nullhypothese „Es liegt weißes Rauschen vor“ nicht ab (Statistik: 13,761, Sig.: 0,616). In der Praxis würde die Suche nach einem „optimalen“ Modell eventuell weiter fortgesetzt. Dafür spricht, dass die Residuen der Abb. 3.41 beim 24. Lag für die ACF und die PACF signifikant von 0 verschieden sind. Außerdem korrespondiert der 24. Lag inhaltlich mit der Zwölfmonatsperiodizität. Dies ist ein Indiz, dass noch Strukturen in der Daten-
178
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.40 ARIMA(2,1,0)(0,1,0)-Modell
Abb. 3.41 Ergebnisse ARIMA(2,1,0)(0,1,0)-Modell
3.9 Durchführung in SPSS und Stata
179
reihe vorhanden sind, die wir in unserer Modellierung nicht erfasst haben. Wir verzichten hier aber auf eine weitere Analyse. Zum Vergleich unserer beiden Modelle bzw. überhaupt verschiedener ARIMA-Modelle zieht man häufig das AIC und das BIC heran. Das AIC ist in der von uns eingesetzten Prozedur [Analysieren > Vorhersage > Traditionelle Modelle erstellen] nicht verfügbar.43 In Abb. 3.37 links unter dem Reiter „Statistik“ im Feld „Anpassungsmaße“ können verschiedene Maße zur Abschätzung des Modellfits aufgerufen werden. Das BIC berechnet SPSS in der Variante des normalisierten BIC. Es wird in der Voreinstellung automatisch (auch wenn unter „Anpassungsmaße kein Häkchen gesetzt wird“) zusammen mit einer ganzen Reihe anderer Werte zur Beurteilung des Modellfits berechnet. Es findet sich im Output unter „Anpassungsgüte des Modells“ in der letzten Zeile unter der Bezeichnung „Normalisiertes BIC“ (hier nicht abgebildet). Die Interpretation des normalisierten BIC unterscheidet sich nicht vom gängigen BIC. Das kleinste BIC kennzeichnet das beste Modell. Abb. 3.42 enthält das normalisierte BIC und das R2 unserer beiden ARIMA- Spezifikationen. Das „bessere“ zweite Modell verwenden wir für eine Prognose der Entwicklung der Arbeitslosenquote für zwei weitere Jahre – also bis zum Januar 2021. Wir gehen dazu noch einmal auf „Zeitreihenmodellierung“. Im Reiter „Diagramme“ wird im Feld „Diagramme nach einzelnen Modellen“ ein Häkchen bei „Anpassungswerte“ gesetzt (siehe Abb. 3.43 links). Den Begriff „Anpassungswerte“ benutzt SPSS für die geschätzten Werte des Beobachtungszeitraums. Unter dem Reiter „Optionen“ aktivieren wir im Feld „Vorhersagewerte“ die Variante „Erster Fall nach der Schätzperiode bis zum angegebenen Datum“. Direkt darunter wird im Feld „Datum“ bei „Jahr“ die Zahl 2021 und bei „Monat“ die Zahl 1 eingetragen. Nach „OK“ führt SPSS die Prognose durch. Das Prognoseergebnis für den gewählten Zeitraum enthält Abb. 3.44. Sie zeigt die Beobachtungswerte, die geschätzten Werte unseres Modells für den Beobachtungszeitraum und die Prognosewerte für den Februar 2019 bis zum Januar 2021. Es wird visuell deutlich, dass sich die geschätzten Werte von den Beobachtungen fast nicht unterscheiden, was für die Güte des Modells spricht. ARIMA(2,1,0)-Modell:
Normalisiertes BIC: –3,862
R2: 0,982
ARIMA(2,1,0)(0,1,0)-Modell:
Normalisiertes BIC: –4,595
R2: 0,996
Abb. 3.42 Vergleich Modellfit BIC und R2
Das AIC ist in der Version IBM SPSS 25 innerhalb der Prozedur [Analysieren > Vorhersage > Temporale kausale Modelle erstellen] unter dem Reiter „Erstellungsoptionen“ und dann „Ausgabeoptionen“ im Feld „Modellübergreifende Anpassungsgüte des Modells“ vorhanden. Dort kann ein Häkchen bei AIC ebenso wie bei BIC gesetzt werden. 43
180
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.43 Schätzverfahren Prognose bis zum Januar 2021
Abb. 3.44 Ergebnis Prognose bis zum Januar 2021
Im nächsten Schritt erweitern wir die Analyse um zusätzliche unabhängige Variable, d. h. wir spezifizieren ein ARMAX-Modell. Menügesteuert erfolgt dies wieder über [Analysieren > Vorhersage > Traditionelle Modelle erstellen] (bzw. in älteren SPSS-Versionen mittels [Analysieren > Vorhersage > Modelle erstellen]). Abb. 3.45 links zeigt, dass wie bisher als abhängige Variable die Arbeitslosenquote dient. Zusätzlich fügen wir im Feld „Unabhängige Variablen“ die Variable Zeit und alle Monatsdummys (der Monate Februar bis Dezember) ein. Unter „Methode“ wählen wir die Option „ARIMA“ und klicken anschließend auf den Button „Kriterien“. Es erscheint das Fenster „Zeitreihenmodellierung: ARIMA-Kriterien“ der Abb. 3.45 rechts. Dort wird in der Spalte „Nicht saisonal“ und der Zeile „Autoregression (p)“ der Wert 2 eingetragen. Durch die unabhängigen Variablen Zeit und die Monatsdummys werden der Trend und die saisonalen Unterschiede berücksich-
3.9 Durchführung in SPSS und Stata
181
Abb. 3.45 Spezifikation ARMAX-Modell
tigt, sodass keine weitere Differenzenbildung durchgeführt werden muss. Die Zeile „Differenz (d)“ enthält daher nur Nullen. Aber wir gehen davon aus, dass die Monatsdummys die monatlichen Schwankungen der Arbeitslosenquote nicht vollständig auffangen. Die resultierenden Persistenzen der Fehler berücksichtigen wir durch einen saisonalen MA(1)-Prozess. In der Zeile „Gleitender Durchschnitt (q)“ und der Spalte „Saisonal“ tragen wir daher den Wert 1 ein. Das Schätzergebnis dieses ARMAX (2,0,0)(0,0,1)-Modells findet sich in Abb. 3.46 (nur in Auszügen). Die unabhängigen Variablen Zeit sowie die Monatsdummys entsprechen inhaltlich dem Regressionsmodell der Abb. 3.26. Die Lags erster und zweiter Ordnung des AR(2)-Teils des Modells sind ebenso signifikant wie der saisonale MA(1)-Teil. Der Ljung-Box-Test ergibt, dass für die Residuen die Nullhypothese „weißes Rauschen“ nicht abgelehnt wird (Statistik: 16,846; Signifikanz. 0,328). Dies wird in der ACF und der PACF der Residuen deutlich (siehe Abb. 3.46 unterer Teil). Beide lassen keine Strukturen mehr erkennen. SPSS bietet unter [Analysieren > Vorhersage > Traditionelle Modelle erstellen] bei der Zeitreihenmodellierung unter den Optionen bei „Methode“ (siehe Abb. 3.36 links) auch das Verfahren „Expert Modeler“. Bei diesem Vorgehen ermittelt SPSS selbstständig das „beste“ ARIMA-Modell. Da aber auch bei einem Blick in die Dokumentation nicht klar ist, nach welchen Kriterien SPSS dabei vorgeht, wird auf eine Darstellung verzichtet. Das Verfahren [Analysieren > Vorhersage > Temporale kausale Modelle erstellen] ermöglicht die Überprüfung von Granger-kausalen Beziehungen. Die Eingabe und Spezifikation dieser Prozedur weicht leider deutlich von den oben vorgestellten Schritten ab. Daher wird auch von deren Erläuterung hier abgesehen. Lehrbücher zum Einsatz von SPSS für die Analyse von Zeitreihen sind einführend Aljandali (2016) und zur Prognose insbesondere Aljandali (2017, S. Kap. 3). Ergänzend sind Tabachnick und Fidell (2019, S. Kap. 17) hilfreich. Das Handbuch IBM SPSS Forecasting 25 (2017) vermittelt nur einige Aspekte, ohne einen kompletten Über- und Einblick zu
182
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.46 Schätzergebnis ARMAX-Modell
gewähren. Die älteren SPSS-Dokumentationen (bis zur Version 21) enthalten dazu deutlich mehr Informationen und verständlichere Anleitungen.44 Stata Wir verwenden den Datensatz „Arbeitslosenquote_D_2005-2019.dta“.45 Zunächst müssen wir Stata mitteilen, dass es sich um einen Zeitreihendatensatz handelt. Bei reinen Zeitreihen Auch diese sind aber vergleichsweise wenig nützlich. Die SPSS-Dokumentation der Version 25 zur Prognose bzw. Trendanalyse enthält 62 Seiten, und für die Version 20 existieren 114 Seiten. Die Stata-Dokumentation (Release 15) zur Zeitreihenanalyse hat einen Umfang von 935 Seiten. 45 Es handelt sich um einen Datensatz ohne fehlende Werte, also ohne Lücken (Gaps). Der Umgang mit solchen Lücken wird hier nicht weiter behandelt. In Stata existieren umfangreiche Möglichkei44
3.9 Durchführung in SPSS und Stata
183
erfolgt dies über [Statistics > Time series > Setup and utilities > Declare dataset to be time-series data]. Als Ausgangspunkt schätzen wir das einfache Modell der Gl. (3.13). Dies ist unser Modell_1. Die Vorgehensweise über die Menüsteuerung wird in Stoetzer (2017) erklärt und hier nicht noch einmal wiederholt. In der ersten Zeile der Abb. 3.47 steht die Befehlssyntax „regress Arbeitslosenquote Zeit“, die alternativ zur Menüsteuerung im Feld „Command“ der Stata-Oberfläche eingegeben werden kann. Darunter sehen wir das Regressionsergebnis. Die Variable „Zeit“, d. h. der Index der Monate 1 bis 169, hat den erwarteten negativen Einfluss. Er modelliert einen linearen Trend der abnehmenden Arbeitslosenquote im Betrachtungszeitraum. Mittels [Statistics > Postestimation] erhalten wir das Feld „Postestimation Selector“. Dazu müssen wir ganz nach unten scrollen. Dort gelangen wir über „Predictions and their SEs, residuals, etc.“ nach Drücken des Buttons [Launch] sowie das Feld „predict – Prediction after estimation“ zu Abb. 3.48. Unter „New variable name“ geben wir Residuals_1 (oder einen anderen beliebigen wählbaren Namen) ein. Die Residuen der letzten Regression werden dann unter dem neuen Variablennamen Residuals_1 unserem Datensatz als neue Variable ganz rechts hinzugefügt. Wesentlich kürzer geht das auch über die Befehle „predict Residuals_1, residuals“ in dem Befehlsfeld „Command“ der Menüoberfläche. Nach dem Befehl „ac Residuals_1“ im Befehlsfeld „Command“ erhalten wir die Grafik der Autokorrelationsfunktion der Abb. 3.9 und nach „pac Residuals_1“ die partielle
regress Arbeitslosenquote Zeit Source | SS df MS -------------+---------------------------------Model | 476.20721 1 476.20721 Residual | 106.174565 167 .635775839 -------------+---------------------------------Total | 582.381775 168 3.46655819
Number of obs F(1, 167) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
169 749.02 0.0000 0.8177 0.8166 .79736
-----------------------------------------------------------------------------Arbeitslos~e | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Zeit | -.0344085 .0012572 -27.37 0.000 -.0368907 -.0319264 _cons | 10.4768 .1232165 85.03 0.000 10.23353 10.72006 ------------------------------------------------------------------------------
Abb. 3.47 Modell_1 Arbeitslosenquote
ten, solche Lücken zu schließen. Dazu dient das Kommando „tsfill“. Genauer dazu Stata (2017, S. 584–587). Prinzipiell entspricht dies dem Problem fehlender Werte (Missing Values) bei Querschnittsdaten. Kap. 5 Fehlende Datenwerte/Missing Values geht darauf genauer ein.
184
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.48 Speicherung der Residuen
Autokorrelationsfunktion der Abb. 3.10. Alternativ bekommen wir die Autokorrelationsfunktion über die Menüsteuerung mittels [Statistics > Time series > Graphs > Correlogram (ac)]. Es erscheint die Oberfläche der Abb. 3.49. Wir geben links oben im Feld „Variable“ ein, für welche Variable wir die Autokorrelationsfunktion berechnen wollen. Hier sind dies die Residuen unseres Modell_1, also die Variable Residuals_1. Ansonsten behalten wir die Voreinstellungen bei und drücken auf den Button „OK“. Es folgt Abb. 3.9 des Abschn. 3.4.2. Analog generieren wir die Partielle Autokorrelationsfunktion über [Statistics > Time series > Graphs > Partial correlogram (pac)]. Dies führt zu Abb. 3.10 vorne. Verschiedene Tests auf Autokorrelation finden sich unter [Statistics > Linear models and related > Linear regression > Regression diagnostics > Specification tests, etc.]. In Abb. 3.50 wählen wir den Breusch-Godfrey-Test auf Autokorrelation und legen im Feld „Specify a list of lag orders to be tested“ die Lags 1 bis 4 und 12 fest. Nach Tippen des Buttons „OK“ erscheint das uns bereits bekannte Resultat. Es findet sich oben in Tab. 3.1. Entsprechend können wir – wie in Abb. 3.50 ersichtlich – auch den Durbin-d-Test und den alternativen Durbin-h-Test aufrufen.
3.9 Durchführung in SPSS und Stata
185
Abb. 3.49 Autokorrelationsfunktion Residuen Modell_1
Zur Durchführung des Q-Tests, bzw. um eine andere Darstellungsform der Autokorrelationsfunktion sowie der partiellen Autokorrelationsfunktion zu erhalten, dient die Eingabe von „corrgram Residuals_1“ im Feld „Command“. Das gleiche Resultat über die Menüsteuerung mittels [Statistics > Time series > Graphs > Autocorrelations & partial autocorrelations] und dann Eingabe von Residuals_1 zeigt auszugsweise (nur bis zum Lag 15) Abb. 3.51. In der Mitte sehen wir den Q-Test für die Lags von 1–40 (dies ist die Voreinstellung). Er testet zu jedem Lag, ob bis dahin und einschließlich des jeweiligen Lags Autokorrelation existiert. Dies trifft beim Lag 1 zu, und auch für alle höheren Lags sind die Q-Tests signifikant. Rechts davon befinden sich die Autokorrelationsfunktion und die partielle Autokorrelationsfunktion, nur in anderer Darstellungsform als in den Abb. 3.9 und 3.10. Die signifikanten Autokorrelationen deuten – wenig überraschend – darauf hin, dass unser Modell_1 erhebliche Defizite aufweist. Es ist viel zu einfach und bildet die tatsächliche Entwicklung der Arbeitslosenquote nur ansatzweise ab. Insbesondere liegt auf der Hand, dass unser Modell_1 die saisonale Entwicklung der Arbeitslosenquote überhaupt nicht berücksichtigt. Daher erweitern wir die Spezifikation um die Variable Month_. Durch das Präfix „i.“ weiß Stata, dass es sich um eine Faktorvariable handelt, und bildet auto-
186
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.50 Stata-Autokorrelationstests
matisch einen Set von Dummyvariablen für jeden Monat von Februar bis Dezember. Die erste Kategorie, also hier der Monat Januar, wird von Stata weggelassen, da er als Referenzkategorie dient (siehe Stoetzer 2017, Abschn. 3.6). Dies ist unser Modell_2 in Abb. 3.52. Im Vergleich zum Januar, der Referenzkategorie, haben die Monate Mai bis einschließlich Dezember eine signifikant geringere Arbeitslosigkeit (nur der August ist ein Grenzfall). Die weiteren Schritte erfolgen wie oben für das Modell_1 bereits beschrieben. Sie werden hier nicht noch einmal wiederholt. Nach Abspeicherung der Residuen des Modells_2 als neue Variable Residuals_2 betrachten wir uns deren Autokorrelationsfunktion (Abb. 3.53). Die saisonalen Schwingungen der Arbeitslosigkeit sind durch die Aufnahme der Monate beseitigt worden. Es existiert aber nach wie vor eine starke positive Autokorrelation
3.9 Durchführung in SPSS und Stata
187
corrgram Residuals_1 -1 0 1 -1 0 1 LAG AC PAC Q Prob>Q [Autocorrelation] [Partial Autocor] ------------------------------------------------------------------------------1 0.9206 0.9241 145.79 0.0000 |------|------2 0.7927 -0.3988 254.52 0.0000 |--------| 3 0.6839 0.2717 335.95 0.0000 |----|-4 0.6263 0.1902 404.65 0.0000 |----|5 0.6199 0.2327 472.36 0.0000 |---|6 0.6094 -0.2493 538.21 0.0000 |----| 7 0.5553 -0.1299 593.21 0.0000 |----| |-8 0.5004 0.3456 638.16 0.0000 |---9 0.4978 0.4692 682.91 0.0000 |--|--10 0.5399 -0.0556 735.89 0.0000 |---| 11 0.5989 -0.1185 801.49 0.0000 |---| 12 0.6106 -0.2097 870.12 0.0000 |----| 13 0.5011 -0.7892 916.63 0.0000 |---------| 14 0.3574 0.2392 940.44 0.0000 |-|15 0.2388 0.2427 951.14 0.0000 ||-
Abb. 3.51 Korrelogramm regress Arbeitslosenquote Zeit i.MONTH_ Source | SS df MS -------------+---------------------------------Model | 496.246523 12 41.3538769 Residual | 86.1352525 156 .552149054 -------------+---------------------------------Total | 582.381775 168 3.46655819
Number of obs F(12, 156) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
169 74.90 0.0000 0.8521 0.8407 .74307
-----------------------------------------------------------------------------Arbeitslos~e | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Zeit | -.0340686 .0011739 -29.02 0.000 -.0363874 -.0317498 | MONTH_ | 2 | .0496571 .2761949 0.18 0.858 -.4959072 .5952214 3 | -.0877029 .2761724 -0.32 0.751 -.6332228 .457817 4 | -.3250629 .276155 -1.18 0.241 -.8705483 .2204225 5 | -.60528 .2761425 -2.19 0.030 -1.150741 -.0598192 6 | -.7497829 .276135 -2.72 0.007 -1.295229 -.2043369 7 | -.6085714 .2761325 -2.20 0.029 -1.154012 -.0631304 8 | -.5459314 .276135 -1.98 0.050 -1.091377 -.0004854 9 | -.80472 .2761425 -2.91 0.004 -1.350181 -.2592592 10 | -.9277942 .276155 -3.36 0.001 -1.47328 -.3823088 11 | -.9722971 .2761724 -3.52 0.001 -1.517817 -.4267772 12 | -.7953714 .2761949 -2.88 0.005 -1.340936 -.2498071 | _cons | 10.97583 .216255 50.75 0.000 10.54866 11.403 ------------------------------------------------------------------------------
Abb. 3.52 Modell_2 Arbeitslosenquote
erster bis ca. zwölfter Ordnung. Der Breusch-Godfrey-Test (siehe Abb. 3.54) bestätigt diese offensichtliche Struktur, ebenso wie die anderen Tests auf Autokorrelation. Wir unterstellen trotzdem vereinfachend im Folgenden, dass Modell_2 richtig spezifiziert ist. Da es keine autoregressive Komponente enthält, können wir die vorhandene Au-
188
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.53 Autokorrelationsfunktion Modell_2
Abb. 3.54 Breusch-Godfrey-Test des Modell_2
tokorrelation durch den Newey-West-Schätzer berücksichtigen und so HAC-konsistente Standardfehler ermitteln. Die Newey-West-Standardfehler sind mittels des Kommandos „newey“ anstatt „regress“ anzufordern. Wir gehen über [Statistics > Times series > Regression with Newey- West std errors]. Es muss dann zusätzlich die maximale Anzahl von Lags spezifiziert werden. Hier bietet es sich an, die Lag-Länge LHAC entsprechend der Regel 4 T bzw. 0,75 × T1/3 zu wählen. Da in unserer Regression T gleich 169 ist, ergibt sich ein Wert von 3,61 bzw. 4,15. Wie wählen daher für die Newey-West-Standardfehler einen Lag von 4 (im Feld „Maximum lag to consider in the autocorrelation structure“) in der Abb. 3.55. Nach Drücken des Button „OK“ finden wir das Resultat der Abb. 3.56.
3.9 Durchführung in SPSS und Stata
189
Abb. 3.55 Newey-West-Regression Modell_2
Die Resultate unterscheiden sich hinsichtlich der Koeffizientenschätzungen nicht von der OLS-Regression aus Abb. 3.52. Dies muss so sein. Aber auch die Ergebnisse zur Signifikanz der unabhängigen Variablen ähneln sich. Die Standardfehler sind bei der Variable Zeit größer, bei den Monatsdummys aber sogar kleiner als in der einfachen OLS-Regression. Allerdings weist auch Modell_2 – wie oben ermittelt – starke Autokorrelation auf. Daher erweitern wir unsere Spezifikation und modellieren die Persistenzen in einem autoregressiven Modell zweiter Ordnung. Diese AR(2)-Spezifikation enthält die abhängige Variable Arbeitslosenquote mit ihrem ersten und zweiten Lag. Diese werden sehr einfach durch das Präfix „L1.“ bzw. „L2.“ vor der Variablen Arbeitslosenquote eingefügt. Dies ist unser Modell_3 (siehe Abb. 3.57). Die Zahl der Beobachtungen, auf denen die Regression beruht, beträgt jetzt nur noch 167, da zwei Beobachtungen wegen des Lags zweiter Ordnung entfallen. Der Einfluss der Variable Zeit ist scheinbar deutlich gesunken. Allerdings ist dabei zu berücksichtigen, dass die Interpretation der Koeffizientenschätzung der Variable Zeit jetzt nicht mehr mit der Regression ohne AR-Komponente vergleichbar ist. Im Modell_2 sagt uns der Koeffizient, dass pro Monat im Beobachtungszeitraum die Arbeitslosenquote um 0,034 abgenommen hat. Der Koeffizient von −0,0007 im Modell_3 ist jetzt der Einfluss der Zeit unter Berücksichtigung der Wirkung der Arbeitslosigkeit der beiden Vorperioden auf die Arbeitslosigkeit der laufenden Periode. Dies ist kaum inhaltlich sinnvoll interpretierbar. Ein Nachteil, der bei der Verwendung von autoregressiven Spezifikationen immer auftaucht.
190
3 Zeitreihenanalyse und dynamische Modelle . newey Arbeitslosenquote Zeit i. MONTH_, lag(4) Regression with Newey-West standard errors maximum lag: 4
Number of obs = F( 12, 156) = Prob > F =
169 12.72 0.0000
-----------------------------------------------------------------------------| Newey-West Arbeitslos~e | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Zeit | -.0340686 .0030883 -11.03 0.000 -.040169 -.0279682 | MONTH_ | 2 | .0496571 .1345192 0.37 0.713 -.2160571 .3153712 3 | -.0877029 .1939035 -0.45 0.652 -.4707182 .2953123 4 | -.3250629 .2210181 -1.47 0.143 -.7616372 .1115115 5 | -.60528 .2462695 -2.46 0.015 -1.091733 -.118827 6 | -.7497829 .2686853 -2.79 0.006 -1.280514 -.2190521 7 | -.6085714 .2696746 -2.26 0.025 -1.141256 -.0758865 8 | -.5459314 .2696902 -2.02 0.045 -1.078647 -.0132157 9 | -.80472 .2500961 -3.22 0.002 -1.298732 -.3107083 10 | -.9277942 .2232073 -4.16 0.000 -1.368693 -.4868956 11 | -.9722971 .1920299 -5.06 0.000 -1.351611 -.5929828 12 | -.7953714 .1489414 -5.34 0.000 -1.089573 -.5011693 | _cons | 10.97583 .3982757 27.56 0.000 10.18912 11.76254 ------------------------------------------------------------------------------
Abb. 3.56 Resultat Newey-West Regression Modell_2
regress Arbeitslosenquote Zeit i.MONTH_ L1.Arbeitslosenquote L2.Arbeitslosenquote Source | SS df MS -------------+---------------------------------Model | 531.632096 14 37.9737211 Residual | 1.11928145 152 .007363694 -------------+---------------------------------Total | 532.751377 166 3.20934565
Number of obs F(14, 152) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
167 5156.88 0.0000 0.9979 0.9977 .08581
----------------------------------------------------------------------------------Arbeitslosenquote | Coef. Std. Err. t P>|t| [95% Conf. Interval] ------------------+---------------------------------------------------------------Zeit | -.0007239 .0003458 -2.09 0.038 -.0014071 -.0000406 | MONTH_ | 2 | -.8937422 .0500098 -17.87 0.000 -.9925461 -.7949382 3 | -.7547012 .03434 -21.98 0.000 -.8225465 -.6868558 4 | -.7725232 .0392433 -19.69 0.000 -.8500559 -.6949905 5 | -.7776371 .0430046 -18.08 0.000 -.8626011 -.692673 6 | -.6309901 .0447949 -14.09 0.000 -.7194912 -.542489 7 | -.4104213 .0390106 -10.52 0.000 -.4874943 -.3333484 8 | -.6131371 .0325685 -18.83 0.000 -.6774825 -.5487918 9 | -.8978447 .0334061 -26.88 0.000 -.9638449 -.8318444 10 | -.6258538 .0438446 -14.27 0.000 -.7124772 -.5392303 11 | -.6118155 .0382964 -15.98 0.000 -.6874775 -.5361535 12 | -.4270889 .0357817 -11.94 0.000 -.4977826 -.3563953 | Arbeitslosenquote | L1. | 1.41918 .0686147 20.68 0.000 1.283618 1.554741 L2. | -.4477546 .0678852 -6.60 0.000 -.581875 -.3136343 | _cons | .8694856 .0992048 8.76 0.000 .6734873 1.065484
Abb. 3.57 Modell_3 Arbeitslosenquote
3.9 Durchführung in SPSS und Stata
191
Die Residuen des Modells_3 analysieren wir wie oben bereits für Modell_1 beschrieben. Abb. 3.58 enthält die Autokorrelationsfunktion der Residuen des Modells_3 in zwei verschiedenen Darstellungsformen. Klare Autokorrelationsmuster sind nicht mehr zu sehen. Dies gilt auch für die nicht abgebildete partielle Autokorrelationsfunktion. Ein
corrgram Residuals_3 1 -1 0 1 -1 0 LAG AC PAC Q Prob>Q [Autocorrelation] [Partial Autocor] ------------------------------------------------------------------------------1 -0.0344 -0.0364 .20177 0.6533 | | 2 0.1416 0.1495 3.6305 0.1628 ||3 -0.1002 -0.1024 5.3597 0.1473 | | 4 -0.0189 -0.0452 5.4216 0.2467 | | 5 -0.0987 -0.0873 7.1178 0.2120 | | 6 0.1656 0.1906 11.922 0.0637 ||7 -0.0656 -0.0571 12.681 0.0803 | | 8 -0.0553 -0.1418 13.223 0.1044 | -| 9 -0.0680 -0.0391 14.05 0.1206 | | 10 -0.0438 -0.0203 14.394 0.1558 | | 11 0.0650 0.0845 15.158 0.1754 | | 12 0.2083 0.2150 23.056 0.0273 ||13 0.0679 0.0706 23.9 0.0321 | | 14 -0.0705 -0.1212 24.818 0.0364 | | 15 -0.0508 -0.0918 25.296 0.0461 | | 16 -0.1075 -0.0714 27.456 0.0367 | | 17 -0.0599 -0.0823 28.131 0.0434 | | 18 -0.0027 -0.0604 28.132 0.0601 | | 19 -0.0955 -0.0948 29.871 0.0535 | | 20 -0.0969 -0.0755 31.673 0.0469 | | 21 -0.0205 -0.0059 31.754 0.0620 | | 22 -0.0362 -0.0117 32.009 0.0772 | | 23 0.0843 0.0448 33.401 0.0743 | | 24 -0.0632 -0.1840 34.189 0.0814 | -|
Abb. 3.58 Autokorrelationsfunktion Residuen Modell_3
192
3 Zeitreihenanalyse und dynamische Modelle
Breusch-Godfrey-Test auf Autokorrelation (Lag 4) ergibt, dass die Nullhypothese „keine Autokorrelation“ nicht abzulehnen ist (Chi2: 5,568; Prob > Chi2 = 0,234). Nach einem Vergleich der verschiedenen Tests könnte nur die Autokorrelation zwölfter Ordnung einen signifikanten Beitrag darstellen. Das korrigierte R2 beträgt 0,998. Die Anpassung der Regression an die Daten ist daher als sehr hoch einzustufen. Zur Ermittlung des besten Modells unter verschiedenen Spezifikationen sind das AIC und das BIC geeignete sogenannte Informationskriterien (Information Criteria). Für die drei Modelle können wir AIC und BIC direkt nach den jeweiligen Regressionsergebnissen mittels der Eingabe von „estat ic“ im Kommandofeld (Command) abrufen. Länger dauert dies über die Menüauswahl [Statistics > Postestimation > Specification, diagnostic, and goodness-of-fit analysis]. Es erscheint Abb. 3.59 und dort wählen wir die Option „Information criteria – AIC and BIC“.
Abb. 3.59 Modellauswahl mittels Informationskriterien
3.9 Durchführung in SPSS und Stata
193
Nach Drücken des Buttons „Launch“ und anschließend „OK“ – bei ansonsten unveränderten Voreinstellungen – werden AIC und BIC ausgegeben. Für Modell_3 zeigt Abb. 3.60 das Ergebnis. Der Vergleich der Modelle 1 bis 3 anhand des AIC und des BIC (Abb. 3.61) bestätigt unsere Vermutung. Das Modell_3 weist mit Abstand die kleinsten Werte für AIC und BIC auf und ist insoweit die beste dieser drei Spezifikationen. Bereits auf Basis der korrigierten R2, die in der letzten Spalte abgebildet sind, war dies zu erwarten. Im Modell_3 sind ein einfacher Trend und regelmäßige monatliche (saisonale) Veränderungen kontrolliert. Außerdem wird die Persistenz der Arbeitslosigkeit berücksichtigt. Um in einem Modell mit einer weiteren unabhängigen Variablen – bspw. in Form der Inflationsrate – Scheinkorrelationen auszuschließen, muss allerdings Stationarität der einbezogenen Variablen (bspw. Arbeitslosenquote und Inflation) vorliegen. Und auch die Anwendung von univariaten ARMA-Modellen für die Prognose basiert auf der Prämisse, dass Stationarität gegeben ist oder durch geeignete Modellierung hergestellt werden kann. Dies bedeutet, dass die Variable Arbeitslosenquote auch keinem Random-Walk-Prozess (d. h. stochastischen Trend) folgen darf. Zur Überprüfung verwenden wir zunächst den Augmented Dickey-Ful ler-Test (ADF-Test) und dann zum Vergleich den DF-GLS-Test. Der ADF-Test wird menügesteuert aufgerufen über [Statistics > Time series > Tests > Augmented Dickey-Fuller unit-root test]. Nach der obigen Abbildung der Autokorrelationsfunktion der Variable Arbeitslosenquote ist auf jeden Fall ein Trend plausibel. Diesen berücksichtigen wir, indem ein Häkchen bei „Include trend term in regression“ gesetzt wird. Außerdem ergibt sich aus der Autokorrelationsfunktion, dass neben dem Trend sicher Autokorrelation erster Ordnung vorliegt. Daher fügen wir im Feld „Lagged differences“ der Abb. 3.62 eine 1 ein.
estat ic Akaike's information criterion and Bayesian information criterion ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 167 -333.8278 180.9804 15 -331.9608 -285.1909 ----------------------------------------------------------------------------Note: N=Obs used in calculating BIC; see [R] BIC note.
Abb. 3.60 AIC und BIC des Modell_3
AIC Modell_1
405.0476
BIC 411.3074
korr. R2 0,817
Modell_2
391.6986
432.3873
0,841
Modell_3
- 331.9608
-285.1909
0,998
Abb. 3.61 Modellvergleich mittels AIC, BIC und korr. R2
194
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.62 ADF-Test der Arbeitslosenquote
dfuller Arbeitslosenquote, trend lags(1) Augmented Dickey-Fuller test for unit root
Number of obs
=
167
---------- Interpolated Dickey-Fuller --------Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value -----------------------------------------------------------------------------Z(t) -4.264 -4.018 -3.441 -3.141 -----------------------------------------------------------------------------MacKinnon approximate p-value for Z(t) = 0.0036
Abb. 3.63 ADF-Test mit Trend und Lag 1
Da Ergebnis zeigt Abb. 3.63. In der ersten Zeile steht wieder der syntaxbasierte Befehl im Feld „Command“, den wir über unsere Menüeingabe aufgerufen haben. Die relevante Teststatistik nennt sich z und beträgt −4,264. Ihr Signifikanzniveau p liegt bei 0,0036. Die Nullhypothese einer Unit Root (= Nichtstationarität) lehnt der ADF-Test also auch auf dem 1-%-Niveau ab. Wir gehen daher von Stationarität aus. Modellieren wir dagegen die Regression wie in Abb. 3.57 – aber ohne Trend und mit einem Lag 0 –, resultiert der Output der Abb. 3.64.
3.9 Durchführung in SPSS und Stata
195
In diesem Fall wird die Nullhypothese auf dem 5-%-Niveau nicht abgelehnt. Das heißt, es existiert eine Unit Root, und damit ist die Variable Arbeitslosenquote ohne Berücksichtigung eines Trends und Lags nicht stationär. Den DF-GLS-Test setzen wir wie folgt ein: [Statistics > Time series > Tests > DF- GLS test for a unit root]. In der Menüoberfläche (siehe Abb. 3.65) fügen wir die Variable Arbeitslosenquote im Feld „Variable“ ein, ansonsten behalten wir die Voreinstellungen bei. Nach „OK“ erhalten wir das Testresultat der Abb. 3.66. Der Test berücksichtigt als Default einen linearen Trend und prüft die Nullhypothese, ob die trendbereinigte Variable einen Random Walk (ggf. mit Drift) aufweist. Zunächst (im unteren Teil zu sehen) analysiert der Test in Stata, welcher Lag infrage kommt. Dazu werden drei verschiedene Methoden eingesetzt (Ng-Perron, SC (Schwarz Information Criterion) und MAIC (Modified Akaike Information Criterion)). Alle drei identifizieren den Lag 13. Ordnung als relevant. Im oberen Teil wird für den 1. bis 13. Lag die
dfuller Arbeitslosenquote, lags(0) Dickey-Fuller test for unit root
Number of obs
=
168
---------- Interpolated Dickey-Fuller --------Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value -----------------------------------------------------------------------------Z(t) -2.310 -3.487 -2.885 -2.575 -----------------------------------------------------------------------------MacKinnon approximate p-value for Z(t) = 0.1687
Abb. 3.64 ADF-Test Lag 0
Abb. 3.65 DF-GLS-Test
196
3 Zeitreihenanalyse und dynamische Modelle dfgls Arbeitslosenquote DF-GLS for Arbeitslosenqu~e Maxlag = 13 chosen by Schwert criterion
Number of obs =
155
DF-GLS tau 1% Critical 5% Critical 10% Critical [lags] Test Statistic Value Value Value -----------------------------------------------------------------------------13 -1.886 -3.497 -2.798 -2.522 12 -2.870 -3.497 -2.814 -2.537 11 -0.705 -3.497 -2.830 -2.551 10 -0.502 -3.497 -2.845 -2.565 9 -0.429 -3.497 -2.860 -2.579 8 -0.356 -3.497 -2.874 -2.592 7 -0.863 -3.497 -2.888 -2.604 6 -1.320 -3.497 -2.901 -2.616 5 -1.130 -3.497 -2.913 -2.628 4 -0.836 -3.497 -2.925 -2.638 3 -1.167 -3.497 -2.936 -2.648 2 -1.517 -3.497 -2.946 -2.657 1 -2.178 -3.497 -2.955 -2.666 Opt Lag (Ng-Perron seq t) = 13 with RMSE Min SC = -4.42804 at lag 13 with RMSE Min MAIC = -4.653782 at lag 13 with RMSE
.0870052 .0870052 .0870052
Abb. 3.66 Ergebnis des DF-GLS-Tests
DF-GLS-Teststatistik „tau“ ausgewiesen. Bei den Lags von 1 bis 11 und 13 ist tau (absolut betrachtet) kleiner als die auf dem 5-%-Niveau kritischen Grenzwerte (siehe Spalte „5 % Critical Value“).46 Das heißt, wir können die Nullhypothese „nicht stationär“ nicht ablehnen. Für den Lag 12 ist tau (−2,870) absolut größer als der 5-%-Grenzwert (−2,814). Bei einem Lag von 12 ist daher die H0 abzulehnen, und wir gehen davon aus, dass die Arbeitslosenquote mit diesem Lag stationär ist, wenn der Trend berücksichtigt wird. Dies ist inhaltlich plausibel, denn bei Kontrolle des Trends liegt es für unsere Monatsdaten nahe, dass Zusammenhänge jeweils von Januar zu Januar, Februar zu Februar usw. vorhanden sind. Der DF-GLS-Test von Stata vermittelt uns also deutlich mehr Informationen als der ADF-Test. Um die Stationarität einer Variablen herzustellen, wird diese differenziert. Die Bildung erster Differenzen der Arbeitslosenquote ist in Stata einfach durchführbar. Menügesteuert erfolgt dies über [Data > Create or change data > Create new variable]. Es erscheint Abb. 3.67. Dort geben wir im Feld „Variable name“ der zu kreierenden Variable einen Namen (hier: FD1_Arbeitslosenquote). Im Feld „Contents of variable“ wird festgelegt, wie die Variable FD1_Arbeitslosenquote berechnet wird. Durch Eingabe von „D1.Arbeitslosenquote“ sagen wir Stata, dass die erste Differenz der Variablen Arbeitslosenquote gebildet werden soll.47 Kürzer erhalten wir dieses Ergebnis durch Eingabe von „generate D1_Arbeitslosenquote = FD1.Arbeitslosenquote“ im Feld Command der Stata-Oberfläche. 46 Die Verteilung der kritischen Werte des ADF- und DF-GLS Tests entspricht nicht der Normalbzw. t-Verteilung. Sie wird daher bei beiden Tests von Stata mit ausgewiesen. Die Konsequenz ist, dass auch die Faustregel für den t-Test (|t| > 2) nicht zutrifft. 47 Weiter oben wurde bereits erläutert, wie mittels des Präfix „L1.“ der erste Lag einer Variablen
3.9 Durchführung in SPSS und Stata
197
Abb. 3.67 Bildung erster Differenzen
Das Resultat sehen wir uns mittels [Statistics > Time series > Graphs > Line plots] an. Im dann erscheinenden Menüfeld klicken wir auf den Button „Create …“ Es erscheint Abb. 3.68. Im Feld „Y variable“ setzen wir die neue Variable FD1_Arbeitslosenquote ein. Dann geht es mit „Accept“ und anschließend „OK“ weiter. Alternativ ist dies syntaxbasiert über Eingabe von „twoway (tsline FD1_Arbeitslosenquote)“ im Feld „Command“ möglich. Das Resultat – nämlich die Abb. 3.17 vorne – kennen wir bereits. Im nächsten Schritt wird mittels des ADF-Tests überprüft, ob die ersten Differenzen der Arbeitslosenquote stationär sind. In der Abb. 3.62 setzen wir also unsere Variable FD1_Arbeitslosenquote ein. Wie Abb. 3.69 zeigt, wird die Nullhypothese „nicht stationär“ abgelehnt. Die erste Differenz der Arbeitslosenquote ist daher stationär. Wir können also mit der Variablen FD1_Arbeitslosenquote ARMA-Modelle spezifizieren (bzw. äquivalent ARIMA-Modelle mit der Variable Arbeitslosenquote). Außerdem ist damit die Gefahr der Scheinkorrelation gebannt (oder zumindest verringert). Der hier nicht abgebildete DF-GLS-Test der ersten Differenzen der Arbeitslosenquote zeigt aber ein komplexeres Bild. Höhere Lags sind zum Teil nicht stationär. Eine naheliegende Erklärung ist die saisonale Struktur der Veränderung der Arbeitslosenquote, die zusätzlich modelliert werden muss. Dies sollte aufgrund der vorliegenden Informationen durchgeführt werden. Wir verzichten aber zunächst darauf. Falls saisonale oder andere Effekte als Erklärung ausscheiden, besteht eine weitere Alternative darin, die zweiten Difgeneriert wird. Das Präfix „D2.“ ermöglicht die Berechnung der zweiten Differenz usw. Mittels des Präfix „S“ bilden wir saisonale Differenzen. So führt „S12.Arbeitslosenquote“ zur Differenz der Arbeitslosenquote eines Monats mit dem Wert des Vorjahresmonats. Damit werden saisonale Veränderungen beseitigt.
198
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.68 Zeitreihenplot
dfuller FD1_Arbeitslosenquote, lags(0) Dickey-Fuller test for unit root
Number of obs
=
167
---------- Interpolated Dickey-Fuller --------Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value -----------------------------------------------------------------------------Z(t) -8.806 -3.488 -2.886 -2.576 -----------------------------------------------------------------------------MacKinnon approximate p-value for Z(t) = 0.0000
Abb. 3.69 ADF-Test der ersten Differenzen
ferenzen zu ermitteln und anschließend wie eben beschrieben auf Stationarität zu testen. In der Praxis sind erste Differenzen in der Regel ausreichend, um Stationarität zu erreichen. Nur selten ist es erforderlich, zweite Differenzen zu bilden. Dabei müssen aber immer auch inhaltliche Aspekte einbezogen werden. Wenn gerade der Trend der Arbeitslosenquote unser Forschungsproblem darstellt, macht es ggf. wenig Sinn, diesen Trend durch Bildung erster Differenzen zu beseitigen. Die Erfassung des Trends durch die Ermittlung seiner relevanten Einflussfaktoren ist dann ein sinnvolles Vorgehen. Zur Analyse möglicher Strukturbrüche zeitreihenbasierter Regressionen bietet Stata mehrere Tests. Es handelt sich um Varianten des Chow-Tests. Standardmäßig weist Stata den Supremum-Wald-Test aus. Drei verschiedene Ansätze sind vorhanden: Die Prozedur „sbknown“ für Strukturbrüche mit bekanntem Zeitpunkt und das Verfahren „sbsingle“ für Strukturbrüche mit einem unbekannten Zeitpunkt. Im Unterschied zum klassischen Chow- Test sind beide robust gegen beliebige Formen von Heteroskedastie. Das dritte Verfahren „sbcusum“ ist darüber hinaus ein Test für die Stabilität der Koeffizienten. Die beiden letzten Tests sind auch geeignet, das Vorliegen von gleitenden Veränderungen der Koeffizienten (Gradual Breaks) zu überprüfen.
3.9 Durchführung in SPSS und Stata
199
Bei einer Zeitreihe der jährlichen Arbeitslosenquote in Deutschland von 1980 bis 2005 liegt ein Strukturbruch im Jahr 1991/1992 auf der Hand. Die Wiedervereinigung und ihre Folgen für den Arbeitsmarkt in den neuen Bundesländern waren mit einem sprunghaften Anstieg der Arbeitslosenquote in ganz Deutschland verbunden. In diesem Beispiel ist die Verwendung der Prozedur „sbknown“ naheliegend. Aber in unserem Beispiel zur monatlichen Arbeitslosenquote von 2005 bis 2018 ist inhaltlich a priori kein klarer Bruchzeitpunkt offensichtlich. Daher schätzen wir das Modell_1 noch einmal und setzen dann den Test „sbsingle“ ein. Menügesteuert mittels [Statistics > Linear models and related > Regression diagnostics > Specification tests, etc.] erscheint das Fenster der Abb. 3.70. Im Feld oben „Reports and statistics: (subcommand)“ scrollen wir nach unten bis zum Test „sbsingle“. Anschließend wird im Feld „Break variables:“ die Variable Zeit eingetragen. Die restlichen Voreinstellungen ändern wir nicht und führen mit Klick auf den Button
Abb. 3.70 Strukturbruchtest (unbekannter Zeitpunkt)
200 Abb. 3.71 Ergebnis des Strukturbruchtests
3 Zeitreihenanalyse und dynamische Modelle . estat sbsingle Test for a structural break: Unknown break date Number of obs = Full sample: Trimmed sample: Estimated break date: Ho: No structural break
169
1 - 169 27 - 144 49
Test Statistic p-value ----------------------------------------------swald 598.3578 0.0000 ----------------------------------------------Exogenous variables: Zeit Coefficients included in test: Zeit _cons
„OK“ den Test durch. Weitere Tests wie der erwähnte „sbknown“ sind dort ebenfalls abrufbar. Das Ergebnis des Tests gibt Abb. 3.71 wieder. Die Nullhypothese „kein Strukturbruch vorhanden“ wird klar abgelehnt. Der geschätzte Zeitpunkt des Strukturbruchs liegt in der Periode 49. Dies ist der Januar 2009. Der Blick auf Abb. 3.3 bestätigt das Resultat. Mit dem Jahresbeginn 2009 flacht der fallende Verlauf der Arbeitslosenquote ab. Der Strukturbruch wird durch eine neue Variable Break_12_2008 ins Modell integriert. Es handelt sich um eine Dummyvariable mit dem Wert 1 für die Monate bis einschließlich 12/2008 und dem Wert 0 für alle Monate danach.48 Dann erweitern wir unser Modell_2 um diese Variable. Da es sich nach Abb. 3.3 nicht um eine Niveauverschiebung handelt, sondern eher um eine Änderung der Steigung des Trends, nehmen wir zusätzlich den Interaktionseffekt der Variablen Zeit und Break_12_2008 auf.49 Die erste Zeile der Abb. 3.72 enthält die Kommandosyntax dazu. Die Residuen der Regression sind stark positiv autokorreliert und die t-Werte sowie Signifikanzniveaus insoweit nicht verlässlich (t-Werte zu groß und empirische Signifikanzniveaus zu klein). Auch eine Newey-West-Schätzung von HAC-Standardfehlern ändert inhaltlich an den Resultaten der obigen OLS-Schätzung nichts. Die Ergebnisse (auf deren Wiedergabe hier verzichtet wird) machen deutlich, dass mit dem Januar 2009 ein Strukturbruch verbunden ist. Davor ist im Mittel die Arbeitslosenquote um fast 3,4 Prozentpunkte höher und der Rückgang der Arbeitslosenquote ist in diesem Zeitraum deutlich stärker. Er beträgt im Mittel −0,114 Prozentpunkte pro Monat (dies ergibt sich aus: −0,0237 + −0,0907), während ab dem Januar 2008 die Arbeitslosenquote im Monat nur noch um −0,0237 sinkt. Im nächsten Schritt analysieren wir die Prognosefähigkeiten von Zeitreihendaten im Rahmen eines ARIMA-Modells (ARIMA(p,d,q)). Dabei erklären wir die Entwicklung 48 Häufig wird die auch umgekehrt kodiert – also die Perioden vor dem Strukturbruch erhalten eine 0 und die nach dem Bruch folgenden Perioden eine 1. Dies ist für das Ergebnis irrelevant, muss aber bei der Interpretation des Koeffizienten beachtet werden. 49 Zur Anwendung und Interpretation von Interaktionseffekten siehe Stoetzer (2017, Abschn. 3.4).
3.9 Durchführung in SPSS und Stata
201
Abb. 3.72 Regression mit Strukturbruch
der Arbeitslosenquote in einem univariaten Ansatz, das heißt nur aus sich selbst heraus. Dies impliziert, dass wir auf theoretische Überlegungen zu den Ursachen der Arbeits losigkeit verzichten. Damit geben wir den Anspruch, kausale Zusammenhänge zu überprüfen, auf und gehen datengetrieben vor. Oben hatten wir bereits festgestellt, dass die Arbeitslosenquote einen Trend aufweist, den wir durch die Verwendung erster Differenzen (weitgehend) beseitigen. Der Integrationsgrad (d) ist daher gleich 1. Außerdem müssen wir im ARIMA-Modell die Lag-Ordnung für den autoregressiven Teil (p) und den Moving- Average-Teil (q) bestimmen. Dazu untersuchen wir die ACF und die PACF der ersten Differenzen der Variable Arbeitslosenquote. Diese legen ein ARIMA-Modell nahe, das die Autokorrelation erster und zweiter Ordnung sowie außerdem die saisonale Komponente im Modell berücksichtigt. Letztere resultiert aus den im 12-Monats Rhythmus regelmäßig schwankenden Arbeitslosenquoten. Aber zunächst unterstellen wir als einfachen Ausgangspunkt einen autoregressiven Lag zweiter Ordnung, eine erste Differenz (Integrationsgrad 1) und keinen Moving-Average- Prozess. Zusammengeführt resultiert also ein ARIMA(2,1,0)-Modell. Menügesteuert folgt nach [Statistics > Time series > ARIMA and ARMAX models] die Menüoberfläche der Abb. 3.73. Abhängige Variable ist die Arbeitslosenquote. In unserem univariaten Ansatz gibt es keine unabhängigen Variablen, dieses Feld bleibt daher leer. Darunter (im Feld „ARIMA model specification“) fügen wir unsere Modellspezifikation ein, die wir ARIMA_1 Modell nennen.
202
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.73 ARIMA_1 (2,1,0)-Modell der Arbeitslosenquote
Den Output der Regression zeigt Abb. 3.74.50 Das Maximum-Likelihood-Schätz verfahren ist komplex und kann nur iterativ gelöst werden. Die Iterationsschritte werden von Stata ausgegeben, sind aber hier nicht mit abgebildet. Die erste Zeile der Abb. 3.74 enthält wieder die Syntax für das Feld „Command“. Im oberen Abschnitt ist rechts der Wald-Test zu finden. Er prüft die Signifikanz des Gesamtmodells (so wie der uns bekannte F-Test der einfachen Regression). Mit einem Chi2Wert von 33,07 ist das Gesamtmodell auf dem 1-%-Niveau signifikant. Darunter sehen wir die Koeffizientenschätzungen für den Lag erster Ordnung (L1) und den Lag zweiter Ordnung (L2). Deren Standardfehler (Std. Err.) werden nach einem bestimmten mathematischen Verfahren ermittelt, der OPG (Outer Product of Gradient)-Methode. Die z-Werte und ihre Signifikanzniveaus sind wie bei den uns bekannten t-Werten zu interpretieren. Beide Autokorrelationskoeffizienten sind hoch signifikant. Unter diesem Aspekt ist unsere Spezifikation prinzipiell geeignet, die Entwicklung der Arbeitslosenquote abzubilden. Allerdings zeigen die (nicht abgebildeten) ACF und die PACF der Residuen ein deutliches Muster (die zwölften Lags sind signifikant, und es existieren Schwingungen). Daher testen wir zusätzlich, ob die Residuen dieses Modells einem weißen Rauschen entsprechen. Nach Speicherung der Residuen überprüfen wir dies mittels [Statistics > Time series > Tests > Portmanteau white-noise test]. In der Oberfläche dieses Tests (Abb. 3.75 Ggf. kann unter dem Button „Time settings …“ auch die Datenreihe als Zeitreihe charakterisiert werden. In unserem Bsp. war das bereits vorab direkt erfolgt. 50
3.9 Durchführung in SPSS und Stata
203
arima Arbeitslosenquote, arima(2,1,0) ARIMA regression Sample:
2 - 169
Log likelihood = -2.024359
Number of obs Wald chi2(2) Prob > chi2
= = =
168 33.07 0.0000
----------------------------------------------------------------------------------D. | OPG Arbeitslosenquote | Coef. Std. Err. z P>|z| [95% Conf. Interval] ------------------+---------------------------------------------------------------Arbeitslosenquote | _cons | -.0411572 .0296273 -1.39 0.165 -.0992256 .0169111 ------------------+---------------------------------------------------------------ARMA | ar | L1. | .4846044 .0843749 5.74 0.000 .3192327 .6499761 L2. | -.3332023 .1162655 -2.87 0.004 -.5610785 -.1053261 ------------------+---------------------------------------------------------------/sigma | .2446288 .0133936 18.26 0.000 .2183779 .2708797 ----------------------------------------------------------------------------------Note: The test of the variance against zero is one sided, and the two-sided confidence interval is truncated at zero.
Abb. 3.74 ARIMA_1 (2,1,0)-Regression
Abb. 3.75 Portmanteau Test der Residuen
204
3 Zeitreihenanalyse und dynamische Modelle
oberer Teil) geben wir im Feld „Variable“ den Namen der Variable ein, unter dem wir die Residuen abgespeichert haben (hier: „ResidARIMA210“). Nach „OK“ wird der Test mit der Voreinstellung 40 Lags durchgeführt. Über das Feld „Command“ lässt sich der Test direkt durch Eingabe von „wntestq ResidARIMA210“ aufrufen. Die Nullhypothese „Die Residuen unterscheiden sich nicht von weißem Rauschen“ (also keine Strukturen) wird abgelehnt (Abb. 3.75 unterer Teil). Offensichtlich ist, dass die saisonale Struktur der Arbeitslosigkeit berücksichtigt werden muss. Dies geschieht, indem wir die saisonalen Differenzen, hier also die Differenz (Veränderung) der Arbeitslosenquote eines Monats vom entsprechenden Vorjahresmonat berechnen (bspw. Januar 2018 minus Januar 2017, Februar 2018 minus Februar 2017, usw.). Dies erfolgt mittels des Präfix „S12.“ vor der Variablen Arbeitslosenquote.51 Ansonsten behalten wir unsere Modellstruktur bei. Folglich ist in der Abb. 3.73 nur im Feld „Dependent variable“ die Eingabe „Arbeitslosenquote“ durch „S12.Arbeitslosenquote“ zu ersetzen. Oder alternativ wird im Feld „Command“ direkt „arima S12.Arbeitslosenquote, arima(2,1,0)“ eingegeben. Das Ergebnis (unser ARIMA_2 Modell) enthält Abb. 3.76. Das weitere Vorgehen wird jetzt nicht mehr Schritt für Schritt beschrieben und abgebildet, sondern nur noch summarisch erläutert, da die entsprechenden Menübefehle und Outputs in den vorangegangenen Ausführungen bereits behandelt worden sind. Nach Abspeichern der Residuen sehen wir uns die ACF und die PACF des Modells der Abb. 3.76 an und testen, ob die Residuen weißem Rauschen entsprechen. ACF und PACF besitzen jetzt arima S12.Arbeitslosenquote, arima(2,1,0)
91
Würde es sich um Quartalsdaten handeln, wäre das Präfix „S4.“ zu verwenden.
ARIMA regression Sample:
14 - 169
Log likelihood =
147.2283
Number of obs Wald chi2(2) Prob > chi2
= = =
156 82.88 0.0000
----------------------------------------------------------------------------------DS12. | OPG Arbeitslosenquote | Coef. Std. Err. z P>|z| [95% Conf. Interval] ------------------+---------------------------------------------------------------Arbeitslosenquote | _cons | -.0061522 .0186456 -0.33 0.741 -.0426969 .0303925 ------------------+---------------------------------------------------------------ARMA | ar | L1. | .3106087 .0720919 4.31 0.000 .1693111 .4519062 L2. | .2942446 .0702585 4.19 0.000 .1565405 .4319487 ------------------+---------------------------------------------------------------/sigma | .0940467 .0044984 20.91 0.000 .0852301 .1028634 ----------------------------------------------------------------------------------Note: The test of the variance against zero is one sided, and the two-sided confidence interval is truncated at zero.
Abb. 3.76 ARIMA_2 (2,1,0) Regression mit saisonalen Differenzen Würde es sich um Quartalsdaten handeln, wäre das Präfix „S4.“ zu verwenden.
51
3.9 Durchführung in SPSS und Stata
205
keine größeren Auffälligkeiten mehr, und der Portmanteau-Q-Test ergibt, dass die Nullhypothese (White Noise) nicht abgelehnt wird. Als nächsten Schritt spezifizieren wir ein komplexeres Modell (ARIMA_3) mit einem Moving-Average-Effekt erster Ordnung. Wir unterstellen also, dass die Residuen der Vorperiode in der Folgeperiode nachwirken. In der Abb. 3.73 ergänzen wir unser letztes Modell, indem wir bei „Moving average order (q)“ statt der (voreingestellten) 0 eine 1 eintragen. Das Schätzergebnis dieses ARIMA(2,1,1)-Modells (nicht abgebildet) besagt aber, dass ein solcher MA(1)-Prozess nicht signifikant ist. Zusammenfassend stellt sich die Frage, welcher der Spezifikationen der Vorzug gegeben werden sollte. Für den Modellvergleich sind vor allem drei verschiedene Aspekte relevant: AIC und BIC sowie die Signifikanz der Koeffizienten. Wie oben bereits für das Regressionsmodell erläutert, fordern wir AIC und BIC mittels des „estat ic“ Kommandos jeweils im Anschluss an die Modellschätzungen an. Es stellt sich heraus, dass das Modell 2 mit dem kleinsten AIC und BIC am geeignetsten ist (siehe Abb. 3.77). Im Vergleich zum ersten Modell war dies zu erwarten, es gilt aber auch bei Gegenüberstellung mit dem dritten Modell. Dies bedeutet nicht, dass diese Spezifizierung bereits das beste aller möglichen Modelle ist. Erweiterungen beziehen sich erstens auf die Berücksichtigung von Heteroskedastie. Dies ist – wie in Abb. 3.73 sichtbar – möglich, indem unter dem Reiter „SE/Robust“ Standardfehler geschätzt werden, die heteroskedastierobust sind. Zweitens können komplexere saisonale Abhängigkeiten in den Residuen modelliert werden. Stata verfügt in dieser Hinsicht über sehr flexible Möglichkeiten. Die entsprechenden multiplikativen saisonalen ARIMA-Modelle (Sarima-Modelle) werden hier nicht behandelt. Der Sinn des Ganzen besteht darin, eine möglichst gute Prognose zu erhalten, hier der Entwicklung der Arbeitslosenquote. Also benutzen wir das obige ARIMA-Modell 2 jetzt, um eine Prognose über den Beobachtungszeitraum hinaus durchzuführen (Out-of-Sample Prediction). Dazu müssen wir als ersten Schritt Stata kommunizieren, dass es über die vorhandenen Daten hinaus leere Datenfelder für die Prognosewerte einrichten soll. Dies erfolgt mittels „tsappend“ und anschließend der Zahl der Perioden, die prognostiziert werden sollen. Bspw. werden nach Eintippen von „tsappend 12“ im Feld „Command“ zwölf weitere Datenfelder für die Monate Februar 2019 bis Januar 2020 angelegt. Menübasiert erfolgt dies über [Statistics > Time series > Setup and utilities > Add observations to time-series dataset] entsprechend Abb. 3.78.
AIC Modell ARIMA_1: Modell ARIMA_2: Modell ARIMA_3:
ARIMA(2,1,0) S12_ARIMA(2,1,0) S12_ARIMA(2,1,1)
BIC
12,0487
24,5446
-286,4565
-274,2571
-285,1317
Abb. 3.77 Modellvergleich mittels AIC und BIC
-269,8824
206
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.78 Prognosewerte von Zeitreihendaten
Ein Blick in den Datensatz im Data Editor bestätigt, dass Stata zwölf weitere Perioden (natürlich ohne Datenwerte) angelegt hat. Mit „predict Name“ werden die geschätzten Werte der verwendeten abhängigen Variable der letzten Regression unter der neuen – frei wählbaren – Variablenbezeichnung Name abgelegt. Wenn dies D1.Y ist, wird also das geschätzte D1.Y ausgegeben. Mit „predict Name, y“ werden die geschätzten Werte der ursprünglichen (also nicht transformierten) abhängigen Variable Y eingefügt. Die Eingabe von „predict Name, y dynamic(10)“ berechnet Vorhersagen, die für Yt mit t Graphs > Line plots] ist oben bereits erläutert worden. Die durchgezogene Linie zeigt die beobachteten Arbeitslosenquoten unseres Datensatzes. Die gestrichelte Linie stellt die Prognosen unseres ARIMA_2-Modells dar. Rechts wird die prognostizierte Entwicklung vom Februar 2019 bis zum Januar 2020 abgebildet. Die Prognose bis zum Zeitpunkt 169, d. h. dem Januar 2019, ist fast komplett deckungsgleich mit den Istwerten. Für die Durchführung von Vorhersagen bietet Stata eine umfangreiche Auswahl von Möglichkeiten (unter „predict postestimation“) sowie eine spezialisierte Prozedur (Statistics > Time series > Forecasting]. Zum Beispiel können zu den Prognosewerten auch Konfidenzintervalle berechnet und dargestellt werden. Der Unsicherheitsbereich der Vorhersagen wird so visualisiert. Die vorhandenen Optionen werden hier nicht weiter erläutert. Univariate ARMA-Modelle (Box-Jenkins-Modelle) können wir auch mit den vorne behandelten Regressionsmodellen kombinieren. Sie bezeichnet man üblicherweise als ARMAX- bzw. ARIMAX-Modelle. Über die Menüsequenz [Statistics > Time series > ARIMA and ARMAX models] erscheint wieder die obige Abb. 3.73. Die bisherigen Auswertungen legen es nahe, zur Modellierung des Trends und der saisonalen monatlichen Schwankungen die beiden unabhängigen Variablen Zeit und i.Month_ einzubeziehen. Dies erfolgt im Feld „Independent variables“. Persistenzen auf dem Arbeitsmarkt und monatsbezogene regelmäßige Schocks (bspw. wetterbedingt) führen zu Mustern in den Fehlern. Wir berücksichtigen sie mittels einer AR-Komponente erster und zweiter Ordnung sowie eines Moving-Average-Teils zwölfter Ordnung. Dies geschieht im Feld „Supply list of ARMA lags:“. Abb. 3.81 enthält die Eingaben dieser Spezifikation. Die alternativ verwendbare Syntaxsteuerung lautet: „arima Arbeitslosenquote Zeit i.MONTH_, ar(1 2) ma(12)“. Den Output nach „OK“ dokumentiert Abb. 3.82. Das Modell können wir dann, wie bereits weiter oben gezeigt, hinsichtlich der Residuen und der Informationskriterien analysieren. Auf die Wiedergabe der Resultate wird hier verzichtet: Die Residuen sind von einem weißen Rauschen nicht zu unterscheiden. Nach AIC und BIC handelt es sich um das beste der bisher untersuchten Modelle. Die ARund MA-Teile sind signifikant (auch bei heteroskedastiekonsistenten Standardfehlern). Die Koeffizientenschätzungen sind inhaltlich plausibel und stimmen mit dem einfachen Regressionsmodell überein. Der nächste Schritt erläutert die Verwendung von ARMAX-Modellen bei der Überprüfung Granger-kausaler Beziehungen. Dies erfolgt anhand der Entwicklung und des Zusammenhangs von Inflationsrate und Arbeitslosenquote in Deutschland. Wir verwenden den Datensatz „Germany_Makrodaten.dta“, der über den Zeitraum 1980 bis 2018 Jahresdaten für das Wachstum des BIP (GDP) (zu konstanten Preisen), die Inflationsrate (auf der Basis des Consumer Price Index – des Verbraucherpreisindex) und die Arbeitslosenquote enthält. Saisonale Schwankungen sind wegen der Jahresdaten nicht zu erwarten. Wir analysieren, ob eine Beziehung zwischen der Arbeitslosenquote und der Inflationsrate in Form einer (sehr einfachen) Phillipskurve existiert. Abb. 3.83 enthält die Entwicklung dieser zwei Größen im Beobachtungszeitraum.
3.9 Durchführung in SPSS und Stata
Abb. 3.81 Spezifikation ARMAX-Modell
Abb. 3.82 Regressionsergebnis ARMAX-Modell
209
210
3 Zeitreihenanalyse und dynamische Modelle
Jahr Inflationsrate
Arbeitslosenrate
Abb. 3.83 Inflation und Arbeitslosenquote 1980–2018
Klare Trends und Zyklen sind für die zwei Variablen nicht zu sehen. Wir unterstellen im Folgenden, dass die beiden Größen stationär sind. Nach Abb. 3.83 ist es aber nicht ausgeschlossen, dass eine höhere Arbeitslosenquote nachfolgend (d. h. mit Verzögerung) zu einer geringeren Inflationsrate führt. In Anlehnung an Gl. (3.9) spezifizieren wir ein Modell für die Entwicklung der Arbeitslosenquote (ALQ). Basierend auf der P hillipskurve besteht ein Zusammenhang der Inflationsrate mit der ALQ. Wir beschränken uns auf die Frage, ob Granger-Kausalität der Inflation auf die Arbeitslosigkeit oder umgekehrt der Arbeitslosigkeit auf die Inflation vorliegt. In unserer ersten Spezifikation dient die Inflation (Variable: InflationRate) als abhängige Variable. Sie wird als AR(3)-Modell spezifiziert. Die ALQ (Variable: Unemploymentrate) ist unsere unabhängige Variable. Die Verzögerungen werden auf drei Jahre begrenzt, d. h., wir unterstellen, dass Anpassungsprozesse danach nicht mehr relevant sind. Das Ergebnis einer linearen Regression findet sich in Abb. 3.84. Der Portmanteau-Test ergibt, dass wir für die Residuen von einem weißen Rauschen ausgehen können. Auch die ACF und PACF bestätigen diesen Befund. Im unteren Teil der Abb. 3.84 wird ein F-Test durchgeführt, der prüft, ob die Lags erster bis dritter Ordnung der Arbeitslosenquote zusammen die Entwicklung der Inflationsrate beeinflussen. Genauer gesagt, ob sie einen Einfluss ausüben, der zusätzlich – über die drei Verzögerungen der Inflationsrate hinaus – existiert. Die Nullhypothese, dass kein Einfluss vorliegt, kann nicht abgelehnt werden. Dies bestätigt die fehlende Signifikanz der einzelnen Lags der Variablen UnemploymentRate.
3.9 Durchführung in SPSS und Stata
211
regress InflationRate L1.UnemploymentRate L2.UnemploymentRate L1.InflationRate L2.InflationRate L3.InflationRate Source | SS df MS -------------+---------------------------------Model | 20.5954681 6 3.43257802 Residual | 22.3397787 28 .79784924 -------------+---------------------------------Total | 42.9352468 34 1.26280138
Number of obs F(6, 28) Prob > F R-squared Adj R-squared Root MSE
L3.UnemploymentRate = = = = = =
35 4.30 0.0034 0.4797 0.3682 .89322
---------------------------------------------------------------------------------InflationRate | Coef. Std. Err. t P>|t| [95% Conf. Interval] -----------------+---------------------------------------------------------------UnemploymentRate | L1. | -.1161232 .2765747 -0.42 0.678 -.6826608 .4504145 L2. | .1807423 .4626975 0.39 0.699 -.7670507 1.128535 L3. | -.111754 .2885117 -0.39 0.701 -.7027434 .4792353 | InflationRate | L1. | .8366333 .1898412 4.41 0.000 .4477612 1.225505 L2. | -.2908944 .2491177 -1.17 0.253 -.801189 .2194001 L3. | -.002834 .1902457 -0.01 0.988 -.3925347 .3868667 | _cons | 1.171505 .9229671 1.27 0.215 -.7191075 3.062117 ---------------------------------------------------------------------------------test L1.UnemploymentRate L2.UnemploymentRate L3.UnemploymentRate ( 1) ( 2) ( 3)
L.UnemploymentRate = 0 L2.UnemploymentRate = 0 L3.UnemploymentRate = 0 F(
3, 28) = Prob > F =
0.11 0.9564
Abb. 3.84 Phillipskurve Abb. 3.85 Test auf Granger- Kausalität der Inflation
test L1.InflationRate L2.InflationRate L3.InflationRate ( 1) ( 2) ( 3)
L.InflationRate = 0 L2.InflationRate = 0 L3.InflationRate = 0 F( 3, 28) = 1.61 Prob > F = 0.2085
Im nächsten Schritt wird getestet, inwieweit eine umgekehrte Granger-Kausalrichtung vorhanden ist. Wir ersetzen dazu einfach die abhängige Variable InflationRate durch die abhängige Variable UnemploymentRate, und anschließend prüfen wir einen möglichen Einfluss der drei Lags der Variablen InflationRate zusätzlich zu den AR(3)-Lags der Arbeitslosenquote. Das Resultat dokumentiert Abb. 3.85. Auch hier liegt Granger-Kausalität nicht vor: Die Lags der Inflation besitzen (jedenfalls auf Basis der gewählten einfachen Spezifikation) keine zusätzliche Prognosekraft hinsichtlich der Entwicklung der Arbeitslosenquote. Die Stata-Dokumentation ist eine wertvolle Hilfe bei der Verwendung und der Interpretation der behandelten und vieler weiterführender Verfahren (Stata 2019). Die entsprechenden Handbücher sind kostenfrei downloadbar. Sie enthalten immer auch Anwendungsbeispiele und detaillierte Literaturhinweise sowie in Anhängen die zugrunde liegenden statistischen Formeln. Empfehlenswerte Lehrbücher zur Zeitreihenanalyse auf der Basis von Stata sind Becketti (2013) und Ashley (2012).
212
3 Zeitreihenanalyse und dynamische Modelle
3.10 Übungsaufgaben Übung 3.1: Badeunfälle und Spielwarenumsätze Welche Formen der Autokorrelation sind bei a) den monatlichen Daten der Badeunfälle in den deutschen Freibädern zu erwarten? b) den Quartalswerten für die Umsätze in Spielwareneinzelhandel zu vermuten?
Übung 3.2: Autokorrelationen von Wertpapierkursen Der Datensatz „Aktienkurs_BMW.dta“ (bzw. „Aktienkurs_BMW.sav“) enthält die täglichen Aktienkurse der BMW-Aktie (Schlusskurse) an der Frankfurter Börse vom 18. August 2017 bis zum 19. August 2019 (insgesamt 522 Tage, d. h. Beobachtungen). a) Sehen Sie sich die ACF und die PACF der Kurse an. Interpretieren Sie das Ergebnis. b) Berechnen Sie die tägliche Rendite (Return). Welche Schlussfolgerungen ziehen Sie aus der ACF und der PACF der Rendite?
Übung 3.3: Saisonale Differenzen der Arbeitslosenquote Verwenden Sie den Datenfile „Arbeitslosenquote_D_2005-2019.dta“ bzw. „Arbeitslosenquote_D_2005-2019.sva“. Berechnen Sie die saisonale zwölfte Differenz der Arbeitslosenquote (also die Differenz zwischen der ALQ im Januar eines Jahres mit dem Januar des Vorjahres usw.). Bilden Sie deren zeitlichen Verlauf ab und interpretieren Sie Ihre Ergebnisse. Übung 3.4: Spezifikation eines AR-Modells Wie beurteilen Sie die Spezifikation eines AR(0)-Modells? Übung 3.5: Probleme der Modellspezifikation Welche Einwände ergeben sich bei dem Modell zur Erklärung der monatlichen Arbeitslosenquote mittels Trend, Monatsdummys und AR(2)? Welche möglichen Verbesserungen sind denkbar? Übung 3.6: ADF-Test und ARIMA-Modelle Verwenden Sie wieder den Datensatz „Arbeitslosenquote_D_2005-2019.dta“ bzw. „Arbeitslosenquote_D_2005-2019.sva“. a) Überprüfen Sie nur in Stata mittels des ADF-Tests, ob die Variable Arbeitslosenquote zum Lag 12 stationär ist. b) Untersuchen Sie (in Stata bzw. SPSS) im Rahmen eines ARIMA(2,1,0)-Modells deren Residuen mittels ACF und PACF.
3.11 Lösungen
213
Übung 3.7: Granger-Kausalität Die einfache Phillipskurve unterstellt, dass eine zunehmende Inflation mit einer abnehmenden Arbeitslosigkeit einhergeht (bzw. diese sogar kausal beeinflusst). Welche Schlussfolgerungen sind aufgrund der wechselseitig fehlenden Granger-Kausalität zwischen den Variablen UnemploymentRate und InflationRate zu ziehen? Übung 3.8: Interpretation der Modellspezifikation: ARIMA und AR a) Welche inhaltliche Aussage enthält die folgende Spezifikation: ARIMA(2,1,2)? b) Die Koeffizientenschätzung eines AR(1)-Modells beträgt 0,74. Was besagt dies?
Übung 3.9: Zahl der Pkw und Lebenserwartung Analysieren Sie auf der Basis des Datensatzes „Germany_Pkw-Produktion_Lebenserwartung_1901-2001.dta“ bzw. „Germany_Pkw-Produktion_Lebenserwartung_1901-2001.sva“ die Auswirkung des Einbezugs der Variable Jahr – also der Zeit – in die Regression mit der abhängigen Variable Lebenserwartung und der unabhängigen Variable Pkw-Produktion.
3.11 Lösungen Lösung 3.1 a) Es dürfte eine stark ausgeprägte positive Autokorrelation zwölfter Ordnung vorliegen. In den Monaten Oktober bis April ist die Zahl der Unfälle immer sehr gering (bzw. 0) und in den Monaten Juli und August immer hoch. b) Zu erwarten ist eine positive Autokorrelation vierter Ordnung, da das vierte Quartal jedes Jahres den höchsten Umsatz in der Spielwarenbranche verzeichnet.
Lösung 3.2 a) Die ACF und die PACF der BMW-Aktie für die Lags 1. bis 60. Ordnung zeigt Abb. 3.86 (im SPSS-Layout). Es existiert eine ausgeprägte Autokorrelation erster Ordnung. Der Korrelationskoeffizient des ersten Lag liegt sehr nahe bei 1. Dies resultiert, da die Aktienkurse von Tag zu Tag nicht besonders stark schwanken: War der Aktienkurs am Vortag hoch (niedrig) wird er am nächsten Börsentag auch wieder eher hoch (niedrig) sein. Die partielle Autokorrelationsfunktion besitzt aber nur eine einzige Spitze beim ersten Lag. Wenn man den Zusammenhang mit dem Vortag (und den Vor-Vortagen usw.) herausrechnet (kontrolliert), d. h. beseitigt, existieren keine grafisch sichtbaren Regelmäßigkeiten oder statistisch signifikanten Beziehungen zwischen den Kursen zu verschiedenen Tagen.
214
3 Zeitreihenanalyse und dynamische Modelle
Abb. 3.86 ACF und PACF der BMW-Aktie
b) Die Rendite (Return) wird hier als r = ln(Kurst/Kurst−1) berechnet. Dann ergeben sich für diesen Return (Variable: Return_BMW) die Korrelationsfunktionen ACF und PACF der Abb. 3.87. Die Korrelationskoeffizienten der ACF und der PACF sind (zumindest bis zum 60. Lag) sehr klein. Der größte Autokorrelationskoeffizient – er liegt beim 28. Lag – beträgt −0,119. Weder die Autokorrelationsfunktion noch die partielle Autokorrelationsfunktion weisen
3.11 Lösungen
215
Abb. 3.87 Korrelationsfunktionen der Rendite
Regelmäßigkeiten auf. Mit Ausnahme des 28. Lag liegt kein einziger Koeffizient im signifikanten Bereich, d. h. außerhalb der Konfidenzgrenzen. Entsprechende Tests (nicht abgebildet) ergeben, dass die Nullhypothese „Weißes Rauschen“ akzeptiert werden kann. Der 28. Lag wird daher als irrelevant eingeschätzt. Insgesamt wird die Hypothese eines effizienten Kapitalmarktes gestützt. Wenn Regelmäßigkeiten in der Renditeentwicklung identifizierbar wären, sollten diese auf einem effizienten Kapitalmarkt zu entsprechenden Käufen/Verkäufen der BMW-Aktie führen, die sie wieder verschwinden lassen.
216
3 Zeitreihenanalyse und dynamische Modelle
Lösung 3.3 Stata: Die Bildung von saisonalen Differenzen yt − yt−12 erfordert den Einsatz des Saison-Operators S. Der Operator D differenziert dagegen zwölfmal hintereinander (yt − yt−1) − (yt−1 − yt−2) usw. Daher muss „S12.“ als Operator verwendet werden! Abb. 3.88 enthält das Ergebnis in Abhängigkeit von der Zeit. SPSS: Vorweg ist die Periodizität der Saison – hier zwölf Monate – zu definieren. Mittels Menüsteuerung bilden wir die erste saisonale Differenz yt − yt−12 über [Transformieren > Zeitreihe erstellen]. Dabei muss zuerst festgelegt werden, dass die erste saisonale Differenz zu bilden ist. Dies erfolgt im Feld „Name und Funktion“ unter „Funktion“ durch Auswahl von „Saisonale Differenz“ und bei „Reihenfolge“ durch die Eingabe des Wertes „1“. Danach wird im Feld „Variable -> Neuer Name“ die Arbeitslosenquote als zu differenzierende Variable eingefügt (siehe Abb. 3.89) Außerdem kann im Beispiel der voreingestellte Name geändert werden (hier zu „Arbeit_S1“). Über [Grafik > Diagrammerstellung] wird eine Liniengrafik erzeugt, die im Layout etwas von der obigen Stata-Grafik der Abb. 3.88 abweicht. Interpretation: Bezugspunkt sind jeweils die Vorjahresmonate: Die Horizontale bei dem Wert 0 bedeutet, dass im Vergleich zum Vorjahresmonat die Arbeitslosenquote sich nicht verändert hat. Zunächst sinkt die ALQ in einem Monat im Vergleich zum Vorjahresmonat relativ stark, dann nimmt sie wieder zu (46–50er Monat). Anschließend sinkt sie wieder deutlich, stagniert dann etwas, um schließlich stufenförmig langsam weiter zu sinken. Lösung 3.4 Dies ist inhaltlich unsinnig, da ja dann die abhängige Variable Yt auch als unabhängige Variable auf der rechten Seite verwendet würde. Es handelt sich um eine rein definitorisch perfekte Übereinstimmung von rechter und linker Seite der Regressionsgleichung. generate FD12_Arbeitslosenquote = S12.Arbeitslosenquote (12 missing values generated) twoway tsline FD12_Arbeitslosenquote
Abb. 3.88 Saisonale Differenzen der Arbeitslosenquote
3.11 Lösungen
217
Abb. 3.89 Bildung saisonaler Differenzen in SPSS
Lösung 3.5 Hier wird unterstellt, dass die monatlichen Einflüsse (etwa des Mai) im gesamten Beobachtungszeitraum identisch sind (um die gleichen Prozentpunkte abnehmen bzw. zunehmen). Eine besser geeignete Spezifikation wäre ggf. die logarithmierte Arbeitslosenquote: Dann können die absoluten Veränderungen der Arbeitslosenquote (bspw. im Mai) am Anfang der Zeitreihe größer sein und am Ende kleiner, da nur noch die prozentuale Änderung als identisch vorausgesetzt wird. Weitere mögliche alternative Modellspezifikationen beziehen sich bspw. auf die Berücksichtigung nichtlinearer Trends und den Einbezug weiterer unabhängiger Variablen (Höhe der Tarifabschlüsse, Veränderung der Zinsen, Entwicklungstrends des Welthandels, internationale Konjunkturzusammenhänge etc.). Lösung 3.6 a) Der ADF-Test für den Lag 12 kommt zum Resultat der Abb. 3.90. Die Nullhypothese „nicht stationär“ wird abgelehnt. Wir gehen also davon aus, dass bei Berücksichtigung der saisonalen Struktur in gleichen Monaten verschiedener Jahre (= Lag 12) die Variable Arbeitslosenquote stationär ist.
218
3 Zeitreihenanalyse und dynamische Modelle dfuller Arbeitslosenquote, trend regress lags(12) Augmented Dickey-Fuller test for unit root
Number of obs
=
156
---------- Interpolated Dickey-Fuller --------Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value -----------------------------------------------------------------------------Z(t) -7.563 -4.021 -3.443 -3.143 -----------------------------------------------------------------------------MacKinnon approximate p-value for Z(t) = 0.0000
Abb. 3.90 Augmented Dickey-Fuller-Test
Abb. 3.91 ACF und PACF des ARIMA(2,1,0)-Modells
b) Die ACF der Residuen und die PACF der Residuen des ARIMA(2,1,0)-Modells enthält Abb. 3.91. Gut zu identifizieren ist die 12-Monats-Struktur, da wir die saisonale Komponente vernachlässigt haben. Lösung 3.7 Naheliegend ist, dass keine negative Beziehung, wie sie die Phillipskurve zwischen Arbeitslosenquote und Inflationsrate postuliert, vorliegt und auch keine Simultanität vorhanden ist. Aber dies ist nicht sicher, da möglicherweise Einflüsse höherer Lags und nichtlineare Beziehungen existieren. Auch sonstige andere Spezifikationen sind eventuell angebracht (bspw. Veränderungsraten der Inflation oder Inflationserwartungen). Lösung 3.8 a) Es handelt sich um ein autoregressives, integriertes Modell mit gleitendem Durchschnitt (Moving Average). Die um eine und zwei Perioden verzögerte abhängige Variable wird als unabhängige Variable verwendet. Dies ist ein autoregressiver Teil zweiter Ordnung (p = 2). Die erste Differenz wird gebildet, um einen Trend zu beseitigen (d = 1). Der Integrationsgrad beträgt also 1. Der Fehler in einer Periode hat Auswirkun-
3.11 Lösungen
219
. regress Lebenserwartung PKW_Prod_100Tsd Jahr Source |
SS
df
MS
-------------+---------------------------------Model |
Residual |
7548.82633
2
282.975497
78
3774.41316
3.62789099
-------------+---------------------------------Total |
7831.80182
80
97.8975228
Number of obs
=
=
1040.39
Prob > F
=
0.0000
Adj R-squared
=
0.9629
Root MSE
=
1.9047
F(2, 78)
R-squared
=
81
0.9639
--------------------------------------------------------------------------------Lebenserwartung |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------------+---------------------------------------------------------------PKW_Prod_100Tsd |
-.2153786
.4832592
.0197434
24.48
0.000
0.000
-.2698803 .443953
.5225653
_cons |
-869.3425
38.08851
-22.82
0.000
-945.1709
-793.5141
Jahr |
.0273761
-7.87
-.160877
---------------------------------------------------------------------------------
Abb. 3.92 Pkw und Lebenserwartung
gen auf die abhängige Variable der folgenden zwei Perioden. Dies ist der Moving- Average-Teil mit den Lags erster und zweiter Ordnung (q = 2). b) Dies bedeutet, die abhängige Variable der Vorperiode besitzt c. p. einen Einfluss auf die abhängige Variable der laufenden Periode. Ist Yt−1 um eine Einheit größer, so wird Yt um 0,74 Einheiten zunehmen.
Lösung 3.9 Die Regression mit der Lebenserwartung als abhängiger Variable und der Variable Jahr sowie der Automobilproduktion (Pkw_Prod_100Tsd) als unabhängigen Variablen zeigt Abb. 3.92. Die Variable Jahr hat einen hoch signifikanten positiven Einfluss auf die Lebenserwartung. Die Pkw-Produktion ist zwar immer noch signifikant, aber übt jetzt eine negative Wirkung auf die Lebenserwartung aus! Auch dieser Zusammenhang kann natürlich nicht kausal interpretiert werden.
Anhang 3.1: ACF und PACF von ARIMA-Modellen Um die Struktur von ARIMA(p,d,q)-Modellen zu identifizieren, können die ACF und die PACF herangezogen werden. Weichen bestimmte Lags der ACF bzw. der PACF signifikant von 0 ab, sind dies Hinweise, welche Werte für p, d und q anzusetzen sind. Die Abb. 3.93a–g illustrieren die prinzipiellen Zusammenhänge bei Autokorrelation, Moving- Average-Prozessen und nicht stationären Zeitreihen.
220
3 Zeitreihenanalyse und dynamische Modelle
Autokorrelation macht sich durch eine exponentiell (geometrisch) abnehmende ACF bemerkbar, wobei die Größe der Abnahme von den Autokorrelationskoeffizienten abhängt. Die Zahl der Spitzen der jeweiligen PACF markiert die Höhe der Ordnung der Autokorrelationsfunktion – in Abb. 3.93a–b) einen ARIMA(1,0,0)- und einen ARIMA(2,0,0)-Prozess. In beiden Fällen handelt es sich um positive Autokorrelation. Bei negativer Autokorrelation erster Ordnung oszilliert die ACF um die Nulllinie (Abb. 3.93c). Sie liegt bei ungeraden Lags im negativen und bei geraden Lags im positiven Bereich. Eine Kombination von positiver und negativer Autokorrelation erster bzw. zweiter Ordnung führt ebenfalls zu Oszillationen zwischen negativen und positiven Werten der ACF und ggf. der PACF. Zeitreihen mit Moving-Average-Prozessen zeichnen sich durch langsam abnehmende PACF aus. Diese Abnahme kann nur im positiven bzw. nur im negativen Wertebereich oder auch oszillierend stattfinden. Die Anzahl der Spitzen der jeweiligen ACF sind ein Indiz für die Ordnung der MA-Prozesse. Abb. 3.93d–e) illustrieren eine ARIMA(0,0,1)und eine ARIMA(0,0,2)-Zeitreihe für MA-Prozesse. Nicht stationäre Zeitreihen weisen Autokorrelationen auf, die kaum abnehmen und daher auch noch bei hohen Lags vorhanden sind. Die ACF bei einem Integrationsgrad erster Ordnung (ARIMA(0,1,0) zeigt Abb. 3.93f). Diese kann auch Schwankungen zwischen positiven und negativen Werten aufweisen (Abb. 3.93g). Die dazugehörigen PACF besitzen eine Spitze bei dem Lag 1. In dieser Situation muss die Zeitreihe (einmal) differenziert werden, um Stationarität sicherzustellen. Eine Zeitreihe, bei der Autokorrelation und Moving Average gemeinsam existieren, besitzt eine langsam abnehmende ACF-Funktion aufgrund der Autokorrelation p und zusätzlich eine sich langsam verringernde PACF, die auf den Moving-Average-Prozess q zurückgeht. Die Konsequenz ist, dass die Höhe der Ordnungen, d. h. die Werte von p und q, visuell nicht mehr klar bestimmbar sind. In dieser Situation sollte zunächst ein einfaches ARIMA(1,0,1)-Modell spezifiziert werden. Bei allen Zeitreihen, die verschiedene Strukturkomponenten gleichzeitig aufweisen – bspw. einen ARIMA(1,1,1)-Prozess – verlaufen die ACF und PACF deutlich komplexer und sind häufig nicht so eindeutig visuell identifizierbar wie in Abb. 3.93. In der Regel sind saisonale Einflüsse aber einfacher zu erkennen, da sie schon aus inhaltlichen Überlegungen naheliegen. Die Abbildungen stellen idealtypische vereinfachte Verläufe der ACF und der PACF dar. Bei konkreten Zeitreihen existieren zufallsbedingt immer (sehr) kleine positive und negative Autokorrelationen sowie partielle Autokorrelationen. Sie treten auch über größere Zeitabstände hinweg auf. Nur wenn sie signifikant sind, müssen wir uns näher mit ihnen beschäftigen. Außerdem werden rein zufallsbedingt bei Analysen höherer Lags im Einzelfall signifikante Korrelationen auftreten. Sofern diese inhaltlich nicht plausibel sind, werden sie ignoriert. Das ganze Verfahren zur Bestimmung von p, d und q hat einen stark explorativen Charakter.
3.11 Lösungen
221
a) ARIMA(1,0,0): Positive Autokorrelation 1. Ordnung PACF
ACF +
+
0
0
-
1
2
3
4
5
6
7
8
9
10
11
Lag
12
1
2
3
4
5
6
7
8
9
10
11
12
Lag
b) ARIMA(2,0,0): Positive Autokorrelation 2. Ordnung ACF
PACF
+
+
0
0
-
1
2
3
4
5
6
7
8
9
10
11
12
Lag
1
2
3
4
5
6
7
8
9
10
11
12
Lag
8
9
10
11
12
Lag
c) ARIMA(1,0,0): Negative Autokorrelation 1. Ordnung PACF
ACF +
+
0
0
-
1
2
3
4
5
6
7
8
9
10
11
12
Lag
1
2
3
4
5
6
7
Abb. 3.93 ACF und PACF verschiedener ARIMA-Modelle. (Quelle: eigene Darstellung nach Dixon 1992, S. 55–59)
222
3 Zeitreihenanalyse und dynamische Modelle
d) ARIMA(0,0,1): Positiver Moving Average 1. Ordnung ACF
PACF
+
+
0
0
-
1
2
3
4
5
6
7
8
9
10
11
12
Lag
1
2
3
4
5
6
7
8
9
10
11
Lag
12
e) ARIMA(0,0,2): Positiver Moving Average 2. Ordnung ACF
PACF
+
+
0
0
10
11
12
Lag
1
2
3
4
5
6
7
8
9
10
11
12
f) ARIMA(0,1,0): Integration 1. Ordnung (Nicht-stationäre Zeitreihe) PACF
ACF +
+
1
2
3
4
5
6
7
8
9
1
2
3
0
0
-
1
2
3
4
5
6
Abb. 3.93 (Fortsetzung)
7
8
9
10
11
12
Lag
4
5
6
7
8
9
10
Lag
Lag
Literatur
223
g) ARIMA(0,1,0): Integration 1. Ordnung (Nicht-stationäre Zeitreihe) PACF
ACF +
+
0
0
-
1
2
3
4
5
6
7
8
9
10
11
12
Lag
1
2
3
4
5
6
7
8
9
10
11
12
Lag
Abb. 3.93 (Fortsetzung)
Literatur Aljandali, A. (2016). Quantitative analysis and IBM® SPSS® statistics, a guide for business and finance. Heidelberg: Springer. Aljandali, A. (2017). Multivariate methods and forecasting with IBM® SPSS® statistics. Heidelberg: Springer. Ashley, R. A. (2012). Fundamentals of applied econometrics. Hoboken: Wiley. Auer, B., & Rottmann, H. (2010). Statistik und Ökonometrie für Wirtschaftswissenschaftler. Wiesbaden: Springer. Autor, D. H. (2003). Outsourcing at will: The contribution of unjust dismissal doctrine to the growth of employment outsourcing. Journal of Labor Economics, 21(1), 1–42. Becketti, S. (2013). Introduction to time series using Stata. College Station: Stata Press. Boffelli, S., & Urga, G. (2016). Financial econometrics using Stata. College Station: Stata Press. Box, G., & Jenkins, G. (1970). Time series analysis: Forecasting and control. San Francisco: Holden-Day. Box-Steffensmeier, J. M., Freeman, J. R., Hitt, M. P., & Pevehouse, J. C. W. (2014). Time series analysis for the social sciences. New York: Cambridge University Press. Castle, J., Hendry, D., & Clements, M. (2019). Forecasting: An essential introduction. Yale: Yale University Press. CEIC. (2018). https://www.ceicdata.com/en/indicator/greece/long-term-interest-rate. Zugegriffen am 21.07.2019. Chan, N. H. (2002). Time series: Applications to finance. New York: Wiley. Chan, P. (2012). https://www.youtube.com/watch?v=hoieVXftzxE. Zugegriffen am 01.09.2019. Chatterjee, S., & Hadi, A. S. (2012). Regression analysis by example (5. Aufl.). Hoboken: Wiley. Clark, A. E., Diener, E., Georgellis, Y., & Lucas, R. E. (2008). Lags and leads in life satisfaction: A test of the baseline hypothesis. SOEPpapers on multidisciplinary panel data research, No. 84, DIW, Berlin. Dixon, D. W. (1992). A statistical analysis of monitored data for methane production. PhD-thesis, University of Nottingham. http://eprints.nottingham.ac.uk/12977/1/334922.pdf. Zugegriffen am 28.10.2019.
224
3 Zeitreihenanalyse und dynamische Modelle
Dougherty, C. (2016). Introduction to econometrics (5. Aufl.). Oxford: Oxford University Press. Enders, W. (2014). Applied econometric time series (4. Aufl.). New York: Wiley. Finanzen.net. (2019). www.finanzen.net/chart/siemens. Zugegriffen am 25.06.2019. Franses, P. H., van Dijk, D., & Opschoor, A. (2014). Time series models for business and economic forecasting (2. Aufl.). Cambridge: Cambridge University Press. Granger, C. W. J., & Newbold, P. (1974). Spurious regression in econometrics. Journal of Econometrics, 2(2), 111–120. Greene, W. H. (2018). Econometric analysis (8. Aufl.). Boston: Pearson. Gujarati, D. (2015). Econometrics by example (2. Aufl.). London/New York: Palgrave Macmillan. Hanke, J. E., & Wichern, D. W. (2014). Business forecasting (9. Aufl.). Upper Saddle River: Pearson. Hill, R. C., Griffiths, W. E., & Lim, G. C. (2008). Principles of econometrics (3rd. Aufl.). Hoboken: Wiley. Hyndman, R., & Athanasopoulos, G. (2018). Forecasting, principles and practice (2. Aufl.). Lexington: OTexts. IBM SPSS. (2016). https://www-01.ibm.com/support/docview.wss?uid=swg21481519. Zugegriffen am 09.08.2019. IBM SPSS. (2019a). https://sourceforge.net/projects/ibmspssstat/. Zugegriffen am 11.08.2019. IBM SPSS. (2019b). IBM SPSS statistics base 24. http://share.uoa.gr/public/Software/SPSS/ SPSS24/Manuals/IBM%20SPSS%20Statistics%20Base.pdf. Zugegriffen am 11.08.2019. IBM SPSS 25. (2017). ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/25.0/en/client/Manuals. Zugegriffen am 09.08.2019. IBM SPSS 25 Forecasting. (2017). ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/25.0/de/client/Manuals/IBM_SPSS_Forecasting.pdf. Zugegriffen am 09.08.2019. Inflationdata. (2019). https://inflationdata.com/articles/inflation-adjusted-prices/historical-crude-oilprices-table/. Zugegriffen am 23.06.2019. Kennedy, P. (2008). A guide to econometrics (6. Aufl.). Malden: Wiley-Blackwell. Kirchgässner, G., Wolters, J., & Hassler, U. (2014). Introduction to modern time series analysis (2. Aufl.). Berlin/Heidelberg: Springer. Macrotrends. (2019). https://www.macrotrends.net/stocks/charts/AAL/american-airlines-group/ operating-expenses. Zugegriffen am 20.08.2019. Oshima, T. C., & Dell-Ross, T. (2016). All possible regressions using IBM SPSS: A practitioner’s guide to automatic linear modeling. Georgia educational research association conference. 1. https://digitalcommons.georgiasouthern.edu/cgi/viewcontent.cgi?article=1187&context=gera. Zugegriffen am 09.08.2019. Perron, P. (2006). Dealing with structural breaks. In T. C. Mills & K. Patterson (Hrsg.), Palgrave handbook of econometrics: econometric theory (Bd. 1, S. 278–352). Basingstoke: Palgrave Macmillan. Petropoulos, F., Kourentzes, N., Nikolopoulos, K., & Siemsen, E. (2018). Judgemental selection of forecasting models. Journal of Operations Management, 60, 34–46. https://doi.org/10.1016/j. jom.2018.05.005. Pickup, M. (2015). Introduction to time series analysis. Los Angeles: SAGE Publications. Pindyck, R. S., & Rubinfeld, D. L. (1998). Econometric models and economic forecasts (4. Aufl.). Boston: McGraw-Hill. SPSStools. (2019). http://spsstools.net/en/syntax/syntax-index/regression-repeated-measures/chowtest/. Zugegriffen am 01.09.2019. Stata. (2017). Stata time series reference manual release 15. College Station: Stata Press. Stata. (2019). https://www.stata.com/features/documentation/. Zugegrifffen am 09.08.2019.
Literatur
225
Statistisches Bundesamt. (2019a). https://www.destatis.de/DE/Themen/Gesellschaft-Umwelt/Bevoelkerung/Sterbefaelle-Lebenserwartung/Publikationen/Downloads-Sterbefaelle/KohortensterbetafelnBericht5126206179004.html?nn=238640. Zugegriffen am 20.07.2019. Statistisches Bundesamt. (2019b). https://www.destatis.de/DE/Themen/Arbeit/Arbeitsmarkt/Erwerbslosigkeit/_inhalt.html17.06.2019. Zugegriffen am 25.06.2019. Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics (Updated 3rd ed., Global Edition). Amsterdam: Pearson. Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung, Eine nichtmathematische Einführung mit SPSS und Stata. Berlin: Springer. Studenmund, A. H. (2016). Using econometrics: A practical guide (7. Aufl.). Boston: Pearson. Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7. Aufl.). Boston: Pearson. Tsay, R. S. (2010). Analysis of financial time series. Hoboken: Wiley. Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden. Springer VS. Vance, M., Hurn, S., & Harris, D. (2013). Econometric modelling with time series. New York: Cambridge University Press. Wikpedia. (2019). https://de.wikipedia.org/wiki/Wirtschaftszahlen_zum_Automobil/Deutschland#Bundesrepublik_Deutschland. Zugegriffen am 20.07.2019. Winker, P. (2017). Empirische Wirtschaftsforschung und Ökonometrie (4. Aufl.). Berlin: Springer. Wooldridge, J. (2016). Introductory econometrics – A modern approach (6. Aufl.). Boston: Cengage Learning. Worldbank. (2019). https://data.worldbank.org/indicator. Zugegriffen am 23.06.2019.
4
Paneldatenanalyse
Lernziele
Der Studierende soll: • eine Reihe von Besonderheiten bei der Verwendung von Paneldaten – wie echte und gepoolte Panels, Balanced und Unbalanced Panels sowie kurzes und langes Datenformat – verstehen, • erläutern können, inwieweit verschiedene Differences-in-Differences-Verfahren ein möglicher Untersuchungsansatz zur Bestimmung kausaler Effekte sind, • in der Lage sein, den Einsatz erster Differenzen (First Differences) zu erklären, • die Verwendung von Dummyvariablen zur Schätzung von fixen Effekten darlegen können, • den Unterschied von Fixed-Effects- und Random-Effects-Verfahren überblicken, • verstehen, wann eine einfache gepoolte OLS-Schätzung möglich ist, • wissen, inwieweit unbeobachtete Heterogenität im Rahmen der Analyse von Paneldaten berücksichtigt wird, • die Grenzen dieser Verfahren bei der Ermittlung kausaler Zusammenhänge verstehen, • den Breusch-Pagan- und den Hausman-Test anwenden können, • überblicken, inwiefern Heteroskedastie und Autokorrelation der Residuen bei Paneldaten relevant sind.
cc Wichtige Grundbegriffe Echte Paneldaten, gepooltes Panel, kurzes und langes Datenformat, Innerhalb-(Within-) und Zwischen- (Between-)Abweichungen, Differencesin-Differences-Verfahren, Erste Differenzen (First Differences), Fixed Effects, Random Effects, Endogenitätsproblem, Breusch-Pagan-Test, Hausman-Test
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. -W. Stoetzer, Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2, https://doi.org/10.1007/978-3-662-61438-9_4
227
228
4.1
4 Paneldatenanalyse
Überblick
Einführend stellt Abschn. 4.2 eine Reihe von Besonderheiten bei Paneldatensätzen dar. Abschn. 4.3 charakterisiert die grundlegenden Arten von Abweichungsanalysen (Varianzanalysen) im Rahmen von Paneldaten. Darauf aufbauend beschreibt Abschn. 4.4 die vier wichtigsten Schätzverfahren zur Analyse echter Paneldaten: die gepoolte OLS-, die Fixed-Effects (FE)-, die Random-Effects (RE)- und die First-Differences (FD)-Methode. Dieser Abschnitt erläutert außerdem die Entscheidungsverfahren zur Wahl einer geeigneten Schätzmethode. Abschn. 4.5 beschreibt das Vorgehen bei unechten Panels (gepoolten Paneldaten), d. h. die Differences-in-Differences (DiD)-Methode, und Abschn. 4.6 erläutert kurz einige komplexere Weiterentwicklungen. Abschließend stellt Abschn. 4.7 die praktische Anwendung in SPSS und Stata dar. Alle Abschnitte fokussieren die Verwendung von Paneldaten zur Identifikation kausaler Wirkungen.
4.2
Grundlagen: Datenbasis und Vorteile von Panelverfahren
Echte Paneldaten beziehen sich auf immer die gleichen Beobachtungseinheiten (Beobachtungsträger) zu unterschiedlichen Zeitpunkten. Zum Beispiel wird das Innovationsverhalten von 34 mittelständischen Unternehmen des Werkzeugmaschinenbaus über 20 Quartale hinweg beobachtet. Es handelt sich immer um die gleichen 34 Unternehmen in den Quartalen I/2015 bis IV/2019. Ein weiteres Beispiel ist die Untersuchung des Zusammenhangs von Investitionen, Außenbeitrag und anderen makroökonomischen Größen mit der Arbeitslosenquote in den 20 OECD-Gründungsstaaten seit 1950. Auch hier handelt es sich immer um die gleichen Beobachtungsträger – nämlich alle 20 OECD-Gründungsstaaten. Die Namen solcher echter Längsschnittdaten (Longitudinal Data) variieren, von Greene (2012, S. 184) werden sie bspw. als Fixed Panel bezeichnet. Unechte Panels – auch gepoolte Panel- oder gepoolte Querschnittsdaten genannt – sind dagegen im Zeitverlauf wiederholte Querschnittsdaten. Dies firmiert bei Greene (2012, S. 184) als Rotating Panel. Dabei wird bspw. die gleiche Umfrage, aber bei jeweils 1000 verschiedenen Haushalten in zwei aufeinanderfolgenden Jahren, durchgeführt, oder es handelt sich um vier Stichproben von jeweils 100 KMU aus den Jahren 2014, 2016, 2018 und 2020. In diesem Fall sind andere Untersuchungsmethoden anzuwenden. Das dann relevante Verfahren zur Identifikation kausaler Effekte erläutert Abschn. 4.5. Paneldaten besitzen also zwei Dimensionen, auf die sich die Daten beziehen: eine Querschnittsdimension (bspw. die verschiedenen Unternehmen, Staaten oder Haushalte) und eine Zeitreihendimension (bspw. die unterschiedlichen Tage, Quartale oder Jahre). Der resultierende Paneldatensatz umfasst N Beobachtungseinheiten zu T Beobachtungszeiträumen (bzw. Zeitpunkten). Die verschiedenen Beobachtungseinheiten kürzen wir mit „i“ ab, die unterschiedlichen Zeitpunkte mit „t“ und die unabhängigen Variablen mit „X“. Die Beobachtung Xit stellt dann den Wert der unabhängigen Variablen X für bspw. das
4.2 Grundlagen: Datenbasis und Vorteile von Panelverfahren
229
Unternehmen i zum Zeitpunkt t dar. Dabei gilt, dass i die Werte von 1 bis N und t die Werte von 1 bis T annimmt. Entsprechendes gilt für die abhängige Variable Yit. Bei echten und gepoolten Paneldaten müssen die Zeitpunkte, auf die sich die Beobachtungen beziehen, einheitlich festgelegt sein. Das heißt, es sind immer identische Zeitraum abgrenzungen zu verwenden (die Umsatzzahlen aller Unternehmen beziehen sich bspw. entweder auf Quartalsdaten oder Jahresdaten), und die Abstände zwischen den Beobachtungszeitpunkten sollten übereinstimmen (also immer ein Jahr oder ein Quartal auseinanderliegen). Bei der Zusammenstellung von Datensätzen aus verschiedenen Quellen muss sichergestellt sein, dass die Abgrenzungen (Definitionen) konform gehen, also z. B. die Zeiträume oder Zeitpunkte, an die die Aussagen anknüpfen, identisch sind. Ein weiteres Problem ergibt sich bei der Verwendung von monetären Größen (Euro, US-$ etc.). Sie treten als makroökonomische Variable (bspw. BIP, Konsumausgaben, Investitionsvolumen) ebenso wie als mikroökonomische Variable (bspw. Güterpreise, Lohnsätze, Umsätze) auf. Solche Größen werden häufig in laufenden Preisen (d. h. nominalen Werten) erfasst. Diese verändern sich im Zeitverlauf allein aufgrund der Inflationsrate. In der Regel geht es in den empirischen Untersuchungen aber um den Einfluss realer Veränderungen. Dazu müssen die nominalen Werte deflationiert – also um die Inflation bereinigt – werden. Es ist also darauf zu achten, ob die monetären Variablen im Datensatz bereits in realen Werten erfasst sind (dies ist ggf. bei Sekundärdatensätzen der Fall). Andernfalls ist die Deflationierung selbst vorzunehmen.1 Außerdem müssen die Beobachtungsträger im Beobachtungszeitraum einheitlich definiert werden. Diese Voraussetzung kann bspw. bei Regionen und Unternehmen verletzt sein: Staaten werden zusammengelegt (BRD – DDR 1990) oder geteilt (Tschechoslowakei, Jugoslawien, UdSSR); Gebietsreformen verändern Länder, Städte oder Gemeinden; Unternehmen fusionieren, wachsen durch Aufkäufe oder werden abgespalten. Bei echten Paneluntersuchungen von Personen, privaten Haushalten oder Unternehmen verändert sich das Panel ebenfalls laufend, etwa durch Tod, Auswanderung und Verweigerung der weiteren Teilnahme am Panel. Von Erhebungszeitpunkt zu Erhebungszeitpunkt gehen Beobachtungseinheiten (Individuen, Haushalte, Unternehmen etc.) sozusagen „verloren“. Längerfristig angelegte Panelstudien müssen daher ständig den Besatz an Un tersuchungseinheiten auf geeignete Weise ergänzen, da andernfalls die Zahl der Beobachtungseinheiten kontinuierlich schrumpft. Dieses Problem bezeichnet man als Panelmortalität (Panel Attrition). Auch wenn nur ein natürlicher Abgang durch Tod bzw. Insolvenz oder Unternehmensaufgabe erfolgt, führt dies ggf. zu einer „Vergreisung“ des Panels, das dann aufgrund fehlender junger Individuen und Unternehmen nicht mehr repräsentativ für die jeweilige Grundgesamtheit ist. Auch dies ist durch ge-
1 Falls die abhängige monetäre Variable – bspw. das Einkommen – logarithmiert wird und die verschiedenen Zeitpunkte der Paneldaten in Form von Dummys berücksichtigt werden, ist die Verwendung realer Größen nicht notwendig. Dies ergibt sich, weil die unterschiedlichen Preisniveaus zu den verschiedenen Zeitpunkten durch die Dummys der Zeitpunkte kontrolliert werden (Wooldridge 2018, S. 406).
230
4 Paneldatenanalyse
eignete Ergänzungen der Beobachtungseinheiten zu korrigieren.2 Bei unechten Panelund Querschnittsuntersuchungen treten solche Schwierigkeiten nicht auf, da man zu jedem Zeitpunkt jeweils neue Zufallsstichproben zieht. Besonders problematisch ist es, wenn dieser Schwund systematisch mit bestimmten Einflussfaktoren korreliert, die unbeobachtet bleiben. Zum Beispiel könnten im Berufsweg weniger erfolgreiche Personen dazu neigen, an den Panelbefragungen nicht (mehr) teilzunehmen. Ein praktisch wesentliches Hindernis sind die hohen Kosten von fundierten Paneldatenerhebungen; Kosten, die außerdem regelmäßig immer wieder anfallen. Daher sind im Rahmen der (früher) üblichen öffentlichen Forschungsförderung, die einzelne Projekte mit Laufzeiten mit 3 bis 5 Jahren fördert, echte Paneldaten nicht bzw. kaum zu generieren. Praktisches Beispiel: Paneldatensätze
Paneldaten sind auf Makroebene, d. h. für regionale Einheiten wie Staaten, Länder und Kommunen seit Langem vorhanden. Sie beschränkten sich aber ursprünglich auf wenige Variablen (bspw. die Bevölkerung oder das städtische Steueraufkommen). Seit ca. 70 Jahren werden von den Einrichtungen der amtlichen Statistik eine Vielzahl von Daten systematisch erfasst und bereitgestellt (Bruttoinlandsprodukt, Inflation, Arbeits losigkeit usw.). In der Volkswirtschaft und dort zunächst in der Makroökonomie sind echte Paneldaten seit den 1960er-Jahren Basis von Regressionsmodellen. Hier sind aktuell und mit Fokus auf (entwicklungs)ökonomischen Aspekten die Penn World Tables (Penn World Tables 2020) besonders relevant. Am weitesten in die Vergangenheit reichen die Daten des Maddison-Projekts zurück. Sie schätzen retrospektiv das reale Bruttoinlandsprodukt pro Kopf für 168 Staaten der Welt. Dies erfolgt in einigen Fällen seit dem Jahr 1 unserer Zeitrechnung, für viele Staaten seit dem Anfang des 19. Jh. und wird bis in die Gegenwart fortgeführt (Maddison 2020). Die Datenbanken der OECD und der Weltbank haben eine besonders breite Perspektive und enthalten umfangreiche Informationen nicht nur ökonomischer sondern allgemein sozialwissenschaftlicher Ausrichtung (OECD 2020; World Bank 2020). Dies gilt hinsichtlich der OECD insbesondere für ihre 36 Mitgliedsstaaten und die letzten 70 Jahre. Auf disaggregiertem Niveau (Individuen, Haushalte, Unternehmen) ist die Erhebung von Paneldaten erst seit ungefähr 40 Jahren relevant. Sie hat aber in den letzten 30 Jahren stetig an Bedeutung gewonnen. Beispiele für Deutschland sind in der Arbeitsmarktforschung (seit 1993) das Betriebspanel des Instituts für Arbeitsmarkt- und Berufsforschung mit 16.000 Betrieben (IAB 2020). Auch in der Betriebswirtschaftslehre sind Panels mit kommerzieller Ausrichtung für die Konsumentenforschung (bspw. ACNielsen und das Consumer Panel der GfK – Gesellschaft für Konsumforschung) etabliert (Günter et al. 2018). In der Soziologie und Politikwissenschaft existiert ebenfalls inzwischen eine Reihe von Haushaltpanels. Das älteste (seit 1984) ist das SOEP – Sozioökonomisches Panel – Geeignete Vorgehensweisen, um dieses Abschmelzen und damit Verfälschen zu vermeiden, werden unter dem Begriff „Panel Design“ erläutert. Siehe dazu Günter et al. (2018); Schnell et al. (2018); Frees (2004).
2
4.2 Grundlagen: Datenbasis und Vorteile von Panelverfahren
231
mit einem Umfang von knapp 15.000 Haushalten. Das Nationale Bildungspanel – NEPS National Educational Panel Study – erfasst seit 2009 die Bildungsverläufe von u. a. 10.000 Erwachsenen. Pairfam (Panel Analysis of Intimate Relationships and Family Dynamics) startete 2008 und ist ein Beziehungs- und Familienpanel, das auf 12.000 Personen basiert (Pairfam 2020). Bei diesen drei Umfragepanels handelt es sich (prinzipiell) um echte Panels. Dagegen sind ALLBUS und GEDA zwei unechte Panels. ALLBUS – Allgemeine Bevölkerungsumfrage der Sozialwissenschaften – beinhaltet alle zwei Jahre eine Stichprobe von ungefähr 3400 Haushalten (Allbus 2020). Den Gesundheitszustand und das Gesundheitsverhalten erfasst das Robert-Koch-Institut bspw. mit GEDA (Gesundheit in Deutschland aktuell) seit dem Jahr 2009 und basie rend auf einer Stichprobe von ca. 20.000 Personen ebenfalls alle zwei Jahre. ◄ Bei echten Paneldatensätzen ist eine Reihe von weiteren Besonderheiten zu beachten. Es wird zwischen einem „Balanced“ Panel und einem „Unbalanced“ Panel unterschieden. In einem Balanced Panel sind für alle Beobachtungseinheiten (Personen, Unternehmen, Regionen usw.) und alle Zeitpunkte Informationen vorhanden. Der Datensatz ist insoweit vollständig und enthält folglich N × T Datenwerte. Bei einem Unbalanced Panel liegen für einzelne Zeitpunkte bei bestimmten Beobachtungseinheiten keine Daten vor. Der Beobachtungsdatensatz ist unvollständig. Idealerweise sollte das Panel „Balanced“ sein. Aber auch Unbalanced Panel können (unter bestimmten Annahmen) von der statistischen Software analysiert werden. Die jeweiligen Verfahren variieren dabei je nach Programmpaket. Schließlich müssen für die statistischen Analysen bei echten Paneldatensätzen die Daten in die „richtige“, d. h. für das Programmpaket interpretierbare Form gebracht werden. Liegen die Daten im sogenannten Short Format (= Wide Format) vor, müssen sie in das Long Format überführt werden. Ein Beispiel für das Short Format enthält Abb. 4.1. Es handelt sich um die Anzahl der Studienanfänger an den deutschen Hochschulen für 12 aufeinanderfolgende Jahre, die hier einfach als Jahre 1 bis 12 bezeichnet werden. Im Short Format stehen die Erstsemester der Universität Freiburg im Breisgau der Jahre 1 bis 12 in einer Zeile hintereinander. In der zweiten Zeile finden sich die Anfängerzahlen für die Universität Heidelberg etc. Jede Hochschule stellt eine Beobachtung dar. Die einzelnen Hochschulen sind in diesem Beispiel die Beobachtungseinheiten, d. h. Beobachtungsträger. Das dazugehörige Long Format zeigt Abb. 4.2. Im Long Format ist jeder Zeitpunkt eine Beobachtung. Das heißt, im Fall der jährlichen Beobachtungen der Anzahl der Studienan-
Abb. 4.1 Datensatz im Short Format
232
4 Paneldatenanalyse
Abb. 4.2 Datensatz im Long Format
fänger an den deutschen Hochschulen stehen die Studienanfängerzahlen der Universität Freiburg im Breisgau der Jahre 1 bis 12 untereinander, dann folgt die Universität Heidelberg usw. Neben dieser datentechnischen Unterscheidung spricht man von breiten Paneldatensätzen (Wide Panel), wenn viele Beobachtungseinheiten, aber nur relativ wenige Zeitpunkte vorhanden sind. Diese werden manchmal auch als kurze Panels (Short Panel) bezeichnet. Lange Paneldatensätze (Long Panel) liegen vor, falls relativ wenige Beobachtungseinheiten über sehr viele Zeitpunkte hinweg erfasst werden. Im vorliegenden Beispieldatensatz
4.3 Abweichungsanalysen bei Paneldaten
233
existieren Datenwerte für 226 Hochschulen über 12 Jahre hinweg. Es handelt sich also um einen breiten Datensatz (Wide Panel, Short Panel), der in der Abb. 4.2 (auszugsweise) im Long Format dargestellt wird. Aus der Abb. 4.2 lässt sich Folgendes herauslesen. Die Variable Zahl_Erstsemester (= Y) für die Universität Heidelberg (i = U Heidelberg) im dritten Beobachtungsjahr (t = 3) beträgt 3436 Studierende. Für weitergehende Analysen muss der Statistiksoftware diese Struktur des Datensatzes hinsichtlich der Beobachtungsträger (hier der Hochschulen) und der Zeiteinheiten (hier der Jahre) kommuniziert werden. Ein Unbalanced Panel wäre gegeben, wenn zum Beispiel für die Universität Heidelberg für die Jahre 5 und 11 keine Daten vorhanden sind oder für die Universität Freiburg i.Br. im dritten Jahr die Daten fehlen. Prinzipiell weisen solche Paneldaten verschiedene Vorteile im Vergleich zu Querschnittsdaten auf: • Die Aussagekraft der statistischen Analysen ist höher, da eine größere Zahl von Beobachtungen vorhanden ist und die Variabilität der Einflussfaktoren tendenziell größer ausfällt. • Sie enthalten Informationen zum zeitlichen Verlauf von Zuständen und Wirkungen. Damit können Untersuchungen zu dynamischen Wirkungen, Anpassungsprozessen und Übergängen durchgeführt werden. • Die Varianz innerhalb einer Beobachtungseinheit im Zeitablauf (Within Variance) kann analysiert werden, bspw. die Entwicklung des realen Bruttoinlandsprodukts (BIP) pro Kopf in Sachsen von 1991 bis 2020. Demgegenüber ist eine reine Querschnittsanalyse auf die Untersuchung der Varianz zwischen den Beobachtungseinheiten (Between Variance) beschränkt, etwa den Unterschied im BIP pro Kopf im Jahr 2020 zwischen den 16 Bundesländern. • Ein aus diesen Eigenschaften resultierender wesentlicher Vorteil ist, dass Paneldaten es ermöglichen, die unbeobachtete Heterogenität zu beseitigen. Das heißt, die Wirkungen unbeobachteter einflussreicher Variablen (und damit das Problem des Omitted Variable Bias) sind unter bestimmten Bedingungen eliminierbar. Damit kann ggf. auch das Problem der Selbstselektion (Self-Selection) behoben werden. Dies wird im Abschn. 4.4 erläutert.
4.3
Abweichungsanalysen bei Paneldaten
Die OLS-Regression ist im Kern eine Analyse der Abweichungen vom Mittelwert (Conditional Mean). Wir schätzen dabei den Erwartungswert (im Durchschnitt zu erwartenden Wert) einer abhängigen Variablen unter der Bedingung gegebener unabhängiger Variablen (Stoetzer 2017). Da Paneldatensätze aber zwei Dimensionen enthalten, müssen wir jetzt zwischen verschiedenen Mittelwerten und damit Abweichungen differenzieren.
234
4 Paneldatenanalyse
Hinsichtlich der unabhängigen Variablen sind aufgrund der zwei Dimensionen drei Fälle zu unterscheiden: Erstens sind Einflüsse denkbar, die für jede Beobachtungseinheit und darüber hinaus zu jedem Zeitpunkt unterschiedlich groß ausfallen. Beispiele sind die Zahl der neu angemeldeten Patente der Unternehmen, die Bildungsinvestitionen verschiedener Staaten oder die Einkommen der Haushalte in einem Paneldatensatz. Solche unabhängigen Variablen Xit ändern sich also (zumindest prinzipiell) für jedes i und jedes t. Zweitens ist es möglich, dass die unabhängigen Variablen zeitinvariant (Time Invariant) sind, sich also im Zeitablauf nicht ändern, aber zwischen den Beobachtungseinheiten unterschiedliche Werte aufweisen. Für Individuen sind dies bspw. das Geschlecht und der Migrationshintergrund, für Staaten evtl. die politischen Rahmenbedingungen oder das Wirtschaftssystem, für Unternehmen ggf. die strategische Ausrichtung oder die Managementkompetenzen. In der Darstellung gilt in diesem Fall, dass Xit gleich Xi für alle Zeitpunkte t ist. Für die Einstufung einer Variablen als zeitinvariant spielt nur eine Rolle, dass diese im Beobachtungszeitraum des Datensatzes nicht variieren. Fast alle unabhängigen Variablen sind natürlich prinzipiell veränderlich – selbst das Geschlecht. Drittens können sich Variablen im Zeitablauf verändern, aber für einen gegebenen Zeitpunkt bei allen Beobachtungseinheiten identisch sein. Solche Variablen bezeichnen wir als beobachtungsträgerinvariant (Entity Invariant, Individual Invariant). Hierzu zählen Zeittrends oder makroökonomische Rahmenbedingungen, die – etwa in einem Jahr – für alle Beobachtungseinheiten gleichermaßen gelten. Beispiele für die Unternehmen in einem Land sind das Schrumpfen der Bevölkerung, die Inflationsrate, das Erwerbspersonenpotenzial oder ein Wertewandel der Verbraucher. Hinsichtlich verschiedener Staaten handelt es sich bspw. um globale Auswirkungen der Finanz- und Wirtschaftskrise im Jahr 2008. Für die Darstellung heißt dies, dass die Variable Xit für alle Beobachtungseinheiten i zum Zeitpunkt t gleich Xt beträgt. Praktisches Beispiel: Hochschulgebühren in Deutschland
Im Jahr 2002 hat die damalige Bundesregierung unter Kanzler Gerhard Schröder im Zuge einer Novellierung des Hochschulrahmengesetzes ein Verbot von Studiengebühren verabschiedet. Gegen diese Entscheidung haben verschiedene Bundesländer vor dem Bundesverfassungsgericht Klage erhoben. Das Gericht hat daraufhin 2005 entschie den, dass eine solche Regelung im Widerspruch zu den verfassungsrechtlichen Kompetenzen der Länder hinsichtlich des Bildungswesens steht. Kurz darauf begannen sieben Bundesländer Studiengebühren zu erheben. Vorreiter waren im Wintersemester 2006/2007 die Bundesländer Nordrhein-Westfalen und Niedersachsen, gefolgt von Baden-Württemberg, Bayern, Hamburg, Hessen und dem Saarland im Jahr 2007. In diesen Ländern mussten die Studierenden bis zu 500 Euro pro Semester (1000 Euro pro Jahr) bezahlen, während in anderen Bundesländern das Studium weiterhin kostenlos war. Die Einführung und Erhebung von Studiengebühren wurde von einer heftigen politischen Diskussion begleitet, in der vor allem die Argumente der sozialen Ungleichheit und mangelnden Chancengleichheit hervorgehoben wurden. Nur ein Jahr nach ihrer Einführung schaffte das Land Hessen aufgrund eines Wechsels der Regierungspar-
4.3 Abweichungsanalysen bei Paneldaten
235
teien die Erhebung von Studiengebühren wieder ab. In den Folgejahren folgten schrittweise weitere Bundesländer auf diesem Weg. Dies führte zur vollständigen Abschaffung der Studiengebühren in allen Bundesländern – und damit der öffentlichen Hochschulen – bis Ende 2014. Generell haben 7 der 16 Bundesländer im Zeitraum 2006 bis 2014 zumindest zeitweise Studiengebühren erhoben. Dagegen verzichteten 9 Bundesländer im gesamten Zeitraum auf solche Gebühren. Als Konsequenz existierten in Deutschland von 2006 bis 2014 öffentliche Hochschulen (Fachhochschulen und Universitäten) mit und ohne Studiengebühren parallel und zum Teil auch räumlich recht eng beieinander. Für alle diese Hochschulen sind u. a. je weils Daten zur Zahl der Erstsemester und zur Zahl der neu dazukommenden Hochschulzugangsberechtigten im betreffenden Bundesland für jedes Jahr vorhanden. Die Frage, ob und inwieweit die Einführung und Abschaffung von Studiengebühren Auswirkungen auf die Zahl der Erstsemester hatte, lässt sich auf dieser Datengrundlage analysieren. ◄ Auf Basis der zwei Dimensionen ist zwischen unterschiedlichen Abweichungen vom Mittelwert zu differenzieren. Tab. 4.1 enthält einen verkürzten Datensatz dreier Hochschulen aus drei Bundesländern für drei Jahre. Hinsichtlich der unabhängigen Variable X Anzahl_Studienanfänger existiert ein Mittelwert für die jeweilige Hochschule über alle drei Jahre hinweg (siehe Tab. 4.2). Dieser ist der Hochschulmittelwert – allgemeiner ausgedrückt der Mittelwert der Beobachtungs einheiten (Entity Mean, Individual Mean) – hier der Hochschulen. Die Zeitdimension wird hierdurch eliminiert. Zum Beispiel gab es für die Universität Freiburg im Breisgau im Durchschnitt der drei Jahre 3376 Erstsemester. Daneben existiert ein Gesamtmittelwert (Overall Mean, Grand Mean) aller 9 Beobachtungen der Variablen X, d. h. der Zahl der Erstsemester, der 3606 beträgt. Daraus resultieren die Abweichungen jeder Beobachtung von diesem Gesamtmittelwert in der Spalte Gesamtabweichung. Die Gesamtabweichung Tab. 4.1 Kurzdatensatz Hochschulen
236
4 Paneldatenanalyse
Tab. 4.2 Unterschiedliche Mittelwerte Zahl GesamtStudien- Hochschul- mittel- Gesamtabweichung Hochschule Jahr anfänger Mittelwert wert Yit i t Yi Yit − Y Y U Freiburg 1 2984 3346 3606 −622 U Freiburg 2 3319 3346 3606 −287 U Freiburg 3 3824 3346 3606 218 FU Berlin 1 3781 4048 3606 175 FU Berlin 2 4094 4048 3606 488 FU Berlin 3 4268 4048 3606 662 U Frankfurt 1 3424 3920 3606 −182 U Frankfurt 2 3831 3920 3606 225 U Frankfurt 3 4505 3920 3606 899
Between(Zwischen-) Abweichung Yi − Y −260 −260 −260 442 442 442 314 314 314
Within(Innerhalb-) Abweichung Yit − Yi −362 −27 478 −267 46 220 −496 −89 585
entspricht der Differenz der Hochschulzugangsberechtigten im Bundesland einer Hochschule vom Gesamtmittelwert. Interessant sind vor allem die Between-Abweichung und die Within-Abweichung. Die Between Difference (Zwischen-Abweichung) beschreibt den Unterschied des Mittelwerts einer bestimmten Hochschule vom Gesamtmittelwert. Sie fokussiert daher die Unterschiede zwischen den Hochschulen ohne Berücksichtigung der Veränderungen über die drei Jahre hinweg. Die Zahl der Erstsemester liegt im Fall der Universität Freiburg im Durchschnitt aller drei Jahre um 260 niedriger als im Mittel aller betrachteten Hochschulen. Für die FU Berlin liegt die Zahl um 442 Studienanfänger höher. Die Within-Abweichung (Innerhalb-Abweichung) ist die Differenz zwischen den Zahlen der Hochschulzugangsberechtigten einer bestimmten Hochschule für verschiedene Jahre. Dieser Wert konzentriert sich auf die Abweichungen einer Hochschule von ihrem Jahresmittelwert. Folglich werden hier die Unterschiede zu den anderen Hochschulen aus der Betrachtung weggelassen. Wir werden weiter unten sehen, dass dies ein entscheidender Vorteil ist. Die Universität Freiburg hatte im ersten Jahr 362 und im zweiten Jahr 27 weniger Studienanfänger als im Mittel der drei Jahre, im dritten Jahr dagegen 478 mehr. Bei zeitinvarianten unabhängigen Variablen ist die Within-Abweichung gleich 0, da ja bspw. das Geschlecht sich nicht ändert und damit Mittelwert und Beobachtungswerte immer gleich groß sind – unabhängig vom betrachteten Zeitpunkt.
4.4
Echte Paneldaten (Longitudinal Data)
4.4.1 Überblick Für die Analyse echter Paneldaten stehen verschiedenen Verfahren zur Auswahl. Um einen Gesamtüberblick zu erhalten, werden die wichtigsten in der Übersicht 4.1 aufgeführt.
4.4 Echte Paneldaten (Longitudinal Data)
237
Übersicht 4.1 Methoden der Analyse von Paneldaten
• Gepooltes OLS-Verfahren (einfache OLS-Schätzung, gepackte OLS-Methode) • Fixe-Effekte-Ansatz/Fixed-Effects (FE)-Methode –– Dummy-Variablen-Methode (LSDV-Verfahren) –– Mittelwertabweichungsmethode • Zufällige-Effekte-Ansatz/Random Effects (RE-Methode) • Erste-Differenzen-/First-Differences-Verfahren Die Fixe-Effekte- und das Erste-Differenzen-Verfahren fasst die Literatur manchmal unter dem Oberbegriff Differenzen-in-Differenzen-Methoden zusammen. Zum Teil wird diese Bezeichnung aber für das im Abschn. 4.5 erläuterte Vorgehen bei der Analyse gepoolter Paneldaten (unechter Panels) reserviert. Eine weitere Dimension der (begrifflichen) Komplexität ergibt sich, weil erstens für die Fixe-Effekte-Methode wiederum unterschiedliche Schätzverfahren einsetzbar sind. Dazu gehören die Dummy-Variablen-Methode und das Mittelwertabweichungsverfahren. Zweitens firmiert die Random-Effects-Methode auch als Fehlerkomponenten-Methode (Error Components Method). Ein zentrales Problem der Panelanalyse ist es, aus diesen Methoden das jeweils adäquate Verfahren auszuwählen. Dies ist unter inhaltlichen Gesichtspunkten zu beurteilen. Außerdem existieren einschlägige Tests, die weiter unten erläutert werden.
4.4.2 Gepooltes OLS-Verfahren Im einfachsten Fall wird bei echten und unechten Panels der Panelcharakter der Daten vernachlässigt, d. h. alle Beobachtungen werden zusammengepackt und mittels OLS analysiert. Wir ignorieren dabei – im Fall von echten Panels – die Tatsache, dass es sich um immer dieselben Beobachtungseinheiten, nur zu unterschiedlichen Zeitpunkten, handelt (Park 2011, S. 7).3 Und sowohl bei echten als auch bei unechten Panels nehmen wir nicht zur Kenntnis, dass sich unsere Beobachtungen auf unterschiedliche Zeitpunkte beziehen. Beispielsweise können bei der Analyse der Einflussfaktoren der Punkte, die ein Songbeitrag im Rahmen des European Songs Contest (ESC) erhält, die Ergebnisse aller Wettbewerbe von 1999 bis 2014 zusammengepackt werden. Die Rahmenbedingungen des European Song Contest sind im Untersuchungszeitraum (weitgehend) identisch, es existieren keine Trends in den Variablen und die Interpreten sind jeweils andere, sodass alle Beob Der Begriff „gepoolte OLS-Schätzung“ bezieht sich hier auf den Einbezug aller Beobachtungen ohne Berücksichtigung der unterschiedlichen Zeitpunkte und Beobachtungsträger. Der Ausdruck „gepoolte Paneldaten“ meint, dass der Datensatz zu den verschiedenen Zeitpunkten nicht immer dieselben Beobachtungseinheiten umfasst, es sich also um ein unechtes Panel handelt (siehe dazu Abschn. 4.5). Beide Begriffe sind auseinanderzuhalten!
3
238
4 Paneldatenanalyse
achtungen – obwohl sie sich auf verschiedene Jahre beziehen – gepoolt werden können (siehe Stoetzer 2017, Kap. 3, Anhang 3.1). Die Wirkung eines Einflussfaktors (eines Treatment) – bspw. der Frage, ob die Sprache des Songbeitrags in Englisch eine Rolle spielt –, ist dann mittels der üblichen OLS-Schätzung analysierbar. Dazu wird im Rahmen der Spezifikation einer Regressionsgleichung eine Dummyvariable aufgenommen. Alle Interpreten, die ihren Song in Englisch präsentieren, erhalten eine 1 (= Treatment-Gruppe) und alle anderen Interpreten eine 0 (= Kon trollgruppe). Die Koeffizientenschätzung dieser Dummyvariable verdeutlicht, ob und in welchem Ausmaß sich die erhaltenen Punkte mit Treatment von denen ohne Treatment unterscheiden, d. h. inwieweit zwischen diesen beiden Gruppen im Mittel eine Differenz existiert. Ist im Beispiel des Patentierungsverhaltens der Koeffizient der Unternehmen, die F&E-Subventionen erhalten haben, positiv und signifikant, bedeutet das, dass die Unternehmen mit F&E-Subventionen im Mittel häufiger Patente anmelden als Unternehmen ohne F&E-Subventionen. Ist der Koeffizient im Beispiel der Hochschulen negativ und signifikant, folgt daraus, dass Hochschulen, die Studiengebühren erhoben haben, im Mittel geringere Studienanfängerzahlen aufweisen. Unverzerrte Koeffizientenschätzungen – die kausal interpretierbar sind – erhalten wir so aber nur unter (sehr) restriktiven Bedingungen. Aus statistischer Sicht darf keine En dogenität der unabhängigen Variablen existieren, die Fehler müssen also einem weißen Rauschen entsprechen. Inhaltlich bedeutet dies erstens, dass keine beobachteten und unbeobachteten Unterschiede zwischen den verschiedenen Jahren (bzw. Zeitpunkten) auf die sich die Beobachtungen beziehen, relevant sein dürfen, also bspw. keine Trends oder Strukturbrüche (siehe Kap. 3). Zweitens dürfen keine unbeobachteten Unterschiede zwischen bspw. den Songbeiträgen in allen Jahren vorhanden sein – also muss ausgeschlossen werden, dass Selbstselektion bzw. unbeobachtete Heterogenität existieren. Diese beiden Probleme nicht zu berücksichtigen, führt ggf. zu verzerrten (inkonsistenten) Koeffizientenschätzungen aufgrund eines Omitted Variable Bias (siehe Kap. 1). Darüber hinaus wird drittens damit vorausgesetzt, dass die Fehler (bzw. Residuen) keine Strukturen aufweisen, d. h. weder Autokorrelation noch Heteroskedastie vorliegen. Andernfalls sind die Standardfehler und folglich die Signifikanzniveaus der Koeffizienten nicht verlässlich. Allgemein gilt, dass bei Paneldaten häufig Veränderungen über die Zeit relevant sind – bspw. wegen sozialer Trends, ökonomischer Einflüsse sowie individueller Entwicklungen – und modelliert werden müssen. Beispiele für ökonomische Veränderungen zwischen Zeitpunkten sind kurzfristige Schocks (bspw. Welt-Finanzkrise 2008/2009, Flash Crash der US-Börse am 06.05.2010, Corona-Virus-Krise 2020), saisonale Schwankungen (etwa der Arbeitslosigkeit), mittelfristige Veränderungen (bspw. Konjunkturzyklen) und langfristige Verläufe (u. a. Inflation und Wirtschaftswachstum). Solche Einflüsse müssen mittels einer Variablen für die Zeit einbezogen werden. Längerfristige Trends sind etwa durch die Aufnahme einer metrisch skalierten Variablen für die Jahre zu berücksichtigen. Inhaltlich ist zu entscheiden, ob dieser Trend linear oder nichtlinear ausfällt. Es sind also geeignete Funktionsformen für die Zeitvariable zu wählen. Zum Beispiel kann das Jahr und gleichzeitig das quadrierte Jahr in die Regressionsgleichung aufgenommen werden.
4.4 Echte Paneldaten (Longitudinal Data)
239
Durch solche zeitbezogenen Variablen lassen sich erstens längerfristige Trends abschätzen (wie bspw. die Zunahme der Studierneigung, eine steigende Kriminalität, die Abnahme der tödlichen Straßenverkehrsunfälle, die Erhöhung der Sicherheit im Flugverkehr oder eine Verringerung des Lohngefälles zwischen Frauen und Männern). Aber auch unterschiedliche Entwicklungen – etwa die Zunahme der Arbeitslosenquote in Deutschland von 2000 bis 2005 und deren Sinken von 2006 bis 2019 – sind auf diese Weise modellierbar. Abschn. 4.6 unten kommt darauf zurück, und dort illustriert Abb. 4.6. mögliche Wirkungsverläufe. Bei vereinzelten, willkürlichen bzw. erratischen Veränderungen, die für einzelne Zeitpunkte zutreffen, sind Dummyvariablen für die Jahre (bzw. Zeitpunkte) mit in die Regressionsgleichung aufzunehmen. Es muss wieder ein Jahr weggelassen werden (wegen der Dummyvariablen-Falle). Üblicherweise ist dies das erste Jahr. Die Koeffizientenschätzungen der anderen Jahre drücken dann den Unterschied zu diesem Referenzjahr (Basisjahr) aus. Solche Dummyvariablen für die Zeitpunkte sind darüber hinaus ebenfalls geeignet, sowohl Trends als auch Schwankungen zu erfassen. Sie sind also im Prinzip die flexibelste Form, um zeitbezogene Einflüsse zu modellieren. Ihr Nachteil im Vergleich zu metrisch skalierten Zeittrendvariablen ist, dass sie die Schätzung vieler Dummyvariablen erfordern. Die Aufnahme weiterer Einflussfaktoren (bspw. Unternehmensgröße, Branche, Hochschultyp usw.) ist möglich und sinnvoll, da sie in der Regel die Präzision bzw. Qualität der Schätzung erhöht. Solche zeitlichen Einflüsse in der Spezifikation zu berücksichtigen, ist prinzipiell leicht möglich, da die Information, auf welche Zeitpunkte sich die Beobachtungen beziehen, immer vorhanden ist. In dieser Hinsicht ist eine gepoolte OLS-Schätzung also ohne Schwierigkeiten um zeitliche Aspekte erweiterbar. Hinsichtlich des zweiten oben genannten Problems sind die geschätzten Koeffizienten aber nur dann unverzerrt (d. h. verlässlich), wenn die Wahrscheinlichkeit, dass ein Unternehmen bzw. eine Hochschule einer solchen Maßnahme (Treatment) ausgesetzt ist, rein zufällig erfolgt. Dies ist bspw. nicht der Fall, wenn insbesondere forschungsstarke Unternehmen sich um F&E-Subventionen bemühen und außerdem diese Subventionen gerade wegen ihrer Forschungsstärke erhalten. Eine höhere Zahl von Patenten bei diesen Unternehmen ist dann natürlich kein Beweis dafür, dass das F&E-Subventionsprogramm tatsächlich die Patenthäufigkeit erhöht. Gleiches gilt, wenn Hochschulen mit höheren Studierendenzahlen eher dazu tendieren, Studiengebühren zu erheben. Der eventuell vorhandene negative Einfluss der Studiengebühren auf die Zahl der Studierenden wird nicht entdeckt, da er bei einem solchen Verhalten der Hochschulen verschleiert wird. In allen diesen Fällen liegt unbeobachtete Heterogenität vor, also Endogenität unabhängiger Variablen. Der Einfluss der Zeit und der unbeobachteten Heterogenität kann sich auch in der Au tokorrelation und Heteroskedastie der Residuen bemerkbar machen. Im Rahmen der gepoolten OLS-Methode ist dies zu berücksichtigen, indem (spezielle) robuste Standardfehler geschätzt werden. Solche clusterrobusten Standardfehler führen zu verlässlichen t-Werten und damit Signifikanzniveaus der geschätzten Koeffizienten. Die folgenden Abschnitte kommen darauf zurück. Allerdings sind robuste Standardfehler nicht weiter hilf-
240
4 Paneldatenanalyse
reich, wenn – wie oben erläutert – die Koeffizientenschätzungen selber (stark) verzerrt sind. Außerdem können Autokorrelation und Heteroskedastie Hinweise auf eine Fehlspezifikation des gepoolten OLS-Verfahrens darstellen. Als Fazit ist festzuhalten, dass das gepoolte OLS-Verfahren auf sehr restriktiven Annahmen basiert (Andreß et al. 2013). Tatsächlich ist es fast immer plausibel, dass die Zusammenhänge heterogen sind, also erstens Unterschiede zwischen den Zeitpunkten (bspw. Monaten oder Jahren) sowie zweitens zwischen den Beobachtungseinheiten (bspw. Unternehmen oder Staaten) berücksichtigt werden müssen. Ist dies nicht der Fall, weil die notwendigen Informationen (Variablen) fehlen, führt eine gepoolte OLS-Schätzung zu verzerrten Koeffizienten. Die folgenden Abschnitte verdeutlichen, wie (und wann) es möglich ist, bei echten Paneldaten nicht nur die beobachtete, sondern sogar die unbeobachtete Heterogenität zu kontrollieren, d. h. zu beseitigen. Auch im Fall von unechten Panels können bestimmte Eigenschaften von Paneldaten genutzt werden, um unter weniger restriktiven Bedingungen kausale Einflüsse zu identifizieren.
4.4.3 Fixed-Effects-Verfahren Ein entscheidender Vorteil von echten Paneldaten ist es, durch die Beobachtung von immer den gleichen Untersuchungseinheiten zu verschiedenen Zeitpunkten besser die kausalen Wirkungen bestimmter Maßnahmen oder Ereignisse abzuleiten. Die Verwendung sogenannter fixer Effekte (FE-Verfahren) ist eine Möglichkeit, die Wirkung einflussreicher, aber unbeobachteter und sogar unbeobachtbarer Variablen zu eliminieren.4 Eine Alternative dazu bietet die Verwendung erster Differenzen, die Abschn. 4.4.5 darstellt. Eine unbeobachtete Variable im Hochschulbeispiel ist die strategische Ausrichtung der Hochschulen. Wenn wir annehmen, dass diese Variable sich von Hochschule zu Hochschule unterscheidet, aber im Zeitverlauf nicht ändert, kann ihr Einfluss durch die Verwendung einer Dummyvariablen für jede Hochschule im Panel eliminiert werden. Jede Hochschule hat dann ihre eigene Konstante. Diese entspricht dem geschätzten Koeffizientenwert der hochschuleigenen Dummyvariable. Alle hochschulindividuellen Einflüsse werden mittels dieser Dummyvariablen berücksichtigt und können daher die Koeffizienten der anderen unabhängigen Variablen nicht mehr verzerren. Anders formuliert: Die Dummys absorbieren alle Einflussfaktoren, die spezifisch für die jeweilige Beobachtungseinheit (Hochschule, Unternehmen, Region, Person usw.) sind, sich aber im Beobachtungszeitraum nicht ändern. Verallgemeinert erhält bei diesem Verfahren also jede Beobachtungseinheit (Hochschule, Unternehmen, Region, Person usw.) eine eigene Dummyvariable, die – wenn es Andere Bezeichnungen sind: „Within-Schätzverfahren“, „Covariance-Modell“, „Individual-Dummy-Methode“ (siehe dazu Stock und Watson 2015, S. 356 ff.; Wooldridge 2018, S. 435 ff.; Park 2009, 2011).
4
4.4 Echte Paneldaten (Longitudinal Data)
241
sich um eine Beobachtung dieser Hochschule handelt – den Wert 1 besitzt und ansonsten gleich 0 ist. Dies gilt für jeden Zeitpunkt im Paneldatensatz. Der Ansatz wird als „Least-Squares-Dummy-Verfahren“ (LSDV-Verfahren) bezeichnet.5 Ohne diese Dummyvariable lautet die Spezifikation der Regressionsgleichung:
Yit = a 0 + b1Treatit + e it ( mit i = 12 … N; t = 12 … T )
(4.1)
Diese ist aber falsch, da der wahre Zusammenhang ja noch den Einfluss der strategischen Ausrichtung der Hochschule (Variable Strateg) einzubeziehen hat:
Yit = a 0 + b1Treatit + b 2 Strategi + e it (4.2)
Da die Variable Strateg von einer zu anderen Hochschule variiert, aber annahmegemäß für die jeweilige Hochschule zu allen Zeitpunkten identisch ist (also eine Konstante darstellt), kann die Gl. (4.2) auch umformuliert werden. Wir definieren: ai = a0 + b2Strategi. Daraus ergibt sich (wenn a0 und b2 für jede einzelne Hochschule zu allen Zeitpunkten gleich groß sind):
Yit = a i + b1Treatit + e it (4.3)
Bei den ai handelt es sich um die individuellen Konstanten der insgesamt i Hochschulen. Diese werden auch als „Entity-fixed Effects“ bezeichnet.6 In Gl. (4.3) ist die Konstante a0 weggelassen bzw. von den ai absorbiert worden. Für die praktische Durchführung ist nämlich wieder darauf zu achten, dass nicht in die Dummyvariablen-Falle gelaufen wird. Die Umsetzung erfolgt aber üblicherweise so, dass eine Konstante a0 einbezogen wird, man aber dafür einen der Beobachtungsträger (hier eine Hochschule) nicht einbezieht, d. h. diese erhält keine eigene Dummyvariable.7 Gl. (4.3) wird also zu:
Yit = ( a 0 + a i −1 ) + b1Treati + e it
(4.4)
Der eingeklammerte Teil der Gl. (4.4) enthält die hochschulindividuellen Einflüsse. Der Einbezug weiterer Einflussfaktoren ist auch in diesem Fall möglich. In unserem Beispiel etwa die Zahl der Studienberechtigten in einer Hochschulregion (= Berecht):
Yit = ( a 0 + a i −1 ) + b1Treati + b 2 Berechtit + e it
(4.5)
Gl. (4.5) kann dann wie üblich mittels OLS geschätzt werden. Ökonometrisch müssen eine Reihe von Voraussetzungen gegeben sein, damit die Koeffizientenschätzungen unver Das LSDV-Verfahren wird in der Literatur zum Teil nicht zu den FE-Verfahren gezählt, sondern der Begriff FE nur für die anschließend behandelte Mittelwertabweichungsmethode verwendet. 6 In der Literatur werden die ai häufig ui genannt. 7 Verschiedene Vorgehensweisen hinsichtlich der Verwendung von Dummyvariablen mit oder ohne Konstante stellt Park (2009, 2011) ausführlich dar. 5
242
4 Paneldatenanalyse
zerrt und die Standardfehler und damit t-Werte verlässlich sind. Dazu gehört wieder, dass die Residuen homoskedastisch sind und keine Autokorrelation vorliegt. Es gibt aber Verfahren (bspw. in Stata und SPSS) mit denen korrekte (robuste) Standardfehler, sogenannte HAC-Standardfehler (Heteroskedasticity and Autocorrelation-consistent Standard Errors), zu berechnen sind. Der Ansatz der Dummyvariablen für jede Beobachtungseinheit kann erweitert werden. Möglicherweise existieren Einflüsse, die alle Hochschulen in Deutschland gleichermaßen betreffen, aber sich im Zeitablauf verändern. Ein solcher Einfluss ist bspw. eine allgemeine Zunahme der Studierneigung. Sie beeinflusst ggf. die Zahl der Erstsemester an den deutschen Hochschulen. Wird diese nicht in der Regression berücksichtigt, führt das unter Umständen zu verzerrten und damit falschen Resultaten. Der Einfluss einer zunehmenden Studierneigung der Hochschulzugangsberechtigten ist als weiterer fixer Effekt zu berücksichtigen. Es handelt sich um einen „Time-fixed Effect“. Fixe-Effekte-Modelle mit lediglich Entity-fixed Effects (also Dummys für die Beobachtungsträger, hier die Hochschulen) bezeichnet man als One-Way-Modelle. Werden außerdem Dummys für die Jahre einbezogen, spricht man von Two-Way-Modellen. In unserem Beispiel wird der dahinterstehende Trend wachsender Studierendenzahlen durch eine separate Konstante für jedes Beobachtungsjahr abgebildet (ct), wobei t für die Beobachtungszeitpunkte steht. Dies führt zu:
Yit = ( a 0 + a i −1 ) + c t −1 + b1Treati + b 2 Berechti + e it
(4.6)
Es werden also im Hochschulbeispiel zusätzlich noch Dummvariablen für jedes Beobachtungsjahr aufgenommen. Ein Beobachtungsjahr (üblicherweise das erste Jahr) muss wieder weggelassen werden. Deswegen findet sich in Gl. (4.6) die Variable ct−1. Also berücksichtigen wir bspw. bei 10 Beobachtungsjahren die Dummys c1 bis c9. Veränderungen mit Trendcharakter im Zeitverlauf können auch durch die Aufnahme einer metrischen Variablen für die Zeit (anstelle von Dummys für jeden Zeitpunkt) berücksichtigt werden. Bspw. existieren für die Variable Jahr Beobachtungen für 12 Jahre, die mit den Werten 1 bis 12 kodiert sind. Die Variable Jahr wird als unabhängige Variable aufgenommen, und der ermittelte Koeffizient beschreibt dann die lineare Wirkung eines zusätzlichen Jahres auf die abhängige Variable (bspw. die Zahl der Studierenden), also einen Trend im Beobachtungszeitraum. Wie aus der einfachen Regression bekannt, sind nichtlineare Trends durch geeignete Transformationen der Variablen Jahr (bspw. Logarithmierung oder Quadrierung) ebenfalls spezifizierbar. Hinter der Spezifikation in Gl. (4.6) steht die Idee, dass sich die Hochschulen (Beobachtungseinheiten) und Untersuchungsjahre im Niveau der Zahl der Studierenden unterscheiden. Der Einfluss der Variablen Treat und Berecht, d. h. die Koeffizienten b1 und b2, sind aber über alle (betroffenen) Hochschulen und Jahre hinweg identisch (gleiche Steigung der Koeffizienten). Außerdem wird angenommen, dass die Varianz des Fehlerterms konstant ist und keine Autokorrelation vorliegt (Wooldridge 2018, S. 449; Park 2011, S. 8).
4.4 Echte Paneldaten (Longitudinal Data)
243
Zusätzlich erweiterbar ist der Ansatz, indem zweistufig vorgegangen wird: Die Hochschulen liegen in verschiedenen Bundesländern. Eventuell üben unterschiedliche politische Vorgaben bei der Ausgestaltung von Studiengebühren ebenfalls einen jetzt landesspezifischen Einfluss aus (unabhängig vom Jahr der Einführung von Studiengebühren!). Es sind dann erstens Dummys für jedes Bundesland (wieder minus 1) und außerdem zweitens Dummys für die jeweiligen Hochschulen aufzunehmen (sowie ggf. noch die Dummys für die Beobachtungsjahre). Eine Spezifikation wie in Gl. (4.6) produziert eine umfangreiche Zahl von Dummyvariablen: Sowohl für jede Hochschule als auch für jedes Jahr wird eine separate Dummyvariable aufgenommen (jeweils minus 1). Die Schätzung ist aber prinzipiell weiterhin pro blemlos mittels OLS möglich. Schwierigkeiten ergeben sich bei extrem breiten Datensätzen aufgrund der im Verhältnis zur Zahl der Beobachtungen sehr großen Zahl von unabhängigen (Dummy-)Variablen. Ein Beispiel sind 1000 Unternehmen, die in zwei aufeinander folgenden Jahren befragt werden. Der LSDV-Ansatz erfordert dann die Bildung von 1000 Dummys (bei insgesamt 2000 Beobachtungen). Dies verringert die Freiheitsgerade der Schätzungen erheblich. Praktisch müssen also größere F- und t-Werte erreicht werden, um signifikante Schätzungen zu erhalten. Dieser Ansatz besitzt daher eine geringe Effizienz im Vergleich zu einer alternativen Schätzmethode, dem Mittelwertabweichungsverfahren (siehe unten). Ob die Verwendung von Entity- und/oder Time-fixed-Effects angebracht ist, wird mittels eines F-Tests überprüft. Er untersucht die Nullhypothese, dass die jeweiligen fixen Effekte gemeinsam gleich Null sind. Wenn die Nullhypothese verworfen werden kann, spricht dies insoweit für den Einsatz eines Fixed-Effects-Ansatzes. Ist die Nullhypothese nicht abzulehnen, ziehen wir eine einfache Pooled-OLS-Analyse – also ein Zusammenpacken aller Beobachtungen – in Betracht. Als Fazit ist festzuhalten: Der wesentliche Vorteil des LSDV-Ansatzes besteht darin, dass die Einflüsse von allen zeitkonstanten individuellen Merkmalen mittels der Dummys für alle Beobachtungsträger (Entitys) berücksichtigt werden. Außerdem können durch Zeit-Dummys für die Beobachtungsperioden sämtliche Einflüsse, denen alle Beobachtungsträger zu einem Zeitpunkt in gleichem Umfang ausgesetzt sind, eliminiert werden. Dies gilt in beiden Fällen unabhängig davon, ob diese unabhängigen Variablen beobachtet werden (können) oder nicht! Dem steht als Nachteil erstens gegenüber, dass im LSDV-Modell keine Einflüsse zeitkonstanter Variablen (z. B. Geschlecht eines Individuums, Standort eines Unternehmens etc.) schätzbar sind. Da diese für einen bestimmten Beobachtungsträger (Unternehmen, Hochschule usw.) in allen Perioden identisch ist, kann ihre Wirkung nicht von dem Einfluss der Entity-fixed Effects (den ai der Gl. (4.3) bis (4.6)) unterschieden werden. Zweitens ist unter Umständen eine sehr große Zahl von Dummyvariablen einzubeziehen. Dies verringert die Zahl der Freiheitsgerade deutlich und führt zur bereits erwähnten geringeren Effizienz. Das zweite Problem vermeidet eine alternative Methode der Berechnung der fixen Effekte. Dabei werden an Stelle der Dummys für alle Beobachtungsträger die Abweichun-
244
4 Paneldatenanalyse
gen der Variablen von ihrem Mittelwert berechnet und darauf basierend eine Regression durchgeführt (Demeaned-Verfahren bzw. Mittelwertabweichungsverfahren) (Stock und Watson 2015, S. 405; Wooldridge 2018, S. 435). Die Ergebnisse dieser Variante des FE-Ansatzes sind hinsichtlich der Koeffizientenschätzungen identisch mit dem LSDV-Verfahren. Auch das Mittelwertabweichungs-Verfahren analysiert die Within-Abweichungen, so dass wie beim LSDV-Verfahren unbeobachtete Heterogenität beseitigt wird. Falls die statistischen Programmpakete spezielle Methoden der Panelanalyse enthalten, wird bei Wahl des FE-Ansatzes die Berechnung automatisch auf der Basis der Mittelwertabweichungen durchgeführt. Dann sind Koeffizientenschätzungen für die DummyvariablenWerte nicht vorhanden (so bspw. in Stata). Bezieht sich das Forschungsinteresse auf einzelne Beobachtungsträger (bestimmte Hochschulen, Staaten, Unternehmen usw.) oder deren Unterschiede, muss also das Dummyvariablen-Verfahren (LSDV-Ansatz) gewählt werden. Vor- und Nachteile der beiden Ansätze diskutiert Park (2011, S. 9 f.). Die eigentliche Schätzung findet in beiden Varianten mittels OLS statt. Durch einen F-Test kann – wie bereits erwähnt – die Nullhypothese „keine fixen Effekte vorhanden“ überprüft werden. Dies ist ein Test darauf, ob die individuellen Effekte (die ai bzw. ggf. auch die ct) gemeinsam keinen Einfluss ausüben. Ist die Nullhypothese nicht abzulehnen, wird die gepoolte OLS-Regression herangezogen. Nachteil des FE- ebenso wie des LSDV-Ansatzes ist eine geringere statistische Power als z. B. das unten behandelte Random-Effects-Modell, da es nur auf der Innerhalb-Abweichung (Within-Differenz) basiert. Dies bedeutet, dass die Effekte tendenziell seltener signifikant werden.
4.4.4 Random-Effects-Verfahren Das Random-Effects-Verfahren (der RE-Ansatz) geht ebenfalls davon aus, dass es zwischen den Beobachtungsträgern systematische Unterschiede gibt. Anders als beim Fixed-Effects-Ansatz sind diese Unterschiede aber nicht fixe Koeffizienten (Parameter), sondern spiegeln sich in unterschiedlichen zufälligen Einflüssen wieder. Die Beobachtungsträger besitzen daher keinen individuell fixierten konstanten Term. Also existieren keine unterschiedlichen Dummyvariablen (d. h. konstanten Parameter ai) mehr. Auf diese zu verzichten ist möglich, wenn die individuellen ai der Beobachtungseinheiten nicht mit den unabhängigen Variablen korrelieren. Die Dummyvariablen für die ai wegzulassen, führt in diesem Fall zu keiner Verzerrung aufgrund des Omitted-Variable-Problems. Dagegen hat ihre Berücksichtigung eine Ineffizienz der Schätzungen der (anderen) unabhängigen Variablen zur Folge, wenn sie tatsächlich irrelevant für den Einfluss eines Treatments sind. Statt als Dummyvariablen sind im RE-Ansatz die unterschiedlichen zufälligen Einflüsse der Beobachtungseinheiten jetzt Teil des Fehlerterms. In der Gl. 4.7 ist dies der mit ai bezeichnete Teil des Fehlereinflusses. Dieser besteht jetzt aus (ai + eit). Der Unterschied zwischen FE- und RE-Ansatz besteht darin, dass die ai im FE-Verfahren als fixe Parameter und im RE-Verfahren als individuelle Fehlerkomponente aufgefasst und geschätzt werden. Der Teil ai ist der für jeden Beobachtungsträger (bspw. Hochschule, Land, Region, Unter-
4.4 Echte Paneldaten (Longitudinal Data)
245
nehmen) individuelle Fehler und kein fixer Parameter. Das RE-Verfahren wird daher auch als Fehlerkomponenten-Verfahren (Error-components oder Error-decomposition model) bezeichnet. Der zweite Teil des Fehlereinflusses eit ist der uns bekannte übliche Störterm.8
Yit = a 0 + b1 X1it + b 2 X 2 it +…+ ( a i + e it )
( mit i = 12 … N;t = 12 … T )
(4.7)
Das Random-Effects-Verfahren schätzt unterschiedliche Fehleranteile ai für Beobachtungseinheiten und/oder Zeitpunkte. Es unterstellt, anders als der Fixed-Effects-Ansatz, dass die Konstanten und die Koeffizienten über alle Beobachtungseinheiten und Beobachtungszeitpunkte hinweg identisch sind. Der Ansatz wird mittels GLS (Generalized Least Squares) bzw. FGLS (Feasible Generalized Least Squares) oder ML (Maximum Likelihood) geschätzt. Die Durchführung ist von der Mathematik her bei allen Verfahren komplizierter. Auf die Darstellung wird hier verzichtet. Anhang I stellt das Prinzip der ML-Schätzung dar. Genauere Erläuterungen bieten Baltagi (2013, S. 20–24) und – leichter verständlich – Wooldridge (2018, S. 441–444). Die Verfahren sind in Stata und SPSS routinemäßig aufrufbar. Das Random-Effects-Verfahren hat den Vorteil, dass auch der Einfluss von zeitkonstanten unabhängigen Variablen zu ermitteln ist. Unterschiede zwischen (und Auswirkungen von) Variablen wie Geschlecht, Schulbildung, Unternehmensstandort, sozialer Status des Elternhauses, Hautfarbe usw. können also geschätzt werden. Ob der Random-Effects-Ansatz eingesetzt werden sollte, ist mittels des Breusch-Pa gan-Lagrange-Multiplier-Tests (Breusch-Pagan-LM-Test) überprüfbar. Die Nullhypothese lautet, dass die beobachtungseinheits- oder zeitpunktbezogenen Varianzkomponenten gleich 0 sind. Wird die Nullhypothese abgelehnt, so ist das als Unterstützung des Random-Effects-Verfahrens zu interpretieren. Wird die Nullhypothese nicht abgelehnt, ist dies ein Argument für die Verwendung des einfachen Pooled-OLS-Verfahrens.
4.4.5 First-Differences-Methode Wie für das FE-Verfahren bereits erläutert, kann mittels Paneldaten die kausale Wirkung eines Treatments eher identifiziert werden. Wir sehen uns dies jetzt (auch grafisch) anhand des FD-Verfahrens (First-Differences-Methode, Erste-Differenzen-Methode oder auch Change Score Analysis) an. Das eit in Gl. (4.7) ist natürlich nicht mehr dasselbe wie in der Gl. (4.6). Zur Vereinfachung wird darauf verzichtet, diese Differenzierung kenntlich zu machen. Es wird außerdem angenommen, dass ai (ebenso wie eit) die Realisationen eines i. i. d.-Zufallsprozesses sind (mit dem Mittelwert 0 und der σ2 Varianz v ). Die Abkürzung i.i.d. steht für „Independent and Identically Distributed“. Also soll es sich um unabhängig und identisch verteilte Zufallsvariablen handeln. Unterschiedliche Strukturen von Autokorrelation und Heteroskedastie hinsichtlich der ai führen zu differierenden RE-Schätzverfahren. Baltagi (2013) und Stata (2019) behandeln diese ausführlicher. 8
246
4 Paneldatenanalyse
Bei einer simplen Pooled-OLS-Schätzung vergleichen wir die einfachen Mittel zwischen der Treatmentgruppe und der Kontrollgruppe (siehe Abschn. 4.4.2). Bei der FD-Methode betrachten wir stattdessen die Veränderung in den Ergebnissen vor und nach der Maßnahme, also die ersten Differenzen. Dabei wird untersucht, ob sich diese Veränderung zwischen der Treatment- und der Kontrollgruppe unterscheidet. Dazu ist es notwendig, einmal Daten (Informationen) zu einem Zeitpunkt vor der Maßnahme und dann außerdem Daten (Informationen) zu einem Zeitpunkt nach Einführung der Maßnahme zu besitzen. Es sind also Daten zu den Variablen im Zeitablauf (mindestens für zwei Zeitpunkte) auf der Ebene der einzelnen Beobachtungseinheiten (Unternehmen, Hochschulen, Individuen, Regionen usw.) erforderlich.9 Das heißt, ein echter Paneldatensatz muss vorhanden sein. Eine First-Differences-Analyse bspw. der Wirkungen von F&E-Fördermaßnahmen vergleicht die Veränderung eines Unternehmens, das die Förderung erhält, mit einem Unternehmen, das die Förderung nicht erhält. Nimmt bspw. zwischen zwei Zeitpunkten die Patentanzahl bei den Unternehmen, die F&E-Subventionen erhalten haben, stärker zu, als bei den Unternehmen, die solche Subventionen nicht erhalten haben, so kann der Unter schied in der Zunahme (d. h. die Differenz der Differenz) ggf. ursächlich auf den Erhalt der F&E-Subvention zurückgeführt werden. Die Auswirkung der Maßnahme (der sogenannte Treatmenteffekt) beträgt folglich:
(
) (
)
b1 = Y1T − Y0T − Y1K − Y0K
(4.8)
Der Ausdruck Y1T ist der Wert der abhängigen Variable Y zum Zeitpunkt 1 in der Gruppe mit Treatment T. Entsprechend ist Y0T der Wert der abhängigen Variablen Y zum Zeitpunkt 0 bei der Gruppe mit Treatment. Das hochgestellte K steht für die entsprechenden Werte von Y in der Kontrollgruppe, die keinem Treatment ausgesetzt ist.10 Gl. (4.8) lässt sich auch einfacher formulieren:
b1 = ∆Y T − ∆Y K (4.9)
Wobei ∆YT die Veränderung in der Treatmentgruppe und ∆YK die Veränderung in der Kontrollgruppe darstellen. Die dazu gehörende zu schätzende Regressionsgleichung lautet:
∆Yi = a 0 + b1 ∆Treati + ∆e i (4.10)
Für die Schätzung bilden wir also von allen Variablen deren (erste) Differenzen, d. h. die Veränderungen der Variablen vom ersten zum zweiten Zeitpunkt. Mit diesen neuen Variablen (hier ∆Yi und ∆Treati) erfolgt dann eine Regression entsprechend der Spezifikation der Gl. (4.10). Zur Erinnerung: Wenn sich die Beobachtungen immer auf die gleichen Unternehmen, Hochschulen usw. beziehen, handelt es sich um ein echtes Panel. Beziehen sich die Beobachtungen zu den verschiedenen Zeitpunkten auf unterschiedliche Unternehmen, ist dies ein gepoolter Querschnittsdatensatz, d. h. ein unechtes Panel. 10 Siehe dazu im Vergleich das Rubin-Neyman-Kausalmodell des Kap. 1. 9
4.4 Echte Paneldaten (Longitudinal Data)
247
Die zentrale Idee ist, dass nicht berücksichtigte Variablen, die sich im Zeitablauf nicht ändern, auch keinen Einfluss auf die Veränderung der abhängigen Variablen ausüben können. Dies ist auch mathematisch leicht nachvollziehbar: Wenn von solchen tatsächlich einflussreichen, aber im Beobachtungszeitraum konstanten unabhängigen Variablen die ersten Differenzen gebildet werden, sind diese natürlich gleich 0 und fallen damit als Einflussfaktor weg. Solche möglicherweise einflussreichen, aber nicht berücksichtigten Variablen sind in den Wirtschafts- und Sozialwissenschaften eigentlich bei jeder empirischen Fragestellung denkbar. Beispiele sind die Managementqualitäten der Geschäftsführung von Unternehmen, die Leistungsbereitschaft von Mitarbeitern, die Lebensqualität als weicher Standortfaktor von Regionen und die Lebensfreude von Individuen. Gerade bei diesen qualitativen Einflussfaktoren sind häufig entsprechende Daten nicht vorhanden oder generell nur begrenzt ermittelbar. Unbeobachtbarer Heterogenität kann so durch die Schätzung eines FD-Ansatzes prinzipiell begegnet werden. Sie besitzt in dieser Hinsicht die gleichen Vorteile wie die FE-Methode. Im Beispiel zu den Auswirkungen von Studiengebühren ist ∆Yi die Veränderung der Zahl der Studienanfänger der Hochschule i zwischen zwei Zeitpunkten (bspw. 2008 und 2012). Treati ist die Dummyvariable für das Vorliegen von Studiengebühren bei der Hochschule i. Diese Dummyvariable ist gleich 1, falls Studiengebühren von dieser Hochschule erhoben worden sind, andernfalls beträgt die Dummyvariable 0. Die erste Differenz ∆Treati ist dann gleich 1 − 0 also gleich 1. Der Koeffizient b1 entspricht der Differenz in der Veränderung der Zahl der Studienanfänger zwischen zwei Hochschulen mit und ohne Studiengebühren. Der letzte Summand der Regressionsgleichung ei ist wieder der bekannte Fehlerterm. Die Abb. 4.3 illustriert den Zusammenhang. Der Ausdruck ∆YK beschreibt die Veränderung (∆) der Zahl der Studierenden in einer Hochschule, die zur Kontrollgruppe (K) gehört. Also ist dies eine Hochschule ohne Studiengebühren. Im Beispiel liegt die Zahl der Erstsemester im Jahr 2008 bei 600 und wächst bis zum Jahr 2012 auf 1700. Das heißt, die Veränderung beläuft sich auf 1700 minus 600, d. h. 1100 Studierende. Der Wert ∆YT ist die Veränderung der Studienanfängerzahl vom Jahr 2008 bis zum Jahr 2012 in einer Hochschule aus der Treatmentgruppe mit Studiengebühren (T für Treatment). In dieser Hochschule erhöht sich die Zahl der Erstsemester im Durchschnitt von 2000 auf 2400, d. h. um 400. Die Differenz der Zunahmen (d. h. der Differenzen) zwischen der Kontroll- und der Treatmenthochschule (∆YT − ∆YK) beträgt 400 minus 1100 also −700 Studierende. Die Hochschule mit Studiengebühren verzeichnet daher einen um 700 Studierende geringeren Zuwachs an Studienanfängern als die Hochschule ohne Studiengebühren. Die gestrichelte Linie der Treatment Gruppe YT ist die geschätzte kontrafaktische Entwicklung, die eingetreten wäre, wenn diese Hochschule keine Studiengebühren erhoben hätte. Unter bestimmten Annahmen haben wir so die kausale Wirkung von Studiengebühren identifiziert. Natürlich ist diese Schlussfolgerung verfrüht, weil sie auf dem Vergleich von lediglich zwei Hochschulen beruht. Analog können wir aber die individuellen ersten Differenzen von bspw. 50 Hochschulen mit und 50 Hochschulen ohne Studiengebühren bilden. Anschließend berechnen wir die Mittelwerte dieser 100 einzelnen Differenzen und verglei-
248
4 Paneldatenanalyse
Studienanfänger
b1= -700
2400
= +400
2000
1700 = +1100
600
2008
2012
Jahr
Abb. 4.3 Das First-Differences-Verfahren
chen die Mittelwerte von Treatment- und Kontrollgruppe. In der Abb. 4.3 können wir dann YT und YK durch Y T und Y K ersetzen. Im Rahmen einer Regressionsschätzung zu den Zeitpunkten 2008 und 2012 ist dann −700 der geschätzte Koeffizient b1. Da die abhängige Variable eine Veränderung darstellt, nämlich gleich ∆Y ist, gibt uns der Koeffizient b1 der Dummyvariable Treatment (= Treat) an, ob ein Unterschied in dieser Veränderung zwischen den Beobachtungseinheiten mit und ohne Treatment existiert. Dies ist anders ausgedrückt eine Differenz einer Differenz. Allerdings wird diese Bezeichnung in der Literatur – wie bereits erwähnt – zum Teil nur für den Fall unechter Paneldaten reserviert (siehe Abschn. 4.5). In unserem konstruierten Beispiel weisen die Hochschulen mit Studiengebühren also im Durchschnitt einen um 700 Studierende geringeren Zuwachs als Hochschulen ohne Studiengebühren auf. Wenn dieser geschätzte Koeffizient signifikant ist, kann geschlussfolgert werden, dass Hochschulen mit Studiengebühren im Durchschnitt 700 Erstsemester weniger immatrikulieren. Soweit die Einführung und Abschaffung von Studiengebühren aufgrund zufälliger politischer Umstände zustande kam und daher diese Treatmentgruppe tatsächlich eine zufällige Stichprobe aus allen Hochschulen in Deutschland darstellt, entspricht dies einem natürlichen Experiment. Auf diese Weise ist der kausale Effekt der Einführung von Studiengebühren (prinzipiell) identifizierbar. Wir können dann schlussfolgern, dass die Einführung von Studiengebühren die Ursache der geringeren Zahl von Erstsemestern darstellt.
4.4 Echte Paneldaten (Longitudinal Data)
249
Beim Vergleich von lediglich zwei Zeitpunkten – wie im obigen Beispiel – kann bei der Dummyvariable für das Treatment (Treat) die Veränderung (das ∆) auch weggelassen werden: Treat zum zweiten Zeitpunkt ist gleich 1, davon wird der Wert der Variable Treat zum ersten Zeitpunkt (d. h. 0) abgezogen. Dies ist aber gleich 1 und ist daher identisch mit einer Dummyvariablen für den Zeitpunkt 1. Bei mehr als zwei Zeitpunkten müssen aber zwingend die ersten Differenzen dieser und aller anderen Variablen in der Form Zeitpunkt 2 minus Zeitpunkt 1, Zeitpunkt 3 minus Zeitpunkt 2 usw. gebildet werden. In der Grafik wird auch deutlich, dass die wahren Zusammenhänge im Rahmen einer Querschnittsanalyse nicht zu ermitteln sind. Nimmt man nur die Daten für die Erstsemesterzahlen zum Zeitpunkt 2008, wird ein positiver Einfluss der Erhebung von Studiengebühren auf die Zahl der Studienanfänger geschätzt, da im Durchschnitt eher Hochschulen mit hohen Erstsemesterzahlen Studiengebühren eingeführt haben: Im Jahr 2008 ist Y T größer als Y K .11 Dies gilt ganz genauso für eine Querschnittsanalyse im Jahr 2012. Schließlich führt auch eine gepoolte OLS-Analyse, d. h. ein Zusammenpacken aller Beobachtungen der Jahre 2008 und 2012 in einer einzigen Querschnittsanalyse, ohne Beachtung der Zeitpunkte, auf die sich die Beobachtungen beziehen, zu demselben falschen Resultat: Mit Studiengebühren liegen die Erstsemesterzahlen (im Durchschnitt) höher als ohne Studiengebühren. Inhaltlich beruht das falsche Ergebnis der einfachen Regression auf dem Problem der Selbstselektion (Self-Selection). Hochschulen mit höheren Studierendenzahlen tendieren eher dazu, auch Studiengebühren zu erheben. Dies könnte bspw. darauf zurückzuführen sein, dass diese Hochschulen nach eigener Einschätzung „sowieso zu viel Studierende“ haben und sich auf eine höhere Qualität der Lehre und Forschung konzentrieren, die mit den Einnahmen aus Studiengebühren finanziert werden können. Inhaltlich äquivalent, nur anders formuliert, wird eine wichtige Einflussvariable, nämlich die jeweilige strategische Ausrichtung der Hochschulen, in der einfachen OLS-Querschnittsschätzung nicht berücksichtigt (Omitted Variable Bias, unbeobachtete Heterogenität). Ökonometrisch gesehen, korreliert der Fehlerterm ei mit der unabhängigen Variablen Treat, d. h. Erhebung von Studiengebühren. Wenn der Fehler tatsächlich nur zufallsbedingt wäre, dürfte eine solche Korrelation aber nicht vorhanden sein. Allerdings ist in vielen Fällen unbekannt, ob tatsächlich eine einflussreiche Variable nicht berücksichtigt worden ist und damit eine Verzerrung (ein Bias) bei der Koeffizientenschätzung des Treatmenteffekts vorliegt. Glücklicherweise besitzt aber die Verwendung des FD-Verfahren in dieser Hinsicht keine Nachteile: Wenn in Wahrheit keine einflussreichen Variablen in der Spezifikation der Regression fehlen, ermittelt der Ansatz ja trotzdem den richtigen Treatmenteffekt. Die Schlussfolgerung lautet daher, dass es prinzipiell sinnvoll ist, dieses Schätzverfahren zu verwenden.
Die Unterschiede der Studierendenzahlen im Jahr 2008 (bzw. im Jahr 2012) stehen für die Between-Varianz. Die Unterschiede innerhalb der Gruppe mit Treatment T (bzw. der Gruppe K) zwischen den Jahren 2008 und 2012 sind jeweils die Within-Varianz. 11
250
4 Paneldatenanalyse
Nachteile der Verwendung von ersten Differenzen ergeben sich unter zwei Aspekten: Erstens sinkt die Zahl der Beobachtungen, da durch die Differenzenbildung Beobachtungen wegfallen. Zweitens sind die Einflüsse zeitinvarianter Variablen (bspw. Geschlecht, Standort usw.) nicht mehr zu ermitteln, da diese bei der Differenzenbildung ja eliminiert werden (die Differenz ist gleich 0). Der FD-Ansatz teilt insoweit die Nachteile des FE-Verfahrens. Die Durchführung als Regressionsanalyse ist prinzipiell einfach. Man bildet die ersten Differenzen der abhängigen Variablen. Im Beispiel der Hochschulen berechnet man folglich die Zunahme (bzw. ggf. die Abnahme) der Studierendenzahl für jede Hochschule (Beobachtungseinheit) zwischen den beiden Zeitpunkten. Dies ist die abhängige (endogene) Variable. Als unabhängige Variable verwenden wir eine Dummyvariable, die den Wert 1 bekommt, falls es sich um eine Hochschule mit Studiengebühren handelt, alle Hochschulen ohne Studiengebühren erhalten hier den Wert 0. Von dieser Dummyvariable bilden wir wiederum die erste Differenz (nur bei lediglich zwei Zeitpunkten könnten wir darauf auch verzichten). Diese Gleichung wird mittels OLS geschätzt. Die Konstante dieser Regression, d. h. a0, entspricht dem durchschnittlichen Unterschied der Studierendenzahlen im Jahr 2012 im Vergleich zum Jahr 2008. Der Koeffizient b1 der Dummyvariable ist der gesuchte und oben bereits erläuterte Effekt der Studiengebühren auf die Zahl der Erstsemester (siehe Gl. (4.10)). Auch diese Regressionsgleichung kann ggf. um weitere relevante Einflussfaktoren erweitert werden. An der Interpretation ändert dies prinzipiell nichts. Zusätzliche Variablen, die sich zwischen den betrachteten Zeitpunkten (Jahren) ändern, werden ebenfalls als Veränderung (Differenz) in die Regressionsgleichung aufgenommen. Bspw. die Veränderung der Zahl der Studienberechtigten zwischen 2008 und 2012 als Variable ∆Berecht. Dies ist die Zunahme der Zahl der Studienberechtigten im Bundesland (bzw. der Region), in dem sich die betreffende Hochschule befindet. Dann ergibt sich Gl. (4.11):12
∆Yi = a 0 + b1 ∆Treati + b 2 ∆Berechti + ∆e i (4.11)
Mögliche Einflussfaktoren, die sich von 2008 bis 2012 nicht ändern, sind – wie bereits erwähnt – mit dem FD-Verfahren nicht analysierbar: Ohne Veränderung ist die Differenz zwischen zwei Zeitpunkten gleich 0, und es ist plausibel, dass eine im Zeitverlauf kon stante Variable keine Veränderung auslösen kann. Die Berücksichtigung nichtlinearer Zusammenhänge – bspw. durch die Logarithmierung der abhängigen Variablen – ist dagegen ohne Weiteres möglich. Der beschriebene Schätzansatz erfordert mindestens Beobachtungen zu zwei Zeitpunkten. Es ist möglich (bzw. auch häufig sinnvoll) ihn auf mehrere Zeitpunkte auszudehnen. In diesem Fall handelt es sich um eine FD-Analyse mit mehreren und eventuell vielen Zeitpunkten. Im einfachsten Fall sind die Studierendenzahlen unseres Beispiels für die drei Jahre 2004, 2008 und 2012 vorhanden. Dann werden die Werte des ersten Zeitpunkts Der Fehlerterm ∆ei ist für die Durchführung der Regressionsschätzung nicht weiter problematisch. Das ∆ macht nur deutlich, dass es sich nicht um den gleichen Fehlerterm ei wie bspw. in Gl. (4.1) handelt. 12
4.4 Echte Paneldaten (Longitudinal Data)
251
von den Werten des zweiten Zeitpunktes (2008 minus 2004) und die Werte des zweiten Zeitpunkts von den Werten des dritten Zeitpunkts (2012 minus 2008) abgezogen. Die Regressionsgleichung wird zu:
∆Yi = a 0 + a1 Jahr12 + b1 ∆Treati + b 2 ∆Berechti + ∆e it (4.12)
In der Gleichung ist Jahr12 eine Dummyvariable mit dem Wert 1, wenn es sich um eine Beobachtung für das Jahr 2012 handelt (d. h. genauer die Differenz 2012 minus 2008). Die Konstante a0 entspricht dann der Veränderung von 2004 auf 2008 und a1 der Veränderung von 2008 auf 2012. Weitere Beobachtungsjahre (bspw. 2016) können hinzugefügt werden. Dafür werden weitere Jahres-Dummyvariablen aufgenommen (bspw. Jahr16). Immer ist daran zu denken, einen Beobachtungszeitpunkt wegzulassen. Falls ein linearer Trend steigender Erstsemesterzahlen vorliegt, kann dieser mittels einer einzigen Konstanten a0 kontrolliert werden. Dummys für jedes Jahr sind angebracht, wenn jahresspezifische wechselnde Veränderungen zu berücksichtigen sind. Bei mehr als zwei Zeitpunkten darf keine Autokorrelation der Residuen ∆eit vorliegen. Andernfalls sind die einfachen Standardfehler und damit die t-Werte und Signifikanzniveaus nicht mehr gültig. Hinzu kommt, dass ggf. auch Heteroskedastie auftritt. Für beide Probleme existieren aber geeignete Lösungen, die wichtigsten sind – wie bereits erwähnt – die Schätzung (cluster)robuster Standardfehler und das Bootstrapping (siehe Wooldridge 2010, S. 310–315, 438–442; Stock und Watson 2015, S. 647–652). Die praktische Berechnung von ersten Differenzen „per Hand“ ist möglich, aber fehleranfällig. Sie kann am Beispiel der Abb. 4.2, wie folgt umgesetzt werden: Für die Universität Freiburg i. Br. ist vom Jahr 2 der Wert für das Jahr 1 abzuziehen (3319−2984). Die Veränderung (das ∆) ist also gleich 335. Entsprechend wird vom Jahr 3 das Jahr 2 abgezogen (3824−3319), was zu einer Differenz von 505 führt. Es ist darauf zu achten, dass nicht vom Jahr 1 der Universität Heidelberg das Jahr 12 der Uni Freiburg abgezogen wird. Dies führt natürlich zu Nonsense-Ergebnissen. Für die praktische Berechnung der ersten Differenzen von Variablen sind daher – soweit vorhanden – in der Statistiksoftware implementierte Routinen einzusetzen, bei denen solche Fehler nicht auftreten. Durch die Differenzenbildung fällt der erste Beobachtungszeitpunkt natürlich weg, d. h. die Zahl der Beobachtungen, auf denen unsere Schätzung beruht, nimmt ab. Auch beim FD-Verfahren ist ein kausaler Zusammenhang nur unter bestimmten Annahmen gesichert. Wir müssen unterstellen, dass sich die Erstsemesterzahlen ohne Studiengebühren bei allen Hochschulen im Durchschnitt gleich entwickelt hätten. Das heißt, dass die nicht beobachteten anderen Einflussfaktoren bei beiden Gruppen von Hochschulen (mit und ohne Gebühren) die Studienanfängerzahlen gleichermaßen verändern (sogenannte Common Trends Assumption). Auch muss sichergestellt sein, dass die Wirkung in der Treatmentgruppe nicht auf die Kontrollgruppe ausstrahlt, d. h. die SUTVA-An nahme muss erfüllt sein (siehe Kap. 1). Wenn sich die Erstsemesterzahlen der Hochschulen ohne Studiengebühren erhöhen, weil Studierende jetzt vermehrt auf diese Hochschulen ausweichen, ist diese Voraussetzung verletzt. Zumindest muss dies bei der Interpretation der Koeffizientenschätzungen berücksichtigt werden.
252
4 Paneldatenanalyse
Die Robustheit dieser Annahmen und damit der kausalen Interpretation der Koeffizienten kann u. a. mit Hilfe von Lags und Leads der Treatmentvariablen überprüft werden. Auf diesen Aspekt und weitere Probleme geht Abschn. 4.6 noch etwas ausführlicher ein.
4.4.6 Wahl des Spezifikationsansatzes Es bleibt an dieser Stelle aber noch die Frage offen, welchem der vier Verfahren – dem Pooled-OLS-, dem Fixed-Effects-, dem Random-Effects- oder dem First-Differences-Ansatz – der Vorzug gegeben werden sollte.13 Der einfache Pooled-OLS-Ansatz kommt unter zwei Voraussetzungen zur Anwendung. Zum einen dürfen keine fixen Effekte vorhanden sein. Das heißt, es dürfen keine Unterschiede zwischen den Beobachtungsträgern (Hochschulen, Unternehmen usw.) existieren, was wir mittels eines F-Tests überprüfen. Zum anderen dürfen hinsichtlich der Beobachtungsträger auch keine zufälligen Effekte vorhanden sein. Dies ist mittels des BreuschPagan-Tests zu klären. Hinsichtlich FE- oder RE-Ansatz wird in der Literatur ein grundsätzliches Argument herangezogen. Wenn die Beobachtungsträger (bspw. Staaten, Unternehmen, Haushalte, Hochschulen) prinzipiell eine gegebene (fixierte) Menge darstellen und keine Zufallsstichprobe aus einer Grundgesamtheit vorliegt, ist der Fixed-Effects-Ansatz zu verwenden. Dies ist der Fall, wenn alle Elemente der Grundgesamtheit einbezogen werden, bspw. alle OECD-Staaten, alle Bundesländer oder alle Hochschulen in Deutschland. Wenn die Beobachtungsträger eine Stichprobe aus einer Grundgesamtheit (bspw. der Haushalte oder Unternehmen) sind, kommt der Random-Effects-Ansatz in Frage (Wooldridge 2018, S. 445; Baltagi 2013, S. 20). Bei aggregierten (makroökonomischen) Sekundärdaten liegt daher in der Regel der FE-Ansatz näher. Im Rahmen des FE-Ansatzes müssen wir uns noch zwischen dem LSDV- oder dem Mittelwertabweichungsverfahren entscheiden. Die Koeffizientenschätzungen sind für alle nicht Entity-fixed Effects identisch, in dieser Hinsicht ist die Wahl also irrelevant. Zwei Aspekte sind aber zu beachten. Erstens ist, wenn wir Aussagen für Unterschiede zwischen den Beobachtungsträgern (Hochschulen, Unternehmen etc.) treffen wollen, das LSDV-Verfahren zu verwenden. Zweitens spricht die höhere Effizienz für das Mittelwertabweichungsverfahren, falls sehr viele Dummys einzubeziehen sind. Was der Fall ist, wenn ein sehr breiter Paneldatensatz vorliegt. Um zwischen dem FE- und dem RE-Ansatz zu entscheiden, wird der Haus man-(Durbin-Wu-)Test herangezogen. Er analysiert, ob die Koeffizientenschätzung des Random-Effects-Ansatzes sich nur insignifikant von den Koeffizientenschätzungen des unverzerrten Fixed-Effect-Ansatzes unterscheiden (Wooldridge 2018, S. 444–445; Andreß
13 Eine weitere Möglichkeit ist die oben bereits erwähnte Differences-in-Differences (DiD) Methode. Diese ist aber bei echten Paneldaten den genannten Verfahren unterlegen. Sie wird daher nur bei gepoolten Querschnittsdaten (unechten Panels) eingesetzt, da in diesem Fall die Verwendung von Entity-spezifischen Dummys und die Bildung erster Differenzen nicht möglich sind. Abschn. 4.5 erläutert die DiD-Methode.
4.4 Echte Paneldaten (Longitudinal Data)
253
et al. 2013, S. 167–169). Die Nullhypothese lautet, dass die (unbeobachteten) individuellen Effekte nicht mit den Koeffizientenschätzungen der unabhängigen Variablen korrelieren. Inhaltlich bedeutet dies, dass die Koeffizienten der unabhängigen Variablen von den unbeobachteten zeitkonstanten Einflussfaktoren (den Entity-fixed Effects ai der Gl. (4.4) bis (4.6) aus Abschn. 4.4.3) nicht beeinflusst werden. Bei Ablehnung der Nullhypothese ist das Fixed-Effects-Verfahren einzusetzen.14 Ist die Nullhypothese nicht abzulehnen, ist das Random-Effects-Verfahren in Betracht zu ziehen. Dies ist möglich, weil man ja die fixen individuellen Effekte weglassen kann. Diese „Einsparung“ bei der Zahl der zu schätzenden Koeffizienten erlaubt eine effizientere Schätzung der übrigen Koeffizienten. Das heißt konkret, die Standardfehler sind tendenziell kleiner als bei einer Schätzung mittels des FE-Ansatzes. Wir erhalten also größere t-Werte und können die Nullhypothese eher ablehnen. Die Unterscheidung kann in drei Schritten erfolgen (Baltagi 2013, S. 83): • FE oder Pooled-OLS? Entscheidung anhand des F-Tests, der prüft, ob die Beobachtungseinheiten und Zeitpunkte jeweils gemeinsam signifikanten Einfluss besitzen: bei Ablehnung, kein Pooled-OLS sondern FE. • RE oder Pooled-OLS? Entscheidung anhand des Breusch-Pagan-Tests, der prüft, ob die Varianz der spezifischen Komponente der Beobachtungseinheiten des Störterms 0 ist: Falls Ablehnung, kein Pooled-OLS sondern RE. • FE oder RE? Bei Ablehnung der Nullhypothese durch Hausman-Test FE wählen. Tab. 4.3 fasst die verschiedenen Aspekte der Modellauswahl zwischen Pooled-OLS-, Fixe-Effekte- und Zufällige-Effekte-Verfahren zusammen. Tab. 4.3 Verfahrensauswahl Fixe Effekte (F-Test) H0 nicht abgelehnt (Keine fixen Effekte) H0 abgelehnt (Fixe Effekte) H0 nicht abgelehnt (Keine fixen Effekte) H0 abgelehnt (Fixe Effekte)
Zufällige Effekte (Breusch-Pagan-Test) H0 nicht abgelehnt (Keine zufälligen Effekte) H0 nicht abgelehnt (Keine zufälligen Effekte) H0 abgelehnt (Zufällige Effekte) H0 abgelehnt (Zufällige Effekte)
Entscheidung für:
Pooled OLS Fixe-Effekte-Modell Zufällige-Effekte-Modell Abhängig von Hausman-Test Falls H0 abgelehnt: Fixe-Effekte-Modell Falls H0 nicht abgelehnt: Zufällige-Effekte-Modell
14 Allerdings ist dies noch kein Beweis für die Richtigkeit des FE-Ansatzes. Dies wird genauer von Baltagi (2013, S. 79–80) erläutert, der zusätzliche Tests empfiehlt.
254
4 Paneldatenanalyse
Abschließend ist noch zu klären, wann das FD-Verfahren und wann das Fixed-Effects-Verfahren eingesetzt werden sollte. Bei lediglich zwei Zeitpunkten stellt sich die Frage nicht, da beide Verfahren zu identischen Schätzungen führen. Dies ist bei mehr als zwei Zeitpunkten nicht unbedingt der Fall. Bei einem breiten Panel (viele Beobachtungsträger und wenige Zeitpunkte, bspw. N = 100 und T = 10) wird in der Praxis meistens eine Fixed-Effects-Schätzung durchgeführt. Diese ist effizienter als das FD-Verfahren, wenn die Residuen keine Autokorrelation aufweisen. Bei einem langen Panel (kleine Zahl von Beobachtungsträgern und vielen Zeitpunkten, bspw. N = 20 und T = 40) spricht einiges für das Erste-Differenzen-Verfahren. Es besitzt den Vorteil, dass durch die Differenzenbildung die Wahrscheinlichkeit verringert wird, dass bspw. aufgrund gemeinsamer Trends lediglich eine Scheinkorrelation vorliegt (Wooldridge 2018, S. 440; Ashley 2012, S. 462, 464).15 Das FE- und das FD-Verfahren haben also jeweils Vorzüge und Nachteile. Daher ist es empfehlenswert, beide Verfahren durchzuführen und die Ergebnisse zu vergleichen. Beide Ansätze ergeben Koeffizientenschätzungen, die – unter bestimmten Annahmen – unverzerrt und konsistent sind. Inhaltlich sollten sie also tendenziell zu den gleichen Ergebnissen führen. Stimmen die Resultate der Koeffizientenschätzungen überein, spricht das für deren Robustheit.
4.4.7 Zusammenfassung Die Analyse von Paneldaten zur Identifikation kausaler Zusammenhänge umfasst in der Praxis die folgenden Schritte: Am Beginn steht die einfache gepoolte OLS-Regression des Datensatzes. Die Schätzungen dienen lediglich als Basismodell für Vergleichszwecke. Ihre Ergebnisse sind nur unter sehr restriktiven Prämissen kausal interpretierbar. Als zweiter Schritt wird eine Fixe-Effekte-Regression durchgeführt. Sofern die Statistiksoftware dazu spezielle Routinen anbietet, wird von diesen automatisch die Mittelwertabweichungsmethode gewählt. Der F-Tests prüft, ob fixe Effekte vorhanden sind. Wenn er die Nullhypothese verwirft, liegen fixe Effekte vor und die FE-Regression stellt insoweit das adäquate Verfahren dar. Wenn die Software keine Routinen für eine FE-Schätzung enthält, ist eine LSDV-Regression mit Entity-fixed Dummys verwendbar, was zu identischen Resultaten führt. Das LSDV-Verfahren ist auch die Methode der Wahl, wenn wir Unterschiede zwischen den Beobachtungseinheiten (Staaten, Regionen, Unternehmen, Individuen usw.) analysieren wollen. Drittens ist die Verwendung der Methode der ersten Differenzen (FD-Verfahren) sinnvoll. Ein Vergleich mit den Resultaten des FE-Verfahrens ermöglicht Rückschlüsse auf die Ro Die sich daraus ergebenden Probleme sind im Kap. 3 zur Zeitreihenanalyse kurz beschrieben worden. Eine ausführliche Darstellung der komplexen Verfahren, die in diesen Fällen verwendet werden, erfolgt in dieser Einführung nicht (siehe dazu Cameron und Trivedi 2009, S. 272–273 und Baltagi 2013, S. 275–315). 15
4.4 Echte Paneldaten (Longitudinal Data)
255
bustheit und ggf. die Ursachen von Verzerrungen der Koeffizientenschätzungen genauer zu analysieren. Wooldridge (2010, S. 321–333) stellt die Vor- und Nachteile der verschiedenen Verfahren ausführlich dar. Können wir die Beobachtungseinheiten als zufällige Stichprobe auffassen, wird mittels des Breusch-Pagan-(Lagrange-Multiplier)-Tests kon trolliert, inwieweit die Voraussetzungen zutreffen. Je nach Ergebnis erfolgt als weiterer Schritt eine RE-Regression. Mittels der FE- und FD-Verfahren kann das Problem der unbeobachteten Heterogenität prinzipiell eliminiert werden. Beide Verfahren basieren im Unterschied zur einfachen OLS-Regression von Querschnittsdaten auf weniger restriktiven Voraussetzungen, um Ursache-Wirkungs-Beziehungen zu identifizieren. Aber auch die Fixed-Effects-Methoden setzen – genau wie die Random-Effects- und die First-Differences-Methode – voraus, dass, nachdem die unbeobachteten und zeitpunktbezogen variierenden Einflüsse mittels Dummys eliminiert worden sind, die unabhängigen Variablen nicht mit den Residuen korrelieren. Dies bedeutet inhaltlich, dass zukünftige (oder vergangene) Werte der Einflussfaktoren nicht mit den gegenwärtigen Residuen zusammenhängen (sogenannte strikte Exogenität – Strict Exogenity).16 Diese Annahme ist erstens bei verzögerten abhängigen Variablen verletzt. Solche Lags sind uns bereits in Kap. 3 begegnet. Zweitens darf die Einflussvariable nicht durch Antizipations- und Reaktionszusammenhänge tatsächlich endogen sein. Ein prominentes Beispiel ist der Zusammenhang von Kriminalität (Straftaten pro 100.000 Einwohner) und Polizeikräften (Polizisten pro Einwohner). Die verschiedenen Vorgehensweisen (ob FE-, RE- oder FD-Methoden) kommen häufig zum Ergebnis, dass mehr Polizei die Kriminalität erhöht. Dieses etwas überraschende Resultat ist auf zwei Arten zu erklären. Erstens könnten mehr Polizisten auch mehr Straftaten registrieren. Dies ist sehr plausibel, wenn wir an den Einsatz von mehr Verkehrspolizisten und die Zahl der entdeckten Geschwindigkeitsüberschreitungen im Straßenverkehr denken. Mehr Verkehrspolizisten verursachen nicht mehr Fälle von überhöhter Geschwindigkeit, aber entdecken diese häufiger. Zweitens dürfte die Politik auf eine erwartete oder bereits vorhandene Zunahme der Straftaten mit einer Aufstockung der Polizeikräfte reagieren. In beiden Erklärungen liegt eine umgekehrte Kausalrichtung vor, die zur Endogenität der unabhängigen Variablen führt. Eine sichere Feststellung kausaler Zusammenhänge ist aber nur gegeben, wenn – wie im ersten Kapitel erläutert – keine umgekehrte Kausalität bzw. simultane Gleichgewichte vorliegen. Das Problem der fehlenden Stationarität von Variablen, das uns im 3. Kapitel begegnet war, tritt entsprechend auch bei langen Paneldatenreihen auf. Bei kurzen Panels wird es in der Praxis als nicht relevant betrachtet. Das FD-Verfahren ist in dieser Hinsicht vorteilhaft, da es durch die Bildung erster Differenzen Trends eliminiert und so ggf. – wie im dritten Kapitel beschrieben – Stationarität erreicht wird.
16 Außerdem dürfen keine Messfehler bei den exogenen Variablen existieren. Dieser Aspekt wird hier ausgeklammert.
256
4 Paneldatenanalyse
Bei den verschiedenen Methoden der Paneldatenanalyse sind Heteroskedastie und Autokorrelation der Residuen häufig auftretende Probleme (insbesondere bei der gepoolten OLS-Methode). Auch dies ist zu überprüfen, und ggf. sind entsprechende gegen Heteroskedastie und Autokorrelation robuste Standardfehler zu verwenden. Wie bereits erwähnt, bieten Stata und SPSS entsprechende Optionen. In diesen Programmpaketen können clusterrobuste Standardfehler berechnet werden. Die Schwankungen für eine Beobachtungseinheit (bspw. eine Hochschule, ein Unternehmen oder einen Staat) dürften sich von den Schwankungen anderer Beobachtungseinheiten zu den verschiedenen Zeitpunkten systematisch unterscheiden. Eine Beobachtungseinheit wird dann als ein Cluster aufgefasst. Sowohl Heteroskedastie als auch Autokorrelation der Standardfehler in diesem Cluster werden so korrigiert (Ashley 2012, S. 427–428). Das FD-Verfahren ist ebenfalls ein mögliches Mittel, um Autokorrelation zu beseitigen.
4.5
Unechte Paneldaten (gepoolte Querschnittsdaten)
Echte Paneldaten sind auf der Ebene von Individuen, Haushalten und Unternehmen aufgrund des hohen Erhebungsaufwandes nur begrenzt vorhanden. Wesentlich häufiger sind Querschnittsdaten zu unterschiedlichen Zeitpunkten verfügbar. Bei gepoolten (wiederholten) Querschnittsdaten – wie bspw. den ALLBUS- oder GEDA-Umfragen – liegen Beobachtungen für zwei oder mehr Zeitpunkte und mehrere (viele) Beobachtungseinheiten – bspw. Personen oder Haushalte – vor. Allerdings sind dies von Beobachtungszeitpunkt zu Beobachtungszeitpunkt nicht immer dieselben Personen bzw. Haushalte. Es handelt sich also um unechte Panels. Die Verwendung solcher gepoolter Datensätze hat unmittelbar den Vorteil, dass die Zahl der Beobachtungen auf diese Weise erheblich steigt. Je größer die Zahl der Beobachtungen, desto verlässlicher sind die geschätzten Koeffizienten. Erstens verringern sich die Standardabweichungen, die t-Werte werden also größer. Damit ist es möglich, dass auch kleinere Einflüsse (Koeffizientenwerte) statistische Signifikanz erreichen.17 Zweitens sinkt die Gefahr, dass einzelne Beobachtungen die Ergebnisse stark beeinflussen. Die Robustheit der Schätzungen hinsichtlich Ausreißer und einflussreicher Beobachtungen steigt. Drittens trifft die Normalverteilungsannahme in einem großen Sample eher zu. Darüber hinaus können auch auf der Grundlage von unechten Panels kausale Wirkungen ermittelt werden. Dies setzt insbesondere voraus, dass die einzelnen Querschnittsdatensätze der verschiedenen Zeitpunkte jeweils zufällige Stichproben darstellen, Veränderungen nur einen Teil der Beobachtungseinheiten, d. h. die Treatmentgruppe treffen, und Treatment- und Kontrollgruppe vor und nach dem Treatment eindeutig identifizierbar sind. Dann sind die Outcomes der Kontroll- und der Treatmentgruppe im Rahmen eines natürlichen Experiments vergleichbar. 17 Dabei ist immer im Auge zu behalten, dass die statistische Signifikanz eines Koeffizienten noch nichts über dessen inhaltliche Relevanz aussagt (siehe Stoetzer 2017, Kap. 2)!
4.5 Unechte Paneldaten (gepoolte Querschnittsdaten)
257
Praktische Beispiele
Natürliche Experimente beziehen sich häufig auf unterschiedliche regionale Treatments unechter Panels innerhalb eines Staates. Anwendungsfälle sind: Unterschiedliche Veränderungen von Mindestlöhnen in den Nachbarstaaten Pennsylvania und Ohio in den USA: Auswirkungen auf die Arbeitslosigkeit (Card und Krueger 1994). Die unterschiedlichen Liquiditätspolitiken der Federal-Reserve-Banken in verschiedenen Distrikten (6th, 8th District) im Bundesstaat Mississippi in den USA in den Jahren 1929–1934: Folgen für die Zahl der Bankencrashs (Richardson und Troost 2009). Differierende Mindestalter für den legalen Alkoholgenuss in den Staaten der USA: Einfluss auf die Zahl der Toten im Straßenverkehr im Alter von 18–20 Jahren (Carpenter und Dobkin 2011). Studiengebühren in 7 von 16 Bundesländern in Deutschland im Zeitraum 2005–2012: Auswirkung auf die Zahl der Erstsemester an den Hochschulen (Dietrich und Gerner 2012). Altersabhängige Unterschiede des aktiven Wahlrechts bei den Kommunalwahlen in Deutschland: Folgen für die Wahlergebnisse der Parteien (NN). ◄ Die Bildung von ersten Differenzen (First Differences) für die einzelnen Beobachtungseinheiten (Individuen, Unternehmen usw.) ist bei unechten Panels mit gepoolten Querschnittsdaten natürlich nicht möglich, da ja für die verschiedenen Zeitpunkte immer unterschiedliche Beobachtungseinheiten vorliegen. Es können ebenfalls keine Fixed-Effects- (und auch Random-Effects-)Verfahren angewandt werden. Warum ist dies so? Wenn man bspw. für jede Beobachtungseinheit eine Dummyvariable einsetzt, diese Beobachtungseinheiten aber zu den Zeitpunkten variieren (es handelt sich ja um unterschiedliche Personen, Unternehmen usw.), führt das zu so vielen Dummys, wie Beobachtungen existieren. Es ist aber offensichtlich, dass wir mehr Beobachtungen als unabhängige Variable benötigen, um eine OLS-Schätzung durchführen zu können. Trotzdem sind die Überlegungen zu den Fixed-Effects-Verfahren des Abschn. 4.4.3 prinzipiell auch in diesem Fall anwendbar. Die Analyse kausaler Wirkungen ist möglich, und zwar mittels des Differenzen-in-Differenzen-Verfahrens. Dies wird in der Literatur häufig mit dem Kürzel DiD- oder seltener auch als DD-Methode bezeichnet.18 Dabei unterscheiden wir zwischen einer Gruppe von Beobachtungsträgern (Personen, Unternehmen usw.), die einer bestimmten Maßnahme (einem Treatment) ausgesetzt wird und einer zweiten Gruppe von Beobachtungsträgern, die diesem Treatment nicht unterzogen wird. Die erste Gruppe ist die Treatmentgruppe und die zweite Gruppe die Kontrollgruppe. Wir analysieren dann, inwieweit sich diese beiden Gruppen hinsichtlich eines uns interessierenden Outcomes, das heißt einer abhängigen Variablen, unterscheiden, und insbesondere wie sich diese Differenz in dem Zeitraum mit Treatment im Vergleich zum Zeitraum ohne Treatment zwischen diesen beiden Gruppen verändert. Wir ermitteln also eine Differenz einer Differenz. 18 Sie entspricht insoweit dem oben behandelten FD-Verfahren. Allerdings werden hier Differenzen auf Gruppenebene und nicht auf der Eben der einzelnen Beobachtungsträger gebildet.
258
4 Paneldatenanalyse
Zur Illustrierung verwenden wir den (konstruierten) Datensatz Treatment_Data_Patents. dta. Er enthält die Zahl der Patentanmeldungen von 24 Unternehmen, die über 6 Zeitpunkte (Perioden) hinweg erhoben worden sind. In jedem Zeitpunkt sind die Zahl der Patentanmeldungen von vier Unternehmen ermittelt worden. Allerdings handelt es sich von Zeitpunkt zu Zeitpunkt um jeweils unterschiedliche Unternehmen. In den Perioden 4, 5 und 6 haben jeweils 2 Unternehmen in den neuen Bundesländern an einer besonderen F&E-Förderung teilgenommen. Diese F&E-Förderung ist unser Treatment. Die Frage ist, welche Wirkung diese Maßnahme auf die Zahl der Patentanmeldungen (Variable Number_Patents) hat. Abb. 4.4 enthält das Streudiagramm unserer 24 Beobachtungen. Der Datensatz ist so kon struiert, dass die F&E-Förderung 5 zusätzliche Patentanmeldungen bewirkt. Eine einfache Querschnittsregression für den Zeitpunkt t = 6 mit der Variablen „Treatment“ zur Identifizierung des Einflusses der F&E-Förderung führt zum Ergebnis, dass die Wirkung im Mittel 13 zusätzliche Patente beträgt. Auch eine (gepackte) Pooled-OLS-Regression über alle 6 Zeitpunkte hinweg ermittelt einen positiven Einfluss im Umfang von 12,33 zusätzlichen Patenten. In beiden Fällen sind die Wirkungen auf dem 1-%-Niveau signifikant. Dies ist aber eine offensichtlich verzerrte (Biased) Schätzung. Die Verzerrung besteht darin, dass der wahre Einfluss von 5 zusätzlichen Patenten extrem überschätzt wird. Wo liegt hier der Fehler? Die Verzerrung kommt zustande, weil nur Unternehmen, die bereits in den Perioden 1, 2 und 3 eine hohe Zahl von Patentanmeldungen aufweisen, auch an der F&E-Förderung teilnehmen. Es liegt hier ein massives Problem der Selbstselektion vor, denn nur bereits innovativ erfolgreich tätige Unternehmen sind in das Treatment einbezogen bzw. haben dies für sich adoptiert. Sie konnten auf diese Weise ihre Patentaktivitäten noch weiter erhöhen.
Abb. 4.4 Streudiagramm Treatment
4.5 Unechte Paneldaten (gepoolte Querschnittsdaten)
259
Die Richtung und das Ausmaß der Verzerrung hängt von der jeweiligen Datenkonstellation ab: Die Verzerrung kann auch darin bestehen, dass kein Einfluss ermittelt wird, obwohl dieser vorliegt. Genauso kann ein negativer Einfluss geschätzt werden, während tatsächlich eine positive Wirkung vorhanden ist. Diese Selbstselektion (bzw. unbeobachtete Heterogenität) können wir bei gepoolten Querschnittsdaten nicht beseitigen, da weder das FE- noch das FD-Verfahren anwendbar sind. Alternativ ist dies aber u. U. mittels der DiD-Methode möglich. Wir nehmen eine Dummyvariable auf, bei der alle Unternehmen, die zur Treatmentgruppe gehören – also eine F&E-Förderung bekommen haben –, mit dem Wert 1 kodiert werden. Diese Unternehmen erhalten in allen 6 Jahren eine 1 und die anderen Unternehmen der Kontrollgruppe in allen 6 Jahren eine 0. Dies ist hier die Variable TRGroup. Die Variable TRPhase ist eine Dummyvariable für den Zeitraum der Maßnahme – also der Förderphase (Treatmentphase) in den Jahren 4 bis 6. Folglich erhält sie den Wert 1 in den Perioden 4, 5 und 6. In den Perioden 1 bis 3 beträgt ihr Wert 0. Entscheidend ist die nächste Variable InTrGroupTrPhase. Es handelt sich um den Interaktionseffekt der Variablen TrGroup und TrPhase. Der Interaktionseffekt InTrGroupTrPhase ist einfach die Multiplikation der Variablen TrGroup und TrPhase. Er nimmt den Wert 1 an, wenn ein Unternehmen erstens zur Treatmentgruppe gehört und zweitens außerdem ein Jahr in der Treatmentphase liegt. In allen anderen Fällen beträgt der Interaktionseffekt 0 (wegen der Multiplikation). Diese Variable zeigt an, welchen Einfluss die Einführung der Maßnahme in den Perioden 4 bis 6 auf die Unterschiede zwischen den Unternehmen der Treatment- und der Kontrollgruppe hinsichtlich der Patentanmeldungen ausübt. Der Koeffizient des Interaktionseffektes beschreibt daher die Veränderung einer Veränderung (Difference-in-Difference). Die Spezifikation erfolgt also jetzt unter Einbezug eines Interaktionseffekts. Wie üblich ist a0 die Konstante, die Schätzmethode ist das OLS-Verfahren. Number _ Patentsit = a 0 + b1TrGroupit + b 2TrPhaseit + b3 InTrGroupTrPhase + e it (4.13) Abb. 4.5 enthält die entsprechenden Ergebnisse unter Verwendung von Stata. Der Interaktionseffekt InTrGroupTrPhase besagt, um wie viel sich die Unternehmen in der Treatmentgruppe von der Gruppe ohne Treatment, d. h. der Kontrollgruppe, in der Zeit des Treatments unterscheiden. Wir unterstellen also, dass die Unternehmen mit F&E-Förderung sich von den Unternehmen ohne F&E-Förderung in der Treatmentphase nur unterscheiden, weil sie die Förderung erhalten haben. Andernfalls hätte sich die Zahl der Patentanmeldungen in beiden Gruppen nicht unterschieden. Die Entwicklung der Patentanmeldungen in der Kontrollgruppe ist wieder unsere kontrafaktische Referenz. Im Beispiel werden 5 zusätzliche Patente ermittelt, was dem uns bekannten wahren Einfluss entspricht. Die Verzerrung durch die Selbstselektion bzw. unbeobachtete Heterogenität wird also jetzt erfolgreich vermieden. Wäre der Interaktionseffekt InTrGroupTrPhase nicht signifikant, wäre unsere Schlussfolgerung, dass die F&E-Förderung wirkungs los war.
260
4 Paneldatenanalyse
regress Number_Patents i.TrGroup i.TrPhase InTrGroupTrPhase Source | SS df MS -------------+---------------------------------Model | 880.5 3 293.5 Residual | 40 20 2 -------------+---------------------------------Total | 920.5 23 40.0217391
Number of obs F(3, 20) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
24 146.75 0.0000 0.9565 0.9500 1.4142
---------------------------------------------------------------------------------Number_Patents | Coef. Std. Err. t P>|t| [95% Conf. Interval] -----------------+---------------------------------------------------------------1.TrGroup | 8 .8164966 9.80 0.000 6.296818 9.703182 1.TrPhase | 3 .8164966 3.67 0.002 1.296818 4.703182 InTrGroupTrPhase | 5 1.154701 4.33 0.000 2.591337 7.408663 _cons | 8 .5773503 13.86 0.000 6.795668 9.204332 ----------------------------------------------------------------------------------
Abb. 4.5 DiD-Schätzung
In die Regressionsgleichung können wir natürlich weitere Kontrollvariablen aufnehmen. Die Variable Control steht als Platzhalter für solche weitere mögliche unabhängige Variablen.19 Dies führt zur Gl. (4.14):
Y = a 0 + b1TrGroup + b 2TrPhase + b3 InTrGroupTrPhase + b 4 Control + e (4.14)
Das Verfahren basiert aber auf zwei Voraussetzungen. Erstens ist es notwendig, dass die Unternehmen, die der Treatmentgruppe angehören (und von uns die Dummyvariable 1 in allen Perioden erhalten haben), von der Gruppe der Unternehmen, die kein Treatment erhalten haben, unterscheidbar sind. Es müssen also eine Treatmentgruppe und eine Kon trollgruppe identifizierbar sein. In den klassischen Anwendungsbeispielen sind beide Gruppen aufgrund ihrer räumlichen Trennung auseinanderzuhalten: Die Beschäftigungswirkungen einer Erhöhung des Mindestlohns auf Fast-Food-Unternehmen in Pennsylvania wird mit den Veränderungen in den Beschäftigten solcher Unternehmen im benachbarten Ohio verglichen. Die Wahl der Kontrollgruppe ist dabei immer ein Kritikpunkt. Eine geeignete Kontrollgruppe sollte sich möglichst nicht systematisch von der Treatmentgruppe unterscheiden und im Betrachtungszeitraum keinen besonderen Einflüssen unterliegen. Das heißt, sie muss die gleiche Entwicklung aufweisen, wie sie die Treatmentgruppe hätte, wenn letztere ohne Treatment bliebe. Die ist das uns aus dem ersten Kapitel bekannte Problem einer kontrafaktischen Analyse. Zur Ermittlung geeigneter Kontroll gruppen existieren verschiedene Methoden.20 Zweitens ist diese einfache DiD-Schätzung nur möglich, wenn sich die Zeiträume mit und ohne Treatment für beide Gruppen klar voneinander trennen lassen und die Treatmentphase für alle Unternehmen mit Treatment zum gleichen Zeitpunkt beginnt. Im einfachsten Fall handelt es sich um zwei Zeitpunkte bzw. Zeiträume, die betrachtet werden. Ein Zeitpunkt ohne Treatment und ein Zeitpunkt 19 Mittels Interaktionseffekten können auch die Einflüsse zeitkonstanter Variablen (wie Schulabschluss oder Geschlecht) ermittelt werden (Wooldridge 2018, S. 437–438). 20 Verfahren, um eine adäquate Kontrollgruppe zu finden, bezeichnet man als Matching-Verfahren. Hierzu existiert eine Vielzahl von Ansätzen. Guo und Fraser (2015) bieten einen umfassenden Überblick.
4.6 Weiterführende Aspekte
261
mit Treatment bei zwei verschiedenen Gruppen. In unserem Beispiel stellen die Perioden 1, 2 und 3 den Zeitraum ohne Treatment dar. Die Perioden 4, 5 und 6 sind der Zeitraum mit Treatment. Wenn wir nur über Beobachtungen zu zwei Zeitpunkten einmal mit und einmal ohne Treatment verfügen, ändert dies am Vorgehen aber nichts. Allerdings müssen wir unter inhaltlichen Gesichtspunkten klären, ob eine Maßnahme dauerhaften Einfluss besitzt oder nur in den Zeiträumen, in denen sie eingesetzt wird. Die Teilnahme an einer Fortbildungsmaßnahme ist ein Treatment, das anschließend über mehrere Perioden hinweg (bzw. sogar dauerhaft) positive Auswirkungen haben sollte. Die Erhebung von Studiengebühren oder zeitlich begrenzte Rabatte im Rahmen der Preispolitik eines Unternehmens entfalten ggf. nur in den Perioden eine Wirkung, in denen sie eingesetzt werden. Liegt eine solche Situation vor und betrachten wir einen Zeitraum, in dem Unternehmen zwischen Treatment- und Kontrollgruppe mehr als einmal wechseln, ist das DiD-Verfahren u. U. nicht verwendbar. Wir können dann solche Unternehmen nicht mehr eindeutig der Treatment- und der Kontrollgruppe zuordnen. Schwierigkeiten ergeben sich auch, wenn sich die Zeitpunkte des Einsatzes des Treatments bei verschiedenen Unternehmen auf unterschiedliche Zeitpunkte beziehen. Dies liegt vor, wenn die Teilnahme am F&E-Förderprogramm bei bestimmten Unternehmen im Jahr 2012, bei anderen im Jahr 2016 und bei einer dritten Gruppe erst 2017 implementiert wird. Das Problem liegt also in unterschiedlichen Treatmentzeiträumen oder wechselnden Treatment- und Nicht-Treatmentzeiträumen sowie unterschiedlichen Formen von Wirkungen: unmittelbar oder verzögert, konstant oder zunehmend bzw. abnehmend (siehe dazu Abb. 4.6 im Abschn. 4.6). Nichols (2009) und Angrist/Pischke (2015, S. 178–208) beschreiben die Probleme und mögliche Lösungsmöglichkeiten. Verschiedene zusätzliche Erweiterungen, die damit verbundenen Schwierigkeiten und alternativen Schätzverfahren erläutert Baltagi (2013, S. 18–20). Bei gepoolten Querschnittsdaten können die wechselnden Beobachtungseinheiten auch durch den Rückgriff auf „Gruppen“ (Kohorten) ersetzt werden. Die entsprechenden speziellen Verfahren für solche Pseudo-Panels stellen Baltagi (2013, S. 218–221) und Verbeek (2008) dar.
4.6
Weiterführende Aspekte
Die DiD-Methode schätzt ebenso wie das FE-Verfahren einen ATT – Average Treatment Effect of the Treated (siehe Kap. 1). Dies ergibt sich, weil beide Verfahren sich auf eine bestimmte Gruppe beziehen, die einem Treatment (potenziell) ausgesetzt wird. Die kausalen Auswirkungen eines F&E-Förderprogramms beziehen sich auf die Unternehmen, die daran freiwillig teilnehmen (würden). Die positive Wirkung auf die Zahl der Patente ist u. U. nicht vorhanden, wenn die Grundgesamtheit aller Unternehmen zwangsweise einem Treatment unterzogen würde (Athey und Imbens 2006). Für die verschiedenen Verfahren (FE-, RE- und FD-Methoden) gilt – wie für alle Regressionsschätzungen von zeitlichen Abläufen –, dass sie die Frage aufwerfen, wie die Wirkung einer Maßnahme (einer Intervention, eines Treatments) im zeitlichen Verlauf aussieht (siehe auch Kap. 3). Abb. 4.6 verdeutlicht einige der möglichen Wirkungsver
262
4 Paneldatenanalyse Outcome
Outcome
(a)
Beginn Treatment
Zeit
Outcome
(b)
Beginn Treatment
Zeit
Outcome
(c)
Beginn Treatment
(d)
Zeit
Beginn Treatment
Zeit
Outcome
Outcome
(e)
Beginn Treatment
(f)
Zeit
Beginn Treatment
Zeit
Outcome
Outcome
(g)
Beginn Treatment
(h)
Zeit
Abb. 4.6 Zeitliche Wirkungsverläufe (Impact Functions)
Beginn Treatment
Zeit
4.6 Weiterführende Aspekte
263
läufe, die in der Literatur auch als Impact Functions bezeichnet werden. Einflüsse von so unterschiedlichen Ereignissen wie Heirat, Arbeitslosigkeit, Studienabschluss, Teilnahme an einer Fortbildung, Einführung von Studiengebühren oder eines Mindestlohnes, Erhöhung der Gewerbesteuer, Beitritt zur oder Austritt aus der Europäischen Union werden in ihrer zeitlichen Struktur differieren. Positive und negative Wirkungen auf ein bestimmtes Outcome sind möglich (und ggf. auch beabsichtigt). Die Wirkung kann unmittelbar auftreten und anhaltend sein (a) oder unmittelbar und zeitlich begrenzt (b) ausfallen. Sie kann linear zunehmend und dauerhaft (c) oder abnehmend und vorübergehend (d) gestaltet sein. Auch entsprechende nichtlineare Wirkungen sind plausibel: (e) bis (g). Die Spezifikation des zeitlichen Einflusses ist prinzipiell auf Basis theoretischer Überlegungen und vorhandener empirischer Untersuchungen vorzunehmen. Soweit diesbezüglich keine klaren Schlussfolgerungen möglich sind, bietet es sich an, eine möglichst flexible Spezifikation einzusetzen. Dies führt zur Verwendung von Dummys für alle Zeitabschnitte, d. h. jede Periode erhält eine eigene Dummyvariable. Die Grafik (h) in Abb. 4.6 illustriert diesen Fall. Bereits im Kap. 3 war erläutert worden, dass es mit Beobachtungen über mehrere Zeitpunkte hinweg möglich wird, dynamische Anpassungsprozesse zu analysieren. In vielen ökonomischen Fragen ist es plausibel, dass die Anpassungen von Variablen antizipierend oder im Gegenteil mit Verzögerungen erfolgen. Antizipationseffekte sind für die Erklärung menschlichen Verhaltens (Unternehmer, Konsumenten, Politiker usw.) relevant. Gleiches gilt für verzögerte Anpassungen. Beide Situationen können – wie im Kap. 3 dargestellt – mittels Lags und Leads modelliert werden. Abb. 4.6 illustriert in der Grafik (h) diesen Fall. Der Beginn des Treatments wird antizipiert und führt bereits in der Vorperiode zu einem Anpassungseffekt. Unter Umständen bezieht sich das nicht nur auf die unabhängigen Variablen (bspw. das Treatment) sondern auch auf die abhängigen Varia blen. Wie ebenfalls im Kap. 3 bereits erläutert, können wir außerdem die abhängige Varia ble auch als verzögerte unabhängige Variable mit in die Regressionsgleichung der Paneldatenanalyse aufnehmen. Die Verzerrung von Koeffizientenschätzungen aufgrund von unbeobachteter Heterogenität (Omitted Variable Bias) ist mit Paneldaten – wie oben erläutert – unter Umständen vermeidbar. Es bleibt aber das Problem der Endogenität der unabhängigen Variablen wegen bspw. umgekehrter Kausalrichtungen und simultaner Beeinflussung von endogenen und unabhängigen Variablen. Die Methode der Instrumentvariablen ist ein Ansatz, um trotzdem Kausalaussagen zu ermitteln. Eine entsprechende Verwendung von Instrumentvariablen ist auch im Rahmen von Paneldaten möglich (Ashley 2012, S. 507–530). In diesem Zusammenhang können u. a. verzögerte Variablen als Instrumentvariablen verwendet werden. Dies führt zu dynamischen Panelregressionen, die mittels verschiedener komplexer Verfahren zu schätzen sind (bspw. den Arellano-Bond-Ansatz, siehe dazu Baltagi (2013, S. 155–183) und Ashley (2012, S. 507–529). Allerdings sind diese Ansätze ggf. wenig verlässlich, da sie aufgrund ihrer Komplexität beliebige Resultate erzeugen (Brüderl und Ludwig 2015, S. 354).
264
4 Paneldatenanalyse
Die bisherigen Methoden gelten für breite Datensätze (Wide Panel, Short Panel) mit vielen Beobachtungsträgern und wenigen Zeitpunkten (siehe Abschn. 4.2). Bei Paneldatensätzen mit langen Beobachtungszeiträumen und damit sehr vielen Zeitpunkten (Faustregel t > 20–30) tritt das im Kap. 3 behandelte Problem der fehlenden Stationarität bei Zeitreihen auf, und Paneldaten enthalten ja Zeitreihen für mehrere oder sogar viele Variablen. Dann müssen andere dafür geeignete Analyseverfahren eingesetzt werden (Baltagi 2013, S. 275–315). Alle bisherigen Ausführungen zur Paneldatenanalyse beruhen auf der Annahme, dass die Koeffizienten der unabhängigen Variablen fix sind, d. h. sich im Zeitablauf nicht ändern. Diese Annahme wird im Rahmen von sogenannten Random-Coefficient-Modellen aufgegeben. In diesem Kontext existieren auch komplexere Verfahren, wie Mehrebenen modelle (hierarchische Modelle, Multilevel Models, Hierarchical Linear Models). Wobei zum Teil in der Literatur auch die Paneldatenanalyse als Mehrebenenmodell aufgefasst wird. Die erste Ebene (Dimension) sind die Beobachtungsträger (Unternehmen, Individuen, Regionen, Hochschulen etc.) und die zweite Ebene die Zeiteinheiten (Park 2011, S. 13). Dies kann auf andere nicht zeitbezogene Zusammenhänge übertragen werden. Beispielsweise ist es plausibel, dass bei den Leistungen von Schülern im internationalen PISA-Test deren Abschneiden auf fünf verschiedenen Ebenen beeinflusst wird: der individuellen Fähigkeiten der Schüler, der jeweiligen Klasse (Klassenstärke/Qualität der Lehrer), der jeweiligen Schule (didaktisches/methodisches Konzept), dem jeweiligen Bundesland (Schulpolitik) und dem jeweiligen Staat (finanzielle Mittel/Schulpolitik/Wertvorstellungen). Mit Panelanalyseverfahren lassen sich unterschiedliche Einflussfaktoren auf den verschiedenen Ebenen modellieren. Entsprechende Überlegungen sind auch in vielen ökonomischen Fragen relevant (bspw. der Innovationsneigung von Unternehmen oder der Auswirkung von Mindestlöhnen in verschiedenen Branchen). Die im zweiten Kapitel beschriebenen Erweiterungen der einfachen Regression auf abhängige Variablen mit begrenztem Wertebereich (Logit-/Probit-Modelle, Ordered Logit und Probit, Poisson-Regression usw.) sind auf der Basis von Paneldaten ebenfalls mittels entsprechender Methoden analysierbar (Wooldridge 2010, S. 608–632; Andreß et al. 2013, S. 203–285; Baltagi 2013, S. 239–270). Soweit es um die deskriptive Beschreibung bzw. explorative Auswertung von Beziehungen in den Daten geht, sind die genannten Voraussetzungen der Identifikation kausaler Wirkungen nicht relevant. Für solche Anwendungen ist das Pooled-OLS-Verfahren verwendbar, da es in dieser Hinsicht in erster Linie um die Beschreibung von Unterschieden entsprechend der Between-Differenzen – bspw. der differierenden Erstsemesterzahlen verschiedener Hochschulen – geht (Brüderl und Ludwig 2015, S. 353). Entsprechendes gilt für die Analyse von Paneldaten, um Prognosen zu erstellen. Ökonomisch ausgerichtete verständliche Einführungen sind Kennedy (2008, S. 281–295), Stock und Watson (2015, S. 396–419) sowie – ausführlicher – Wooldridge (2018, S. 402–451). Auch Brüderl und Ludwig (2019) sind für den Einstieg besonders zu empfehlen. Diese Quelle und Brüderl und Ludwig (2015) enthalten auch Weiterentwick-
4.7 Durchführung in SPSS und Stata
265
lungen, Varianten und Probleme der Panelanalyseverfahren. Einen ausführlichen Überblick mit ökonomischen und soziologischen Anwendungsbeispielen geben Andreß et al. (2013). Eine genauere – aber auch mathematisch erheblich anspruchsvollere – Darstellung der Anforderungen und Möglichkeiten der Paneldatenanalyse vermitteln die Standardlehrbücher von Baltagi (2013) und Wooldridge (2010). Ein ausführlicher mathematischer Background findet sich auch bei Cameron und Trivedi (2007). Speziell für die verschiedenen Tests ist Ashley (2012, S. 459–529) eine gute Quelle. Diese Autoren gehen auch auf die erwähnten komplexeren Modelle ein. In der statistischen Literatur der Medizin und Psychologie (zum Teil auch der Soziologie) spielen Paneldaten eine geringere Rolle. Insbesondere tauchen die Begriffe „Paneldaten“ oder „Zeitreihen“ nicht auf (siehe bspw. den Index von Bortz (2005) oder Field (2018)). Die Analyse von Daten, die auf der wiederholten Befragung (oder experimentellen Untersuchung) von identischen Beobachtungseinheiten zu verschiedenen Zeitpunkten beruhen, werden dort unter dem Begriff „Messwiederholungen“ (Repeated Measures Design) bzw. Mixed Designs erläutert (Bortz 2005, S. 352–360; Field 2018, S. 839–939). Bei den Beobachtungseinheiten handelt es sich in der Psychologie und Medizin fast immer – und in der Soziologie häufig – um Individuen bzw. Haushalte. Sie ähneln daher Paneldaten, beziehen sich aber u. U. nicht auf identische Zeitabstände. Mit solchen Verfahren der Schätzung bei Messwiederholungen sind auch Paneldaten analysierbar. Dies erläutern UCLA (2019a, b).
4.7
Durchführung in SPSS und Stata
SPSS Wenn dies erforderlich ist, formatiert das Kommando [Daten > Umstrukturieren] einen Datensatz vom Weiten Format in das Lange Format um. Dabei erscheint als erstes automatisch ein Fenster „Assistent für die Datenumstrukturierung“, der das weitere Vorgehen erläutert. Dummyvariablen können am einfachsten unter [Transformieren > Dummy-Variablen erstellen] aus anderen Variablen gebildet werden. Das Problem der Auswirkung von Studiengebühren wird auf der Grundlage des realen Datensatzes „Hochschulgebühren_10_15.sav“ untersucht. Als Ausgangspunkt führen wir zunächst eine (naive) gepoolte OLS-Schätzung durch und vernachlässigen dabei den Panelcharakter. Wir benutzen die uns bekannte Prozedur „Lineare Regression“. Unsere abhängige Variable ist die Zahl der Studienanfänger (hier abgekürzt Zahl_Erstsemester). Die erste unabhängige Variable sind die Studiengebühren, deren Einfluss auf die Zahl der Studienanfänger wir analysieren. Die Variable wird abgekürzt Dummy_Gebühr und besitzt den Wert 1, wenn eine Hochschule in einem Jahr Gebühren erhoben hat. Andernfalls ist sie gleich 0. Die zweite unabhängige Kontrollvariable ist die Zahl der neuen Hochschulzugangsberechtigten des Bundeslandes, in dem die Hochschule liegt (abgekürzt Zahl_Abiturienten). Diese Eingabe und die resultierende OLS-Schätzung zeigt Abb. 4.7.
266
4 Paneldatenanalyse
Abb. 4.7 Gepoolte OLS-Schätzung eines Paneldatensatzes
Überraschenderweise liegt ein (nicht erwarteter) positiver Koeffizient der Variable Dummy_Gebühr vor: Das heißt, im Mittel verzeichnen Hochschulen mit Gebühren knapp 66 Studienanfänger mehr als Hochschulen ohne Gebühren. Allerdings ist die Einführung von Hochschulgebühren ohne signifikanten Einfluss auf die Zahl der Erstsemester (t-Wert 1,02; Signifikanzniveau 0,308). Die Interpretation des gepoolten OLS-Verfahrens ist, dass
4.7 Durchführung in SPSS und Stata
267
die Erhebung von Studiengebühren keinen Einfluss auf die Zahl der Erstsemester einer Hochschule ausübt. Für den nächsten Schritt einer LSDV-Paneldatenanalyse bietet SPSS keine speziellen Prozeduren. Im Rahmen der OLS-Schätzungen der normalen Regression können aber natürlich Dummyvariablen für die Beobachtungsträger und Variablen für die Zeit aufgenommen werden (Two-Way-Modell). Auf diese Weise ist das LSDV-Verfahren realisierbar. In unserem Datensatz liegen die Hochschulen bereits als Dummyvariablen vor. Andernfalls müssen wir zunächst eine Dummyvariable für jede Hochschule bilden. Wie dies geschieht, wird in der Lösung zur Übung 4.3 beschrieben. Abb. 4.8 zeigt die Eingabe über die Prozedur „Lineare Regression“ mit der Variablen Jahr als linearen Zeittrend. Sie kontrolliert einen möglichen bundesweiten Trend zur Aufnahme eines Studiums im Beobachtungszeitraum. Außerdem werden von den insgesamt 226 Hochschulen 225 jeweils als Dummyvariablen, d. h. als fixe Effekte, aufgenommen.21 Falls wir versehentlich alle 226 aufnehmen, wirft SPSS automatisch eine (nämlich die letzte Hochschule in der Liste) als Referenzkategorie raus. In der Abb. 4.8 sind bei den unabhängigen Variablen nur die ersten vier Hochschulen sichtbar. Der dazugehörige Output wird nur in Auszügen abgebildet, da er wegen der 225 Dummys, die uns hier nicht interessieren, unnötig lang und unübersichtlich ist. Der korrigierte Determinationskoeffizient – von SPSS „Angepasstes R2“ genannt – ist im Vergleich zur gepoolten OLS-Regression extrem gestiegen (korrigiertes R2 = 0,972), das Gesamtmodell ist signifikant auf dem 1-%-Niveau (F-Wert: 417,9) und die Erhebung von Gebühren hat jetzt den erwarteten signifikanten negativen Einfluss auf die Erstsemesterzahl: Diese sinkt um knapp 72 Studierende. Der im Beobachtungszeitraum vorhandene Einfluss der Variable Studiengebühren bezieht sich jetzt nur noch auf die Veränderungen innerhalb der einzelnen Hochschulen, da alle hochschulspezifischen Einflüsse mittels der Hochschuldummys kontrolliert werden. Auf diese Weise ist der kausale Einfluss von Studiengebühren ermittelbar. Auch die Berechnung von ersten Differenzen und die anschließende OLS-Analyse im Rahmen der linearen Regressionen sind in SPSS realisierbar. Wir müssen dafür zunächst – wie im Kap. 3 beschrieben – die ersten Differenzen der relevanten Variablen bilden. Auf die Darstellung wird hier verzichtet. Allerdings sind Heteroskedastie und Autokorrelation der Residuen bei Paneldaten sehr wahrscheinlich und dafür enthält SPSS im Rahmen des Kommandos [Analysieren > Regression] standardmäßig keine Routinen. In den im Folgenden behandelten Prozeduren GLM und GENLIN ist das aber möglich. Unter der Option [Analysieren > Allgemeines lineares Modell > Univariat] lässt sich das LSDV-Verfahren innerhalb der Prozedur GLM ebenfalls durchführen.22 Es erscheint Ein Tipp zum schnellen Einfügen der 225 Hochschuldummys: Wir gehen auf die erste Hochschule, drücken „Shift“ und gehen dann auf die letzte Hochschule, die wir einbeziehen wollen. Alle dazwischen liegenden Hochschulen werden dadurch markiert, und wir können sie im Block in das Feld „Unabhängige Variable(n)“ befördern. 22 Diese SPSS-Prozedur wird bspw. von Stoetzer (2017, Kap. 3 Anhang 3.1) erklärt. 21
268
Abb. 4.8 Fixe Effekte in SPSS (LSDV-Methode)
4 Paneldatenanalyse
4.7 Durchführung in SPSS und Stata
269
das Fenster des oberen Teils der Abb. 4.9. Der Einbezug der abhängigen Variable erfolgt, wie uns bereits bekannt. Bei den unabhängigen Variablen werden die nominalskalierten (kategorialen) Variablen in das Feld „Feste Faktoren“ befördert und die metrischen Variablen in das Feld „Kovariate(n)“. Die unabhängige Variable Hochschulen, für die Entity-Fixed-Effekte in Form von Dummys gebildet werden sollen, fügen wir ebenfalls in das Feld „Feste Faktoren“ ein. Anschließend klicken wir auf die Option „Modell“ rechts oben. Es erscheint das Fenster des unteren Teils von Abb. 4.9. Hier aktivieren wir im Feld „Modell angeben“ die Option „Anpassen“. Alle unsere unabhängigen Variablen sind im linken Teil unter „Faktoren und Kovariaten“ aufgelistet. Diese befördern wir in den rechten Teil unter „Modell“ und wählen auf dem Button „Typ“ in der Mitte die Variante „Haupteffekte“. Dann geht es mit dem Button „Weiter“ wieder zurück zum ersten Fenster. Jetzt klicken wir auf „Optionen“ und sehen im unteren Teil des nun auftauchenden Fensters ein Feld „Anzeige“. In diesem Feld setzen wir ein Häkchen bei „Parameterschätzungen“ (um die Koeffizientenschätzungen zu erhalten) und ein Häkchen bei „Homogenitätstest“ (um einen Test auf Homoskedastie durchzuführen). Dann geht es mit „Weiter“ wieder zum ersten Fenster, und mit dem Button „OK“ wird die Schätzung durchgeführt. Abb. 4.10 zeigt den resultierenden Output in Auszügen. Für uns relevant ist zunächst der zweite Abschnitt „Tests der Zwischensubjekteffekte“. Er enthält die Ergebnisse einer Varianzanalyse. Der F-Test für das gesamte Regressionsmodell steht in der ersten Zeile „Korrigiertes Modell“ und ist identisch mit dem Resultat der Abb. 4.8 für den LSDV-Ansatz. Jede der vier unabhängigen Variablen (die Konstante mal beiseitegelassen) ist ebenfalls signifikant (F-Tests und Signifikanzniveaus in den letzten beiden Spalten). Informationen zu R2 und korrigiertem R2 befinden sich direkt unter diesem Feld. In der Regel interessiert man sich aber eher für die Richtung und den Umfang des Einflusses dieser Variablen. Die Koeffizienten der Regressionsanalyse finden sich im Feld „Parameterschätzungen“. In Abb. 4.10 sind die Ergebnisse für die meisten Hochschulen weggelassen, da diese hier nur eine Kontrollvariable darstellen. Wir untersuchen, ob die Erhebung von Studiengebühren die Zahl der Studienanfänger verringert. Der Koeffizient für den Einfluss der Gebühren ist auf dem 1-%-Niveau signifikant und liegt bei 71,89. Bei der Interpretation der Ergebnisse ist darauf zu achten, welche Referenzkategorien von SPSS (automatisch) ausgewählt werden. Dies sind standardmäßig immer die letzten Kategorien der jeweiligen Faktorvariablen! Im Beispiel der Hochschulgebühren ist die Dummyvariable gleich 1, falls Hochschulgebühren existierten, andernfalls beträgt die Dummyvariable 0. Die letzte Kategorie ist in diesem Fall also 1, und diese wird von SPSS als Referenzkategorie gewählt. Eine positive und signifikante Koeffizientenschätzung der Kategorie „keine Hochschulgebühren“ (d. h. 0) bedeutet folglich, dass Hochschulen ohne Gebühren im Vergleich zu Hochschulen mit Gebühren im Mittel fast 72 Studienanfänger mehr aufweisen. Dies ist inhaltlich dasselbe wie bei dem vorhergehenden LSDV-Verfahren. Auch der Unterschied für die Schätzung der Konstanten liegt nur daran, dass eine andere Referenzkategorie für die Hochschulen gewählt wurde.
270
Abb. 4.9 Fixe Effekte in SPSS: GLM Univariat
4 Paneldatenanalyse
4.7 Durchführung in SPSS und Stata
Abb. 4.10 Fixe Effekte in SPSS mittels GLM
271
272
4 Paneldatenanalyse
Der Vorteil gegenüber der einfachen Prozedur „Regression“ ist erstens, dass die nominale Variable Hochschulen als Faktor (d. h. als Dummyvariable kodiert) direkt akzeptiert wird. Bei der Verwendung der Prozedur Regression unter [Analysieren > Regression > Linear] müssen ggf. erst Dummyvariablen für die Hochschulen gebildet werden, bevor wir diese als unabhängige Variablen berücksichtigen können. Zweitens gibt es bei der Prozedur GLM die Möglichkeit, den Levene-Test auf Homoskedastie durchzuführen. Er findet sich im ersten Feld der Abb. 4.10. Die Nullhypothese der Varianzhomogenität wird abgelehnt, wir müssen also davon ausgehen, dass Heteroskedastie vorliegt. Schließlich sind Panelanalysen in SPSS auch unter „Verallgemeinerte lineare Modelle“ (GENLIN-Prozedur mit den Unterprozeduren GzLM und GEE) realisierbar (siehe dazu UCLA 2019b). Die Prozedur [Analysieren > Verallgemeinerte lineare Modelle > Verallgemeinerte Schätzungsgleichungen] (= GEE) erlaubt Messwiederholungen mit Autokorrelation und Heteroskedastie der Residuen. Messwiederholungen sind mehrfache Datenerhebungen bei denselben Beobachtungsträgern (bspw. Patienten in der Medizin). Damit entsprechen sie unserer Definition von Paneldaten. Prinzipiell ist die Prozedur GEE das umfassendste Verfahren zur Regressionsanalyse in SPSS. Es enthält als Optionen viele der bisher behandelten Methoden. Hier ist bspw. auch die Berechnung von robusten Standardfehlern nach Huber-White möglich (siehe Stoetzer 2017, Abschn. 5.2). Die Vorgehensweise erläutert die Abb. 4.11. Auf der ersten Menüseite, d. h. dem ersten Reiter „Wiederholt“, fügen wir in das Feld „Subjektvariablen“ die Variable Hochschulen ein. Der Ausdruck „Subjektvariablen“ bezeichnet in dieser Prozedur die Beobachtungseinheiten, für die wiederholte Beobachtungen vorhanden sind (hier also unsere 226 Hochschulen). Im Feld darunter, „Innersubjektvariablen“, wird die Variable Jahr aufgenommen. „Innersubjektvariablen“ ist der Name für die Variable, die die Wiederholungen der Messungen festlegt. In unserem Beispiel sind dies die 12 Jahre, für die Beobachtungen aller Hochschulen vorhanden sind. Unter diesem Feld befindet sich ein Abschnitt mit dem Titel „Kovarianzmatrix“. Hier behalten wir die Voreinstellung bei: Damit ist die Option „Robuster Schätzer“ aktiviert. Nach „OK“ legen wir im nächsten Reiter den Typ des Modells fest. Wir übernehmen die Voreinstellung, bei der unter „Metrische abhängige Variable“ die Option „Linear“ bereits aktiviert ist. Einige der anderen Optionen kennen wir bereits, etwa die im Kap. 2 behandelten nichtlinearen Zusammenhänge (Logit-, Probit-Funktionen usw.). Diese Formen der Verknüpfung einer linearen Funktion mit der (oder den) abhängigen Variablen sind hier ebenfalls wählbar.23 Die nächsten beiden Reiter legen die endogene Variable (in SPSS als „Antwort“ bezeichnet) und die unabhängigen Variablen (in SPSS „Prädiktoren“ genannt) fest. Die endogene Variable ist die Zahl_Erstsemester und die unabhängigen Variablen sind unsere Faktorvariablen Dummy_Gebühren und Hochschulen. Zur Erinnerung: Faktorvariablen 23 Diese Verknüpfungsfunktionen werden auch als Link-Funktionen bezeichnet. Der einfache lineare Zusammenhang nennt sich auch Identitäts-Funktion. Für die Verknüpfungen sind verschiedene Funktionen verwendbar. Sie stellen Verallgemeinerungen des einfachen linearen OLS-Modells dar und firmieren deshalb als „Generalized Linear Models“. Einen guten Überblick verschafft Fox (2016).
4.7 Durchführung in SPSS und Stata Abb. 4.11 GEE-Schätzung SPSS Teil 1
273
274
4 Paneldatenanalyse
sind die nominal skalierten Variablen. Die Kovariaten sind wieder die Variablen Zahl_Abi turienten und Jahr. Im folgenden Reiter „Modell“ müssen wir als Haupteffekte unsere vier unabhängigen Variablen nochmals einfügen (siehe Abb. 4.12). Der Ausdruck „Haupteffekte“ bedeutet, dass diese Variablen direkt und nicht als Teil eines Interaktionseffektes berücksichtigt werden. Im Feld zum Reiter „Schätzung“ übernehmen wir die Voreinstellung „Maximum-Likelihood-Schätzung“. Auch in den letzten vier Reitern („Statistik“ bis „Exportieren“) wird nichts verändert. Diese Schritte führen nach „OK“ zum Output der Abb. 4.13. Einige für uns nicht weiter relevante Teile sind wieder weggelassen. Die Koeffizientenschätzungen (Spalte „B“) sind identisch mit den ermittelten Werten der LSDV-Methode. Die Standardfehler in der Spalte „Standardfehler“ werden nach Huber-White berechnet (IBM SPSS 2018). Es handelt sich also um gegen Autokorrelation und Heteroskedastie robuste Standardfehler (in der Version HC0). Sie sind deutlich größer als die normalen Standardfehler der Abb. 4.8 und weitgehend identisch mit den robusten Standardfehlern in Stata des folgenden Abschnitts.24
Abb. 4.12 GEE-Schätzung SPSS Teil 2
24 Zur Berechnung von robusten Standardfehlern existieren leicht unterschiedliche Verfahren (siehe Angrist und Pischke (2009) und Long und Erwin (2000)). Mit anderen Verfahren in SPSS sind auch clusterrobuste Standardfehler schätzbar (UCLA IDRE 2019c).
4.7 Durchführung in SPSS und Stata
275
Abb. 4.13 GEE-Schätzung SPSS Output
Allerdings verwendet SPSS einen Wald-Chi2-Test statt eines t-Tests zur Überprüfung der Nullhypothese „Kein Einfluss“ (d. h. der Koeffizient unterscheidet sich nicht vom Wert 0), der einzelnen Koeffizienten. Dies braucht uns aber nicht zu irritieren, relevant sind nur die Signifikanzniveaus der letzten Spalte. Diese sind jetzt – aufgrund der größeren Standardfehler – zum Teil höher. Für die Fragestellung zum Einfluss der Gebühren ergibt sich folgendes: Hochschulen ohne Gebühren haben im Mittel fast 72 Erstsemester mehr als Hochschulen mit Gebühren. Der Einfluss ist auch unter Berücksichtigung von Autokorrelation und Heteroskedastie auf dem 1-%-Niveau signifikant, da das empirische Signifikanzniveau für die robusten Standardfehler bei 0,009 liegt. Leider enthält der Output keine Informationen zu R2 und R 2 sowie keinen F-Test für die Signifikanz des Gesamtmodells, da es sich um eine ML-Schätzung handelt. Dazu muss dann ergänzend die oben beschriebene LSDV-Regression oder die GLM-Prozedur durchgeführt werden. Auch im Fall einer einfachen linearen Regression mit Querschnittsdaten lassen sich mit der beschriebenen Prozedur GEE [Analysieren > Verallgemeinerte lineare Modelle > Verallgemeinerte Schätzungsgleichungen] robuste Standardfehler nach Huber-White ermitteln. Dazu geben wir im ersten Schritt auf der Seite des Reiters „Wiederholt“ nur eine
276
4 Paneldatenanalyse
Subjektvariable an, die unsere Beobachtungen beschreibt (bspw. als laufende Nummer der Beobachtungen). Die Angabe einer „Innersubjektvariablen“ fällt bei einem Querschnittsdatensatz natürlich weg. Bei den weiteren Schritten orientieren wir uns an dem eben beschriebenen Verfahren bei einem Paneldatensatz. Die Hilfe-Funktion von SPSS beschreibt einige weitere Möglichkeiten der Prozedur „Verallgemeinerte Schätzungsgleichungen“.25 Insgesamt sind aber erstens sehr viele (ohne weitere Kenntnisse) undurchsichtige Optionen vorhanden, und zweitens werden die Begriffe sowie Erläuterungen der statistischen Psychologie sowie Medizin entnommen. Dies erfordert eine intensive Beschäftigung mit deren Begriffswelten. Als Fazit ist festzuhalten, dass diese SPSS-Prozedur aus ökonomischer Sicht und für den Einstieg nur sehr bedingt geeignet ist.26 Gute Einführungen sind die Onlineskripte von Baltes-Götz (2013, 2014 und 2015). Sie beschreiben eine Reihe von Möglichkeiten und Makros, um die genannten Verfahren und Probleme in SPSS in den Griff zu bekommen. Außerdem sind die entsprechenden Einführungen und Beispiele der UCLA IDRE sehr hilfreich (UCLA IDRE 2019a, b). Monkerud (2010, S. 14–24) erklärt die Paneldatenanalyse anhand der SPSS-Prozedur Mixed Models. Field (2018) erläutert in drei Kapiteln Repeated Measure Designs, Mixed Designs und Multilevel Linear Models. Die Begriffswelt unterscheidet sich aber deutlich von der Paneldatenanalyse und ist daher mit einem gewissen Einarbeitungsaufwand verbunden. Stata Sofern noch nicht erfolgt, muss der Paneldatensatz zunächst formatiert werden. Der Reshape-Befehl verwandelt einen Datensatz, der im Weiten Format vorliegt, in das notwendige Lange Format: [Data > Create or change data > Other variable-transformation commands > Convert data between wide and long]. Im darauf erscheinenden Fenster muss „Long format from wide“ angeklickt werden. Dann ist im Feld „ID variable(s) – the i() option:“ die Variable einzufügen, die die Beobachtungsträger identifiziert (bspw. die Regionen, Hochschulen, Personen usw.). Im Feld „Subobservation identifier – the j() option“ wird dies für die Zeitpunkte (bspw. das Jahr) durchgeführt.
25 Wie oben erwähnt, sind die Messwiederholungen in der Psychologie, Medizin und Soziologie nichts anderes als Paneldaten. Für solche Datensätze mit Messwiederholungen bietet SPSS verschiedene Verfahren. Die Methoden unter „Gemischte Modelle“ lassen zu, dass die Daten korrelierte Residuen und Residuen mit differierenden Varianzen (also Autokorrelation und Heteroskedastie) aufweisen. Hier existiert als Basisoption [Analysieren > Gemischte Modelle > Linear…]. In weiteren Optionen können wir auch die Kovarianzen und Varianzen analysieren, also Autokorrelation und Heteroskedastie berücksichtigen. Die verschachtelte Verfahrensweise und die vielen weiteren – hier nicht behandelten Optionen – sind aus ökonometrischer Sicht sehr unübersichtlich. Sie sind vorhanden, da SPSS auf die statistischen Ansätze in der Psychologie und Soziologie zurückgeht, d. h. insbesondere auf varianzanalytische Methoden (siehe Stoetzer 2017, Kap. 3 Anhang 3.1). 26 Nach Field (2018, S. 1205) ist diese SPSS-Prozedur „completely indecipherable“.
4.7 Durchführung in SPSS und Stata
277
Im nächsten Schritt teilt das Kommando [xtset] Stata mit, dass es sich um einen echten Paneldatensatz handelt und wie dieser strukturiert ist. Dieser findet sich in der Menüsteuerung unter [Statistics > Linear Models and related > Panel data > Linear Regression (FE, RE, PA, BE)].27 Es erscheint ein Fenster, in dem sich rechts oben der Button „Panel settings …“] befindet. Durch Anklicken ergibt sich die Abb. 4.14. Im Feld „Panel ID variable“ fügen wir die Variable ein, die die Beobachtungsträger identifiziert. In unserem Datensatz „Hochschulgebühren_10_15.dta“ sind dies die Hochschulen. In der Spalte des Datensatzes der Variable Hochschulen sind diese aber als String-Variablen definiert. Solche Variablen kann Stata mathematisch nicht weiterverarbeiten. Wir müssen daher zunächst den einzelnen Hochschulen einen numerischen Wert zuweisen. Dies ist in der Variable HochschulenNumer bereits geschehen. Diese Variable wird hier eingefügt. Falls noch keine Umkodierung in numerische Werte vorliegt, kann dies unter [Data > Create or change data > Other variable-transformation commands > Encode value labels from string variable] durchgeführt werden. Als „Time variable“ fügen wir die Variable Jahr ein. Sie besitzt für die 12 Beobachtungsjahre die Werte 1 bis 12. Damit sind die vorbereitenden Arbeiten zur richtigen Formatierung des Datensatzes abgeschlossen. Über den Button „OK“ kehren wir zum vorhergehenden Fenster zurück. Es offeriert unter „Model type (affects which options are available)“ verschiedene Optionen, darunter das Fixed-Effects- und das Random-Effects-Verfahren. Voreingestellt ist das
Abb. 4.14 Formatierung der Paneldaten
27 Alternativ ist auch folgende Menüführung verwendbar: [Statistics > Longitudinal/panel data > Linear models > Linear regression(FE, RE, PA, BE)].
278
4 Paneldatenanalyse
Random-Effects-Verfahren (im Fenster als „GLS random-effects“ bezeichnet), aber wir wählen das übliche Fixed-Effects-Verfahren durch Anklicken (Abb. 4.15). Das Fixed-Effects-Verfahren führt automatisch die Mittelwertabweichungsmethode für die Hochschulen durch. Nach Klick auf den Button „OK“ folgt das Ergebnis der Abb. 4.16. Die Ergebnisse sind identisch mit denen der Fixed-Effect-OLS-Regression durch SPSS (siehe Abb. 4.8). Unterschiede existieren nur hinsichtlich der Konstanten (SPSS: 825,4 und Stata: 778,3). Auch die Standardfehler und damit Signifikanzniveaus stimmen überein. Im Einzelnen enthält der Stata-Output folgende Informationen: Die dritte Zeile zeigt links die Beobachtungsträger an (Group Variable). Dies sind die 226 Hochschulen (Variable: HochschulenNumer) im Datensatz. Die nächste Zeile beginnt mit der wichtigsten Art von Determinationskoeffizienten der FE-Schätzung, dem „R-sq: within“. Es bezieht sich auf die Veränderung der Zahl der Studienanfänger innerhalb der einzelnen Hochschulen im Betrachtungszeitraum (also auf der Basis der „demeaned“-Werte). Die Veränderung der Erstsemesterzahl innerhalb (within) der einzelnen Hochschulen kann durch die unabhängigen Variablen zu fast 23 % erklärt werden. Weiter rechts steht die Zahl der Beobachtungen für jede Hochschule. Dies sind die 12 Werte der 12 Jahre des Beobachtungszeitraums. Darunter findet sich ein F-Test für das Gesamtmodell: Dieses ist bei einem F-Wert von 247,09 auf dem 1-%-Niveau signifikant. Links davon steht „corr (u_i), Xb“. Dies ist die Korrelation der Fixen Effekte für die Hochschulen (in Stata als „u_i“ bezeichnet) mit den anderen unabhängigen Variablen. Es liegt mit −0,0266 eine geringe negative Korrelation vor. In der Mitte ist der uns bekannte übliche Stata-Output bei einer Regression zu sehen, der hier nicht noch einmal kommentiert
Abb. 4.15 Fixed-Effects-Verfahren in Stata
4.7 Durchführung in SPSS und Stata
279
Abb. 4.16 Fixed-Effects-Output
werden muss. Darunter beschreibt „sigma_u“ die Standardabweichung der Residuen zwischen den Hochschulen (Between-Variance). Diese wird in der FE-Schätzung kontrolliert (d. h. durch die Dummys für jede Hochschule berücksichtigt). „Sigma_e“ bezieht sich auf die Standardabweichung der Residuen innerhalb der einzelnen Hochschulen (Within-Unterschiede). Statt der unbekannten Fehler haben wir jetzt die Residuen eit der geschätzten Gleichung. Der Parameter „rho“ ist der Anteil der Residuenvarianz, der auf die Variation unter den Hochschulen zurückzuführen ist (die Intrabeobachtungsgruppenkorrelation bzw. der Intraklassenkorrelationskoeffizient): Nach Berücksichtigung der Einflüsse der anderen unabhängigen Variablen sind 97,2 % der Varianz der Erstsemesterzahlen auf Unterschiede zwischen den Hochschulen zurückzuführen. Wichtig ist die letzte Zeile: Der F-Test in dieser Zeile überprüft die Nullhypothese, dass alle fixen Effekte (d. h. alle Hochschuldummys, in Stata also alle „u_i“) gemeinsam keinen Einfluss auf die Zahl der Erstsemester besitzen. Die H0 ist mit einem F-Wert von 418,61 klar abzulehnen. Die Schlussfolgerung lautet, dass die Hochschulen gemeinsam ein sehr wichtiger Einflussfaktor sind und daher in das Modell aufgenommen werden müssen. Die einfache gepoolte OLS-Regression ist daher nicht verwendbar. Ein Manko ist, dass dieser Stata-Output keine Information zu den uns geläufigen Determinationskoeffizienten R2 und korrigiertem R2 enthält. Mit Hilfe des Kommandos „areg“ wird ein Fixed-Effect-Ansatz unter Verwendung des Mittelwertabweichungsverfahrens berechnet. Es besitzt den Vorteil, dass die üblichen Werte für die Determinationskoeffizienten R2 und korrigiertes R2 berechnet werden: [Statistics > Linear models and
280
4 Paneldatenanalyse
related > Other > Linear regression absorbing one cat. Variable]. Die Unterschiede zwischen den Hochschulen werden kontrolliert, indem wir im Feld „Categorial variable to be absorbed“ Hochschulen eingeben. Ein identisches Ergebnis erhält man beim Einsatz des LSDV-Verfahrens in Stata (R2 = 0,975 und korrigiertes R2 = 0,972, wie schon unter SPSS in Abb. 4.8). Wir wissen, dass sowohl serielle Autokorrelation der Residuen als auch Heteroskedastie (höchstwahrscheinlich) vorhanden sind: Die Varianz der Residuen dürfte innerhalb einer Hochschule über die Jahre hinweg korrelieren und zwischen den Hochschulen unterschiedlich groß sein. Dies wurde im vorhergehenden Abschnitt in SPSS durch den Levene-Test bestätigt. Nach Installation der Makros „xtserial“ und „xttest3“ bietet Stata entsprechende Testmöglichkeiten für Autokorrelation und Heteroskedastie. Wir geben dazu „findit xtserial“ bzw. „findit xttest3“ im unteren Feld „Command“ ein und erhalten dann weitere Hinweise für das Vorgehen (Download über eine Internetverbindung). In Stata können gegen diese Abweichungen robuste Standardfehler berechnet werden. Sie firmieren als clusterrobuste Standardfehler, wobei die Beobachtungsträger (hier also die Hochschulen) jeweils ein Cluster darstellen. Dazu drücken wir den Reiter „SE/Robust“ in Abb. 4.17. Dann wird im Feld „Standard error type“ die Option „Clustered robust“ aktiviert und schließlich darunter im Feld „Cluster variable“ die Variable Hochschulen eingegeben (siehe Abb. 4.17). Der resultierende Output im unteren Teil bestätigt die bisherigen Ergebnisse, obwohl die robusten Standardfehler deutlich größer sind als die einfachen Standardfehler. Dies macht der Vergleich mit der Abb. 4.16 klar. Das RE-Verfahren kommt, da es sich nicht um ein Sample, sondern um alle Hochschulen in Deutschland handelt, nur bedingt in Betracht. Aber zur Illustrierung untersuchen wir im folgenden Schritt das Problem mit dem RE-Verfahren. Dazu verwenden wir wieder [Statistics > Linear Models and related > Panel data > Linear Regression (FE, RE, PA, BE)]. Wir setzen aber jetzt im ersten Fenster unter „Model type affects which options are available“ die Voreinstellung „GLS random-effects“ ein. Das Ergebnis zeigt Abb. 4.18. Die Unterschiede zu den geschätzten Koeffizienten (und auch Signifikanzniveaus) des FE-Verfahrens aus Abb. 4.16 sind minimal.28 Der Breusch-Pagan-Test ist über [Statistics > Longitudinal/panel data > Linear models > Lagrange multiplier test for random effects] direkt danach abrufbar (siehe Abb. 4.19). Die Nullhypothese lautet, dass die Unterschiede der Varianzen zwischen den Hochschulen 0 betragen. Diese kann klar auf dem 1-%-Niveau abgelehnt werden. Würden keine Unterschiede vorliegen (Nullhypothese nicht abzulehnen), wäre das gepoolte OLS-Verfahren u. U. möglich. Die Ablehnung spricht also für das RE-Verfahren. Zusammenfassend folgt an dieser Stelle, dass der F-Test für das FE- und der BreuschPagan-Test für das RE-Verfahren plädieren. Die einfache gepoolte OLS-Schätzung ist in jedem Fall nicht verwendbar. Zwischen FE- und RE-Methode muss der Hausman-Test entscheiden. Wann der Unterschied groß und wann er klein ist, erläutern Kopp und Lois (2009, S. 37–38).
28
4.7 Durchführung in SPSS und Stata
281
Abb. 4.17 Robuste Standardfehler in Stata
Dazu führen wir zunächst eine FE-Schätzung durch (mit den normalen Standardfehlern – also nicht mit der Option „Robust“!) und speichern deren Ergebnis mittels der Eingabe von „estimates store NAME“ auf der Kommandozeile von Stata ab. NAME ist dabei eine von uns frei wählbare Bezeichnung des Ergebnisses der FE-Schätzung. Im Beispiel verwenden wir den Namen „Fixed-Effects-Modell“ (Abb. 4.20). Danach erfolgt das gleiche für die RE-Schätzung (ebenfalls mit normalen Standardfehlern), die wir unter „estimates store Random_Effects_Modell“ abspeichern. Anschließend
282
4 Paneldatenanalyse
Abb. 4.18 Random Effects
Abb. 4.19 Breusch-Pagan-LM Test
geben wir auf der Kommandozeile „hausman Fixed_Effects_Modell Random_Effects_ Model, sigmamore“ ein. Den damit aufgerufenen Hausman-Test enthält Abb. 4.21. Die Bemerkung (Note) lassen wir beiseite. Ein Blick auf den Output macht deutlich, was passiert: Der Hausman-Test vergleicht die Koeffizientenschätzungen von RE- und FE-Verfahren (Spalten 2 und 3) und überprüft, ob deren Unterschiede (Spalte 4) statistisch signifikant sind. Die Nullhypothese lautet, dass keine systematischen Unterschiede existieren. Diese kann hier nicht abgelehnt werden. Folglich kann prinzipiell die RE-Schätzung herangezogen werden. Für das FE-Verfahren ist aber anzuführen, dass ja alle Hochschulen im Beobachtungszeitraum einbezogen werden, was üblicherweise als Argument für den FE-Ansatz gilt. In der Praxis hätte man – wie oben bereits erwähnt – auf die Schätzung des RE-Verfahrens daher im Allgemeinen verzichtet. Die Unterschiede zwischen
4.7 Durchführung in SPSS und Stata
283
beiden Methoden sind aber marginal, so dass die Schlussfolgerungen für die Fragestellung (Beeinflussen Studiengebühren die Zahl der Erstsemester?) davon nicht berührt werden.29 Wie verlässlich sind die bisherigen Ergebnisse? Zur Einschätzung wird im nächsten Schritt eine Analyse der ersten Differenzen (FD-Verfahren) durchgeführt. Dazu setzen wir die einfache OLS-Regression in Stata ein. Die Bildung der ersten Differenzen ist denkbar simpel. Alle Variablen erhalten vor dem Variablennamen das Präfix „D.“ (D für Difference). Dies ist in der Abb. 4.22 in der obersten Zeile zu sehen. Die Variable Hochschulen wird nicht berücksichtigt, da diese eine Konstante darstellt, die sich im Beobachtungszeitraum nicht ändert und daher auch keinen Einfluss auf die Veränderung der Zahl der Erstsemester ausüben kann. Entsprechendes gilt für die erste Differenz der Variablen Jahr.
Abb. 4.20 Hausman-Test: Erster Schritt
Eine weitergehende, die Voraussetzungen und Grenzen des Hausman-Tests sowie zusätzliche Aspekte enthaltende Darstellung erfolgt in dieser Einführung nicht (siehe dazu Cameron und Trivedi 2009, S. 260–262; Ashley 2012, S. 486–487). Der in Stata implementierte Hausman-Test ist numerisch instabil. Ashley (2012, S. 486) empfiehlt daher die Verwendung der Option „sigmamore“. Dies wird im Stata Reference Manual der Version 16 ebenfalls vorgeschlagen. Der Hausman-Test ist nicht verwendbar, wenn Heteroskedastie vorliegt. Die heteroskedastierobuste Version „xtoverid“ kann mittels Eingabe von „ssc install xtoverid“ im Fenster „Command“ installiert werden (Schaffer und Stillmann 2010). 29
284
4 Paneldatenanalyse
Abb. 4.21 Hausman-Test
Abb. 4.22 FD-Verfahren
Das Resultat besagt, dass die Einführung von Studiengebühren die Zahl der Studienanfänger im Mittel um 85 Studierende verringert. Es liegt damit in einer ähnlichen Größenordnung wie das FE-Verfahren und bestätigt unsere bisherigen Schlussfolgerungen. Erwähnenswert ist die Interpretation der ermittelten Konstante von 43,51: Im Durchschnitt erhöht sich die Zahl der Erstsemester an den Hochschulen pro Jahr um 44 Studierende. Auch hier lassen sich robuste Standardfehler berechnen, die aber die obigen Resultate bestätigen. Als Erweiterung des Modells bauen wir eine Verzögerung (einen Lag) ein. Die Zahl der Abiturienten beeinflusst die Zahl der Erstsemester nicht nur im laufenden Jahr, sondern auch im darauf folgenden Jahr positiv. Dies ist plausibel, da viele Abiturienten zunächst ein freiwilliges soziales Jahr oder Ähnliches einlegen bzw. bis zur Abschaffung des Wehr- und Zivildienstes ein Jahr Pause einlegen mussten. In Stata ist dies sehr einfach mittels des Präfix „L.“ vor der Variablen realisierbar. In unserem FD-Beispiel fügen wir zusätzlich das Präfix L. vor das Präfix D. bei der Variable Zahl_Abiturienten ein (siehe Abb. 4.23, oberste Zeile).
4.8 Übungsaufgaben
285
Abb. 4.23 Wirkung eines Lags
Rechts oben sehen wir, dass die Zahl der Beobachtungen wegen des Lags um weitere 226 auf jetzt 2260 gesunken ist. Der Lag ist unter Zahl_Abiturienten LD. zu finden: Auch die um ein Jahr nach hinten verschobene Zahl der Abiturienten erhöht die Zahl der Erstsemester, und zwar um 0,014. Die Schlussfolgerung für die Wirkung von Studiengebühren bestätigt sich auch in dieser Spezifikation (Koeffizient: −99,51, signifikant auf dem 1-%-Niveau bei robusten Standardfehlern). Zusammenfassend ergibt sich eine negative Wirkung von Studiengebühren auf die Zahl der Studienanfänger, die zwischen 72 und 100 Studierenden liegt. Dieses Resultat ist über verschiedene Verfahrensweisen und Spezifikationen hinweg sehr robust. Zur Paneldatenanalyse in Stata sind einführend Baum (2006, S. 219–236) und Brüderl und Ludwig (2019) empfehlenswert. Acock (2016, S. 451–479) stellt die Verfahren mit Schwerpunkt auf Mixed Models (Hierarchical Linear Models) dar. Weiterführend sind wiederum Ashley (2012, S. 507–529) sowie Cameron und Trivedi (2010, S. 229–279) heranzuziehen. Wie immer bieten auch die Stata-Referenz-Handbücher einen guten Einstieg in die Prozedur xtreg und darüber hinaus eine Darstellung der weiteren sehr umfangreichen Analysemöglichkeiten von Paneldaten mittels Stata (Stata 2019).
4.8
Übungsaufgaben
Übung 4.1: F&E-Förderung und Patentanmeldungen Verwenden Sie den Datensatz „Treatment_Data_Patents.sav“ bzw. „Treatment_Data_Patents.dta“. Es handelt sich um vier Unternehmen, für die über 6 Jahre hinweg Informationen vorhanden sind. Anders als im Abschn. 4.4 unterstellt, gehen wir jetzt davon aus, dass es sich um einen echten Paneldatensatz für 4 Unternehmen handelt. Zwei der Unternehmen nehmen in den Jahren 4, 5 und 6 an einer F&E-Fördermaßnahme teil. Die Zahl der Patentanmeldungen (Variable Number_Patents) der 4 Unternehmen ist über alle 6 Perioden hinweg gegeben. Die Dummyvariable R_D_Subsidies besitzt den Wert 1, wenn ein Unternehmen in einem Jahr F&E-Förderung erhält. Year steht mit den Werten 1 bis 6 für die 6 betrachteten Jahre. Die Dummyvariable Post_Treatment hat den Wert 1 in den Perioden 4 bis 6, in denen be-
286
4 Paneldatenanalyse
stimmte Unternehmen eine F&E-Förderung erhalten haben, in den Perioden 1 bis 3 ist diese Variable mit 0 kodiert. Die Dummyvariable Treatment_Group nimmt den Wert 1 an, wenn ein Unternehmen zur Gruppe der geförderten Unternehmen gehört. Die Variable Enterprise_ Name enthält die Namen der 4 Unternehmen, hier A, B, C und D. In diesem konstruierten Datensatz existieren keinerlei Zufallseinflüsse. Führen Sie folgende Analysen durch: a) b) c) d) e) f)
Pooled-OLS-Regression LSDV-Regression FE-Regression RE-Regression FD-Regression DiD-Regression Erläutern Sie ihre Ergebnisse.
Übung 4.2: Treatment- und Kontrollgruppe Eine Gruppe von Unternehmen erhält ab der Periode 4 eine F&E-Förderung. Die Wirkung einer F&E-Förderung in der Treatmentgruppe (Gruppe der geförderten Unternehmen) hat den in Abb. 4.24 gezeigten Verlauf. Interpretieren Sie die Wirksamkeit der F&E-Förderung. Übung 4.3: Zinssatz und Sparvolumen Die kurz- und langfristigen Zinssätze sind seit Jahren in Japan, den USA und der Eurozone extrem niedrig. Eine aktuelle Kontroverse in der Makroökonomie diskutiert, ob dies auf die lockere Geldpolitik der Zentralnotenbanken zurückzuführen ist oder ob letztlich andere Faktoren in den entwickelten Industriestaaten die Ursache sind. Eine mögliche Erklärung besagt, dass ein „Savings Glut“ existiert, d. h. das Sparvolumen in den hoch entwickelten Staaten sehr groß ist und dies zu niedrigen Zinsen führt. Für das hohe Sparvolumen sind in dieser Argumentation vor allem eine alternde Bevölkerung, ein hohes Pro-Kopf-Einkommen und eine ungleiche Einkommens- und Vermögensverteilung verantwortlich. Abb. 4.24 Einfluss F&EFörderung
Patente
Kontrollgruppe
Geförderte Gruppe
Periode 4
Zeit
4.9 Lösungen
287
Verwenden Sie den Datensatz „Savings_OECD_Countries.sav“ bzw. „Savings_ OECD_Countries.dta“. Er enthält für 24 Mitgliedstaaten der OECD und die Jahre 2003 bis 2016 Daten zum Bruttosparvolumen in Prozent des Bruttoinlandsproduktes (GrossSavings), zum realen Bruttoinlandsprodukt pro Kopf (GDPpCapita), zur Inflationsrate (InflationRate), zur Einkommensverteilung (GiniIndex) und zum Anteil der älteren Bevölkerung an der erwerbsfähigen Bevölkerung (AgeDependencyRatio). Die Daten stammen von der Weltbank (World Development Indicators), der OECD (OECD.Stat) und eigenen Schätzungen für fehlende Werte. a) Analysieren Sie die möglichen Einflussfaktoren des Bruttosparvolumens. b) Bilden sie Dummyvariablen für die 24 OECD-Mitgliedsstaaten. c) Analysieren Sie mittels eines FE-Verfahrens unter Berücksichtigung eines möglichen Zeittrends die Einflussfaktoren des Bruttosparvolumens. Vergleichen Sie die Resultate mit dem Ergebnis der Teilaufgabe a). d) Diskutieren Sie die Glaubwürdigkeit ihrer Schätzungen. Sind die Koeffizienten kausal interpretierbar? Übung 4.4: Studiengebühren in Deutschland Verwenden Sie den Datensatz „Studiengebühren_Germany.dta“ (bzw. „Studiengebühren_ Germany.sav“). Es handelt sich um einen realen Datensatz der Erstsemester an 226 deutschen Hochschulen in den Jahren 2004 bis 2015. a) Führen Sie eine FD-Analyse unter Einbezug der ersten Differenzen der Variablen wie folgt durch: Abhängige Variable: Zahl_Erstsemester; unabhängige Variablen: Dummy_ Gebühr und Zahl_Abiturienten. b) Nehmen Sie zusätzlich die erste Differenz der Variable Jahr auf. c) Verwenden Sie die einfache Variable Jahr statt ihrer ersten Differenz. d) Verwenden Sie die Variable Jahr mit Dummyvariablen für alle Jahre. Vergleichen und interpretieren Sie Ihre Resultate.
4.9
Lösungen
Lösung 4.1 a) Das Ergebnis einer gepoolten (gepackten) OLS-Regression enthält Abb. 4.25. Danach hat das F&E-Förderprogramm (R_D_Subsidies) einen positiven Einfluss von im Mittel 12,33 zusätzlichen Patentanmeldungen. Der tatsächliche Einfluss in Höhe von 5 Patenten wird massiv überschätzt. Die Verzerrung kann auf unbeobachtete Heterogenität bzw. auf Selbstselektion zurückzuführen sein.
288
4 Paneldatenanalyse
b) Das Resultat des LSDV-Verfahrens als Two-Way-Modell mit Dummys für die Unternehmen und die Zeitpunkte zeigt Abb. 4.26. Der wahre Einfluss (5 Patente mehr) wird so exakt ermittelt. Standardabweichungen sind nicht mehr vorhanden. Dies resultiert aus der deterministischen Struktur des Einflusses der F&E-Förderung. Das heißt, in diesem konstruierten Datensatz existieren keinerlei Zufallseinflüsse. F- und t-Werte sowie deren Signifikanzniveaus sind unendlich groß (bzw. klein) und werden daher nicht angezeigt. c) Das Ergebnis der FE-Methode illustriert Abb. 4.27. Das Fixe-Effekte-Verfahren identifiziert den wahren Einfluss der F&E-Förderung exakt. d) Das Resultat des RE-Verfahren findet sich in Abb. 4.28. Auch das RE-Verfahren ermittelt den wahren Einfluss. In diesem konstruierten Datensatz stimmen die Resultate mit denen des FE-Verfahrens vollständig überein. e) Die vom FD-Verfahren ermittelte Schätzung enthält Abb. 4.29. Auch die FD-Methode kommt zu dem richtigen Ergebnis. f) DiD-Verfahren Das Ergebnis des DiD-Verfahrens kennen wir bereits aus der Abb. 4.5 im Abschn. 4.5. Auf die Wiedergabe wird daher hier verzichtet. Als Fazit folgt, dass in diesem Beispiel die gepoolte OLS-Regression zu falschen (d. h. verzerrten) Koeffizientenschätzungen führt. Dagegen gelingt es mit allen Verfahren der Paneldatenregression für echte Paneldaten (LSDV, FE, RE, FD) und unechte Paneldaten (DiD), den wahren Einfluss der F&E-Förderung korrekt zu ermitteln.
regress Number_Patents R_D_Subsidies Source | SS df MS -------------+---------------------------------Model | 684.5 1 684.5 Residual | 236 22 10.7272727 -------------+---------------------------------Total | 920.5 23 40.0217391
Number of obs F(1, 22) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
24 63.81 0.0000 0.7436 0.7320 3.2753
------------------------------------------------------------------------------Number_Pate~s | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------------+---------------------------------------------------------------R-D_Subsidies | 12.33333 1.543968 7.99 0.000 9.131339 15.53533 _cons | 11.66667 .7719842 15.11 0.000 10.06567 13.26766 -------------------------------------------------------------------------------
Abb. 4.25 Gepoolte OLS-Regression
4.9 Lösungen
289
. regress Number_Patents R_D_Subsidies i.Enterprise_Name i.Year Source | SS df MS -------------+---------------------------------Model | 920.5 9 102.277778 Residual | 0 14 0 -------------+---------------------------------Total | 920.5 23 40.0217391
Number of obs F(9, 14) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
24 . . 1.0000 1.0000 0
Number_Patents | Coef. Std. Err. t P>|t| ----------------------+-----------------------------------------R_D_Subsidies | 5 . . . Enterprise_Identifier | B | 6 . . . C | -2 . . . D | 8 . . . Year | 2 | 1 . . . 3 | 2 . . . 4 | 3 . . . 5 | 4 . . . 6 | 5 . . . _cons | 8 . . . -------------------------------------------------------------------
Abb. 4.26 Two-Way-Modell . xtreg Number_Patents R_D_Subsidies
i.Year, fe = =
24 4
min = avg = max =
6 6.0 6
= =
. .
Fixed-effects (within) regression Group variable: Enterprise~r
Number of obs Number of groups
R-sq:
Obs per group: within = 1.0000 between = 0.9650 overall = 0.6142
corr(u_i, Xb)
= 0.3599
F(6,14) Prob > F
------------------------------------------------------------------------------Number_Pate~s | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------------+---------------------------------------------------------------R_D_Subsidies | 5 . . . . . | Year | 2 | 1 . . . . . 3 | 2 . . . . . 4 | 3 . . . . . 5 | 4 . . . . . 6 | 5 . . . . . | _cons | 11 . . . . . --------------+---------------------------------------------------------------sigma_u | 4.7609523 sigma_e | 0 rho | 1 (fraction of variance due to u_i) ------------------------------------------------------------------------------F test that all u_i=0: F(3, 14) = . Prob > F = .
Abb. 4.27 Fixed-Effects-Regression
290
4 Paneldatenanalyse
xtreg Number_Patents R_D_Subsidies
i.Year, re
Random-effects GLS regression Group variable: Enterprise~r
Number of obs Number of groups
R-sq:
Obs per group: within = 1.0000 between = 0.9650 overall = 0.6142
corr(u_i, X)
= 0 (assumed)
= =
24 4
min = avg = max =
6 6.0 6
= =
. .
Wald chi2(0) Prob > chi2
------------------------------------------------------------------------------Number_Pate~s | Coef. Std. Err. z P>|z| [95% Conf. Interval] --------------+---------------------------------------------------------------R_D_Subsidies | 5 . . . . . Year | . 2 | 1 . . . . 3 | 2 . . . . . 4 | 3 . . . . . 5 | 4 . . . . . 6 | 5 . . . . . _cons | 0 (omitted) --------------+---------------------------------------------------------------sigma_u | 1.4142136 sigma_e | 0 rho | 1 (fraction of variance due to u_i) -------------------------------------------------------------------------------
Abb. 4.28 Random-Effects-Verfahren regress D1.Number_Patents D1.R_D_Subsidies Source | SS df MS -------------+---------------------------------Model | 45 1 45 Residual | 0 18 0 -------------+---------------------------------Total | 45 19 2.36842105
Number of obs F(1, 18) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
20 . . 1.0000 1.0000 0
------------------------------------------------------------------------------D. | Number_Pate~s | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------------+---------------------------------------------------------------R_D_Subsidies | D1. | 5 . . . . . | _cons | 1 . . . . . -------------------------------------------------------------------------------
Auch die FD-Methode kommt zu dem richtigen Ergebnis.
Abb. 4.29 First-Differences-Verfahren
Lösung 4.2 Bei einem Vergleich der Zahl der Patente vor und nach Einführung der Förderung nur in der Treatmentgruppe scheint die Förderung wirkungslos zu sein. Der Vergleich mit der Kontrollgruppe, d. h. den nicht geförderten Unternehmen, zeigt aber, dass die Förderung wirksam war. Sie hat eine Verringerung der Innovationsaktivitäten – gemessen an der Zahl der Patente – bei den geförderten Unternehmen verhindert.
4.9 Lösungen
291
Lösung 4.3 a) Abb. 4.30 enthält (auszugsweise) die Ergebnisse des gepoolten OLS-Verfahrens (unter Verwendung von SPSS), bei dem weder die Zeit (Year) noch die Staaten (Country) berücksichtigt werden. Es wird also angenommen, dass erstens kein zeitlicher Einfluss (bzw. zeitliche Abhängigkeiten) existieren und zweitens keine individuellen Unterschiede, die staatenspezifisch sind, vorliegen. Neuseeland (New Zealand) wird automatisch aus der Analyse ausgeschlossen, da keine Daten für den Gini-Index vorhanden sind. Das korrigierte R2 des Modells beträgt 0,28 und der F-Wert 31,49. Das Modell ist auf dem 1-%-Niveau signifikant. Die Inflationsrate und der Anteil der älteren Bevölkerung weisen keinen signifikanten Zusammenhang mit dem Bruttosparvolumen auf. Ein steigender Gini-Index – also eine zunehmend ungleiche Einkommensverteilung – ist (überraschenderweise) mit einem abnehmenden Sparvolumen verbunden. Ein höheres Wohlstandsniveau (gemessen am BIP pro Kopf) geht – wie erwartet – mit einem steigenden Sparvolumen einher. b) Bildung von Dummyvariablen für die 24 OECD-Mitgliedsstaaten: SPSS: Dies erfolgt ab der Version IBM SPSS 22 über [Transformieren > Dummy-Variablen erstellen]. In dem dann erscheinenden Menüfeld befördern wir unsere Variable in das Feld „Dummy-Variablen erstellen für:“, setzen ein Häkchen bei „Dummy für Haupteffekte erstellen“ und vergeben unter „Stammnamen“ einen frei wählbaren Namen ein (bspw. Dum_Staaten_). SPSS fügt dann unserem Datensatz 24 Dummys hinzu. Diese erhalten automatisch die Namen Dum_Staaten_1, Dum_Staaten_2 usw.
Abb. 4.30 Savings – Pooled OLS
292
4 Paneldatenanalyse
Stata: Durch das Präfix „i.“ kommunizieren wir Stata, dass es sich um eine kategoriale Variable handelt. Stata legt dann automatisch im Hintergrund eine Dummyvariable für alle Kategorien an und lässt dabei ein Kategorie wegfallen. c) Das Resultat für eine LSDV-Schätzung (mittels SPSS) unter Berücksichtigung eines linearen Zeittrends ist (auszugsweise) in Abb. 4.31 zu sehen. Das korrigierte R2 liegt bei 0,85, der F-Wert ist gleich 69,21. Das Modell ist auf dem 1-%-Niveau signifikant. Wir lassen die Dummyvariablen für die Staaten zunächst beiseite. Bis auf den Gini-Index sind alle unabhängigen Variablen signifikant. Eine höhere Inflationsrate führt zu einem sinkenden Sparvolumen, und auch der lineare Zeittrend (Year) verringert das Bruttosparvolumen. Eine alternde Bevölkerung spart aber mehr, und gleiches gilt für einen wachsenden Wohlstand. Die Ergebnisse sind deutlich andere bei der Pooled-OLS-Schätzung. Sie basieren jetzt auf der Within-Varianz der OECD-Staaten, womit unbeobachtete Heterogenität (eher) beseitigt wird. d) Die vorliegende Analyse besitzt eine ganze Reihe von Schwachpunkten und müsste weiter ausgebaut werden. Wichtige Stichpunkte diesbezüglich sind: Definition des Bruttosparvolumens? Erfassung der Einkommensungleichheit? Linearer Zeittrend? Autokorrelation und Heteroskedastie? Mittelwertabweichungsverfahren? FD-Methode? Luxemburg und Türkei sind Ausreißer?
Abb. 4.31 Savings – LSDV-Verfahren
4.9 Lösungen
293
Um mit größerer Sicherheit kausale Schlussfolgerungen abzuleiten, ist darüber hinaus zu untersuchen, ob der Einfluss der unabhängigen Variablen InflationRate, GiniIndex, AgeDependencyRatio und GDPpCapita für alle Staaten einheitlich und konstant ist. Mögliche unterschiedliche Wirkungen dieser Variablen in den einzelnen Staaten könnten durch die Aufnahme von Interaktionseffekten der Variablen Year mit den Dummyvariablen der Staaten überprüft werden. Grundsätzlich sind aber kausale Wirkungen kaum identifizierbar. Allgemeine Gleichgewichtseffekte sind bei diesen hoch aggregierten (und auch räumlich sowie zeitlich interdependenten) Makrovariablen nicht sicher auszuschließen. Es lässt sich kaum plausibel ableiten, dass die Veränderungen der genannten vier Variablen exogen sind, weil sie einem natürlichen Experiment entsprechen (oder auch nur nahekommen). Interessant ist die deutlich höhere Erklärungskraft (gemessen am korrigierten R2) des LSDV-Verfahrens. Das Bruttosparvolumen weist erhebliche Unterschiede zwischen den Staaten auf, die auch durch unsere anderen unabhängigen Variablen nicht kontrolliert werden. Im Rahmen des FE-Verfahrens sind also nicht beobachtbare Unterschiede zwar eliminierbar, verlangen aber ihrerseits nach einer Erklärung. Lösung 4.4 a) Wenn nicht bereits erfolgt, muss die zeitliche Struktur des Datensatzes Stata zunächst kommuniziert werden. Dies durch folgende Eingabe im Feld „Command“ der Menüoberfläche: „xtset HochschulenNumeric Jahr panel variable: HochschulenNumeric (strongly balanced) time variable: Jahr, 1 to 12 delta: 1 unit“
Das Ergebnis und seine Interpretation sind bereits bekannt. Es findet sich in der Abb. 4.22. b) Die erste Differenz der Variable Jahr ist immer gleich 1. Daher verweigert Stata aufgrund perfekter Multikollinearität mit der Konstanten die Berechnung mit der Fehlermeldung: „D.Jahr omitted because of collinearity“. c) Die einfache Variable Jahr ist nicht signifikant: t-Wert 0,23, Signifikanzniveau 0,819. Durch die Bildung der ersten Differenz der Zahl der Erstsemester sind (lineare) Trends vollständig beseitigt worden. d) Die Dummyvariable wird in Stata einfach mit dem Präfix „i.“ aufgenommen (also i. Jahr). Es werden erhebliche jährliche Schwankungen in den ersten Differenzen der Zahl der Studienanfänger deutlich. Der negative Einfluss der Einführung von Studiengebühren ändert sich aber nicht: Koeffizient: −90,195, t-Wert: −5,45, signifikant auf dem 1-%-Niveau.
294
4 Paneldatenanalyse
Literatur Acock, A. C. (2016). A gentle introduction to Stata (5. Aufl.). College Station: Stata Press. Allbus. (2020). Allgemeine Bevölkerungsumfrage der Sozialwissenchaften. https://www.gesis.org/ allbus/allbus. Zugegriffen am 05.01.2020. Andreß, H.-J., Golsch, K., & Schmidt, A. W. (2013). Applied panel data analysis for economic and social surveys. Berlin: Springer. Angrist, J. D., & Pischke, J.-S. (2009). Mostly harmless econometrics, an empiricist’s companion. Princeton: Princeton University Press. Angrist, J. D., & Pischke, J.-S. (2015). Mastering metrics, the path from cause to effect. Princeton: Princeton University Press. Ashley, R. A. (2012). Fundamentals of applied econometrics. Hoboken: Wiley. Athey, S., & Imbens, G. W. (2006). Identification and inference in nonlinear difference in differences models. Econometrica, 74(2), 431–497. Baltagi, B. H. (2013). Econometric analysis of panel data (5. Aufl.). Chichester: Wiley. Baum, C. F. (2006). An introduction to modern econometrics using Stata. College Station: Stata Press. Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Heidelberg: Springer. Brüderl, J., & Ludwig, V. (2015). Chapter 15: Fixed-effects panel regression. In H. Best & C. Wolf (Hrsg.), The SAGE handbook of regression analysis and causal inference (S. 327–357). Los Angeles: Sage Publications. Brüderl, J., & Ludwig, V. (2019, April). Applied panel data analysis using Stata. LMU München & TU Kaiserslautern. https://www.ls3.soziologie.uni-muenchen.de/studium-lehre/archiv/teaching-marterials/panel-analysis_april-2019.pdf. Zugegriffen am 10.12.2019. Cameron, A. C., & Trivedi P. K. (2007). Microeconometrics – Methods and applications. Cambridge: Cambridge University Press. Cameron, L. A., & Trivedi, P. K. (2009). Microeconometrics using Stata. College Station: Stata Press. Cameron, L. A., & Trivedi, P. K. (2010). Microeconometrics using stata. College Station Texas, Stata Press. Card, D., & Krueger, A. B. (1994). Minimum wages and employment: A case study of the fast-food industry in New Jersey and Pennsylvania. American Economic Review, 84(4), 772–793. Carpenter, C., & Dobkin, C. (2011). The minimum legal drinking age and public health. Journal of Economic Perspectives, 25(2), 133–156. Dietrich, H., & Gerner, H.-D. (2012). The effects of tuition fees on the decision for higher education: Evidence from a German policy experiment. Economics Bulletin, 32(2), 1–17. Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London: Sage Publications. Fox, J. (2016). Applied regression analysis and generalized linear models. Thousand Oaks: Sage Publications. Frees, E.-W. (2004). Longitudinal and panel data, analysis and applications in the social sciences. Cambridge: Cambridge University Press. Greene, W. H. (2012). Econometric analysis (7. Aufl.). Boston: Pearson. Günter, M., Vossebein, G., & Wildner, R. (2018). Marktforschung mit Panels (3. Aufl.). Berlin: Springer Gabler. Guo, S., & Fraser, M. W. (2015). Propensity score analysis, Statistical methods and applications. Los Angeles: Sage Publications. IAB. (2020). IAB-Betriebspanel. http://www.iab.de/de/erhebungen/iab-betriebspanel.aspx/. Zugegriffen am 05.01.2020. IBM SPSS. (2018). Technical note. https://www-304.ibm.com/support/docview.wss?uid=swg21477323. Zugegriffen am 02.11.2019. Kennedy, P. (2008). A guide to econometrics (6. Aufl.). Malden: Wiley-Blackwell. Kopp, J., & Lois, D. (2009). Einführung in die Panelanalyse. Chemnitz: Institut für empirische Sozialforschung, TU Chemnitz.
Literatur
295
Long, J. S., & Erwin, L. H. (2000). Using heteroscedasticity-consistent standard errors in the linear regression model. The American Statistician, 54, 217–224. Maddison. (2020). Maddison project database 2018. https://www.rug.nl/ggdc/historicaldevelopment/maddison/releases/maddison-project-database-2018. Zugegriffen am 05.01.2020. Monkerud, L. C. (2010). GRA 5917: Input politics and public opinion, Panel data regression in political economy, Lecture slides, BI Norwegian School of Business. Zugegriffen am 20.09.2019. Nichols, A. (2009, June 26). Causal inference with observational data, regression discontinuity and related methods in Stata. https://www.stata.com/meeting/germany09/nichols.pdf. Zugegriffen am 20.07.2019. OECD. (2020). OECD.stats. https://stats.oecd.org/. Zugegriffen am 05.01.2020. Pairfam. (2020). pairfam – Das Beziehungs- und Familienpanel. https://www.pairfam.de/. Zugegriffen am 05.01.2020. Park, H. M. (2009). Linear regression models for panel data using SAS, Stata, LIMDEP, and SPSS. Working paper, The University Information Technology Services (UITS), Center for Statistical and Mathematical Computing, Indiana University. http://www.indiana.edu/~statmath/stat/ all/panel/panel.pdf. Zugegriffen am 29.09.2017. Park, H. M. (2011). Practical guides to panel data modeling: A step by step analysis using Stata. Tutorial working paper, Graduate School of International Relations, International University of Japan. https://www.iuj.ac.jp/faculty/kucc625/method/panel/panel_iuj.pdf. Zugegriffen am 03.02.2019. Penn World Tables. (2020). Penn World Tables, Version 9.1. https://www.rug.nl/ggdc/productivity/ pwt/. Zugegriffen am 05.01.2020. Richardson, G., & Troost, W. (2009). Monetary intervention mitigated banking panics during the great depression: Quasi-experimental evidence from a Federal Reserve District Border, 1929–1933. Journal of Political Economy, 117(6), 1031–1073. https://doi.org/10.1086/649603. Schaffer, M., & Stillman, S. (2010). Xtoverid: Stata module to calculate tests of overidentifying restrictions, Stata ado file. http://fmwww.bc.edu/RePEc/bocode/x/. Zugegriffen am 20.02.2019. Schnell, R., Hill, P. B., & Esser, E. (2018). Methoden der empirischen Sozialforschung (11. Aufl.). München: Oldenbourg. Stata. (2019). Stata 16 longitudinal data/panel data. https://www.stata.com/includes/ir16/16-xt.png. Zugegriffen am 20.07.2019. Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics (Updated 3. Aufl., Global Edition). Amsterdam: Pearson. Stoetzer, M.-W. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung (Bd. 1)., Berlin: Springer. UCLA IDRE. (2019a). SPSS library: Comparing methods of analyzing repeated measures data. https://stats.idre.ucla.edu/spss/library/spss-library-comparing-methods-of-analyzing-repeated-measures-data/. Zugegriffen am 20.07.2019. UCLA IDRE. (2019b). SPSS library: Panel data analysis using GEE. https://stats.idre.ucla.edu/ spss/library/spss-librarypanel-data-analysis-using-gee/. Zugegriffen am 20.07.2019. UCLA IDRE. (2019c). Statistical computing workshop: Using the SPSS mixed command. https:// stats.idre.ucla.edu/spss/seminars/spss-mixed-command/. Zugegriffen am 03.11.2019. Verbeek, M. (2008). Pseudo-panels and repeated cross-sections. In L. Mátyás & P. Sevestre (Hrsg.), The econometrics of panel data: Fundamentals and recent developments in theory and practice (3. Aufl., S. 369–383). Berlin: Springer. Wooldridge, J. M. (2010). Econometric analysis of cross-section and panel data (2. Aufl.). Boston: The MIT Press. Wooldridge, J. M. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston: South Western Education Publications. World Bank. (2020). World development indicators. https://datacatalog.worldbank.org/dataset/world-development-indicators. Zugegriffen am 08.01.2020.
5
Fehlende Datenwerte/Missing Values
Lernziele
Der Studierende soll: • die Bedeutung fehlender Datenwerte (Missings bzw. Missing Values) in der praktischen empirischen Forschung überblicken, • die Begriffe „Unit Nonresponse“ und „Item Nonresponse“ unterscheiden können, • die Konsequenzen verschiedener Formen von Missings verstehen, • wissen, welche Möglichkeiten des Umgangs mit fehlenden Daten existieren, • beherrschen, unter welchen Bedingungen der fallweise Ausschluss eingesetzt werden kann, • die wichtigsten Verfahren der Behandlung von Datenausfällen, das heißt die multiple Imputation und die FIML-Methode verstehen und umsetzen können, • in der Lage sein, zu erklären, warum die einfache Mittelwertimputation kein geeignetes Verfahren ist, um mit fehlenden Werten umzugehen, • verstehen, wie der Little-Test und die logistische Regression als Methoden zu Überprüfung der MCAR-Bedingung einsetzbar sind, • die drei Schritte der multiplen Imputation – Imputation, Analyse und Pooling (Zusammenfassung) – anwenden können, • erläutern können, welche Regeln hinsichtlich der Zahl der Imputationen bei einer multiplen Imputation existieren, • fähig sein, zu erklären, welche Vorteile die FIML-Methode hinsichtlich der Verwertung der Informationen eines Datensatzes mit Missing Values besitzt.
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. -W. Stoetzer, Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2, https://doi.org/10.1007/978-3-662-61438-9_5
297
298
5 Fehlende Datenwerte/Missing Values
cc Wichtige Grundbegriffe Multiple Imputation, Mittelwertimputation, fallweiser Ausschluss, FIML, Missingquote, Unit Nonresponse, Item Nonresponse, Missing at Random – MAR, Missing Completely at Random – MCAR, Little’s Test, Listwise Deletion, Missing Not at Random – MNAR
5.1
Überblick
Der Abschn. 5.2 erläutert einige grundlegende Abgrenzungen ebenso wie die Relevanz fehlender Datenwerte. Unterschiedliche Formen von Missing Values erfordern jeweils spezielle Verfahren des Umgangs und werden daher im Abschn. 5.3 behandelt. Abschn. 5.4 stellt die wichtigsten Verfahren der Behandlung fehlender Daten knapp dar und konzen triert sich dabei auf die modernen Methoden. Die zentralen Schlussfolgerungen und praktischen Handlungsempfehlungen sind Thema des Abschn. 5.5 und 5.6 zeigt die praktische Anwendung der verschiedenen Verfahren mittels SPSS und Stata.
5.2
Die Relevanz fehlender Datenwerte
Bei Primär- und Sekundärdaten existiert das Problem unvollständiger Datensätze. Dies bezieht sich etwa auf die Beobachtungseinheiten (d. h. Fälle) selbst. Zum Beispiel verweigern bei einer Befragung Unternehmen oder Personen die Teilnahme, so dass diese Beobachtungseinheiten fehlen. Dies wird als „Unit Nonresponse“ bezeichnet und führt ggf. dazu, dass die Stichprobe (das Sample) nicht repräsentativ für die Grundgesamtheit ist. Außerdem treten fehlende Informationen aber auch hinsichtlich einzelner Datenwerte auf. Dies resultiert etwa, wenn in einer Primärdatenerhebung eine Person (Haushalt) oder ein Unternehmen einzelne Fragen nicht beantwortet hat. In empirischen Untersuchungen zur Bildungsforschung oder Psychologie sind zu bestimmten Fragen üblicherweise Ausfallraten von 15 % zu verzeichnen (Enders 2003, S. 325). Bei Haushaltsbefragungen werden Auskünfte zum Einkommen häufig nicht gegeben – hier sind Ausfallraten von 30 % gängig. Diese können kumuliert bis zu 50 % ausmachen (Acock 2005, S. 1014–1015). In Unternehmensbefragungen treten im Allgemeinen hohe Anteile von fehlenden Daten bei Fragen zum Gewinn oder den Kosten auf. Dies gilt natürlich auch für Sekundärdatensätze und amtliche Statistiken – etwa sind bei vielen Least-Developed-Country-Staaten Daten zu Ausbildungsniveaus und -strukturen nicht vorhanden. Nur diese Situation fehlender einzelner Datenwerte („Item Nonresponse“ oder „Missing Values“ bzw. kurz „Missings“) ist hier relevant.1 Einzelne Fragen in einer Erhebung werden als „Items“ bezeichnet. Deren Fehlen ist auch von sogenannten benutzerdefinierten fehlenden Werten (User Missing Values) zu unterscheiden. Bspw.
1
5.2 Die Relevanz fehlender Datenwerte
299
In den Standardlehrbüchern zur Ökonometrie und empirischen Wirtschaftsforschung wird das Problem der Missing Values in der Regel nicht behandelt.2 Dies ist ein Manko, denn komplette (vollständige) Daten für alle Beobachtungseinheiten sind in der empirischen Forschung selten. Auch in referierten Publikationen der BWL und VWL wird das Problem fehlender Daten und der Umgang mit ihnen häufig ignoriert.3 Gängige Praxis ist es, in der Regressionsanalyse nur Fälle mit kompletten Datenwerten zu berücksichtigen. Dieses Verfahren ist die sogenannte „Listwise Deletion“ und wird von den Statistikprogrammpaketen automatisch angewandt. Auch wenn nur wenige Daten bei einzelnen Beobachtungen fehlen, führt dies aber unter Umständen zu einer erheblichen Verkleinerung der für unsere Regression verwendeten Zahl von Beobachtungen. Tab. 5.1 enthält noch einmal den aus Band 1 bekannten Datensatz unseres Pkw- Beispiels (Stoetzer 2017). Allerdings sind jetzt verschiedene Daten aus einzelnen Regionen durch einen Übertragungsfehler verloren gegangen. Dadurch sind „Lücken“ im Datensatz entstanden. Hier steht jetzt nur noch ein Punkt zur Kennzeichnung fehlender Werte. In der Region 1 fehlt der Wert für die Variable Preis, in der Region 4 für die Variable Budget, in der Region 7 für Kontakte und außerdem Absatzmenge, in der Region 13 für Absatzmenge und in der Region 14 für die Variable Preis. Wie sich die fehlenden Daten auf die Beobachtungen sowie Variablen verteilen, bezeichnet man als Struktur (Muster) der Missing Values. Von den insgesamt 60 Werten (15 Regionen mit 4 Variablen) tritt ein Ausfall nur bei 6 Werten auf, d. h. 10 % der Daten sind nicht vorhanden. Die Listwise Deletion führt aber dazu, dass 5 Beobachtungen (hier: Regionen) bei der Regressionsanalyse nicht berücksichtigt werden. Der Umfang unserer Stichprobe schrumpft also um ein Drittel. Die übliche Vorgehensweise der Listwise Deletion ist daher nur unter bestimmten Voraussetzungen ein sinnvolles Verfahren des Umgangs mit Datenausfällen. Dies erläutert Abschn. 5.4.1 genauer. Die folgenden Ausführungen beschränken sich auf Aspekte, die bei Regressionen von Querschnittsdaten relevant sind. Spezielle Gesichtspunkte bei univariaten Analysen (bspw. Mittelwert- und Varianzvergleiche und insbesondere Tests) werden nicht behandelt. Gleiches gilt hinsichtlich Paneldaten (Längsschnittdaten). Alle Abschnitte enthalten aber Hinweise auf die entsprechende Spezialliteratur.
existiert im Fragebogen die Antwortkategorie „weiß nicht“ oder „sonstige“. Solche Antworten sind inhaltlich etwas anderes als fehlende Daten im obigen Sinn. Weiterhin können fehlende Antworten inhaltlich notwendig sein. Wenn ein Unternehmen bei der Frage nach Auslandsaktivitäten „Keine“ geantwortet hat, sind anschließende Fragen zum Anteil der Exporte am eigenen Umsatz und der Zahl der ausländischen Tochtergesellschaften hinfällig. Sie werden in der Fragebogengestaltung nach dem „Keine“ mit dem Hinweis „weiter mit Frage xy“ übersprungen. 2 Ausnahmen sind Fox (2016, S. 605–646) und Hosmer et al. (2013, S. 395–400). 3 Siehe bspw. Peugh und Enders (2004) für die Sozialwissenschaften und Backhaus und Blechschmidt (2009) für die BWL. Eine Ausnahme ist Vroomen et al. (2016) für die Gesundheitsökonomie. Missing Values treten in dieser Publikation insbesondere hinsichtlich Kostendaten von Krankenhäusern auf.
300
5 Fehlende Datenwerte/Missing Values
Tab. 5.1 Der Pkw-Absatz Region 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Kontakte 22 18 20 13 13 25 . 17 18 14 10 23 21 17 18
Preis . 16,0 15,2 13,4 13,8 14,1 13,0 13,1 15,7 15,9 13,7 14,1 14,8 . 14,3
Budget 26,3 27,1 22,2 . 25,0 21,2 24,0 28,0 23,4 23,9 21,0 24,0 26,9 26,3 27,0
Absatzmenge 214 202 198 178 184 210 . 205 192 181 164 213 . 198 200
Es handelt sich um 15 deutsche Verkaufsregionen eines Pkw-Herstellers. Die Variablen beziehen sich auf ein Quartal sind wie folgt definiert: Region: Laufende Nummer der 15 Verkaufsregionen in Deutschland Kontakte: Zahl der Besuche der regionalen Produktmanager bei den Pkw-Händlern Preis: Nettoverkaufspreis in Tausend Euro Budget: Marketingbudget in Tausend Euro Absatzmenge: Stückzahl der verkauften Pkw
5.3
Formen von Missing Values
5.3.1 Einführung Bisher sind die Missings nur beschrieben worden. Aber welche Auswirkungen haben solche fehlenden Werte für unsere Regressionsschätzungen – insbesondere hinsichtlich der Koeffizienten und deren Standardfehlern? Und welche Konsequenzen ergeben sich daraus für den geeigneten Umgang mit fehlenden Datenwerten? Dazu müssen die folgenden drei Formen von Missing Values unterschieden werden: Missing Completely at Random, Missing at Random und Missing Not at Random.4 Zur Erläuterung verwenden wir zwei Beispiele. Erstens eine Schätzung des Einkommens von Privathaushalten aufgrund eines Surveys, der auch die üblichen soziodemografischen Merkmale wie Alter, Geschlecht und Wohnort erfasst. Zweitens eine Umfrage, die analysiert, von welchen Einflussfaktoren die Hochschulabschlussnote eines Studierenden Die Klassifikation stammt von Rubin (1976). Allison (2002, S. 3–5) enthält eine verständliche Beschreibung, die sich in der Literatur durchgesetzt hat.
4
5.3 Formen von Missing Values
301
am Ende seines Studiums abhängt. Unabhängige Variablen sind die Note seiner Hochschulzugangsberechtigung, sein Alter, der Zeitpunkt seines Hochschulabschlusses und als Dummyvariablen das Geschlecht, die Art der Hochschulzugangsberechtigung sowie eine mögliche Berufsausbildung vor Aufnahme seines Studiums.5
5.3.2 Missing Completely at Random (MCAR) Im Fall des Missing Completely at Random (MCAR) ist die Wahrscheinlichkeit, dass ein Wert bei einer abhängigen Variablen Y oder einer unabhängigen Variablen Xk fehlt, nicht von den Ausprägungen (also Datenwerten) dieser Variablen (Y, X1, X2, X3…, Xk) abhängig. Anders formuliert: Die Ursachen für das Fehlen eines Datenwertes dürfen nicht von den beobachteten Variablen beeinflusst werden.6 Dies ist der Fall, wenn die fehlenden Werte bei einer oder mehreren Variablen (Y, X1, X2, X3 usw.) das Ergebnis reiner Zufallsprozesse sind. Damit sind die in den Daten unseres Samples vorhandenen Informationen zwar geschrumpft, sie stellen aber nach wie vor eine repräsentative Zufallsauswahl der Grundgesamtheit dar. Wann ist dies der Fall? Bspw. dürfen im Rahmen einer Befragung von Personen die fehlenden Angaben zum eigenen Einkommen weder von der Höhe des fehlenden Einkommens noch vom (beobachteten) Alter des Befragten oder anderen Variablen – wie Geschlecht, Familienstand, Bildungsabschluss usw. – abhängig sein. Ein weiteres Beispiel hierfür ist, dass die Frage nach einer möglichen Ausbildung vor der Aufnahme eines Studiums nur davon abhängt, ob der befragte Studienanfänger am Befragungstag ausgeschlafen hatte oder nicht. Dies dürfte für das inhaltliche Problem des Zusammenhangs von Hochschulzugangsberechtigungsnote und Studienabschlussnote irrelevant sein. Ursachen für solche zufälligen Lücken in den Daten sind bei Umfragen bspw., dass fehlende Werte bei einigen Variablen nur auftreten, weil die Software für die Onlineumfrage völlig unsystematisch die Abspeicherung dieser Antworten verweigert hat. Zusammenfassend existieren also zwei Gruppen von Beobachtungen: eine erste Gruppe mit kompletten Werten für alle Variablen und eine zweite Gruppe, bei der eine oder mehrere Daten (bei einer oder mehreren Variablen) nicht vorhanden sind. Wenn Beobachtungen mit fehlenden Werten nicht zufällig auftreten, sondern sich systematisch von Beobachtungen mit vollständigen Daten unterscheiden, können die Regressionsschätzungen falsche Ergebnisse liefern. Um zu prüfen, ob MCAR vorliegt, untersuchen wir, inwieweit sich die Beobachtungen der beiden Gruppen mit fehlenden und kompletten Werten unterscheiden. Das heißt, hat Es handelt sich um einen realen Datensatz der Bachelor-Absolventen im Fach Betriebswirtschaft der EAH Jena. 6 Für die nicht beobachteten sonstigen Variablen gilt dies ebenfalls. Bei einer reinen Zufallsauswahl – einem RCT – sind die Variablen im Datensatz unabhängig von anderen möglichen Einflussfaktoren (siehe Kap. 1). 5
302
5 Fehlende Datenwerte/Missing Values
eine der anderen Variablen einen systematischen Einfluss auf die Existenz fehlender Werte? Dazu bilden wir eine Dummyvariable für die beiden Gruppen: Alle Beobachtungen mit fehlenden Werten bei einer Variablen (bspw. X1 = Ausbildung) erhalten eine „1“ (für „Missing“) und alle mit vollständigen Daten ein „0“ (für „Not Missing“). Diese neue Variable zeigt an, wenn ein fehlender Datenwert vorliegt und wird daher als Indikatorvariable bezeichnet. Anschließend testen wir, ob sich diese beiden Gruppen im Hinblick auf die anderen Variablen (Y, X2, X3 usw.) unterscheiden. Die Frage ist also, ob fehlende Werte zur Ausbildung signifikant häufiger bei Frauen als bei Männern (oder bei Abiturienten als bei Studierenden mit anderen Hochschulzugangsberechtigungen) zu verzeichnen sind. Dies bezieht sich nicht (!) darauf, dass die Antwort „keine Ausbildung vor dem Studium“ bei Abiturienten häufiger auftritt als bei Studierenden mit einer anderen Form der Hochschulzugangsberechtigung. Hier geht es vielmehr um den Unterschied zwischen fehlenden und kompletten Werten. Bei Letzteren ist es egal, ob eine Ausbildung vorliegt oder nicht: Beide Arten von Antworten werden, wenn sie existieren, mit „0“ kodiert. Sind bspw. die Mittelwerte (Erwartungswerte) der Noten der Hochschulzugangsberechtigung zwischen beiden Gruppen signifikant unterschiedlich? Oder: Ist der Anteil der Frauen, bei denen Daten zur Ausbildung fehlen, signifikant höher (bzw. kleiner) als bei den Männern? Im ersten Fall liegt eine metrische Skalierung vor, und wir prüfen den möglichen Mittelwertunterschied anhand eines t-Tests für unabhängige Stichproben. Im zweiten Fall einer nominalskalierten Variablen ist ein Chi2-Test verwendbar. Beides sind sogenannte lokale MCAR-Tests. Finden wir signifikante Zusammenhänge, wird die Nullhypothese „kein Unterschied“ abgelehnt. Dies bedeutet, dass die MCAR-Bedingung nicht erfüllt ist. Statt einzelner paarweiser Tests lässt sich eleganter eine logistische Regression (Logitbzw. Probit-Regression) durchführen. Existieren bspw. bei der Variable X1 fehlende Werte, bilden wir – wie oben beschrieben – eine neue Indikatorvariable (d. h. Dummyvariable). Anschließend benutzen wir diese neue Indikatorvariable als abhängige Variable und überprüfen, ob eine der anderen Variablen (Y, X2, X3 usw.) einen signifikanten Einfluss auf die Wahrscheinlichkeit der Missingness besitzt. Ist dies der Fall, liegt die MCAR-Bedingung nicht vor. Ist keine der unabhängigen Variablen signifikant – also von 0 verschieden –, können wir die Annahme MCAR beibehalten. Sind bei mehreren Variablen fehlende Werte vorhanden, muss entsprechend für jede der betroffenen Variablen eine solche logistische Regression durchgeführt werden. Unter Umständen treten dann aber zwei Schwierigkeiten auf. Erstens gibt es evtl. exogene Variable (bspw. X2 und auch noch andere), die ebenfalls viele fehlende Werte besitzen. Ihre Verwendung als exogene Variable in der logistischen Regression führt daher zu einem starken Schrumpfen der Datenbasis und folglich geringerer Teststärke. Zum Teil wird empfohlen, solche Variablen, die selbst eine hohe Zahl fehlender Werte besitzen, nicht als exogene Variable in der logistischen Regression zu verwenden. Zweitens besitzen wir dann mehrere logistische Regressionen mit unter Umständen unterschiedlichen Ergebnissen. Es liegt aber bisher kein formaler Test vor, der ein zusammenfassendes Urteil
5.3 Formen von Missing Values
303
hinsichtlich der MCAR-Bedingung für den gesamten Datensatz erlaubt (SSCC 2017, S. 2–3; Urban und Mayerl 2018, S. 450–453). Als weiteren globalen Test auf Vorliegen der MCAR-Bedingung wird ein von Little entwickeltes Testverfahren herangezogen (Little’s Test). Allerdings basiert er auf der Analyse von Mittelwerten metrisch skalierter Variablen. Damit ist Little’s Test für nominalskalierte Variablen nicht verwendbar. Auch bei ihm lautet die Nullhypothese „keine Zusammenhänge vorhanden“, so dass wir von MCAR nur ausgehen können, wenn er nicht signifikant ist. Wenn die MCAR-Bedingung nicht erfüllt ist, existieren Zusammenhänge unserer Variablen mit der Indikatorvariablen für Missing. Dies ist der Ansatzpunkt der MAR-Situation.
5.3.3 Missing at Random Die Annahme Missing at Random (MAR) besagt, dass die fehlenden Datenwerte einer Variablen X1 von anderen Variablen im vorliegenden Datensatz abhängig sind (bspw. Y, X2 oder X3). Die Indikatorvariable für Missingness (bei unserer Variablen X1) wird aber – nachdem wir die Zusammenhänge mit Y, X2, X3 usw. kontrolliert haben – nicht mehr von X1 selber beeinflusst. Der Ausdruck „Missing at Random“ ist insoweit irreführend. Treffender wäre die Bezeichnung „bedingt zufällig“ (Conditionally Random), weil die Lücken erst nach Berücksichtigung des Einflusses dieser anderen Variablen zufällig fehlen (Graham et al. 2003, S. 89). Ein häufig angeführtes Beispiel sind fehlende Angaben zum Einkommen. Diese werden bspw. vom Alter beeinflusst, da ältere Menschen bei der Preisgabe persönlicher Informationen zurückhaltender sind. Was wir berücksichtigen müssen und können, ist das Alter, da wir Daten zum Alter haben. Wir kontrollieren den Einfluss des Alters auf die Neigung, die Frage nach dem Einkommen zu beantworten. Danach sollten die fehlenden Werte zum Einkommen für ein gegebenes Alter nicht mehr von der Höhe des Einkommens abhängen – etwa weil Bezieher sehr hoher Einkommen auch bei einem gegebenen Alter (oder leichter nachvollziehbar: innerhalb einer bestimmten Altersklasse) häufiger die Antwort auf diese Frage verweigern. In unserem Hochschulbeispiel fehlen etwa bei der endogenen Variablen „Abschlussnote des Studiums“ Werte, weil diese Frage nicht beantwortet wurde. Diese Lücke korreliert bspw. damit, dass ein Studienanfänger eine Frau ist und wie alt der Befragte bei Studienbeginn war: Frauen und ältere Studienanfänger haben systematisch die Antwort auf diese Frage verweigert. Wir berücksichtigen dies, indem wir die Variablen Alter und Geschlecht in unsere Regression als Kontrollvariablen aufnehmen. Dies führt dazu, dass die beobachteten Werte der Abschlussnote nur noch zufällig fehlen. Die MAR-Voraussetzung ist weniger restriktiv als die MCAR-Bedingung und daher in der praktischen Anwendung eher erfüllt. Wenn MCAR gilt, liegt automatisch auch die MAR-Bedingung vor. Ist MAR gegeben, können die fehlenden Werte auf der Grundlage der
304
5 Fehlende Datenwerte/Missing Values
in den anderen Variablen enthaltenen Informationen geschätzt werden. Dies ist umso eher der Fall, je mehr komplette Beobachtungen und Variablen mit hoher Prognosekraft zur Identifizierung von fehlenden Werten in unserem Datensatz vorhanden sind. Liegt MCAR oder MAR vor, wird dies zusammenfassend auch als Ignorierbarkeit (Ignorability) bezeichnet.
5.3.4 Missing Not at Random Wenn die fehlenden Werte nicht die MAR-Voraussetzung erfüllen, ist natürlich auch die MCAR nicht vorhanden. Die fehlenden Datenwerte hängen auch nach Berücksichtigung des Einflusses aller beobachteten Variablen immer noch von den fehlenden Werten genau dieser Variablen (also sozusagen von sich selbst) ab. Dann liegt Missing Not at Random (MNR) – auch als MNAR oder NMAR abgekürzt – vor. Ein Beispiel wurde bereits genannt: Die Lücken der Angaben zum Einkommen sind abhängig von der Höhe des Einkommens, und zwar auch bei gleichem beobachtetem Alter der Befragten (und ggf. anderen beobachteten Variablen wie Geschlecht, Familienstand oder Bildungsabschluss). Dies etwa, weil Befragte mit einem hohen Einkommen systematisch und unabhängig von anderen Variablen, die wir beobachten, nicht bereit waren, auf diese Frage zu antworten. Im Hochschulbeispiel wurde die Frage zur Ausbildung von vielen Studierenden tatsächlich nicht beantwortet. In diesem Fall wäre MNR gegeben, wenn Absolventen mit Ausbildung deutlich eher die Antwort auf diese Frage verweigert hätten. Die Existenz von MNR ist statistisch nicht überprüfbar, da wir ja nur über Informationen zu den beobachteten Werten verfügen. Sie kann nur einer kritischen Einschätzung aufgrund inhaltlicher Überlegungen und Erkenntnissen aus der Literatur unterzogen werden. Liegt ein MNR vor, ist keines der im Folgenden näher erörterten Verfahren verwendbar. Zusammenfassend gilt, dass man nicht in der Lage ist zu unterscheiden, inwieweit MAR oder MNR vorliegt. Testen können wir lediglich, ob unsere Daten die MCAR- Eigenschaft aufweisen oder nicht. Ist MCAR nicht gegeben, müssen wir die Abhängigkeit der fehlenden Daten von anderen Variablen in die Modellspezifikation einbeziehen und so kontrollieren. Dieses Vorgehen basiert auf der Annahme, dass MNR nicht vorliegt.
5.4
Umgang mit fehlenden Daten
Von den recht zahlreichen Verfahren, bei MCAR und MAR mit fehlenden Datenwerten umzugehen, werden hier nur die drei wichtigsten beschrieben. Es handelt sich um die Listwise Deletion, eine Imputationsmethode – nämlich die multiple Imputation – sowie die Full-Information-Maximum-Likelihood Methode.7 Die Mittelwertimputation wird nur zu Vergleichszwecken behandelt. Weitere Verfahren sind bspw.: Paarweiser Ausschluss, Hot-Deck-Methode, einfache und stochastische Regressionsimputation, EM (Expectation Maximization)-Schätzung, Just-Another-Variable (Dummy-Variable-Adjustment)-Ansatz. Alle diese Methoden sind den drei oben genannten unterlegen.
7
5.4 Umgang mit fehlenden Daten
305
5.4.1 Fallweiser Ausschluss (Listwise Deletion) Bei der Listwise Deletion (Complete Case Analysis, fallweiser Ausschluss) werden alle Beobachtungen, für die mindestens bei einer Variablen ein Wert fehlt, aus der Stichprobe ausgeschlossen. Da bei mehreren oder sogar vielen unabhängigen Variablen verschiedene Daten fehlen können, führt das Verfahren unter Umständen zu einer (sehr) starken Verringerung der Zahl der Beobachtungen, auf der die Schätzungen der Koeffizienten basieren. Ist MCAR nicht gegeben, sind die Koeffizientenschätzungen (möglicherweise) verzerrt. Liegt dagegen MCAR vor, sind die Schätzungen der Koeffizienten einer Regression auf der Basis eines solchen Datensatzes mit fehlenden Datenwerten unverzerrt (weisen also keinen Bias auf). Allerdings sind die Schätzungen nicht mehr effizient. Die Standardfehler werden aufgrund der verkleinerten Beobachtungszahl tendenziell größer sein. Dies bedeutet, dass wir die Nullhypothese (Variable hat keinen Einfluss, also Koeffizient ist nicht von 0 verschieden) eher nicht ablehnen. Damit wird ein möglicher in der Grundgesamtheit existierender Einfluss ggf. nicht entdeckt. Anders formuliert, nimmt die Teststärke (Power) ab. In bestimmten Konstellationen führt die Listwise Deletion aber auch bei MAR und sogar MNAR zu konsistenten Koeffizientenschätzungen und ist insoweit ein akzeptables Verfahren (Baltes-Götz 2013, S. 22–23; Urban und Mayerl 2018, S. 455–460).8 Bei einer linearen Regression ist dies erstens der Fall, wenn nur Daten der abhängigen Variable fehlen und die MAR-Voraussetzung vorliegt. Zweitens gilt dies bei fehlenden Daten der exogenen Variablen, wenn deren Missing Values nicht von der endogenen Variablen abhängig sind, bzw. nur von den anderen exogenen Variablen (Covariates) abhängen. Dann ist der fallweise Ausschluss sogar unempfindlich bezüglich Verletzungen der MAR- Bedingung – also in der MNAR-Situation verwendbar (Carpenter und Kenward 2013, S. 21 und 34–35; Baltes-Götz 2013, S. 25; Allison 2002, S. 6–7). Es bleibt allerdings die Einschränkung, dass die Schätzung ineffizient ist. Die Listwise Deletion ist die Voreinstellung der gängigen Regressionssoftware, bspw. gehen SPSS und Stata auf diese Weise mit fehlenden Datenwerten um. Für dieses Verfahren spricht in erster Linie seine Einfachheit. Bei welcher Anzahl fehlender Werte dies zu Problemen führt, wird in der Literatur sehr unterschiedlich beurteilt. Zum Teil gilt die Elimination von mehr als 5 % der Beobachtungen aufgrund von Missing Values als Grenze, bis zu der der Wegfall unproblematisch ist. Die Verzerrungen aufgrund der Elimination von weniger als 5 % der Beobachtungen werden als unbedeutend angesehen (IBM SPSS 20, S. 1). Verschiedene Autoren unterstreichen darüber hinaus, dass die Listwise Deletion auch bei höheren Ausfallquoten häufig zu belastbaren Resultaten führt – insbesondere angesichts der kritischen Aspekte anderer Verfahren (Williams 2018; Urban und Mayerl 2018, S. 441).
8
Zur Konsistenz und Effizienz von Koeffizientenschätzungen siehe Stoetzer (2017, S. 135).
306
5 Fehlende Datenwerte/Missing Values
Andererseits bleibt ein wichtiger Vorbehalt gegen die Methode des fallweisen Ausschlusses der (ggf. starke) Rückgang der für die Regression verwendeten Beobachtungen. Den damit verbundenen Verlust der in ihnen enthaltenen Informationen vermeiden andere Verfahren.
5.4.2 Imputationsmethoden Im Rahmen der einfachen Mittelwertimputation berechnet die Software den Mittelwert der Variablen über alle vorhandenen Datenwerte und verwendet diesen berechneten Wert überall dort, wo Missing Values vorliegen. Dies verringert aber die Streuung der Residuen, da ja alle fehlenden Werte jetzt durch einen einzigen einheitlichen Datenwert ersetzt werden. Der tatsächliche Standardfehler wird also zu gering ausgewiesen. Die Unsicherheit, die bei der Imputation existiert – der von uns eingesetzte Mittelwert ist ja nur eine Schätzung – wird ignoriert.9 Abb. 5.1 verdeutlicht dies anhand einer einfachen linearen Regression mit einer abhängigen Variablen Y und einer unabhängigen Variablen X1. Die schwarzen Punkte sind die Beobachtungen, für die komplette Daten existieren. Ihre Analyse zeigt einen klaren negativen Zusammenhang von X1 und Y. Die lineare Regression besitzt einen negativen Koeffizienten b1: Y = b0 – b1X1 + e. Für eine größere Zahl von Beobachtungen fehlen die Daten der Variable X1. Eine Mittelwertimputation für X1 hat zur Folge, dass diese als eingezeichY
XM
X1
Abb. 5.1 Mittelwertimputation bei einfacher Regression I
Gleiches betrifft die Imputation mittels einer Regression (linear, logistisch usw.). Diese Methoden setzen genau einen Wert ein und firmieren daher als „Simple Imputation Methods“ (im Unterschied zur multiplen Imputation).
9
5.4 Umgang mit fehlenden Daten
307
nete Kreise hinzukommen: Für alle Werte von Y befinden sich die imputierten Werte von X1 bei dessen Mittelwert XM. Die Varianz von X1 verringert sich dadurch erheblich, denn die imputierten Werte von X1 besitzen überhaupt keine Streuung. Die tatsächliche Streuung wird also bei dieser Mittelwertimputation erheblich unterschätzt. Die Standardfehler sind daher zu klein und folglich die t-Werte zu groß. Dies hat zur Folge, dass die Nullhypothese eher abgelehnt wird, obwohl X1 keinen Einfluss besitzt. Abb. 5.2 illustriert dieselbe Situation bei einer Mittelwertimputation nur der abhängigen Variablen Y. Die imputierten Mittelwerte von Y sind als Sterne abgebildet. Werden sie in die Regression aufgenommen, verringert sich der negative Einfluss von X1 auf Y im Vergleich zum Zusammenhang für die kompletten Daten deutlich. Es resultiert eine Verzerrung (Bias) der Koeffizientenschätzung. Der tatsächliche Einfluss wird unterschätzt (Enders 2010, S. 43). Darüber hinaus kann der Determinationskoeffizient bei diesem Verfahren künstlich erhöht (oder auch verringert) sein. Die Probleme entstehen auch bei Vorliegen der MCAR-Bedingung. Das Verfahren der Mittelwertimputation ist aus diesen Gründen immer ungeeignet und wird hier nur zur Illustration behandelt (Williams 2015, S. 4; Baltes-Götz 2013, S. 29–31; Spieß 2008, S. 17 und 22). Die Multiple Imputation besteht aus drei Schritten. Erstens werden im Imputationsschritt zur Vervollständigung der fehlenden Daten Regressionsmodelle spezifiziert. Die Variable mit den fehlenden Daten ist dabei die abhängige Variable, und alle anderen Variablen dienen als exogene Variable, das heißt Prädiktoren. Die ermittelten Koeffizientenschätzungen erlauben es dann, die fehlenden Werte zu schätzen. Dabei wird berücksichtigt, dass diese ja nur Schätzungen und also mit einer gewissen Unsicherheit behaftet sind. Dies geschieht, indem aus der Verteilung der Koeffizientenschätzungen zufällig mehrere Y
YM
X1
Abb. 5.2 Mittelwertimputation bei einfacher Regression II
308
5 Fehlende Datenwerte/Missing Values
(bspw. 20) ausgesucht werden. Im Ergebnis hat man also nicht eine Regressionsgleichung mit ihren Regressionskoeffizienten, sondern 20. Auf dieser Basis werden dann 20 komplette Datensätze ermittelt. Für die Regressionsgleichungen, die wir zum Zweck der Imputation aufstellen, gilt, dass alle Variablen – einschließlich der abhängigen Variablen – als exogene Variable aufzunehmen sind. Wir berücksichtigen auf der rechten Seite dieser Regressionsgleichungen also alle Variablen, die wir verwendet hätten, wenn der Datensatz von vornherein komplett gewesen wäre (d. h. genau die, die man im unten beschriebenen dritten Schritt einbezieht). Dies gilt auch für transformierte Variable und Interaktionseffekte. Da die fehlenden Datenwerte geschätzt werden, können unmögliche oder unplausible Imputationswerte resultieren (bspw. negative Kosten oder prozentuale Anteile, die sich zu mehr als 100 % aufsummieren). Dies sollte überprüft werden, und ggf. sind geeignete Restriktionen für die Wertebereiche der Imputationen festzulegen. Soweit vorhanden, können auch sogenannte Hilfsvariablen eingesetzt werden. Geeignete Hilfsvariablen erklären das Auftreten fehlender Werte. Ihre Verwendung im Imputationsmodell erhöht daher die Wahrscheinlichkeit, dass die MAR-Bedingung gegeben ist. Sie werden aber im Analysemodell nicht als exogene Variable verwendet. Die jeweilige Imputationsmethode hängt vom Skalenniveau der betreffenden Variablen (bzw. fehlenden Werte) ab. Für Missing Values mit metrischem Skalenniveau basiert die Imputation auf einer linearen Regression, bei nominalem Skalenniveau auf der logistischen Regression (d. h. einer Logit- oder Probitanalyse), bei ordinalem Skalenniveau auf der Ordered-Logit-Regression und für Missings bei nominal skalierten Variablen mit mehr als zwei Kategorien zieht man die Multinomial Logistic Regression heran. Van Buuren (2018) beschreibt die Auswahl der jeweils geeigneten Imputationsverfahren genauer. Im zweiten Schritt (der Analyse) geht man genauso vor, als wäre ein kompletter Datensatz ohne Missing Values vorhanden. Das heißt, man spezifiziert exakt die Regression, die man von Anfang an auf dem kompletten Datensatz durchführen wollte. Da aber 20 solcher Datensätze mit imputierten Werten existieren, wird nun mit jedem Datensatz diese Regression durchgeführt. Es resultieren also 20 Koeffizientenschätzungen (und 20 Standardfehler) für jede der unabhängigen Variablen. Der dritte Schritt (das sogenannte Pooling) fasst die 20 Regressionsergebnisse zusammen. Dies erfolgt nach Vorgaben, die man als „Rubins Regeln“ bezeichnet. Dabei werden die 20 Koeffizientenschätzungen und Standardfehler prinzipiell gemittelt (bei Letzteren ist das komplexer). Das Ergebnis sind die Koeffizientenschätzungen der multiplen Imputation (einschließlich ihrer Standardfehler). Hinsichtlich des Gesamtmodells gibt es aber bisher keine akzeptierten Verfahren, um den Determinationskoeffizient zu ermitteln und den globalen F-Test durchzuführen. Diese sind bei der multiplen Imputation also – in Abhängigkeit von der eingesetzten Software – unter Umständen nicht vorhanden. Die Ergebnisse der Parameterschätzungen einer multiplen Imputation sind – im Unterschied zum fallweisen Ausschluss bzw. zur Mittelwertimputation – konsistent und asymp totisch effizient.
5.4 Umgang mit fehlenden Daten
309
Das gesamte Verfahren ist recht aufwendig und praktisch nur realisierbar, wenn in der Statistiksoftware die drei Schritte (weitgehend) automatisiert durchführbar sind. SPSS und Stata verfügen über entsprechende Prozeduren. Aber auch bei Verwendung der Softwareroutinen ist im Fall komplexer Strukturen der Missings zu überprüfen, ob die eingesetzte iterative Methode konvergiert hat.10 Dies wird hier nicht weiter behandelt. Eine weitere Schwierigkeit ist, dass die Zahl der durchzuführenden Imputationen nicht klar ableitbar ist. Die Zahl der Imputationen wird in der Literatur als M bezeichnet. Nach Rubin (1996), der die multiple Imputation entwickelt hat, kann M = 5 ausreichen. Aber auch eine Zahl von M = 20 wird empfohlen (Williams 2018; Urban und Mayerl 2018, S. 467), zum Teil allerdings als Untergrenze (Enders 2010, S. 214; Stata 15 2017a, S. 5). White et al. (2011, S. 388) schlagen folgende Faustregel vor: Die Zahl der Imputationen sollte mindestens so groß sein wie der Anteil der nicht kompletten Beobachtungen. Das heißt, wenn – wie in unserem Pkw-Beispiel der Tab. 5.1 – die fehlenden Beobachtungen 33 % ausmachen, führen wir mindestens 33 Imputationen durch. Pragmatisch in unserem Fall 40 Imputationen. Ein größeres M ist auf jeden Fall besser als eine zu geringe Zahl von Imputationen. Und die Rechenzeit, die dazu notwendig ist, spielt im Allgemeinen keine (große) Rolle mehr. Allerdings gehören Multiple Imputationen von großen Datensätzen mit vielen Variablen, komplexen Strukturen von Missing Values und einer hohen Zahl von Imputationen zu den Verfahren, die auch heute noch längere Verarbeitungszeiten der Computer benötigen. Ist M festgelegt, werden die M Koeffizienten zufällig aus ihrer wahrscheinlichen Verteilung ausgesucht. Es muss also eine Zufallsauswahl stattfinden. Dazu existieren in der Statistiksoftware geeignete Verfahren, die auf der Grundlage eines vorgegebenen Ausgangswertes eine solche Zufallsauswahl gewährleisten. Dies impliziert aber, dass jede multiple Imputation etwas andere Ergebnisse ermittelt. In der Wissenschaft ist die Reproduzierbarkeit der Ergebnisse fundamental. Damit dies bei der Zufallsauswahl möglich ist, 10 Die konkrete Durchführung ist nur einfach, wenn lediglich bei einer einzigen Variable fehlende Werte vorliegen. Dies war oben unterstellt worden. In der Regel gibt es aber Missing Values bei mehreren oder sogar vielen Variablen und ggf. recht vielen Beobachtungen. Wenn bei verschiedenen Variablen Daten fehlen, und dies mit komplexen Strukturen über die Beobachtungen hinweg, stellt sich die Frage, wie man bei der Imputation vorgehen soll. Eine Antwort ist, dass die fehlenden Daten bei allen Variablen simultan geschätzt werden sollten. Darüber hinaus ist die Struktur des Modells ggf. komplizierter als eine einfache lineare Regression (bspw. hierarchische geschachtelte Modelle (Mehrebenenanalysen) und autokorrelierte Zeitreihen- oder Paneldaten). Schließlich muss die Zufallskomponente in die Schätzung integriert werden. Bisher gibt es dazu keine Regressionsverfahren, die sämtliche Informationen benutzen. Zur Lösung dieser Probleme existieren nur verschiedene iterative Algorithmen, vor allem die MCMC – Markov-Chain-Monte-Carlo-Technik – und die FCS – Fully Condition Specification –, auch als MICE – Multiple Imputation Chained Equations – bezeichnet. Deren Berechnungen müssen mittels iterativer Verfahren gelöst werden, was ggf. mit weiteren mathematischen Problemen verbunden ist. Unter Umständen führen die Iterationen nicht zu einer eindeutigen Lösung (der sogenannten Konvergenz). Ausführliche Darstellungen dazu geben Allison (2002); Enders (2010); Baltes-Götz (2013); SSCC (2017) und Stata 15 (2017a). Allison (2012) vermittelt einen kurzen verständlichen Überblick.
310
5 Fehlende Datenwerte/Missing Values
sollte der Ausgangswert, der vom User gesetzt wird, dokumentiert werden. Schließlich setzt auch die multiple Imputation voraus, dass die MAR-Bedingung erfüllt ist.
5.4.3 Maximum-Likelihood-Verfahren Die Full-Information-Maximum-Likelihood Methode (FIML) führt keine Schätzung der fehlenden Datenwerte durch. Stattdessen verwendet sie alle Informationen sämtlicher Datenwerte, die in unserem Datensatz vorhanden sind, um auf dieser Grundlage simultan die Koeffizientenwerte und Standardfehler der Regressionsgleichung zu schätzen. Das heißt, die FIML-Methode ermittelt die Parameter (die Koeffizienten und die Varianz- Kovarianz-Matrix) so, dass die Wahrscheinlichkeit, die Datenwerte zu erhalten, die uns vorliegen (die in unserer Stichprobe vorhanden sind), maximiert wird. Anhang I erläutert das Vorgehen der Maximum-Likelihood-Schätzung der FIML-Methode. Auch das FIML-Verfahren setzt die MAR-Bedingung voraus. Bei bestimmten Berechnungsverfahren basiert es außerdem auf der Annahme der multivariaten Normalverteilung. Wie bei der multiplen Imputation sind die Parameterschätzungen konsistent und asymp totisch effizient. Im Vergleich zur multiplen Imputation weist es zusätzliche Vorteile auf. Es führt zu einem eindeutigen Schätzergebnis für die Koeffizienten und Standardfehler, und es sind bei der Durchführung keine Entscheidungen hinsichtlich der Zahl der Imputationen zu fällen. Es ist insoweit einfacher und transparenter handhabbar als die Multiple Imputation. Andererseits sind FIML-Schätzungen aber in SPSS und Stata nur im Rahmen der Schätzung von Strukturgleichungsmodellen verfügbar. Deren Anwendung ist komplexer als die gängigen Regressionsverfahren. Dies wird im Abschn. 5.6 zur Durchführung in SPSS und Stata deutlich.
5.5
Zusammenfassung
Der beste Ausgangspunkt einer Regression besteht darin, einen kompletten Datensatz zu besitzen. Fehlende Werte sind bei einer eigenen empirischen Untersuchung durch das Fragebogendesign, Anreize für die Befragten, alle Items zu beantworten und ggf. Nachfassaktionen und Nacherhebungen möglichst gering zu halten. Hier existiert allerdings ein Trade- off zwischen der Vollständigkeit der Daten einerseits und der Qualität der erhobenen Informationen andererseits. Wie bereits erwähnt, werden bspw. Fragen zur genauen Höhe des eigenen Einkommens in Deutschland ungern beantwortet. Um möglichst komplette Antworten zu erhalten, verzichtet man auf die Angabe der genauen Höhe und bildet Klassen, die lediglich angekreuzt werden müssen (bspw. 6000 Euro pro Monat). Die Daten sind damit aber sehr „schwammig“, insbesondere in der höchsten Einkommensklasse. Auch Nachfassaktionen führen unter Umständen zwar zu mehr Antworten, die aber vor allem gegeben wurden, um die lästige Umfrage loszuwerden – mit entsprechend falschen oder dubiosen Antworten. Solche kompletten Datensätze mit vielen falschen Werten führen ihrerseits zu inhaltlich sinnfreien Ergebnissen.
5.5 Zusammenfassung
311
Wenn fehlende Daten existieren, stellt sich die Frage des geeigneten Umgangs mit diesem Problem. Erste Regel bei Missing Values ist es, diese nicht unter den Tisch zu kehren. Bei eigenen Umfragen oder Kompilationen von Daten aus verschiedenen Quellen also nicht so zu tun, als wäre der vorhandene Datensatz identisch mit dem Rücklauf oder gar dem Sample. Ausfälle von Daten sind offenzulegen und mögliche Ursachen unter inhaltlichen Aspekten zu bewerten. Zweitens sollten Beobachtungen mit zu wenig Datenwerten ausgeschlossen werden. In Abb. 5.1 oben fehlen bei der Region 7 zwei von insgesamt 4 Datenwerten – nämlich für Kontakte und Absatzmenge. Dies ist grenzwertig. Würde auch noch für die Variable Preis in der Region 7 kein Wert vorhanden sein, sollte diese Region aus der Stichprobe eliminiert werden (Datenbereinigung). Drittens genügen von den vorgestellten Verfahren nur drei den heute üblichen methodischen Ansprüchen: die Listwise Deletion, die multiple Imputation und die FIML-Methode. Alle anderen Verfahren weisen fundamentale Mängel auf und kommen nicht in Frage. Tab. 5.2 stellt diese drei Methoden im Überblick dar. Viertens sind Multiple Imputationen bei Variablen nur sinnvoll, wenn die Zahl der fehlenden Werte bei diesen maximal 40–50 % ausmacht (siehe SSCC 2017, S. 3). Allerdings sind nach Allison (2002, S. 50) auch mit 40 % fehlender Daten bei einer Variablen noch verlässliche Resultate erzielbar. Zusammenfassend ist offenzulegen, wie man bei der Analyse eines Datenfiles mit fehlenden Werten umgegangen ist – also welches Verfahren man gewählt hat. In diesem Zusammenhang sind außerdem folgende Aspekte zu erläutern: • Art der Überprüfung der MCAR-Bedingung und deren Ergebnis • Entscheidung und Begründung für ein bestimmtes Imputationsverfahren • Erläuterung des gewählten konkreten Vorgehens bei multipler Imputation und FIML
Tab. 5.2 Die relevanten Verfahren im Vergleich Verfahren Fallweiser Ausschluss
Voraussetzung MCAR (u. U. bei linearer/ logistischer Regression nur MAR oder sogar MNR)
Multiple Imputation
MAR
FIML
MAR (u. U. Multivariate Normalverteilung)
Eigenschaften Konsistente Koeffizienten; Korrekte Standardfehler Konsistente Koeffizienten; Korrekte Standardfehler
Konsistente Koeffizienten; Korrekte Standardfehler
Bemerkungen Informationsverlust; Default-Einstellung bei SPSS und Stata Kein Informationsverlust; in SPSS und Stata vorhanden; Ergebnisse variieren; bestimmte statistische Verfahren nicht möglich Kein Informationsverlust; Stata: SEM SPSS: AMOS; ein einziges Ergebnis für die Koeffizienten und die Standardfehler
312
5 Fehlende Datenwerte/Missing Values
In der praktischen Anwendung sollte die Robustheit der Ergebnisse abgeschätzt – also eine Sensitivitätsanalyse durchgeführt werden – da Verletzungen der MCAR bzw. der MAR-Bedingungen ggf. erheblich verzerrte Schätzresultate zur Folge haben (Lehmann 2005, S. 133–160). Empfehlenswert ist es, die Ergebnisse unterschiedlicher Verfahren zu vergleichen (Williams 2018; van Buuren 2018, S. 253). Dabei ist die Listwise Deletion ein naheliegender Ausgangspunkt. Deren Ergebnisse werden dann den Resultaten der Multiplen Imputation und des FIML-Verfahrens gegenübergestellt. Sind die Koeffizientenschätzungen sehr ähnlich und Abweichungen nur im Hinblick auf die höhere Signifikanz bestimmter exogener Variablen feststellbar, spricht dies für die Robustheit der Schätzungen. Die Schlussfolgerungen auf der Basis der FIML-Methode werden dabei als besonders vertrauenswürdig und auch der Multiplen Imputation überlegen angesehen (Urban und Mayerl 2018, S. 439 Fußnote 115; Allison 2012, S. 5–7; Enders 2010, S. 87). Es bleibt die Frage, wie das Problem MNR zu behandeln ist. Vor allem in der Ökonometrie wird häufig ein weiteres Verfahren eingesetzt, um dem Problem der Unit-Non- Response zu begegnen. Systematisch fehlende Daten (Item-Non-Response) können als eine Form von fehlenden Beobachtungen (Unit-Non-Response) aufgefasst werden. Die im ersten Kapitel bereits beschriebene Selbstselektion (Self-Selection) führt zu fehlenden Beobachtungen, die sich systematisch von den vorhandenen Beobachtungen unterscheiden. In solchen Situationen dienen bspw. Sample-Selection-Methoden dazu, mögliche MNR-Mechanismen zu modellieren und so ihren Einfluss auf die Schätzergebnisse zu beseitigen. Dies gilt auch für Missing Data. Allerdings führen diese Ansätze ggf. zu schlechteren Resultaten als die hier behandelten Verfahren. Erläuterungen dazu finden sich bei Enders (2010, S. 287–328) und Allison (2002, S. 79–81). Einig ist sich die Literatur darin, dass bei (vermuteter) MNR unbedingt eine Sensitivitätsanalyse durchgeführt werden soll. Diese besteht darin, die Schätzergebnisse unterschiedlicher Methoden miteinander zu vergleichen. Die Standardlehrbücher von Allison (2002, 2010), Enders (2010) und Graham (2012) sowie Little und Rubin (2014) behandeln die genannten und eine Reihe weiterer Verfahren und Aspekte in umfassender Weise. Williams (2015) vermittelt einen kurzen und leicht verständlichen Überblick. Einen Abriss auf Deutsch enthält Spiess (2008). Zu den Verfahren der multiplen Imputation geben Carpenter und Kenward (2013), Laaksonen (2018) und van Buuren (2018) vertiefende Einblicke. Speziell auf Probleme von Missing Values ausgerichtet ist die Website www.iriseekhout.com.
5.6
Durchführung in SPSS und Stata
Die Kodierung fehlender Werte (System Missing Values) ist abhängig von der verwendeten Software. SPSS und Stata kodieren fehlende Werte als „.“. Sie verwenden also einen Punkt (Dot, Period), um diese zu kennzeichnen. Eine versehentliche Verwendung solcher fehlender Werte bei unseren Regressionsschätzungen droht nicht, da damit keinerlei mathematische Operationen durchführbar sind. Anders ist dies bei den oben erwähnten User
5.6 Durchführung in SPSS und Stata
313
Missing Values. In SPSS werden dafür gerne „999“ oder andere Zahlenfolgen, die nur aus Neunen bestehen, eingesetzt. Hier müssen wir darauf achten, solche Werte nicht unbeabsichtigt oder fälschlich als echte Daten einzustufen und bei Berechnungen von Koeffizienten zu verwenden. Insbesondere bei der Nutzung von Sekundärdaten muss immer überprüft werden, wie die Originalquelle Missing Values behandelt und kodiert hat. Andernfalls erhalten wir ggf. Nonsense-Resultate. Der im Folgenden verwendete reale Datensatz „Hochschulabschlussnoten_BW“ enthält Informationen zu 634 Absolventen des Bachelor-Studiengangs Business Administration der EAH Jena aus dem Zeitraum 2010 bis 2017. Die Abschlussnote des Studiums wird durch sechs exogene Variablen erklärt: weiblich (das Geschlecht), die Note der Hochschulzugangsberechtigung hzb_note, die Art der Hochschulzugangsberechtigung hzb_ gymnasium als Dummyvariable (Gymnasium = 1 oder andere Form = 0), das Alter bei der Immatrikulation (alter_immatrik), das Datum des Abschlusses des Studiums abschlussdatum (der Studierende mit dem ältesten Abschluss aus dem Jahr 2010 besitzt den normierten Wert 1) und das Vorliegen einer Berufsausbildung vor Aufnahme des Studiums (Dummyvariable ausbildung mit der Kodierung Berufsausbildung Ja = 1; Nein = 0). Abb. 5.26 weiter unten enthält eine deskriptive Beschreibung dieses Datensatzes. Für SPSS und Stata gilt, dass die folgenden Erläuterungen nur einen groben ersten Überblick der Vorgehensweise und der vorhandenen Möglichkeiten vermitteln. Zum Beispiel werden die Voraussetzungen der Tests auf MCAR sowie der Multiplen Imputation nicht weiter behandelt. Für diese Aspekte ist tiefer in die unten angeführte Literatur einzusteigen.11 SPSS Ausgangspunkt ist erstens eine Analyse, wie stark der Datensatz schrumpft, wenn wir alle Fälle mit fehlenden Werten aus der Regression ausschließen. Das heißt, wir ermitteln die sogenannte Missingquote. Zweitens sind die Strukturen der fehlenden Werte relevant. Wie viele Variablen besitzen komplette Daten und wie viele weisen fehlende Daten auf? Welche Beobachtungen zeichnen sich durch fehlende Werte bei mehreren oder sogar vielen Variablen aus? Die Prozedur „Multiple Imputation“ erlaubt es, die Struktur der Missing Values zu analysieren. Wir verwenden „Analysieren > Multiple Imputation > Muster analysieren“. Dort lassen wir alle Variablen des Datensatzes „Hochschulabschlussnoten_BW“ untersuchen. Bei „Minimaler Prozentsatz fehlend“ ändern wir die Default-Einstellung von „10“ auf „0,0“ (siehe Abb. 5.3). Auf diese Weise werden alle fehlenden Daten erfasst. Nach Klicken auf den Button „OK“ erhalten wir das in der Abb. 5.4 zu sehende Resultat. Der obere Teil illustriert in drei Kreisdiagrammen grundlegende Ergebnisse. Von den insgesamt 7 Variablen besitzen 6 Variablen komplette Daten. Von den insgesamt 634 Beobachtungen (Fällen) sind 260 von Datenausfällen betroffen – also 41 % aller Beobach-
Die Erläuterungen basieren auf der Version SPSS 25 und der Version Stata 15.
11
314
5 Fehlende Datenwerte/Missing Values
Abb. 5.3 Analyse fehlender Werte I
tungen. Von den insgesamt 4438 Datenwerten (634 Fälle × 7 Variablen) fehlen uns 260 (5,9 %). In der Tabelle im unteren Teil der Abb. 5.4 erkennen wir, dass bis auf die Variable ausbildung für alle Variablen komplette Datenwerte bei den insgesamt 634 Beobachtungen vorhanden sind. Das Ergebnis dieser Prozedur enthält noch weitere Darstellungen der Struktur der fehlenden Werte, die hier nicht erörtert werden. Die Struktur der Missing Values ist offensichtlich sehr einfach und der Umfang der fehlenden Informationen mit 5,9 % sehr gering (rechtes Kreisdiagramm). Sie bewirken aber ein erhebliches Schrumpfen der Zahl der kompletten Beobachtungen (d. h. Fälle) um 41 % (mittleres Kreisdiagramm). Alternativ kann man die Prozedur „Analyse fehlender Werte“ verwenden, die verschiedene Verfahren eröffnet. Über „Analysieren > Analyse fehlender Werte“ gelangen wir in das Fenster der Abb. 5.5 und untersuchen dort alle unsere Variablen. Die metrisch skalierten befördern wir in das Feld „Quantitative Variablen“ und die nominal skalierten in das Feld „Kategoriale Variablen“. Nach „OK“ erhalten wir die Ergebnisse. Dies nur in
5.6 Durchführung in SPSS und Stata
315
Abb. 5.4 Ergebnis der Analyse fehlender Werte
Tabellenform und daher weniger eingängig als über die Prozedur „Multiple Imputation > Muster analysieren“ (vgl. Abb. 5.3). Die Prozedur „Analyse fehlender Werte“ ermöglicht uns aber, die MCAR-Bedingung zu untersuchen, und dies ist der nächste Schritt unseres Vorgehens. Dazu existieren lokale und globale Tests. Im Folgenden werden zunächst lokale Tests und dann globale Verfahren vorgestellt. Im Fenster „Analyse fehlender Werte“ der Abb. 5.5 drücken wir rechts den Button „Deskriptive Statistik“ und setzen dann Häkchen wie in Abb. 5.6. Falls wir auch Variablen mit Missings in weniger als 5 % der Fälle einbeziehen wollen, lässt sich die Voreinstellung „5“ entsprechend verändern. Nach „Weiter“ und „OK“ folgt (unter anderem) der Output von Abb. 5.7. Für die vier metrisch skalierten Variablen unseres Datensatzes werden t-Tests auf Mittelwertunterschiede zwischen der Gruppe der kompletten Datenwerte und der fehlenden Datenwerte bei der Variable ausbildung durchgeführt. SPSS bildet dazu im Hintergrund eine Indikatorvariable mit dem Wert „1“ für fehlende Daten bei dieser Variablen und „0“ bei kompletten Daten. Der Mittelwert des Alters bei der Immatrikulation (alter_immatrik)
316
Abb. 5.5 Analyse fehlender Werte II
Abb. 5.6 Lokale Tests der MCAR-Bedingung
5 Fehlende Datenwerte/Missing Values
5.6 Durchführung in SPSS und Stata
317
Abb. 5.7 t-Tests für Mittelwertunterschiede metrischer Variablen
beträgt bei den kompletten Daten für ausbildung 21,19 Jahre und bei den Missing Values für ausbildung 21,94 Jahre (siehe Abb. 5.7, letzte rechte Spalte). Dieser Unterschied ist statistisch signifikant, denn der t-Wert des Vergleichs dieser beiden Mittelwerte liegt bei „−3,6“ und ist deutlich größer als unsere Daumenregel für den t-Wert von |2|. Gleiches gilt hinsichtlich des Abschlussdatums (abschlussdatum) und der Abschlussnote des Studiums (abschlussnote). Dagegen liegt für die Variable hzb_note kein signifikanter Unterschied vor (t-Wert: 0,2). Die eigenständige Bildung von Indikatorvariablen ist einfach durchführbar. Dazu müssen wir aber die Kommandosprache (Syntax) von SPSS verwenden. Mittels „Datei > Neu > Syntax“ kommt man in den Syntaxeditor. Um eine Indikatorvariable der Missing Values bei der Variable ausbildung zu erhalten, geben wir folgendes Kommando ein: „COMPUTE missausbildung = MISSING(ausbildung).“. Der Punkt am Ende darf nicht vergessen werden. Danach ist auf das grüne Dreieck (mit Spitze nach rechts) oben in der Mitte der Menüoberfläche zu klicken. Anschließend kann der t-Test realisiert werden über: „Analysieren > Mittelwerte vergleichen > t-Test bei unabhängigen Stichproben“.12 Dort platzieren wir unsere Variable alter_immatrik im Feld „Testvariable“ und die neue Variable missausbildung im Feld „Gruppierungsvariable“. Dann müssen noch die Gruppen de In älteren Versionen von SPSS findet sich „T-Test“, d. h. das „t“ wird großgeschrieben. In der Darstellung der Resultate steht aber weiterhin bei manchen Prozeduren „T-Test“. Auch die Wiedergaben der Ergebnisse sehen in den älteren Versionen etwas anders aus. 12
318
5 Fehlende Datenwerte/Missing Values
Abb. 5.8 Kreuztabellen für Unterschiede nominalskalierter Variablen
finiert werden. Dazu ist der Button „Gruppen def.“ zu drücken. In dem sich dann öffnenden Fenster definieren wir Gruppe 1 = 0 und Gruppe 2 = 1. Mit dem Button „Weiter“ und dann „OK“ wird der t-Test durchgeführt. Als weiteres Ergebnis der Prozedur „Analysieren fehlender Werte“ entsprechend Abb. 5.6 zeigt sich Folgendes: Bei der nominal skalierten Variablen weiblich haben die Frauen mit 43,9 % einen deutlich höheren Anteil fehlender Daten bei der Variable ausbildung als Männer (37,1 %). Die Studierenden mit gymnasialer Hochschulzugangsberechtigung weisen dagegen weniger Missing Values aus (38,3 %) als andere Zulassungsformen (44,8 %) (siehe Abb. 5.8). Einen Chi2-Test, ob diese Unterschiede statistisch signifikant sind, bietet SPSS leider innerhalb dieser Prozedur nicht an. Dies ist aber nach Generierung der Variable missausbildung wie folgt möglich: „Analysieren > Deskriptive Statistiken > Kreuztabellen“. Dann nehmen wir die Variable missausbildung in das Feld „Zeile(n)“ und bspw. die Variable weiblich in das Feld „Spalten“ auf. Jetzt drücken wir den Button „Statistiken“ und setzen dort ein Häkchen bei „Chi-Quadrat“. Mit „Weiter“ und „OK“ wird der Chi2-Test (nach Pearson) durchgeführt. Er kommt zu dem Ergebnis, dass auf dem 5 % Niveau kein Unterschied existiert. Gleiches ergibt sich für die Dummyvariable hzb_gymnasium.
5.6 Durchführung in SPSS und Stata
319
Die Schlussfolgerung basierend auf den Tests der einzelnen Variablen ist, dass die MCAR-Bedingung nicht vorliegt, da sich die fehlenden und die kompletten Beobachtungen in den Mittelwerten für drei Variable (abschlussnote, abschlussdatum und alter_immatrik) signifikant unterscheiden. Für die anderen Variablen sind keine signifikanten Unterschiede feststellbar. Allerdings sind diese Untersuchungen für alle einzelnen Variablen zeitaufwendig. Schneller realisierbar und eleganter sind globale Testverfahren. Als globalen MCAR-Test setzen wir zuerst Little’s Test ein. Dieser ist unter der Prozedur „Analysieren > Analyse fehlender Werte“ versteckt. Dort gehen wir wie für Abb. 5.5 bereits beschrieben vor und setzen dann ein Häkchen bei „EM“. Nach „OK“ folgt das Resultat aus Abb. 5.9. Die EM-Schätzung ist für uns irrelevant, aber unter den Tabellen findet sich der MCAR- Test von Little. Er wird von SPSS überflüssigerweise unter jeder Tabelle erneut aufge-
Abb. 5.9 Little’s Test
320
5 Fehlende Datenwerte/Missing Values
Abb. 5.10 Logistische Regression
führt. Little’s Test basiert nur auf den 4 metrisch skalierten Variablen. Der Test bestätigt noch einmal unsere obige Schlussfolgerung, denn auf dem 5-%-Niveau ist die Nullhypothese, dass die MCAR-Bedingung vorliegt, abzulehnen. Als zweiten globalen Test überprüfen wir die MCAR-Bedingung mittels einer logistischen Regression unter „Analysieren > Regression > Binär logistisch“. Da nur bei der Variable ausbildung Missing Values auftreten, können wir uns auf eine einzige logistische Regression beschränken. Die Dummyvariable missausbildung, die wir weiter oben generiert haben, ist unsere abhängige Variable, und die anderen Variablen (natürlich mit Ausnahme der Variable ausbildung) benutzen wir als exogene Einflussfaktoren. Abb. 5.10 enthält die uns interessierenden Teile des Outputs. Der Wald-Test in Spalte 4 ist das Äquivalent zum t-Test der linearen Regression. Spalte 6 mit der Überschrift „Sig.“ zeigt die für uns relevanten Signifikanzniveaus. Danach sind die Variablen abschlussdatum, alter_immatrik und abschlussnote auf dem 5-%-Niveau signifikante Einflussfaktoren der Wahrscheinlichkeit eines fehlenden Wertes bei der Variable ausbildung. Es bestätigen sich auf eine einfache und verständliche Weise die Ergebnisse der lokalen Tests und des Tests von Little: Die MCAR Annahme muss verworfen werden. Als Fazit halten wir fest, dass erstens die MCAR nicht vorliegt, zweitens uns sehr viele Beobachtungen bei einer Listwise Deletion verloren gehen und damit drittens auch viele Informationen für die Schätzung nicht berücksichtigt werden, die ja prinzipiell vorhanden sind. Wir wissen jetzt einiges mehr über die Missing Values und vergleichen im Folgenden verschiedene Möglichkeiten, damit umzugehen. Die Listwise Deletion ist – wie bereits erwähnt – in SPSS voreingestellt. Wir spezifizieren eine lineare Regression mit der Abschlussnote des Studiums als abhängige Variable.13 Die 6 anderen Variablen unseres Datensatzes sind die unabhängigen Variablen.
Zur Durchführung siehe Stoetzer (2017, Kap. 2).
13
5.6 Durchführung in SPSS und Stata
321
Modellzusammenfassung Modell
R
1
Korrigiertes R2-
Standardfehler
Quadrat
des Schätzers
2
R -Quadrat
,429a
,184
,170
,40681
a. Einflussvariablen: (Konstante), ausbildung, weiblich, abschlussdatum, hzb_gymnasium, hzb_note, alter_immatrik
ANOVAa Mittel der Modell 1
Quadratsumme
Df
Quadrate
Regression
13,674
6
2,279
Nicht standardisierte
60,737
367
,165
74,411
373
F
Sig.
13,770
,000b
Residuen Gesamt a. Abhängige Variable: abschlussnote b. Einflussvariablen: (Konstante), ausbildung, weiblich, abschlussdatum, hzb_gymnasium, hzb_note, alter_immatrik
Koeffizientena Standardisierte Nicht standardisierte Koeffizienten RegressionskoeffizentB
Modell 1
(Konstante)
Std.-Fehler
1,597
Koeffizienten Beta
T
,239
Sig.
6,690
,000
hzb_note
,265
,042
,336
6,282
,000
weiblich
-,004
,044
-,004
-,088
,930
abschlussdatum
-2,755E-5
,000
-,038
-,758
,449
hzb_gymnasium
-,286
,047
-,314
-6,047
,000
,009
,011
,050
,852
,395
-,019
,052
-,020
-,354
,723
alter_immatrik ausbildung a. Abhängige Variable: abschlussnote
Abb. 5.11 Regression mit Listwise Deletion
Die Schätzung der Abb. 5.11 basiert – wie in der ANOVA-Tabelle deutlich wird – nur auf den 374 Beobachtungen mit kompletten Datenwerten. Allerdings sind die Standardfehler aufgrund des verkleinerten Datensatzes nicht effizient und die Koeffizientenschätzungen eventuell verzerrt, da die MCAR-Bedingung nicht vorliegt. Zum Vergleich ziehen wir als ersten Schritt die einfache Mittelwertimputation heran, obwohl diese Methode schwerwiegende Mängel aufweist. Ihr Einsatz wird hier nur zur Illustration durchgeführt und nicht empfohlen! Sie ist innerhalb der Prozedur „Lineare Regression“ aufrufbar. Nach „Analysieren > Regression > Linear“ und der Eingabe unserer Regressionsgleichung klicken wir auf den Button „Optionen“. Die Voreinstellung
322
5 Fehlende Datenwerte/Missing Values
Abb. 5.12 Mittelwertimputation
im Bereich „Fehlende Werte“ ist „Listenweiser Fallausschluss“. Stattdessen aktivieren wir „Durch Mittelwert ersetzen“ (siehe Abb. 5.12). Die darauf basierende Regression ist auszugsweise in Abb. 5.13 zu finden. Sie verwendet alle 634 Beobachtungen. Hinsichtlich des Gesamtmodells ist das korrigierte R2 bei der Listwise Deletion mit 0,17 etwas größer (Mittelwertimputation: 0,16), aber der F-Wert ist gestiegen (Listwise Deletion: 13,77; Mittelwertimputation: 21,12). Der Vergleich zeigt, dass alle t-Werte (absolut betrachtet) ebenfalls größer sind. Dies ist insbesondere hinsichtlich der Variable abschlussdatum wichtig. Diese Variable besitzt beim fallweisen Ausschluss keinen Einfluss (t-Wert: −0,76), ist jetzt aber signifikant auf dem 5-%-Niveau (t-Wert: −2,35). Die Koeffizientenschätzungen sind für alle signifikanten Variablen bei der Listwise Deletion und der Mittelwertimputation sehr ähnlich. Es bestätigt sich also, dass die Verwendung von lediglich 374 Beobachtungen im Rahmen des fallweisen Ausschlusses zu einem Effizienzverlust bzw. größeren Standardfehlern führt. Methoden, die es erlauben, den gesamten Datensatz von 634 Studierenden zu verwenden, sind vorzuziehen. Aufgrund der Probleme der Mittelwertimputation bietet es sich an, die Multiple Imputation einzusetzen. Vorab müssen wir, um exakt reproduzierbare Resultate zu erhalten, einen Anfangswert für den Zufallszahlengenerator von SPSS definieren. Dies geschieht über „Transformieren > Zufallszahlengeneratoren“. In diesem Menü setzen wir jeweils ein Häkchen bei „Aktiven Generator festlegen“ und „Anfangswert festlegen“. Im Feld „Akti-
5.6 Durchführung in SPSS und Stata
323 ANOVAa Mittel der
Modell 1
Quadratsumme Regression Nicht standardisierte
df
Quadrate
21,008
6
3,501
103,938
627
,166
124,946
633
F
Sig.
21,122
,000b
Residuen Gesamt a. Abhängige Variable: abschlussnote b. Einflussvariablen: (Konstante), ausbildung, weiblich, abschlussdatum, hzb_gymnasium, hzb_note, alter_immatrik
Standardisierte Nicht standardisierte Koeffizienten RegressionskoeffizientB
Modell 1
(Konstante)
Std.-Fehler
1,726
,164
hzb_note
,272
,031
weiblich
,024
,035
abschlussdatum
-4,869E-5
hzb_gymnasium
-,262
alter_immatrik ausbildung
Koeffizienten Beta
T
Sig.
10,546
,000
,351
8,727
,000
,027
,695
,488
,000
-,088
-2,351
,019
,036
-,292
-7,351
,000
,004
,007
,024
,573
,567
,005
,048
,004
,109
,913
a. Abhängige Variable: abschlussnote
Abb. 5.13 Regression mit Mittelwertimputation
ven Generator festlegen“ wählen wir „Mersenne Twister“.14 Im Feld „Anfangswert festlegen“ aktivieren wir „Fester Wert“ und geben eine beliebige Zahl ein, bspw. die Zahl „12345“ (Abb. 5.14). Immer, wenn diese Zahl anfangs gesetzt wird, resultieren aus unserem Datensatz (bei identischen sonstigen Einstellungen) auch gleiche Ergebnisse bei der multiplen Imputation. Über „Analysieren > Multiple Imputation > Fehlende Datenwerte imputieren …“ gelangen wir in die Dialogbox der multiplen Imputation. Dort befördern wir alle unsere Variablen – außer der Variablen missausbildung – in das Feld „Variablen im Modell“ (siehe Abb. 5.15). Die Variable missausbildung hatten wir ja weiter oben nur für Analysezwecke neu gebildet. Sie spielt für unsere inhaltliche Fragestellung der Einflussfaktoren der Abschlussnote eines Absolventen keine Rolle. Die Zahl der Imputationen erhöhen wir von den voreingestellten 5 auf 50 Imputationen. So sind wir von der Untergrenze 20 weit entfernt und halten uns an die Empfehlung, dass die Zahl der Imputationen mindestens so groß sein sollte wie der prozentuale Anteil der nicht kompletten Beobachtungen (hier 41 %). Der Mersenne Twister ist ein Verfahren um (Pseudo-)Zufallszahlen zu erzeugen.
14
324
Abb. 5.14 Festlegung der Zufallszahlen
Abb. 5.15 Multiple Imputation
5 Fehlende Datenwerte/Missing Values
5.6 Durchführung in SPSS und Stata
325
Im Abschnitt „Ort der imputierten Daten“ wird in diesem Beispiel eine neue Datei generiert, indem wir „Neues Dataset erstellen“ aktivieren. Er erhält einen aussagefähigen Namen (nämlich „Hochschulabschlussnoten_BW_imputiert“). Die Reiter „Methode“, „Nebenbedingungen“ und „Ausgabe“ sind im vorliegenden Beispiel vernachlässigbar. Wir übernehmen daher die Default-Einstellungen und klicken auf den Button „OK“. SPSS analysiert dann selbstständig, bei welchen Variablen Werte fehlen und wie diese imputiert werden müssen. Das Resultat ist in Abb. 5.16 (auszugsweise) wiedergegeben. Hier müssen nur fehlende Daten der Variable ausbildung ersetzt werden. Da es sich um eine nominal skaliert Variable handelt, erfolgt dies mittels einer logistischen Regression. Dies hat SPSS automatisch erkannt und durchgeführt. Da 50 Imputationen durchgeführt werden, resultieren 13.000 imputierte Werte (50 × 260). Der Originaldatensatz und alle 50 imputierten Beobachtungen befinden sich im neuen Datensatz „Hochschulabschlussnoten_BW_imputiert“. Dort hat SPSS in die erste Spalte eine neue Variable Imputation_ eingefügt. Diese besitzt den Wert 0 für den unveränderten Originaldatensatz, den Wert 1
Abb. 5.16 Ergebnisse der multiplen Imputation
326
5 Fehlende Datenwerte/Missing Values
Abb. 5.17 Regression auf Basis der multiplen Imputationsdaten
für die erste Imputation, den Wert 2 für die zweite Imputation usw. bis 50. Alle 51 Datensätze stehen untereinander (sind also im Long Format abgespeichert) und der gesamte Datensatz umfasst jetzt 32.334 Beobachtungen (51 × 634). Unter dem Reiter „Nebenbedingungen“ (siehe Abb. 5.15) lassen sich die Werte der Imputationen eingrenzen. Gäbe es bspw. bei der Variable abschlussnote Missing Values, wäre es sinnvoll, im Untermenü „Nebenbedingungen“ den Wertebereich 1,0 bis 4,0 vorzugeben, da die Abschlussnote eines Absolventen nur in diesem Bereich liegen kann. Unter dem Reiter „Methode“ ist es möglich, bei komplexeren Strukturen der fehlenden Werte die Imputationsmethode genauer zu steuern. Interaktionseffekte können innerhalb dieser Prozedur im Modell nur zwischen kategorialen Variablen aufgenommen werden. Im nächsten Schritt werden diese Imputationen für die Analyse verwendet. Im neuen Datensatz „Hochschulabschlussnoten_BW_imputiert“ führen wir wie üblich eine lineare Regression durch: „Analysieren > Regression > Linear“. Das Symbol für die lineare Regression sieht jetzt ein wenig anders aus ( ). Der Wirbel rechts unten ist neu. Er kennzeichnet alle statistischen Verfahren (Prozeduren), die mit dem imputierten neuen Datensatz durchführbar sind. Das Ergebnis ist ein ellenlanger Output, der alle 50 Regressionen (für jeden der 50 imputierten Datensätze separat) auflistet. Abb. 5.17 zeigt nur die ganz am Schluss stehenden Resultate für die gepoolte Regression. Vereinfacht ausgedrückt, handelt es sich um die gemittelten Resultate aller 50 Regressionen. Der untere Teil von Abb. 5.17 enthält Informationen zur Qualität des Pooling unserer 6 exogenen Variablen und der Konstanten.
5.6 Durchführung in SPSS und Stata
327
Die linke Spalte „Anteil fehlender Info.“ – „Info.“ steht für „Informationen“ – wird auch als AFI abgekürzt oder englisch als „Fraction of Missing Information“ FMI bezeichnet. Er beschreibt den Einfluss von Missing Values auf die Varianz der Parameterschätzungen. Der Wert von 0,005 besagt, dass von der gesamten Varianz des Regressionskoeffizienten der hzb_note 0,05 % auf die Imputation fehlender Werte zurückzuführen ist. Es ist besser, wenn der AFI klein ist. Er sollte unter 0,25 liegen. Der AFI des Koeffizienten der ausbildung beträgt 0,364 und überschreitet diesen Grenzwert. Die nächste Spalte lautet „Relative Zunahmevarianz“ RZV (auch „Relativer Anstieg der Varianz“ und englisch „Relative Increase of Variance“ RIV). Der Wert 0,021 des Koeffizienten der Hochschulzugangsberechtigung besagt, dass dessen Varianz aufgrund von fehlenden Werten um 2,1 % höher ist als bei einer Schätzung auf Basis eines kompletten Datensatzes. Üben die fehlenden Werte keinen Einfluss auf die Varianz (als Maßstab für die Unsicherheit einer Schätzung) aus, wäre die RZV gleich 0,0. In der dritten Spalte ist die „Relative Effizienz“ (RE) aufgeführt. Sie informiert darüber, wie effektiv die auf M Imputationen beruhende Schätzung im Vergleich mit einer optimalen, das heißt auf unendlich vielen Imputationen beruhenden Schätzung ist. Anders formuliert, gibt sie Auskunft über die Differenz zwischen der Parametervarianz bei der gewählten Anzahl von Imputationen (hier 50) und der Schätzung, wenn unendlich viele Imputationen durchgeführt würden. Diese Differenz ist klein, wenn die RE nahe bei 1,0 liegt. Im Idealfall beträgt RE 1,0 (keine Differenz). Der kritische Grenzwert, der nicht unterschritten werden sollte, liegt bei 0,90. Für die Berufsausbildung beträgt die RE 0,993 und ist daher groß genug (Urban und Mayerl 2018, S. 474–476). Das FIML-Verfahren ist nicht direkt in SPSS implementiert, steht aber innerhalb des Moduls AMOS (d. h. im Rahmen der Schätzung von Strukturgleichungsmodellen) zur Verfügung.15 Es handelt sich um eine Maximum-Likelihood-Schätzung. Das Verfahren wird im Anhang I erläutert. Solche Strukturgleichungsmodelle werden oft in Form von Pfaddiagrammen grafisch entwickelt und dargestellt. AMOS wird hier extrem knapp (in Form einer „Blindfluganleitung“) für den einfachen Fall behandelt, dass lediglich bei einer Variable Missings existieren. Für komplexere Strukturen ist unbedingt die am Ende genannte Literatur heranzuziehen. Das Modul rufen wir auf über: „Analysieren > IBM SPSS AMOS“. Damit dies funktioniert, muss sich unser Datensatz bereits in SPSS als aktiver Datenfile befinden. Andernfalls werden wir zunächst aufgefordert, ihn in SPSS einzulesen. In der dann auftauchenden grafischen Menüoberfläche von AMOS klicken wir auf „File“ und dann „Data Files …“. Hier lesen wir mittels „File name“ und „Öffnen“ den Datensatz „Hochschulabschlussnoten_ BW.sav“ ein, wie in Abb. 5.18 gezeigt. Dieser wird angeklickt und dadurch in blau hinterlegter Schrift abgebildet. Danach wird er mit „OK“ aktiviert. Alle Kommandos können über die Menüleiste ganz oben oder alternativ über die Toolbar (Werkzeugleiste) – links in der Abb. 5.18 – eingegeben werden. Als nächsten Schritt
Das Modul AMOS gehört in der Regel zum Softwarepaket IBM SPSS dazu, das an den Hochschulen eingesetzt wird. 15
328
5 Fehlende Datenwerte/Missing Values
Abb. 5.18 AMOS Datenfile einlesen
klicken wir in der linken Toolbar auf das Icon „List variables in data set“ (in Abb. 5.19 der bläulich unterlegte Icon), wodurch unsere Variablen in einem neuen Menüfeld erscheinen. Mittels „Drag and Drop“ ziehen wir unsere Variable abschlussnote nach rechts in das Grafikfeld (d. h. den weißen Teil der Grafikoberfläche) und platzieren unsere exogenen Variablen links davon, wie in Abb. 5.19 zu sehen. Jetzt spezifizieren wir die Abhängigkeiten in unserer linearen Regression, indem wir den Pfeil, der nach links zeigt und sich links oben in der Toolbar befindet, aktivieren. Dann bewegen wir den Cursor auf die erste exogene Variable (diese wird dann rot umrandet angezeigt) und ziehen anschließend mit der linken Maustaste einen Pfeil zur Variable abschlussnote. Wenn die Zielvariable abschlussnote grün umrandet erscheint, ist uns das gelungen und der Pfeil eingefügt. Dies wiederholen wir für alle unsere 6 exogenen Variablen und erhalten dann die Abb. 5.20. Was noch fehlt, ist der Fehlerterm (error).16 Dieser ist nicht direkt beobachtbar, sondern muss geschätzt werden. In AMOS gilt er als „unobserved variable“, und die werden als Ellipsen oder Kreise (und nicht wie die beobachteten Variablen als Rechtecke) in das Pfaddiagramm eingezeichnet. Wir aktivieren in der Toolbar links die Ellipse (bläulich herausgehoben) und können dann im Grafikfeld mit dem Cursor ganz rechts eine Ellipse (bzw. einen Kreis) einfügen (siehe Abb. 5.21). Dann gehen wir auf diese Ellipse und klicken die 16 Diesen kürzen wir hier mit e ab. Er ist bei der Spezifikation einer linearen Regression der ganz rechte Term.
5.6 Durchführung in SPSS und Stata
329
Abb. 5.19 Variablen im Datensatz anzeigen und einfügen
Abb. 5.20 Modellbildung
rechte Maustaste, wodurch die Ellipse in Rot erscheint. Es taucht gleichzeitig ein Feld auf, in dem wir „Object Properties …“ anklicken. Das Ergebnis zeigt Abb. 5.21. Dort fügen wir „error“ in das Feld „Variable name“ ein. Was wir dort als Name eingeben, erscheint simultan in der Ellipse. Dann schließen wir das Menü „Object Properties“.
330
5 Fehlende Datenwerte/Missing Values
Abb. 5.21 Einfügen des Fehlerterms I
Im nächsten Schritt ziehen wir einen Pfeil von der unbeobachteten Variable error zu unserer abhängigen Variable abschlussnote. Anschließend gehen wir mit dem Cursor auf diesen Pfeil und drücken die rechte Maustaste (wodurch der Pfeil rot wird): Jetzt klicken wir auf „Object Properties …“. Im aufgeklappten Feld aktivieren wir den Reiter „Parameters“ und tragen dann im Feld „Regression weights“ den Wert „1“ ein (siehe Abb. 5.22). Dieser Wert ist jetzt über diesem Pfeil zu sehen, und wir schließen das Feld „Object Properties“. Jetzt muss über „View > Analysis Properties“ ein neues Menüfeld geöffnet werden. Dort behalten wir die Default-Einstellung „Maximum likelihood“ bei, setzen aber außerdem ein Häkchen bei „Estimate means and intercepts“ (Abb. 5.23). Anschließend wird das Feld „Analysis Properties“ geschlossen. Dann müssen wir alle Kovarianzen zwischen unseren 6 exogenen Variablen einfügen. Dies erfolgt durch den Pfeil mit den zwei Spitzen links oben in der Toolbar. Praktisch heißt das, von jeder der 6 exogenen Variablen muss ein solcher Doppelpfeil zu jeder der anderen 5 exogenen Variablen existieren. Die Doppelpfeile fügen wir genauso ein wie bereits oben
5.6 Durchführung in SPSS und Stata
331
Abb. 5.22 Einfügen des Fehlerterms II
bei den einfachen Pfeilen erläutert. Durch „rot“ bei der Ausgangsvariablen und „grün“ bei der Zielvariablen erkennen wir, dass das Einfügen des Doppelpfeils funktioniert hat. Das Resultat sieht aus wie Abb. 5.24. Dabei ist es egal, ob die Pfeile links oder rechts gekrümmt sind und an welcher Stelle sie mit dem Kästchen einer anderen exogenen Variable verbunden sind. Ggf. lässt sich mittels „Edit > Shape of object“ die Ausrichtung der Doppelpfeile verändern (d. h. verschönern). Wir gehen dazu mit der Maus auf einen Pfeil bis er rot erscheint und können dann seine Lage verschieben.17 Schließlich realisieren wir über „Analyze > Calculate estimates“ die FIML-Schätzung.18 Das Ergebnis können wir uns nach „View > Text output“ betrachten. In dem dadurch aufgerufenen Fenster aktivieren wir „Estimates“ (siehe Abb. 5.25). Diese Darstellungs17 Weitere nützliche Werkzeuge sind das Icon „Move objects“ zur Verschiebung von Elementen des Pfaddiagramms und „Erase objects“ , mit dem wir Fehler ausradieren können. 18 Die prinzipielle Logik des Maximum-Likelihood-Schätzverfahrens erläutert Anhang I verbal und grafisch, d. h. ohne großen mathematischen Aufwand.
332
Abb. 5.23 Einfügen des Absolutglieds
Abb. 5.24 Das komplette Pfaddiagramm
5 Fehlende Datenwerte/Missing Values
5.6 Durchführung in SPSS und Stata
333
weise ähnelt der uns bekannten Wiedergabe von Regressionsschätzungen. Rechts sehen wir unter der Überschrift „Regression Weights: (Group number 1 – Default model)“ die Schätzung unseres Regressionsmodells auf der Basis aller Informationen, die in den 634 Beobachtungen vorhanden sind. Die Koeffizientenschätzungen werden von AMOS als „Estimates“ bezeichnet und befinden sich in der zweiten Spalte. In der Spalte „S.E.“ (für Standard Errors) sehen wir die dazugehörigen Standardfehler. Die nächste Spalte heißt „C.R.“ (als Abkürzung für Critical Ratio). Die Werte entsprechen der uns bekannten t- Statistik.19 Das C.R. erhält man, indem der Koeffizient durch seinen Standardfehler dividiert wird. Die Spalte „P“ (für Probability) führt die empirischen Signifikanzniveaus (d. h. die Irrtumswahrscheinlichkeiten) auf. Die in der Spalte ausgewiesene „P“ der Variable hzb_note lautet „***“. AMOS kennzeichnet so Irrtumswahrscheinlichkeiten, die kleiner als 0,001 betragen, also als höchst signifikant bezeichnet werden. Der Koeffizient der Varia blen abschlussdatum wird als 0,000 ausgegeben. Diese Darstellung ist etwas irreführend. Wir sehen an dem negativen C.R.-Wert, dass der Einfluss dieser Variablen negativ ist. In unserem Beispiel ist er außerdem kleiner als 0,000, und da AMOS nur drei Stellen hinter dem Komma abbildet, wird der tatsächlich vorhandene Koeffizientenwert (und auch sein Standardfehler) zwar berechnet, aber nicht dargestellt. Die Resultate ähneln bis auf marginale Unterschiede denen der multiplen Imputation (Abb. 5.17). Beide Verfahren bestätigen noch einmal die oben getroffenen Schlussfolgerungen. Neben der Note der Hochschulzugangsberechtigung (hzb_note), und der Art der Zugangsberechtigung (hzb_gymnasium) besitzt das Datum des Hochschulabschlusses (abschlussdatum) einen signifikanten Einfluss auf die Abschlussnote des Studiums eines Absolventen (alle auf dem 5-%-Niveau). In unserem Beispiel sind die Ergebnisse der Listwise Deletion einerseits und der multiplen Imputation und der FIML-Methode andererseits mit einer Ausnahme deckungsgleich. Die Listwise Deletion führt zu der falschen Schlussfolgerung, dass ein Einfluss des Abschlussdatums nicht vorliegt. Exakter formuliert: die Nullhypothese kann für diese Variable aufgrund des stark geschrumpften Datensatzes nicht abgelehnt werden. Darüber hinaus führen in diesem Beispiel sogar die Koeffizientenschätzungen der (ggf. falschen) Mittelwertimputation zu denselben Resultaten.20 Urban und Mayerl (2018, S. 437–484) stellen die wichtigsten Aspekte der Behandlung fehlender Werte mittels SPSS dar. Baltes-Götz (2013) gibt einen ausführlicheren Überblick. Das Handbuch IBM SPSS 25 (2017) ist eine recht kurze Darstellung der relevanten Funktionen. Das entsprechende Handbuch der älteren Version IBM SPSS 20 (2011) enthält darüber hinaus eine Reihe von Anwendungsbeispielen und ist insofern nützlich. Ein YouTube-Video erklärt die Vorgehensweise: www.spss-tutorials.com/spss-missingvalues/. Für das Modul AMOS beschreibt Baltes-Götz kurz die Durchführung des So Rudolf und Müller (2004, S. 300) und Weiber und Mühlhaus (2014, S. 229). Dies gilt aber nur asymptotisch – also in großen Stichproben (genauer dazu Arbuckle 2016, S. 31). 20 Eine Einschätzung des Gesamtmodells (entsprechend dem F-Test und R2 in der linearen OLS-Regression) ist nicht möglich, da AMOS für unser ML-Modell mit Mittelwerten und Konstante diese Informationen nicht berechnet (AMOS Development 2019). 19
334
5 Fehlende Datenwerte/Missing Values
FIML-Verfahrens anhand eines Beispiels (2013, S. 47–52). Ausführlicher, verständlich und auf aktuellem Stand ist die Darstellung von Arbuckle (2016, S. 7–21, 69–82 und 281–307). Stata Die folgenden Erläuterungen beziehen sich auf Stata 15, bei älteren Versionen ergeben sich zum Teil leicht andere Befehlspfade. Wir verwenden den Datensatz „Hochschulabschlussnoten_BW.dta“. Dieser wird oben in der Einleitung zum Abschn. 5.6 erläutert. Mittels des Befehls „Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics“ und dann Klick auf den Button „OK“ erhalten wir die üblichen Informationen zu den Variablen dieses Datensatzes (Abb. 5.26). Die Zahl der Beobachtungen der Variablen beträgt 634. Für die Variable ausbildung existieren allerdings nur 374 Datenwerte. Alternativ lassen sich – wie Abb. 5.27 verdeutlicht – mittels „Statistics > Summaries, tables, and tests > Other tables > Tabulate missing values“ direkt Informationen zu den fehlenden Werten anzeigen. Wir aktivieren in diesem Menü die Variante „Report counts“. Nach Anklicken des Buttons „OK“ folgt das Ergebnis der Abb. 5.28. In unserem Datensatz ist die Struktur der fehlenden Werte extrem einfach, da nur bei der Variable ausbildung insgesamt 260 Beobachtungen keine Informationen enthalten (siehe Spalte „Obs=.“). Liegen komplexere Strukturen vor, ist es sinnvoll, in Abb. 5.27 „Report pattern“ zu aktivieren. Anschließend eröffnen sich verschiedene Möglichkeiten,
Abb. 5.25 Der Output des FIML-Verfahrens
5.6 Durchführung in SPSS und Stata
335
.. summarize Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------weiblich |
634
.5788644
.4941311
0
1
hzb_gymnas~m |
634
.5772871
.4943806
0
1
alter_imma~k |
634
21.49842
2.564338
18
35
hzb_note |
634
2.287066
.5725058
1
3.7
abschlussn~e |
634
2.228659
.4442829
1.16
3.68
-------------+-------------------------------------------------------ausbildung |
374
.3983957
.4902236
0
1
abschlussd~m |
634
1491.257
799.2822
1
2860
Abb. 5.26 Der Datensatz Hochschulabschlussnoten_ BW
einen Überblick der Verteilung der Missing Values auf die einzelnen Variablen zu bekommen. Als nächstes müssen wir prüfen, ob die fehlenden Werte die MCAR-Eigenschaft besitzen. In das Kommandofenster (Feld „Command“ unten auf dem Bildschirm nach Aufruf von Stata) geben wir dazu ein „generate missausbildung = missing(ausbildung)“. Damit generieren wir eine neue Dummyvariable missausbildung. Diese besitzt den Wert 1 für alle Beobachtungen, bei denen die Werte der Variable ausbildung fehlen. Andernfalls nimmt die Variable missausbildung den Wert 0 an. Da lediglich bei dieser Variable Missing Values auftreten, müssen wir keine weiteren solcher Indikatorvariablen bilden. Über „Data > Data Editor > Data Editor (Browse)“ werfen wir einen Blick auf unseren Datensatz. Dort hat Stata jetzt ganz rechts die neue Variable missausbildung angefügt. Mittels Menüsteuerung ist dasselbe Ergebnis auch in Abb. 5.27 durch ein Häkchen bei „Generate missing-values indicators“ erzielbar. Wir geben dazu unter „Variables“ die Variablen an, bei denen fehlende Werte vorliegen (hier nur ausbildung) und im Feld „Variable stub“ eine Abkürzung, die diese neuen Variablen kennzeichnet (hier missing_). Dies zeigt Abb. 5.29. Stata fügt dann die neue Variable missing_ausbildung unserem Datensatz hinzu. Mittels lokaler Tests prüfen wir, ob die Abschlussnote (abschlussnote), die Note der Hochschulzugangsberechtigung (hzb_note) und das Abschlussdatum (abschlussdatum) sich zwischen den fehlenden und den vorhandenen Werten der Variable ausbildung signifikant unterscheidet: Wir beginnen erstens mit einem t-Test auf einen Mittelwertunterschied bei diesen metrisch skalierten Variablen. Den Test ruft man über „Statistics > Summaries, tables, and tests > Classical tests of hypotheses > t test (mean-comparison test)“ auf. Wir wählen die Testvariante „Two-sample using groups“ – wie in Abb. 5.30 gezeigt. Die Abschlussnote des Studiums ist die Variable, deren Mittelwertunterschiede uns inte ressiert und die Gruppierungsvariable (Group variable) ist missausbildung mit den beiden Gruppen 0 (= komplette Daten) und 1 (= fehlende Daten). Nach Klick auf den Button
336
5 Fehlende Datenwerte/Missing Values
Abb. 5.27 Identifizierung von fehlenden Werten I
Abb. 5.28 Identifikation von fehlenden Werten II
„OK“ wird der Test durchgeführt. Falls Varianzunterschiede zwischen den beiden Gruppen vorhanden sind (also Heteroskedastie vorliegt), kann dies mittels der Optionen „Unequal variances“ und „Welch’s approximation“ berücksichtigt werden. Anschließend realisieren wir dasselbe für hzb_note, abschlussdatum und alter_imma trik. Abb. 5.31 beschränkt sich auf die Wiedergabe des Outputs für die Abschlussnote und die Note der Hochschulzugangsberechtigung. Zwischen den beiden Gruppen mit fehlenden und kompletten Daten existieren hinsichtlich der Abschlussnote signifikante Mittelwertunterschiede (auf dem 5-%-Niveau). Dies gilt aber nicht für die Note der Hochschulzugangsberechtigung (hzb_note). Nicht
5.6 Durchführung in SPSS und Stata
Abb. 5.29 Bildung einer Indikatorvariablen bei fehlenden Werten
Abb. 5.30 t-Test Mittelwertunterschied
337
338
5 Fehlende Datenwerte/Missing Values
Abb. 5.31 Ergebnis Test Mittelwertunterschied
abgebildet sind die Ergebnisse für das Abschlussdatum (es ist signifikant: t-Wert: 18,39) und das Alter bei der Immatrikulation (ebenfalls signifikant: t-Wert: −3,67). Zweitens setzen wir einen Chi2-Test ein, der prüft, ob die Dummyvariable des Geschlechts weiblich sich zwischen den fehlenden und vorhandenen Werten von ausbildung unterscheidet: „Statistics > Summaries, tables, and tests > Frequency tables > Two-way table with measures of association“ führt zur Abb. 5.32. Dabei verwenden wir missausbildung als Zeile (Row variable) und weiblich als Spalte (column variable). Außerdem setzen wir ein Häkchen im Feld „Test statistics“ bei „Pearson’s chi-squared“. Nach „OK“ findet sich das Ergebnis in Form einer Kreuztabelle (Kontingenztabelle) wie in Abb. 5.33.
5.6 Durchführung in SPSS und Stata
339
Abb. 5.32 Unterschiede bei nominalen Variablen
Abb. 5.33 Testergebnis Chi2-Test Stata
Ein Unterschied zwischen Männern und Frauen bezüglich der Bereitschaft bei der Frage nach der Berufsausbildung zu antworten, existiert auf dem 5-%-Niveau nicht (wäre aber auf dem 10-%-Niveau gegeben). Für unsere zweite nominalskalierte Variable hzb_ gymnasium lässt sich der Test analog erledigen. Hier ist ebenfalls kein signifikanter Unterschied feststellbar. Zusammenfassend ergeben die lokalen Tests, dass die MCAR-Bedingung nicht vorliegt. Allerdings ist dies nicht für alle Variablen zu bestätigen.
340
5 Fehlende Datenwerte/Missing Values
Als globaler Test ist Little’s Test verwendbar. Er ist in Stata nicht standardmäßig implementiert, steht aber als Plug-in zur Verfügung und nennt sich „mcartest“. In dem Kommandofeld (Command) geben wir „help mcartest“ ein. Es erscheint dann ein Fenster, aus dem heraus wir diesen Test downloaden und installieren können. Da dieser Test kein Stata- eigenes Produkt ist, kann er nicht über die Menüfelder aufgerufen werden. Wir müssen ihn über das Kommandofeld wie folgt eingeben: „mcartest hzb_note weiblich abschlussdatum hzb_gymnasium alter_immatrik ausbildung abschlussnote“.21 Es resultiert der Output der Abb. 5.34. Auch bei diesem globalen Test lehnen wir die Nullhypothese, dass MCAR vorliegt, auf dem 5-%-Niveau ab. Der Test wird von Li genauer erläutert. Er erklärt – auch für den anwendungsorientierten User nachvollziehbar – seine Handhabung (Li 2013, S. 800–804). Als weiteren globalen Test realisieren wir eine logistische Regression mit der bereits oben generierten neuen Variablen missausbildung als abhängige Variable. Dies erfolgt mittels „Statistics > Binary outcomes > Logistic regression“. Alle anderen Variablen mit Ausnahme der Variablen ausbildung finden als exogene Variable Verwendung (siehe Abb. 5.35). Unter dem Reiter „Reporting“ erhalten wir mittels Häkchen bei „Report estimated coefficients“ die Koeffizientenschätzungen wie in Abb. 5.36 statt der Voreinstellung „odds ratios“. Die Ergebnisse in der Abb. 5.36 verdeutlichen, dass die Frage, ob Daten für die Berufsausbildung vorliegen oder nicht, mit den exogenen Variablen zusammenhängt. Das Gesamtmodell ist mit einem Chi2-Wert des Likelihood-Ratio-Tests (LR) von 291,41 auch auf dem 1-%-Niveau signifikant.22 Signifikante Einflüsse besitzen die Variablen abschlussdatum, alter_immatrik und abschlussnote. Dies bestätigt unsere Schlussfolgerungen aus den lokalen Tests und dem Test von Little. Unser Fazit lautet, dass die MCAR-Bedingung nicht vorliegt. Das spricht dafür, sich nicht nur auf die Methode des fallweisen Ausschlusses zu verlassen.
Abb. 5.34 Little’s test (mcartest)
Bei Verwendung nur der metrisch skalierten vier Variablen führt der Test zu keinem Resultat (aufgrund zu geringer Freiheitsgerade). Allerdings wird der Test häufig auch mit metrischen und nominalskalierten Variablen durchgeführt und interpretiert (siehe dazu im Statalist-Forum die Beiträge unter dem Stichwort „mcar test“ (https://www.statalist.org/forums/). 22 Der Likelihood-Ratio-Test entspricht dem uns bekannten F-Test für das Gesamtmodell einer linearen Regression. Er basiert auf ML-Schätzungen. Anhang I Abschn. 6.2 erläutert die Vorgehensweise. 21
5.6 Durchführung in SPSS und Stata
341
Abb. 5.35 Logistische Regression zur Überprüfung der MCAR
Zur Wiederholung: Die Listwise Deletion ist problematisch. Erstens aufgrund der substanziell verringerten Stichprobe. Zweitens verdeutlichen die obigen Tests, dass die MCAR-Eigenschaft nicht gegeben ist, also bei der Listwise Deletion unter Umständen eine Verzerrung der Koeffizientenschätzungen vorliegt. Beides legt nahe, eine multiple Imputation bzw. eine FIML-Schätzung durchzuführen. Mit 41 % ausfallender Beobachtungen bei der Variable ausbildung ist auch die in der Literatur genannte Grenze von 50 % nicht überschritten. Voraussetzung auch dieser Verfahren ist aber, dass MAR vorliegt (und nicht eine MNAR-Situation existiert). Die lineare Regression mit diesem Datensatz führt zu den für SPSS bereits erläuterten Ergebnissen, die hier nicht noch einmal mit Stata wiederholt werden (für SPSS siehe oben Abb. 5.11): Die Hypothesenvariablen ausbildung, und abschlussdatum sind (auf dem 5-%-Niveau) nicht signifikant, die Note der Hochschulzugangsberechtigung und die Art der Zugangsberechtigung dagegen schon. Eine Listwise Deletion reduziert unsere Stichprobe um 260 Beobachtungen, also um 41 %. Daher bietet es sich an, ein Verfahren einzusetzen, mit dem die Informationen aller vorhandenen Beobachtungen genutzt werden. Nur zu Vergleichszwecken wird im nächsten Schritt eine (nicht empfehlenswerte) Mittelwertimputation durchgeführt. Die Mittelwerte imputieren wir anstelle der Missings durch die folgenden Befehle im Kommandofeld: „egen ausbildung_imp = mean(ausbildung) replace ausbildung_imp = ausbildung if ausbildung!=.“
342
5 Fehlende Datenwerte/Missing Values
Abb. 5.36 Ergebnisse der logistischen Regression
Mit der ersten Zeile bilden wir eine neue Variable („egen“ ist die Abkürzung für den Befehl „extended generate“). Deren von uns beliebig wählbarer Name lautet ausbildung_ imp. Ihr Inhalt besteht aus dem Mittelwert der vorliegenden Variable ausbildung. Mit der zweiten Befehlszeile setzen wir die vorhandenen Daten von ausbildung überall dort ein, wo die Variable Ausbildung keinen fehlenden Datenwert besitzt. Der Befehl „!=“ ist der logische Operator für „ist nicht gleich“ und „.“ zeigt in Stata einen Missing Value an. Folglich steht bei der neuen Variablen ausbildung_imp jetzt überall der Mittelwert anstelle der fehlenden Werte. Anschließend kann die lineare Regression wie üblich durchgeführt werden; mittels: „Statistics > Linear models and related > Linear regression“. Statt der Variable ausbildung nehmen wir jetzt die neue imputierte Variable ausbildung_imp als exogene Variable auf. Das Resultat gibt Abb. 5.37 wieder. Die einzelnen Koeffizientenschätzungen unterscheiden sich von der Listwise Deletion aus Abb. 5.11 vor allem hinsichtlich der Variable abschlussdatum. Der Zusammenhang ist jetzt auf dem 5-%-Niveau signifikant. Der negative Koeffizient besagt, dass, je jünger das Abschlussdatum ist, umso geringer (also besser) ist die Abschlussnote des Studiums. Da die Mittelwertimputation eigentlich nicht sinnvoll ist, setzen wir anschließend die Multiple Imputation ein. Sie findet sich wie folgt: Unter „Statistics > Multiple Imputation“ öffnet sich das Fenster „Multiple Imputation Control Panel“ der Abb. 5.38. Zunächst muss Stata eine Reihe von Informationen erhalten, die sich unter der links stehenden Option „Setup“ eintragen lassen. Dazu gehört erstens, welches Datenformat gewählt wird. Wir setzen hier im Feld „Setup“ der Abb. 5.38 den Style „Wide“ und klicken dann auf den Button „Submit“. Anschließend müssen wir eingeben, bei welchen Variablen fehlende Werte vorliegen. Im Feld „Add registered variables“ wählen wir unter „Type“ die Variante „Imputed“ und geben dann rechts unter „Variables“ ein, welche Variablen fehlende Daten aufweisen. In unserem Beispiel ist dies nur die Variable ausbildung. Nach Klick auf „Submit“ wird von Stata eine neue Variable „_mi_miss“ rechts in den Datensatz angefügt. Diese hat überall den Wert „0“. Wenn wir in der Abb. 5.38 zurück auf die Option „Examine“ gehen, können wir dort über „Tabulate missing values“ und den
5.6 Durchführung in SPSS und Stata
343
Abb. 5.37 Mittelwertimputation
Abb. 5.38 Multiple Imputation
Button „Go -->“ detaillierte Informationen zur Verteilung und Struktur der fehlenden Werte bekommen – bspw. erhalten wir auf diese Weise die aus Abb. 5.28 bekannte Tabelle. Für die Imputation wählen wir „Statistics > Multiple imputation“ und dann links die Option „Impute“. Dort eröffnet sich eine Vielzahl von Möglichkeiten (siehe Abb. 5.39).
344
5 Fehlende Datenwerte/Missing Values
Abb. 5.39 Multiple Imputation II
Da nur eine einzige Variable ausbildung mit Missings existiert, wählen wir eine Option innerhalb „Univariate“. Unsere Variable ausbildung ist eine Dummyvariable (binäre Variable), also nominal skaliert. Die Imputation erfolgt daher auf Basis einer logistischen Regression. Wir aktivieren also „Logistic regression for a binary variable“. Nach Klick auf den Button „Go -->“ erscheint ein weiteres Menüfeld. Falls fehlende Werte bei einer metrisch skalierten Variable auftreten, wählen wir in Abb. 5.39 die Option „Linear regression for a continous variable“, bei ordinalen fehlenden Werten die Option „Ordered logistic regression for an ordinal variable“ usw. Unsere Variable ausbildung wird imputiert, steht also im Feld „Imputed variable“. Als unabhängige Variable verwenden wir alle Variablen einschließlich unserer exogenen Variable abschlussnote (!), mit Ausnahme der Variablen ausbildung, die wir ja imputieren wollen (Abb. 5.40). Die Zahl der Imputationen (im Feld „Imputations“) setzen wir hoch auf 50. Wir orientieren uns dabei an der Untergrenze von 20 Imputationen und der Empfehlung, dass die Zahl der Imputationen mindestens so hoch sein soll wie die Prozentzahl der fehlenden Beobachtungen. Diese beträgt 41 %, und 50 Imputationen sind deutlich mehr. Tatsächlich spricht nichts dagegen, auch 100 Imputationen zu wählen, da bei diesem sehr einfachen Imputationsmodell die Rechenzeit keine Rolle spielt.
5.6 Durchführung in SPSS und Stata
345
Abb. 5.40 Multiple Imputation III
Als Startzahl für die Zufallsauswahl tragen wir 12345 (oder eine andere beliebige Zahl ein). So stellen wir sicher, dass die Ergebnisse unserer multiplen Imputation identisch sind, wenn wir das gleiche Imputationsmodell und die gleiche Startzahl wählen. Mit „OK“ wird die Imputation durchgeführt und es resultiert Abb. 5.41. Ein Blick in die Daten macht deutlich, dass Stata 50 imputierte Werte für die Variable ausbildung geschätzt hat. Diese sind rechts im Datensatz angefügt: die erste Imputation als Variable _1_ausbildung bis zur 50. Imputation als Variable _50_ausbildung. Bei mehreren Variablen mit fehlenden Werten muss in der Abb. 5.39 eine multivariate Imputationsmethode gewählt werden. Besitzen diese Variablen außerdem bestimmte komplexere Strukturen bei den Missings, kommt nur eines der vielschichtigeren Verfahren in Frage (entweder „Sequential imputation using chained equations“ oder „Multivariate nor-
346
5 Fehlende Datenwerte/Missing Values
Abb. 5.41 Output Multiple Imputation
mal regression“). Diese erläutert Medeiros (2016) kurz und Stata 15 (2017a, S. 114–265) in ausführlicher Form. Der erste Schritt „Imputation“ ist damit durchgeführt. Die nächsten beiden Schritte – „Analyze“ und „Pooling“ – führt Stata zusammen durch. Wir verwenden dazu die links in der Abb. 5.39 sichtbare Option „Estimate“. Anschließend stehen uns alle Regressionsverfahren zur Auswahl, die auf der Grundlage der imputierten 50 Datensätze möglich sind (siehe Abb. 5.42). Unsere Schätzung ist eine lineare Regression. Diese Möglichkeit aktivieren wir, und mit dem Button „Go -->“ geht es weiter. Es erscheint das uns bekannte Menü der linearen Regression. Hier spezifizieren wir unser Modell mit der abschlussnote als abhängiger Variable. Nach „OK“ gelangen wir zurück zu Abb. 5.42. Dort führen wir die Regression mit Klick auf den Button „Submit“ durch. Den Output dazu enthält Abb. 5.43. Im Hintergrund hat Stata 50 Regressionen dieses Modells basierend auf den 50 verschiedenen Imputationen berechnet und diese 50 Ergebnisse gepoolt, um daraus verlässliche Koeffizientenschätzungen und Standardfehler zu ermitteln. Damit das funktioniert, muss der Datensatz als multipel imputierter Datensatz definiert sein! Das hatten wir – wie oben beschrieben – mittels „Setup“ durchgeführt. Das Gesamtmodell ist signifikant: Der F-Wert beträgt 18,83 und dessen empirisches Signifikanzniveau liegt unter 0,0000. Eine Einschätzung der Qualität der Imputation ist mittels des „Average RVI“ und des „Largest FMI“ rechts oben in Abb. 5.43 möglich. Der RVI (Relative Variance Increase) misst die durchschnittliche relative Erhöhung der Varianz der Koeffizientenschätzungen, die auf die fehlenden Daten für ausbildung zurückzuführen ist. Je näher der RVI bei 0 liegt, desto geringeren Einfluss haben die Missing Data. Dies ist wünschenswert und hier gegeben, da der RVI 0,1080 beträgt. Der FMI (Fraction of Missing Information) ist der höchste Anteil an fehlenden Informationen bei einem der Koeffizienten. Er wird benutzt, um einzuschätzen, ob die Zahl der Imputationen M groß genug war. Nach einer Faustregel sollte M ≥ 100×FMI sein (Stata 15 2017a, S. 48). Hier
5.6 Durchführung in SPSS und Stata
347
Abb. 5.42 Schätzung auf Basis der Imputationen
ergibt sich ein Wert von 43,31 (100×0,4331). Mit den durchgeführten 50 Imputationen wird diese Regel eingehalten. Weitere Analysen lassen wir wegen unseres sehr einfachen Imputationsmodells hier außer Betracht. Sie sollten aber bei Einsatz der komplexen multivariaten Imputationsverfahren durchgeführt werden (siehe dazu UCLA 2016; SSCC 2017; Williams 2018). Die Koeffizientenschätzungen verdeutlichen, dass neben den exogenen Variablen hzb_ note und hzb_gymnasium auch das Abschlussdatum einen Einfluss auf die Endnote des Studiums besitzt (alle drei sind auf dem 5-%-Niveau signifikant). Die anderen exogenen Variablen haben keinen statistisch nachweisbaren Einfluss. Alternativ lässt sich das ganze Verfahren als eine Reihe von Befehlsfolgen im Feld „Command“ durchführen. Dies ist wie folgt deutlich schneller durchführbar: „mi set wide mi register imputed ausbildung mi impute logit ausbildung hzb_note weiblich abschlussdatum hzb_gymnasium alter_immatrik abschlussnote, add(50) rseed(12345) mi estimate: regress abschlussnote hzb_note weiblich abschlussdatum hzb_gymnasium alter_immatrik ausbildung“
348
Abb. 5.43 Schätzung mit imputierten Werten
Abb. 5.44 FIML mittels GUI
5 Fehlende Datenwerte/Missing Values
5.6 Durchführung in SPSS und Stata
349
Die erste Zeile identifiziert den Datensatz für eine multiple Imputation. Die zweite Zeile registriert die Variable ausbildung als Variable mit fehlenden Daten, die imputiert werden müssen. Die dritte und vierte Zeile führen 50 Imputationen mittels einer logistischen Regression durch. Dabei sind die Zufallszahlen mit dem Ausgangswert 12.345 reproduzierbar. Die fünfte und sechste Zeile schätzen die Regressionsgleichung. Das FIML-Verfahren ist in Stata im Rahmen der Schätzung von Strukturgleichungsmodellen (SEM – Structural Equation Modeling) möglich. Anhang I erläutert das dabei eingesetzte Maximum-Likelihood-Schätzverfahren grafisch und verbal. Strukturgleichungsmodelle werden in Form von Pfaddiagrammen grafisch entwickelt und dargestellt. Dies wird hier extrem knapp (in Form einer „Blindfluganleitung“) für den einfachen Fall behandelt, dass nur bei einer Variable Missings existieren. Für komplexere Strukturen ist die am Ende dieses Abschnitts genannte Literatur heranzuziehen. Über „Statistics > SEM (Structural equation modeling) > Model building and estimation“ öffnet sich das Graphical User Interface (GUI) von Stata. Allerdings besteht hier nicht die Absicht, ein komplexes SEM-Modell mit latenten Variablen und Wirkungspfaden zu schätzen. Wir arbeiten ausschließlich mit beobachteten Variablen, und die Spezifikation besteht aus einer abhängigen Variable (abschlussnote), die linear additiv von 6 exogenen Variablen (hzb_note, weiblich, abschlussdatum, hzb_ gymnasium, alter_immatrik und ausbildung) beeinflusst wird. Diese einfache lineare Regression lässt sich am schnellsten wie folgt über das Kommandofeld umsetzen: „sem (abschlussnote Model building and estimation“. Es erscheint ein kariertes Blatt, auf dem wir unser Modell bilden können. Dies ermöglicht die für Strukturgleichungsmodelle übliche grafische Darstellung der Beziehungen zwischen den Variablen mittels GUI (Graphical User Interface). In unserem Beispiel einer einfachen linearen Regression aktivieren wir am linken Rand das Symbol (siehe Abb. 5.44). Es steht für die Einfügung einer Regression („Add regression component (R)“). Nach Anklicken des in der karierten Fläche nun auftauchenden Kreuzes erscheint das Menü „Regression component“ zur Spezifikation einer Regression. Wir geben hier die
350
5 Fehlende Datenwerte/Missing Values
Abb. 5.45 Pfaddiagramm im GUI von Stata
abhängige Variable abschlussnote und unsere 6 exogenen Variablen ein.23 Die sonstigen Voreinstellungen ändern wir nicht (bspw. unter „Independent variables’ direction“ die Richtung „Left“). Nach „OK“ sehen wir das Pfaddiagramm unseres linearen Regressionsmodells auf der karierten Fläche wie in Abb. 5.45. Anschließend gehen wir oben in der Menüleiste auf: „Estimation > Estimate“. Im Reiter „Model“ aktivieren wir die Option „Maximum likelihood with missing values“. Ansonsten werden die Default-Einstellungen nicht geändert. Nach „OK“ fragt Stata nach, ob erstens die Interaktionseffekte zwischen jeweils zwei Variablen aufgenommen werden sollen (dies verneinen wir) und zweitens, ob die Schätzergebnisse unabhängig von den zusätzlich möglichen Interaktionseffekten mit drei und mehr Variablen gezeigt werden sollen (dies bejahen wir). Danach erscheinen die Schätzungen der Regressionskoeffizienten im Pfaddiagramm des GUI. Bspw. steht jetzt am Pfeil von der exogenen Variable hzb_note zur endogenen Variable abschlussnote der Koeffizient 0,27. Dabei ist zu beachten, dass alle Variablen kleingeschrieben werden, da in der Prozedur SEM alle beobachteten Variablen nur so akzeptiert werden. Großgeschriebene Variablen sind hier für die sogenannten „latenten Variablen“ reserviert. 23
5.6 Durchführung in SPSS und Stata
351
Übersichtlicher ist aber die gleichzeitige Ausgabe der Schätzergebnisse im normalen Output-Fenster. Abb. 5.46 enthält (nur in Auszügen) die dort befindliche Regressionsschätzung von Stata. Uns interessiert hier lediglich der Anfang des Outputs unter der Überschrift „Structural“. Rechts oben wird deutlich, dass die FIML-Schätzung auf allen 634 Beobachtungen beruht, obwohl nur 374 komplette Beobachtungen vorhanden sind. Wie erläutert, benutzt das FIML-Verfahren sämtliche Informationen, das heißt alle existierenden Daten, für die Schätzung der Koeffizientenwerte und ihrer Standardfehler. Die fehlenden Werte werden dabei nicht imputiert. Im Ergebnis stimmen die Koeffizienten und ihre Signifikanzniveaus mit den Resultaten der multiplen Imputation überein. Die uns geläufigen t-Werte fehlen, stattdessen sind in Abb. 5.46 „z“-Werte aufgelistet. In großen Stichproben (n > 30) sind beide (asymptotisch) gleich. Die Interpretation der empirischen Signifikanzniveaus ändert sich aber nicht. Ergänzend lassen sich über „Statistics > SEM (structural equation modeling) > Goodness of fit > Overall goodness of fit“ eine Reihe von Informationen zur Anpassungsgüte des Modells berechnen. Dazu geben wir im auftauchenden Menüfenster – im Feld „Statistics to be displayed“ – „all“ ein. Zum Beispiel liegt der Determinationskoeffizient (hier als CD – Coefficient of determination – bezeichnet) bei 0,168. Dies entspricht fast völlig dem korrigierten R2 der Listwise Deletion (siehe Abb. 5.11) und auch der Mittelwertimputation (siehe Abb. 5.37). Die Schätzmethode mlmv (Maximum Likelihood with Missing Values) innerhalb der Prozedur SEM setzt voraus, dass MCAR oder MAR vorliegt und die Daten multivariat normalverteilt sind (Stata 2017b, S. 312). Zusammenfassend wird deutlich, dass die Schätzungen auf der Basis der multiplen Imputation und des FIML-Verfahrens zu fast identischen Ergebnissen führen. Dies gilt für die geschätzten Koeffizienten und deren Standardfehler. Eine höhere (d. h. schlechtere) hzb_note bedingt eine höhere (und damit schlechtere) Abschlussnote im Studium. Daneben sind die Art der Hochschulzugangsberechtigung und das Abschlussdatum auf dem 5-%-Niveau einflussreich. Statistisch nicht signifikant sind dagegen das Geschlecht (weib-
Abb. 5.46 FIML-Verfahren zur Schätzung
352
5 Fehlende Datenwerte/Missing Values
lich), das Alter bei der Immatrikulation (alter_immatrik) und eine Berufsausbildung vor dem Beginn des Studiums (ausbildung). Im Vergleich ist die Listwise Deletion kein geeignetes Verfahren, obwohl ihre Koeffizientenschätzungen mit den anderen beiden Methoden weitgehend übereinstimmen: Aufgrund der stark abnehmenden Fallzahl wird bei ihr der Einfluss des Abschlussdatums nicht entdeckt. Im obigen Beispiel führt sogar die (nicht empfehlenswerte) Mittelwertimputation zu den gleichen Resultaten. Medeiros (2016) und SSCC (2017) bieten kurze Einführungen. Williams (2015, 2018) gibt einen guten Überblick. Acock (2018, S. 417–469) beschreibt die multiple Imputation und die FIML-Methode in Stata genauer. Das Vorgehen und die Möglichkeiten im Rahmen der multiplen Imputation werden ausführlich und anhand von Beispielen im entsprechenden Stata-Handbuch Stata 15 (2017a) erläutert. Die Verwendung linearer Strukturgleichungsmodelle in Stata erläutert Aichholzer (2017) einführend und nachvollziehbar. Ausführlichere Darstellungen bietet Stata 15 (2017b).
5.7
Übungsaufgaben
Übung 5.1: Fehlende Werte Pkw-Beispiel 1 Verwenden Sie den Datensatz „PKW-Beispiel_Missings_1“ (als SPSS-Datensatz mit der Endung „sav“ und als Stata-Datenfile mit der Endung „dta“). Es handelt sich dabei um den Datenfile der Tab. 5.1. Es existieren Beobachtungen für 15 Verkaufsregionen eines Automobilproduzenten. Unsere 4 Variablen werden in der Legende zu Tab. 5.1 erläutert. Wir wollen die verkaufte Menge an Pkw einer Region in einem Quartal anhand der exogenen Variablen kontakte, preis und budget erklären. a) Überprüfen Sie die Struktur der fehlenden Werte. Setzen Sie dabei geeignete Verfahren in SPSS bzw. in Stata ein. Wie viele komplette Beobachtungen existieren? Welche der 4 Variablen weisen fehlende Daten auf? Beschreiben Sie die Struktur (das Muster) der Missings. b) Überprüfen Sie die MCAR-Bedingung mittels des Tests von Little. c) Kontrollieren Sie mithilfe einer logistischen Regression, ob die MCAR-Eigenschaft für die fehlenden Werte der Variable kontakte vorliegt. d) Führen Sie eine lineare Regression mit erstens fallweisem Ausschluss sowie zweitens der Mittelwertimputation durch, um festzustellen, inwieweit die abhängige Variable absatzmenge von den Variablen kontakte, preis und budget beeinflusst wird. e) Verwenden Sie die Methode der multiplen Imputation (mit 20 Imputationen), um die Missings im Datensatz zu ersetzen. Schätzen Sie die lineare Regression der Teilfrage d) auf der Basis der 20 imputierten Datensätze. Welches Resultat folgt bei einer FIML-Schätzung für diese Regression? f) Vergleichen Sie die Ergebnisse aus den Teilaufgaben d) und e) mit den Resultaten einer Regressionsschätzung auf Basis des kompletten Datensatzes „PKW-Beispiel“.
5.8 Lösungen
353
Übung 5.2: Fehlende Werte Pkw-Beispiel 2 Wir verwenden jetzt den Datensatz „PKW-Beispiel_Missings_2“. Beantworten Sie auf der Basis dieses neuen Datensatzes die Teilfragen a) bis f) der Übung 5.1. Vergleichen Sie erstens die Resultate mit denen aus der Übung 5.1. Welche Gemeinsamkeiten und Unterschiede sind festzustellen? Vergleichen Sie zweitens die Resultate mit dem (hier ausnahmsweise bekannten) wahren Einfluss des Preises. Erläutern Sie Ihre Feststellungen.
5.8
Lösungen
Lösung 5.1 a) Der Datensatz ist in der Tab. 5.1 abgebildet. Da es sich nur um 15 Fälle und 4 Variablen handelt, kann die Struktur der Missings leicht durch einen Blick auf diese Tabelle erfasst werden. Die Ergebnisse bei Verwendung von Stata zeigt Abb. 5.47 auszugsweise. Nur die Kennzeichnungsvariable Region – inhaltlich bedeutungslos – ist komplett. Alle anderen Variablen weisen einen oder zwei fehlende Werte auf: 67 % der Beobachtungen sind komplett, bei 13 % fehlt der Wert für den Preis, bei 7 % für das Budget, bei 7 % für die Absatzmenge sowie bei 7 % für Budget und Absatzmenge gleichzeitig. misstable summarize, all Obs. Obs chi-square = 0,7294“. SPSS: „Chi-Quadrat = 7,789“, „Sig. = ,732“. c) Die logistische Regression zur Überprüfung systematischer Unterschiede zwischen den Beobachtungen mit und ohne Missings hinsichtlich der Variablen kontakte bestätigt, dass keine signifikanten Abhängigkeiten von den anderen Variablen (absatzmenge, preis und budget) vorhanden sind. Prinzipiell müssten wir dies für alle 4 Variablen durchführen. In diesem Beispiel teilen uns aber Stata und SPSS bei den restlichen 3 Variablen mit, dass mathematisch die Berechnung der erforderlichen logistischen Regression nicht möglich ist. Grund hierfür ist die geringe Zahl von Beobachtungen bzw. weil zum Teil ja nur ein einziger Datenwert bei einer Varia blen fehlt. d) Auf Grundlage der Ergebnisse aus b) und c) können wir die Annahme der MCAR- Bedingung beibehalten, da diese nicht widerlegt wird. Folglich ist die Methode der Listwise Deletion prinzipiell verwendbar. Die multiple Imputation und die FIML- Methode sind ebenfalls einsetzbar und besitzen darüber hinaus den Vorteil größerer Effizienz. Beispielhaft wird hier das Resultat der Mittelwertimputation bei Verwendung von SPSS widergegeben (siehe Abb. 5.48).
e) und f) Exemplarisch enthält Abb. 5.49 das Resultat der FIML-Schätzung mittels der Prozedur SEM in Stata. Wir verwenden die Methode mlmv, da diese alle Beobachtungen einbezieht. Im Vergleich mit dem wahren Zusammenhang, den wir in diesem konstruierten Datensatz ausnahmsweise kennen (siehe Stoetzer 2017, S. 57) und den hier noch einmal Abb. 5.50 zeigt, schneidet der fallweise Ausschluss am besten ab. Auch das FIML- Verfahren deckt die wahren Zusammenhänge recht gut auf. Die Mittelwertmethode liegt am weitesten daneben, bei ihr ist bspw. der Preis kein signifikanter Einflussfaktor. Lösung 5.2 a) bis f): Es fehlen in diesem Datensatz jetzt 5 Daten bei der Variablen preis. Little’s Test zeigt, dass die MCAR-Annahme zu verwerfen ist. Auf der Grundlage der Listwise Deletion besitzt die Variable preis keinen Einfluss auf die Absatzmenge. Aber auch die Methode der multiplen Imputation (20 Imputationen) bestätigt dieses Resultat. Die FIML- Methode kommt ebenfalls zu diesem (falschen) Ergebnis. In diesem Beispiel ist keines der Verfahren in der Lage, den wahren Einfluss des Preises auf die verkaufte Menge zu identifizieren. Dies resultiert, weil im Datensatz „PKW- Beispiel_Missings_2“ die fehlenden Werte der Variable preis die MNAR Eigenschaft auf-
5.8 Lösungen
355 Koeffizientena
Modell 1
Nicht standardisierte
Standardisierte
Koeffizienten
Koeffizienten
B (Konstante)
Standardfehler
110,303
24,337
3,016
,320
-1,143 1,933
Beta
T
Sig.
4,532
,001
,892
9,424
,000
1,358
-,080
-,842
,418
,590
,307
3,278
,007
Zahl der Kontakte der regionalen Produktmanager Nettoverkaufspreis in Tausend Marketingbudget der Region in Tausend
a. Abhängige Variable: Stückzahl der verkauften Pkw
Abb. 5.48 SPSS Mittelwertimputation sem (absatzmenge |z| [95% Conf. Interval] -----------------+---------------------------------------------------------------Structural | absatzmenge F R-squared Adj R-squared Root MSE
= = = = = =
15 390.64 0.0000 0.9907 0.9882 1.634
-----------------------------------------------------------------------------Absatzmenge | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Kontakte | 3.055884 .1036244 29.49 0.000 2.827808 3.283959 Preis | -1.501242 .4730021 -3.17 0.009 -2.542313 -.4601717 Budget | 2.406905 .1965572 12.25 0.000 1.974286 2.839525 _cons | 104.6473 7.816077 13.39 0.000 87.44425 121.8504 ------------------------------------------------------------------------------
Abb. 5.50 Pkw-Beispiel auf dem kompletten Datensatz ohne Missings
356
5 Fehlende Datenwerte/Missing Values
weisen (also weder MCAR noch MNR vorliegt): Es fehlen systematisch alle Preise, die kleiner sind als 14. Die Missings der Variable preis hängen also von den Werteausprägungen genau dieser Variablen ab.
Literatur Acock, A. C. (2005). Working with missing values. Journal of Marriage and Family, 67, 1012–1028. Acock, A. C. (2018). A gentle introduction to Stata (6. Aufl.). College Station: Stata Press. Aichholzer, J. (2017). Einführung in lineare Strukturgleichungsmodelle mit Stata. Wiesbaden/New York: Springer VS. Allison, P. D. (2002). Missing data. Thousand Oaks: SAGE Publications. Allison, P. D. (2010). Missing data. In J. D. Wright & P. V. Marsden (Hrsg.), Handbook of survey research (S. 631–657). Bingley: Emerald Publishing. Allison, P. D. (2012). Handling missing data by maximum likelihood, SAS Global Forum 2012, Paper: 312-2012. 20.09.2019. AMOS Development. (2019). http://amosdevelopment.com/support/faq/no_gfi.htm. Zugegriffen am 25.05.2019. Arbuckle, J. L. (2016). IBM SPSS Amos 24 user guide. ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/24.0/en/amos/Manuals/IBM_SPSS_Amos_User_Guide. pdf. Zugegriffen am 05.08.2019. Backhaus, K., & Blechschmidt, B. (2009). Fehlende Werte und Datenqualität – Eine Simulationsstudie am Beispiel der Kausalanalyse. Die Betriebswirtschaft, 69(2), 265–287. Baltes-Götz, B. (2013). Behandlung fehlender Werte in SPSS und AMOS, Universität Trier. https:// www.uni-trier.de/fileadmin/urt/doku/bfw/bfw.pdf. Zugegriffen am 05.08.2019. van Buuren, S. (2018). Flexible imputation of missing data (2. Aufl.). Boca Raton: Chapman and Hall/CRC. Carpenter, J. R., & Kenward, M. G. (2013). Multiple imputation and its application. Chichester: Wiley. Enders, C. K. (2003). Using the expectation maximization algorithm to estimate coefficient alpha for scales with item-level missing data. Psychological Methods, 8(3), 322–337. https://doi.org/ 10.1037/1082-989x.8.3.322. Enders, C. K. (2010). Applied missing data analysis. New York: The Guilford Press. Fox, J. (2016). Applied regression analysis & generalized linear models (3. Aufl.). Thousand Oaks: SAGE Publications. Graham, J. W. (2012). Missing data: Analysis and design. Heidelberg/New York: Springer. Graham, J. W., Cumsille, P. E., & Elek-Fisk, E. (2003). Methods for handling missing data. In J. A. Schinka & W. F. Velicer (Hrsg.), Handbook of psychology: Research methods in psychology (Bd. 2, S. 87–114). New York. Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3. Aufl.). Hoboken: Wiley. IBM SPSS 20. (2011). IBM SPSS 20 missing values. ftp://public.dhe.ibm.com/software/analytics/ spss/documentation/statistics/20.0/de/client/Manuals/IBM_SPSS_Missing_Values.pdf, Zugegriffen am 01.08.2020. IBM SPSS 25. (2017). IBM SPSS 25 missing values. ftp://public.dhe.ibm.com/software/analytics/ spss/documentation/statistics/25.0/de/client/Manuals/IBM_SPSS_Missing_Values.pdf, Zugegriffen am 01.08.2020.
Literatur
357
Laaksonen, S. (2018). Survey methodology and missing data: Tools and techniques for practitioners. Berlin: Springer. Lehmann, Th. (2005). Behandlung von fehlenden Werten bei nicht ignorierbaren Ausfallmechanismen, Dissertation, FSU Jena. http://d-nb.info/974105635. Zugegriffen am 11.09.2019. Li, C. (2013). Little’s test of missing completely at random. The Stata Journal, 13(4), 795–809. Little, R. J. A., & Rubin, D. B. (2014). Statistical analysis with missing data (2. Aufl.). Hoboken: Wiley. Medeiros, R. (2016). Handling missing data in Stata: Imputation and likelihood-based approaches, 2016 Swiss Stata Users Group meeting. www.stata.com/meeting/switzerland16/slides/ medeiros-switzerland16.pdf. Zugegriffen am 11.09.2019. Peugh, J. L., & Enders, C. K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525–556. Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581–592. https://doi.org/10.1093/ biomet/63.3.581. Rubin, D. B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association, 91(434), 473–489. Rudolf, M., & Müller, J. (2004). Multivariate Verfahren. Göttingen/Bern/Toronto: Hogrefe. Spieß, M. (2008). Missing-Data-Techniken: Analyse von Daten mit fehlenden Werten. Münster: LIT. SSCC. (2017). Social science computing cooperative, multiple imputation in Stata, Section 1-8, University of Wisconsin. www.ssc.wisc.edu/sscc/pubs/stata_mi _intro.htm. Zugegriffen am 04.08.2019. Stata 15. (2017a). Multiple imputation reference manual, Release 15, College Station, Texas. www. stata.com/manuals/mi.pdf. Zugegriffen am 26.07.2019. Stata 15. (2017b). Structural equation modeling reference manual, Release 15, College Station, Texas. www.stata.com/manuals/sem.pdf. Zugegriffen am 20.05.2019. Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung (Bd. 1). Berlin: Springer. UCLA. (2016). University of California Los Angeles, IDRE – Institute for Research and Digital Education, Multiple imputation in Stata. https://stats.idre.ucla.edu/stata/seminars/mi_in_stata_ pt1_new/. Zugegriffen am 30.08.2019. Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden: Springer VS. Vroomen, M., Eekhout, J. I., Dijkgraaf, M. G., van Hout, H., de Rooij, S. E., Heymans, M. W., & Bosmans, J. E. (2016). Multiple imputation strategies for zero-inflated cost data in economic evaluations: Which method works best? The European Journal of Health Economics, 17(8), 939–950. https://doi.org/10.1007/s10198-015-0734-5, Zugegriffen am 17.07.2019. Weiber, R., & Mühlhaus, D. (2014). Strukturgleichungsmodellierung (2. Aufl.). Berlin/Heidelberg: Springer. White, I. R., Royston, P., & Wood, A. M. (2011). Multiple imputation using chained equations: Issues and guidance for practice. Statistics in Medicine, 30(4), 377–399. https://doi.org/10.1002/ sim.4067. Williams, R. (2015). Missing data part I: Overview, traditional methods. University of Notre Dame. https://www3.nd.edu/~rwilliam/stats2/l12.pdf. Zugegriffen am 01.09.2019. Williams, R. (2018). Missing data part II: Multiple imputation. University of Notre Dame. https:// www3.nd.edu/~rwilliam/stats2/l13.pdf. Zugegriffen am 01.09.2019.
6
Anhang I Maximum-Likelihood-Schätzung
6.1
Einführung in die Maximum-Likelihood-Schätzung
Die Maximum-Likelihood-Schätzung (ML) ist eine Alternative zur OLS-Schätzung. Sie findet vor allem bei der Schätzung von Parametern nicht linearer Zusammenhänge Verwendung. Dazu gehören Verfahren bei abhängigen Variablen, die nicht metrisch bzw. intervallskaliert sind. Dies sind u. a. die Logit- und Probitregressionen sowie multinomiale und ordinale Regressionen. Außerdem sind ML-Schätzungen geeignet, mit dem Problem von Missing Values umzugehen und darüber hinaus simultane Gleichungssysteme zu schätzen.1 Die Maximum-Likelihood-Schätzung basiert auf einem Modell der Verteilung der Daten in der Grundgesamtheit. Üblicherweise wird in den Sozialwissenschaften davon ausgegangen, dass diese Daten normalverteilt sind. Da die Regressionsanalyse häufig die Beziehung zwischen einer abhängigen und mehreren (oder sogar sehr vielen) unabhängigen Variablen modelliert, wird entsprechend eine multivariate Normalverteilung (NV) unterstellt. Für andere Verteilungen ist das ML-Verfahren aber entsprechend modifiziert verwendbar. Zur Vereinfachung unterstellen wir im Folgenden eine univariate NV. Das Prinzip kann so verständlich dargestellt werden. Als Beispiel untersuchen wir die Ausgaben von Studierenden in Deutschland im Jahr 2018. Wir verfügen über eine Stichprobe von 5 Studierenden. Deren monatliche Ausgaben enthält Tab. 6.1. Unsere Forschungsfrage lautet: Was geben Studierende in Deutschland im Durchschnitt im Monat aus? Zur Schätzung dieser mittleren Ausgaben verfügen wir über die 5
Ein weiteres hier nicht behandeltes Schätzverfahren ist die Momentenmethode (englisch: Methods of Moments bzw. die verallgemeinerte Momentenmethode (Generalized Method of Moments GMM)). Sie wird erläutert von Ashley (2012, S. 658–670) und Hill et al. (2008, S. 276–278).
1
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. -W. Stoetzer, Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2, https://doi.org/10.1007/978-3-662-61438-9_6
359
360
6 Anhang I Maximum-Likelihood-Schätzung
Beobachtungen der Tab. 6.1. Abb. 6.1 enthält auf der x-Achse die Ausgaben unserer 5 Studierenden. Auf der y-Achse ist die Wahrscheinlichkeit abgetragen. Die ML-Schätzung basiert auf der Idee, dass die Beobachtungen in unserer Stichprobe mit einer größeren Wahrscheinlichkeit aus einer bestimmten Grundgesamtheit stammen als aus einer anderen Grundgesamtheit. In der Abb. 6.1 sind zwei solche möglichen Verteilungen der Ausgaben der Studierenden in der Grundgesamtheit eingezeichnet. Dies sind die Funktionen A und B. Dabei ist unterstellt, dass die Ausgaben der Studierenden in der Grundgesamtheit eine Normalverteilung aufweisen. Es ist offensichtlich, dass die Verteilung A besser zu unseren 5 Beobachtungen „passt“ als die Verteilung B. Anders formuliert: Es ist sehr unwahrscheinlich, dass wir zufällig unsere 5 Beobachtungen erhalten, wenn tatsächlich die Ausgaben aller Studierenden in Deutschland der Verteilung B entsprechen – also bspw. einen Mittelwert von ca. 1000 Euro aufweisen. Dies ist plausibel, weil Ralf mit 981 Euro pro Monat die höchsten Ausgaben tätigt und selbst er – wie alle anderen Studierenden unserer Stichprobe – unter dem Mittelwert der Verteilung B liegt.2 Dieses Prinzip der ML-Schätzung kann mathematisch präzise formuliert und anschließend zur Schätzung des Mittelwerts eingesetzt werden. Zur besseren Illustration ziehen wir in unserem Beispiel den tatsächlichen Mittelwert heran. Faktisch gaben Studierende im Jahr 2017 im Durchschnitt einschließlich Miete und Sozialversicherungsbeiträgen moTab. 6.1 Monatliche Ausgaben Name Ausgaben (€)
Jens 683
Friederike 781
Julia 844
Silko 883
Ralf 981
Wahrscheinlichkeit
A
683
781
844
B
883
981
Ausgaben
Abb. 6.1 Prinzip der ML-Schätzung Bei nur 5 Beobachtungen wäre es möglich, dass wir 5 Studierende mit stark unterdurchschnittlichen Ausgaben „erwischt“ haben. Bei einer echten Zufallsstichprobe wird dies aber nicht häufig der Fall sein. Und wenn unsere Zufallsstichprobe 30 Studierende umfasst, ist es extrem selten, rein zufällig 30 Studierende alle mit unterdurchschnittlichen Ausgaben vorzufinden.
2
6.1 Einführung in die Maximum-Likelihood-Schätzung
361
natlich 832 Euro aus (Dohmen et al. 2019, S. 11). Wir unterstellen, zusätzlich zur Annahme der Normalverteilung der Ausgaben, dass die Standardabweichung dieser Ausgaben 145 Euro beträgt. Die Dichtefunktion (genauer Wahrscheinlichkeitsdichtefunktion oder englisch: Probability Density Function) einer normalverteilten Variablen Y lautet allgemein:
L ( Y )i =
1 2πσ 2
−0 ,5 ( Yi − µ )
e
2
σ2
(6.1)
In unserem Beispiel bezeichnet die Variable Yi die monatlichen Ausgaben eines Studierenden i. Der Mittelwert μ beträgt hier 832 Euro, die Standardabweichung σ ist gleich 145 Euro (und entsprechend ist σ2 die Varianz). Li (bzw. f(Yi)) ist die Likelihood. Sie entspricht der Höhe der Normalverteilungskurve bei einem bestimmten Umfang der monatlichen Ausgaben. Die obige Dichtefunktion (6.1) beschreibt die Wahrscheinlichkeit, einen bestimmten Wert für die Ausgaben eines Studierenden zu erhalten (bspw. bei einer Befragung zur sozialen Lage), wenn wir wissen, dass die Studierenden in Deutschland im Mittel 832 Euro ausgeben und die Abweichung davon im Durchschnitt bei 145 Euro liegt. Die Gl. (6.1) ist nicht allzu komplex. Entscheidenden Einfluss auf die Höhe der Likelihood Li hat der Term (Yi − μ)2/σ2. Dies ist der bekannte z-Wert aus der z-Transformation, mit der wir Variablenwerte standardisieren und so skalierungsunabhängig und vergleichbar machen (siehe Stoetzer 2017, Abschn. 2.3.4).3 Der einzige Unterschied besteht darin, dass der z-Wert quadriert wird. Dieser Wert beschreibt die standardisierte Abweichung zwischen den Ausgaben eines Studierenden Yi vom Mittelwert, d. h. den 832 Euro. Der linke Teil der Gl. (6.1) ist nur ein Skalierungsfaktor. Er sorgt dafür, dass die Fläche (das Integral) unter dieser Funktion gleich 1 ist. Dies ist intuitiv nachvollziehbar: Die aufsummierte Wahrscheinlichkeit der Ausgaben aller Studierenden muss bei 100 % – also 1 – liegen. Dieser Teil der Gl. (6.1) ist für das Verständnis der Maximum-Likelihood- Schätzung nicht wichtig. Die ML-Methode verwendet die Funktion (6.1), um die Parameter einer Verteilung zu schätzen. Ein solcher Parameter ist der Mittelwert, und wir wissen, dass der Koeffizient einer Regression nichts anders darstellt als einen solchen (bedingten) Mittelwert (siehe Stoetzer 2017, Abschn. 2.2). Hier kennen wir den Mittelwert (er beträgt 832 Euro). Er muss also eigentlich nicht geschätzt werden, aber so lässt sich das Verfahren leichter erläutern. Jens gibt 683 Euro aus. Wie groß ist die Wahrscheinlichkeit, genau 683 Euro auszugeben, wenn im Mittel alle Studierenden 832 Euro ausgeben und die Standardabweichung bei 145 Euro liegt? Die Dichtefunktion der Abb. 6.2 zeigt diese Wahrscheinlichkeit. Ausgaben in Höhe von 683 Euro treten mit einer Wahrscheinlichkeit von 0,0016227 auf. Julia hat monatliche Ausgaben in Höhe von 844 Euro. Dieser Wert besitzt eine Wahrscheinlich-
Zur Erinnerung: Wir ziehen von allen Werten deren Mittelwert ab (=μ) und dividieren durch die Standardabweichung σ. Daraus ergeben sich bspw. die Beta-Koeffizienten der Regression.
3
362
6 Anhang I Maximum-Likelihood-Schätzung
0
.001
y
.002
.003
keit von 0,0027419. Diese Wahrscheinlichkeiten lassen sich grafisch in der Abb. 6.2 natürlich nur annähernd ablesen. Auf diese Weise ist es möglich, für jeden konkreten Ausgabewert die Likelihood seines Auftretens zu bestimmen. Der Ausdruck „Likelihood“ ist sinnvoller als der Begriff „Wahrscheinlichkeit“, denn die Wahrscheinlichkeit, Ausgaben in der Höhe von exakt 629,00 Euro zu beobachten, ist fast gleich 0. Insbesondere bei kontinuierlichen metrischen Variablen liegt dies auf der Hand. Likelihoods können aber als relative Wahrscheinlichkeiten aufgefasst werden. Die Wahrscheinlichkeit, bei einem Studierenden Ausgaben in Höhe von 844 Euro zu beobachten, ist (deutlich) größer als die Wahrscheinlichkeit, dass ein Studierender nur 683 Euro ausgibt. Genau diese Information vermitteln uns die Likelihood-Werte. Die Höhe der Likelihood-Funktion der Abb. 6.2 zeigt die Likelihood für einen bestimmten konkreten Datenwert. Ihr Maximum hat die Likelihood bei Ausgaben in Höhe von 832 Euro, dem Mittelwert. Je weiter ein bestimmter Wert der monatlichen Ausgaben davon weg liegt, desto kleiner ist die Likelihood (die Wahrscheinlichkeit), dass er in unserer Umfrage bei einem der befragten Studierenden auftritt. Die Likelihood kann als ein Maß für die Übereinstimmung (den Fit) zwischen einer Ausgabenhöhe und den Parametern der Grundgesamtheit – also hier unserem Mittelwert von 832 Euro und unserer Standardabweichung von 145 Euro – aufgefasst werden. Dass in unserer Umfrage ein Studierender mehr als 1500 Euro pro Monat ausgibt, ist extrem selten und entsprechend winzig ist die Likelihood. Dies korrespondiert mit einem großen z-Wert in der Gl. (6.1), während kleine z-Werte zu einer großen Likelihood führen. Eine große Likelihood ist also Resultat eines guten Fits des Beobachtungswertes mit den Parametern der Grundgesamtheit. Tab. 6.2 enthält in Spalte 3 die Likelihoods der 5 Studierenden.
400
600
800 x
Abb. 6.2 Normalverteilung mit μ = 832 und σ = 145
1000
1200
Ausgaben
6.1 Einführung in die Maximum-Likelihood-Schätzung
363
Tab. 6.2 Individuelle Likelihoods und Log-Likelihoods Name Jens Friederike Julia Silko Ralf
Ausgaben 683 781 844 883 981
Likelihood 0,0016227 0,0025863 0,0027419 0,0025863 0,0016227
Log Likelihood −6,423638 −5,957527 −5,899096 −5,957527 −6,423638
Unser Problem ist aber, dass wir die Parameter (Mittelwert und Standardabweichung eines Regressionskoeffizienten) in der Grundgesamtheit nicht kennen. Die ML-Schätzung zielt darauf ab, die Parameter der Grundgesamtheit zu ermitteln, die am besten zu den beobachteten Werten unserer Stichprobe passen. Das sind die Parameter, die die Likelihood maximieren. Allerdings haben wir ja eine ganze Reihe von Beobachtungen (siehe oben die 5 Ausgabenwerte unserer 5 Studierenden). Daher müssen wir die gemeinsame Likelihood dieser 5 Datenwerte maximieren.4 Die Wahrscheinlichkeitstheorie sagt uns, dass die gemeinsame Wahrscheinlichkeit unabhängiger Ereignisse das Produkt der Einzelwahrscheinlichkeiten ist. Bei einem fairen Würfel ist die Wahrscheinlichkeit, eine Sechs zu würfeln, gleich 1/6, d. h. 0,1666 (bzw. 16,66 %). Die Wahrscheinlichkeit, zweimal hintereinander eine Sechs zu erhalten, liegt bei 0,1666 × 0,1666, d. h. 0,0277, also 2,77 %. Dies gilt auch für die Likelihood-Werte. Die Likelihood unserer 5 Beobachtungen (= N), d. h. der Studierenden aus Tab. 6.1, entspricht dem Produkt der einzelnen Likelihoods. Die entsprechende Gleichung lautet: L=∏
N i =1
−0 ,5 ( Yi − µ ) 1 σ2 e 2 2πσ
2
(6.2)
Rechts in Gl. (6.2) befindet sich die Gl. (6.1) für die Likelihood jeweils einer Beobachtung. Das Zeichen ∏ ist der Operator für die Berechnung von Produkten (so wie das Summenzeichen ∑ die Aufsummierung bedeutet). Wir multiplizieren also die Likelihoods der Ausgaben unserer 5 Studierenden. Wenn wir diese 5 individuellen Likelihoods miteinander multiplizieren, erhalten wir die Likelihood unserer Stichprobe von 5 Studierenden. Dies ist ein sehr kleiner Wert, der um Platz zu sparen, in der Notation E-x ausgedrückt wird. Damit wird die Dezimalstelle um x Stellen nach rechts verschoben. In unserem Beispiel beträgt er 4,82932E-14. Der Wert der Likelihood der Stichprobe drückt aus, wie groß die relative Wahrscheinlichkeit ist, genau diese Stichprobenwerte zu erhalten, wenn die Grundgesamtheit der
Den Mittelwert der Ausgaben aller Studierenden könnten wir auf der Grundlage unserer Stichprobe natürlich auch mittels des OLS-Verfahrens schätzen (Auer und Rottmann 2015, S. 331). Dieser OLS-Schätzer entspricht dem Mittelwert unserer Stichprobe. Prinzipiell stimmen die Schätzungen des OLS-Verfahrens und des ML-Verfahrens hinsichtlich der Koeffizienten überein.
4
364
6 Anhang I Maximum-Likelihood-Schätzung
Ausgaben aller Studierenden normalverteilt ist, einen Mittelwert von 832 Euro und eine Standardabweichung von 145 Euro aufweist. Der extrem kleine Likelihood-Wert ist umständlich darzustellen und von der Software schwer zu verarbeiten, da er ggf. an Rundungsgrenzen stößt. Dies wird vermieden, indem der Logarithmus dieser Likelihoods verwendet wird. Dazu logarithmieren wir beide Seiten der Gl. (6.2): N
LogL = ∑ log i =1
1 2πσ 2
−0 ,5 ( Yi − µ )
e
σ
2
2
(6.3)
Diese sehen wir in der vierten Spalte der Tab. 6.2 (Log Likelihoods). Die Likelihood und die Log-Likelihood besitzen an der gleichen Stelle der Ausgaben ihr Maximum. Weil die Likelihoods, als eine Form von Wahrscheinlichkeiten, natürlich immer zwischen 0 und 1 liegen müssen, sind ihre Logarithmen negativ. Der Logarithmus von 1 ist gleich 0. Höhere Likelihoods führen zu größeren Log-Likelihoods, und eine absolut kleine negative Log-Likelihood ist größer, da sie näher an 0 liegt. Da der Wert der Likelihood und damit auch der Log-Likelihood von einer Reihe von Faktoren – wie bspw. der Stichprobengröße und der Zahl der Variablen – abhängt, existiert kein eindeutiger Wert, der eine gute oder schlechte Übereinstimmung (einen Fit) der Schätzung mit dem wahren Mittelwert, anzeigt. Likelihood (und Log-Likelihood) sind nur relativ interpretierbar: Ein größerer Wert ist immer besser als ein kleinerer Wert. Die Likelihood der 683 Euro von Jens beträgt 0,0016227, und die dazugehörige Log- Likelihood ist −6,423638. Für die 844 Euro, die Julia ausgibt, beträgt die Likelihood 0,0027419 und die Log-Likelihood ist −5,899096. Je näher die Log-Likelihood an 0 liegt (also je größer sie ist), desto näher sind die individuellen Ausgaben am Mittelwert von 832 Euro. Die einzelnen Log-Likelihoods unserer 5 Studierenden summieren wir auf und erhalten so die gesamt Log-Likelihood unserer Stichprobe.5 Die Summe der 5 Log-Likelihoods in Tab. 6.2 beträgt −30,661426. Genau wie die Likelihood ist die Log-Likelihood unserer Studierenden ein Maß für die relative Wahrscheinlichkeit eine Stichprobe von 5 Studierenden mit den Ausgaben der Tab. 6.1 zu ziehen, die aus einer Grundgesamtheit stammen, die normalverteilt mit einem Mittelwert von 832 und einer Standardabweichung von 145 Euro ist. Tatsächlich wissen wir aber nicht, ob der Mittelwert der Grundgesamtheit 832 Euro beträgt. Wir können aber wie eben beschrieben die Log-Likelihood berechnen, die resultiert, wenn der Mittelwert bei 740 oder 780 Euro liegt und dasselbe für andere Mittelwerte, bspw. 872 Euro und 924 Euro. Jedes Mal erhalten wir eine bestimmte aufsummierte Log-Likelihood unserer Stichprobe. Anschließend vergleichen wir alle diese aufsummier Die gesamte Likelihood entspricht dem Produkt aller einzelnen Likelihoods. Da die Rechenregel Log (X×Y) = Log(X) + Log (Y) gilt, führt dies zur oben genannten Aufsummierung der Log-Likelihoods.
5
6.1 Einführung in die Maximum-Likelihood-Schätzung
365
ten Log-Likelihoods. Der Mittelwert mit der größten Log-Likelihood (der nächsten an 0 gelegenen) ist die relativ beste Schätzung des Mittelwerts der Grundgesamtheit.6 Die Software auf der Basis heutiger leistungsfähiger Rechenchips kann sehr schnell hunderte solcher Log-Likelihoods für verschiedene Mittelwerte berechnen, vergleichen und das Maximum identifizieren. Der Mittelwert, der zu diesem Maximum führt, ist die beste erzielbare Schätzung. Bei ihm ist der Abstand zwischen den (standardisierten) Ausgaben unserer Stichprobe (den 5 Studierenden) und dem geschätzten Mittelwert minimiert. Tab. 6.3 zeigt dies am Beispiel von 5 verschiedenen Mittelwerten und unseren 5 Studierenden. Bei Ausgaben in Höhe von 832 Euro ist mit einer Likelihood von −30,661426 das Maximum erreicht. Kleinere oder größere Mittelwerte führen zu einer kleineren Likelihood. Grafisch wird die aufsummierte Log-Likelihood unserer Stichprobe für alle möglichen Mittelwerte zwischen 750 und 900 Euro in der Abb. 6.3 wiedergegeben. Abb. 6.3 zeigt, dass das Maximum der Log-Likelihood in Abhängigkeit vom Mittelwert bei 832 Euro pro Monat liegt. Dieser Mittelwert ist also genau die Schätzung des Mittelwerts, die die Wahrscheinlichkeit, die Beobachtungen der Tab. 6.1 zu erhalten, maximiert. Im nächsten Schritt könnten wir analog eine Likelihood für die Varianz (σ2) schätzen und dabei den Mittelwert 832 Euro unterstellen. Es ergibt sich eine geschätzte Log- Likelihood-Funktion für die Varianz. Ihr Maximum ist die ML-Schätzung des Parameters „Varianz“ (σ2). Deren Wurzel ist die Schätzung der Standardabweichung für den Mittelwert. Auf die Durchführung wird hier verzichtet. Unser Beispiel illustriert die ML-Methode, wenn bei nur einer Variablen Y deren Mittelwert identifiziert werden muss. In der multiplen Regression mit mehreren Variablen sind aber auch mehrere Koeffizienten zu schätzen. Beispielsweise lautet bei einer endogenen Variablen Y und zwei exogenen Variablen X1 und X2 die Regressionsgleichung: Y = b0 + b1X1 + b2X2 + u. Die drei Parameter b0, b1 und b2 müssen geschätzt werden. Wir Tab. 6.3 Individuelle und Stichproben-Log-Likelihoods Name Jens Friede Julia Silko Ralf Summe
Log-Likelihoods für Mittelwert: 740 780 −5,972937 −6,119429 −5,935648 −5,895696 −6,152889 −5,99308 −6,381974 −6,147966 −7,276907 −6,856456 −31,720355 −31,012627
832 −6,423638 −5,957527 −5,899096 −5,957527 −6,423638 −30,661426
872 −6,74516 −6,092604 −5,914316 −5,89855 −6,178216 −30,828846
924 −7,276907 −6,381974 −6,047872 −5,935648 −5,972937 −31,615338
Bzw. der absolut gesehen kleinsten Log-Likelihood. Die Varianz (das σ) in der Gl. (6.2) bzw. (6.3) spielt für die Schätzung des Mittelwertes keine Rolle, wir können dafür irgendeinen beliebigen Wert größer als 0 annehmen (Enders 2010, S. 61).
6
366
6 Anhang I Maximum-Likelihood-Schätzung Log-Likelihood
−29,00 −30,66 −31,00
780
832
872
Mittelwert Grundgesamtheit
Abb. 6.3 Die Log-Likelihood-Funktion
nehmen an, dass u normalverteilt ist, b0, b1 und b2 konstante Werte sind sowie die Matrix der Beobachtungen X bei unterschiedlichen Stichproben fixiert ist. Dann ist auch die abhängige Variable Y normalverteilt und ihre Dichtefunktion lautet: f ( Yi ) =
−0 ,5 ( Yi − b0 − b1X1 i − b2 X 2 i )
1 2πσ 2
σ
e
2
2
(6.4)
Die dazugehörige Gleichung für die Log-Likelihood ist: N
LogL = ∑ log i =1
1 2πσ 2
−0 ,5 ( Yi − b0 − b1X1 i − b2 X 2 i )
e
σ
2
2
(6.5)
Ggf. sind sogar sehr viele Koeffizientenwerte (d. h. bedingte Mittelwerte) gleichzeitig zu schätzen. Damit ergeben sich anstatt der Gl. (6.1), (6.2), (6.3), (6.4) und (6.5) deutlich komplexere Funktionen: Die vielen Mittelwerte, Varianzen und Kovarianzen lassen sich nur noch in Matrixschreibweise darstellen. Das Prinzip bleibt aber das gleiche. Die ML-Schätzungen sind konsistent und zumindest asymptotisch erwartungstreu, effizient und normalverteilt. Sie erfüllen daher die Anforderungen, die an eine „gute“ Schätzung gestellt werden. In einfachen Fällen (wie unserem obigen Beispiel) kann das Maximum der Log- Likelihood-Funktion auch direkt (analytisch) durch Bildung der ersten Ableitung und Nullsetzung berechnet werden. Bei vielen komplexeren Funktionen (bspw. Strukturgleichungsmodellen, Missing-Data-Schätzungen) müssen iterative Optimierungsverfahren (Algorithmen) eingesetzt werden, um die Parameterschätzungen zu ermitteln, bei denen die Log-Likelihood-Funktion ihr Maximum erreicht. Diese Iterationen ähneln unserem „Ausprobieren“ in der Tab. 6.3. Die Log-Likelihood-Werte werden von SPSS und Stata ausgegeben, und die Software hört mit ihren Maximierungsversuchen (= Iterationen) auf, wenn sie feststellt, dass sich die Log-Likelihood nicht mehr weiter erhöht.
6.1 Einführung in die Maximum-Likelihood-Schätzung
367
Unter Umständen gelingt es aber der Software nicht, ein solches Maximum zu erreichen, weil die Log-Likelihood bei der nächsten Iteration wieder fällt, dann wieder steigt, dann wieder abnimmt usw. Dies wird als fehlende Konvergenz bezeichnet, zum Teil nennt man dies auch „nicht konkav“ („not concave“ im Output von Stata). Die Log- Likelihood-Funktion der Abb. 6.3 ist konkav. Bei ihr ist das Maximum leicht identifizierbar. Abb. 6.4 enthält einen komplizierteren Funktionsverlauf, bei dem das Maximum nicht mehr so einfach feststellbar ist. Die Funktion der Abb. 6.4 besitzt mehrere Maxima, von denen zwei unglücklicherweise auch noch fast gleich groß sind. In solchen Situationen wird die Ermittlung des Maximums schwierig, denn iterative Methoden identifizieren unter Umständen nur ein lokales Maximum. Ob sie das absolute Maximum identifizieren, hängt bspw. von den Startwerten ab. Im simplen Fall nur eines einzigen Koeffizienten (bedingten Mittelwertes) scheint das Problem noch überschaubar zu sein. Aber schon im Fall zweier Koeffizienten ergibt sich eine dreidimensionale Oberfläche: sozusagen ein Gebirge mit Gipfeln, Tälern, Sätteln, Senken, Hochebenen und Felsspalten. Hier ein Maximum zu berechnen – d. h. den höchsten Gipfel zu identifizieren – ist deutlich schwieriger und bei einer Vielzahl von Variablen (und damit bedingten Mittelwerten) extrem komplex. Wenn hinsichtlich der Konvergenz der ML-Schätzung Probleme auftreten, zeigen SPSS und Stata dies an. Die einschlägige Literatur gibt weitere Hinweise zur Behandlung. Gegebenenfalls ist aber das Modell nicht schätzbar. Eingängige Erläuterungen – an denen sich die obigen Ausführungen orientieren – finden sich bei Enders (2010, S. 56–85) sowie Urban und Mayerl (2018, S. 379–387) und Pindyck und Rubinfeld (1991, S. 67–69, 239–242, 279–281). Sehr zu empfehlen sind die konkreten Hinweise von Usern, bspw. bei Konvergenzproblemen. Für Stata ist das
Log-Likelihood
Mittelwert Grundgesamtheit
Abb. 6.4 Komplexe Log-Likelihood-Funktion
368
6 Anhang I Maximum-Likelihood-Schätzung
Statalist-Forum bestens geeignet (www.statalist.org). Für SPSS existiert eine entsprechende Diskussionsplattform (www.spss-forum.de).
6.2
Anwendungen des Maximum-Likelihood-Verfahrens
Maximum-Likelihood-Test Im Rahmen einer OLS-Regression überprüfen wir das Gesamtmodell mittels des F-Tests. Bei einer ML-Schätzung gibt es aber keine Abweichungsquadrate, mit einem erklärten und einem unerklärten Teil. Bei einer ML-Schätzung verwenden wir stattdessen den sogenannten Likelihood-Ratio-Test (LR-Test). Die Likelihood-Ratio-Teststatistik wird in der Regel als λ bezeichnet. Sie ist wie folgt definiert:
λ = 2 ( LogLikelihood _ Modell − LogLikelihood _ 0 )
(6.6)
Der linke Teil in der Klammer ist der Wert der Log-Likelihood unseres Modells. Der Ausdruck „LogLikelihood_0“ (das Basismodell) ist der Wert der Log-Likelihood, wenn das Modell keine einzige erklärende Variable außer der Konstante enthält. Beide Teile sind negativ, und die Log-Likelihood unseres Modells sollte näher bei 0 liegen, also größer sein als das Basismodell ohne erklärende Variablen. Der Ausdruck wird dann insgesamt positiv und umso größer, je besser unser Modell die Beobachtungen unserer Stichprobe erklärt. Beträgt die LogLikelihood_Modell bspw. −2,26 und die LogLikelihood_0 des Basismodells −6,48 so ergibt sich:
λ = 2 ( −2, 26 − −6, 58 ) d.h. λ = 2 ( −2, 26 + 6, 58 ) bzw. λ = 8, 64
(6.7)
Unter der Nullhypothese, dass alle exogenen Variablen keinen Einfluss ausüben, ist λ Chi2-verteilt. Wie bei Signifikanztests üblich, lehnen wir die Nullhypothese ab, wenn λ einen kritischen Wert überschreitet. Dieser kritische Wert ergibt sich aus dem gewählten Signifikanzniveau. Auf dem 1-%-Niveau ist der kritische Wert größer als auf dem 5-%-Niveau. Der Likelihood-Ratio-Test wird in fast allen gängigen Lehrbüchern zur Regression erklärt. Wooldridge (2018) enthält eine verständliche Darstellung. Goodness-of-Fit-Test Als Maßstab für die Erklärungskraft des Modells verwendet man in der OLS-Regression häufig den (korrigierten) Determinationskoeffizienten R2 (bzw. korrigiertes R2).7 Erklärte Varianzanteile sind bei den ML-Schätzungen aber nicht vorhanden. Daher ziehen wir zur Beurteilung der Modellgüte bei der ML-Schätzung sogenannte Pseudo R2-Werte heran. Ein gängiges Pseudo-R2 lautet: Darauf aufbauende Kriterien zur Beurteilung der relativen Güte verschiedener Modellspezifikationen sind das AIC und das BIC (siehe Stoetzer 2017, Kap. 6.3.2).
7
Literatur
369
Pseudo − R 2 = 1 −
LogLikelihood _ Modell LogLikelihood _ 0
Rechts steht über im Zähler der Wert der Log-Likelihood unseres Modells. Der Ausdruck im Nenner LogLikelihood_0 ist der Wert der Log-Likelihood, wenn das Modell keine einzige erklärende Variable außer der Konstanten enthält. Beide Teile sind negativ, womit der Bruch positiv wird. Die Log-Likelihood unseres Modells sollte näher bei 0 liegen als das Basismodell ohne erklärende Variablen. Der Zähler ist absolut sehr klein und der Nenner absolut groß. Der Bruch wird daher umso kleiner, je besser unser Modell unsere Beobachtungen erklärt. Im Ergebnis liegt der Pseudo-R2-Wert bei 0, wenn unser Modell nicht brauchbarer ist als das Basismodell und näher bei 1, wenn unser Modell „besser“ ist. Die Interpretation des Pseudo-R2 gleicht insoweit der Interpretation des R2 der OLS-Regression. Für die −2, 26 obigen Beispielwerte gilt: Pseudo − R 2 = 1 − = 1 − 0, 34 = 0, 66. Allerdings ist −6, 58 dies keine Aussage zur erklärten Varianz der abhängigen Variablen! Auch kleine Pseudo- R2-Werte sind daher nicht als Indizien für ein „schlechtes“ Modell zu interpretieren. Pseudo-R2-Werte von 0,2 bis 0,4 sind insoweit bereits gute oder sehr gute Ergebnisse. Außerdem ist zu beachten, dass in der Literatur eine Reihe von Varianten zur Berechnung von Pseudo-R2-Werten existieren, die bei einer identischen Modellspezifikation und gleicher Datenbasis unterschiedlich hoch ausfallen. Hierzu gehören bspw. die Pseudo-R2 von Cox & Snell sowie von Nagelkerke. Diese werden von SPSS berechnet. Eine Beschreibung und Erklärung dazu liefern Field (2018, S. 1118–1119, 1144–1146) und Baltes-Götz (2012, S. 37–39). Stata verwendet als Default McFaddens Pseudo-R2. Dies wird von Acock (2016, S. 346) und Williams (2018) erläutert. Kennzahlen für die Güte der Anpassung der Spezifikation an die vorhandenen Daten werden jeweils im Kontext des Schätzverfahrens dargestellt – so bspw. im Kap. 2 zu den Logit-, Probit-Schätzungen bei dichotomen abhängigen Variablen.
Literatur Acock, A. C. (2016). A gentle introduction to Stata (5. Aufl.). College Station: Stata Press. Ashley, R. A. (2012). Fundamentals of applied econometrics. Hoboken: Wiley. Auer, B., & Rottmann, H. (2015). Statistik und Ökonometrie für Wirtschaftswissenschaftler (3. Aufl.). Berlin: Springer. Baltes-Götz. (2012). Logistische Regressionsanlyse mit SPSS. https://www.uni-trier.de/fileadmin/ urt/doku/logist/logist.pdf. Zugegriffen am 01.07.2019. Dohmen, D., Thomsen, M., Yelubayeva, G., & Ramirez, R. (2019). Ermittlung der Lebenshaltungskosten von Studierenden: Aktualisierte Berechnung anhand der 21. Sozialerhebung des Deutschen Studentenwerks, Deutsches Studentenwerk, FiBS – Forschungsinstitut für Bildungs- und
370
6 Anhang I Maximum-Likelihood-Schätzung
Sozialökonomie, Berlin https://www.fibs.eu/fileadmin/user_upload/Literatur/FiBS_DSW_Studentischer_Warenkorb_2018_190108.pdf. Zugegriffen am 29.09.2019. Enders, C. K. (2010). Applied missing data analysis. New York/London: The Guilford Press. Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London: SAGE Publications. Hill, R. C., Griffiths, W. E., & Lim, G. C. (2008). Principles of econometrics (3. Aufl.). Hoboken: Wiley. Pindyck, R. S., & Rubinfeld, D. L. (1991). Econometric models & economic forecasts (3. Aufl.). New York: McGraw Hill. Stoetzer, M.-W. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung (Bd. 1). Berlin: Springer. Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden: Springer VS. Williams, R. (2018). Scalar measures of fit: Pseudo R2 and information measures (AIC & BIC). https://www3.nd.edu/~rwilliam/stats3/L05.pdf. Zugegriffen am 10.07.2019. Wooldridge, J. M. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston: South Western Education.
Stichwortverzeichnis
A ACF 220. Siehe auch Autokorrelationsfunktion ADF-Test 144, 145, 152, 171, 193–198, 217 AIC 41, 145, 151, 152, 156, 171, 179, 192, 193, 205, 208, 368 Akaike information criterion 195. Siehe auch AIC AMOS 311, 327, 328, 333 Antizipationseffekt 16, 19, 263 ARIMA 174, 177–180, 197, 201, 202, 204, 205, 219 ARMAX 156, 180, 181, 208, 209 AR-Modell 118, 133 Augmented Dickey-Fuller-Test 144 Ausreißer 51, 53, 54, 55, 57, 83, 85, 94, 95, 97, 122, 131, 164, 256 Ausschluss, fallweiser 305, 311 Autokorrelationsfunktion 124, 125, 127, 151, 152, 156, 159, 165, 175, 183, 186, 191, 213, 214, 219, 220 parteille 156 partielle 124, 125, 128, 159, 160, 171, 173, 176, 177, 202, 219 Average Treatment Effect (ATE) 8
B Bartlett´s Test 131 Bayes information criterion 151. Siehe auch BIC Beobachtung, einflussreiche 51, 53–55, 57, 83, 85, 95, 256 Between-Abweichung 233, 236, 249, 264, 279 BIC 41, 151, 152, 156, 171, 179, 192, 193, 205, 208 Big Data 3 Bootstrapping 57, 58, 251 Box-Tidwell-Test 51–53, 76, 78, 90, 92 Breusch-Godfrey-Test 130, 131, 133, 152, 184, 187, 192 Breusch-Pagan-Test 252, 253, 280 C Cauchit-Funktion 51, 65 Chancenverhältnis 37–39, 42, 46, 62, 71, 87, 94. Siehe auch Odds Ratio Chow-Test 146, 147, 173, 198 Cloglog-Funktion 65, 101
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. -W. Stoetzer, Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2, https://doi.org/10.1007/978-3-662-61438-9
371
372
Stichwortverzeichnis
Cochrane-Orcutt-Methode 132, 163, 165 Cochrane-Richtlinie 7 Common Trends Assumption 251 Cook’s D 54, 84, 86, 95 Count data 67. Siehe auch Zählvariablen Cox&Snell R2 76. Siehe auch Pseudo-R2
G GEE 272–275 GENLIN 68, 69, 79, 81, 267, 272 Goodness of Fit 351, 368 Granger-Kausalität 15, 16, 17, 20, 153, 154, 210, 211
D Data Mining 3, 22 generating process 6 Datenanalyse, explorative 3, 17, 73, 88, 264 Daten, gepoolte 122, 228, 237 DFBETA 54, 84, 85 DF-GLS Test 145. Siehe auch ADF-Test Dickey-Fuller Test 144, 145, 171, 193 DiD-Methode. Siehe Differenzen-inDifferenzen Differenzen-in-Differenzen 237, 252, 257, 259–261 Differenz, erste 14, 119, 120, 150, 155, 157, 159, 173, 198 Diskriminanzanalyse 32 Distributed Lag 116, 118 Drift 138, 140, 143, 144, 150, 195 Durbin-Watson 129, 131, 165, 171
H HAC-Standardfehler 153, 200, 242 Hausman-Test 253, 280, 282, 283 Hebelwert 54, 55, 84, 97 Heterogenität, unbeobachtete 8–10, 16, 21, 233, 238, 239, 249, 259, 287, 292 Heteroskedastie 51, 55–57, 65, 77, 78, 82, 90–93, 132, 134, 147, 156, 198, 205, 239, 240, 245, 256, 267, 280, 283, 336 Homogenitätstest 269 Hosmer-Lemeshow-Test 51, 52, 57, 76, 89 Hysterese 117
E Einheitswurzel 146. Siehe auch Unit-Root-Test Endogenität 9, 136, 153, 238, 239, 255, 263 Exogenität 132, 134, 136, 153, 255 Experiment, natürliches 13, 248, 256 F Feasible Generalized Least Squares (FGLS) 132, 245 Fehlschluss, ökologischer 9 Feldexperiment 10 FIML-Verfahren 310, 311, 327, 334, 341, 348, 349, 351, 352 Fixe-Effekte-Methode 237, 240, 242, 243, 252, 253, 267, 278, 279 Full-Information-Maximum-Likelihood 304. Siehe auch FIML-Verfahren
I Identifikationsproblem 6 Imputationsmethode 306 Instrumentvariable 13, 153, 263 Interaktionseffekt 50–52, 58, 76, 77, 90, 146, 147, 200, 259, 260, 293, 308, 326, 350 Intervention 12. Siehe auch Treatment
K Kausalanalyse 9 Kausalrichtung, umgekehrte 9, 19 Klassifikationstabelle 40, 43, 89 Kointegration 157 kontrafaktisch 7 Korrelation, serielle 125–127, 153 Korrelogramm 127, 128, 131 L Laborexperiment 10 Lag 115. Siehe auch verzögerte Wirkungen Levene-Test 272, 280
Stichwortverzeichnis „Leverage“ 53. Siehe auch Hebelwert Likelihood-Funktion 362, 365, 366 Likelihood-Ratio-Test 40, 41, 43, 45, 76, 87, 88, 147, 340 Lineares Wahrscheinlichkeitsmodell 34. Siehe auch LPM-Modell Link-Funktion 36, 43, 51, 58, 65, 74–76, 92, 101, 272 Listwise deletion 299. Siehe auch fallweiser Ausschluss Little´s Test 303, 319, 320, 340 Ljung-Box-Test 130, 131, 159, 162, 171, 176, 177, 181 Logits 35, 37, 40, 42, 46, 56, 77, 87, 104 Long Format 231, 233, 276, 326 LPM-Modell 34, 91, 99, 102 LSDV-Verfahren 235, 241, 244, 252, 254, 267, 280, 288, 292 M Machine Learning 3 MAR 303. Siehe auch Missing at Random Maßnahme 6. Siehe auch Treatment Matching-Verfahren 14 Maximum Likelihood 155, 202, 245, 310, 330, 349, 351, 359 MCAR 301. Siehe auch Missing completely at random McFadden´s R2 43. Siehe auch Pseudo-R2 Missing at Random (MAR) 303 Missing completely at random (MCAR) 301 Missing not at random (MNR) 304 Missing values 111, 298, 300 Mittelwertimputation 304, 306, 307, 321, 322, 341 ML-Schätzung 36. Siehe auch Maximum Likelihood MNR 304. Siehe auch Missing not at random Modell, autoagressives 118. Siehe auch AR-Modell Multikollinearität 51, 58, 59, 63, 64, 117, 152 Multiple Imputation 304, 307, 311, 313, 324, 342, 343, 349, 352 N Nagelkerke R2 43. Siehe auch Pseudo-R2 Newey-West-Standardfehler 132, 133, 188
373 O Odds Ratio 38, 39, 40, 42, 46, 56, 71, 87, 340 OLS-Schätzung, gepoolte 237 Omitted Variable Bias 9, 10, 110, 117, 133, 142, 149, 238, 249, 263 One-Way-Modell 242 Ordered Logit 64, 308 Probit 64, 70 Overdispersion 55 Overfitting 21 P PACF. Siehe auch partielle Autokorrelationsfunktion Panel balanced 231, 233 unbalanced 231, 233 Panelmortalität 229 Parallelitätstest 65 Pearson-Residuum 53, 54, 84, 85, 96, 97 Persistenz 117, 129, 155, 159, 168, 181, 189, 193 Pfaddiagramm 327, 328, 332, 349, 350 PLUM (Polytomous Universal Model) 65, 69, 73, 83 Poisson-Regression 31, 67, 68, 264 Portmanteau Test 130. Siehe auch Ljung-Box-Test Prognosemodell 20, 73, 88, 110, 111, 118, 141, 145, 153, 154, 156, 173, 179, 181, 193, 200, 205, 206, 264 Pseudo-R2 40, 41, 43, 52, 64, 76, 368, 369 Q QLR-Statistik 147 Q-Test 130. Siehe auch Ljung-Box-Test R Randomized Controlled Trial 10. Siehe auch RCT Random Walk 137, 138, 145 Ratchet-Effekt 117 Rauschen, weißes 9, 134, 155, 177, 181, 202 RCT (Randomized Controlled Trial) 10–13, 20, 61, 301 Rubin-Neyman-Kausalmodell 6, 7, 20, 246
374 S Scheinkorrelation 141, 142, 143, 148, 157, 193, 197, 254 Schwankung, saisonale 138, 150, 165, 208, 238 Selbstselektion 9, 21, 233, 238, 249, 258, 259, 287, 312 Separierung, komplette 51, 58, 59, 63, 100, 103 Short Format 231 Simpson´s Paradox 9 Simultanität 9, 10, 16, 135, 136 Stable Unit Treatment Value Assumption 11. Siehe auch SUTVA-Annahme Standardfehler, robuste 57, 77, 78, 81, 90, 91, 239, 256, 274, 275, 280, 284 Stationarität 123, 136, 138, 140, 141, 143, 148, 152, 155, 193, 194, 196, 220, 255, 264 Stichprobenumfang 63, 122 Streudiagramm 2, 85, 97, 99, 105, 111, 127, 143, 258 Strukturbruch 140, 145–147, 173, 199–201 Strukturgleichungsmodell 3, 17, 19, 310, 327, 349, 366 SUTVA-Annahme 251 T Treatment 7, 8, 10, 11, 17, 148, 238, 245, 246, 257, 259, 261 Two-Way-Modell 267
Stichwortverzeichnis U Unit-Root-Test 143, 146
V Validität externe 11 interne 11 Variable latente 18, 34, 57 multimodale 31 multinominale 65 ordinale 31, 64 trunkierte 31, 68 zensierte 31, 68
W Wide Format 231 Wirkung 255 verzögerte 114, 117, 118, 263 Within-Abweichung 233, 236, 244, 278, 292
Z Zählvariable 31, 67 Zellenbesetzung 51, 59, 63