202 78 2MB
German Pages 230 [229] Year 2014
Georg Wenzelburger, Sebastian Jäckel, Pascal König Weiterführende statistische Methoden für Politikwissenschaftler
Georg Wenzelburger, Sebastian Jäckle, Pascal König
Weiterführende statistische Methoden für Politikwissenschaftler Eine anwendungsbezogene Einführung mit Stata
ISBN 978-3-486-75163-5 eISBN 978-3-486-85828-0 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. © 2014 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 143, 81671 München, Deutschland www.degruyter.com Ein Unternehmen von De Gruyter Lektorat: Dr. Stefan Giesen Herstellung: Tina Bonertz Grafik: Irina Apetrei Druck und Bindung: CPI buch bücher.de GmbH, Birkach Gedruckt in Deutschland Dieses Papier ist alterungsbeständig nach DIN/ISO 9706.
Inhaltsverzeichnis 1
Einleitung
1
1.1
Zum Selbstverständnis dieses Buches........................................................................ 1
1.2
Zum Aufbau des Buches ............................................................................................ 3
2
Grundlagen der Regressionsanalyse
2.1
Einleitung ................................................................................................................... 7
2.2 2.2.1 2.2.2
Kovarianz und Korrelation ........................................................................................ 9 Kovarianz................................................................................................................... 9 Korrelation ............................................................................................................... 11
2.3
Bivariate lineare Regression .................................................................................... 12
2.4 2.4.1 2.4.2
Multiple lineare Regression ..................................................................................... 18 Berechnung und Interpretation ................................................................................ 18 Verallgemeinerung auf die Grundgesamtheit ........................................................... 23
2.5 2.5.1 2.5.2 2.5.3 2.5.4 2.5.5
Regressionsdiagnostik ............................................................................................. 27 Linearität .................................................................................................................. 29 Homoskedastizität .................................................................................................... 30 Keine Multikollinearität ........................................................................................... 31 Normalverteilung der Residuen ............................................................................... 32 Einflussreiche Fälle.................................................................................................. 34
2.6
Schrittweises Vorgehen ............................................................................................ 37
3
Interaktionen
3.1 3.1.1 3.1.2
Grundlagen .............................................................................................................. 40 Über Interaktionseffekte .......................................................................................... 40 Interaktionen im linearen Regressionsmodell .......................................................... 41
3.2 3.2.1 3.2.2
Anwendung .............................................................................................................. 44 Interaktionen mit einer dichotomen moderierenden Variable .................................. 44 Interaktionen mit einer metrischen moderierenden Variable ................................... 50
3.3
Zusammenfassung ................................................................................................... 53
3.4
Schrittweises Vorgehen ............................................................................................ 54
4
Logistische Regressionsanalyse
4.1 4.1.1
Grundlagen .............................................................................................................. 55 Die Analyse dichotomer abhängiger Variablen ........................................................ 55
7
39
55
VI
Inhaltsverzeichnis
4.1.2 4.1.3
Bivariate Verfahren als Vorstufe zur logistischen Regressionsanalyse .................... 57 Grundzüge des logistischen Regressionsmodells..................................................... 59
4.2 4.2.1 4.2.2 4.2.3
Anwendung .............................................................................................................. 65 Deskriptive Statistik und bivariate Analysen ........................................................... 66 Schätzung und Interpretation einer logistischen Regression.................................... 69 Regressionsdiagnostik ............................................................................................. 84
4.3
Zusammenfassung ................................................................................................... 88
4.4
Schrittweises Vorgehen ............................................................................................ 89
5
Mehrebenenanalyse
5.1 5.1.1 5.1.2 5.1.3
Grundlagen .............................................................................................................. 91 Drei suboptimale Optionen mit hierarchischen Daten umzugehen .......................... 94 Wann ist ein Mehrebenenmodell statistisch notwendig? ......................................... 96 Wie viele Fälle sind für eine Mehrebenenanalyse erforderlich? ............................ 100
5.2 5.2.1 5.2.2 5.2.3
Modellierungsstrategien in Mehrebenen-Situationen ............................................ 102 Modellierung von Level-1-Effekten ...................................................................... 103 Modellierung von Level-2-Effekten ...................................................................... 109 Modellierung von Cross-Level-Interaktionen .........................................................111
5.3 5.3.1 5.3.2 5.3.3 5.3.4
Teststatistiken und Gütemaße ................................................................................ 113 Devianz .................................................................................................................. 114 AIC und BIC .......................................................................................................... 114 Erklärte Varianz auf Mikro- und Makroebene ....................................................... 115 Maddala-R2 ............................................................................................................ 116
5.4
Erweiterungsmöglichkeiten und Schnittstellen zu anderen Verfahren ................... 117
5.5
Schrittweises Vorgehen .......................................................................................... 118
6
Gepoolte Zeitreihenanalyse
6.1
Variation über Raum und Zeit ................................................................................ 119
6.2 6.2.1 6.2.2 6.2.3 6.2.4
Besonderheiten der gepoolten Zeitreihenanalyse ................................................... 123 Heterogenität.......................................................................................................... 124 Zeitliche Dynamik ................................................................................................. 131 Heteroskedastizität ................................................................................................. 137 Räumliche Dynamik .............................................................................................. 137
6.3 6.3.1 6.3.2 6.3.3 6.3.4 6.3.5
Anwendung ............................................................................................................ 139 TSCS-Daten in Stata .............................................................................................. 139 Zeitliche Dynamik ................................................................................................. 142 Heterogenität.......................................................................................................... 151 Heteroskedastizität ................................................................................................. 155 Räumliche Abhängigkeit........................................................................................ 157
6.4
Zusammenfassung und Ausblick ........................................................................... 158
6.5
Schrittweises Vorgehen .......................................................................................... 160
91
119
Inhaltsverzeichnis
VII
7
Survival-Analysen
161
7.1 7.1.1 7.1.2 7.1.3 7.1.4 7.1.5
Grundlagen ............................................................................................................ 161 Survival-Analysen und ihre begrifflichen Pendants in unterschiedlichen Wissenschaftsdisziplinen ....................................................................................... 161 Typen von Survival-Modellen ............................................................................... 163 Grundlegende Begrifflichkeiten ............................................................................. 165 Zensieren................................................................................................................ 167 Mathematisch-statistische Grundlagen von Survival-Analysen............................. 169
7.2 7.2.1 7.2.2
Nicht-parametrische Methoden .............................................................................. 170 Sterbetafel .............................................................................................................. 170 Kaplan-Meier-Schätzer .......................................................................................... 173
7.3 7.3.1 7.3.2 7.3.3
Parametrische Modelle .......................................................................................... 177 Das exponentielle Modell ...................................................................................... 178 Weibull, Gompertz und log-logistische Modelle ................................................... 181 Anwendungsprobleme parametrischer Modelle .................................................... 184
7.4 7.4.1 7.4.2 7.4.3 7.4.4 7.4.5 7.4.6 7.4.7 7.4.8 7.4.9
Das semi-parametrische Cox-Modell..................................................................... 185 Vor- und Nachteile des Cox-Modells ..................................................................... 185 Statistische Grundlagen des Cox-Modells und der PL-Schätzung ......................... 187 Das Cox-Modell in Stata........................................................................................ 188 Stratifizierte Cox-Modelle ..................................................................................... 190 Tests auf Proportionalität der Hazards ................................................................... 192 Competing-Risks im Cox-Modell .......................................................................... 197 Schätzung der Baseline-Hazard-Rate..................................................................... 199 Gütemaße und Residuendiagnostik ........................................................................ 202 Sich über die Zeit verändernde UV........................................................................ 207
7.5
Schrittweises Vorgehen .......................................................................................... 209
Literatur
211
Index
219
1
Einleitung
Die quantitative Methodenausbildung ist mittlerweile ein Kernbestandteil nahezu aller politikwissenschaftlichen Studiengänge. Fast jede BA-Absolventin1 unseres Faches dürfte heute verstehen, wie eine Varianz berechnet wird und welches Skalenniveau die Variablen für die Berechnung einer Pearson-Korrelation aufweisen müssen. Entsprechende Lehrbücher zur Einführung in die Statistik oder in quantitative Methoden sind seit Jahren auf dem Markt und begleiten Studierende in den einführenden Methodenveranstaltungen (Wagschal 1999; Backhaus et al. 2008; Kohler/Kreuter 2008; Bortz/Schuster 2010; Urban/Mayerl 2011; Behnke et al. 2012). Für fortgeschrittene Studenten der Politikwissenschaft – etwa im Masterbereich – stellt sich die Lage hingegen etwas anders dar, denn der Schritt von der Methoden/Statistik-Einführungsveranstaltung aus dem BA-Studium bis zur Anwendung einer spezifischen quantitativen Methode z. B. im Rahmen einer Abschlussarbeit ist häufig sehr, wenn nicht zu groß. Suchen fortgeschrittene Studierende Rat in der Literatur, treffen sie auf eine unbefriedigende Situation. Zwar existieren Überblickswerke wie Behnke et al. (2006), die die ganze Vielfalt politikwissenschaftlicher Methoden aufzeigen – allerdings gehen diese Werke nicht so weit ins Detail, dass es Studenten wirklich möglich sein dürfte, im Anschluss selbständig die nötigen Analysen durchzuführen. Auch gibt es eine Reihe weiterführender Statistikbücher (z. B. Cohen et al. 2003; Fahrmeier 2013), unzählige Artikel in den einschlägigen Zeitschriften (z. B. Political Analysis) oder auf eine bestimmte Methode spezialisierte Werke, etwa Baltagis „Econometric Anaysis of Panel Data“ (Baltagi 2008) oder Hox’ „Multilevel Analysis“ (Hox 2010). Jedoch fehlen den Studierenden oftmals schlicht die Vorkenntnisse, um die dort diskutierten komplexen Zusammenhänge und Herleitungen statistischer Verfahren zu verstehen. Und schließlich hören Einführungswerke zu quantitativen Methoden, wie etwa Wagschals „Statistik für Politikwissenschaftler“ (Wagschal 1999) oder Urbans und Mayerls „Regressionsanalyse“ (Urban/Mayerl 2011) hingegen oftmals genau an der Stelle auf, wo es für Masterstudierende spannend wird: Wenn es um die detaillierte Erklärung und die konkrete praktische Umsetzung einer weiterführenden Methode geht.
1.1
Zum Selbstverständnis dieses Buches
Vor diesem Hintergrund möchte dieses Buch gezielt eine Brücke von den methodischen Grundlagen zu deren konkreter Anwendung schlagen. Es geht dabei einen Mittelweg zwischen weiterführenden Analyseverfahren und dem Anschluss an die Vorkenntnisse aus dem BA-Studium. Es richtet sich an fortgeschrittene Studierende der Politikwissenschaft (Master, Lehramt aber auch BA mit quantitativem Schwerpunkt) und gibt einen Einblick in weiterführende quantitative Methoden, die in unserem Fach häufig verwendet werden. Die Kapitel geben so konkret wie möglich Hinweise auf Vorzüge, Grenzen und Besonderheiten der je1
Wie es sich für ein Buch zu quantitativer Methodik gehört, erfolgt die Verwendung der weiblichen oder männlichen Form auf Basis eines rein stochastischen Auswahlprozesses und damit rein zufällig.
2
1 Einleitung
weiligen Methode. In den Worten von Moses und Knutsen (2007: 4) soll dieses Buch also helfen den methodischen Werkzeugkoffer der angehenden Politikwissenschaftlerinnen zu füllen und gleichzeitig eine Hilfestellung bei der Auswahl des je passenden Werkzeugs zu geben, denn: „it is tempting, if the only tool you have is a hammer, to treat everything as if it were a nail“ (Maslow 1966: 15–16). Ein Schwerpunkt der Darstellungen liegt auf der Anwendung der Analyseverfahren mithilfe statistischer Software. Wir haben uns hierbei für das Programm Stata entschieden, da es sich zum einen für alle hier besprochenen weiterführenden Methoden eignet und zum anderen im Fach weit verbreitet ist (genauer hierzu s. Infobox). Online-Materialien und Stata-Basics Um die praktische Anwendung der Methoden anhand der im Buch verwendeten Beispiele nachvollziehbar zu machen, finden sich auf der Homepage http://www.sebastianjaeckle.de sämtliche Datensätze (Endung „.DTA“), die den Beispielen in den einzelnen Kapiteln zugrunde liegen, sowie die zugehörigen Do-Files („.do“). Bei letzteren handelt es sich um die gespeicherte Stata-Syntax, d. h. um Textdateien, die Ausführungsbefehle enthalten. Auf diese Weise können Leser die jeweiligen statistischen Verfahren schrittweise nachvollziehen und anhand der Beispieldatensätze nachrechnen. In den Do-Files finden sich zusätzlich Kommentare, welche in Kombination mit den Beschreibungen in den Kapiteln die Befehle erklären und damit eine Übertragung auf eigene Forschungsvorhaben ermöglichen. Dieses Buch bietet keine Einführung in das Statistikpaket Stata. Grundkenntnisse in der Bedienung der Programmoberfläche und im Umgang mit Do-Files werden vorausgesetzt. Wer sich hier einlesen möchte, findet online eine Vielzahl an Tutorials und Einführungen, z. B. ein Stata Tutorial der Universität Princeton (http://data.princeton.edu/stata/), ein Working Paper zur Einführung in Stata der Universität Zürich (Kuhn/Ruf 2006), die Kapitel 1– 3 im Standardwerk „Datenanalyse mit Stata“ von Kohler und Kreuter (2008) sowie die umfangreiche Dokumentation sämtlicher Stata-Befehle im mehrbändigen Stata-Handbuch. Zudem enthält Stata selbst eine sehr gute Hilfefunktion, die sich über den Befehl help in der Kommandozeile gefolgt von dem Befehl, über den man sich Hilfe erwünscht, aufrufen lässt. Informationen zur linearen Regression würde man also über help regress erhalten. Befehle werden im Folgenden stets in dieser Schriftart dargestellt. Sollten sie mehr als zwei Zeilen umfassen, wird der Beginn der zweiten Zeile mit > gekennzeichnet. Zwei Gedanken haben uns beim Schreiben der folgenden Kapitel maßgeblich geleitet: • Erstens ging es darum, eine Perspektive von Anwendern für Anwender einzunehmen – also die jeweilige Methode möglichst plastisch und in einfachen Worten darzustellen. Dies mag an der einen oder anderen Stelle zu etwas vereinfachenden und holzschnittartigen Aussagen geführt haben. Wir geben dieser Darstellungsweise dennoch den Vorzug, um nicht aus Rücksicht auf die korrekte statistische Wortwahl dem Ziel der möglichst verständlichen Erklärung von Methoden nicht mehr gerecht zu werden. Aus diesem
1.2 Zum Aufbau des Buches
3
Grund finden sich auch besonders viele Grafiken in diesem Buch – und für eine Darstellung zu quantitativen Methoden vergleichsweise wenige Formeln.2 • Zweitens haben die nachfolgenden Kapitel das Ziel, ein grundlegendes Verständnis für die jeweiligen quantitativen Verfahren zu schaffen, und streben nicht an, den neusten Schätzer für ein vertracktes statistisches Problem zu diskutieren. Denn obwohl Vorkenntnisse aus dem BA-Studium vorausgesetzt werden und die folgenden Kapitel damit deutlich tiefer in die Materie einsteigen als Einführungslehrbücher, kommen auch sie immer wieder an Punkte, in denen nur der Verweis auf weiterführende Literatur bleibt. Dies ist bis zu einem gewissen Grad auch der Tatsache geschuldet, dass es für manche statistische Spezialfälle unterschiedliche Meinungen in der ‚Community‘ der Methodenexperten gibt. Dabei kann der „letzte Schrei“ von gestern auch schnell wieder „aus der Mode“ kommen. Und für manche Herausforderungen sind die Methodenexperten schlicht erst noch dabei, entsprechende Antworten zu entwickeln. Diesen Zyklen wollen wir unsere Darstellung weiterführender statistischer Verfahren nicht aussetzen. Inhaltlich behandeln die folgenden Kapitel unterschiedliche quantitative Methoden, die zwar alle eine gewisse Nähe zur Regressionsanalyse (mit large-N-Daten) aufweisen, jedoch ganz verschiedene Datenstrukturen (z. B. gruppiert oder Querschnitt) und unterschiedlich skalierte abhängige Variablen (z. B. dichotom oder metrisch) bearbeiten. Gemeinsam ist den dargestellten Methoden ebenfalls, dass sie die Daten analytisch beschreiben, Muster und Strukturen herausarbeiten sowie korrelative Zusammenhänge herstellen. Je nach Kapitel variiert jedoch der Anspruch im Hinblick auf kausale Schlüsse und statistische Inferenz: Während etwa bei der Mehrebenen-Regression die zufallsausgewählten Individualdaten Schlüsse von einem Sample auf die Grundgesamtheit eher zulassen, ist dies im Falle der gepoolten Zeitreihenanalyse auf Basis makro-quantitativer Länderdaten deutlich problematischer (hierzu z. B.: Behnke 2005; Broscheid/Gschwend 2005). Hier liefern Regressionsanalysen eher korrelative Zusammenhänge und arbeiten Muster in den Daten heraus, die dann jedoch mithilfe starker theoretischer Argumente oder qualitativer Evidenz aus Fallstudien wichtige Hinweise auf kausale Effekte geben können.
1.2
Zum Aufbau des Buches3
Auch wenn BA-Studierende der Politikwissenschaft in der Regel eine grundlegende Ausbildung in quantitativen Methoden erfahren haben, variiert unserer Erfahrung nach die Tiefe und das Ausmaß dieser Grundausbildung zwischen Universitätsstandorten mitunter erheblich. Aus diesem Grund stellen wir der Diskussion der einzelnen Analysekapitel eine vertiefte Vorstellung der linearen Regression für Querschnittsdaten (Kapitel 2) voran. In diesem Kapitel werden die Grundlagen für das Verständnis der weiterführenden Methoden gelegt und es sei daher jedem Leser anempfohlen, der sich für ein entsprechendes weiterführendes Verfahren interessiert und sein Grundlagenwissen nochmals auffrischen will. In diesem Kapitel 2
3
Wer sich indes beispielsweise für die Feinheiten der Kovarianz-Matrizen einer gepoolten Regressionsanalyse oder die Formeln zur Berechnung von Cox-Snell-Residuen bei Survival-Analysen interessiert, dürfte mit wenig Aufwand sein Glück in der einschlägigen (und in den jeweiligen Kapiteln zitierten) Literatur finden. Für hilfreiche Kommentare und Anmerkungen zu den einzelnen Kapiteln danken wir herzlich Wolfram Finkbeiner, Marlen Klaws, Julian Schärdel, Heidrun Weinelt und Frieder Wolf sowie insbesondere Julian Erhardt, der uns zusätzlich in Layout- und Formatierungsfragen unterstützt hat.
4
1 Einleitung
diskutieren wir auch ausführlich die Bedingungen für unverzerrte Regressionsschätzer mit dem OLS-Verfahren (best linear unbiased estimator), deren Verständnis für die Folgekapitel unabdingbar ist. Kapitel 3 baut auf der linearen Querschnittsregression auf und diskutiert, wie Interaktionen modelliert und geschätzt werden. Viele politikwissenschaftliche Theorien postulieren Interaktionseffekte, z. B. wenn argumentiert wird, dass der Handlungsspielraum von Regierungen vom institutionellen Kontext abhängt. Die korrekte Schätzung und Interpretation von Interaktionstermen wird jedoch in empirischen Analysen häufig nicht beachtet, weshalb wir an dieser Stelle ausführlich auf dieses Thema eingehen. In Kapitel 4 zur logistischen Regressionsanalyse steht die Frage im Zentrum, wie Zusammenhänge für nominal (speziell dichotom) skalierte abhängige Variablen regressionsanalytisch untersucht werden können. Das Kapitel geht dabei nicht nur auf die Frage der Schätzung ein, sondern erklärt insbesondere, wie die mitunter etwas herausfordernde Interpretation der Koeffizienten anschaulich gemacht werden kann. Einer besonderen Behandlung bedürfen gruppierte Datenstrukturen. Für die Auswertung solcher hierarchischer bzw. ineinander verschachtelter Daten eignet sich die Mehrebenenanalyse, die in Kapitel 5 vorgestellt wird. Diese Methode bietet u. a. den Vorteil, dass sich Sozialisationseffekte, welche auf Individuen einwirken, adäquat modellieren lassen. Wenn Daten über geografische Einheiten und Zeit variieren (also z. B. über Länder und Jahre), liegt eine spezifische Form gruppierter Daten vor, die mithilfe einer gepoolten Zeitreihenanalyse (oder Panelregression oder TSCS-Analyse) untersucht werden kann. Diese Datenstruktur macht besondere Überlegungen notwendig, die sich einerseits auf die zeitliche Dynamik beziehen (z. B. serielle Autokorrelation) sowie andererseits auf die (erneut) gruppierte Struktur der Daten (Jahresbeobachtungen in Ländern) und die damit verbundene Heterogenität. Für Kapitel 6 gilt ganz besonders, dass es in einzelnen Bereichen nur bestimmte Herausforderungen andeuten kann, ohne die unterschiedlichen Reaktionsmöglichkeiten en détail zu diskutieren. Kapitel 7 widmet sich schließlich der Analyse von Ereignisdaten. Diese Datenform ist in den Sozialwissenschaften von ganz besonderer Bedeutung. Denn häufig geht es bei unseren Fragestellungen um Zustandswechsel und darum, wie lange ein Untersuchungsobjekt in einem bestimmten Zustand verbleibt, bis es in einen anderen Zustand übergeht – seien es Regierungen, die aufgrund von Koalitionsstreitigkeiten vorzeitig scheitern, oder Kriege, die durch Friedensverträge ihr Ende finden. All diese Fragen lassen sich durch Survival-Analysen beantworten. Neben nicht-parametrischen und parametrischen Methoden wird besonders ausführlich auf das semi-parametrische Cox-Modell eingegangen, da dieses am Weitesten in der Disziplin verbreitet und für die meisten politikwissenschaftlichen Fragestellungen gut geeignet ist. Generell sind die einzelnen Kapitel des Buchs folgendermaßen aufgebaut: Auf eine Einführung der Grundlagen der jeweiligen Verfahren, innerhalb derer beispielsweise auch die Voraussetzungen an die Datenstruktur geklärt werden, folgt eine anwendungsbezogene Erklärung der Methode. Hierfür wird in jedem Kapitel ein einfaches politikwissenschaftliches Beispiel gewählt. Um die Herausforderungen der jeweiligen Methoden anschaulich darzustellen, haben wir die Erklärungsmodelle daher gezielt sehr schlank gehalten. Folglich sollte hinsichtlich einer inhaltlich-substanziellen Interpretation der Variablen größte Zurückhaltung geübt werden.
1.2 Zum Aufbau des Buches
5
Den Abschluss der einzelnen Kapitel bildet jeweils eine stichwortartige Auflistung der einzelnen Schritte, die bei der Anwendung der Methode in der Regel zu beachten sind. Diese zusammenfassenden Auflistungen sollten jedoch nicht als Bedienungsanleitungen missverstanden werden, denen es sklavisch zu folgen gilt und die deshalb schon eine vollkommen angemessene Analyse garantieren. Dafür weist jede einzelne Forschungsarbeit zu sehr eigene Besonderheiten auf, die unmöglich alle in diesem Buch berücksichtigt werden können. Die schrittweisen Anleitungen haben vielmehr den Charakter einer Checkliste, anhand derer man prüfen kann, welche Elemente eine Analyse enthalten sollte, und welche Teststatistiken, Gütemaße und Modelldiagnostiken angebracht sind.
2
Grundlagen der Regressionsanalyse
Beispielhafte Fragestellung: Wovon hängt die allgemeine Bewertung (das Image) der Europäischen Union (EU) in der öffentlichen Meinung der EU-Länder ab? Seit dem Aufkommen der Vorstellung eines Demokratiedefizits der EU sind die Einstellungen der EU-Bürger verstärkt in den Fokus der Forschung gerückt. Das Anwendungsbeispiel befasst sich mit der Frage, welche Faktoren die allgemeine Bewertung der EU seitens ihrer Bürger determinieren und benutzt dafür Querschnittsdaten aus dem Jahr 2011 – also zu einem Zeitpunkt als die Wirtschafts- und Finanzkrise auf ihrem Höhepunkt war. Von Interesse für den Forscher ist hierbei, inwieweit die gängigen Erklärungsansätze – wie nutzenbasierte, identitätsbasierte und auf Institutionenvertrauen gründende Faktoren – auch in Zeiten der Krise Ausschlag gebend sind. Womöglich tritt in diesem Fall eine spezifische Bewertung der EU im Hinblick auf ihr Management der Wirtschafts- und Finanzkrise in den Vordergrund. Die Analyse nimmt sich dem Einfluss dieser Variablen auf das allgemeine EU-Image auf der Makro- und Mikroebene an. Hierzu werden Umfragedaten genutzt, die auf der Ebene der Individuen vorliegen und auf Länderebene aggregiert werden. Nach diesem Ländervergleich wird der Fall Vereinigtes Königreich für eine beispielhafte Analyse der betrachteten Determinanten auf der Mikroebene herangezogen. Abhängige Variable (AV): Die persönliche Bewertung des Image der EU (betrachtet auf der Länderebene und auf der Individualebene). Unabhängige Variablen (UV): Bewertung des Nutzens durch die EU-Mitgliedschaft, Identifikation als EU-Bürger, Vertrauen in EU-Institutionen, wahrgenommene Problemlösungskompetenz der EU in der Wirtschafts- und Finanzkrise. Datenquelle: Eurobarometer Umfragedaten aus 27 Mitgliedsländern der Europäischen Union, EB 75.3 (ZA5481, GESIS Datenarchiv), erhoben im Mai 2011. Ziel der Auswertung: Analysieren von linearen Zusammenhängen zwischen zwei oder mehr Variablen sowie Angabe des linearen Einflusses einer oder mehrerer UVs einerseits auf eine AV andererseits. Voraussetzungen an die Datenstruktur: Zumindest Intervallskalenniveau der AV, UVs entweder intervallskaliert oder sogenannte Dummy-Variablen (mit einer 0/1-Kodierung). Die Ausprägungen einer polytomen oder ordinalskalierten Variablen können dabei stets in mehrere solche Dummy-Variablen überführt werden.
2.1
Einleitung
Das wohl wichtigste Ziel quantitativer Forschung besteht darin, Hypothesen über Zusammenhänge zwischen Variablen zu prüfen. Gemessen am Informationsgehalt stehen dem Forscher dabei idealerweise Merkmale auf metrischem Skalenniveau, also Intervallskalen-
8
2 Grundlagen der Regressionsanalyse
niveau oder Verhältnisskalenniveau zur Verfügung. Dann lassen sich mindestens die Intervalle der Ausprägungen einer Variablen miteinander in Bezug setzen und inhaltlich interpretieren. Ab diesem Messniveau können lineare Zusammenhänge zwischen Variablen sinnvoll berechnet werden. Lineare Zusammenhänge liegen vor, wenn die Veränderung einer Variablen proportional zu der Veränderung einer anderen Variablen erfolgt. Derartige Zusammenhänge werden in der Praxis häufig angenommen und entsprechend modelliert. Sie bieten den Vorteil, dass sie sich im Hinblick auf ihre Stärke und ihre Richtung sehr gut quantifizieren lassen. Liegt das Interesse primär darauf, wie stark zwei Variablen miteinander zusammenhängen, dann sind bivariate Korrelationen das Verfahren der Wahl. Geht der Forscher jedoch von theoretischen Annahmen über die Richtung eines Zusammenhangs aus, ist die lineare Regression eine besonders geeignete Methode, um diese Relation zu modellieren und den betreffenden Einfluss einer Variablen auf eine andere zu beziffern. Das entsprechende Modell kann ebenfalls bivariat sein, wobei der Effekt einer UV auf eine AV untersucht wird. Werden mehrere UV in ihren Einflüssen auf eine AV analysiert, so spricht man von multipler Regression. Um eine multiple Regression durchführen zu können, ist eine ausreichende Fallzahl notwendig. Ob die Zahl der Fälle ausreicht, hängt dabei von der Anzahl der UV ab, die in das Modell eingehen. Denn erst aus der Relation der Anzahl der Fälle und der inkludierten UV ergibt sich die Anzahl der Freiheitsgrade (degress of freedom oder kurz df), anhand derer beurteilt werden kann, ob ein Regressionsmodell sinnvoll geschätzt werden kann. Die Freiheitsgrade berechnen sich aus der Fallzahl minus der Anzahl der UV, minus eins für die im Modell enthaltene Konstante. Kommen auf wenige Fälle zu viele UV, wird die Robustheit der Schätzung beeinträchtigt. Mehr Variablen als Fälle würden beispielsweise überhaupt keine Schätzung mehr zulassen. In der Literatur gibt es keine eindeutige Anweisung, wie viele UV für welche Fallzahl angemessen sind; nach einer verbreiteten Daumenregel sollte jedoch die Zahl der Freiheitsgrade mindestens zehn betragen (z. B. Kleinbaum et al. 2008: 286; Wagschal 1999: 225). Diese Anforderung ist beispielsweise bei Umfragedaten auf der Mikroebene in der Regel unproblematisch. Umfragen auf dieser Ebene zielen auf der Basis von Zufallsauswahlverfahren zumeist auf Repräsentativität für größere Personengruppen (z. B. die Bürger eines Staates).1 Dafür wird eine ausreichende Anzahl Befragter benötigt, üblicherweise mehr als tausend. Folglich können sehr viele UV aufgenommen werden, ohne dass die Freiheitsgrade kritisch eingeschränkt werden. Bei Analysen auf Länderebene hingegen (z. B. OECDStaaten) beschränkt die geringe Fallzahl die mögliche Anzahl der UV im Modell beträchtlich. Besonders gehaltvoll sind Regressionsanalysen, wenn eine kausale Relation zwischen UV einerseits und der AV andererseits unterstellt werden kann oder sich zumindest derart plausibilisieren lässt. Dies ist allerdings eine Frage der zugrunde liegenden theoretischen Annahmen und kann nicht durch die Regression als solche überprüft werden. Um die Basis für die weiteren Kapitel dieses Buches zu legen, beschäftigen sich die folgenden Abschnitte grundlegend mit der bivariaten und multiplen linearen Regression. Dabei soll nicht nur der Nutzen der Regressionsanalyse zum Ausdruck kommen, sondern auch ihre Grenzen thematisiert und mögliche Probleme aufgezeigt werden. Neben dem grundlegenden Vorgehen 1
„Repräsentativ“ ist im Sinn statistischer Repräsentativität zu verstehen und meint, dass eine Stichprobe gemäß dem Prinzip der Zufallsauswahl gewonnen wurde (s. hierzu auch Schnell et al. 2005: 304).
2.2 Kovarianz und Korrelation
9
bei der Analyse von Zusammenhängen zwischen metrischen Variablen mittels Korrelation und linearer Regression erläutert dieses Kapitel die Diagnose von und den Umgang mit möglichen Problemen, die Einfluss auf die Gültigkeit und Aussagekraft der Modelle haben können. Zudem wird auf wichtige Aspekte verwiesen, die bestimmen, welche Aussagen auf Basis von Regressionsergebnissen getroffen werden können bzw. welche Interpretationen nicht erlaubt sind. Hierfür werden Fragen der Kausalität, des ökologischen Fehlschlusses sowie des Unterschieds zwischen Stichprobendaten und Vollerhebungen knapp diskutiert. Die nachfolgende Analyse geht von der exemplarischen Forschungsfrage aus, wie sich die allgemeine Bewertung der Europäischen Union (EU) in der öffentliche Meinung der Mitgliedsländer erklären lässt. Für die Erklärung der Bewertung der EU in der öffentlichen Meinung der Mitgliedsländer zieht die Untersuchung drei grundlegende Erklärungsansätze aus der einschlägigen Literatur heran: a) einen nutzen-, b) identitäts- und c) institutionenbasierten Ansatz (s. hierzu etwa Schoen 2008; McLaren 2007). Zudem soll getestet werden, ob d) die Wahrnehmung der EU als fähiger Akteur zur Bewältigung der Wirtschafts- und Finanzkrise zu einer positiven Bewertung der Union beitrug (s. Kasten). Die vier (drei plus eins) Erklärungsansätze werden anhand von vier Variablen umgesetzt, die die nachfolgend vorgestellten Fragen in der Umfrage repräsentieren. Die AV der allgemeinen Bewertung der EU (euimage) wird gemessen über eine Frage, bei der die Befragten das allgemeine Image der EU bewerten sollten, während eubenefit eine Variable bezeichnet, die auf einer Frage zur EU-Nutzenbewertung der Befragten basiert. Die Identifikation der Befragten mit der EU beruht auf einer Frage zur gefühlten Identität als EU-Bürger (eucitizen), die Variable euinsttrust steht schließlich für einen additiven Index, der sich aus den Angaben zum Vertrauen in verschiedene EU-Institutionen zusammensetzt. Zuletzt wird der Variablen eucapable eine Frage im Datensatz zugeordnet, bei der die Problemlösungskompetenz der EU in der Wirtschafts- und Finanzkrise zu evaluieren war. Die Ausprägungen der Variablen sind für die Analyse so kodiert, dass sie inhaltlich identisch zu interpretieren sind: höhere Werte repräsentieren dem Variablennamen nach inhaltlich höhere Ausprägungen. Bis auf die Variablen eubenefit sind alle Variablen metrisch (mindestens Intervallskala) oder zumindest quasi metrisch (mit semantisch vergleichbaren Abstufungen zwischen den Ausprägungen) skaliert. Die metrischen Merkmale wurden aufgrund unterschiedlicher Wertebereiche auf eine gemeinsame Spanne von 0 bis 1 normiert. Die Variablen stehen für Individualmerkmale, also Merkmale von einzelnen Personen. Der nachfolgende Abschnitt rechnet jedoch zunächst mit Daten, die diese Variablen auf Länderebene aggregieren. Daraus resultieren Mittelwerte bzw. im Fall der Variable eubenefit Prozentwerte für eine zustimmende Nutzenbewertung.
2.2
Kovarianz und Korrelation
2.2.1
Kovarianz
Die Kovarianz drückt aus, inwieweit die Ausprägungen zweier Variablen systematisch miteinander einhergehen beziehungsweise variieren. Dieses Maß kann veranschaulicht werden, indem man die Ausprägungen der Nutzenbewertung eubenefit und der allgemeinen Bewertung euimage für jeden Merkmalsträger (hier: länderspezifische Mittelwerte der Individualdaten) in einem gemeinsamen Streudiagramm abträgt (Abb. 2.1).
2 Grundlagen der Regressionsanalyse
.65
10 bg ro it
.6
pl be
EU−Image .55
ee cy
ie
lt lu sk
es
si
mt de
hu lv
fr pt
nl
dk
se
.5
fi
.45
at
uk
.4
Abb. 2.1:
cz
gr
.5
.6 .7 EU Nutzenbewertung
.8
.9
Streudiagramm über euimage und eubenefit
Zur Veranschaulichung sind in diesem Schaubild die Mittelwerte der beiden Variablen über alle Länder als gestrichelte Linien eingezeichnet. Dem Diagramm liegt der folgende Befehl zugrunde: graph twoway (scatter euimage eubenefit, mlabel(country)), > xtitle(EU Nutzenbewertung) ytitle(EU-Image) yline(.5477) > xline(.6287)
Der Befehl graph erlaubt das Erstellen verschiedener grafischer Elemente in einer Abbildung. Das Kürzel twoway steht für bivariate Zusammenhänge. Zusammen mit dem Befehl scatter und mit den beiden betrachteten Variablen in der ersten Klammer wird ein Streudiagramm (scatter plot) erstellt. Der Befehl mlabel verleiht den Fällen im Schaubild eine Beschriftung gemäß einer ausgewählten Variable: Die Variable mit den zugeordneten Länderkürzeln im Datensatz heißt entsprechend country. Die Optionen nach dem Komma in dem Befehl beschriften die x- bzw. die y-Achse; die Mittelwert-Linien werden mit den letzten beiden Teilbefehlen (yline und xline) erzeugt.2 An dem erstellten Schaubild lässt sich die Idee der Kovarianz nachvollziehen. Augenscheinlich besteht ein positiver Zusammenhang zwischen den beiden Variablen: Viele Fälle liegen im Quadranten rechts oben sowie links unten. Eine überdurchschnittliche Ausprägung eines Falls bei X (positive Abweichungen eines Falles in X-Richtung vom Mittelwert von X) geht also sehr häufig mit einer überdurchschnittlichen Ausprägung bei Y einher – und umgekehrt unterdurchschnittliche Ausprägungen von X mit unterdurchschnittlichen von Y. Viele Fälle liegen dabei nahe einer gedachten Diagonalen, die ansteigend von links nach rechts verläuft. Es scheint somit zu gelten: je höher der Wert von X eines Falls, desto höher ist tendenziell dessen Y-Wert, X kovariiert also positiv mit Y. Rechnerisch drückt sich ein solcher positiver Zusammenhang darin aus, dass sich ein positiver Wert nach den folgenden Berechnungsschritten für alle Fälle ergibt. Zunächst wird die Abweichung des X- und Y-Werts jedes Falls von den jeweiligen Mittelwerten berechnet. Im Schaubild sind diese Abweichungen z. B. bei Irland (ie) beide positiv, der Fall schneidet in beiden Dimensionen überdurchschnittlich ab. Die Multiplikation dieser Abweichungen in Richtung beider Dimensionen ergibt einen positiven Wert. Positive Produkte resultieren jedoch auch bei unterdurchschnittlichen Werten auf beiden Dimensionen (Multiplikation von einer negativen mit einer ebenfalls negativen Ab2
Die Mittelwerte ( = 0,6287;
= 0,5477) erhält man in Stata über den sum-Befehl.
2.2 Kovarianz und Korrelation
11
weichung vom X- bzw. Y-Mittelwert), beispielsweise bei dem Fall at. Negative Produkte aus Xi mal Yi ergeben sich hingegen, wenn bei einem Fall im Schaubild die Abweichung einer Variablen vom Mittelwert positive, die der zweiten jedoch negativ ausfällt (z. B. it im Schaubild). Das Maß Kovarianz beruht schließlich auf der Aufsummierung all der so berechneten Produkte über alle Fälle und der Division durch die Fallzahl n. Die Kovarianz gibt somit Aufschluss über die Richtung der Relation zwischen zwei Variablen X und Y. Der berechnete positive Wert 0,003694 für die Kovarianz zwischen dem EU-Image und der EU-Nutzenbewertung spiegelt die Richtung der Beziehung zwischen X und Y der Tendenz nach wider (positives Vorzeichen). Allerdings lässt sich auf der Basis dieses Wertes keine Aussage über die Stärke des Zusammenhangs zwischen X und Y machen, da die Kovarianz sensibel für die Einheiten der verwendeten Merkmale ist. Berechnet man beispielsweise über die Kovarianz den Zusammenhang zwischen der Körpergröße von Personen und der mittleren Körpergröße derer Eltern, fällt die Kovarianz größer aus, wenn man die Körpergröße in Zentimeter statt in Meter misst. In unserer Beispielrechnung fällt die Kovarianz aufgrund der relativ kleinen Ausprägungen von X und Y (zwischen 0 und 1; s. o.) sehr klein aus.
2.2.2
Korrelation
Um diese Abhängigkeit der Maßzahl von den Einheiten der Merkmale zu beseitigen, kann die Kovarianz normiert werden, indem man sie durch das Produkt aus der Standardabweichung von X und der Standardabweichung von Y dividiert (Die Kovarianz kann nicht größer werden als dieses Produkt der beiden Standardabweichungen). Die resultierende Größe nach der Normierung wird als Korrelation nach Pearson bezeichnet und wird mit dem Buchstaben r abgekürzt. Sie kann Werte zwischen −1 (perfekt negativer Zusammenhang) und +1 (perfekt positiver Zusammenhang) annehmen. Bei einem Wert von null sind X und Y gänzlich voneinander unabhängig. Die Pearson Korrelation im Beispiel errechnet sich in Stata über: correl euimage eubenefit
Das berechnete Pearsons r von etwa 0,67 kann als mittlerer/moderater Zusammenhang zwischen der aggregierten Nutzenbewertung der EU und dem allgemeinem Image der EU auf Makroebene interpretiert werden (Fahrmeir et al. 2007: 139; Wagschal 1999: 197). Dieser beachtliche Zusammenhang ist aber womöglich nicht der stärkste zwischen einer der vier oben genannten UV und der allgemeinen EU-Bewertung. Um die Korrelationen zwischen allen Variablen zu erhalten, verwendet man den folgenden Befehl: correl euimage eubenefit euinsttrust eucitizen eucapable
Die Ergebnisse der verschiedenen Korrelationen aus dem Stata-Output sind in Output 2.1 abgetragen. Neben dem Nutzen weisen auch zumindest zwei andere Variablen moderate Zusammenhänge mit dem allgemeinen EU-Image auf. Nur eucitizen ist schwach mit euimage korreliert. Dabei sind Nutzen, Institutionenbewertung und die Bewertung des EUKrisenmanagements auch untereinander korreliert und bilden womöglich einen zusammenhängenden Merkmalskomplex, der sich mittels einer einzigen Variablen abbilden lässt. Damit deutet sich an, dass einige dieser Variablen – zumindest auf der Makroebene – in einem Verhältnis der Gegenseitigkeit stehen und sich untereinander beeinflussen.
12
2 Grundlagen der Regressionsanalyse
Output 2.1: Korrelationsmatrix | euimage eubene~t euinst~t euciti~n eucapa~e -------------+--------------------------------------------euimage | 1.0000 eubenefit | 0.5989 1.0000 euinsttrust | 0.6407 0.6405 1.0000 eucitizen | 0.3292 0.5908 0.5091 1.0000 eucapable | 0.6211 0.5161 0.6669 0.2854 1.0000
Für diese tabellarische Korrelationsmatrix existiert auch eine grafische Variante. Dafür lässt man sich eine Matrix mit den entsprechenden Streudiagrammen ausgeben: graph matrix euimage eubenefit euinsttrust eucitizen eucapable
Diese Darstellungsform in Abb. 2.2 ist ähnlich zu lesen wie das bereits oben angeführte Streudiagramm in Abb. 2.1: Eine Zelle gibt den Zusammenhang zwischen den Variablen derselben Zeile und Spalte wider. Durch die kompaktere Zusammenstellung aller möglichen bivariater Zusammenhänge sind die einzelnen Korrelationen, zumindest in der Tendenz, erkennbar. Erkennbar sind außerdem Fälle, die nicht dem teilweise erkennbaren Muster linearer Zusammenhänge entsprechen, beispielsweise einige der Datenpunkte links oben in dem Feld (obere Matrixhälfte), das die Korrelation zwischen euimage und eucitizen widergibt. Im Vergleich zu diesem Zusammenhang folgen die Datenpunkte im Feld rechts daneben augenscheinlich konsistent einem linearen Verlauf. Die Beziehung zwischen den betreffenden Variablen euimage und eucapable wird im folgenden Abschnitt im Zuge der Darstellung der bivariaten Regression genauer betrachtet. .4
.6
.8
.4
.6
.8 .6
euimage .4 .8
eubenefit
.6 .4
.6 .4
euinsttrust
.2 0 .8
eucitizen
.6 .4
.6 .5
eucapable
.4 .3 .4
Abb. 2.2:
2.3
.6
0
.2
.4
.6
.3
.4
.5
.6
Scatterplotmatrix
Bivariate lineare Regression
Um den Einfluss der UV Bewertung des EU-Krisenmanagement auf die AV allgemeine Bewertung der EU zu quantifizieren, berechnet man die Regressionsfunktion über X und Y, sprich die Regression (d. h. Zurückführung) von Y auf X. Der Graph dieser Funktion ist
2.3 Bivariate lineare Regression
13
eine Gerade wie sie in Abb. 2.3 eingezeichnet ist und die mit folgendem Befehl generiert wird. graph twoway (lfit euimage eucapable)(scatter euimage eucapable, > mlabel(country)), xtitle(Bewertung Krisenmanagement EU) > ytitle(EU-euimage) > yline(.55544, lpattern(dash)) xline(.2750905, lpattern(dash))
.65
In dieser Grafik sind zusätzlich die Mittelwerte von X und Y dargestellt. Es ist eine Eigenschaft der Regressionsgeraden, dass diese stets, wie auch in Abb. 2.3 erkennbar, durch den Schnittpunkt der Mittelwertlinien von X und Y verläuft – den sogenannten Schwerpunkt des Koordinatensystems. Die Gerade beruht auf einer rechnerischen Anpassung an die Punktewolke (s. u.). Die Anforderung an diese Gerade ist, dass sie eine möglichst gute Näherung an die Gesamtheit der Datenpunkte darstellen soll. Um dies zu erreichen, bedient man sich der Abweichungen der Punkte von der gesuchten Regressionsgerade, auch bezeichnet als Residuen. In Abb. 2.3 ist exemplarisch ein solches Residuum als der Abstand a zwischen der Geraden und dem Fall bg eingezeichnet. Es drückt die Differenz zwischen dem (wahren) empirischen Wert und dem zugehörigen Schätzwert aus, der mit der Regressionsgleichung vorhergesagt wurde. Deshalb kann das Residuum auch als Fehler in der Vorhersage eines Messpunktes gesehen werden. Verliefe die Gerade in der Abbildung flacher, fiele das zugehörige Residuum für den Fall bg größer aus, bei anderen Punkten, z. B. bei es, würde es kleiner. Man könnte beliebig viele Geraden durch die Punktewolke zeichnen und erhielte entsprechend unterschiedliche Residuen. Angestrebt ist jedoch die Geradengleichung, bei der die Gesamtheit der Residuen, also die Summe aller Prognosefehler, möglichst klein ist. bg ro
a
it
ie
.6
pl lu
EU−Image .55
sk ee cy
es
lt
be
b
si
mt fr
de nl hu pt lv se
dk
.5
fi cz
.45
gr
.3
Abb. 2.3:
at
uk
.4 .5 Bewertung Krisenmanagement EU
.6
Bivariate Regression von euimage auf eucapable
Um zu der entsprechenden Funktion der Geraden zu gelangen, bedient man sich der Methode der kleinsten Quadrate (Ordinary Least Squares, kurz OLS). Nach der OLS-Methode werden alle Abweichungen der Schätzwerte der Geraden Ŷi von den beobachteten Werten Yi quadriert und diese allesamt aufaddiert. Diese summierten quadrierten Terme lassen sich selbst wiederum als Funktion darstellen. Diese Funktion soll einen möglichst kleinen Wert annehmen –
14
2 Grundlagen der Regressionsanalyse
daher die Bezeichnung „kleinste Quadrate“.3 Durch die Minimierung (konkret die partielle Ableitung nach a und b) der Funktion erhält man die beiden Koeffizienten der Geradengleichung der bivariaten Regression: die Steigung der Geraden b und die Konstante a (auch Achsenabschnitt genannt). (2.1) = + Mit ihnen lässt sich die Lage der Geraden bei = 0 angeben, dann ist Ŷi gleich der Konstanten a. Dies zu interpretieren ist allerdings nicht immer sinnvoll: wenn man sich z. B. für den Effekt der Wirtschaftsleistung eines Landes auf dessen Demokratiegrad interessiert, dann würde der Achsenabschnitt a die Demokratiequalität eines Landes angeben, das Null Wirtschaftsleistung aufweist – eine offenkundig unrealistische Annahme. Daneben kann es vorkommen, dass für real durchaus vorkommende = 0 unrealistische Y-Werte (z. B. Prozentwerte von über 100 bei einer entsprechend skalierten Variable) vorhergesagt werden (s. hierzu auch Taagepera 2008). Von größerem Interesse ist in der Regel deshalb v. a. b. Es ist so zu lesen, dass sich der Vorhersagewert um b Einheiten verändert, wenn sich der X-Wert um eine Einheit verändert. Das Regressionsgewicht b lässt sich demnach als Effekt von X auf Y interpretieren. Die Koeffizienten können aus dem Stata-Output zur Regression nach folgendem Befehl abgelesen werden: regress euimage eucapable
Die Ergebnistabelle zu diesem Befehl ist in Output 2.2 dargestellt. Sie enthält neben den Varianzkomponenten im Bereich links oben Angaben zum Gesamtmodell rechts oben und schließlich die Tabelle der Effektschätzer (Coef.) samt Angaben zu deren Streuung und der Genauigkeit ihrer Schätzung (s. u. Kapitel 2.4.2 zu Inferenzschlüssen). Die Beispieldaten zeigen einen Effekt b von etwa 0,49 der Variable eucapable auf das (aggregierte) allgemeine Image der EU. Erhöht sich also X um eine Einheit (bei eucapable entspricht dies nach der Normierung der Variable auf eine Spanne von 0 bis 1 der gesamten Wertespanne dieser Variable), dann erhöht sich Ŷ um rund 0,49 Einheiten. Mit diesem Effekt und der Konstanten (_cons) von etwa 0,31 lässt sich die Regressionsgleichung für den betrachteten Zusammenhang aufstellen. (2.2) = 0,31 + 0,49 Mittels dieser Gleichung kann der Forscher einen Schätzwert der AV Ŷi für Werte von X vorhersagen. Output 2.2: Bivariate Regression Source | SS df MS -------------+-----------------------------Model | .023725038 1 .023725038 Residual | .037780712 25 .001511228 -------------+-----------------------------Total | .06150575 26 .002365606
Number of obs F( 1, 25) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
27 15.70 0.0005 0.3857 0.3612 .03887
-----------------------------------------------------------------------------euimage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------eucapable | .4943563 .1247675 3.96 0.001 .2373927 .7513198 _cons | .3103216 .0620532 5.00 0.000 .1825208 .4381225 -----------------------------------------------------------------------------3
Die mathematischen Ausführungen dazu können nachgelesen werden bei Bortz und Schuster 2010; Fahrmeir et al. 2007; Fahrmeir et al. 2009; Kühnel und Krebs 2004.
2.3 Bivariate lineare Regression
15
Um zu erfahren, welcher Wert für Ŷi für einen Staat zu erwarten wäre, bei dem eucapable die Ausprägung 0,6 annimmt, muss dieser hypothetische Wert in die Regressionsfunktion (Gleichung (2.2)) eingesetzt werden. Stata berechnet das Ergebnis (etwa 0,61), wenn man die Rechnung (Gleichung mit eingesetzten Werten) nach dem Befehl display schreibt: display .3103216 + .4943563 * .6
Im Gegensatz zur Korrelation liefert die bivariate Regression eine gerichtete Interpretation eines Zusammenhangs in Form eines Effekts einer Variable X auf Y und erlaubt dadurch zusammen mit der errechneten Konstante Prognosen. Ansonsten ist der Gehalt des Regressionsgewichts (positiver Effekt) substantiell ähnlich dem des Pearsons r zum betrachteten Zusammenhang (positiver Zusammenhang). Die beiden Maße lassen sich auch einfach ineinander transformieren: Der Parameter b ist nicht normiert und somit, ebenso wie die Kovarianz, abhängig von der Maßeinheiten der betreffenden Variablen X und Y. Um wiederum ein einheitenunabhängiges Regressionsgewicht zu erhalten, können entweder X und Y in standardisierte Variablen (z-Transformation) umgewandelt werden oder nachträglich das Regressionsgewicht mit der Standardabweichung von X multipliziert sowie durch die Standardabweichung von Y dividiert werden.4 Für die bivariate Regression gilt, dass das standardisierte Regressionsgewicht gleich Pearsons r ist: =
∙
=
∙
=
∙
=
(2.3)
Ergänzt man den Regressionsbefehl um die Option beta, liefert der Output das standardisierte Regressionsgewicht5, welches im hier diskutierten bivariaten Fall identisch mit dem Wert von Pearsons r ist (vgl. Output 2.1). Output 2.3: Bivariate Regression mit standardisierten Koeffizienten -----------------------------------------------------------------------------euimage | Coef. Std. Err. t P>|t| Beta -------------+---------------------------------------------------------------eucapable | .4943563 .1247675 3.96 0.001 .6210772 _cons | .3103216 .0620532 5.00 0.000 . ------------------------------------------------------------------------------
Daneben besteht eine weitere „Verwandtschaft“ zwischen der bivariaten Regression und der Korrelation. Das quadrierte Pearsons r des bivariaten Zusammenhangs entspricht dem durch die Variable X erklärten Anteil der Varianz der Variable Y. Dieser erklärte Varianzanteil R² stellt ein Maß für die Güte des Regressionsmodells dar, er gibt an, wie gut die Näherung der Regressionsfunktion an die Datenpunkte ist. Er ist umso höher, je stärker X und Y kovariieren. Kann also Y besser mittels X ‚vorhergesagt‘ werden, wird ein Teil der Varianz von Y durch X sozusagen gebunden und in diesem Sinn erklärt. Dies kann man sich auch als Verringerung des Prognosefehlers durch die Regression vorstellen. Hierbei vergleicht man die Vorhersage der beobachteten Werte unter Einbezug einer Erklärungsvariablen (im bivariaten Modell) mit der Vorhersage ohne Kenntnis dieser Erklä4
5
Bei der z-Transformation wird von jeder Ausprägung einer Variablen der Mittelwert dieser Variablen abgezogen sowie durch deren Standardabweichung dividiert. Hierdurch haben die z-transformierten Werte alle einen Mittelwert von 0 und eine Standardabweichung von 1 (Wagschal 1999: 260). Diese werden weiter unten näher behandelt, da sie im Zusammenhang mit der multiplen Regression von größerer Bedeutung sind.
16
2 Grundlagen der Regressionsanalyse
rungsvariablen. Für diese zweite Vorhersage stehen lediglich Informationen über die AV und deren Verteilung zur Verfügung, weshalb in diesem Fall der beste Schätzer schlicht der Mittelwert ist (bei metrischen Merkmalen). Für diesen gilt nämlich per definitionem, dass die Summe aller Abweichungen von ihm null ergibt. Tippt man also immer auf den Mittelwert, liegt man im Schnitt weniger daneben als mit anderen Werten. Durch das In-BeziehungSetzen der Abweichungen unter den beiden genannten Schätzmethoden – also dem Vergleich der Vorhersage durch OLS Methode bei Berücksichtigung einer UV mit der Schätzung ohne Berücksichtigung der UV per Mittelwert von Y – kann die Güte des linearen Regressionsmodells beurteilt werden. Für jeden Datenpunkt lassen sich demnach zwei Abweichungen angeben, ein Residuum der Regressionsfunktion und die Abweichung vom Y-Mittelwert. In Abb. 2.3 weiter oben weicht z. B. Bulgarien (bg) positiv vom Mittelwert der Variable euimage ab (Strecke a + Strecke b). Der Wert der Regressionsfunktion an derselben Stelle von X liegt jedoch näher am empirisch beobachteten Y(bg) als . Somit wird dem beobachteten Wert durch die Schätzfunktion mit Hilfe der UV sozusagen näher gekommen, und zwar um den Abstand zwischen dem Funktionswert Ŷi der Geraden und dem Mittelwert (Strecke b). Es fehlt jedoch immer noch die Strecke bis zu dem beobachteten Y-Wert des Falls bg, damit dieser exakt auf der Geraden läge. Die Abweichung des beobachteten Werts Yi kann somit in zwei Teilstrecken unterteilt werden: Zum einen in die erklärte Abweichung des Werts Ŷi der Geraden von (Strecke b) und zum zweiten in die Differenz zwischen dem tatsächlichen Yi und dem Ŷi der Geraden (Strecke a). Diese zweite Strecke, zwischen Yi und Ŷ, macht die restliche Distanz aus, die durch die Regressionsgerade nicht erklärt werden kann – das bereits oben erwähnte Residuum. Nach diesem Vorgehen kann für jeden einzelnen Punkt die Gesamtvariation ( − )² zerlegt werden. Die Summe aller quadrierten Abweichungen ( − ) setzt sich schließlich zusammen aus der Summe der quadrierten Abweichungen der Schätzer Ŷi vom Mittelwert (erklärte Streuung) und der Summe der quadrierten Abweichungen der tatsächlichen Werte Yi vom Schätzer Ŷi (residuale Streuung) zusammen:6 ( − ) =
−
+
−
(2.4)
Oder kurz: =
+
(2.5)
Aus dieser Gleichung lässt sich das Maß für die Güte der Erklärung R² gewinnen.7 Sie ergibt sich, indem man die erklärte Variation/Varianz zu der Gesamtvariation/-varianz in Relation setzt. =
6 7
−
=1−
=
(2.6)
Dies gilt unter der Bedingung, dass die residuale Varianz und die erklärte Varianz nicht miteinander zusammenhängen/korreliert sind. Mit dieser Unabhängigkeitsannahme ist deren Kovarianz gleich null. Inwieweit dieses Maß R² tatsächlich geeignet ist, um die Güte eines Modells zu beurteilen, wird in der Literatur diskutiert. Für Kritiken an der (pauschalen) Verwendung von R² als Gütekriterium s. z. B. Urban und Mayerl 2011, Taagepera 2008.
2.3 Bivariate lineare Regression
17
Im Beispiel ist das R² gleich 0,3857. Dieser lässt sich auch über die im Output 2.2 links oben angegebenen Varianzanteile (Spalte SS) berechnen. Bei „Model“ steht die erklärte Variation. Durch das Teilen dieser Variation durch die Gesamtvariation („Total“) resultiert derselbe Anteil 0,3857. Konkret ist dieser Wert für R² so zu interpretieren: Durch Kenntnis des Merkmals Bewertung des EU-Krisenmanagements kann der Fehler der Vorhersage (die Streuung des Merkmale) des Merkmals allgemeines EU-Image auf Länderebene bei den verwendeten Daten um etwa 39 % verringert werden. Im bivariaten Modell lässt sich R² aber auch einfach durch das Quadrieren des Werts von Pearsons r für den betrachteten Zusammenhang berechnen. Im Grunde sind damit wesentliche Kennwerte der bivariaten Regression also bereits aus der Korrelation zu gewinnen. Nicht nur der Regressionskoeffizient b lässt sich über r berechnen, sofern zusätzlich die Standardabweichungen der Variablen bekannt sind (Formel (2.3)). Auch das Maß R² für die Vorhersagegüte von X im Hinblick auf Y ergibt sich direkt aus dem Quadrieren von r. Inhaltlich ist aus der vorangehenden Analyse festzuhalten, dass die Nutzenbewertung sowie die Bewertung der EU als fähiger Akteur der Krisenbewältigung einen merklichen positiven Einfluss auf die allgemeine Imagebewertung der EU auf der Länderebene zu haben scheinen. Dabei ist jedoch zu beachten, dass es sich dabei um einen statistischen Zusammenhang handelt. Ob dieser Effekt auch kausaler Art ist, kann nur durch theoretische Annahmen begründet sowie idealerweise durch ein geeignetes Untersuchungsdesign, insbesondere eine passende Art und Weise der Datengenerierung, zuverlässig abgesichert werden (Berk 2010). Dabei müsste nachgewiesen werden, dass eine vorgängige Veränderung oder Manipulation einer Variablen zu einer Veränderung einer anderen Variablen geführt hat, während weitere Variablen als ursächlich für diese Veränderung(en) ausgeschlossen werden können. Auf der Basis der vorgenommenen Analyse kann die Frage nach der Kausalität nicht beantwortet werden. Denn wenn die Bevölkerung die EU allgemein als nützlich betrachtet, könnte dies einerseits das EU-Image beeinflussen. Andererseits könnte jedoch der Einfluss auch gerade umgekehrt verlaufen und eine abstrakte Bewertung des EU-Images die Ursache dafür sein, dass die Bevölkerung deren Nutzen niedrig/hoch einschätzt. In einer weiteren Hinsicht ist Vorsicht bei der Interpretation der Befunde geboten. Die zuvor durchgeführten Analysen fanden auf der Länderebene anhand von Aggregatdaten statt. Aussagen über die vorgefundenen Zusammenhänge haben entsprechend auf diese Ebene beschränkt zu bleiben. Die Folgerung, dass die betreffenden Relationen auch auf der Ebene der Individuen bestehen, ist unzulässig. Es handelt sich bei einer derartigen Projektion um einen sogenannten Ökologischen Fehlschluss (Robinson 1950). Ein anschauliches Beispiel für diese Art von Fehlschluss ist bei Diekmann (2007: 136) zu finden: Während in einem Stimmbezirk 20 Prozent der Wähler katholisch sind und die CDU auf 20 Prozent der Stimmen kommt, liegt in einem zweiten Bezirk der Anteil der Katholiken bei 40 Prozent und erreicht dort die CDU 40 Prozent der Stimmen. Auf der Ebene der Stimmbezirke geht also ein höherer Anteil katholischen Wähler mit einem stärkeren Abschneiden der CDU einher. Dies bedeutet jedoch nicht, dass es die katholischen Wähler sind, die vornehmlich CDU wählen. Im Gegenteil ist es sogar theoretisch denkbar, dass in beiden Stimmbezirken die 20 bzw. 40 Prozent der CDU-Stimmen allein auf nicht katholische Wähler zurückgehen. Auf die oben betrachteten EU-Daten gewendet bedeutet dies: Der festgestellte Effekt von beispielsweise eucapable auf die AV euimage auf Länderebene impliziert nicht, dass es sich bei den Individuen, die mit dem EU-Krisenmanagement zufrieden sind, auch um dieje-
18
2 Grundlagen der Regressionsanalyse
nigen handelt, die ein positives Bild von der EU haben. Der nachfolgende Abschnitt zur multiplen Regression geht daher auf die Analyseebene der Individualdaten ein.
2.4
Multiple lineare Regression
2.4.1
Berechnung und Interpretation
Die multiple Regression ist als eine Erweiterung der bivariaten Regression zu verstehen. Sie unterscheidet sich im Wesentlichen von der bivariaten Form durch die Aufnahme von mehr als einer UV in das Modell. Die Regressionsfunktion ist dann keine Geradengleichung mehr (mit einer UV X, der AV Y, dem Regressionsgewicht b sowie einer Konstante), sondern lässt sich als allgemeines lineares Modell darstellen, das neben der Konstanten a mehrere UV X1, X2, … bis Xj enthält, die jeweils mit b1, b2, … bis bj multipliziert werden: =
+
+
+
+
(2.7)
Ein wichtiger Unterschied der multiplen zur bivariaten Regression besteht im Hinblick auf die Effektschätzer. Sie fallen bei der multiplen Regression gegebenenfalls anders aus, als wenn sie einzeln per bivariater Regression (separat jede der UV mit der AV) berechnet würden. Regressionsgewichte sind bei der multiplen Regression so zu lesen, dass sie den Einfluss einer UV auf die AV angeben, während gleichzeitig der Einfluss der anderen Regressionsgewichte im Modell statistisch berücksichtigt wird. Es handelt sich demnach um partielle Effekte der Variablen im Modell, die in der geschätzten Regressionsgleichung resultieren. So kann eine Variable X in einer bivariaten Regression einen merklichen Einfluss auf Y haben. Nach dem Hinzufügen weiterer Regressoren verliert jene erste Variable X aber womöglich an Einfluss, weil die zweite UV einen Teil der Varianz der ersten bindet („Auspartialisierung“ (Urban/Mayerl 2011: 86)). Hinzu kommt, dass sich wie bei der bivariaten auch bei der multiplen Regression standardisierte Regressionsgewichte, Beta-Werte, angeben lassen. Die Effekte der UV im Modell lassen sich dadurch miteinander vergleichen, weil die Regressoren im Zuge der Standardisierung dieselbe Einheit angenommen haben, nämlich eine Standardabweichung (für als Dummy kodierte Variablen gilt dies nicht uneingeschränkt: s. u.). Die Koeffizienten geben folglich an, um wie viele Standardabweichungen (und in welche Richtung) sich die AV verändert, wenn sich die betrachtete UV um eine Standardabweichung ändert. Anhand der Fortführung des Beispiels in den vorangehenden Abschnitten kann dies veranschaulicht werden. Abermals soll die Bewertung des EU-Images als AV erklärt werden. Weiterhin engt der Forscher den Untersuchungsgegenstand auf das Vereinigte Königreich (uk) ein, weil er in den Analysen weiter oben an diesem Land eine Reihe extremer Ausprägungen der betrachteten Variablen ausgemacht hat (geringste Ausprägungen bei euimage, eubenefit und eucapable). Insofern könnte die Frage, was die einzelnen Bürger des Vereinigten Königreichs zu ihrer jeweiligen EU-Imagebewertung antreibt, besonders aufschlussreich sein. Im Gegensatz zur Makroanalyse auf Länderebene liegt der Analyse auf der Mikroebene eine Zufallsausfall zugrunde, die Repräsentativität für eine bestimmte Grundgesamtheit beansprucht, und zwar für die Bürger des Vereinigten Königreichs ab 15 Jahren. Aufgrund der Modalitäten der verwendeten mehrstufigen Zufallsauswahl müssen die Daten für die angestrebte Repräsentativität erst noch mit dem Designgewicht gewichtet werden. Ohne das Ge-
2.4 Multiple lineare Regression
19
wicht würden bestimmte Fälle im Datensatz, so die stichprobentheoretische Annahme, übergebührlich stark oder schwach in die Analyse eingehen. Nach dieser Gewichtung sollen zuverlässige und gültige inferenzstatistische Rückschlüsse auf die tatsächlichen Effekte in der Grundgesamtheit möglich sein.8 Geschätzt werden abermals die Determinanten zu den vier weiter oben schon vorgestellten Erklärungsansätzen (eubenefit, euinsttrust, eucitizen, eucapable). Zu beachten ist dabei, dass die Variablen euinsttrust, eucitizen und eucapable intervallskaliert sind und von 0 bis 1 reichen, während eubenefit eine 0/1-kodierte DummyVariablen ist. Die Regressionsfunktion kann mit nominal skalierten Variable umgehen, wenn die beiden Ausprägungen einer dichotomen nominalskalierten Variablen mit „0“ bzw. „1“ kodiert sind. Das Regressionsgewicht einer solchen Dummy-Variablen zeigt den Effekt auf die AV an, der sich durch den Unterschied der Ausprägung „1“ gegenüber der Referenzkategorie „0“ ergibt. Neben den vier Einstellungsvariablen seien dem Modell die Variablen Geschlecht (1 = männlich, 0 = weiblich), Alter, die politische Selbsteinstufung auf der Links-Rechts-Achse (von 1 = ganz links bis 10 = ganz rechts), Bildung (näherungsweise gemessen als Dauer der gesamten Ausbildung) und Beschäftigungsart hinzugefügt. Die Variable Beschäftigungsart stellt dabei zunächst vor ein Problem, weil sie auf der Nominalskala misst und mehrere Ausprägungen umfasst (z. B. Selbstständige, Arbeiter und Rentner). Damit eine solche polytome Variable in eine lineare Regression aufgenommen werden kann, bedarf es der Transformation der einzelnen Ausprägungen dieser Variablen in jeweils eine Dummy-Variable. Dafür ist, wie bei dichotomen Merkmalen, zunächst eine Referenzkategorie zu bestimmen. Die verbleibenden Kategorien werden jeweils in eine neue dichotome Variable kodiert: Wenn die Ausprägung vorliegt, ist die Dummy-Variable gleich 1, wenn nicht, ist sie 0. (Natürlich kann man auch mehrere Kategorien zusammenfassen.) Zu beachten ist, dass nicht für jede ursprüngliche Ausprägung/Kategorie ein Dummy Eingang in die Analyse findet, sondern die Referenzkategorie ausgespart werden muss, damit noch ein Vergleich, eine Änderung von Ausprägungen geschätzt werden kann (für eine ausführlichere Beschreibung s. Urban/Mayerl 2011: 276–291). Stata entfernt im Übrigen selbstständig eine der erstellten Dummyvariablen, wenn alle in das Modell aufgenommen werden. Für das Analysebeispiel werden die einzelnen Beschäftigungsarten jeweils in eine Dummy-Variable überführt.9 Die genannten sozialstrukturellen Merkmale werden berücksichtigt, da diese womöglich den untersuchten Einstellungsvariablen vorgelagert sind, so dass sich letztere auf erstere teilweise zurückführen lassen. Bestimmte Beschäftigungsgruppen könnten sich beispielsweise durch die EU-Integration gefährdet fühlen und die EU schon deshalb allgemein negativ bewerten. Ohne diese statistische Kontrolle würden die eigentlichen Effekte der Einstellungsvariablen womöglich überschätzt werden, da sie einen Teil der Effektstärke beinhalten, der tatsächlich auf die sozusagen tiefer liegende Position in der sozialen Struktur zurückgeht. Berechnet wird das vollständige Modell, welches neben den theoretisch interessierenden auch die Kontrollvariablen enthält, über folgenden Befehl:
8 9
Es sei angemerkt, dass die aggregierten Zahlen der Makroanalyse weiter oben ebenfalls auf gewichteten Daten beruhen. Wie diese Dummy-Kodierung in Stata durchgeführt wird, ist im Do-File beschrieben. Die Referenz bildet dabei die Gruppe Arbeiter; sie geht somit selbst nicht in die Regressionsschätzung ein.
20
2 Grundlagen der Regressionsanalyse regress euimage eubenefit euinsttrust eucitizen eucapable age > gender educ leftright occup1 occup2 occup3 occup5 occup6 occup7 > occup8 if COUNTRY==9 | COUNTRY==10 [w=W4]
Mit dem if-Befehl werden über die Variable COUNTRY nur die Befragten aus dem Vereinigten Königreich ausgewählt. Die Ländercodes 9 und 10 stehen dabei für Großbritannien bzw. Nordirland. Der letzte Teilbefehl am Ende bestimmt, dass bei der Schätzung als Gewicht (w) die Variable W4 im Datensatz verwendet wird. Dieses Gewicht ist von Eurobarometer als das Design-Gewicht für das gesamte Vereinigte Königreich vorgesehen. Die Ergebnistabelle für die berechnete Regression ist in Output 2.4 dargestellt. Output 2.4: Multiple Regression Source | SS df MS -------------+-----------------------------Model | 19.8349379 15 1.32232919 Residual | 18.5399393 506 .036640196 -------------+-----------------------------Total | 38.3748773 521 .073656194
Number of obs F( 15, 506) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
522 36.09 0.0000 0.5169 0.5026 .19142
-----------------------------------------------------------------------------eueuimage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------eubenefit | .1235833 .0218122 5.67 0.000 .0807296 .1664369 euinsttrust | .1942637 .0264386 7.35 0.000 .1423207 .2462067 eucitizen | .1475468 .0306171 4.82 0.000 .0873945 .2076991 eucapable | .1828953 .0374148 4.89 0.000 .1093878 .2564028 age | -.0010832 .000743 -1.46 0.146 -.0025429 .0003766 gender | .0152208 .0180622 0.84 0.400 -.0202653 .050707 educ | .0028439 .001726 1.65 0.100 -.0005471 .0062349 leftright | -.0082819 .0046713 -1.77 0.077 -.0174595 .0008956 occup1 | -.0569182 .0374015 -1.52 0.129 -.1303995 .0165632 occup2 | .0289472 .0294407 0.98 0.326 -.0288939 .0867883 occup3 | -.0179465 .0339639 -0.53 0.597 -.0846742 .0487812 occup5 | .0011385 .0460878 0.02 0.980 -.0894084 .0916855 occup6 | -.0245718 .0352284 -0.70 0.486 -.0937838 .0446401 occup7 | -.0187257 .0334821 -0.56 0.576 -.0845068 .0470553 occup8 | .018783 .0500837 0.38 0.708 -.0796146 .1171807 _cons | .2178411 .0551269 3.95 0.000 .1095352 .326147 ------------------------------------------------------------------------------
Der einzige Unterschied zum Output der bivariaten Regression besteht darin, dass nun neben der Konstante eine Reihe UV in der Tabelle zu den Koeffizienten aufgeführt sind. Es sei zudem darauf hingewiesen, dass die Fallzahl mit 522 Beobachtungen (nach Gewichtung) erheblich höher liegt als auf der Makroebene mit 27 Ländern. Häufig bedeuten hohe Fallzahlen, beispielsweise bei Umfragedaten, dass dadurch mehr Komplexität in den Daten vorliegt. Die Varianz der AV wird dann in der Regel weniger durch eine oder einige wenige Variable erklärt, sondern durch eine ganze Reihe von Merkmalen bestimmt. Höhere Werte von R², z. B. über 50 %, werden damit üblicherweise schwerer erreicht. So kann bei Umfragedaten eine erklärte Varianz von 20 % bis 30 % durchaus schon gehaltvoll sein. Allerdings bleibt zu beachten, dass ein großer Teil der Streuung unaufgeklärt bliebe und insofern wichtige Variablen möglicherweise übersehen worden sein könnten. Insgesamt erklärt dieses einfache Modell einen nennenswerten Teil der Varianz. Dabei ist zu beachten, dass bei der multiplen Regression nun die adjustierten Werte für R² (Adj Rsquared) zu interpretieren sind (im Beispiel 46,7 %). Dieses Maß ist gegenüber dem einfa-
2.4 Multiple lineare Regression
21
chen R² der bivariaten Regression an der Anzahl der UV im Modell normiert. Dies geschieht, da in der Regel schon allein das Hinzufügen von Erklärungsfaktoren die erklärte Varianz ansteigen lässt. Die Güte des Modells hängt jedoch auch von der Zahl der Variablen ab, die eine bestimmte Varianz aufklären – je weniger erforderlich sind, desto besser; und desto höher das korrigierte R². Die Koeffizienten sind in der multiplen Regression in ähnlicher Weise wie bei der bivariaten Regression zu interpretieren. Wie oben beschrieben, besteht der entscheidende Unterschied jedoch darin, dass bei den geschätzten Koeffizienten die Bedingung gilt, dass es sich dabei um Effekte handelt, bei denen zugleich jeweils alle anderen Effekte/Variablen im Modell berücksichtigt und konstant gehalten werden. Was die Nutzenbewertung anbelangt, lässt sich demnach sagen, dass eine Person ihre Bewertung des EU-Images um 0,12 Einheiten erhöht, wenn sich ihre Ausprägung des Merkmals eubenefit um eine Einheit erhöht – unter Konstanthaltung des Einflusses aller anderen Variablen im Modell (Ceteris-Paribus-Annahme). Dabei ist, insbesondere beim Vergleich der Regressionsgewichte, zu berücksichtigen, dass die Nutzenbewertung 0-1-kodiert ist. Der Effekt von 0,12 geht somit auf den Sprung zwischen den zwei diskreten Ausprägungen 0 und 1 zurück. Der Effekt der Variable euinsttrust liegt augenscheinlich sogar noch etwas höher als der der Nutzenbewertung. Die Veränderung um eine Einheit bei der vorliegenden Variablenkodierung, also von der geringsten Ausprägung 0 bis zur höchsten 1, steigert die Image-Bewertung der EU um 0,19. In einer ähnlichen Größenordnung liegen die Effekte der gefühlten Identität als EU-Bürger sowie die Variable eucapable, wobei letztere gemessen am Koeffizienten den zweithöchsten Effekt unter diesen vier theoretisch interessierenden Variablen aufweist. Ein derartiger Vergleich der Effektstärken anhand einer solchen substantiellen Interpretation der Koeffizienten nach deren Normierung auf einen Wertebereich von 0 bis 1 kann aufschlussreich sein – gerade für einen Vergleich mit Dummy-Variablen (0-1-kodiert). Gegebenenfalls lässt sich der Vergleich der Effektstärken dann inhaltlich rechtfertigen: Wenn, wie bei der Dummy-Variablen die Ausprägungen (Nutzen vs. kein Nutzen) inhaltlich zwei gegensätzliche Pole ausmachen, können diese Variablen, ebenso wie bei den metrischen Merkmalen – als der Schritt von einem Minimum zu einem Maximum interpretiert werden. Allerdings können bestimmte, extremere Ausprägungen (wie Minima und Maxima) von Merkmalen auch selten oder gar nicht auftreten, obgleich sie theoretisch denkbar sind. Dann ist die Interpretation festgesetzter Wertespannen womöglich irreführend. Wenn beispielsweise zwei Merkmale eine identische theoretische Wertespanne haben, ein Merkmal jedoch breit streut und diese gesamte Spanne faktisch ausfüllt, während die real beobachteten Werte des zweiten in einem engen Bereich um die Mitte jenes theoretischen Wertebereichs streuen, ist für beide Merkmale schwerlich eine feste inhaltliche Spanne als Maßstab anzulegen. Es mag dann gehaltvoller sein, die Effekte an den empirisch vorgefundenen Werten und deren Streuung zu relativieren. Dies geschieht mittels der weiter oben bereits beschriebenen standardisierten Regressionskoeffizienten (Betas). Die zusammen mit der Option beta erneut ausgeführte Regression liefert die an den jeweiligen Standardabweichungen der Prädiktoren sowie der Standardabweichung der AV normierten Effekte. Der in Output 2.5 dargestellte Ausschnitt aus dem Stata-Output zeigt u. a., dass der zuvor noch als zweitgrößter eingeschätzte Effekt der Variable eucapable nun (gemessen an Beta) die geringste Effektstärke der vier theoretisch interessierenden Variablen aufweist. Allerdings ist damit der Vergleich von metrischen Variablen mit Dummy-Variablen wie eucapable im Modell insofern nicht sinnvoll,
22
2 Grundlagen der Regressionsanalyse
als dass sich Ausprägungen solcher Dummy-Variablen nicht (inhaltlich) in Standardabweichungen der Variablen verändern können (Urban/Mayerl 2011: 106). Darüber hinaus lassen sich die Betas zwischen theoretisch identischen Modellen dann nicht miteinander vergleichen, wenn sie auf verschiedenen Populationen oder Gruppen basieren. Denn die standardisierten Koeffizienten hängen von Merkmalsstreuung ab, die in der jeweiligen Gruppe vorkommen. Streut ein Merkmal in verschiedenartigen Kontexten unterschiedlich, fällt auch die Normierung entsprechend anders aus. Für derartige Vergleiche zwischen Gruppen sind daher immer die nicht standardisierten Koeffizienten heranzuziehen. Output 2.5: Multiple Regression mit standardisierten Koeffizienten (Ausschnitt) […] -----------------------------------------------------------------------------eueuimage | Coef. Std. Err. t P>|t| Beta -------------+---------------------------------------------------------------eubenefit | .1235833 .0218122 5.67 0.000 .2211135 euinsttrust | .1942637 .0264386 7.35 0.000 .287579 eucitizen | .1475468 .0306171 4.82 0.000 .1887396 eucapable | .1828953 .0374148 4.89 0.000 .1751962 […]
Insgesamt kann auf der Basis der Befunde in Output 2.4 und Output 2.5 festgehalten werden, dass die vier betrachteten EU-Einstellungsvariablen allesamt die allgemeine ImageBewertung der EU beeinflussen. Die soziodemografischen Variablen hingegen erweisen sich als vernachlässigbar. Begründen lässt sich diese Interpretation der Koeffizienten anhand der Werte in der Spalte P>|t|. Bei einem Wert unter 0,05 oder nach noch vorsichtiger Interpretation unter 0,01, kann davon ausgegangen werden, dass der in der Stichprobe vorgefundene Zusammenhang auch für die Grundgesamtheit (die Bürger des Vereinigten Königreichs) gilt. Man spricht von statistisch signifikanten, d. h. überzufälligen Effekten. Die Werten in der genannten Spalte beruhen inhaltlich auf einem Test darauf, ob der jeweilige Koeffizient von null verschieden ist. Der Wert für P gibt die Wahrscheinlichkeit an, mit der man sich irrt, wenn man davon ausgeht, dass der wahre Effekt von null verschieden ist – also tatsächlich ein Effekt in der Grundgesamtheit existiert (s. u.). Dieser Sachverhalt lässt sich ebenfalls an den 95 %-Konfidenzintervallen der Effektschätzer erläutern, die in den rechten beiden Spalten der Output-Tabelle zur Regression angegeben sind (in Form der linken und rechten Intervallgrenzen). Sie geben die Fehlermarge der Effektschätzer an. Für den Einfluss einer Variablen wird stets ein Schätzer zusammen mit einer Angabe über den möglichen Irrtum berechnet und dargestellt. Mit einer Vertrauenswahrscheinlichkeit von 95 Prozent beinhaltet das berechnete Intervall den wahren Effekt in der Grundgesamtheit. Liegt der Bereich jener Fehlermarge entweder vollkommen im negativen Bereich oder aber im positiven Bereich, würde man den Effektschätzer unter Beachtung der Fehlerspanne als überzufällig von null verschieden vermuten: entweder negativ (Intervall liegt unterhalb von null) oder positiv (Intervall liegt oberhalb von null). Wäre der wahre Wert in der Grundgesamtheit tatsächlich null, so würde man sich nur mit einer Wahrscheinlichkeit von fünf Prozent irren.
2.4 Multiple lineare Regression
23
Der Zweck der Interpretation dieser Werte ist letztlich der Rückschluss auf die Grundgesamtheit. Mit den Schätzwerten samt Intervallgrenzen sind informierte Urteile darüber möglich, ob der tatsächliche Effekt von null verschieden ist und in welchem Bereich dieser wahre Wert sehr wahrscheinlich liegt. Auf die Prinzipien und Konventionen solcher Inferenzschlüsse geht der nachfolgende Abschnitt näher ein.
2.4.2
Verallgemeinerung auf die Grundgesamtheit
Bei der Beispielrechnung ist zu bedenken, dass die Datengrundlage eine Stichprobe ist, die durch eine Zufallsauswahl aus einer Grundgesamtheit (im Beispiel alle Bürger in UK ab 15 Jahre) zustande kommt. Die berechneten Regressionskoeffizienten beruhen lediglich auf den Informationen in der Stichprobe. Die wahren Koeffizienten der Grundgesamtheit sind jedoch nicht bekannt. Um vollständig sichere Schlüsse zu ziehen, müsste eine Vollerhebung durchgeführt werden, was in der Praxis selten möglich ist. In der Regel werden Aussagen über die Grundgesamtheit und die wahren Parameter zu bj und a angestrebt. Die berechneten Koeffizienten bj und a dienen hierbei als Schätzer der wahren Populationsparameter βj und α. Dies ist möglich, wenn die Stichprobe eine Zufallsauswahl darstellt und sich somit auch die Schätzer bj und a als Realisierungen von Zufallsvariablen begreifen lassen. Würde man die obige Regressionsanalyse erneut durchführen und zu diesem Zweck abermals eine Stichprobe zur Berechnung ziehen, würden die resultierenden Koeffizienten nicht identisch mit denen im Output 2.4 ausfallen. Der Effekt b für euinsttrust würde kaum erneut exakt 0,1942637 ergeben, sondern vermutlich mehr oder minder danebenliegen. Als Annahme gilt, dass es in der Grundgesamtheit einen wahren Wert für den Schätzer gibt, diesen wird man jedoch nur näherungsweise mit Hilfe der Stichprobe bestimmen können. Würde man dieses Prozedere des Ziehens und Berechnens von Stichprobendaten vielfach wiederholen, würde man (relativ gesehen) extreme Abweichungen nach unten ebenso wie nach oben eher selten erhalten. Koeffizienten nahe dem berechneten Wert von etwa 0,194 dürften bei den durchgeführten Berechnungen jedoch häufig vorkommen. Die Verteilung dieser Werte ähnelt der Normalverteilung, wie sie bei vielen Merkmalen in der Natur (z. B. Körpergröße) vorkommt. Die Werte streuen dabei um einen Mittelwert. Werte nahe dem Mittelwert kommen relativ häufig vor, extreme Abweichungen davon relativ selten. Neben solchen empirischen annähernden Normalverteilungen gibt es eine theoretische Wahrscheinlichkeitsverteilung, an der Aussagen über die Häufigkeit des Auftretens von Werten gewissermaßen geeicht sind (s. Abb. 2.4). Sie hat den Mittelwert null und die Standardabweichung eins. Aus dieser Verteilung ist bekannt, dass 95 % der auftretenden Werte in einem Bereich vorkommen, der von 1,96 Standardabweichungen unterhalb des Mittelwerts bis 1,96 Standardabweichungen oberhalb des Mittelwerts reicht (durchgezogene Linie im Schaubild). Die Anzahl der Standardabweichungen, mit denen man solch ein symmetrisches Intervall um den Mittelwert legt, gibt der z-Wert wieder. Jedem z-Wert lässt sich eine Wahrscheinlichkeit (die der Fläche unter der Kurve für das jeweilige Intervall entspricht) zuordnen. Anhand der Funktion der Standardnormalverteilung lassen sich somit Aussagen darüber treffen, mit welcher Wahrscheinlichkeit das Auftreten bestimmter Ausprägungen zu erwarten ist. Analog dazu lassen sich Aussagen über die Verteilung von Schätzern bj treffen. Deren theoretischen Verteilung liegt jedoch eine aus der Standardnormalverteilung abgeleitete sogenannte tVerteilung zugrunde. Diese Verteilung berücksichtigt, dass die Schätzung der Varianzen und Standardabweichungen anhand einer Stichprobe (auf denen die Schätzer beruhen) mit Unsicher-
24
2 Grundlagen der Regressionsanalyse
heit behaftet ist. Dieser Sachverhalt spiegelt sich darin wider, dass die t-Verteilung, merklich bei kleinen Fallzahlen, im Vergleich zur z-Verteilung etwas flacher und breiter ausläuft und Konfidenzintervalle dadurch größer werden. Mit zunehmender Fallzahl nähert sich die t-Verteilung der z-Verteilung an. Ab etwa 30 Fällen liegt beispielsweise der t-Wert, mit dem sich das Intervall 95 % aller Fälle um den Mittelwert bestimmen lässt, auf eine Nachkommastelle gerundet bei 2,0 und verändert sich dann mit zunehmender Fallzahl auch kaum noch. (Welcher t-Wert einer bestimmten Wahrscheinlichkeit für gegebene Freiheitsgrade entspricht, lässt sich auch aus eigens hierzu aufgestellten Tabellen entnehmen.) Die Auftretenswahrscheinlichkeit bestimmter Werte bestimmt sich wie vorangehend im Zusammenhang mit der Standardnormalverteilung beschrieben. Allerdings wird anstatt von z-Werten von t-Werten gesprochen. 0,5 0,4 0,3 0,2 0,1 0 -5 Abb. 2.4:
-4
-3
-2
-1
0
1
2
3
4
5
Standardnormalverteilung und 95 % Konfidenzintervall
Mit diesen t-Werten kann die Verteilung eines Schätzers bj auf der Basis der Informationen aus der Stichprobe bestimmt werden. Dabei ist zu beachten, dass es sich bei einem Schätzer um einen Kennwert handelt. Die Streuung von Kennwerten ist nicht mittels der Standardabweichungen, sondern über den Standardfehler (Std. Err., s. Output 2.4)zu berechnen.10 Auf der Basis der Kenntnisse über die theoretische Normalverteilung sind damit auch hierfür Aussagen über Intervalle möglich, in denen mit einer bestimmten Wahrscheinlichkeit das Auftreten bestimmter Werte (in diesem Fall Ausprägungen des Schätzers) erwartet wird. Um zu wissen, wo 95 % aller Schätzer für den Effekt von euinsttrust zu erwarten sind, berechnet man die untere Grenze des Intervalls als den Wert des Koeffizienten (im Beispiel 0,194) minus 1,96 Mal den Standardfehler (im Beispiel 0,026). Für die obere Grenze wird dasselbe jedoch mit positivem Vorzeichen (plus 1,96 Mal den Standardfehler) berechnet. Der resultierende Wertebereich des Schätzers lautet dann 0,142 bis 0,246. Diese Werte sind auch im Stata Output auf der rechten Seite neben den Koeffizienten in der Tabelle zu finden. Stata berechnet dieses Intervall standardmäßig. Die Aussage, die sich auf dieser Grundlage treffen
10
Die Auftretenswahrscheinlichkeit einzelner Werte (z. B. Alter einer Person) bei Ziehung aus der Grundgesamtheit ist bestimmbar durch die Standardabweichung der zugrunde liegenden Verteilung. Anders verhält es sich beim Mittelwert einer Stichprobe (z. B. durchschnittliches Alter), die aus der Grundgesamtheit gezogen wird. Er stellt einen Schätzer für den tatsächlichen Mittelwert in der Grundgesamtheit dar. Die Streuung der Mittelwerte solcher gezogener Stichproben ist kleiner als die einzelner ‚gezogener‘ Werte, da mehr Werte in ihn eingehen und extremere Werte durch zentralere oder gegenläufige Werte ausgeglichen werden. Daher ist der Standardfehler von Kennwerten kleiner als die Standardabweichung der Werte.
2.4 Multiple lineare Regression
25
lässt, ist somit: Mit 95-prozentiger Wahrscheinlichkeit enthält jenes Intervall den wahren, in der Grundgesamtheit vorherrschenden Effekt. Ersichtlich ist aus dem Intervall auch, dass der Wert null – demnach gäbe es für die betreffende Variable keinen Effekt – nicht in den angegebenen Grenzen um bj liegt. Die Entscheidung darüber, ob ein „Nulleffekt“ vorliegt oder ob der berechnete Koeffizient überzufällig von null abweicht, beruht ebenfalls auf Intervallschätzungen wie oben beschrieben, setzt jedoch an einem anderen Punkt an. Die Grundidee ist dabei, dass es die vorsichtigere, konservative Vorgehensweise vorzieht, gegenläufige Vermutungen (der Effekt ist 0) zu widerlegen anstatt Vermutungen (z. B. die Variable hat einen Effekt mit bj ungleich null) zu bestätigen. Die Entscheidung, dass von einem Effekt ausgegangen werden kann, folgt damit aus der Widerlegung der Vermutung, dass der Effekt null ist. Letzteres bezeichnet man als Nullhypothese H0: = 0. Dafür betrachtet man eine Verteilung, die man erwarten würde, wenn die H0 gilt und der wahre Wert β null ist. Hierfür legt man das Intervall mit 95 % aller auftretenden Schätzer (bei hypothetisch beliebig oft durchgeführten Stichproben) wie oben beschrieben mit plus/minus 1,96 Mal den aus der Stichprobe geschätzten Standardfehler um den Wert null. Bei wiederholt gezogenen Stichproben würden 95 % der Werte der Schätzer also um einen entsprechenden Bereich um null streuen, wie es in Abb. 2.5 am Beispiel des Standardfehlers für die Variable eucitizen dargestellt ist. Zur besseren Darstellung sind vertikale gestrichelte Linien an den Stellen der x-Achse eingezeichnet, die ein Vielfaches des Standardfehlers (0,031 gerundet) ergeben. Der geschätzte Effekt der 0,45 Variable eucitizen liegt 0,4 fast fünf Standardfehler von 0,35 null entfernt und ist somit 0,3 statistisch signifikant davon 0,25 verschieden. 0,2 0,15 0,1 0,05 0 -0,155 -0,124 -0,093 -0,062 -0,031 1E-17 0,031 0,062 0,093 0,124 0,155 0,186 Abb. 2.5:
Standardnormalverteilung und 95 % Konfidenzintervall
Ein Wert von etwa = 0,03 läge noch relativ nahe bei der Null, und zwar weniger als ein Standardfehler entfernt. Beim hypothetischen Ziehen einer Stichprobe und schätzen von b befände sich dieser Wert also in einem Bereich von Werten, die bei der erwarteten Verteilung um null im Rahmen von Zufallsschwankungen relativ oft aufträten und somit zu eben dieser Verteilung (für die gilt = 0) passen würden. Der in der Regression festgehaltene Wert für bj von eucapable hingegen liegt gemessen an der Distanz in Standardabweichungen weit von null entfernt. Er ist in der Abbildung als Raute eingezeichnet und liegt sogar augenscheinlich weit ab von den Grenzen des 95 % Konfidenzintervalls um null. Der t-Wert im Stata Output gibt dabei an, um wie viele Standardfehler die Intervallgrenzen um den Wert
26
2 Grundlagen der Regressionsanalyse
null zu legen wären, um den tatsächlich vorgefundenen/berechneten Schätzer bj einzuschließen. Oder anders ausgedrückt, der Schätzer von b ist t Standardfehler von 0 entfernt (s. Abb. 2.5). Dies lässt sich auch an der Berechnung des empirischen t-Werts ablesen: = mit
−
(2.8)
=0
Unter einer Verteilung, die bei keinem Effekt in der Grundgesamtheit auftreten würde, wäre das Vorkommen des tatsächlich berechneten Koeffizienten also extrem selten. Wie selten dies zu erwarten ist, lässt sich genau angeben. Der Signifikanzwert p (im Output für eucitizen gleich 0,000 und somit kleiner als 1 %) gibt an, mit welcher Wahrscheinlichkeit unter der angenommenen Verteilung um null Werte größer/gleich dem zugehörigen Koeffizienten der Variablen auftreten. Der Wert bj für eucitizen passt also nicht zu einer Verteilung, die bei einem wahren Effekt von null in der Grundgesamtheit vorläge. Insofern kann der beobachtete Wert von bj zwar theoretisch auch unter der Bedingung = 0 als Zufallsschwankung auftreten, doch ist die Wahrscheinlichkeit für das Auftreten von Werten größer/gleich bj kleiner als 1 %. Entsprechend selten irrt man sich bei der Entscheidung die Nullhypothese zu verwerfen (sogenannter Alpha-Fehler). Die Wahl dieser Irrtumswahrscheinlichkeit ist eine Konvention. So wird häufig das 95 %-Konfidenzintervall verwendet, um sich nur zu 5 % bei der Wiederlegung der Nullhypothese zu irren. Soll dieser Irrtum noch seltener begangen werden, kann die Wahrscheinlichkeit dafür geringer angesetzt und das Konfidenzintervall somit verbreitert werden. Die angezeigten Intervalle in Stata sind mit der Option level(#) hinter dem Regressionsbefehl anzupassen. Für eine Irrtumswahrscheinlichkeit von einem Prozent lautet der Zusatzbefehl also level(99). Gerade bei hohen Fallzahlen von mehreren Tausend kann es sinnvoll sein, mit breiteren Konfidenzintervallen zu arbeiten, da aufgrund der hohen Fallzahl die Standardfehler sehr klein und die Koeffizienten im Modell eher als signifikant geschätzt werden. Das 95 %Konfidenzintervall zu einem Effektschätzer vermag dann in einem sehr engen Bereich zu liegen, der komplett oberhalb oder unterhalb von null liegt. Bei genaueren Schätzungen und engeren Konfidenzintervallen können somit auch betragsmäßig kleine Effekte/Koeffizienten, die nahe an null liegen, als von null verschieden ausgemacht werden. Die Signifikanz allein verrät also noch nichts substantiell über die Effektstärke. Mit anderen Worten können mit höheren Fallzahlen auch kleinere Effekt statistisch abgesichert werden, denn es werden auch kleine, sehr nahe an null liegende Effekte als überzufällig von null verschieden mit Hilfe der Stichprobe geschätzt. Andererseits können bei sehr hohen Fallzahlen auch statistisch signifikante Effekt im Modell auftauchen, die substantiell eher vernachlässigbar sein mögen. Es kann dann hilfreich sein, anhand des berechneten Modells durchzuspielen, um wie viel sich die AV verändert, wenn für die betreffende UV ein inhaltlich sinnvoller Wert eingesetzt wird. Soll bei Stichprobendaten auf eine Population geschlossen werden, ist es in jedem Fall entscheidend, dass die Datenerzeugung auf einer Zufallsauswahl beruht. Andernfalls kann die Inferenz auf der Basis der Schätzer in der Regel nicht gerechtfertigt werden (Berk 2010: 5– 6). Generalisierungen sind ansonsten bestenfalls unter Vorbehalt möglich. Analysen auf Länderebene beispielsweise verwenden häufig eine begrenzte Auswahl von Fällen (Europäische Union, OECD etc.). Diese können kaum als repräsentative Auswahl einer Gesamtpopulation angesehen werden. Es ist immerhin möglich, die Auswahl selbst als die interessierende Po-
2.5 Regressionsdiagnostik
27
pulation zu deklarieren, über die Aussagen angestrebt werden. Damit läge praktisch eine Vollerhebung vor, wodurch Inferenzschlüsse irrelevant würden. Das Regressionsmodell ist dann eher von deskriptivem Stellenwert, die Koeffizienten fassen quasi die Daten zusammen. Darüber hinaus sagen die Signifikanzen und Konfidenzintervalle immerhin etwas darüber aus, wie gut ‚der Fit‘ zwischen den Variablen/dem Modell und den Daten ist.11 Selbst bei einer Zufallsauswahl der Daten sind die Schätzer und deren Konfidenzintervalle sowie die damit verbundenen statistischen Signifikanzen nicht unter allen Voraussetzungen sinnvoll und problemlos zu interpretieren. Es müssen bestimmte Bedingungen erfüllt sein, damit a und b tatsächlich als die besten linearen und unverzerrten Schätzer angenommen werden können. Darauf geht der nachfolgende Abschnitt zur Diagnostik von Regressionsfunktionen ein.
2.5
Regressionsdiagnostik
Wie bei den zuvor behandelten Beispielen liegen in der Forschungspraxis oftmals Stichproben vor. Bei Schätzern als Realisierungen von Zufallsvariablen müssen bestimmte Bedingungen erfüllt sein, damit von ihnen möglichst exakt auf die zugrunde liegenden Parameter (in der Grundgesamtheit) geschlossen werden kann. Die Datenbasis kann derart beschaffen sein, dass die Voraussetzungen für zuverlässige Inferenzschlüsse bei der Regression verletzt werden. Zudem können Besonderheiten in den Daten und eine fehlerhafte Modellspezifikation dazu führen, dass grundlegende Annahmen der linearen Regression verletzt werden. Dann sind die Schätzer womöglich insofern nicht mehr optimal, als dass sie nicht mehr als effizient und erwartungstreu gelten, sondern sogar verzerrt sind. Als erwartungstreu wird ein Schätzer bezeichnet, wenn dieser im Mittel den wahren Parameter in der Bevölkerung trifft. Davon losgelöst ist die Ungenauigkeit/die Streuung, mit der dieser Parameter getroffen (oder verfehlt) wird. Effizient meint in diesem Zusammenhang die Eigenschaft, dass ein Schätzer/eine Schätzmethode gegenüber anderen die kleinste Ungenauigkeit aufweist. Das OLS-Verfahren kann solche Schätzer, sogenannte BLUE-Schätzer (BLUE = best linear unbiased estimator), prinzipiell liefern. Nach dem Theorem von Gauß und Markov müssen dafür jedoch zumindest folgende Voraussetzungen erfüllt sein (Urban/Mayerl 2011): • Der Mittelwert der Residuen ergibt null, • die Datenstruktur weist Homoskedastizität (Varianzgleichheit über den gesamten Bereich der UV) auf, • es liegt keine Autokorrelation vor (die Residuen sind unabhängig voneinander) • und die Residuen sind nicht mit dem Prädiktor korreliert. In der Literatur gibt es verschiedene Darstellungen von regressionstheoretischen Annahmen, auf die die berechneten Modelle hin zu diagnostizieren seien (z. B. Backhaus et al. 2008; Cohen et al. 2003; Ohr 2010; Urban/Mayerl 2011). Häufig gehen diese über die zuvor genannten Voraussetzungen für die BLUE-Eigenschaft hinaus und behandeln weitere Annahmen des Regressionsmodells wie die Abwesenheit von (perfekter) Kollinearität zwischen den Prädiktoren oder die allgemeine Modellspezifizierung. Der Grund dafür ist, dass selbst bei erfüllten Voraussetzungen für einen nicht verzerrten sowie effizienten Schätzer (BLUE) die 11
Allerdings gibt es auch Überlegungen dazu, wann die Interpretation der Signifikanzen auch bei Vollerhebungen gehaltvoll sein kann (s. hierzu Behnke 2005; Berk 2004; Broscheid und Gschwend 2005).
28
2 Grundlagen der Regressionsanalyse
Regressionskoeffizienten dennoch problembehaftet sein können (s. hierzu auch Fußnote 12 sowie Ohr 2010: 651). In jedem Fall ist vor der Berechnung der Regressionsfunktion auf eine angemessene Spezifikation des Modells (hinsichtlich korrekter Messungen der Variablen und eine angemessene Anzahl relevanter Variablen) zu achten. Die nachfolgende Darstellung verzichtet auf eine Diskussion aller in der Literatur erwähnten Annahmen und wählt eine anwendungsbezogene Beschreibung der durch Regressionsdiagnostik direkt anhand des Modells prüfbaren Voraussetzungen. Es liegt hierbei die Frage zugrunde, auf welche Auffälligkeiten und Muster in den Daten bei der Regressionsanalyse ein Augenmerk zu legen ist und wie diese entsprechend bei der Auswertung und Interpretation zu behandeln sind. Im Folgenden betrachtet werden: Nicht-Linearität, Unterschiedliche Streuungen der Residuen bei verschiedenen Ausprägung eines Prädiktors (Heteroskedastizität), Abhängigkeiten zwischen den verschiedenen Prädiktoren im Modell (Multikollinearität), keine Normalverteilung der Residuen (dies ist für die Möglichkeit von Inferenzschlüssen entscheidend) und das Vorliegen von einflussreichen Fällen.12 Eine weitere Verletzung wichtiger Anforderungen an Regressionsmodelle liegt vor, wenn die Residuen voneinander abhängig sind (Autokorrelation). Da diese Anforderung im Wesentlichen bei Zeitreihendaten von Bedeutung ist, wird darauf an späterer Stelle (Kapitel 6) eingegangen. Die diversen Probleme samt den Konsequenzen, die sich aus ihnen ergeben, Möglichkeiten ihrer Diagnose sowie ihrer Behebung sind in Tab. 2.1 zusammengefasst. Die nachfolgenden Abschnitte gehen näher auf deren Inhalte ein.
12
Auf die Behandlung der Voraussetzung des BLUE-Schätzers, dass der Mittelwert der Residuen null ergibt sei an dieser Stelle verzichtet, da sie ohnehin nicht direkt geprüft werden können. Sie ist bereits durch die Methode der kleinsten Quadrate erfüllt. Abweichungen von den Annahmen können auf Messfehler und fehlende relevante Variablen zurückgehen. So schlagen sich beispielsweise Messfehler in einer fehlerhaft wiedergegebenen Konstante im Modell nieder. Fallen die Werte systematisch zu hoch oder zu tief aus, dann wird auch a nicht den wahren Wert in der Population widergeben. Meistens ist jedoch die Konstante nicht von theoretischem Interesse und kann vernachlässigt werden. Ebenfalls nicht direkt prüfbar ist die Bedingungen, dass die Residuen nicht mit dem Prädiktor korreliert sind, weil dies bereits durch die OLS-Methode verhindert wird (Ohr 2010: 651). Es ist jedoch theoretisch möglich, dass eine nicht inkludierte Variable mit der AV korreliert ist, also einen Teil der residualen Varianz im berechneten Modell erklären könnte. Wenn nun eine Variable im Modell wiederum mit jener ausgelassenen Variablen korreliert ist, dann wäre zuvor genannte Annahme verletzt und ein Prädiktor hinge mit dem Residuum zusammen. Die nicht aufgedeckte Erklärungskraft der ausgelassenen Variablen würde dann der Variable im Modell zugeschrieben, wodurch diese einen verzerrten Effekt („omitted variable bias“) aufweisen würde (hierzu Backhaus et al. 2008: 83–84). Es gibt Tests, um zu prüfen, ob eine bestimmte ausgelassene Variable relevant ist und Koeffizienten im Modell beeinflusst (s. hierzu Cohen et al. 2003: 143–144). Doch in jedem Fall muss die Variable dafür davor überhaupt erhoben und als relevant identifiziert worden sein. Letztlich ist die Aufnahme von Variablen auf der Basis theoretischer Überlegungen zu begründen. Rein aus dem berechneten Modell kann nicht gefolgert werden, welche Variable vergessen worden sein könnte.
2.5 Regressionsdiagnostik Tab. 2.1:
29
Diagnose und Handhabung von Problemen bei Regressionsmodellen
Problem
Konsequenz Grundlegende Modellspezifikation ist fehlerhaft
Keine Linearität Heteroskedastizität Multikollinearität
Standardfehler der Schätzer sind verzerrt (ineffizient) Standardfehler der Schätzer sind verzerrt (geringere Genauigkeit)
Diagnose Residuenanalyse Residuenanalyse; Test auf Varianzgleichheit Test auf Varianzinflation (VIF)
Keine Normalverteilung der Residuen
Signifikanztests (Koeffizienten und Gesamtmodellgüte) nicht zulässig
Residuenanalyse
Einflussreiche Fälle
Verzerrung des gesamten Modells
Prüfung des Gewichts der Fälle im Modell (cooks d, dffits, dfbeta)
2.5.1
Problemhandhabung Transformation des Prädiktors; anderes (nicht lineares) Schätzverfahren Berechnung mit robusten Standardfehlern Weitere Daten erheben; Variable(n) entfernen oder zusammenfassen Weitere Daten erheben; Variablen entfernen oder andere aufnehmen, Prüfung auf Messfehler; einflussreiche Fälle entfernen Fälle entfernen; weitere Daten erheben
Linearität
Eine zentrale Bedingung für die Angemessenheit der beschriebenen Regressionsmodelle ist zunächst, dass tatsächlich ein Zusammenhang linearer Form zugrunde liegt. Es gibt diverse Vorgehensweisen zur Feststellung von Linearität. Deren Ergebnisse hängen jedoch oftmals von der konkreten Durchführung ab und sind nicht immer eindeutig zu interpretieren. In jedem Fall kann eine grafische Überprüfung (wie beispielsweise in Abb. 2.1) von Zusammenhängen der involvierten Variablen sowie der Verteilung von Residuen wichtige Informationen zur Beurteilung der Linearität liefern. Mit dem folgenden Befehl produziert Stata Schaubilder für die Residuen zum Zusammenhang zwischen den Variablen eubenefit und euimage (s. Kapitel 2.2 zur Kovarianz und Korrelation). regress euimage eubenefit predict r, resid twoway (scatter r eubenefit), yline(0)
oder alternativ: rvpplot eubenefit
Mit dem Befehl predict lässt man sich die Abweichungen (wobei resid im Befehl für Residuen steht) im Regressionsmodell berechnen und benennt diese (hier „r“). Die abgetragenen Residuen streuen unsystematisch um die horizontale Linie bei r gleich null (s. Abb. 2.6). Anders ausgedrückt besteht kein systematischer Zusammenhang zwischen den Ausprägungen der UV und den Residuen bei den verschiedenen Ausprägungen dieser Variable. Träten hingegen deutliche Muster zutage, so könnte die lineare Beziehung zwischen den Variablen nicht mehr angenommen werden. Dann ist gegebenenfalls eine Transformation der Variablen geboten, nach welcher sich wieder eine lineare Beziehung aufstellen lässt (s. hierzu Backhaus 2008; Urban/Mayerl 2011). Dieses Vorgehen kann sinnvoll sein, wenn ein lineares Regressionsmodell grundsätzlich anwendbar ist, aber einzelne Variablen nicht linear mit der AV zusammenhängen. Häufig verwenden beispielsweise Studien auf Länderebene das
30
2 Grundlagen der Regressionsanalyse
−.1
−.05
Residuen 0
.05
.1
Bruttoinlandsprodukt in der logarithmierten Form, weil die Vermutung zugrunde liegt, dass der Effekt der Variable bei größeren Ausprägungen abnehmen könnte. Wenn jedoch grundlegend ein linearer Zusammenhang nicht vorausgesetzt werden kann, sind andere, weiterführende nicht-lineare Verfahren einzusetzen.
.4
Abb. 2.6:
2.5.2
.5
.6 .7 EU−Nutzenbewertung
.8
.9
Streudiagramm der Residuen für eubenefit
Homoskedastizität
In Abb. 2.6 deutet sich wie schon weiter oben in Abb. 2.1 eine Verletzung einer weiteren Voraussetzung für nicht verzerrte Regressionsschätzer an: Die Varianzen bei unterschiedlichen Ausprägungen einer UV haben annähernd gleich zu sein (Homoskedastizität). Ist dies nicht erfüllt, sind die Konfidenzintervalle zu eng und fallen häufig die p-Werte der Schätzer kleiner aus, da die Standardfehler der Koeffizienten zu klein geschätzt werden. Mittels des Befehls hettest im Anschluss an den Regressionsbefehl führt Stata den Test auf Streuungsungleichheit (Heteroskedastizität) nach Breusch und Pagan (auch Cook-Weisberg Test genannt) aus. (Der Befehl rvfplot, ähnlich wie rvpplot oben bei dem bivariaten Zusammenhang in Abb. 2.6, kann alternativ genutzt werden, um bei multiplen Regressionen die Residuen für die geschätzten Werte von Y anzuzeigen.) regress euimage eubenefit hettest Output 2.6: Breusch-Pagan-/Cook-Weisberg Test Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of euimage chi2(1) Prob > chi2
= =
2.84 0.0919
Im Beispiel (s. Output 2.6) beträgt der p-Wert für den Test auf Varianzgleichheit (Nullhypothese) etwa 0,09. Mit einer Vertrauenswahrscheinlichkeit von 90 Prozent kann damit die Nullhypothese „Homoskedastizität liegt vor“ abgelehnt werden. Die Streuungsverteilung weicht somit überzufällig von einer Verteilung mit einer angenommenen Streuungsgleichheit ab, es besteht Heteroskedastizität, wenngleich diese nicht besonders stark ausgeprägt ist. Bei
2.5 Regressionsdiagnostik
31
Vorliegen von Heteroskedastizität empfiehlt es sich, das Kürzel r (für robust) dem Regressionsbefehl als Option hinzuzufügen, so dass Stata mit angepassten, robusten Standardfehlern rechnet (Wooldridge 2013: 270–274). Häufig, aber nicht grundsätzlich, werden dadurch die Standardfehler der Koeffizienten im Modell größer und die Konfidenzintervalle verbreitern sich entsprechend.
2.5.3
Keine Multikollinearität
Als ein wesentlicher Vorteil der multiplen Regression wurde weiter oben herausgestellt, dass die UV partielle Regressionskoeffizienten darstellen, also der Einfluss einer Variablen bei gleichzeitiger statistischer Kontrolle der Effekte der anderen Variablen angegeben wird. Bei richtiger Spezifikation können sich somit Variablen als weniger bedeutsam erweisen, wenn andere, konkurrierende Determinanten in das Modell aufgenommen werden. Dabei wird explizit davon ausgegangen, dass eine Variable gewissermaßen Erklärungskraft einer anderen absorbieren kann. Problematisch wird dies erst dann, wenn sich UV merklich untereinander (linear) beeinflussen. Infolgedessen leidet die Genauigkeit der Schätzer im Modell. Ein Teil der Varianz, die eine Variable X1 aufklärt wird auch durch eine zweite Variable X2 gebunden – und umgekehrt. Dadurch gehen Informationen verloren und die Standardfehler der Schätzer fallen höher aus. Um Multikollinearität aufzudecken, ist in der Regel eine Korrelationsmatrix aller UV aufschlussreich. Treten dabei hohe Korrelationen auf, ist dies ein deutliches Indiz für Multikollinearität. Zudem existieren eigens Maßzahlen und entsprechende Befehle in Stata, mittels derer hohe gemeinsame Varianzbindungen von Variablen identifiziert werden können. Üblicherweise lässt man sich die sogenannten Toleranzwerte angeben. Sie indizieren das Ausmaß, in welchem eine UV mit allen anderen UV kovariiert. Der Kehrwert dieser Toleranzwerte bezeichnet man als Variance Inflation Factor (VIF). Der gleichnamige Befehl vif, als eigenständiger Befehl nach einer Regression ausgeführt, liefert die entsprechenden Werte. Übersteigt ein VIF-Wert den Wert zehn, liegt ein beträchtliches Problem im Hinblick auf Multikollinearität vor (Cohen et al. 2003: 423). Cohen et al. (2003: 424–425) betonen jedoch, dass für Werte über 10 beachtliche Zusammenhänge zwischen UV bestehen müssen und häufig schon geringere Werte problembehaftet sein können. Als weitere verbreitete Daumenregel nennt O’Brien (2007: 674) einen VIF-Wert ab vier (und entsprechend Toleranzwerte von 0,25 und kleiner). Der Autor weist jedoch darauf hin, dass ein erhöhter Kollinearitätswert einer Variablen nicht per se problematisch sein muss, sondern vor dem Hintergrund des gesamten Modells betrachtet werden müsse. So müsste bei einem Signifikanztest beispielsweise ein hoher VIF-Wert einer statistisch signifikanten Variablen kein Problem bedeuten. Der beschriebene Sachverhalt ist nämlich so zu interpretieren, dass die betreffende Variable trotz Varianzinflation signifikant würde (O’Brien 2007: 683). Beispielhaft sei der Test auf Multikollinearität für die in diesem Kapitel verwendeten Daten durchgeführt. Lässt man Stata den Befehl vif nach dem multiplen Regressionsmodell aus dem Abschnitt zur Mikrodatenanalyse (s. Output 2.4) ausführen, liefert dies die Übersicht in Output 2.7. Die höchsten Werte für Varianzinflation liegen für Rentner (occup7) und Studierende (occup8) vor. Vermutlich sind diese Variablen stark mit Alter korreliert. Diese Vermutung wird durch die Tatsache gestützt, dass Alter den dritthöchsten Wert aufweist. Bildung an vierter Stelle ist vermutlich mit mehreren Berufskategorien und dem Alter assoziiert. Insgesamt scheinen die Zusammenhänge der UV im Modell untereinander jedoch unbedenklich. Keiner der VIF-Werte übersteigt den Wert drei.
32
2 Grundlagen der Regressionsanalyse
Output 2.7: Multikollinearität und Varianz-Inflationsfaktor Variable | VIF 1/VIF -------------+---------------------occup7 | 2.98 0.335275 occup8 | 2.64 0.378969 age | 2.59 0.386112 educ | 2.20 0.453533 occup2 | 1.92 0.520392 eucitizen | 1.61 0.622467 euinsttrust | 1.60 0.623307 eubenefit | 1.60 0.626903 occup3 | 1.44 0.692416 occup1 | 1.43 0.698314 occup6 | 1.40 0.716468 eucapable | 1.35 0.743327 occup5 | 1.27 0.788678 gender | 1.14 0.874177 leftright | 1.05 0.956498 -------------+---------------------Mean VIF | 1.75
Liegt eine merkliche Multikollinearität unter den Prädiktoren vor, liegt die Ursache dafür womöglich in einem inhaltlichen oder gar konzeptuellen Zusammenhang zwischen bestimmten UV. Unter dieser Bedingung lassen sich die betreffenden Variablen unter Umständen sinnvoll zu einer einzigen Variable zusammenfassen und die Varianzinflation kann so beseitigt werden.13 Alternativ dazu sind stark miteinander kovariierende Variablen aus dem Modell zu entfernen. Da Multikollinearität allgemein ein Problem von zu wenig Information in den Daten gemessen an den verwendeten Variablen darstellt (die Information durch eine Variable steckt bereits in einer oder mehreren anderen Variablen), besteht als weitere Lösung im Umgang mit Multikollinearität die Erhöhung der Information, also die Ausweitung der herangezogenen Datenmenge. Derselbe Effekt würde tendenziell erreicht, wenn die Variablen mit höherer Genauigkeit, d. h. mehr Ausprägungen, gemessen würden.
2.5.4
Normalverteilung der Residuen
Die Normalverteilungsannahme besagt, dass die Residuen der Normalverteilung folgen (streng genommen sogar für jeden Wert des Prädiktors).14 Bei einer Verletzung der Normalverteilungsannahme bleibt die BLUE-Eigenschaft zwar erhalten. Jedoch sind die Inferenzschlüsse auf der Basis der Konfidenzintervalle der Regressionskoeffizienten sowie für 13
14
Um derartige Strukturen in den Daten aufzufinden und zu prüfen, ob es eine oder mehr gemeinsame Dimensionen gibt, die mehreren Variablen zugrunde liegen, eignet sich die explorative Faktorenanalyse (s. Backhaus et al. 2008) oder aber, bei gezielter Prüfung von Beziehungen zwischen Variablen vor dem Hintergrund bestimmter Modellannahmen, die konfirmatorische Faktorenanalyse (Backhaus et al. 2013). Dieses Verfahren identifiziert Gruppen von Variablen/Indikatoren, die miteinander korrelieren, jedoch nur schwach oder überhaupt nicht mit anderen Variablen korreliert sind (, die untereinander wiederum hoch korreliert sein können). Als Grundannahme gilt dabei, dass die einzelnen Indikatorvariablen als Linearkombination von Faktoren als die dahinter liegenden, latenten Konstrukte ausgedrückt werden können. Zusammen mit den Annahmen, dass gemäß dem Gauß-Markov-Theorem der Erwartungswert der Residuen null ergibt und die Varianzen über die gesamte Spanne des Prädiktors konstant sind (Homoskedastizität), hat die Normalverteilungsannahme für alle Ausprägungen des Prädiktors zu gelten (Ohr 2010: 25). Bei geringen Fallzahlen, wenn wenige Fälle auf die einzelnen Ausprägungen entfallen, kann dies jedoch nicht gehaltvoll geprüft werden, weil zu wenige Fälle pro Ausprägung der UV vorliegen. Zumindest für die gesamte Verteilung sollte bei kleineren Stichproben ein Test auf Normalverteilung der Störgrößen durchgeführt werden.
2.5 Regressionsdiagnostik
33
den Signifikanztest der Güte des Gesamtmodells (F-Test) streng genommen nicht mehr gültig. Sofern entsprechende Hypothesentests und Aussagen bezogen auf eine Grundgesamtheit angestrebt werden, ist das Vorliegen einer Normalverteilung eine zentrale Bedingung.15 Dies gilt in erster Linie für kleinere Stichproben, weil sich bei großen Stichproben aufgrund des Grenzwertsatzes die Verteilung theoretisch einer Normalverteilung annähert. Nachfolgend wird zur besseren Anschaulichkeit der Test auf Normalverteilung der Residuen für alle Ausprägungen von X zusammengenommen betrachtet. Nach der Vorhersage der Residuen berechnet man über diese mit dem Befehl swilk den Shapiro-Wilk-Test auf Normalverteilung. Zeigt Stata bei diesem Test sehr kleine p-Werte an, ist die Verteilung überzufällig verschieden von der Normalverteilung. Auf das Beispiel des Einflusses von eubenefit auf euimage angewendet lautet der gesamte Befehl für diesen Test auf Normalverteilung folgendermaßen: regress euimage eubenefit predict r, resid swilk r
Der resultierende Wert für p ist 0,19. Er steht in der Spalte mit der Bezeichnung Prob>z in der Tabelle von Output 2.8. Eine problematische Devianz der Verteilung der Residuen von der Normalverteilung ist demnach nicht anzunehmen. Output 2.8: Test auf Normalverteilung der Residuen Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------r | 27 0.94806 1.527 0.870 0.19229
Oftmals ist eine einfache visuelle Prüfung der Verteilung der Residuen aufschlussreich. Hierzu benutzt man den Befehl kdensity r, normal nach dem Berechnen der Regression, wodurch eine geglättete Abschätzung Verteilungsdichte der Residuen angezeigt wird.16 Durch die Option normal fügt der Grafik eine Normalverteilungskurve hinzu, so dass der Vergleich vereinfacht wird. Für das betrachtete Beispiel ergibt das die Residuenverteilung in Abb. 2.6. Insgesamt ist nicht von einer problematischen Abweichung von der Normalverteilung auszugehen.
15 16
Allerdings weist Fox (1991: 40) darauf hin, dass bestimmte Abweichungen von der Normalverteilung durchaus auch die BLUE-Eigenschaft betreffen können. Eine alternative visuelle Überprüfung der Bedingung basiert auf dem P-P-Plot, den man sich mit pnorm r anzeigen lassen kann. Dieses Schaubild trägt die kumulierten Wahrscheinlichkeiten der Normalverteilung (yAchse) gegen die kumulierten Wahrscheinlichkeiten der vorgefundenen Residuen ab (x-Achse). Lägen beispielsweise dort, wo nach der Normalverteilung 20 Prozent der kumulierten Fälle zu erwarten wären, 40 Prozent der Residuen, dann lägen im unteren Bereich dieser Abweichungen mehr Fälle, als es bei einer Normalverteilung zu erwarten wäre. Eine exakte Entsprechung liegt dann vor, wenn jedem Perzentil der Normalverteilung auch dasselbe Perzentil der Residuenverteilung zugeordnet wird. Dann lägen alle Punkte auf der ersten Winkelhalbierenden im Diagramm.
34
2 Grundlagen der Regressionsanalyse
0
Density 5
10
Kernel density estimate
−.1
−.05
0 Residuals
.05
.1
Kernel density estimate Normal density
Abb. 2.7:
Geglättete Kurve der Residuenverteilung
Eine mögliche Lösung im Fall einer merklichen Abweichung von der Normalverteilung der Residuen stellt die Erhebung weiterer Daten dar. Mit zunehmender Datenmenge ist eine Angleichung an die Normalverteilung zu erwarten. Allerdings stehen der Ausweitung der Datenmenge nicht selten forschungslogistische Hindernisse (Aufwand, Kosten, Verfügbarkeit etc.) entgegen. Neben der Erweiterung der Datenbasis empfiehlt sich die Kontrolle des Regressionsmodells im Hinblick auf mögliche Messfehler und die Angemessenheit der verwendeten Variablen (Hinzufügen fehlender relevanter und/oder Entfernen verwendeter Variablen), die ursächlich für derartige Abweichungen sein können. In diesem Zusammenhang kann es hilfreich sein zu untersuchen, ob es einzelne auffällige Beobachtungen in den Daten gibt. Gegebenenfalls gibt es plausible Gründe, die Regressionsmodelle ohne die betreffenden Fälle zu rechnen und sich einer Normalverteilung der Residuen anzunähern.
2.5.5
Einflussreiche Fälle
Generell gilt, dass sich einige Probleme der Regressionsanalyse tendenziell durch größere Fallzahlen/Stichproben ausräumen lassen, da sie zu genaueren Schätzern durch kleinere Standardfehler führen. Mit mehr Fällen gehen in der Regel auch mehr Informationen in die Analyse ein, so dass tendenziell Multikollinearität weniger problematisch wird. Zudem verringert sich das Gewicht einzelner Fälle, die aus der Verteilung herausstechen. Diese einflussreichen Fälle können u. a. durch Messfehler und durch Fehler oder Verzerrungen bei der Fallauswahl entstehen, wirken sich womöglich verzerrend auf die Analyseergebnisse aus und sind gegebenenfalls aus der Berechnung auszuschließen. Inwiefern dies sinnvoll ist, lässt sich aber nicht per se feststellen; der Ausschluss ist den konkreten Gegebenheiten der vorliegenden Datenstruktur und der Forschungsfrage geschuldet. Einflussreiche Fälle können, statt eine ‚Verzerrung‘ darzustellen, durchaus substantiell bedeutsam sein. Weil sie jedoch, insbesondere bei kleinen Fallzahlen, einen merklichen Einfluss auf die Ergebnisse der Regression haben können, ist es in der Regel sinnvoll zu prüfen, ob einflussreiche Fälle vorliegen. Als notwendige Bedingung dafür, dass ein einflussreicher Fall vorliegt, muss dessen tatsächlicher Y-Wert weit ab von den geschätzten Werten der Regressionsfunktion liegen. Derartige „Ausreißer“ in Y-Richtung müssen zwar nicht schon einflussreiche Fälle darstellen (s. u.). Trotzdem können Abweichungen dieser Art grundsätzlich von Interesse sein. Gegebenenfalls liefern sie inhaltlich Aufschluss darüber, weshalb bestimmte Fälle durch das Regressionsmo-
2.5 Regressionsdiagnostik
35
dell nicht gut erklärt werden oder welche Fälle einer näheren Betrachtung lohnen. Um solche möglichen Diskrepanzen zu identifizieren, kann man sich nach einem Regressionsbefehl standardisierte (da vergleichbare) Residuen berechnen lassen (als Ausreißer gelten standardisierte Residuen jenseits von +2 bzw. −2 (Ohr 2010: 668–669; Urban/Mayerl 2011: 185)). Dies geschieht nachfolgend für die Beispielrechnung aus Abb. 2.1 mittel sogenannten studentisierten Residuen. regress euimage eubenefit predict rstud, rstudent gen absrstud = abs(rstud) sort absrstud list absrstud rstud country in -5/L
Studentisierte Residuen errechnen sich über eine Normierung der Residuen an deren geschätzen Standardabweichungen. Als eine Besonderheit wird dabei berücksichtigt, dass die zur Normierung verwendete Standardabweichung eines Residuums nicht über den gesamten Wertebereich identisch ist (Urban/Mayerl 2011: 178) – so können Residuen am Rand der Verteilung weniger genau geschätzt werden. Außerdem ist zu beachten, das Stata über den Befehl rstudent die extern studentisierten Residuen berechnet. Dadurch wird zur Berechnung der (für die Normierung verwendeten) Standardabweichung des Residuums an einer gegebenen Stelle dieses Residuum aus eben jener Berechnung ausgeschlossen. Somit wird der Tatsache Rechnung getragen, dass ansonsten das Residuum in die geschätzte Streuung eingeht, an der es normiert wird – und die es entsprechend verzerren könnte (Kleinbaum et al. 2008: 297). Die Befehle sort und list erlauben, auffällige Werte schnell ausfindig zu machen. Der Zusatz in -5/L hinter dem Auflistungsbefehl weist Stata an, die fünf höchsten Ausprägungen anzuzeigen. Dazu wurde vorher die Variable absrstud gebildet, die die Beträge der studentisierten Residuen wieder gibt. Dies ist bei dem gewählten Vorgehen notwendig, weil die Abweichungen positiv und negativ ausfallen, jedoch die betragsmäßig hohen Werte von Interesse sind. Die auf diese Weise angezeigten Fälle (Output 2.9) mit den fünf größten Abweichungen sind allesamt die Länder, die weiter oben in Abb. 2.3 augenscheinlich Positionen relativ weit von der Regressionsgerade einnehmen. Output 2.9: Studentisierte Residuen
23. 24. 25. 26. 27.
+--------------------------------+ | absrstud rstud country | |--------------------------------| | 1.552537 -1.552537 uk | | 1.660072 1.660072 ro | | 1.76952 -1.76952 gr | | 2.396073 2.396073 it | | 2.70958 2.70958 bg | +--------------------------------+
Weiterhin möchte man vielleicht wissen, wie der analysierte Zusammenhang ausfiele, wenn der auffällige Fall aus der Analyse entfernt wird. Die Regression kann dazu einfach erneut ohne den betreffenden Fall berechnet werden. Möchte man umfassender den Einfluss jedes Falls auf die Regressionsfunktion beziffern, kann man sich der Berechnung sogenannter DFFITS-Werte (oder alternativ Cooks D) bedienen. Für jeden Fall gibt der zugehörige Wert DFFITSi an, wie stark sich der vorhergesagte Wert bei diesem Datenpunkt ändert, wenn der
36
2 Grundlagen der Regressionsanalyse
betreffende Fall aus dem Modell entfernt wird. Entscheidend für den Einfluss eines Falls ist dabei nicht nur dessen Y-Wert und Ausreißerstatus. Nur wenn ein Fall zudem eine extreme Ausprägung hinsichtlich des Prädiktors (x-Achse im bivariaten Streudiagramm) annimmt (d. h. einen hohen Hebelwert aufweist), wirkt er sich bedeutend auf die Regressionsfunktion aus (Cohen et al. 2003: 401; Ohr 2010: 668–669; Urban/Mayerl 2011: 185ff). Beispielsweise kann der Fall bg in Abb. 2.1 angesichts seiner Abweichung von zwar als Ausreißer angesehen werden, doch aufgrund seiner Nähe zu beeinflusst er die Regressionsfunktion relativ wenig (d. h. multipliziert ergeben die beiden Abweichungen einen vergleichsweise kleinen Wert). Gerade bei insgesamt geringer Fallzahl können wenige Fälle bereits die Schätzung der Funktion merklich beeinflussen. Werten mit hohen Ausprägungen für DFFITSi gebührt daher eine besondere Aufmerksamkeit. Als Richtlinie für die Identifikation solcher Fälle kann bei geringen Fallzahlen gelten, dass die Betragswerte der DFFITS eins nicht überschreiten sollten. Bei hohen Fallzahlen kann als kritische Grenze für diese Betragswerte der Wert dienen, der sich aus 2√( ) (mit k als Anzahl der Variablen im Modell) ergibt (Cohen et al. 2003: 404). Die Identifikation potentiell einflussreicher Werte geschieht schließlich analog zu der Untersuchung der studentisierten Residuen und anhand des zuletzt genannten Kriteriums wie folgt: predict DFFITS, dfits gen absDFFITS = abs(DFFITS) list DFFITS country if absDFFITS>2*sqrt((1+1)/27)
Das von Stata ausgegebene Output 2.10 zeigt drei der Fälle, die oben anhand der studentisierten Residuen als Ausreißer identifiziert wurden (Output 2.9). Der Ausreißer bg taucht jedoch nicht bei den ausgemachten einflussreichen Fällen gemessen an den DFFITSi auf, weil er keinen stark vom Mittelwert abweichenden Wert hinsichtlich der Prädiktorvariable X aufweist. Der Vergleich der beiden erwähnten Outputs verdeutlicht damit den Sachverhalt, dass der Ausreißerstatus eine notwendige, jedoch keine hinreichende Bedingung für einen einflussreichen Fall ist. Output 2.10: DFFITS-Werte +---------------------+ | DFFITS country | |---------------------| 25. | -.5582806 gr | 26. | .662665 it | 27. | -.6381865 uk | +---------------------+
Liegt das Interesse nicht auf dem Einfluss, den ein Fall für das Regressionsmodell insgesamt hat, sondern auf bestimmte Prädiktoren/Koeffizienten im Modell, kann dieser Einfluss durch DFBETA-Werte angegeben werden. Dafür führt man den gleichnamigen Befehl dfbeta aus. Für jede Variable im Modell berechnet Stata im Anschluss die DFBETA-Werte (_dfbeta_1 steht entsprechend für eucapable). Auch für dieses Maß existiert eine Daumenregel (Cohen et al. 2003: 405): Die Absolutwerte von DFBETA sollten bei kleinen bis mittleren Fallzahlen den Wert eins und bei größeren Fallzahlen den Wert zwei geteilt durch die Wurzel aus der Fallzahl nicht übersteigen. Werte jenseits dieses Schwellenwerts können abgerufen werden, indem zunächst eine Variable für die absoluten Werte erstellt und die relevanten Fälle mit einem entsprechenden List-Befehl herausgefiltert werden:
2.6 Schrittweises Vorgehen
37
regress euimage eubenefit dfbeta gen absdfbeta1 = abs(_dfbeta_1) sort absdfbeta1 list _dfbeta_1 country if absdfbeta>sqrt(2/27)
Führt man alle diese vorangehend beschriebenen Verfahren zur Identifikation möglicher Ausreißer durch (Ergebnisse nicht tabelliert), dann tauchen erneut die drei Fälle auf, die bereits in Output 2.9 aufgeführt sind. Im verwendeten Beispiel stachen diese Fälle allerdings auch schon in der visuellen Darstellung des Zusammenhangs (Abb. 2.1) heraus. Der Nutzen grafischer Verfahren sollte insofern nicht unterschätzt werden. Es dürfte in diesem Kapitel zum Ausdruck gekommen sein, dass sie nicht nur Zusammenhänge veranschaulichen können, sondern in vielfacher Hinsicht nützlich sind. Bei Analysen mit (sehr) hohen Fallzahlen und Variablen, die eine begrenzte Anzahl an Ausprägungen haben, kann eine grafische Darstellung allerdings schnell unübersichtlich werden und wenig Aufschluss bieten. Insbesondere dann werden die dargestellten statistischen Verfahren für die Diagnostik relevant. Idealerweise sind davon mehrere durchzuführen, anstatt sich auf nur eines zu verlassen. Auf dieser Basis können recht zuverlässig Aussagen gemacht und gegebenenfalls Entscheidungen getroffen werden. Entscheidungsbedarf kann u. a. im Hinblick auf die Datenbeschaffenheit und -verwendung (z. B. Umgang mit Ausreißern) sowie schließlich auf die Verfahrensweise bei der Auswertung und die möglichen Rückschlüsse (Inferenzschlüsse auf die Grundgesamtheit) auftreten. Womöglich ist die lineare Regression, offensichtlich z. B. bei nicht-linearen Zusammenhängen, gar nicht das (am besten) geeignete Verfahren für die gegebenen Daten. Um solche Fragen zu eruieren, sind die oben beschriebenen diagnostischen Schritte bedeutsam und ernst zu nehmen. Zur Regressionsanalyse gehört mehr als die bloße Berechnung eines vorab theoretisch formulierten Modells. Neben den inhaltlichen und konzeptionellen Vorüberlegungen ist auch eine Berücksichtigung der Angemessenheit der Modellspezifikation geboten; und erst die Prüfung zentraler Voraussetzungen erlaubt ein Urteil darüber, inwieweit die Modellspezifikation gelungen ist und welche Aussagen auf der Basis der vorgefundenen Befunde getroffen werden können.
2.6
Schrittweises Vorgehen
1.
Korrelationen/Korrelationsmatrix: Die Korrelation(en) zwischen den interessierenden Variablen erlauben eine Übersicht der bivariaten Relationen und eine Identifikation von Mustern in den Daten. Sind merkliche Zusammenhänge zwischen Variablen auszumachen, die in eine multiple Regression Eingang finden sollen, dann könnten diese zu Multikollinearität führen.
2.
Streudiagramme: Mittels solcher Diagramme kann die Verteilung in den Daten veranschaulicht werden; Konzentrationen von Fällen, markante Fälle und andere Besonderheiten können identifiziert sowie die Linearität eines Zusammenhangs visuell geprüft werden.
3.
Bivariate Regression: Die Regressionsfunktion erlaubt die Angabe der Effektstärke, mit der eine Variable X eine Variable Y beeinflusst. Lineare Zusammenhänge lassen sich dadurch quantifizieren. Das Bestimmtheitsmaß R² gibt die Güte dieses Zusammenhangs in Form der erklärten Varianz von Y an.
38
2 Grundlagen der Regressionsanalyse
4.
Multiple Regression: Bei diesem Modell beeinflussen mehrere UV eine AV. Die Regressionskoeffizienten geben den Einfluss einer Variablen unter der Berücksichtigung aller anderen Variablen im Modell an. Zudem ist es möglich, unterschiedliche Modelle im Hinblick auf ihre Erklärungskraft zueinander in Beziehung zu setzen. Anhand der standardisierten Koeffizienten (Betas) können die Effektstärken der Variablen innerhalb eines Modells verglichen werden.
5.
Regressionsdiagnostik: Zur korrekten Modellspezifikation ist auf mögliche Datenauswahlprobleme (Vollerhebung oder Stichprobe, Art der Stichprobe), auf potentielle Messfehler und die Auswahl und Anzahl geeigneter Erklärungsvariablen zu achten. Die berechneten Regressionsmodelle sind (insbesondere mittels Residuenanalyse) auf Nicht-Linearität, Abweichungen von der Normalverteilung der Residuen (wenn Rückschlüsse auf eine Population unter der Voraussetzung einer Zufallsstichprobe angestrebt werden; insbesondere bei kleinen Stichproben), Multikollinearität und Heteroskedastizität sowie auf einflussreiche Fälle zu prüfen.
3
Interaktionen
Beispielhafte Forschungsfrage: Hängt der Einfluss der Regierungsbeteiligung sozialdemokratischer Parteien auf die Entwicklung des wohlfahrtsstaatlichen Leistungsniveaus davon ab, wie gut eine Regierung „durchregieren“ kann (bzw. wie stark sie von institutionellen Hürden in ihrem Handeln eingeschränkt ist)?1 Eine Policy-Forscherin möchte den Einfluss von parteipolitischen Unterschieden auf die Entwicklung und die Höhe wohlfahrtsstaatlicher Leistungen untersuchen. Dabei interessiert sie sich insbesondere dafür, ob der vermutete positive Zusammenhang zwischen der Stärke sozialdemokratischer Parteien und dem Leistungsniveau in allen westlichen Industriestaaten gleich stark ausgeprägt ist oder ob die Stärke des Zusammenhangs vom institutionellen Kontext eines Landes abhängt. Konkret erwartet die Forscherin, dass die parteipolitische Ausrichtung der Regierung insbesondere dann das Leistungsniveau beeinflusst, wenn Parteien vergleichsweise gut „durchregieren“ können – also etwa in politischen Systemen, die dem britischen Westminster-Modell folgen. Im Gegensatz dazu sollten Parteieneffekte in solchen Ländern schwächer sein, in denen institutionelle Hürden wie zweite Kammern, ein starkes Verfassungsgericht oder ein mächtiger Präsident vorliegen. Datenbasis: 18 OECD Länder Abhängige Variable (AV): Veränderung des Leistungsniveau des Krankengelds (Lohnersatz) (1990–1999) für einen durchschnittlichen Industriearbeiter. Unabhängige Variablen (UV): Regierungsbeteiligung sozialdemokratischer Parteien (Kabinettssitzanteil), Stärke institutioneller Hürden (Vetopunkte-Index) nach Huber et al. (2004). Datenquellen: Veränderung des Leistungsniveaus beim Krankengeld: Daten zur Höhe der Lohnersatzraten nach Lyle Scruggs (2004). Kabinettssitzanteile und Vetopunkte-Index nach Allan und Scruggs (2004). Ziel der Analyse: Untersuchung des moderierenden Einflusses von Institutionen auf den Zusammenhang zwischen Parteiendifferenz und Leistungsniveau des Krankengeldes (Interaktionseffekt). Voraussetzungen an die Datenstruktur: Interaktionseffekte können in alle regressionsbasierten Analyseverfahren aufgenommen und getestet werden.
1
Das Beispiel ist inspiriert von einem im Swiss Political Science Review erschienen Artikel, an dem der Verfasser dieses Kapitels beteiligt war (Zohlnhöfer et al. 2012).
40
3 Interaktionen
3.1
Grundlagen
3.1.1
Über Interaktionseffekte
Viele Theorien in der Politikwissenschaft postulieren komplexe Zusammenhänge, die mit einer linear-additiven Regressionsanalyse traditioneller Art nur schwer abzubilden sind. Dies gilt beispielsweise für den Einfluss von Institutionen auf Public Policies, der spätestens seit der neo-institutionalistischen Wende eine zentrale Rolle in der Analyse politischen Handelns spielt. So weist der akteurzentrierte Institutionalismus (Scharpf 1997) explizit darauf hin, dass Institutionen einen „stimulierenden, ermöglichenden oder auch restringierenden Handlungskontext [Hervorhebung im Original]“ (Mayntz/Scharpf 1995: 43) bilden und auf diese Weise das Handeln der politischen Akteure einschränken. Dekliniert man diese Erwartung an einem Beispiel durch, so könnte etwa der Einfluss der parteipolitischen Ausrichtung einer Regierung (Sozialdemokraten) auf eine bestimmte Politik (Sozialpolitik) dadurch gehemmt werden, dass eine zweite Kammer mit gegenläufiger Mehrheit besteht und die Regierung aus diesem Grund ihre präferierte Politik nicht durchsetzen kann. Solche Kontexteffekte sind jedoch mit einer linearen Regressionsanalyse der klassischen Form, welche direkte und additive Zusammenhänge zwischen erklärenden Variablen und einer zu erklärenden Variable modelliert, kaum zu analysieren. Denn laut Theorie beeinflussen die Institutionen den politischen Output nicht direkt, sondern sie bilden einen Kontext, in dem andere Variablen (etwa parteipolitische Unterschiede) den Output beeinflussen. Anders ausgedrückt: Institutionen interagieren mit der UV (daher: Interaktionseffekt) und wirken auf diese Weise moderierend auf direkte Zusammenhänge zwischen zwei Merkmalen.
X1
X2
Z
Y
Y
X2
X3 Direkte Zusammenhänge X1, X2 und X3 beeinflussen Y Abb. 3.1:
X1
Interaktiver Zusammenhang (Z moderiert die Beziehung X1-Y)
Kausalstrukturen direkter und interaktiver Zusammenhänge
Abb. 3.1 stellt grafisch dar, wodurch sich die kausale Struktur eines solchen Interaktionseffekts von der kausalen Struktur direkter, linear-additiver Effekte unterscheidet. Analog zu X und Y, die per Konvention für die UV und AV stehen, wird beim interaktiven Zusammenhang ein Z für die moderierende Variable geschrieben, die mit X interagiert.
3.1 Grundlagen
3.1.2
41
Interaktionen im linearen Regressionsmodell
Wie lassen sich nun Theorien testen, die vermittelnde Kontexteffekte postulieren? Glücklicherweise ist die Untersuchung moderierender Einflüsse von Variablen auf bestimmte Zusammenhänge vergleichsweise gut im Rahmen von Regressionsanalysen möglich. Hierzu müssen Interaktionsterme berechnet und in die Regressionsgleichung aufgenommen werden. Die Interaktion wird dabei in Form eines multiplikativen Terms modelliert. Im linearen Fall, auf den sich dieses Kapitel der Verständlichkeit wegen beschränkt2, lautet die Gleichung für den in Abb. 3.1 dargestellten interaktiven Zusammenhang entsprechend =
+
+
+
+
+
(3.1)
wobei Z als Interaktionsvariable den Zusammenhang zwischen X1 und Y moderiert und X2 eine weitere unabhängige (Kontroll-) Variable darstellt. Wie der multiplikative Zusammenhang interpretiert wird – welche Variable also als moderierend angesehen wird – ist dabei eine theoretische Frage. Denn jeder Interaktionseffekt gilt rein mathematisch auch umgekehrt: Nach Gleichung (3.1) könnte X1 auch den Effekt von Z auf Y moderieren. Der moderierende Effekt wird noch deutlicher, wenn man sich überlegt, welchen Einfluss eine marginale Erhöhung von X1 auf den Outcome Y hätte. Leitet man die Gleichung entsprechend nach X1 ab bleibt nämlich: =
∙1+
∙1∙
=
+
(3.2)
Der Effekt von X auf Y ist also funktional abhängig von Z. Für die Schätzung von Regressionen mit Interaktionseffekten sind einige wichtige Regeln zu beachten, die von Brambor et al. (2006) und Kam und Franzese (2007) formuliert und begründet wurden: 1. Alle Variablen, die den Interaktionsterm ausmachen, sollten auch als direkte Effekte in die Regressionsgleichung aufgenommen werden (also die Variablen X1 und Z in Gleichung (3.1)). 2. Die Koeffizienten für diese direkten Effekte, also für X1 und Z, können nicht wie im klassischen linear-additiven Modell als Effekte interpretiert werden. In Gleichung (3.1) bedeutet also ein Anstieg von X1 um eine Einheit nicht, dass Y um b1 Einheiten steigt. Dies ist dadurch begründet, dass die Variablen durch die Einführung des multiplikativen Terms voneinander abhängig sind. Der Effekt von X1 auf Y hängt nun einmal von Z ab, ist also nicht direkt zu interpretieren (s. Gleichung (3.2)). Eine Interpretation der Koeffizienten als direkte Effekte analog zur linearen Regression ist nur für den Fall möglich, dass = 0 ist (ausführlicher s. u.). 3. Für die Interpretation des Interaktionseffekte sollte man sich nicht nur auf die Nennung des Koeffizienten beschränken, sondern grafisch darstellen, wie sich der Effekt einer Variable X1 auf Y über die Ausprägungen von Z ändert (s. u.). 4. Alleine der Koeffizient des multiplikativen Terms selbst (hier: b4) kann aus der Regressionsgleichung bzw. -tabelle vergleichsweise einfach interpretiert werden. Er gibt an, zu welchem Grad der Effekt von X1 auf Y von Z abhängig ist – also wie stark der Effekt von 2
Interaktionseffekte können analog ebenso in anderen regressionsbasierten Verfahren geschätzt werden (s. dazu z. B. Kapitel 5 zur Mehrebenenanalyse in diesem Buch).
42
3 Interaktionen
X1 auf Y sich verändert, wenn Z sich um eine Einheit verändert (bzw. symmetrisch umgekehrt). Was bedeutet der Interaktionsterm im linearen Regressionsmodell inhaltlich? Eine einfache Weise, um moderierende Effekte intuitiv fassbar zu machen, ist eine Interpretation mithilfe einer dichotomen Interaktionsvariable: Man stelle sich anhand des eingangs ausgeführten Beispiels vor, dass alle Westminster-Systeme mit dem Wert = 0 und alle NichtWestminster-Systeme mit dem Wert = 1 kodiert würden. Entsprechend der Hypothese würde man erwarten, dass der Einfluss sozialdemokratischer Regierungsbeteiligung auf die Leistungshöhe des Krankengeldes insbesondere in den Staaten stark ausgeprägt ist, die institutionell nur geringe Hürden gegen Regierungshandeln aufweisen – also in WestminsterSystemen ( = 0), in denen problemlos „durchregiert“ werden kann. Eine mögliche grafische Darstellung der Hypothese würde wie folgt aussehen: Westminster Systeme (Z=0)
Veränderung des Leistungsniveaus Krankengeld
Nicht-Westminster Systeme (Z=1)
Stärke Sozialdemokraten an der Regierung Abb. 3.2:
Interaktionseffekte grafisch
Doch nicht nur grafisch, sondern auch in der Regressionsgleichung ist klar abzulesen, welche Folgen die Aufnahme des Interaktionseffekts hat. Im Fall von = 0, also für WestminsterSysteme, lässt sich die Ausgangsgleichung wie folgt umformen: +
=
+
+
0+
0+
bzw. =
+
+
+0+0+
=
+
+
+
und somit: (3.3)
Inhaltlich interpretiert bedeutet Gleichung (3.3) jedoch nichts anderes als eine einfache linear-additive multiple Regression, in der der Parteieneffekt (X1) direkt auf den Outcome (Y: Leistungsniveau) durchschlägt, weil keine institutionellen Hürden vorliegen. Entsprechend kann in diesem Fall – und nur in diesem Fall (s. Regel 2) – der Koeffizient von X1 ganz klassisch als Effekt interpretiert werden (vgl. Kapitel 2): Steigt X1 um eine Einheit an, so führt dies zu einem Anstieg von Y um b1 Einheiten.
3.1 Grundlagen
43
Wie sieht es jedoch im Fall von = 1 aus? Hier gilt: +
=
+
+
1+
1+
bzw. =
+
+
+
+
+
+
)+
+
+
und somit ausgeklammert: =
(
+
(3.4)
Zwei Dinge sind an dieser Gleichung (3.4) bemerkenswert: Zum einen verändert sich der Achsenabschnitt um b3, da der Koeffizient der Variable = 1 dort eingeht. Aufgrund der Schwierigkeiten bei der inhaltlichen Interpretation des Achsabschnittes (vgl. Kapitel 2) ist diese Veränderung jedoch nur bedingt von (substanziellem) Interesse. Zum anderen – und für die Interpretation viel relevanter – verändert sich auch der Effekt von X1, da dort nun die Koeffizienten b1 und b4 einzurechnen sind. Der Koeffizient b4 entstammt dabei ursprünglich dem Interaktionsterm X1Z und nimmt gleichsam den moderierenden Effekt der Variable Z (hier gleich 1) auf. Angesichts unserer Hypothese wäre zu erwarten, dass b4 den ursprünglichen Effekt von b1 dämpft, also negativ ist. Entsprechend der Regel 4 kann aus dem Koeffizient b4 also die Richtung des moderierenden Effekts abgelesen werden: Wenn b4 negativ ist, sinkt der Einfluss von X1 auf Y mit steigendem Wert von Z. An dieser einfachen Interpretation von Interaktionseffekten mithilfe einer dichotomen moderierenden Variablen ändert sich im Grunde nichts, wenn die Z-Variable metrisches Skalenniveau hat. Erneut wirkt die moderierende Variable dämpfend oder auch verstärkend auf den Zusammenhang zwischen X1 und Y – je nachdem, wie der Koeffizient b4 aussieht. Wenn Z ungleich 1 ist, wird der Koeffizient schlicht mit einem bestimmten Wert von Z multipliziert, ) (für die Marginalbetrachtung, s. d. h. der ausgeklammerte Term heißt dann ( + Gleichung (3.2)). Diese moderierende Wirkung von Z auf den Effekt von X auf Y macht die Interpretation von Interaktionseffekten etwas aufwändiger und sie erklärt, warum eine einfache Interpretation von b1 als marginaler Effekt von X1 auf Y in klassischer Weise nicht mehr möglich ist, wenn ein Interaktionsterm aufgenommen wurde (vgl. goldene Regel 2 oben). In manchen Lehrbüchern wird empfohlen, metrische Variablen vor der Berechnung von Interaktionseffekten zu zentrieren (Kohler/Kreuter 2008: 232). Dies kann sinnvoll sein, wenn etwa die Skala der Z-Variable keinen Nullpunkt beinhaltet. Wenn durch Zentrierung ein „künstlicher“ Nullwert geschaffen wird, ist eine Interpretation des Koeffizienten b1 für X1 möglich (s. o.), wobei dann natürlich der Nullwert entsprechend der Zentrierung von X1 zu interpretieren ist (wenn etwa Zentrierung durch Gleichsetzung des Mittelwerts mit 0 erfolgt, bedeutet der Koeffizient von X1 den Effekt von X1 auf Y, wenn Z den Mittelwert annimmt). Allerdings wird das Zentrieren fälschlicherweise immer wieder als notwendige Voraussetzung für die Berechnung von Interaktionseffekten dargestellt, was nicht der Fall ist. Stattdessen ist mit Kam und Franzese (2007: 99) zu empfehlen, „that centering transformations, if applied at all, be applied only with the aim to improve substantive presentation, not, mistakenly, to improve (apparent) statistical precision and certainly not, reprehensibly, to move the value of z to which the standard t-ratio refers so as to maximize the number of asterisks of statistical significance on the reported t-test. The substantive interpretation of the effects and the certainty of those effects are completely unaffected by this algebraic sleight-ofhand.“
44
3 Interaktionen
3.2
Anwendung
Nachdem der erste Abschnitt dieses Kapitels einerseits ein Verständnis dafür geschaffen hat, weshalb Interaktionseffekte für viele politikwissenschaftliche Fragestellungen relevant sind, und andererseits in Grundzügen die formale Modellierung von Interaktionen in der linearen Regressionsanalyse dargestellt hat, geht es im Folgenden darum, Schritt für Schritt anhand eines Datenbeispiels die konkrete Anwendung von Interaktionseffekten aufzuzeigen. Hierzu geht das Kapitel in zwei Schritten vor. Zunächst stellt es dar, wie Interaktionen mit einer dichotomen moderierenden Variablen geschätzt und interpretiert werden können. Darauf aufbauend geht es anschließend um Interaktionen mit metrischen moderierenden Variablen.
3.2.1
Interaktionen mit einer dichotomen moderierenden Variable
Der vorangegangene Abschnitt dürfte deutlich gemacht haben, dass Interaktionseffekte insbesondere dann einfach und intuitiv zu verstehen sind, wenn die moderierende Variable dichotom, und zwar mit 0 und 1 kodiert, ist. Anhand der eingangs dargestellten Forschungsfrage, die den Einfluss von sozialdemokratischer Regierungsbeteiligung auf das Leistungsniveau des Krankengeldes davon abhängig macht, ob starke oder schwache institutionelle Hürden vorliegen, kann die formale Herleitung von Interaktionseffekten veranschaulicht werden. Das Ausgangs-Regressionsmodell beinhaltet dabei folgende Variablen: ‒ AV: Veränderung der Lohnersatzraten beim Krankengeld 1990–1999: delsick9099 ‒ UVs: – Durchschnittlicher Anteil sozialdemokratischer Parteien zwischen 1990 und 1999: proz_sd9099 – Vetopunkte-Index nach Huber et al. (institutionelle Hürden): veto90 – Kontrollvariable für das Ausgangsniveau der Lohnersatzraten im Jahr 1990: sick_rr90 Um zu Zwecken der Verständlichkeit eine Interpretation der Interaktion über eine dichotome Variable wie oben dargestellt zu ermöglichen, muss zunächst die moderierende Variable (Vetopunkte) dichotomisiert werden.3 Der Einfachheit halber wird hierzu die Verteilung am Median geteilt, der bei 4,5 liegt (die erste Zeile des folgenden Codes gibt deskriptive Statistiken für die Variable aus, u. a. den Median), und eine neue dichotome Vetopunkte-Variable berechnet: vetodich (Umkodierung in der zweiten und dritten Zeile): sum veto90, det recode veto90 (1/9 = 1), gen(vetodich) recode veto90 (1/4.5 = 0)
Um den Interaktionseffekt näher betrachten zu können, muss im nächsten Schritt der multiplikative Term vetdichsd berechnet werden. gen vetdichsd = vetodich*proz_sd9099
3
Ein solches Vorgehen wäre in der tatsächlichen Forschung freilich nicht grundsätzlich anzuraten, verliert man durch die Dichotomisierung einer eigentlich quasi-metrischen Variable wichtige Informationen. An dieser Stelle erfolgt jedoch dieser Schritt, um das Verständnis für die Interaktionseffekte zu erleichtern.
3.2 Anwendung
45
Nach diesen Operationen sind alle Variablen so vorbereitet, damit eine erste Regression mit dem Interaktionseffekt berechnet werden kann (Output 3.1). Output 3.1: Regression mit Interaktion bei dichotomer Z-Variable reg delsick9099 proz_sd vetodich vetdichsd sick_rr90 Source | SS df MS -------------+-----------------------------Model | 306.862107 4 76.7155266 Residual | 179.946717 12 14.9955597 -------------+-----------------------------Total | 486.808824 16 30.4255515
Number of obs F( 4, 12) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
17 5.12 0.0122 0.6304 0.5071 3.8724
-----------------------------------------------------------------------------delsick9099 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------proz_sd9099 | .3197954 .0870508 3.67 0.003 .1301279 .5094629 vetodich | 17.35993 4.32618 4.01 0.002 7.933993 26.78587 vetdichsd | -.3505842 .1043442 -3.36 0.006 -.5779307 -.1232376 sick_rr90 | -.2343547 .0626002 -3.74 0.003 -.3707488 -.0979606 _cons | -.6786974 3.666437 -0.19 0.856 -8.667177 7.309782 ------------------------------------------------------------------------------
Die Regressionsgleichung zeigt, dass die erste der Regeln für Interaktionseffekte befolgt wurde: Alle konstitutiven Terme des Interaktionsterms sowie der Interaktionsterm selbst sind in die Schätzung inkludiert. Hinzu kommt eine Kontrollvariable für das Ausgangsniveau der Lohnersatzraten des Krankengeldes im Jahr 1990, um einen Niveaueffekt auf die Veränderung der Lohnersatzraten zu kontrollieren (bei niedrigem Ausgangsniveau kann schlicht nicht so stark gekürzt werden). Nach der zweiten Regel ist es nicht möglich, den Koeffizienten der (signifikanten) Variable für die Regierungsbeteiligung der Sozialdemokraten und der (signifikanten) Variable für den dichotomen Vetopunkte-Index direkt zu interpretieren. Weil jedoch die Z-Variable (Vetopunkte) die Ausprägungen von 0 und 1 annimmt, kann zumindest aus dem Koeffizienten für die Parteienvariable (0,32) unmittelbar abgelesen werden, dass in Westminster-Systemen ( = 0) ein Anstieg der Kabinettssitzanteile für sozialdemokratische Parteien um eine Einheit zu einer Erhöhung der Lohnersatzrate des Krankengeldes um 0,32 Einheiten führt. Dieser positive Effekt ist signifikant. Der Einfachheit halber zunächst zur vierten Regel: Diese besagt, dass der Koeffizient für den multiplikativen Term aus der Regressionsgleichung interpretierbar ist. Der Koeffizient hat im Beispiel oben (wie erwartet) ein negatives Vorzeichen, d. h. ein Anstieg der institutionellen Hürden führt zu einer Abschwächung des positiven Effekts von sozialdemokratischer Regierungsbeteiligung auf das Niveau des Krankengeldes. Die dritte goldene Regel von Brambor et al. (2006) empfiehlt, für eine Interpretation der Interaktion nicht alleine auf die Koeffizienten der Regressionsgleichung zu schauen. Im Falle einer dichotomen moderierenden Variablen bietet es sich an, unterschiedliche Vorhersagen der AV mithilfe der Regressionsschätzung zu berechnen, wobei jeweils die moderierende Variable und die UV modifiziert werden.4 Dies erlaubt es, sich ein Bild von den Folgen der 4
Eine Alternative hierzu ist es, Marginaleffekte (bzw. partielle Ableitungen) zu interpretieren, was insbesondere für Studentinnen mit Grundkenntnissen der Volkswirtschaftslehre intuitiv sein dürfte (vgl. Gleichung (3.2) oben). Eine wunderbare Einführung bietet das Buch von Kam und Franzese (2007: 22–24).
46
3 Interaktionen
Interaktion zu machen. Tab. 3.1 zeigt das Vorgehen exemplarisch. Zunächst berechnet man die vorhergesagten Werte für Y für den Fall von = 0 (Westminster-Systeme) und variiert die Variable, die den Einfluss von Parteien aufnimmt (bspw. vom empirischen Minimum (0) zum Maximum (77,37)). Man erhält zwei Werte für Y, die den (bereits aus der vorigen Argumentation) bekannten positiven Effekt der sozialdemokratischen Regierungsbeteiligung auf die Veränderung der Krankengeldleistungen im Falle von = 0 (Westminster-Systeme) darstellen. Es folgt dann eine analoge Berechnung für den Fall = 1, also im uns bisher nicht bekannten Fall von Systemen mit ausgeprägten institutionellen Hürden, die „Durchregieren“ erschweren. Für die Kontrollvariable, die das Ausgangsniveau des Krankengeldes im Jahr 1990 angibt, wird der Mittelwert eingesetzt, um den Einfluss in den Prognosen für Y konstant zu halten. Tab. 3.1:
Interaktionseffekt und vorhergesagte Werte
proz_sd9099 (X1)
vetodich (Z)
vetdichsd (X1Z)
sick_rr90 (X2)
_const
Schätzung für Y
0,32 0,32 0,32 0,32
17,36 17,36 17,36 17,36
−0,35 −0,35 −0,35 −0,35
−0,23 −0,23 −0,23 −0,23
−0,68 −0,68 −0,68 −0,68
−16,11 8,65 1,25 −1,07
0 77,37 0 77,37
0 0 1 1
0∙0 77,37 ∙ 0 0∙1 77,37 ∙ 1
67,1 67,1 67,1 67,1
Anm.: In der ersten Spalte zu jeder Variable steht der Koeffizient, in der zweiten Spalte der eingesetzte Wert. Für X1, Z und den Interaktionsterm werden diese bewusst variiert (s. o.), für die Kontrollvariable X2 wird der Mittelwert eingesetzt. Durch additive Verknüpfung erhält man so die Schätzwerte für Y.
Aus den Werten der Tabelle wird ersichtlich, dass sich der Einfluss von Parteien auf die Veränderung des Leistungsniveaus des Krankengeldes erheblich unterscheidet je nachdem, wie ein politisches System institutionell ausgeprägt ist. Zunächst zum bekannten positiven Effekt sozialdemokratischer Regierungsbeteiligung in Westminster-Systemen: Fehlen Sozialdemokraten gänzlich in der Regierung, sinkt das Leistungsniveau des Krankengelds (−16,11), stellen Sozialdemokraten mehr als 77 Prozent, steigt es deutlich (+8,65). Ein völlig anderes Bild ergibt sich für politische Systeme mit vielen Vetospielern: Der Parteieneffekt ist zum einen deutlich schwächer und er läuft zum anderen in die entgegengesetzte Richtung als im Falle ohne Vetopunkte: Ohne sozialdemokratische Regierungsbeteiligung steigt das Krankengeld um „nur“ 1,25 Prozentpunkte; regieren die Sozialdemokraten (mit), sinkt es – wenn auch um erneut geringe 1,07 Prozentpunkte. Anders ausgedrückt: Bei vielen Vetospielern reduziert ein Anstieg der sozialdemokratischen Regierungsbeteiligung tendenziell das Leistungsniveau des Krankengeldes – auch wenn der Effekt sehr gering ausfällt –, während bei wenigen Vetospielern sozialdemokratische Parteien an der Regierung das Leistungsniveau des Krankengeldes steigen lassen. Diese erste Interpretation anhand der vorhergesagten Werte lässt sich grafisch veranschaulichen. Trägt man die Werte aus Tab. 3.1 in ein Achsenkreuz ein, lassen sich zwei Schätzgeraden für den Einfluss der Parteien auf die Veränderung der Lohnersatzraten des Krankengelds konstruieren, wobei eine Gerade den Fall von = 0 (Westminster-Systeme) und eine den Fall = 1 (starke institutionelle Hürden) darstellt. Die unterschiedlichen Steigungen der Geraden illustrieren sehr deutlich, welch starken Effekt die institutionelle Ausgestaltung auf den Zusammenhang zwischen der Regierungsbeteiligung sozialdemokratischer Parteien und der Veränderung des Krankengeldniveaus ausübt.
3.2 Anwendung
47
Veränderung Leistungsniveau Krankengeld (vorhergesagte Werte)
Z=0 (Westminster)
8,65 1,25 1,07
77,37 Z=1 (NichtWestminster)
Anteil sozialdem. Parteien an der Regierung
-16,11
Abb. 3.3:
Empirischer Interaktionseffekt bei dichotomer Z-Variable
Mithilfe von Stata lässt sich die Berechnung der vorhergesagten Werte und die grafische Darstellung vereinfachen bzw. teil-automatisieren – wobei im Grunde genommen jedoch genau dieselben Arbeitsschritte vollzogen werden, die oben in der Tabelle ausgeführt wurden. In Stata berechnet man zunächst erneut die Regression mit Interaktionseffekt (s. o.) und sodann die vorhergesagten Werte für die unterschiedlichen Ausprägungen der Z-Variable (yhat0: Vorhersage für = 0; yhat1: Vorhersage für = 1), wobei die Kontrollvariable bei ihrem Mittelwert konstant gehalten wird: gen yhat0 = _b[_cons]+_b[proz_sd9099]*proz_sd9099+_b[vetodich]*0+ > _b[vetdichsd]*proz_sd9099*0+_b[sick_rr90]*67.1 gen yhat1 = _b[_cons]+_b[proz_sd9099]*proz_sd9099+_b[vetodich]*1+ > _b[vetdichsd]*proz_sd9099*1+_b[sick_rr90]*67.1
Im nächsten Schritt erstellt man eine Grafik zur Veranschaulichung – z. B. ein einfaches Scatterplot oder ein Liniendiagramm, indem die vorhergesagten Werte der beiden Gleichungen (yhat1 und yhat0) gegen die Parteienvariable abgetragen werden: scatter yhat0 yhat1 proz_sd9099 graph twoway line yhat2 yhat3 proz_sd9099, sort
Als Ergebnis erhält man folgende Grafiken (Abb. 3.4), die der selbsterstellten Abb. 3.3 auf Basis von Tab. 3.1 entsprechen.
3 Interaktionen
−15
−15
−10
−10
−5
−5
0
0
5
5
10
10
48
0
20 40 60 Sozialdemokratischer Kabinettssitzanteil 90−99 yhat0
Abb. 3.4:
80
0
yhat1
20 40 60 Sozialdemokratischer Kabinettssitzanteil 90−99 yhat0
80
yhat1
Interaktionseffekte bei dichotomer Z-Variable mit Stata
Das bisherige Vorgehen im Fall einer dichotomen moderierenden Variablen hat sich alleine an den Koeffizienten bzw. den vorhergesagten Werten orientiert. Dies ist in einem ersten Schritt auch sinnvoll, um sich einen Überblick über die Wirkungsweise der Interaktionseffekte zu verschaffen. Häufig jedoch interessieren nicht alleine die Koeffizienten sondern auch die Signifikanzniveaus. Diese hängen jedoch ebenso wie die Koeffizienten auch davon ab, welche Ausprägungen die miteinander interagierenden Variablen annehmen. Sie sind damit gleichfalls nicht einfach direkt interpretierbar. Im obigen Beispiel bedeutet dies, dass die Signifikanz des Koeffizienten von X1 nur für den Fall von = 0 gilt – genau wie bei der Interpretation des Effekts von X1. Wie also kann die Signifikanz eines Interaktionseffekts eingeschätzt werden? Erneut bietet es sich an, für substantiell sinnvolle Werte der Variablen die Standardfehler und Konfidenzintervalle zu berechnen.5 Im Beispiel zur Interaktion von Parteien und institutionellen Hürden wurden in Tab. 3.1 bereits solche inhaltlich interpretierbaren vorhergesagten Werte berechnet – es fehlen alleine Informationen zu deren Signifikanz bzw. die Konfidenzintervalle. Auch hier bietet Stata über den Postestimation-Befehl lincom eine Möglichkeit, für bestimmte Werte nicht nur die Schätzer, sondern auch die dazugehörigen Konfidenzintervalle zu berechnen. Der Befehl funktioniert dabei sehr intuitiv, indem man die Variablen benennt und die interessierenden Werte in die Gleichung aufnimmt. Zuvor muss jedoch die AusgangsRegression geschätzt werden, damit dem Befehl die entsprechenden Koeffizienten zur Verfügung stehen. Basierend auf den vier Variablenkombinationen aus Tab. 3.1 (Variation der Parteivariable vom Minimum zum Maximum sowie der Vetospielervariable von 0 bis 1) sieht der Stata-Output damit wie folgt aus (lincom-Befehl in der jeweils ersten Zeile des Outputs, die mit lincom beginnt):
5
Formal hierzu z. B. Kam und Franzese (2007: 47–99).
3.2 Anwendung
49
Output 3.2: Schätzung von Punktschätzern und Konfidenzintervallen mit lincom . lincom _cons + proz_sd9099*0 + vetodich*0 + vetdichsd*0*0 + sick_rr*67.1 ( 1) 67.1*sick_rr90 + _cons = 0 -----------------------------------------------------------------------------delsick9099 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------(1) | -16.4039 3.366288 -4.87 0.000 -23.73841 -9.069386 -----------------------------------------------------------------------------. lincom _cons + proz_sd9099*77.37 + vetodich*0 + vetdichsd*77.37*0 + sick_rr*67.1 ( 1) 77.37*proz_sd9099 + 67.1*sick_rr90 + _cons = 0 -----------------------------------------------------------------------------delsick9099 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------(1) | 8.338675 3.85029 2.17 0.051 -.0503863 16.72774 -----------------------------------------------------------------------------. lincom _cons + proz_sd9099*0 + vetodich*1 + vetdichsd*0*1 + sick_rr*67.1 ( 1) vetodich + 67.1*sick_rr90 + _cons = 0 -----------------------------------------------------------------------------delsick9099 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------(1) | .9560317 2.24278 0.43 0.677 -3.930566 5.842629 -----------------------------------------------------------------------------. lincom _cons + proz_sd9099*77.37 + vetodich*1 + vetdichsd*77.37*1 + sick_rr*67.1 ( 1) 77.37*proz_sd9099 + vetodich + 77.37*vetdichsd + 67.1*sick_rr90 + _cons = 0 -----------------------------------------------------------------------------delsick9099 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------(1) | -1.426092 2.665267 -0.54 0.602 -7.23321 4.381026 ------------------------------------------------------------------------------
Die Outputs sind wie folgt zu interpretieren: Zunächst werden in den mit (1) bezeichneten Zeilen der Tabellen die geschätzten Werte für die jeweilige Variablenkombination und die gewählten Werte abgetragen. Diese entsprechen den in Tab. 3.1 von Hand berechneten Vorhersagen für unterschiedliche Werte von Z und X1. Daneben zeigt die Tabelle jedoch auch die Signifikanzniveaus (95 %) und die Konfidenzintervalle für die geschätzten Werte an. Hieraus wird ersichtlich, dass im Falle von Nicht-Westminster-Systemen eine marginale Erhöhung des Kabinettssitzanteils von Linksparteien keinen signifikanten Einfluss auf die Veränderung des Krankengeldniveaus hat, während dies im Falle von Westminster-Systemen der Fall ist. Tab. 3.2:
Interaktionen mit dichotomer Z-Variable: Konfidenzintervalle (KI) (95 %-Niveau)
Regierungsbeteiligung Sozialdemokraten (in % Kabinettssitzanteil) 0 10 20 30 40 50 60 70 80
Z=0 (Westminster) Geschätzter Konfidenzintervall (95%) Wert –16,40 –23,74 –9,07 –13,21 –18,84 –7,58 –10,01 –14,11 –5,91 –6,81 –9,83 –3,79 –3,61 –6,54 –0,68 –0,41 –4,32 3,49 2,78 –2,62 8,18 5,98 –1,11 13,07 9,18 0,32 18,04
Z=1 (Nicht-Westminster) Geschätzter Konfidenzintervall Wert (95%) 0,96 –3,93 5,84 0,65 –3,44 4,74 0,34 –3,13 3,82 0,03 –3,12 3,18 –0,28 –3,48 2,93 –0,58 –4,21 3,04 –0,89 –5,19 3,41 –1,20 –6,33 3,93 –1,51 –7,56 4,55
50
3 Interaktionen
20,00 15,00 10,00 5,00 0,00 -5,00
0
10
20
30
40
50
60
70
80
-10,00 -15,00 -20,00 -25,00
Abb. 3.5:
Geschätzte Werte (Z=0)
KI unten (Z=0)
KI oben (Z=0)
Geschätzte Werte (Z=1)
KI unten (Z=1)
KI oben (Z=1)
Grafische Darstellung Interaktionseffekt und KI
Für eine grafische Darstellung ist es aufschlussreich, die Konfidenzintervalle (zu einem bestimmten Signifikanzniveau) zu den vorhergesagten Werten in ein Diagramm zu zeichnen. Hierzu kann man mit dem lincom-Befehl noch weitere Wertekombinationen aus X1 und Z berechnen – etwa für Zehnerschritte der Parteienvariable (Tab. 3.2) – und diese dann in einem Liniendiagramm abtragen.6 Aus einem solchen Diagramm (Abb. 3.5) wird auf den ersten Blick ersichtlich, wie die Z-Variable den Einfluss der X1-Variable auf Y moderiert und mit welchem Vertrauen (bzw. Signifikanz) einer solchen Interaktion begegnet werden kann. Im Beispiel zeigt sich deutlich, dass für Nicht-Westminster-Systeme ( = 1) der Parteieneinfluss nie signifikant wird (graue Linien), während er für Westminister-Systeme entweder signifikant negativ (bei einem sozialdemokratischen Kabinettssitzanteil bis etwa 40 %) oder signifikant positiv (bei sehr hohem Anteil von Sozialdemokraten ab etwa 80 %) ist (schwarze Linien). Bei einer mittelstarken Regierungsbeteiligung von Sozialdemokraten hingegen ist der Effekt nicht von Null zu unterscheiden, da der Wert Null innerhalb der 95 %Konfidenzintervalle liegt.
3.2.2
Interaktionen mit einer metrischen moderierenden Variable
Bisher wurden in diesem Kapitel alleine Interaktionen mit einer dichotomen moderierenden Variable behandelt. Dieser Fall eignet sich deshalb besonders gut für ein intuitives Verständnis, da im Falle von = 0 eine einfache Interpretation der Interaktion möglich ist und zudem nur wenige Rechenoperationen nötig sind, um mittels der vorhergesagten Werte ver6
Alternativ bieten Kam und Franzese in ihrem Buch zu Interaktionseffekten ein Stata-Kommando, welches die Interaktionseffekte über eine Z-Variable mithilfe einer „Loop“ generiert und entsprechend zeichnet (Kam/Franzese 2007: 146).
3.2 Anwendung
51
ständliche Tabellen und Grafiken zu erzeugen. In der Realität der politikwissenschaftlichen Forschung sind moderierende Variablen jedoch häufig nicht dichotom. Dies zeigt auch das eingangs dargestellte Beispiel: Zum Zweck der Veranschaulichung war hier die Variable zu den institutionellen Barrieren bewusst dichotomisiert worden. Damit ist ein großer Informationsverlust verbunden, weshalb man in der Forschungspraxis wohl nur selten so verfahren würde. Stattdessen würde man die intervallskalierte Variable7 zu den institutionellen Barrieren mit all ihren Ausprägungen (empirische Spannweite von 1,25 bis 9, theoretisch von 0 bis 9) in die Interaktionen einbeziehen. Rein technisch passiert bei einer solchen Interaktion mit einer metrischen Variable nichts anderes als im Fall einer dichotomen Z-Variable – es gelten die gleichen Regeln und Anforderungen an eine sinnvoll zu interpretierende Darstellung der Interaktionseffekte. Allerdings eignen sich bei metrischen oder quasi-metrischen Z-Variablen die Darstellungsformen, welche eine Interpretation der Effekte mit dichotomen moderierenden Variablen so intuitiv verständlich machen, nicht immer. Wenn man sich z. B. vorstellt, dass in Abb. 3.5, insgesamt zehn Interaktionseffekte für = 0 bis = 9 und die dazugehörigen Konfidenzintervalle abgetragen würden, leuchtet sofort ein, dass sich für Interaktionseffekte mit metrischen Variablen andere Darstellungsformen anbieten. Diese werden im Folgenden anhand unseres Beispiels diskutiert. Wie im dichotomen Fall berechnet man im ersten Schritt den Interaktionseffekt – nur jetzt mit der originalen intervallskalierten Institutionenvariable – und schätzt sodann eine Regression (vgl. Output 3.3 (hier nur Koeffzientenblock)): Output 3.3: Regression mit Interaktion bei intervallskalierter Z-Variable -----------------------------------------------------------------------------delsick9099 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------proz_sd9099 | .3410495 .0968025 3.52 0.004 .1301349 .551964 veto90 | 2.731285 .7283431 3.75 0.003 1.144362 4.318208 vetsd | -.0588289 .0190163 -3.09 0.009 -.1002619 -.0173959 sick_rr90 | -.2673356 .0715286 -3.74 0.003 -.423183 -.1114882 _cons | 1.017315 3.785333 0.27 0.793 -7.230218 9.264848 ------------------------------------------------------------------------------
Wie unschwer zu erkennen ist, hat der multiplikative Term auch in diesem Fall ein negatives Vorzeichen, d. h. auch hier beeinflusst die Institutionenvariable den Zusammenhang zwischen sozialdemokratischen Regierungen und der Veränderung des Krankengeldniveaus in den 1990er Jahren negativ. Mithilfe der vorhergesagten Werte (Stata-Code s. o.) lässt sich eine Grafik erstellen, die den Verlauf des Effektes über die Ausprägungen der Parteienvariable darstellt (Abb. 3.6). Es bietet sich zumeist an, die Z-Variable wie hier über ihre gesamte empirische Spannweite „laufen“ zu lassen, oder – wie in diesem Fall – die theoretisch mögliche Spannweite abzubilden (hier von 0 Vetopunkten bis 9). Aus Abb. 3.6 wird auf den ersten Blick ersichtlich, dass sich die grundlegenden Zusammenhänge auch bei Inklusion der Z-Variable in quasi-metrischer Form nicht verändern – auch wenn wir hier der Lesbarkeit wegen keine Linien für die Signifikanzniveaus aufgenommen haben. Bei wenigen Vetopunkten führt eine geringe Regierungsbeteiligung von 7
Aufgrund seiner additiven Konstruktionslogik kann für den Index von Huber et al. Intervallskalenniveau angenommen werden.
52
3 Interaktionen
−20
−10
0
10
Sozialdemokraten zu einem Rückgang des Lohnersatzniveaus des Krankengelds, eine starke Regierungsbeteiligung zu einem Anstieg. Dieser Zusammenhang wird umso schwächer, je mehr Vetopunkte im politischen System vorliegen und dreht ab einer Zahl von sieben in die umgekehrte Richtung. Durch die Aufnahme der quasi-metrischen Z-Variable wird deutlich, dass auch der umgekehrte Effekt durchaus eine gewisse Stärke annehmen kann, denn die Steigung der Gerade bei neun Vetopunkten ist beachtlich: Inhaltlich bedeutet dies auf der einen Seite, dass bei vielen Vetopunkten nicht-sozialdemokratische Regierungen Kürzungen der Lohnersatzraten des Krankengelds wohl nicht durchsetzen können, bzw. hier die Lohnersatzraten sogar leicht ansteigen; auf der anderen Seite sind sozialdemokratische Regierungen bei vielen Vetopunkten wohl eher mit Kürzungen des Krankengeldes assoziiert – ein Befund, den man in der Literatur zum wohlfahrtsstaatlichen Rückbau durchaus theoretisch stützen könnte8 (aufgrund des hier verwendeten sehr sparsamen Modells und der fehlenden Darstellung der Signifikanzen aber vielleicht nur mit Einschränkungen sollte). Kurz: Durch die größere Spannweite der Z-Variable fällt die bereits bekannte Umkehrung des Effekts stärker aus.
0
20 40 Sozialdemokratischer Kabinettssitzanteil 90
Abb. 3.6:
yhat0
yhat1
yhat2
yhat3
yhat4
yhat5
yhat6
yhat7
yhat8
yhat9
60 −99
80
Interaktion mit metrischer Z-Variable, vorhergesagte Werte
Die bisherige Interpretation anhand von Abb. 3.6 basiert alleine auf den vorhergesagten Werten – ohne die Signifikanzen zu betrachten. Dies hat einen einfachen Grund: Würde man in Abb. 3.6 Konfidenzintervalle hinzufügen, hätte dies eine völlig unübersichtliche Grafik zur Folge. Weil die Signifikanzen jedoch für die Interpretation der Effekte eine Rolle spielen, bietet sich für metrische Z-Variablen eine andere Darstellungsweise über Marginaleffekte an. Hierbei wird auf der y-Achse abgetragen, welchen Effekt ein marginaler Anstieg der XVariablen auf Y hat, und die Stärke dieses Effekts wird über die Werte der Z-Variablen auf der x-Achse dargestellt. Mithilfe von Stata kann ein solcher „Marginal-Effects-Plot“ über
8
Viele Vetopunkte geben sozialdemokratischen Regierungen einerseits die Möglichkeit, Verantwortung für Kürzungen auf Mitregenten abzuwälzen. Andererseits müssen sie nicht mit einer gemeinsamen Opposition aus Vetospielern und Oppositionsparteien gegen Kürzungen rechnen – wie dies für Nicht-Sozialdemokraten der Fall wäre (Nixon-goes-to-China-Logik) (Green-Pedersen 2002; Kitschelt 2001).
3.3 Zusammenfassung
53
.5 0 −.5
Marginaler Effekt sd Parteien
1
einen von Brambor et al. geschriebenen Code (Brambor et al. 2006) erzeugt werden (s. DoFile, Abb. 3.7)9:
0
1
2
3
4
5
6
7
8
9
Vetospieler
Marg. Effekt sd Parteien 95% Konfidenzintervall
Abb. 3.7:
Interaktion mit metrischer Z-Variable, Marginaleffekte
Die Interpretation einer solchen Grafik ist unkompliziert: Ein marginaler Anstieg des Kabinettssitzanteils der sozialdemokratischen Regierungen sorgt in einem System mit wenigen institutionellen Hürden für einen Anstieg des Leistungsniveaus des Krankengelds. Dieser Effekt ist bis zu einer Zahl von etwa fünf Vetopunkten signifikant. In Systemen mit einer mittelhohen Zahl von Vetopunkten (zwischen 5 und 9) ist der Effekt (mit einer Vertrauenswahrscheinlichkeit von 95 %) nicht von null zu unterscheiden. In Systemen mit sehr vielen Vetospielern (bzw. hier: bei neun Vetospielern) reduziert ein Anstieg der Regierungsbeteiligung der Sozialdemokraten hingegen das Leistungsniveau des Krankengelds signifikant. Inhaltlich sagt diese Grafik also nichts anderes aus als die Abbildung zu den vorhergesagten Werten, allerdings mit der Zusatzinformation in Form von Konfidenzintervallen. Der Vorteil der Darstellung von Interaktionen über Marginaleffekte liegt somit darin, dass durch die Betrachtung der Veränderung der X-Variable mehr Informationen übersichtlich in einer Grafik zusammengefasst werden können.
3.3
Zusammenfassung
Forschungsfragen der Politikwissenschaft untersuchen häufig komplexe Ursache-WirkungsBeziehungen. Das linear-additive Regressionsmodell alleine, das Standardwerkzeug der quantitativen Politikforscher, kann solche Beziehungen häufig nicht adäquat analysieren. Dieses Kapitel hat gezeigt, dass Interaktionseffekte eine Möglichkeit darstellen, innerhalb von Regressionsmodellen komplexere Kausalbeziehungen zu untersuchen.10 Insbesondere in der (länder-)vergleichenden Politikforschung sind solche Effekte häufig zu erwarten, da Länderkon9 10
Entsprechende Informationen finden sich auf Matt Golders Homepage: https://files.nyu.edu/mrg217/ public/interaction.html Dieses Kapitel hat sich auf Interaktionseffekte von zwei Variablen beschränkt. Natürlich sind Interaktionen aber auch mit mehreren Variablen statistisch möglich und deren Logik unterscheidet sich im Prinzip nicht vom hier geschilderten Fall. Die Interpretation solcher Dreifach- oder Vierfach-Interaktionen wird jedoch schnell sehr komplex und erfordert auch theoretisch gute Vorüberlegungen.
54
3 Interaktionen
texte unterschiedlich sind und andere Kausalbeziehungen moderieren sollten. Ein Beispiel hierfür ist der Einfluss politischer Institutionen, der in diesem Kapitel verwendet wurde, um die Wirkung von Interaktionseffekten (mit parteipolitischem Einfluss) zu veranschaulichen. Zumindest für unser Untersuchungssample lässt sich die Forschungsfrage vom Beginn dieses Kapitels eindeutig beantworten: Ja, Institutionen moderieren den Einfluss sozialdemokratischer Regierungsbeteiligung auf die Leistungshöhe des Krankengelds – und zwar in der vermuteten Richtung. Sozialdemokratische Regierungen haben nur dann einen positiven Einfluss auf die Leistungshöhe, wenn wenige institutionelle Barrieren in einem politischen System vorliegen. Bei einer steigenden Zahl von Vetospielern nimmt dieser positive Effekt ab und verkehrt sich sogar im Extremfall ins Negative. Bei der Untersuchung von Interaktionseffekten sind einige Regeln zu beachten – wobei der Hinweis besonders schwer wiegt, wonach für eine sinnvolle Interpretation Tabellen, insbesondere aber auch Grafiken zu empfehlen sind. Interaktionseffekte aus Regressionsgleichungen bzw. -tabellen abzulesen ist häufig nicht oder nur unvollständig möglich – was häufig nicht beachtet wird. Interaktionseffekte sind weder auf Regressionen mit einer metrischen AV, noch auf die hier diskutierte Querschnittsregression beschränkt. Im Fall von Mehrebenenanalysen (vgl. Kapitel 5) sind Interaktionen z. B. besonders relevant – wenn etwa Aggregatmerkmale (bspw. Länderspezifika) Zusammenhänge auf der Individualebene beeinflussen (Cross-LevelInteraktionen). Aber auch in Logit- oder Probit-Regressionen bei dichotomen oder ordinalskalierten AV sind Interaktionen vergleichsweise einfach zu implementieren. Die Logik bleibt dabei immer dieselbe: Eine Variable Z moderiert einen Zusammenhang zwischen einer UV X und einer AV Y.
3.4
Schrittweises Vorgehen
1.
Theoretische Überlegungen zur Richtung des Interaktionseffekts: Moderiert Z den Einfluss von X auf Y oder moderiert X den Einfluss von Z auf Y? Interaktionseffekte sind immer symmetrisch, d. h. diese Frage ist unter Rückgriff auf die Theorie zu beantworten.
2.
Berechnung des Interaktionsterms , der die Regressionsgleichung (neben X und Z) als zusätzliche erklärende Variable erweitert.
3.
Schätzung der Regressionsgleichung. a)
Prüfung der Regressionsannahmen (vgl. Kapitel 2).
b) Interpretation des Koeffizienten für den multiplikativen Term möglich. c)
Interpretation des Koeffizienten für X möglich, wenn
= 0.
4.
Berechnung der vorhergesagten Werte für unterschiedliche Kombinationen von X und Z und Veranschaulichung der Effekte anhand von Grafiken.
5.
Berechnung der Konfidenzintervalle über lincom und grafische Darstellung.
6.
Alternativ zu 4. und 5.: Berechnung eines „Marginal-Effects-Plots“ mithilfe der Stata-Routine von Brambor et al. (2006).
4
Logistische Regressionsanalyse
4.1
Grundlagen
4.1.1
Die Analyse dichotomer abhängiger Variablen
Untersuchungsobjekte von Politikwissenschaftlern sind immer wieder durch klare Ja- und Nein-Entscheidungen gekennzeichnet: Gewerkschaftsforscher, die sich für die Frage interessieren, warum sich immer weniger Arbeiter gewerkschaftlich organisieren, analysieren die Entscheidung für oder gegen eine Mitgliedschaft. Konfliktforscher, die nach Ursachen für Bürgerkriege suchen, betrachten Jahre, in denen Konflikte aufgetreten sind und Jahre ohne Konflikte. Demokratieforscher, die sich für das Abstimmungsverhalten in Referenden interessieren, stehen vor einzelnen Wahlentscheidungen der Bevölkerung für oder gegen ein bestimmtes Projekt. Und Wahlforscher, welche die Beteiligung an Parlamentswahlen untersuchen, haben es auf der Mikroebene mit einzelnen Personen zu tun, die entweder (behaupten) wählen (zu) gehen oder nicht. Am Beispiel letzterer Forschungsfrage wird im Folgenden das Verfahren der logistischen Regression erläutert. Beispielhafte Forschungsfrage: Was erklärt die individuelle Wahlbeteiligung? Ein Wahlforscher hat sich zum Ziel gesetzt, genauer zu ergründen, warum Menschen in Deutschland zur Wahl gehen oder nicht. Dazu untersucht er das Antwortverhalten der Befragten auf die Frage: „Die letzte Bundestagswahl war am 18. September 2005. Haben Sie bei dieser Wahl gewählt?“. Empirisch ergibt sich dabei folgende Verteilung: von den 1530 Befragten, die auf die Frage antworteten, gaben etwa 14 Prozent (209 Personen) an, nicht gewählt zu haben, während mehr als 86 Prozent mit Ja auf die Frage nach der Wahlbeteiligung antworteten. Die entscheidende Aufgabe für den Forscher besteht nun darin herauszuarbeiten, welche Faktoren die Unterschiede im Antwortverhalten der Individuen erklären können. Hierfür stehen ihm unterschiedliche Indikatoren zur Verfügung, die auf Individualebene erhoben wurden – wie etwa Alter, Bildungsgrad, Parteiidentifikation, Einstellungen zu bestimmten Politikfeldern, Religiosität, politisches Interesse etc. Datenbasis: 1530 Befragte (zur abhängigen Variable), davon (nach eigener Angabe) 14 Prozent Nichtwähler und 86 Prozent Wähler. Datenquelle: International Social Survey Programme, Role of Government IV (2006) Abhängige Variable (AV): 0-1-Kodierung je nach Antwortkategorie (Wahlbeteiligung oder nicht) Unabhängige Variablen (UV): U. a. Alter, Bildungsgrad, Parteiidentifikation, politisches Interesse
56
4 Logistische Regressionsanalyse
Ziel der Analyse: Untersuchung der Frage, wie sich das Antwortverhalten der Befragten erklären lässt. Anforderungen an die Datenstruktur: Dichotome (bei ordinaler bzw. multinominaler Logit auch ordinale oder nominalskalierte) AV, metrische UV (oder Dummy-Variablen) Will man Fragestellungen wie diese mittels quantitativer Methoden untersuchen, kommt man mit einer linearen OLS-Regression nicht weiter. Denn eine Grundanforderung ist nicht erfüllt: Die AV hat kein metrisches Skalenniveau, sondern ist dichotom skaliert. Sie besitzt zwei Ausprägungen: Wahl oder Nichtwahl (bzw. Gewerkschaftsmitgliedschaft oder NichtMitgliedschaft, Krieg oder Frieden, Zustimmung oder Ablehnung im Referendum). Dennoch ähnelt das Forschungsdesign zur Analyse dichotomer AVs häufig dem einer „klassischen“ linearen Regressionsanalyse und weist eine konvergente Kausalstruktur auf: Mehrere erklärende (unabhängige) Variablen kommen als Ursachen der Varianz der AV in Frage – mit dem Unterschied, dass diese Varianz nur durch zwei Ausprägungen erzeugt wird (vgl. Abb. 4.1). So kommen für einen Wahlforscher, der die Unterschiede zwischen Wahl und Nichtwahl herausarbeiten möchte, mehrere Variablen als mögliche Erklärungen in Frage: Parteiidentifikation könnte eine Rolle spielen (X1), gebildete Menschen könnten eher zur Wahl gehen (X2), oder das politische Interesse könnte die Wahrscheinlichkeit einer Wahlbeteiligung beeinflussen (X3).
X1
X2
Y=0 Y=1
X3 Abb. 4.1:
Kausalstruktur dichotome abhängige Variable
Für die Untersuchung solcher Forschungsfragen ist die lineare Einfachregression nicht geeignet, da Homoskedastizität und Normalverteilung der Residuen – zwei der zentralen Bedingungen bei dichotomen AVs – nicht erfüllt sind. Ein Beispiel verdeutlicht diese Problematik: Betrachtet man etwa den linearen Zusammenhang zwischen der Wahlbeteiligung und der Bildung (gemessen über Jahre des Schulbesuchs), zeigt sich sowohl im Scatterplot (Abb. 4.2, links1) als auch im Residualplot einer bivariaten linearen Regression (Abb. 4.2, rechts) ein starkes Muster. Dies veranschaulicht auf den ersten Blick, dass zentrale Annahmen für die lineare Regressionsanalyse nicht erfüllt sind. Erstens ist der Zusammenhang zwischen der AV und dem Einstiegsalter nicht linear – entsprechend sieht auch die Verteilung der Residuen 1
Zur Veranschaulichung sind die Observationen künstlich mit der Option jitter gestreut, da die Beobachtungen sonst alle auf dem Wert 0 bzw. 1 zusammenfallen würden.
4.1 Grundlagen
57
sehr stark „strukturiert“ und sicher nicht normalverteilt aus. Dies liegt schlicht daran, dass alle Beobachtungen nur die Werte 0 (Nichtwahl) und 1 (Wahl) annehmen können.
Abb. 4.2:
Scatter- und Residualplot dichotome abhängige Variable
Zweitens ist auch Homoskedastizität nicht gegeben, denn für Personen mit längerem Schulbesuch steigen die Werte für die Residuen. Diese steigenden Werte für steigendes X sind durch die dichotome AV notwendigerweise vorgegeben, da Y nur die Werte 0 und 1 annehmen kann und die Regressionsgerade zwischen den beiden Werten verläuft. Kurz, und ohne auf weitere Probleme einzugehen: Die BLUE-Bedingungen für eine OLS sind hier nicht gegeben (s. Kapitel 2.5). Entsprechend ist auch die Betrachtung eines Scatterplots nur bedingt aufschlussreich. Daneben ist eine sinnvolle inhaltliche Interpretation der Regressionsgeraden häufig nicht möglich – insbesondere dann, wenn sie negative Werte vorhersagt: Denn die AV geht nun einmal von zwei Gruppen aus und Werte unter 0 stellen daher keine sinnvolle Kategorie dar. Aus diesem Grund muss für die Schätzung einer Regressionsgleichung für dichotome AV der mögliche Wertebereich der Regressionsschätzung auf 0 und 1 begrenzt werden – genau dies ermöglicht die Logit-Funktion (s. u.).
4.1.2
Bivariate Verfahren als Vorstufe zur logistischen Regressionsanalyse
Wie im Fall der linearen Regressionsanalyse bietet es sich auch bei dichotomen AVs an, mittels einfacher Beschreibung zunächst einen Überblick über die Daten zu gewinnen. Während bei der linearen Regressionsanalyse bivariate Korrelationen, Scatterplots und Scatterplot-Matrizen erste Einblicke in das Datenmaterial gewähren, sind im Fall einer binären AV Gruppenvergleiche ein möglicher Ausgangspunkt.2 Hierbei werden zunächst die Daten anhand der AV in zwei Gruppen unterteilt, um in einem zweiten Schritt die Mittelwerte der erklärenden Variablen zwischen diesen Gruppen zu vergleichen. Um einen Eindruck von der Streuung der Gruppenmittelwerte zu bekommen, sollte man zudem die Varianzen bzw. Standardabweichung betrachten. Denn trotz gleichen Mittelwertunterschieden sind Daten von zwei Gruppen, die stark streuen, schlechter voneinander zu unterscheiden als von zwei 2
Zur Anwendung dieser Tests, s. Abschnitt 4.2 dieses Kapitels. Der t-Test und Vergleiche von Gruppenmittelwerten haben auch eine gewisse Nähe zur Varianzanalyse und zur Diskriminanzanalyse, sind jedoch häufig aufschlussreich, um sich im Fall einer binären AV den Daten und ihrer Verteilung anzunähern.
58
4 Logistische Regressionsanalyse
Gruppen, bei denen die Daten nur wenig um den Mittelwert streuen. In Abb. 4.3 sieht man dies auf den ersten Blick: Trotz gleichem Mittelwertunterschied überschneiden sich die Verteilungen in der linken Grafik deutlich weniger stark als in der rechten Grafik. Man würde also dem linken Fall eine bessere Unterscheidbarkeit attestieren als dem rechten Fall – trotz gleich großer Unterschiede im Mittelwert (gestrichelte Linien).
Abb. 4.3:
Mittelwertunterschiede und Streuungen beim Zwei-Gruppen-Vergleich
Auf der Größe der Mittelwertunterschiede und der Streuung der Gruppen um den Mittelwert basieren auch einige statistische Tests, die sich zur ersten Inspektion der Daten eignen. Klassisch ist der t-Test für unabhängige Stichproben (je nach Hypothese zweiseitig und einseitig). Dieser kommt jedoch nur in Frage, wenn die zu testenden UV 1) mindestens intervallskaliert sind und 2) einer Normalverteilung folgen (wobei Simulationen ergeben haben, dass der Test bei gleich großen Gruppen vergleichsweise robust bei Verletzung dieser Annahme ist (Bortz/Schuster 2010: 122)). Zudem ist zu beachten, dass – je nachdem, ob sich die Varianzen der beiden Gruppen signifikant unterscheiden – zwei unterschiedliche t-Werte berechnet werden. Ob dies notwendig ist, kann durch einen „Levene-Test“ entschieden werden.3 Sind die Variablen nicht normalverteilt, kann mithilfe von verteilungsfreien Testverfahren (oder nicht-parametrischen Tests) die Unterschiedlichkeit von Variablen überprüft werden. Ein gängiger Test für diesen Fall ist der Mann-Whitney-U-Test, der mittels Rangplätzen die Unterschiedlichkeit aufgreift und einen z-Wert berechnet, dessen Signifikanz man an der zVerteilung ablesen kann (s. dazu ausführlich Bortz und Schuster 2010: 130–133). Ist der empirisch berechnete z-Wert vom Betrag her größer als der z-Wert für die theoretische Wahrscheinlichkeitsverteilung, kann von einem signifikanten Gruppenunterschied ausgegangen werden. Häufig sind UV auch nur ordinal- oder nominalskaliert, sodass ein Vergleich von Mittelwerten ausscheidet. In diesen Fällen bietet es sich an, Kreuztabellen anzulegen und die Häufigkeiten in den Zellbesetzungen zu vergleichen. Entsprechende Tests (z. B. Chi2-Test) und Zusammenhangsmaße (z. B. Cramérs V) finden sich in der statistischen Einführungsliteratur (Wagschal 1999). Für ordinalskalierte Variablen ist zudem auch der Mann-Whitney-U-Test möglich (s. o.).
3
Mehr zum t-Test und zu Teststatistiken ganz allgemein etwa bei Bortz und Schuster (2010: 120–124).
4.1 Grundlagen
4.1.3
59
Grundzüge des logistischen Regressionsmodells
Bivariate Zusammenhänge zwischen ausgewählten UV und dem zu erklärenden Phänomen können erste Hinweise auf mögliche Erklärungen für die AV geben. Allerdings, und das hat bereits der Fall der multiplen Regression gezeigt, ist die ausschließliche Betrachtung bivariater Assoziationen problematisch – insbesondere, weil keine Kontrolle für Drittvariablen möglich ist. Im Falle metrischer AVs nimmt man daher mehrere Erklärungsvariablen gleichzeitig in die multiple OLS-Regression auf und interpretiert sodann die Koeffizienten unter Kontrolle für die übrigen inkludierten UV (ceteris paribus) als marginale Effekte (vgl. Kapitel 2). Doch wie geht man im Fall einer dichotomen AV vor? Eine Möglichkeit besteht darin, aufbauend auf der Logik des oben kurz dargestellten t-Tests eine lineare Diskriminanzanalyse durchzuführen. Diese berechnet Linearkombinationen aus den UV und maximiert dabei das sogenannte Diskriminanzkriterium, welches das Verhältnis aus der Streuung zwischen den Gruppen und der Streuung innerhalb der Gruppen maximiert. Es werden dabei also in sich möglichst homogene und untereinander gut voneinander unterscheidbare Gruppen erreicht (mehr hierzu z. B. bei Backhaus (2008: 181–241) oder bei Tacq (1997: 233–265)). Allerdings hat die Diskriminanzanalyse einige Voraussetzungen (Normalverteilung, annähernd gleiche Varianzen der Gruppen), welche in der empirischen Datenstruktur nicht immer erfüllt sind. Unter anderem aus diesem Grund hat sich in der Forschung die logistische Regressionsanalyse als wichtigstes Verfahren zur Untersuchung von Problemstellungen durchgesetzt, welche eine dichotome AV analysieren.4 Eintrittswahrscheinlichkeiten als Link zwischen Linearität und Nicht-Linearität Die logistische Regression wählt einen Kniff, um die oben beschriebenen Probleme bei der Kombination von linearer Vorhersage und einem dichotomen Outcome zu lösen: Anstatt die AV direkt über eine Linearkombination von mehreren UV vorherzusagen (wie in der linearen OLS-Regression), verknüpft die logistische Regression UV linear-additiv, um die Eintrittswahrscheinlichkeit ( ( = 1)) eines Ereignisses zu bestimmen, welches die Werte 0 und 1 annehmen kann. Dabei ist es Usus, den Eintritt des Ereignisses mit = 1 und den NichtEintritt mit = 0 zu kodieren. Wie hängen die dichotome AV und die Eintrittswahrscheinlichkeiten zusammen? In der einfachsten Herleitung des Zusammenhangs5 unterstellt man, dass eine latente (unbeobachtete) metrische Variable L vorliegt, die einen Wertebereich von −∞ bis +∞ annehmen kann und die durch eine Linearkombination (bspw. von drei UV) vorhergesagt wird: =
+
+
+
+
(4.1)
Im zweiten Schritt werden den Werten dieser latenten Variable L die Werte 0 und 1 der tatsächlichen dichotomen AV zugewiesen, und zwar so, dass negative Werte von L den Wert 0 annehmen und positive Werte von L den Wert 1. =
4
5
1, wenn 0, wenn
>0 |t|) = 0.0151
Ha: diff > 0 Pr(T > t) = 0.9925
Die Interpretation des tabellarischen Outputs für den t-Test ist sehr intuitiv. Zunächst gibt der Output die Mittelwerte und Standardabweichungen für die beiden Gruppen an. Schon hieraus wird ersichtlich, dass die Gruppe der Nichtwähler im Schnitt etwa drei Jahre jünger ist als die Gruppe der Wähler (46,9 versus 50,3 Jahre). Die Angaben zum t-Test folgen unter der Tabelle. Sie zeigen, dass unter Berücksichtigung der Streuung der Beobachtungen um den Mittelwert der Gruppen dieser Unterschied laut t-Test auch signifikant ist – und zwar sowohl für die zweiseitige Hypothese (d. h. es gibt einen Unterschied) als auch für die einseitige Hypothese (d. h. die Gruppe der Nichtwähler ist jünger). Die Ergebnisse der bivariaten Voranalysen zeigen, dass es sehr empfehlenswert ist, vor einer logistischen Regressionsanalyse die Daten durch Kreuztabellierung, Tests auf Mittelwertunterschiede und deskriptive Statistik genauer zu inspizieren. Dies gibt nicht nur Hinweise darauf, welche Variablen potenziell in einer logistischen Regression einflussreich sein könnten. Vielmehr bekommt man als Forscherin durch solche Voranalysen einen Eindruck von den Daten und kommt Besonderheiten von Variablen und möglichen Fehlern auf die Spur.
4.2.2
Schätzung und Interpretation einer logistischen Regression
Nach der Untersuchung des direkten bivariaten Zusammenhangs einzelner UV mit der Gruppenzugehörigkeit der Befragten, besteht der nächste Schritt im Forschungsprozess darin, den Einfluss der UV unter Kontrolle für die anderen UV zu untersuchen. Hierzu schätzt man eine logistische Regression – in Stata mit den Befehlen logit oder logistic. Beide Befehle unterscheiden sich nur dadurch, dass beim logit-Befehl die Koeffizienten angezeigt werden, während beim logistic-Befehl die Odds-Ratios im Output erscheinen (wobei man sich in beiden Varianten mithilfe weiterer Optionen jeweils die anderen Koeffizienten wieder anzeigen lassen kann). Bevor eine erste logistische Regression berechnet werden kann, ist jedoch noch eine Umkodierung der ordinal und nominal skalierten Variablen in Dummies notwendig. Dies ist in Stata einfach mit dem Befehl tab, gen möglich, der für jede Ausprägung einer Variablen (hier: Kirchgangshäufigkeit und Gewerkschaftsmitgliedschaft) entsprechende Dummies erstellt (vgl. Output 4.4). Diese Dummies werden dann als neue Variablen in den Datensatz geschrieben.
70
4 Logistische Regressionsanalyse
Output 4.4: Dummies für nichtmetrische Variablen . tab attend, gen(attdum) R: Attendance of religious services | Freq. Percent Cum. --------------------------------------+----------------------------------Several times a week, IL: + every day | 26 1.59 1.59 Once a week,GB: once a week or more | 100 6.11 7.69 2 or 3 times a month | 126 7.69 15.38 Sev times a year | 332 20.27 35.65 Less frequently | 487 29.73 65.38 Never | 567 34.62 100.00 --------------------------------------+----------------------------------Total | 1,638 100.00 . tab union, gen(uniondum) R: Trade union membership | Freq. Percent Cum. ----------------------------------------+----------------------------------Currently member | 185 11.30 11.30 Once member, not now | 406 24.80 36.10 Never member | 1,046 63.90 100.00 ----------------------------------------+----------------------------------Total | 1,637 100.00
Berechnet man im nächsten Schritt eine logistische Regression mit Stata zu den Variablen im Beispieldatensatz (für die Dummies muss jeweils eine Referenzkategorie gewählt werden), erhält man folgenden Output: Output 4.5: Logistische Regressionsanalyse . logit VOTE_LE polint attdum1-attdum5 uniondum1 uniondum2 topbot educyrs age Iteration Iteration Iteration Iteration Iteration Iteration
0: 1: 2: 3: 4: 5:
log log log log log log
likelihood likelihood likelihood likelihood likelihood likelihood
Logistic regression
Log likelihood = -446.22554
= = = = = =
-537.42605 -457.9606 -446.35013 -446.2257 -446.22554 -446.22554 Number of obs LR chi2(11) Prob > chi2 Pseudo R2
= = = =
1375 182.40 0.0000 0.1697
-----------------------------------------------------------------------------VOTE_LE | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------polint | -.7677003 .0982819 -7.81 0.000 -.9603292 -.5750713 attdum1 | -.8558594 .5875115 -1.46 0.145 -2.007361 .2956419 attdum2 | 1.497994 .5541971 2.70 0.007 .4117873 2.5842 attdum3 | .3770125 .3531204 1.07 0.286 -.3150907 1.069116 attdum4 | 1.041646 .2820305 3.69 0.000 .4888768 1.594416 attdum5 | .2810553 .2027108 1.39 0.166 -.1162507 .6783612 uniondum1 | .4194295 .3143 1.33 0.182 -.1965871 1.035446 uniondum2 | .1784699 .2115543 0.84 0.399 -.2361688 .5931087 topbot | .2099988 .0560924 3.74 0.000 .1000597 .319938 educyrs | .0883587 .0378867 2.33 0.020 .0141021 .1626152 age | .0126934 .0055328 2.29 0.022 .0018493 .0235374 _cons | 1.359509 .7082142 1.92 0.055 -.0285652 2.747584 ------------------------------------------------------------------------------
4.2 Anwendung
71
Welche Interpretationen erlaubt dieser Output? Zum einen zeigt sich, dass das Modell relativ schnell konvergiert. Nach nur fünf Iterationen wurde eine Schätzung erreicht, die durch weitere Iterationen nicht merklich zu verbessern ist: Der Log-Likelihood-Wert verändert sich nur marginal zwischen Schätzung 3 und 4. Daneben beinhaltet die Tabelle Aussagen zum Modellfit und zu den Koeffizienten. Beide Aspekte werden im Folgenden ausführlicher diskutiert. Modellfit Im Bereich oben rechts direkt über dem tabellarischen Überblick der Koeffizienten gibt der Output Hinweise auf den allgemeinen Modellfit. Zum einen stecken diese Informationen in den Angaben zum Pseudo R². Für die logistische Regression lassen sich unterschiedliche Pseudo-R²-Werte berechnen, ohne weitere Spezifikation gibt Stata das Pseudo R² nach der Formel von McFadden aus. Dieses berechnet sich nach derselben Logik wie das Bestimmtheitsmaß in der linearen Regression und schätzt ab, wie viel „besser“ die Schätzung des Modells dadurch geworden ist, dass man die erklärenden Variablen aufgenommen hat (ausführlicher dazu Long 1997: 104–106). Im Gegensatz zum R² in einer linearen Regression, ist das Pseudo-R² jedoch deutlich weniger intuitiv in der Interpretation. Mehr als „je höher desto besser“ (Kohler/Kreuter 2008: 278) sagen die Werte nicht aus. Zudem gilt, dass – genau wie beim R² in der linearen Regression – der Wert des McFadden R² immer größer wird, je mehr Variablen in die Gleichung aufgenommen werden. Daher gibt es auch die Möglichkeit, ein adjustiertes R² nach McFadden zu berechnen. Hierzu gibt man nach der Schätzung einer logistischen Regression den Befehl fitstat ein (Output 4.6): Output 4.6: Fitmaße nach logistischer Regression Measures of Fit for logit of VOTE_LE Log-Lik Intercept Only: D(1363):
-537.426 892.451
McFadden's R2: ML (Cox-Snell) R2: McKelvey & Zavoina's R2: Variance of y*: Count R2: AIC: BIC: BIC used by Stata:
0.170 0.124 0.310 4.765 0.881 0.667 -8956.872 979.166
Log-Lik Full Model: LR(11): Prob > LR: McFadden's Adj R2: Cragg-Uhler(Nagelkerke) R2: Efron's R2: Variance of error: Adj Count R2: AIC*n: BIC': AIC used by Stata:
-446.226 182.401 0.000 0.147 0.229 0.165 3.290 0.104 916.451 -102.913 916.451
Das adjustierte R² nach McFadden liegt, wie der Output zeigt, unter dem Wert des nichtangepassten Maßes. Daneben sieht man im Output auch, dass es eine Reihe anderer Möglichkeiten gibt, den Modellfit einer logistischen Regression zu testen. Hierzu gehören einige weitere R²-Varianten (am gebräuchlichsten sind Cox-und-Snell und Nagelkerke), die für das oben geschätzte Modell zu einem ähnlichen Befund kommen: Der Modellfit ist nicht schlecht aber ausbaufähig – was angesichts der untheoretischen Herangehensweise und der eklektischen Auswahl einiger Variablen aber nicht überrascht. Zudem werden bei logistischen Regressionen in den Sozialwissenschaften erfahrungsgemäß niedrigere R²-Werte erreicht als sie aus OLS-Schätzungen bekannt sind. Neben den verschiedenen Pseudo-R²-Maßen lässt sich die Anpassungsgüte des Modells auch anhand anderer Indikatoren bemessen. Zum Vergleich der Erklärungskraft verschiedener
72
4 Logistische Regressionsanalyse
ineinander geschachtelter Modelle („nested models“), eignet sich z. B. der Log-LikelihoodWert (steht auch im Output 4.5 direkt über dem Koeffizientenblock links), der auch bei der Konvergenz der Modelle im Iterationsverfahren relevant ist. Dieser gibt den Modellfit eines Gesamtmodells an und ist für sich genommen nicht besonders aussagekräftig – außer, dass eine bessere Anpassungsgüte mit größeren Absolutwerten einhergeht.10 Vergleicht man allerdings zwei „genestete“ Modelle, so kann man anhand der Veränderung des Log-LikelihoodWerts prüfen, ob die Aufnahme einer oder mehrerer Variablen zu einer signifikanten Verbesserung der Anpassungsgüte führt. In der ersten Zeile der Fitmaße (vgl. Output 4.6) wird etwa das volle Modell mit allen UV ( = −478,019) in einem Likelihood-Ratio-Test (LR-Test) gegen das leere Modell (nur die Konstante ist aufgenommen) ( = −562,578) getestet. Ergebnis: Die Verbesserung ist signifikant (s. dritte Zeile der rechten Spalte in Output 4.6). Der LR-Test gegen das leere Modell ist an sich nur wenig aussagekräftig, allerdings kann man auch einzelne ineinander geschachtelte Modelle gegeneinander testen und so abschätzen, welche zusätzliche Erklärungskraft die Aufnahme einzelner Variablen (oder von Variablengruppen) bedeutet (s. unten zur Signifikanz der Koeffizienten).11 Auf dem LogLikelihood-Wert basieren auch die Informationskriterien nach Akaike und Bayes (AIC bzw. BIC). Beide Kriterien sind ebenfalls dann sinnvoll zu interpretieren, wenn man ineinander geschachtelte Modelle vergleicht. Hierbei gilt: Je kleiner AIC bzw. BIC, umso besser das Modell (ausführlichere Informationen zur Interpretation von AIC und BIC und auch zur Logik des LR-Tests im Kapitel 5). Output 4.7: Klassifikationsmatrix . lstat Logistic model for VOTE_LE -------- True -------Classified | D ~D | Total -----------+--------------------------+----------+ | 1181 151 | 1332 | 12 31 | 43 -----------+--------------------------+----------Total | 1193 182 | 1375 Weiterer Output hier nicht dargestellt. -------------------------------------------------Correctly classified 88.15% --------------------------------------------------
Eine letzte und intuitive Möglichkeit, um die Anpassungsgüte eines Modells zu betrachten, ist die Untersuchung der Klassifikationseigenschaften. Dahinter steht die Überlegung, die 10
11
Die präsentierten Pseudo-R2-Statistiken greifen alle auf diesen Log-Likelihood-Wert zurück und transformieren ihn auf unterschiedliche Art und Weise, so dass letztlich ein vergleichbares und damit sinnvoll interpretierbares Maß entsteht. Hierzu ist auch der Befehl fitstat, diff empfehlenswert. Um diesen zu nutzen, berechnet man zunächst nacheinander zwei (ineinander geschachtelte) logistische Regressionen und speichert nach der ersten Schätzung die Fit-Maße mit fitstat, save. Nach der zweiten Regressionsschätzung kann man sich nun mit fitstat, diff nicht nur die Werte für beide Schätzungen ausgeben lassen, sondern auch die Veränderung der Fitmaße gemäß der beiden Modelle (in der mit „Difference“ überschriebenen Spalte). Wichtig: Der Vergleich von zwei Modellen mittels Likelihood-Ratio-Test ist nur dann möglich, wenn die Modelle neben der genesteten Struktur auch dieselbe Fallzahl aufweisen!
4.2 Anwendung
73
durch die logistische Regression vorhergesagte Klassifikation der Fälle in zwei Gruppen mit der tatsächlichen Klassifikation aus den empirischen Daten zu vergleichen. In Stata gibt man hierzu den Befehl lstat nach der Schätzung der logistischen Regression ein (vgl. Output 4.7). Es folgen eine Klassifikationsmatrix sowie (hier nicht gezeigt) Informationen für eine bayesianische Interpretation. Im Output wird in den mit „True“ überschriebenen Spalten in der untersten Zeile zunächst die tatsächliche Verteilung der Fälle auf die Spalten angezeigt: In der Summe finden sich von den insgesamt 1.375 Fällen 1.193 in Gruppe D ( = 1) und 182 Fälle in Gruppe ~D ( = 0). In den beiden Zeilen darüber steht, wie die logistische Regressionsschätzung im Vergleich dazu die Fälle zuordnet: Von den 1.193 empirischen Wählern werden 1.181 von der Funktion korrekt vorhergesagt, während 12 von der logistischen Funktion fälschlicherweise als Nichtwähler klassifiziert wurden. Etwas weniger gut ist die Vorhersage für die Gruppe der 182 tatsächlichen Nichtwähler. Hier klassifiziert die Funktion nur 31 Fälle korrekt (als Nichtwähler), während die restlichen Fälle irrtümlicherweise als Wähler eingeordnet werden. Häufig zur Interpretation genutzt wird die letzte Zeile des Outputs, die die Zahl der korrekt klassifizierten Fälle angibt. In toto ordnet die Funktion von den 1.375 Fällen 88,15 Prozent korrekt und 163 Fälle (11,85 Prozent) falsch den zwei Gruppen zu. Diese Angabe, die in der oben mit fitstat erzeugten Statistik unter dem Namen „Count R²“ auftaucht, muss man jedoch immer mit der Gruppeneinteilung vergleichen, die man ohne Kenntnis der UV vornehmen würde: Wenn man nichts über mögliche erklärende Variablen wüsste und – aufgrund der Verteilung der AV12 – alle Fälle schlicht in die Gruppe der Wähler klassifizieren würde, hätte man aufgrund der ungleichen empirischen Verteilung immerhin bereits 86,8 Prozent (1.193 von 1.375) der Fälle korrekt eingeordnet. Entsprechend liegt der Zugewinn an Erklärungskraft nur bei rund einem Prozentpunkt. Interpretation des Einflusses der unabhängigen Variablen Neben dem allgemeinen Fit der Modelle ist es aus Forschersicht häufig relevanter, die Erklärungskraft der einzelnen Indikatoren zu interpretieren. Die Frage, wie wichtig der Modellfit bzw. der Einfluss einzelner Variablen ist, hängt auch von der grundsätzlichen Fragestellung des Forschers ab. Wenn in der Medizin etwa der Zusammenhang zwischen der Gabe eines Medikamentes und dem Überleben von Patienten (0-1-kodiert) untersucht wird, so dürfte ein Arzt insbesondere am Effekt des Medikaments interessiert sein. Auch wenn durch die Gabe vielleicht nur drei Menschenleben mehr als vorher gerettet werden könnten (sich der ModellFit also nur geringfügig verbessert), ist das für den Arzt ein hochrelevantes Ergebnis. In der Politikwissenschaft hängt vieles von der „kausalen Perspektive“ (Ganghof 2005) ab. Geht eine Forscherin eher X-zentriert vor, interessieren sie also wie oben den Mediziner insbesondere die Effekte einer UV auf den Outcome, so dürfte sie im Stata-Output zunächst auf die Koeffizienten schauen. Geht es ihr jedoch um eine möglichst gute Erklärung eines Phänomens (Y-zentriert), dann ist der Modellfit ebenfalls eine sehr relevante Größe. Die Fragen zum Einfluss einzelner Variablen auf die AV beantworten in der logistischen wie in der linearen Regression die Koeffizienten der UV. Wie oben bereits theoretisch beschrieben wurde, ist die Interpretation der Koeffizienten im Fall der logistischen Regression jedoch etwas schwieriger als in der linearen Regression, weil sich aus den Angaben in Output 4.5 – 12
Die häufigste Kategorie ist immer der beste Tipp, wenn man ohne Vorinformationen auf das Ergebnis wetten würde.
74
4 Logistische Regressionsanalyse
also den unstandardisierten Koeffizienten – nur die Vorzeichen direkt interpretieren lassen: Bei höherem politischen Interesse (kleine Werte im Indikator), steigt demnach die Wahrscheinlichkeit, zur Wahl zu gehen. Gleiches gilt z. B. für höheren Bildungsgrad (mehr Jahre der Bildung) und höheres Alter. Ob aber Bildung, Alter oder politisches Interesse einen stärkeren Effekt auf die Wahrscheinlichkeit der Wahlbeteiligung ausüben – zu dieser Frage kann der Wahlforscher auf Grundlage von Output 4.5 noch keine Aussage treffen. Im Prinzip gibt es zwei Wege, um eine bessere Interpretation zu ermöglichen. Zum einen die Berechnung der Effektkoeffizienten (Odds-Ratios), zum anderen die Darstellung der vorhergesagten Wahrscheinlichkeiten. Zunächst zu den Odds-Ratios. Diese erhält man in Stata entweder durch den Befehl logit mit der nachgestellten Option ,or oder durch den Befehl logistic. Output 4.8: Logistische Regression mit Odds Ratios . logit VOTE_LE polint attdum1-attdum5 uniondum1 uniondum2 topbot educyrs age, or Iteration Iteration Iteration Iteration Iteration Iteration
0: 1: 2: 3: 4: 5:
log log log log log log
likelihood likelihood likelihood likelihood likelihood likelihood
Logistic regression
Log likelihood = -446.22554
= = = = = =
-537.42605 -457.9606 -446.35013 -446.2257 -446.22554 -446.22554 Number of obs LR chi2(11) Prob > chi2 Pseudo R2
= = = =
1375 182.40 0.0000 0.1697
-----------------------------------------------------------------------------VOTE_LE | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------polint | .4640791 .0456106 -7.81 0.000 .3827669 .5626648 attdum1 | .4249179 .2496441 -1.46 0.145 .1343428 1.343989 attdum2 | 4.472706 2.478761 2.70 0.007 1.509513 13.25268 attdum3 | 1.457923 .5148222 1.07 0.286 .7297227 2.912803 attdum4 | 2.833879 .7992403 3.69 0.000 1.630484 4.925452 attdum5 | 1.324527 .2684959 1.39 0.166 .890252 1.970646 uniondum1 | 1.521094 .4780797 1.33 0.182 .8215298 2.816362 uniondum2 | 1.195387 .2528892 0.84 0.399 .7896474 1.809605 topbot | 1.233677 .0691999 3.74 0.000 1.105237 1.377042 educyrs | 1.09238 .0413867 2.33 0.020 1.014202 1.176584 age | 1.012774 .0056034 2.29 0.022 1.001851 1.023817 -------------------------------------------------------------------------------
Im Output 4.8 sind nun statt der Koeffzienten die Odds-Ratios abgetragen. Aus dem Output lässt sich nun folgern, dass der Effekt des Bildungsgrads auf die Wahrscheinlichkeit, zur Wahl zu gehen, etwas stärker ist als der Effekt des Alters. Oder inhaltlich interpretiert: Der Anstieg der Altersvariable um ein Jahr erhöht die Chance, zur Wahl zu gehen um das 1,01fache, während ein Anstieg der Bildungsvariable um eine Kategorie die Chance um den Faktor 1,09 ansteigen lässt – wenn die übrigen Variablen konstant gehalten werden. Wie verhält es sich mit der Variable, die das politische Interesse abbildet? Hier kann man aus dem Output zwar ablesen, dass die Chance zur Wahl zu gehen um den Faktor 0,46 sinkt bei Konstanz aller anderen Variablen. Allerdings ist es aufgrund der Begrenzung der Odds-Ratios bei negativen Koeffizienten auf den Wertebereich zwischen 0 und 1 nicht möglich, die Einflussstärke mit den anderen beiden Variablen zu vergleichen (s. o.). Aus diesem Grund sollte man
4.2 Anwendung
75
hierfür den Kehrwert bilden, in Stata mit dem Befehl listcoef, reverse.13 Aus der Tabelle (Output 4.9) lässt sich dann für die Variablen mit negativem unstandardisiertem Koeffizienten (Spalte b) die Stärke des Effekts über die Odds-Ratio (Spalte e^b) ablesen und mit den Odds-Ratios für die positiven Koeffizienten aus Output 4.8 vergleichen. Output 4.9: Regression mit Odds Ratios durch den Befehl listcoef, reverse . listcoef, reverse logit (N=1375): Factor Change in Odds Odds of: No vs Yes ---------------------------------------------------------------------VOTE_LE | b z P>|z| e^b e^bStdX SDofX -------------+-------------------------------------------------------polint | -0.76770 -7.811 0.000 2.1548 2.1744 1.0118 attdum1 | -0.85586 -1.457 0.145 2.3534 1.1051 0.1168 attdum2 | 1.49799 2.703 0.007 0.2236 0.6998 0.2382 attdum3 | 0.37701 1.068 0.286 0.6859 0.9039 0.2680 attdum4 | 1.04165 3.693 0.000 0.3529 0.6548 0.4065 attdum5 | 0.28106 1.386 0.166 0.7550 0.8795 0.4567 uniondum1 | 0.41943 1.334 0.182 0.6574 0.8725 0.3251 uniondum2 | 0.17847 0.844 0.399 0.8365 0.9238 0.4444 topbot | 0.21000 3.744 0.000 0.8106 0.7124 1.6146 educyrs | 0.08836 2.332 0.020 0.9154 0.7507 3.2454 age | 0.01269 2.294 0.022 0.9874 0.8104 16.5580 -----------------------------------------------------------------------
Durch diese Transformation wird deutlich, dass der Effekt des politischen Interesses (2,15) ungleich stärker ist als der Effekt von Bildungsgrad (1,09, vgl. Output 4.8) und Alter (1,01, vgl. Output 4.8). Den Koeffizienten 2,15 interpretiert man wie folgt: Steigt die Variable „politisches Interesse“ um eine Einheit an (d. h. das politische Interesse sinkt), so steigt die Chance, nicht zur Wahl zu gehen, um den Faktor 2,15 (entspricht: 1/0,46). Manche Forscher bevorzugen es, statt der Faktoren der Chance die prozentuale Veränderung der Chancen anzugeben. Diese lassen sich über listcoef, percent ebenfalls einfach berechnen – auch für die Kehrwerte (vgl. Output 4.10). Man interpretiert also: Geht man ein Jahr länger zur Schule (Anstieg der Variable educyrs um eine Einheit) steigen die Chancen zur Wahl zu gehen um 9,2 Prozent – unter Konstanthaltung aller anderen Variablen. Oder: Verändert man die Bildungsvariable um eine Standardabweichung, steigen die Chancen der Wahlbeteiligung um 33,2 Prozent.
13
Der Befehl listcoef an sich (ohne Option) zeigt nach einer Schätzung einer logistischen Regression in der Spalte e^b die Odds-Ratios für die Veränderung der jeweiligen Variable um eine Einheit an. Für die Veränderung der Variablen um eine Standardabweichung der Variablen ist die Spalte e^bStdX relevant. In der letzten Spalte steht die Standardabweichung der jeweiligen X-Variablen.
76
4 Logistische Regressionsanalyse
Output 4.10: Logistische Regression mit Odds Ratios durch den Befehl listcoef als Prozente . listcoef, percent logit (N=1375): Percentage Change in Odds Odds of: Yes vs No ---------------------------------------------------------------------VOTE_LE | b z P>|z| % %StdX SDofX -------------+-------------------------------------------------------polint | -0.76770 -7.811 0.000 -53.6 -54.0 1.0118 attdum1 | -0.85586 -1.457 0.145 -57.5 -9.5 0.1168 attdum2 | 1.49799 2.703 0.007 347.3 42.9 0.2382 attdum3 | 0.37701 1.068 0.286 45.8 10.6 0.2680 attdum4 | 1.04165 3.693 0.000 183.4 52.7 0.4065 attdum5 | 0.28106 1.386 0.166 32.5 13.7 0.4567 uniondum1 | 0.41943 1.334 0.182 52.1 14.6 0.3251 uniondum2 | 0.17847 0.844 0.399 19.5 8.3 0.4444 topbot | 0.21000 3.744 0.000 23.4 40.4 1.6146 educyrs | 0.08836 2.332 0.020 9.2 33.2 3.2454 age | 0.01269 2.294 0.022 1.3 23.4 16.5580 ---------------------------------------------------------------------. listcoef, percent reverse logit (N=1375): Percentage Change in Odds Odds of: No vs Yes ---------------------------------------------------------------------VOTE_LE | b z P>|z| % %StdX SDofX -------------+-------------------------------------------------------polint | -0.76770 -7.811 0.000 115.5 117.4 1.0118 attdum1 | -0.85586 -1.457 0.145 135.3 10.5 0.1168 attdum2 | 1.49799 2.703 0.007 -77.6 -30.0 0.2382 attdum3 | 0.37701 1.068 0.286 -31.4 -9.6 0.2680 attdum4 | 1.04165 3.693 0.000 -64.7 -34.5 0.4065 attdum5 | 0.28106 1.386 0.166 -24.5 -12.0 0.4567 uniondum1 | 0.41943 1.334 0.182 -34.3 -12.7 0.3251 uniondum2 | 0.17847 0.844 0.399 -16.3 -7.6 0.4444 topbot | 0.21000 3.744 0.000 -18.9 -28.8 1.6146 educyrs | 0.08836 2.332 0.020 -8.5 -24.9 3.2454 age | 0.01269 2.294 0.022 -1.3 -19.0 16.5580 -----------------------------------------------------------------------
Eine zweite, anschaulichere Möglichkeit, um die Zusammenhänge zwischen einzelnen UV und dem Outcome zu interpretieren, besteht darin, sich mittels der logistischen Regressionsfunktion die vorhergesagten Wahrscheinlichkeiten berechnen zu lassen. Hierzu wandelt man die Logits (also die Koeffizienten) einfach in Wahrscheinlichkeiten um (zu den theoretischen Zusammenhängen, s. o.). Wie in der linearen Regression wird hierzu nach der Schätzung der Postestimation-Befehl predict mit der Option ,pr verwendet, der eine neue Variable generiert, in der die vorhergesagten Wahrscheinlichkeiten abgetragen werden. Deren Verteilung kann man sich dann in einem zweiten Schritt anzeigen lassen (etwa in einem Histogramm (vgl. Abb. 4.5)) logit VOTE_LE polint attdum1-attdum5 uniondum1 uniondum2 topbot educyrs age predict prob, pr histogram prob, freq
4.2 Anwendung
Abb. 4.5:
77
Histogramm der vorhergesagten Wahrscheinlichkeiten
Wie unschwer zu erkennen ist, sagt die logistische Funktion sehr viel häufiger Wahlbeteiligung hervor als Nichtwahl. Dies deckt sich mit den Erkenntnissen aus der Klassifikationstabelle und auch mit der tatsächlichen empirischen Verteilung. Diese Darstellung sagt natürlich noch nichts über den Effekt einzelner UV auf die Wahrscheinlichkeit aus, zur Wahl zu gehen. Allerdings lässt sich dieser berechnen, indem man unterschiedliche Wertekombinationen für eine bestimmte Variable in die Funktion einsetzt. Dies lässt sich – analog zur linearen Regression – mit dem Befehl display bewerkstelligen (vgl. Kohler/Kreuter 2008: 276), oder einfacher mit prvalue. Dieser Befehl ermöglicht es, die Wahrscheinlichkeit für spezifische Werte der UV vorherzusagen. Am Beispiel des Bildungsgrads sei dies einmal nachvollzogen. Die Variable ist metrisch kodiert, da sie die Jahre der Bildung zählt, und läuft von 7 bis 18. Nun sollen für einige Ausprägungen die unterschiedlichen vorhergesagten Wahrscheinlichkeiten für eine Wahlbeteiligung dargestellt werden – wobei alle anderen Variablen bei ihrem Mittelwert konstant gehalten werden. Der Code und der Output für die erste und die letzte Kategorie der Bildungsvariablen (7 und 18 Jahre Bildung) lesen sich wie folgt, wobei wir die letzte Zeile des Outputs, in der die in die X-Variablen eingesetzten Werte dargestellt werden, aus Darstellungsgründen nicht übernommen haben: Output 4.11: Vorhergesagte Werte mit prvalue . prvalue, x(educyrs=7) rest(mean) logit: Predictions for VOTE_LE Confidence intervals by delta method
Pr(y=Yes|x): Pr(y=No|x):
0.8812 0.1188
95% Conf. Interval [ 0.8468, 0.9156] [ 0.0844, 0.1532]
. prvalue, x(educyrs=18) rest(mean) logit: Predictions for VOTE_LE Confidence intervals by delta method
Pr(y=Yes|x): Pr(y=No|x):
0.9515 0.0485
95% Conf. Interval [ 0.9234, 0.9795] [ 0.0205, 0.0766]
78
4 Logistische Regressionsanalyse
Vorhergesagte Wahrscheinlichkeit
Die entscheidenden Angaben des Outputs stehen in den eingerückten Zeilen – hier werden die vorhergesagten Wahrscheinlichkeiten angegeben. In der ersten Zeile steht die Wahrscheinlichkeit für die gewählte Wertekombination der X-Variablen den Output = 1 (Wahl) zu erhalten, in der zweiten Zeile die Gegenwahrscheinlichkeit. Zudem ist ein Konfidenzintervall angegeben, welches zu einer 95-prozentigen Wahrscheinlichkeit den wahren Wert enthält. Vergleicht man die Werte für die beiden Ausprägungen des Bildungsgrads zeigt sich, dass sich – wie erwartet – die Wahrscheinlichkeit einer Wahlbeteiligung mit steigendem Bildungsgrad erhöht (von 0,88 bei 7 Jahre Bildung auf 0,95 bei 18 Jahren Bildung). In einer linearen Regression wäre diese Information schon ausreichend, um eine Regressionsgerade zu zeichnen, da es sich um lineare Zusammenhänge handelt. Bei der logistischen Regression ist dies aber gerade nicht der Fall (s. o.), weshalb man für alle interessierenden Werte die korrespondierenden Wahrscheinlichkeiten berechnet und diese in einem zweiten Schritt grafisch (z. B. mit einem Punkt- oder Liniendiagramm in Excel, wie in Abb. 4.6) oder tabellarisch darstellt. Dabei zeigt sich im gewählten Beispiel zum einen, dass die Zunahme der Wahrscheinlichkeit immer geringer wird: Eine Veränderung der Bildungsvariable um eine Einheit vom Ausgangswert 7 steigert die Wahrscheinlichkeit noch von 0,88 auf 0,95, während eine Veränderung von Kategorie 17 nach Kategorie 18 die Wahrscheinlichkeit kaum mehr erhöht (0,004 Prozentpunkte). Je näher die Wahrscheinlichkeit dem Grenzwert 1 kommt, umso geringer müssen die Zuwächse ausfallen. Zum anderen zeigt die Grafik (erneut), dass aufgrund der Datenstruktur auch für Wähler aus der untersten Bildungskategorie eine vergleichsweise hohe Chance besteht, zur Wahl zu gehen. Der S-förmige Verlauf der Wahrscheinlichkeitsfunktion wird hier also gar nicht erreicht – vielmehr zeigt die Grafik nur den „oberen“ Ausschnitt zwischen 0,8 und 1,0 (s. y-Achse). 1
0,9
0,8 7
8
9
10
11
12
13
14
15
16
17
18
Bildungsgrad (in Jahren der Bildung) Vorhergesagte Wahrscheinlichkeit Abb. 4.6:
KI unten
KI oben
Vorhergesagte Wahrscheinlichkeiten grafisch
In diesem Zusammenhang sei mit prchange ein weiterer Stata-Befehl genannt, mit dem man sich die Veränderung der vorhergesagten Wahrscheinlichkeiten bei Variation einer XVariablen mit weniger Aufwand als bei prvalue ausgeben lassen kann. Interessiert man
4.2 Anwendung
79
sich etwa dafür, wie sich die Wahrscheinlichkeit der Wahlbeteiligung verändert, wenn eine Person 18 Jahre Bildung statt nur 7 Jahre Bildung genießt (und alle anderen Variablen konstant gehalten werden), so kann man natürlich mit prvalue die Werte anzeigen lassen und in einem zweiten Schritt die Veränderung ausrechnen. Schneller geht dies aber mit prchange. Output 4.12: Vorhergesagte Wahrscheinlichkeiten mit prchange . prchange, help logit: Changes in Probabilities for VOTE_LE min->max -0.2940 -0.0954 0.0717 0.0263 0.0658 0.0213 0.0293 0.0137 0.1588 0.0703 0.0743
polint attdum1 attdum2 attdum3 attdum4 attdum5 uniondum1 uniondum2 topbot educyrs age
Pr(y|x)
No 0.0870
0->1 -0.0111 -0.0954 0.0717 0.0263 0.0658 0.0213 0.0293 0.0137 0.0349 0.0138 0.0016
-+1/2 -0.0618 -0.0691 0.1246 0.0300 0.0847 0.0224 0.0334 0.0142 0.0167 0.0070 0.0010
-+sd/2 -0.0625 -0.0079 0.0284 0.0080 0.0338 0.0102 0.0108 0.0063 0.0270 0.0228 0.0167
MargEfct -0.0610 -0.0680 0.1190 0.0299 0.0827 0.0223 0.0333 0.0142 0.0167 0.0070 0.0010
Yes 0.9130
[…] Pr(y|x): probability of observing each y for specified x values Avg|Chg|: average of absolute value of the change across categories Min->Max: change in predicted probability as x changes from its minimum to its maximum 0->1: change in predicted probability as x changes from 0 to 1 -+1/2: change in predicted probability as x changes from 1/2 unit below base value to 1/2 unit above -+sd/2: change in predicted probability as x changes from 1/2 standard dev below base to 1/2 standard dev above MargEfct: the partial derivative of the predicted probability/rate with respect to a given independent variable
In der Tabelle in Output 4.12 ist standardmäßig angegeben, wie die Wahrscheinlichkeiten der Wiederwahl für bestimmte Veränderungen der jeweiligen X-Variable variieren (Erklärung s. Output) – etwa die Veränderung vom Minimum zum Maximum (Spalte 1). Eine weitere einfache Möglichkeit, um Tabellen mit vorhergesagten Wahrscheinlichkeiten zu erzeugen, bietet der Befehl prtab. Hierbei schreibt man die entsprechenden Variablen analog zur Syntax bei prvalue direkt hinter den Befehl und setzt die restlichen Variablen auf ihren Mittelwert (oder einen anderen sinnvollen Wert, etwa den Median) – Stata kalkuliert direkt eine Tabelle mit den vorhergesagten Wahrscheinlichkeiten. Ein nützlicher Zusatz dieser Variante liegt darin, dass die Darstellung auch für zwei Variablen gleichzeitig möglich ist. Im Beispielfall wird dies für die Kombination von Bildungsgrad und politisches Interesse (in Output 4.13 aus Darstellungsgründen ohne Wertelabels) deutlich.
80
4 Logistische Regressionsanalyse
Output 4.13: Vorhergesagte Werte mit prtab . prtab educyrs polint, rest(mean) nolabel logit: Predicted probabilities of positive outcome for VOTE_LE -------------------------------------------------R: | Education | I: years | of | Q10: How much interested in politics schooling | 1 2 3 4 5 ----------+--------------------------------------7 | 0.9707 0.9390 0.8771 0.7681 0.6059 8 | 0.9731 0.9438 0.8863 0.7835 0.6268 11 | 0.9793 0.9563 0.9104 0.8251 0.6865 13 | 0.9826 0.9632 0.9238 0.8492 0.7232 16 | 0.9866 0.9715 0.9405 0.8801 0.7730 18 | 0.9887 0.9760 0.9497 0.8975 0.8025 --------------------------------------------------
Die Matrix aus Output 4.13 ist ein schönes Beispiel dafür, wie die Einflüsse von Variablen in der logistischen Regression anschaulich interpretiert werden können. Liest man die Tabelle nach Spalten, zeigt sich der aus Abb. 4.6 bekannte positive Zusammenhang zwischen der Wahrscheinlichkeit der Wahlbeteiligung und dem Bildungsgrad. Liest man die Tabelle nach Zeilen, zeigt sich der starke (und nichtlineare) Effekt des politischen Interesses: Ein Anstieg des politischen Interesses von 5 auf 4 („not at all interested“ zu „not very interested“) erhöht die Wahrscheinlichkeit der Wahlbeteiligung in der niedrigsten Bildungskategorie um 16 Prozentpunkte, während ein Anstieg des Interesses von 2 auf 1 in der gleichen Bildungskategorie nur noch eine Veränderung von 3 Prozentpunkten bedeutet. Erneut würde sich zur anschaulichen Darstellung der Effekte eine Grafik eignen. Mit viel Aufwand könnte man sich freilich für alle 30 Variablenkombinationen die Werte berechnen (sowie die Konfidenzintervalle mit prvalue) und entsprechend grafisch darstellen (etwa mit Excel, vgl. Abb. 4.6). Allerdings bietet Stata auch für die Erstellung der Grafiken mit vorhergesagten Wahrscheinlichkeiten eine elegante Abkürzung (die zudem Übertragungsfehler ausschließt): den Befehl prgen. Dieses Kommando generiert neue Variablen, die die vorhergesagten Wahrscheinlichkeiten der gewählten Kombinationen von X-Variablen (mit entsprechenden gewählten Werten) aufnehmen, und anschließend in einer Grafik dargestellt werden können. Im Prinzip macht prgen damit nichts anderes, als die oben mit prtab erzeugten Werte in einzelne Variablen zu überführen. Zur grafischen Darstellung des Output 4.13 würde man im ersten Schritt die neuen Variablen int1 bis int5 erzeugen. Diese Variablen beinhalten die vorhergesagten Wahrscheinlichkeiten für die 12 Bildungskategorien kombiniert mit den 5 unterschiedlichen Ausprägungen von politischem Interesse (int1 – sehr interessiert; int5 – überhaupt nicht interessiert), wobei die restlichen Variablen in der Gleichung am Mittelwert gehalten werden. Die Abkürzung n(12) nimmt die Zahl der Ausprägungen der Bildungsvariable auf, für die die Wahrscheinlichkeiten berechnet werden sollen.14
14
Der Befehl prgen hat noch weitere Optionen, wobei insbesondere die Erstellung von Konfidenzintervallen zu den Punktschätzern mithilfe des Zusatzes ci in der Anwendung eine wichtige Funktionalität ist.
4.2 Anwendung prgen educyrs, from(7) to(18) generate (int1) > rest(mean) n(12) label var int1p1 "very interested" prgen educyrs, from(7) to(18) generate (int2) > rest(mean) n(12) label var int2p1 "fairly interested" prgen educyrs, from(7) to(18) generate (int3) > rest(mean) n(12) label var int3p1 "somewhat interested" prgen educyrs, from(7) to(18) generate (int4) > rest(mean) n(12) label var int4p1 "not very interested" prgen educyrs, from(7) to(18) generate (int5) > rest(mean) n(12) label var int5p1 "not at all interested"
81 x(polint=1)
x(polint=2)
x(polint=3)
x(polint=4)
x(polint=5)
Im zweiten Schritt erstellt man mit Stata eine Liniengrafik mit fünf Linien (vgl. Abb. 4.7) mithilfe des Befehls graph twoway connected. Der Befehl greift dabei auf die neu generierten Y-Variablen (int1p1 bis int5p1) zurück, welche die vorhergesagten Wahrscheinlichkeiten beinhalten, sowie auf die X-Variable int5x, welche von 7–12 läuft. graph twoway connected int1p1 int2p1 int3p1 int4p1 int5p1 int5x, > ytitle("Wahrsch Wahlbeteiligung") xtitle("Bildungsgrad") > xlabel(1(1)8)
Abb. 4.7:
Vorhergesagte Wahrscheinlichkeiten mit prgen
Abb. 4.7 stellt nun auf sehr anschauliche Weise dar, wie sich die vorhergesagten Wahrscheinlichkeiten der Wahlbeteiligung in Abhängigkeit des Bildungsgrads und des politischen Interesses verändern. Bei hohem politischem Interesse hat der Bildungsgrad kaum Einfluss, bei niedrigem Interesse hingegen einen starken Einfluss (dies ist ein Interaktionseffekt, vgl. Kapitel 3). Mit den bisher gezeigten Varianten ist bereits eine sehr anschauliche Interpretation des Einflusses der erklärenden Variablen auf den Outcome (Wahlbeteiligung) möglich. Man kann sich Wahrscheinlichkeitsverläufe über die Ausprägungen der UV in Tabellenform ausgeben
82
4 Logistische Regressionsanalyse
lassen, diese in Grafiken veranschaulichen oder mithilfe der Odds-Ratio die Einflussstärken interpretieren. Wie in der linearen Regression ist die Stärke der Zusammenhänge jedoch nur eine Seite der Medaille, wenn Koeffizienten interpretiert werden. Daneben sind auch die Signifikanzen relevant – insbesondere, wenn es sich beim Sample um eine Zufallsauswahl handelt (wie im Beispiel zur Wahlbeteiligung). Der nächste Abschnitt diskutiert daher unterschiedliche Möglichkeiten, um die Signifikanz des Einflusses einer UV auf den Outcome darzustellen.15 Signifikanztests für den Einfluss der unabhängigen Variablen Die direkteste Möglichkeit, um die Signifikanz des Einflusses einzelner UV zu bewerten, ist der Blick auf den Modell-Output in Stata. In Output 4.14 wird zu jedem Koeffizienten einer Variable ein Standardfehler, ein z-Wert, ein Konfidenzintervall und das Ergebnis eines Hypothesentests angegeben. Hierbei handelt es sich um den Wald-Test, der den quadrierten z-Wert einem Chi²-Test unterzieht und die Hypothese testet, dass der Koeffizient der jeweiligen UV in der Grundgesamtheit gleich null ist. Für den Nachweis eines Zusammenhangs müsste diese Hypothese also abzulehnen sein, worauf die Signifikanz auch hinweist. Daneben deckt das Konfidenzintervall mit 95-prozentiger Wahrscheinlichkeit den wahren Wert ab. Im Beispiel sind fünf der inkludierten Variablen laut Wald-Test signifikant: das politische Interesse, die Selbsteinstufung hinsichtlich der Schichtzugehörigkeit, die Bildungsvariable und das Alter. Daneben sind zwei der Dummies für die Kirchgangshäufigkeit signifikant: Menschen, die angeben einmal in der Woche (Dummy 2) bzw. mehrmals im Jahr (Dummy 4) die Kirche zu besuchen, gehen signifikant häufiger zur Wahl als Menschen, die angeben, nie in die Kirche zu gehen (Referenzkategorie). Die Gewerkschaftsmitgliedschaft scheint hingegen keinen signifikanten Einfluss auf die Wahlbeteiligung zu haben. Eine alternative Kalkulationsmöglichkeit des Wald-Tests besteht über den PostestimationBefehl test (unterer Teil des Output). Für die erste Variable polint wird hier der quadrierte z-Wert kalkuliert (7,93² = 62,9) und erneut die Teststatistik ausgegeben. Dieser Befehl ermöglicht es auch zu testen, ob zwei Variablen gemeinsam einen von Null unterschiedlichen Einfluss haben (s. Do-File). Die zweite Möglichkeit, um die Signifikanz der Koeffizienten zu testen, besteht über den LR-Test. Dieser vergleicht zwei geschachtelte Modelle und berechnet, ob ein Modell signifikant besser oder schlechter als ein anderes Modell abschneidet. Wenn man entsprechend Modelle um jeweils eine Variable erweitert (oder verkleinert) kann man die Signifikanz des Einflusses einzelner Variablen abschätzen. Alternativ besteht die Möglichkeit, ein Modell gleich um mehrere Variablen zu reduzieren und dann erneut gegen das umfangreichere Modell zu testen. Einen LR-Test erhält man in Stata über den Befehl lrtest, nach dem dann die zwei zu vergleichenden Modelle stehen. Daher muss man zuvor zwei Modelle berechnen und mit dem Kommando estimates store die geschätzten Parameter speichern (vgl. Output 4.15). Wichtig: Beide Modelle müssen (1) ineinander verschachtelt sein und (2) die gleiche Zahl von Fällen aufweisen. Um dies zu gewährleisten, kann man etwa im sparsameren Modell diejenige Variable als Bedingung hinzufügen, die im zweiten Schritt hinzugefügt werden soll (vgl. Output 4.15: hier wurde als if-Bedingung gesetzt, dass polint keine fehlenden Werte aufweisen darf). 15
In Abb. 4.6 wurden Konfidenzintervalle bereits gezeichnet, ohne jedoch genauer auf die Interpretation einzugehen.
4.2 Anwendung
83
Output 4.14: Signifikanz der Koeffizienten im Standard-Logit-Befehl (Wald-Test) . logit VOTE_LE polint attdum1-attdum5 uniondum1 uniondum2 topbot educyrs age Iteration Iteration Iteration Iteration Iteration Iteration
0: 1: 2: 3: 4: 5:
log log log log log log
likelihood likelihood likelihood likelihood likelihood likelihood
= = = = = =
-537.42605 -457.9606 -446.35013 -446.2257 -446.22554 -446.22554
Logistic regression
Log likelihood = -446.22554
Number of obs LR chi2(11) Prob > chi2 Pseudo R2
= = = =
1375 182.40 0.0000 0.1697
-----------------------------------------------------------------------------VOTE_LE | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------polint | -.7677003 .0982819 -7.81 0.000 -.9603292 -.5750713 attdum1 | -.8558594 .5875115 -1.46 0.145 -2.007361 .2956419 attdum2 | 1.497994 .5541971 2.70 0.007 .4117873 2.5842 attdum3 | .3770125 .3531204 1.07 0.286 -.3150907 1.069116 attdum4 | 1.041646 .2820305 3.69 0.000 .4888768 1.594416 attdum5 | .2810553 .2027108 1.39 0.166 -.1162507 .6783612 uniondum1 | .4194295 .3143 1.33 0.182 -.1965871 1.035446 uniondum2 | .1784699 .2115543 0.84 0.399 -.2361688 .5931087 topbot | .2099988 .0560924 3.74 0.000 .1000597 .319938 educyrs | .0883587 .0378867 2.33 0.020 .0141021 .1626152 age | .0126934 .0055328 2.29 0.022 .0018493 .0235374 _cons | 1.359509 .7082142 1.92 0.055 -.0285652 2.747584 ------------------------------------------------------------------------------. test polint ( 1)
[VOTE_LE]polint = 0 chi2( 1) = Prob > chi2 =
61.01 0.0000
Output 4.15: Likelihood-Ratio-Test auf Signifikanz einer Variable logit VOTE_LE attdum1-attdum5 uniondum1 uniondum2 topbot educyrs age if polint !=. (Schätzung hier nicht dargestellt) estimates store mod1 logit VOTE_LE polint attdum1-attdum5 uniondum1 uniondum2 topbot educyrs age (Schätzung hier nicht dargestellt) estimates store mod2 . lrtest mod1 mod2 Likelihood-ratio test (Assumption: mod1 nested in mod2)
LR chi2(1) = Prob > chi2 =
68.65 0.0000
Der LR-Test fällt eindeutig aus: Die Variable für politisches Interesse ist wie erwartet signifikant. Analog könnte man nun alle anderen Variablen einzeln ausschließen, oder aber mehrere Variablen gemeinsam aus dem vollen Modell entfernen und ihre Signifikanz entsprechend gemeinsam bewerten.
84
4 Logistische Regressionsanalyse
Da die Kalkulation mehrerer LR-Tests von Hand bei vielen Variablen etwas aufwändiger sein kann, gibt es in Stata eine Abkürzung über den Befehl lrdrop1.16 Das Kommando schreibt man direkt nach der Schätzung des vollen Modells und es berechnet dann die LR-Tests jeweils für den Fall, dass eine Variable aus dem vollen Modell ausgeschlossen wird. Output 4.16: Likelihood-Ratio-Tests mit lrdrop1 lrdrop1 Likelihood Ratio Tests: drop 1 term logit regression number of obs = 1375 -----------------------------------------------------------------------VOTE_LE Df Chi2 P>Chi2 -2*log ll Res. Df AIC -----------------------------------------------------------------------Original Model 892.45 1363 916.45 -polint 1 68.65 0.0000 961.10 1362 983.10 -attdum1 1 1.93 0.1650 894.38 1362 916.38 -attdum2 1 10.00 0.0016 902.45 1362 924.45 -attdum3 1 1.20 0.2730 893.65 1362 915.65 -attdum4 1 15.46 0.0001 907.91 1362 929.91 -attdum5 1 1.94 0.1638 894.39 1362 916.39 -uniondum1 1 1.91 0.1672 894.36 1362 916.36 -uniondum2 1 0.72 0.3963 893.17 1362 915.17 -topbot 1 14.12 0.0002 906.57 1362 928.57 -educyrs 1 5.88 0.0153 898.33 1362 920.33 -age 1 5.33 0.0210 897.78 1362 919.78 -----------------------------------------------------------------------Terms dropped one at a time in turn.
Der Output 4.16 zeigt das bekannte Bild hinsichtlich der Signifikanzen der Variablen. Das Beispiel steht damit stellvertretend für den allgemeinen Befund, dass Wald-Tests und LRTests erfahrungsgemäß in den meisten Fällen zu einem sehr ähnlichen Ergebnis kommen. Insbesondere bei kleinen Samples können jedoch auch leichte Unterschiede auftreten (Long 1997: 97). Hier dürfte es in der Praxis sinnvoll sein, beide Testergebnisse zu berichten.
4.2.3
Regressionsdiagnostik
Wie im linearen Fall so ist auch bei der logistischen Regressionsanalyse eine Überprüfung der Modellannahmen ein wichtiger Bestandteil der Untersuchung. Drei Punkte sind hier besonders relevant: Zum einen die Frage, ob der lineare Zusammenhang zwischen den Logits und jeder UV auch tatsächlich besteht, oder ob das Modell falsch spezifiziert ist. Zum zweiten die Prüfung, ob bestimmte (Ausreißer-)Fälle die Regressionsschätzung über Gebühr beeinflussen. Und zum dritten die Frage, ob die UV (zu) hoch korreliert sind (Multikollinearität). Überprüfung der Spezifikation Für die Untersuchung des funktionalen Zusammenhangs zwischen UV und AV bietet es sich bei der linearen Regression an, bivariate Scatterplots bzw. eine Scatterplotmatrix zu erstellen. Im Fall einer logistischen Regression ist dies freilich nicht einfach zu bewerkstelligen, weil schließlich ein logistischer Zusammenhang zugrunde liegt: Statt eines linearen Zusammen16
Diesen Befehl muss man sich zunächst aus dem Netz herunterladen und installieren, etwa mit findit lrdrop1.
4.2 Anwendung
85
hangs ist ein S-förmigen Zusammenhang zwischen den UV und der Wahrscheinlichkeit des Outcomes zu erwarten. Allerdings kann die Annahme eines linearen Zusammenhangs zwischen den UV und den Logit-Werten getestet werden. Es gibt mehrere Möglichkeiten, die Zusammenhänge zwischen den UV und den Wahrscheinlichkeiten zu testen. Der einfachste Weg besteht darin, mit Stata einen sogenannten linktest durchzuführen. Das Kommando generiert zwei Variablen: die lineare Vorhersage der linear kombinierten Prädiktoren (hat) und das Quadrat dieser Prädiktoren (hatsq). Wenn das Modell korrekt spezifiziert ist, dann sollte hierbei die hat-Variable (also die Vorhersage der Linearkombination der UV) hochsignifikant ausfallen – was auch der Fall ist. Allerdings sollte gleichzeitig das Quadrat der Prädiktoren nicht oder kaum signifikant mit dem Outcome assoziiert sein – dies trifft auf das geschätzte Modell ebenfalls zu, wenn auch das 90 %-Niveau fast erreicht wird (vgl. Output 4.17).17 Das geschätzte Modell ist also noch nicht optimal spezifiziert, was angesichts der ad hoc Auswahl der Variablen jedoch nicht besonders verwundert. Output 4.17: Linearitäts-Test mit linktest . linktest Iteration Iteration Iteration Iteration Iteration Iteration
0: 1: 2: 3: 4: 5:
log log log log log log
likelihood likelihood likelihood likelihood likelihood likelihood
= = = = = =
Logistic regression
Log likelihood =
-445.1637
-537.42605 -468.09443 -446.47146 -445.17247 -445.1637 -445.1637 Number of obs LR chi2(2) Prob > chi2 Pseudo R2
= = = =
1375 184.52 0.0000 0.1717
-----------------------------------------------------------------------------VOTE_LE | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_hat | 1.261588 .1986836 6.35 0.000 .8721749 1.651 _hatsq | -.0801549 .053356 -1.50 0.133 -.1847307 .0244209 _cons | -.1241281 .1794447 -0.69 0.489 -.4758332 .227577 ------------------------------------------------------------------------------
Eine weitere Möglichkeit, die Linearitätsannahme zwischen einzelnen UV und den LogitWerten zu prüfen, besteht in der grafischen Untersuchung eines „Lowes- Smoothers“, der mit dem Befehl lowess in Stata erstellt werden kann.18 Dabei stellt man mit dem Befehl lowess VOTE_LE topbot, xlabel (1(1)10) ylabel(0(.2)1)
in der Grafik den funktionalen Zusammenhang zwischen einer UV und der Wahrscheinlichkeit auf den Outcome dar – im Beispiel also zwischen der Schicht-Selbsteinstufung der Personen und der Wahlbeteiligung (vgl. Abb. 4.8). In der Grafik ist zwar augenscheinlich kein klarer S-förmiger Verlauf zu erkennen. Der obere Bereich einer Wahrscheinlichkeitsfunktion wird jedoch vergleichsweise gut abgebildet. Es zeigt sich in der Grafik erneut, dass die Gruppe der Nichtwähler in der Umfrage vergleichsweise klein ist (daher beginnt die Linie auch in der untersten Schicht-Gruppe noch in der 17 18
Ausführlicher bei Pregibon (1980). Ausführlich hierzu Cleveland (1994).
86
4 Logistische Regressionsanalyse
oberen Hälfte, also bei einem Wert über 0,5). Dennoch scheint zumindest für die Schichtvariable ein logistischer Verlauf der Funktion nicht ganz abwegig zu sein. Sollten für eine Variable klar nicht-logistische (bspw. u-förmige) Zusammenhänge auftreten, gilt es freilich über die korrekte Spezifikation nachzudenken. Bei einer u-Form wäre beispielsweise die Aufnahme der Variable in quadrierter Form eine naheliegende Lösung.
R: Vote last election: yes, no
Lowess smoother
1
2
3
4 5 6 7 8 R:Top Bottom self-placement 10 pt scale
9
10
bandwidth = .5
Abb. 4.8:
Lowess Smoother für Schichteinstufung
Überprüfung einflussreicher Fälle Neben der Frage der korrekten Spezifikation der Funktion sollte jede logistische Regressionsschätzung darauf überprüft werden, ob sie stark von bestimmten Fällen beeinflusst wird. Ebenso wie in der linearen Regression (vgl. Kapitel 2) gibt es auch in der logistischen Regression unterschiedliche Maßzahlen hierfür. Eine erste Möglichkeit sind die sogenannten „Cook’s Distanzen“, die in Stata mit dem Befehl predict cooksd, dbeta scatter cooksd V2
berechnet und über ein Scatterplot (zweite Zeile) oder tabellarisch (etwa über das listKommando) grafisch veranschaulicht werden können (vgl. Abb. 4.9).
87
0
.05
Pregibon's dbeta .1
.15
.2
4.2 Anwendung
0
Abb. 4.9:
50000 100000 Respondent ID Number
150000
Cook’s Distanzen
Alternative Werte für einflussreiche Variablen sind die quadrierten Pearson-Residuen, die man über predict persres2, dx2
berechnet. Hosmer und Lemeshow (2000: 163) sehen einen Wert von mehr als 4 als problematisch an – es bietet sich daher an, entweder grafisch oder tabellarisch diese einflussreichen Fälle zu identifizieren. Eine weitere Variante sind die „Leverage“-Werte, die man ebenfalls über das predict-Kommando und die Option ,hat erhält (ausführlich hierzu in Kohler/Kreuter 2008: 287–291). Anstatt mit Daumenregeln für „gefährliche“ Werte bei einflussreichen Fällen zu arbeiten, bietet es sich in der Forschungspraxis an, schlicht unterschiedliche Werte zu berechnen und die einflussreichen Fälle zu notieren. Erfahrungsgemäß finden sich auf diese Weise schnell diejenigen „Kandidaten“ unter den Beobachtungen, welche die Regressionsschätzung unter Umständen stark beeinflussen. Eine einfache Möglichkeit, um das tatsächliche Ausmaß des Einflusses einer bestimmten Beobachtung zu bewerten, besteht dann darin, die Regression nochmals ohne diese Beobachtung zu schätzen und die geschätzten Parameter der beiden Modelle zu vergleichen. Weichen diese stark voneinander ab (z. B. hinsichtlich Effektstärke, Signifikanz oder sogar Vorzeichen), liegt eine problematische Beeinflussung durch den gewählten Fall vor. Multikollinearität Wie in der linearen Regression kann auch in der logistischen Regression eine starke Multikollinearität zwischen den UV auftreten. Hinweise darauf lassen sich ganz simpel durch die Berechnung einer Korrelationsmatrix zwischen den UV über den Befehl correl finden. Im Beispiel zur Wahlbeteiligung liegen die Korrelationen durchweg niedriger als 0,4 – insofern besteht höchstwahrscheinlich kein Problem. Alternativ kann man freilich auch eine einfache OLS-Regression statt der logistischen Regression berechnen und dann mit dem VIF-Wert
88
4 Logistische Regressionsanalyse
eine weitere Statistik zur Multikollinearität interpretieren (vgl. Kapitel 2). Auch hier zeigen sich im Beispiel keine hohen Werte (s. Do-File).19
4.3
Zusammenfassung
Warum gehen Menschen in Deutschland zur Wahl? Um diese Forschungsfrage statistisch untersuchen zu können, würde eine Wahlforscherin auf eine logistische Regressionsanalyse zurückgreifen. Nur so kann sie den Einfluss von UVs wie Alter, Bildung oder politisches Interesse auf die Wahrscheinlichkeit der Wahlbeteiligung analysieren. Die Berechnung einer logistischen Regression in Stata ist, wie die vorangehenden Ausführungen gezeigt haben, kein allzu kompliziertes Verfahren; die Interpretation der Ergebnisse ist jedoch ohne Kenntnis der Mechanismen, die einer logistischen Regression zugrunde liegen, nicht möglich. Die größte Schwierigkeit besteht darin, die Koeffizienten sinnvoll zu interpretieren. Hier liegt auch der gravierendste Unterschied zur linearen Regression. Denn besonders anschaulich sind die Logits nicht, die linear durch die UV vorhergesagt werden: Nur die wenigsten Politikwissenschaftler werden mit der Schätzung logarithmierter Chancen und dem Einfluss der UV auf diese sinnvoll arbeiten können bzw. diese direkt zu interpretieren verstehen. Aus diesem Grund hat dieses Kapitel am konkreten Beispiel der Wahlbeteiligung vielfältige Möglichkeiten aufgezeigt, wie die Effekte von UVs (Alter, Bildungsgrad, politisches Interesse) auf die Wahlbeteiligung dargestellt und interpretiert werden können. Besonders anschaulich ist dabei die Illustration über vorhergesagte Wahrscheinlichkeiten, wobei jedoch hierbei der zugrundeliegende nicht-lineare Zusammenhang beachtet werden muss. Gütemaße und Ausreißerdiagnostik bei der logistischen Regression sind zwar der linearen Regression nachempfunden – auch hier sind jedoch Besonderheiten zu beachten. Insbesondere die Aussagekraft der unterschiedlichen Pseudo-R²-Maße ist trotz der sprachlichen Analogie nicht so intuitiv wie die des Bestimmtheitsmaßes R2 in einer OLS. Abschließend bleibt anzumerken, dass für einige Forschungsfragen der Politischen Wissenschaft die Voraussetzungen für die Anwendung der logistischen Regression nur schwierig zu erreichen sind, da schlicht die Zahl der Fälle nicht ausreicht. Dies gilt im Besonderen für Fragestellungen der ländervergleichenden Policy-Forschung. Zwar bietet die logistische Regression für Paneldaten einen möglichen Ausweg, wenn man über Zeit und Raum „poolen“ kann. Allerdings treten dann (wie im Falle der linearen Regression) durch die temporale Struktur der Daten wieder neue Probleme auf (etwa serielle Korrelation oder die Frage der Heterogenität der Einheiten).20
19 20
Eine weitere Alternative ist der Befehl collin, der unterschiedliche Kollinearitätsmaße berechnet. Er muss jedoch erst in Stata installiert werden (findit collin). Hierzu auch Kapitel 6 in diesem Buch sowie die Texte von Beck et al. (Beck/Katz 2001; Beck et al. 1998).
4.4 Schrittweises Vorgehen
4.4
89
Schrittweises Vorgehen
1.
Theoretische Modellierung des Zusammenhangs und Deskription der Daten (UV und AV); ggf. Bereinigung des Datensatzes und Umkodierung.
2.
Berechnung einfacher bivariater Zusammenhangsmaße; Prüfung des Zusammenhangs zwischen den UVs und der AV (bspw. über lowess).
3.
Logistische Regressionsanalyse. a)
Interpretation der Koeffizienten über Odds-Ratios und/oder vorhergesagte Wahrscheinlichkeiten.
b) Betrachtung unterschiedlicher Maße der Anpassungsgüte; Modellvergleiche. 4.
Regressionsdiagnostik, insbes. Ausreißer und einflussreiche Fälle.
5
Mehrebenenanalyse
5.1
Grundlagen
Generell eignen sich Mehrebenenmodelle, wenn Daten in einer hierarchischen Struktur vorliegen, wie sie beispielsweise durch eine mehrstufige Zufallsauswahl generiert werden. Das bedeutet, dass sich alle zu untersuchenden Einheiten auf der untersten Ebene eindeutig jeweils einer einzigen Aggregateinheit auf höherer Ebene zuordnen lassen müssen, wodurch eine ineinander verschachtelte Baumstruktur entsteht. Die AV liegt bei einer Mehrebenenanalyse (MEA) immer auf der untersten Ebene (auch bezeichnet als Level-1, Mikro- oder Individualebene), die erklärenden Variablen können dagegen sowohl auf Ebene-1 wie auch auf höheren Aggregatebenen (Level-2 oder Makroebenen) angesiedelt sein. Das klassische Beispiel aus der pädagogischen Forschung, in der Mehrebenenmodelle bereits eine vergleichsweise lange Tradition haben, sind Leistungsstudien von Schülern. Hierbei wird angenommen, dass die Leistung eines Schülers nicht ausschließlich durch dessen Persönlichkeitsmerkmale determiniert wird, sondern dass auch Effekte vorliegen, die eine gesamte Schulklasse in gleichem Maße betreffen, beispielsweise die Qualität des Klassenlehrers. Im Hinblick auf die grundlegende Datenstruktur ähnliche Fragestellungen finden sich auch in der Politikwissenschaft. So lässt sich in der politisch-soziologischen Einstellungsforschung häufig davon ausgehen, dass Einstellungen von Personen nicht ausschließlich durch Charakteristika des Individuums, sondern auch durch übergeordnete Aggregatmerkmale geprägt sind. Eine Person wird also durch gewisse Sozialisationseffekte beeinflusst, die nicht nur sie, sondern auch ihre Mitmenschen um sie herum erleben. So kann sich z. B. eine nationalstaatliche Kultur auf die Einstellungen eines Individuums auswirken. Die betrachteten Ebene-1-Einheiten müssen trotz der Bezeichnung Individualebene nicht zwangsläufig Individuen im Sinne von einzelnen Personen sein, sondern sie können auch selbst Aggregatniveau besitzen. Für ein Mehrebenenmodell ist einzig relevant, dass es noch mindestens eine höhere Ebene gibt, in die sie sich einordnen lassen. Beispielsweise könnten die Kommunen in Deutschland auf diese Weise als Individuen begriffen werden, welche sich in die 41 Regierungsbezirke auf Aggregatebene einsortieren lassen.1 Generell lassen sich beliebig viele Ebenen im Rahmen einer MEA modellieren, sofern eine klare hierarchische Struktur gegeben ist. Wir werden uns im Folgenden jedoch auf den einfachsten Fall einer Zwei-Ebenen-Analyse konzentrieren. Dessen grundlegende Logik lässt sich dann problemlos auf Drei- oder noch mehr Ebenen übertragen (s. Hox 2010: 32–36; Snijders/Bosker 2012: 67–71).
1
MEA können damit auch als eine Möglichkeit gesehen werden, Galtons Problem anzugehen. Dieses Problem geht darauf zurück, dass gerade in Zeiten der Globalisierung nicht mehr nur die in einem Fall inhärenten Charakteristika die Varianz zwischen den Fällen erklären, sondern auch grenzüberschreitende Diffusionsprozesse stattfinden, die gewissermaßen von außen auf politische Einheiten wirken. Spezifika des Regierungsbezirks könnten beispielsweise kommunale Policies beeinflussen. Mit einer MEA ließe sich dieser Effekt modellieren.
92
5 Mehrebenenanalyse
Beispielhafte Forschungsfrage: Welche Faktoren beeinflussen die Einstellungen zur Atomenergie? Atomenergie stellt nicht erst seit der Katastrophe von Fukushima ein politisch stark umstrittenes Thema dar. Ein Forscher möchte untersuchen, welche Faktoren die Einstellung der Bevölkerung zur Atomkraft bedingen. Um zu möglichst aussagekräftigen Ergebnissen zu gelangen, basiert er seine Analyse nicht nur auf Daten zu einem Land, sondern er nimmt sämtliche EU-Länder (zum einem Zeitpunkt) vergleichend in den Blick. Datenquelle: Eurobarometer: Attitudes Towards Radioactive Waste, 2008 Datenbasis: 25.940 Fälle (knapp 1.000 in jedem EU-Land) Ebene 1: Individuum/Befragter Ebene 2: 27 EU-Nationalstaaten Abhängige Variable (AV): Einstellung einer Person zum Thema Atomenergie, operationalisiert als einfacher additiver Index, der die Zustimmung zu drei häufig anzutreffenden positiven Aussagen zum Nutzen der Atomenergie wiedergibt (u. a. „nuclear energy diversifies our energy sources“; Skala 0–100; hohe Werte indizieren Ablehnung der Atomenergie; vgl. Jäckle/Bauschke 2012). Unabhängige Variablen (UV): Individuelle Charakteristika des Befragten (Level-1); sozialisierende Faktoren auf Ebene des Nationalstaats (Level-2) Ziel der Analyse: Untersuchung der Frage, wie sich die individuelle Einstellung zum Thema Atomenergie erklären lässt. Anforderungen an die Datenstruktur: AV muss zumindest als quasi-metrisch interpretierbar sein und auf der Individualebene liegen. Alle Fälle müssen sich eindeutig einer (und nur einer!) höheren Aggregateinheit (hier Nationalstaaten) zuordnen lassen, d. h. es ist eine hierarchische Struktur der Daten nötig. UV können sowohl auf der Mikro- wie auf der Makroebene liegen. Um ein Verständnis dafür zu entwickeln, welche Kausalzusammenhänge überhaupt mittels einer Mehrebenenregression modellierbar sind, bietet es sich zunächst an, sich alle potentiell möglichen Effekte zu vergegenwärtigen, die auf bzw. zwischen Individual- und Aggregatebene vorkommen können. Die folgenden Schaubilder stellen diese schematisch in Anlehnung an Snijders und Bosker (2012) dar – Großbuchstaben stehen dabei für Aggregatmerkmale, Kleinbuchstaben für Individualmerkmale. Die ersten beiden Abbildungen (Abb. 5.1a und Abb. 5.1b) zeigen reine Mikro- bzw. MakroZusammenhänge. Bei ersterem spielt die Makro-Ebene nur über die Auswahl der Stichprobe mit in die Analyse hinein (Abb. 5.1a). Wählt man beispielsweise mittels einer Zufallsauswahl 10 europäische Länder aus, in denen man dann auf Basis von Umfragedaten den Effekt des Alters (x) auf die Einstellung zur Atomenergie (y) untersucht, so erhält man unverzerrte Ergebnisse, wenn sich der Effekt, den das Alter ausübt, nicht zwischen den einzelnen Ländern unterscheidet. Wenn dem jedoch nicht so ist, würde eine reine Mikro-Modellierung immer ein gewisses Maß an unerklärter Varianz mit sich bringen, die sich nur mit einem Mehrebenendesign adäquat erfassen lässt: Denn selbst wenn kein erklärender Faktor auf der Makroebene in das Modell eingeht, kann dieses Modell eine hierarchische Datenstruktur und damit verbundene systematische Unterschiede zwischen den Makro-Einheiten sowie den Varianzen
5.1 Grundlagen
93
darin berücksichtigen. Bei Zusammenhängen auf der Makro-Ebene (Abb. 5.1b) liegt an sich kein Mehrebenendesign vor: Hier ist es möglich, wenn es sich bei Z und Y um zwei wirkliche Aggregatmerkmale handelt, Aussagen auf Basis einer einfachen Zufallsauswahl aus den Aggregateinheiten zu treffen. Werden die betrachteten Merkmale aber auf der Mikroebene beobachtet und erst durch Aggregation in Aggregatmerkmale umgewandelt, dann gilt es zu beachten, dass es sich bei der zu analysierenden Stichprobe eigentlich um das Produkt einer mehrstufigen Zufallsauswahl handelt. Abb. 5.1c stellt einen Effekt der Mikro- auf die Makroebene dar. Ein solcher Effekt, bei dem die AV auf der höheren Ebene liegt, lässt sich mit einem Mehrebenendesign nicht testen. a) Mikro-Ebenen-Zusammenhang
b) Makro-Ebenen-Zusammenhang
Z
x
Y
Z
e) Makro-Mikro-Zusammenhang mit weiterer Mikro-Variable
Z
y
Z
x
y
d) Makro-Mikro-Zusammenhang
c) Mikro-Makro-Zusammenhang
x
f) Cross-Level-Interaktion
Z
y
x
y
Abb. 5.1a–f: Zusammenhänge zwischen Mikro- und Makro-Ebene
Anders dagegen die drei folgenden Schaubilder, die allesamt klassische Anwendungsfelder der Mehrebenenregression darstellen. Beim einfachsten Fall eines Makro-MikroZusammenhangs (Abb. 5.1d) wirkt sich eine Variable auf der Aggregatebene auf eine AV auf Individualebene aus. Beispielsweise lässt sich so testen, ob die Einstellung einer Person gegenüber Atomenergie (y) davon abhängt, inwieweit die nationale Gesellschaft, der die betreffende Person angehört, durch grüne Parteien geprägt ist (Z). Zusätzlich zu dem direkten Effekt der Makro-Ebene können auch weitere direkte Individualeffekte (x) hinzukommen – z. B. das Alter oder das Geschlecht der Person (Abb. 5.1e). Variablen können aber auch einen indirekten, d. h. konditionierenden Einfluss ausüben und zwar dann, wenn sie den Effekt beeinflussen, den eine weitere, auf einer anderen Ebene angesiedelte Variable ausübt. Dies bezeichnet man als Cross-Level-Interaktion (Abb. 5.1f). Beispielsweise könnte der Zusammenhang zwischen dem Alter einer Person (x) und deren Einstellung zur Atomenergie (y) vom Postmaterialimusgrad der Gesellschaft (Z) konditioniert werden. Die Cross-LevelInteraktion kann jedoch auch umgekehrt gedacht werden (gepunktete Pfeile): In diesem Fall würde der Effekt, den der Postmodernismusgrad der Nation auf die Einstellung zur Atomenergie ausübt, dadurch bedingt, wie alt die betreffende Person ist. Die Cross-LevelInteraktion kann auch soweit gehen, dass beispielsweise die Z-Variable nur dann einen Ein-
94
5 Mehrebenenanalyse
fluss ausübt, wenn die x-Variable einen bestimmten Wert annimmt. Dies wäre der Fall, um bei unserem Beispiel zu bleiben, wenn sich nur Personen mit einem geringen Einkommen in ihrer Einstellung zum Thema Atomkraft vom nationalen Strompreis beeinflussen lassen würden. Bei allen anderen Personen würde Z hingegen keinen Einfluss ausüben.
5.1.1
Drei suboptimale Optionen mit hierarchischen Daten umzugehen
Um besser zu verstehen, weshalb es sinnvoll ist, Mehrebenendesigns anzuwenden, soll hier kurz aufgezeigt werden, welche Konsequenzen die drei anderen Optionen hätten, die einem Forscher zur Verfügung stehen, wenn er hierarchische Daten analysiert: So wäre es möglich (1) Mikro-Daten auf die Makro-Ebene zu aggregieren, (2) Makro-Level-Daten auf die Mikro-Ebene zu disaggregieren, oder (3) separate Regressionsmodells für alle Level-2-Gruppen zu berechnen. Werden Individualdaten auf eine höhere Ebene aggregiert (beispielsweise durch Mittelwertbildung), um dort dann als Aggregatdaten in eine Regression einzufließen, hat dies eine Reihe ungewollter Nebenwirkungen. Erstens lassen sich die aggregierten Daten nur mehr auf der Aggregatebene interpretieren. Eine Korrelation auf der Makro-Ebene kann entsprechend nicht dazu genutzt werden, Aussagen auf der Mikro-Ebene zu stützen (ökologischer Fehlschluss, vgl. Kapitel 2). Zweitens kann das Aggregieren dazu führen, dass real vorhandene Unterschiede nicht abgebildet werden. Abb. 5.2 verdeutlicht dies: Die Einstellung zur Atomenergie (y) wird in fünf Gruppen (z. B. Staaten) gegen das Alter (x) abgetragen. Die Grafik zeigt zwei Dinge deutlich: Zum einen nimmt die Zustimmung zur Atomenergie in allen Ländern mit zunehmendem Alter ab, zum anderen unterscheiden sich die Länder in ihrem Niveau der Zustimmung. Führt man nun Regressionen innerhalb einer jeden Gruppe durch, zeigen sich deutliche Unterschiede zwischen den Nationen. Diese bleiben auch dann bestehen, wenn man den Effekt des Alters herausrechnet: Mitglieder der „Quadratnation“ liegen allesamt deutlich unter der gestrichelt eingezeichneten Regressionslinie, die auf die Regressionen innerhalb der Gruppen adjustiert. Hingegen weisen Mitglieder der „Plusnation“ eine im Vergleich höhere Zustimmung zu Atomenergie auf. Würde man nun jedoch Aggregieren, also aus den fünf Individualwerten einer jeden Gruppe den Mittelwert bilden und eine Regression über die so erhaltenen Gruppenmittelwerte von x und y durchführen (graue Kreise) ergäbe sich ein grundlegend anderes Bild: Hing bei den Regressionen innerhalb der Gruppen das Alter negativ mit den Einstellungen zur Atomkraft zusammen, zeigt sich hier nun ein positiver Effekt. Gleichzeitig erklären die Mittelwerte von x fast perfekt den Mittelwert von y, was nichts anderes bedeutet, als dass eine Adjustierung auf die Mittelwerte zwischen den Gruppen dazu führt, die real vorhandenen Unterschiede zwischen den Gruppen nicht mehr wahrnehmen zu können. Ein dritter Nachteil der Aggregationsstrategie ist, dass Cross-LevelInteraktionen so nicht mehr zu analysieren sind (Snijders/Bosker 2012).
5.1 Grundlagen
95
y (Zustimmung zu Atomenergie)
Adjustiert auf die Mittelwerte zwischen den Gruppen
Adjustiert auf die Regressionsgeraden innerhalb der Gruppen x (Alter)
Abb. 5.2:
Veranschaulichung der Nachteile der Aggregationsstrategie
Die zweite suboptimale Option besteht darin, die Aggregatdaten künstlich aufzuspalten und über den so entstehenden Individualdatensatz eine Regression zu rechnen. Ist man beispielsweise daran interessiert, ob männliche Politiker längere Arbeitstage haben als weibliche, könnte man zum Test über ein zweistufiges Auswahlverfahren hierzu zunächst je 20 weibliche und männliche Bundestagsabgeordnete auswählen und diese dann in einem zweiten Schritt jeweils 10 Mal nacheinander befragen, wie lange ihr Arbeitstag ist. Disaggregiert man nun die Daten, hieße das anzunehmen, dass alle 400 Beobachtungen voneinander unabhängig sind. In Wirklichkeit ist selbstverständlich die Arbeitszeit von Person 1 am Tag 1 mit ihrer Arbeitszeit an den Tagen 2 bis 10 korreliert. Aus diesem Grund vergrößert sich, sofern man auf Unterschiede zwischen den Gruppen der männlichen und weiblichen Abgeordneten testet, durch die Disaggregierung die Gefahr, einen Fehler erster Art zu begehen – d. h. die Nullhypothese (keine unterschiedlich langen Arbeitszeiten) fälschlicherweise zurückzuweisen.2 Gleichzeitig führen disaggregierte Daten oftmals dazu, dass statistische Tests zu konservativ sind, wenn Unterschiede innerhalb der Gruppen im Fokus stehen. Aber selbst wenn sämtliche Variablen ausschließlich auf der Mikroebene vorliegen, gilt es trotzdem, den sogenannten Klumpeneffekt im Auge zu behalten: Sobald es unter den im ersten Schritt ausgewählten Level-2-Einheiten systematische Unterschiede in Bezug auf die in diesen enthaltenen Level-1-Einheiten gibt, sollte man für die Berechnung der Standardfehler auf eine effektive Samplegröße zurückgreifen, die kleiner ist als die reale. Anders ausgedrückt: Um dieselbe Sicherheit in den Ergebnissen zu gewährleisten, müssen mehr Fälle in einer mehrstufigen Stichprobe gezogen werden als bei einer einfachen einstufigen Zufallsauswahl (Snijders/Bosker 2012). Eine dritte Option wäre es, separate Regressionen innerhalb der einzelnen Gruppen durchzuführen. Allerdings wird es umso schwieriger die geschätzten Parameter zu vergleichen, je mehr Gruppen und damit Regressionsmodelle vorliegen. Zudem lassen sich so Makro- sowie Cross-Level-Effekte nicht sinnvoll testen (Pötschke 2006). Gleichwohl können solch einfach zu berechnende separate Regressionen gerade zu Beginn einer Forschung hilfreich sein, um sich einen ersten Überblick über die Daten zu verschaffen und ein Gefühl für die Effekte zu bekommen, die in den einzelnen Ländern vorliegen. 2
Technisch gesprochen führt eine Disaggregation der Daten zu einer rein artifiziellen Vergrößerung der Observationszahl, da Einheiten, die eigentlich miteinander zusammenhängen, als komplett unabhängig gewertet werden. Die eigentliche Fallzahl ändert sich dadurch aber nicht. Bei der Schätzung der Modelle wird für die Berechnung der Standardfehler nun jedoch die künstlich erhöhte Observationszahl herangezogen. Entsprechend unterschätzen Modelle, die auf Basis von disaggregierten Daten berechnet werden, generell die Standardfehler und überschätzen somit die Signifikanzen.
96
5 Mehrebenenanalyse
5.1.2
Wann ist ein Mehrebenenmodell statistisch notwendig?
Ob ein Mehrebenendesign aus statistischer Sicht notwendig ist, kann mithilfe von drei unterschiedlichen Verfahren bestimmt werden. Dabei handelt es sich (1) um den Intraklassenkorrelationskoeffizienten, (2) Devianztests, sowie (3) länderspezifische Residuen. Sobald die gesamte Varianz zwischen den betrachteten Individuen zu einem relevanten Anteil auf Unterschiede zwischen den Makro-Level-Einheiten zurückzuführen ist, ist es sinnvoll, dies gezielt über eine MEA zu modellieren. Der Intraklassenkorrelationskoeffizient (IKK) hilft bei der Beantwortung der Frage, wann dieser Anteil relevant ist. Er berechnet sich als derjenige Anteil der Gesamtvarianz der AV, welcher durch die Gruppierung erklärt wird.3 Abb. 5.3 verdeutlicht den IKK anhand eines simplen Beispiels für zwei Gruppen von je vier Individuen und die Variable y. Das erste Subskript steht für die Nummer des Individuums in der Gruppe, das zweite für die Nummer der Gruppe. Die erste Abbildung zeigt, wie sich die Gesamtvarianz in einerseits die Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert (u1 und u2) – diese Varianz zwischen den Gruppen bezeichnen wir mit – und andererseits die Abweichungen der Individuen vom Gruppenmittelwert (ei1 und ei2) aufteilen lässt. Diese zweite Varianz innerhalb der Gruppen sei . Der IKK berechnet sich nun als: IKK = . Haben alle Individuen einer Gruppe denselben Wert, dann geht die gesamte Varianz ausschließlich auf die Unterschiede zwischen den Gruppen zurück. In diesem Fall wäre = 0, = 1 und entsprechend auch der IKK gleich 1 (vgl. mittlere Grafik in Abb. 5.3). Umgekehrt ist der IKK gleich Null, wenn die beiden Gruppenmittelwerte auf den Gesamtmittelwert zusammenfallen und damit die Gesamtvarianz ausschließlich auf die Unterschiede innerhalb der Gruppen zurückgeht (Grafik rechts in Abb. 5.3). Je nachdem, ob man theoretisch von einer schwachen oder starken Intraklassenkorrelation ausgeht, gibt Hox Richtwerte von 0,05 bzw. 0,3 für den IKK an, ab denen es statistisch notwendig sei, ein Mehrebenenmodell zu rechnen (Hox 2010). = = =
= = =
=
Anm.:
Eigene Darstellung nach Steele (2009: 7).
Abb. 5.3:
Aufteilung der Gesamtvarianz und IKK
=
Für die Berechnung von Mehrebenenmodellen gibt es in Stata den Befehl xtmixed. Dieser ist, auch was den Output anbelangt, weitgehend analog aufgebaut zu xtreg. Um den IKK für unser Beispiel in Stata zu ermitteln, berechnet man zunächst ein sogenanntes Mehrebenen-Nullmodell, bei dem außer der AV atomeinstellung und der Gruppierungsvariable 3
Alternativ kann man den IKK auch als die Korrelation von zwei zufällig ausgewählten Individuen innerhalb einer zufällig ausgewählten Gruppe begreifen. Je höher diese Intraklassenkorrelation, desto größer ist der Anteil der Gesamtvarianz, der auf die Unterscheide zwischen den Gruppen zurückzuführen ist.
5.1 Grundlagen
97
countrycode keinerlei erklärende Faktoren inkludiert werden (weder auf Level-1 noch auf Level-2).4 xtmixed atomeinstellung || countrycode: if filter ==1, mle
variance
In diesem Modell wird folglich die vorliegende Gesamtvarianz noch nicht kausal erklärt, sondern einzig auf die Individual- und Kontextebene aufgeteilt. Verwendet man die Option variance, wodurch die Varianzen und nicht wie standardmäßig die Standardfehler ausgegeben werden, lässt sich der IKK einfach aus den Zufallseffektparametern berechnen (vgl. var(_cons) , = = = 0,154. 15,4 % der Output 5.1): IKK = (var(Residual)+var(_cons))
(
,
,
)
Gesamtvarianz gehen also auf Unterschiede zwischen den Ländern zurück, was dafür spricht, die Einstellungen zur Atomenergie mittels einer Mehrebenenregression zu modellieren. Output 5.1: Mehrebenen-Nullmodell Performing EM optimization: Performing gradient-based optimization: Iteration 0: Iteration 1:
log likelihood = -110560.89 log likelihood = -110560.89
(backed up)
Computing standard errors: Mixed-effects ML regression Group variable: countrycode
Log likelihood = -110560.89
Number of obs Number of groups
= =
25940 27
Obs per group: min = avg = max =
486 960.7 1551
Wald chi2(0) Prob > chi2
= =
. .
-----------------------------------------------------------------------------atomeinste~g | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_cons | 53.46492 1.409416 37.93 0.000 50.70251 56.22733 ----------------------------------------------------------------------------------------------------------------------------------------------------------Random-effects Parameters | Estimate Std. Err. [95% Conf. Interval] -----------------------------+-----------------------------------------------countrycode: Identity | var(_cons) | 53.30938 14.61289 31.15134 91.22849 -----------------------------+-----------------------------------------------var(Residual) | 293.2797 2.576551 288.273 298.3734 -----------------------------------------------------------------------------LR test vs. linear regression: chibar2(01) = 3670.79 Prob >= chibar2 = 0.0000 4
Der Ausdruck if filter == 1 reduziert den verwendeten Datensatz auf diejenigen Fälle, die für alle im weiteren Verlauf der Analyse noch verwendeten Variablen komplett verfügbare Daten aufweisen. D. h. sobald ein Fall für eine der Variablen einen fehlenden Wert aufweist, wird der gesamte Fall nicht in die weitere Analyse aufgenommen. Auf diese Weise wird erreicht, dass stets dasselbe sample für alle Modelle verwendet wird. Dies ist insbesondere für den Vergleich der einzelnen Modelle relevant (s. hierzu auch Fußnote 6). Durch die Option mle werden die Parameter mittels Maximum Likelihood Schätzung bestimmt. Standard ist in Stata die Restricted Maximum Likelihood Schätzung (reml). Genauer zu den Vor- und Nachteilen der beiden Schätzverfahren, insbesondere in Bezug auf Devianztests, s. u.
98
5 Mehrebenenanalyse
Will man nicht auf die IKK-Daumenregeln zurückgreifen, kann man auch mit Hilfe eines LR-Tests (auch Devianztest genannt) überprüfen, ob es einen signifikanten Unterschied zwischen dem Nullmodell auf der Individualebene und dem Mehrebenen-Nullmodell gibt, welches die Varianz ja entsprechend der vorhandenen Gruppierung in die Teilvarianzen zwischen und innerhalb der Gruppen aufteilt. Die Teststatistik berechnet sich als: 2 ∙ ( Mehrebenen − Individual ). Hier: 2 ⋅ −110560,89 − (−112396,28) = 3670,78.5 Diesen empirischen Wert vergleicht man mit einem theoretischen Chi-Quadrat-Wert, wobei man die gesuchte Zelle in der Chi-Quadrat-Tabelle entsprechend des gewünschten Vertrauenswahrscheinlichkeitsniveaus sowie der Anzahl der zwischen den beiden Modellen veränderten Parameter (= Anzahl der Freiheitsgrade) – hier 1 – identifiziert. Tab. 5.1 enthält die ChiQuadrat-Verteilung für die drei wichtigsten Signifikanzniveaus und für bis zu fünf Freiheitsgrade. Der empirische LR-Chi-Quadrat-Wert müsste entsprechend größer als 6,63 sein, um einen signifikanten Unterschied zwischen den beiden Modellen zu indizieren. Dies ist hier eindeutig der Fall. Stata erleichtert einem an dieser Stelle die Arbeit deutlich, da es in der letzten Zeile des Outputs beim Mehrebenen-Nullmodell sowohl die empirische Teststatistik (3670,79) als auch deren Signifikanz (0,000) im Vergleich zum einfachen linearen Vergleichsmodell angibt (vgl. Output 5.1). Das höchst signifikante Ergebnis spricht hier klar dafür, die vorhandene Varianz über eine Mehrebenenregression zu modellieren. Generell kann dasjenige Modell, welches den betragsmäßig niedrigeren Log-Likelihood-Wert hat, bei signifikantem Testergebnis als das besser zu den Daten passende Modell gelten (Pötschke 2006: 173). Tab. 5.1:
Chi-Quadrat-Verteilung Freiheitsgrade = Anzahl veränderter Parameter zwischen den zu vergleichenden Modellen
Vertrauenswahrscheinlichkeit / Signifikanzniveau
1
2
3
4
5
0,90
2,71
4,61
6,25
7,78
9,24
0,95
3,84
5,99
7,81
9,49
11,07
0,99
6,63
9,21
11,34
13,28
15,09
Derselben Logik folgend lassen sich sämtliche ineinander geschachtelte Mehrebenenmodelle mittels Devianztests vergleichen. So kann man beispielsweise testen, ob das Hinzufügen einer weiteren Variable die Passgenauigkeit des Modells insgesamt verbessert hat.6 5 6
Um das Individualebenen-Nullmodell zu erhalten, streicht man einfach die Gruppierungsvariable (countrycode) aus der Stata-Syntax: xtmixed atomeinstellung if filter ==1, mle variance. Da der Betrag des Log-Likelihood-Wertes automatisch mit kleiner werdender Fallzahl sinkt, ist bei der Aufnahme neuer Variablen darauf zu achten, dass diese nicht durch fehlende Werte die in die Regression eingehende Fallzahl reduzieren. Andernfalls könnte durch die Änderung der Fallzahl fälschlicherweise eine Signifikanz beim LR-Test resultieren. Man würde also annehmen, dass die aufgenommene Variable das Modell signifikant verbessert, in Wirklichkeit wäre es jedoch die geringere Fallzahl, die den Test signifikant werden lässt (Hadler 2004: 70). Um diesem Problem im Vorhinein zu begegnen, bietet es sich an, – wie hier im Beispiel geschehen – über eine Filtervariable den Datensatz auf diejenigen Fälle zu begrenzen, für die keinerlei fehlende Werte in den aufzunehmenden Variablen vorliegen. Daneben ist darauf zu achten, dass Modelle, die sich in ihren fixen Komponenten (d. h. UVs) unterscheiden, mittels Devianztest nur sinnvoll zu vergleichen sind, sofern sie mit normaler Maximum Likelihood geschätzt wurden und nicht mittels Restricted Maximum Likelihood (REML). Devianztests sind bei REML-Schätzungen nur erlaubt, sofern sich die Modelle ausschließlich in ihren Zufallskomponenten unterscheiden (Snijders/Bosker 2012: 97). Generell kann man damit sagen, dass v. a. bei eher kleinen
5.1 Grundlagen
99
Als dritte Möglichkeit, um zu beurteilen, ob eine MEA aus statistischer Sicht sinnvoll ist, kann man auch die länderspezifischen Residuen betrachten, also die Abweichungen der Ländermittel vom Gesamtmittelwert. Hierzu greift man auf das Zwei-Ebenen-Nullmodell zurück, lässt sich die Residuen für die einzelnen Level-2-Einheiten u0 sowie die zu diesen gehörigen Standardfehler u0se ausgeben: xtmixed atomeinstellung || countrycode: if filter ==1, reml predict u0, reffects predict u0se, reses
variance
Stata berechnet die Residuen und ihre Standardfehler für jeden einzelnen Fall im Datensatz. Um zusammenfassende Statistiken und Grafiken generieren zu können, reicht es jedoch, jeweils einen Fall pro Land zu betrachten, da die Residuenwerte sich ja innerhalb eines Landes nicht unterscheiden. Hierzu wird eine Dummy-Variable pickone generiert, die jeweils einen einzelnen Fall pro Level-Zwei-Einheit herausgreift. Nun kann man sich die LänderResiduen auflisten lassen (vgl. Output 5.2): egen pickone = tag(countrycode) list countryname u0 u0se if pickone==1 Output 5.2: Liste der Länderresiduen
1. 1008. 2040. ⁞ 25239. 26247.
+---------------------------------+ | count~me u0 u0se | |---------------------------------| | Sweden -11.48429 1.527531 | | Denmark -9.659434 1.527707 | | The Neth -9.423477 1.526313 | ⁞ ⁞ ⁞ | Austria 15.35085 1.528781 | | Malta 16.97349 1.617324 | +---------------------------------+
Österreich beispielsweise hat ein Residuum von 15,35. Aus dieser Abweichung sowie dem Parameter des Zwei-Ebenen Nullmodells 53,46, der ja die mittlere Atomeinstellung über alle Länder angibt, lässt sich der mittlere Schätzwert für Österreich, bzw. genauer für die Einstellung eines in Österreich Befragten ermitteln: 53,46 + 15,35 = 68,81. Der Effekt, den die einzelnen Länder auf die AV haben, kann auch grafisch über einen Residuenplot dargestellt werden. Hierzu ist zusätzlich zu den Residuen und ihren Standardfehlern in einem ersten Schritt eine Variable zu erstellen, die die Residuen entsprechend ihrer Größe ordnet: u0rank. Die grafische Darstellung der so geordneten Residuen erfolgt dann mit einem Caterpillar-Plot über den Befehl serrbar (vgl. Abb. 5.4). generate u0rank = sum(pickone) serrbar u0 u0se u0rank if pickone==1, scale(1.96) yline(0)
Die Reihenfolge der Variablen in der Syntax ist wichtig: Die erste Variable (u0) repräsentiert den Punktschätzer, die zweite die dazugehörigen Standardfehler u0se und die dritte den Rangplatz des Punktschätzers u0rank. Mit der scale(1.96)-Option erhält man die Gruppengrößen am besten immer mit REML geschätzt werden sollte, außer wenn man Devianztests anstellen möchte.
100
5 Mehrebenenanalyse
−20
BLUP r.e. for countrycode: _cons −10 0 10
20
95 % Konfidenzintervallgrenzen und yline(0) generiert eine Referenzlinie, die die durchschnittliche Level-Zwei-Einheit in den Daten widerspiegelt. Alle Länder, deren gesamtes Intervall sich unter- bzw. oberhalb der Null-Linie befindet, besitzen eine durchschnittliche Einstellung, die sich signifikant vom Mittelwert des gesamten Samples unterscheiden. Unter der Bedingung, dass außer der Gruppeneinteilung (Länder) keine weiteren erklärenden Variablen aufgenommen werden, ist für die Länder 1–11 entsprechend von einem signifikant niedrigerem mittleren Atomeinstellungswert auszugehen; für die Länder 20–27 umgekehrt von einem signifikant höherem Wert.
0
10
20
30
u0rank
Abb. 5.4:
5.1.3
Level-2-Residuen in Caterpillar-Plot
Wie viele Fälle sind für eine Mehrebenenanalyse erforderlich?
Eine ausreichende Fallzahl stellt bei MEA wie auch bei anderen Regressionsmethoden einen limitierenden Faktor dar. Nach Snijders ist für die Analyse von Level-1-Effekten primär die Gesamtzahl der Level-1-Einheiten von Relevanz (Snijders 2005). Die sehr große Anzahl von knapp 26.000 Eurobarometer-Befragten, die in unserem Beispiel die Level1-Einheiten ausmachen, dürfte somit eine akkurate Schätzung der Individualeffekte erlauben. Etwas problematischer gestaltet sich die Anzahl von Level-2-Gruppen. Diese ist laut Snijders (2005) der am stärksten limitierende Faktor für Mehrebenendesigns. Die durchschnittliche Gruppengröße sei hingegen von nachrangiger Bedeutung für die Robustheit der Ergebnisse. Allerdings ist in der Forschung durchaus umstritten, wie viele Level-2Einheiten benötigt werden, um aussagekräftige Ergebnisse bei einer Mehrebenenregression zu erzielen: Diverse Daumenregeln geben hierzu Größen von 30 bis 100 Makroeinheiten an (für einen Überblick s. Braun et al. 2010). Allerdings zeigt ein Blick in die empirische Forschungslandschaft, dass Mehrebenenmodelle auch mit deutlich weniger Level-2Einheiten berechnet werden (Peffley/Rohrschneider 2003; Rosar 2003). Insbesondere wenn die Schätzung mittels Restricted Maximum Likelihood (REML) durchgeführt wird, seien einigen Autoren zufolge auch Analysen mit relativ wenigen Level-2-Gruppen möglich (Browne/Draper 2000; Maas/Hox 2004). Allerdings würde die Inklusion von vergleichsweise vielen Level-2-Erklärungsvariablen bei gleichzeitig relativ wenigen Level-2Einheiten zu einem Problem mit der Anzahl der Freiheitsgrade führen. Nach Hox erhöht sich bei einer Gruppenanzahl von 24–30 das operationale Alpha-Level, das den realen Anteil an Fehlern erster Art angibt (fälschlicherweises Zurückweisen der Nullhypothese)
5.1 Grundlagen
101
von den eigentlich angestrebten fünf auf neun Prozent: die Standardfehler der Level-1Effekte, von denen angenommen wird, dass sie sich zwischen den Level-2-Gruppen unterscheiden und die deshalb als Zufallseffekte (random effects) bezeichnet werden, werden demzufolge etwas kleiner geschätzt als sie realiter sind. Die Parameter derjenigen Variablen, bei denen man von einem gleichmäßigen Effekt über alle Gruppen ausgeht und die man deshalb als fixe Effekte bezeichnet sowie deren Standardfehler werden hingegen von der niedrigen Gruppenanzahl nicht beeinflusst (Hox 2010).7 In dieselbe Richtung weist auch eine jüngst veröffentlichte Arbeit von Stegmüller (2013), wobei dessen Ergebnisse noch deutlich stärker zur Vorsicht mahnen als die bisherigen Daumenregeln. Der Autor zeigt mittels Monte-Carlo-Simulationen, dass eine vergleichsweise geringe Gruppenanzahl (unter 20) zu verzerrten Schätzern und zu falsch ausgewiesenen Konfidenzintervallen führt – und zwar insbesondere dann, wenn komplexere ME-Designs getestet werden (z. B. mit Inklusion von Level-2-Variablen und Cross-Level-Interaktionen). Für den Test einer Level2-Variable fasst er zusammen: “Estimated with 15 or 20 available countries, ML confidence intervals are almost 5% too short – in other words, researchers are more likely to obtain 90% confidence intervals rather than the 95% intervals announced by their software package.” (Stegmueller 2013: 758)8
Was bedeuten diese Voraussetzungen nun für die Anwendung von Mehrebenenmodellen in der Politikwissenschaft? In erster Linie, dass insbesondere die Anzahl der Level-2Einheiten als limitierender Faktor nicht übersehen werden darf. Sollten in den Daten etwa nur 20 Level-2-Einheiten vorhanden sein – wie dies in der politikwissenschaftlichen Forschung beispielsweise bei Analysen der OECD-Welt oftmals der Fall ist – sind eben nur solche Mehrebenenmodelle sinnvoll schätzbar, die nur wenige Variablen auf Aggregatebene aufweisen und die v. a. nur wenige oder gar keine Cross-Level-Interaktionen testen. Kurz gesagt: Je schlanker das Modell, desto geringer sind die Probleme durch geringe Fallzahlen. Zudem kann als pragmatische Antwort auf die Analyse von Stegmueller (2013) gesagt werden, dass man bei eher geringen Fallzahlen auf Level-2 auf die angegebenen Konfidenzintervalle immer noch einen gewissen Aufschlag dazurechnen sollte; konkret könnte man z. B. bei einem angestrebten Signifikanzniveau von 95 %, die Schätzung schlicht mit einem Signifikanzniveau von 99 % durchführen. Gleichzeitig dürften Analysen mit weniger als zehn Level-2-Einheiten – ähnlich wie bei einer einfachen linearen Regression – wohl in den seltensten Fällen noch sinnvolle Ergebnisse liefern. In diesem Fall sind die berichteten MLE-Konfidenzintervalle laut Stegmueller oftmals um bis zu 15 Prozentpunkte zu schmal (2013: 753), was jegliche ernsthafte Interpretation unterminiert. 7 8
Genauer zur Modellierung von fixed und random effects im nächsten Abschnitt. Laut Stegmueller stellt auch die REML Methode keine wirkliche Alternative dar. Sie generiert zwar im Fall von einfachen ME-Designs geringfügig bessere Konfidenzintervalle als die klassische, von ihm verwendete MLE. Für einen Vergleich von MLE und REML vgl. Bickel (2007: 117–119). Bei komplexeren Designs hingegen ergäben sich bei der REML „quite drastic noncoverage problems“ (Stegmueller 2013: 751). Er empfiehlt vielmehr, auf eine Bayesianische Schätzung auszuweichen. Diese würde einerseits etwas weniger bias bei den Punktschätzern produzieren und v. a. deutlich passendere Konfidenzintervalle erzeugen. Diese wären zudem im Gegensatz zu den von der MLE erzeugten Konfidenzintervallen eher zu lang als zu kurz. Er kommt daher zu dem Schluss, dass „researchers using Bayesian multilevel models put their hypotheses to more rigid tests than their colleagues relying on ML estimates!“ (Stegmueller 2013: 759). Da Bayesianische ME-Modelle aber noch die absolute Ausnahme in der Politikwissenschaft darstellen und sich zudem ihre Schätzung deutlich von klassischen Regressionsverfahren unterscheiden, werden diese hier nicht weiter verfolgt. Einen Einstieg in die Welt der Bayesianischen MEA bieten Hamaker und Klugkist (2011).
102
5 Mehrebenenanalyse
Damit sich der Leser ein Bild davon machen kann, wie schwerwiegend die Fallzahlproblematik ist, sollte es selbstverständlich sein, die Fallzahlen auf jeder einzelnen Ebene und im besten Fall auch die durchschnittliche Gruppengröße (und deren Spannweite) in einer Mehrebenenpublikation anzugeben. Bezüglich der Genauigkeit der Schätzer unterscheiden sich MEA teils deutlich von entsprechenden Individualanalysen. Denn um dieselbe Präzision, d. h. gleichgroße Standardfehler bei der Schätzung zu erzielen, benötigt man in einem Mehrebenenmodell grundsätzlich mehr Fälle als bei einer einfachen Zufallsauswahl. Wie viele mehr dafür nötig sind, hängt vom IKK ab. Für ein Zwei-Ebenen-Modell, bei dem alle Gruppen dieselbe Größe n haben, d. h. gleichviele Level-1-Einheiten enthalten, lässt sich die notwendige Gesamtstichprobengröße N2E wie folgt aus der Gesamtstichprobengröße bei einer einfachen Zufallsstichprobe NEZ berechnen (vgl. Snijders/Bosker 2012: 24–25): =
+
( − 1) ∙
(5.1)
Gesamtstichprobengröße bei Zwei-Ebenen-Design N2E
Abb. 5.5 zeigt wie groß entsprechend der Stichprobenumfang sein müsste um bei einem Zweiebenen-Design dieselbe Präzision zu erzielen, wie bei einer einfachen Zufallsauswahl = 100. mit 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0
IKK = 0,1 IKK = 0,2 IKK = 0,3 IKK = 0,4 IKK = 0,5 IKK = 0,6 IKK = 0,8 0
10
20
30
40
50
60
Gruppengröße n Abb. 5.5:
5.2
Notwendige Stichprobengröße um mit einem Zwei-Ebenen-Design dieselbe Präzision zu erzielen wie = 100 in Abhängigkeit von Gruppengröße n und mit einer einfachen Zufallsstichprobe der Größe Intraklassenkorrelationskoeffizient IKK
Modellierungsstrategien in Mehrebenen-Situationen
Findet man Varianzen zwischen ebenso wie innerhalb der Gruppen, so können diese auf unterschiedliche Effekte zurückgehen (vgl. Abb. 5.1d–f). Die MEA bietet hier verschiedene Möglichkeiten der Modellierung solcher Effekte. Im Folgenden werden daher nacheinander Level-1-, Level-2- sowie Cross-Level-Interaktionseffekte dargestellt, mit denen die Varianzen zwischen und innerhalb von Gruppen analysiert werden können.
5.2 Modellierungsstrategien in Mehrebenen-Situationen
5.2.1
103
Modellierung von Level-1-Effekten
In Bezug auf Individualeffekte besteht der Vorteil der MEA gegenüber einer normalen OLS darin, dass je nach Gruppe ein unterschiedlicher Effekt angenommen werden kann. Dabei können zwei unterschiedlich flexible Modelle unterschieden werden: das Random-Intercept und das Random-Slope-Modell. Entsprechend muss nicht davon ausgegangen werden, dass eine Variable über alle Gruppen hinweg denselben Effekt auf die Individuen darin ausübt. Beim Random-Intercept-Modell, das sich formal folgendermaßen darstellen lässt (der Index i steht für ein Individuum in einer Gruppe j), =
+
+
+
(5.2)
wird ausschließlich der Achsenabschnitt (Intercept) als variabel angenommen. Dieser variiert für jedes Land um uj um den mittleren Intercept aller Gruppen b0 (vgl. Abb. 5.6a). Die Steigung b1 hingegen wird über alle Länder hinweg als gleich angenommen. Insofern unterscheiden sich im Random-Intercept-Modell die Effekte der Level-1-Variablen ausschließlich entsprechend ihres Niveaus, nicht jedoch in ihrer Steigung. Für die Berechnung eines solchen Modells in Stata fügt man im Nullmodell hinter der AV atomeinstellung eine oder mehrere erklärende Variablen auf der Individualebene hinzu – in unserem Beispiel sind dies das Alter, das Geschlecht und das Wissen über Atomenergie seitens der Befragten. Allerdings ist es in bestimmten Fällen sinnvoll, die Variablen zu zentrieren, bevor man sie in das Modell aufnimmt (vgl. Box). Zentrieren: Ja oder nein? Und wenn ja, wie? In der Literatur zu MEA findet eine lebhafte Debatte darüber statt, ob es sinnvoll oder sogar notwendig ist die unabhängigen (und evtl. auch die abhängige) Variable(n) zu zentrieren, bevor man mit diesen eine Mehrebenenregression schätzt. Zwei unterschiedliche Arten des Zentrierens sind hierbei zu unterscheiden: Einerseits Zentrierung am Gruppenmittelwert (group mean centering) und andererseits Zentrierung am Gesamtmittel über alle Einheiten (grand mean centering). Raudenbush (1989) schlägt vor, Level-1-Einheiten grundsätzlich am Gruppenmittel zu zentrieren. Eine Reihe von Autoren hält dagegen, dass es nicht immer klar sei, inwieweit der Gruppenmittelwert wirklich ein guter proxy für den Kontext ist (Longford 1989), dass diese Zentrierungsart die Gefahr beinhalte unechte Variation auf Level-2 zu erzeugen (Plewis 1989), und dass Modelle, die am Gruppenmittel zentrierte Variablen beinhalten, nicht nur unterschiedliche Parameter, sondern sogar unterschiedliche Schätzwerte lieferten (verglichen mit Modellen auf Basis der nicht-zentrierten Rohdaten). Die Modelle seien damit nicht mehr als äquivalent anzusehen (Kreft et al. 1995). Entsprechend wird davor gewarnt, dass Forscher durch die Zentrierung eventuell ein komplett anderes Modell berechnen als sie eigentlich im Sinn haben (Paccagnella 2006). Hox schreibt hierzu „group mean centering changes the meaning of the entire regression model in a complicated way“ (2010: 68). Laut ihm ist zudem die Praxis, im Fall von group mean centering den Gruppenmittelwert zusätzlich als Level-2-Erklärungsfaktor aufzunehmen, nicht sinnvoll, weil hierdurch zusätzliche Informationen über die Struktur der Gruppen in das Modell eingebracht würden. Hierdurch würde der Modellfit eines zentriertes Modells unbegründet verbessert (Hox 2010: 69).
104
5 Mehrebenenanalyse
Ein Zentrieren am Gruppenmittelwert kann jedoch Sinn ergeben, sofern man aus theoretischer Perspektive davon ausgeht, dass die relative Positionierung eines Falles im Vergleich zu den anderen Fällen seiner Gruppe relevant ist für die Ausprägung der UV. Diese Logik ist auch unter dem Namen „frog pond effect“ (Hox 2010: 69) bekannt: Zwei gleich große Frösche, der eine in einem Teich voll mit größeren Fröschen, der andere in einem Teich mit lauter kleineren Artgenossen, werden unterschiedliche Chancen haben, beispielsweise Futter zu finden und letztlich zu überleben. In pädagogischen und lernpsychologischen Studien lässt sich ein solcher Effekt oftmals annehmen – Schüler vergleichen sich mit ihren Mitschülern und damit letztlich mit dem Klassendurchschnitt. Aber auch in den Sozialwissenschaften lassen sich ähnliche Effekte denken. Sofern der Forscher jedoch keine derartigen Hypothesen aufstellt, dürfte es aufgrund der geschilderten Negativa meist wenig sinnvoll sein, am Gruppenmittelwert zu zentrieren. Anders sieht es bei der zweiten Zentrierungsform aus: dem grand mean centering. Diese hat keine so gravierenden Nachteile wie das group mean centering. Gleichzeitig behebt sie ein Problem, welches auftreten kann, wenn man mit den Rohwerten rechnet. In einem Random-Intercept-Modell entspricht der Intercept, genau wie in einer einfachen linearen Regression ohne mehrere Analyseebenen, demjenigen Wert, den die AV annimmt, wenn alle UV gleich Null sind. Ist Null jedoch kein sinnvoller, in der Realität auffindbarer Wert für eine UV, so ist auch der Wert für den Achsabschnitt nicht sinnvoll interpretierbar. In unserem Beispiel wäre dies definitiv beim Alter der Fall, da offensichtlich davon auszugehen ist, dass ein Neugeborenes noch keine Einstellung zum Thema Atomenergie haben kann. Um einen sinnvoll zu interpretierenden Achsenabschnitt zu erhalten, bietet es sich stattdessen an, die Variable alter zu zentrieren, d. h. von der Variable den Mittelwert über alle Fälle abzuziehen. In Stata gelingt dies am einfachsten darüber, nach dem summarize-Befehl auf den automatisch unter r(mean) gespeicherten Mittelwert zurückzugreifen. sum alter gen z_alter = alter - r(mean)
Bei Variablen, bei denen die Null im sinnvoll interpretierbaren Bereich liegt (z. B. die Variable wissen, bei der die Null für „kein Wissen vorhanden“ steht), ist es letztlich egal ob man zentriert oder nicht. Sobald in einem Modell einzelne Variablen zentriert werden müssen – wie hier das Alter – empfiehlt es sich aus Gründen der einfacheren Interpretierbarkeit, auch die übrigen Variablen zu zentrieren. So kann man bei der Interpretation der Koeffizienten stets derselben Logik folgen. Grundsätzlich sollten Variablen nur dann zentriert werden, wenn ihr Mittelwert aussagekräftig ist, d. h. letztlich nur metrische Variablen. Ordinale Variablen können am Median zentriert werden. Dummies, wie in unserem Beispiel das Geschlecht, sollten hingegen nicht zentriert werden. Zentriert man nun also alter und wissen und schätzt mit diesen beiden UV sowie der unveränderten Variable geschlecht ein Random-Intercept-Modell, lässt sich der Intercept dann als der Einstellungswert zum Thema Atomenergie interpretieren, den eine Frau (geschlecht = 0), mittleren Alters und mit einem durchschnittlichen Wissen zum Thema Atomkraft hat.9
9
Neben der Interpretierbarkeit des Intercepts ist die Zentrierung am Gesamtmittelwert auch dafür wichtig, bei Random-Slope-Modellen die Intercept-Varianz sowie die Intercept-Slope-Kovarianz sinnvoll interpretieren zu können. Hierzu genauer im Abschnitt über das Random-Slope-Modell und bei Steele (2009).
5.2 Modellierungsstrategien in Mehrebenen-Situationen
105
Die Syntax für das Random-Intercept-Modell mit den beiden zuvor zentrierten Variablen sieht folgendermaßen aus: xtmixed atomeinstellung z_alter geschlecht z_wissen || > countrycode: if filter==1, variance
Der Stata-Output (Output 5.3) zeigt einen signifikanten Effekt aller drei Level-1-Variablen: So verringert ein zusätzliches Lebensjahr beispielsweise den Atomeinstellungswert um 0,05. Die Schätzung erfolgt in Stata standardmäßig mit der Restricted Maximum Likelihood Methode (REML), die dadurch, dass sie im Gegensatz zur MLE auch die Anzahl der Parameter bei der Schätzung berücksichtigt, insbesondere bei vergleichsweise wenigen Level-2Gruppen geringer verzerrte und damit bessere Varianzschätzer liefert als die klassische Maximum Likelihood Schätzung (Bickel 2007: 117).10 Wenn gewünscht, lässt sich letztere über die Option mle anfordern.11 Output 5.3: Random-Intercept-Modell Mixed-effects REML regression Group variable: countrycode
Log restricted-likelihood = -109698.72
Number of obs Number of groups
= =
25940 27
Obs per group: min = avg = max =
486 960.7 1551
Wald chi2(3) Prob > chi2
= =
1795.55 0.0000
-----------------------------------------------------------------------------atomeinste~g | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------z_alter | -.0503622 .0057757 -8.72 0.000 -.0616824 -.039042 geschlecht | -4.738266 .2114949 -22.40 0.000 -5.152788 -4.323743 z_wissen | -1.417011 .0459535 -30.84 0.000 -1.507078 -1.326943 _cons | 55.47671 1.275119 43.51 0.000 52.97752 57.9759 ----------------------------------------------------------------------------------------------------------------------------------------------------------Random-effects Parameters | Estimate Std. Err. [95% Conf. Interval] -----------------------------+-----------------------------------------------countrycode: Identity | var(_cons) | 43.35916 12.12483 25.06417 75.00813 -----------------------------+-----------------------------------------------var(Residual) | 274.3754 2.41061 269.6912 279.1411 -----------------------------------------------------------------------------LR test vs. linear regression: chibar2(01) = 3097.09 Prob >= chibar2 = 0.0000
Durch die Aufnahme der drei Individualvariablen in das Random-Intercept-Modell hat sich der Anteil der unerklärten Varianz, der auf Unterschiede zwischen den Level-2-Einheiten 43,36 = 0,136 = 13,6 % reduziert; im Nullmodell waren es zurückzuführen ist, auf (43,36+274,38)
noch 15,4 %. Anders ausgedrückt: die angenommenen Niveauunterschiede in den Level-110 11
Bei einer großen Anzahl an Level-2-Gruppen liefern MLE und REML annähernd identische Ergebnisse. Dies ist beispielsweise sinnvoll, um mittels Devianztests zu überprüfen, ob die Aufnahme der RandomIntercept-Variablen die Modellschätzung signifikant verbessert. Denn wie erwähnt dürfen Modelle, die sich in ihren fixen Komponenten unterscheiden und die mit REML geschätzt werden, nicht über einen LR-Test verglichen werden.
106
5 Mehrebenenanalyse
Effekten zwischen den Ländern können einen gewissen Teil der zuvor über den IKK aufgezeigten Varianz zwischen den Gruppen erklären. Man kann jedoch auch annehmen, dass sich die Länder nicht nur hinsichtlich der Achsenabschnitte (und insofern der Niveaus der Level-1-Effekte) unterscheiden, sondern dass Level-1Variablen wirklich unterschiedliche Effekte, d. h. unterschiedliche Steigungen in unterschiedlichen Ländern aufweisen. Dies lässt sich mit einem Random-Slope-Modell modellieren: =
+
+
+
+
(5.3)
Die neu hinzugekommenen Elemente der Gleichung lassen sich anschaulich in Abb. 5.6b nachvollziehen, in welcher der Effekt einer Level-1-Variable relativ zum mittleren Effekt über alle Gruppen dargestellt wird. Der Unterschied zum vorherigen Random-Intercept-Modell besteht schlicht darin, dass sich die Länder in Bezug auf einen Level-1-Faktor nicht nur im Hinblick auf ihre Achsenabschnitte u0j, sondern auch in ihren Steigungen u1j unterscheiden. Anhand unseres Beispiels veranschaulicht bedeutet dies, dass nicht nur die durchschnittliche Atomeinstellung gleichalter Personen in verschiedenen Ländern sich unterscheiden kann, sondern auch der Effekt, den ein zusätzliches Jahr Lebensalter auf die Atomeinstellung eines Individuums hat, je nach Land unterschiedlich ausfällt. Das Schaubild verdeutlicht dies: Wir vergleichen die Gerade für Land 1 mit der mittleren Gerade über alle Individuen (die beiden fettgedruckten Linien in Abb. 5.6b) und stellen hierbei für dieses Land eine größere Steigung fest als im Mittel (u11). Es handelt sich bei dieser Komponente um den Term, der zusätzlich zum Random-Intercept-Modell in die Formel hinzukommt.
Δ = Δ
Abb. 5.6a–b: Random-Intercept-Modell und Random-Slope-Modell
Ob es notwendig ist, Level-1-Effekte mit Random-Slopes zu modellieren, kann erneut mithilfe des Likelihood-Ratio-Tests (LR-Test) eruiert werden.12 Hierbei vergleicht man ein Modell, in dem ein Level-1-Effekt nur mit Random-Intercepts modelliert und eines in dem zusätzlich auch Random-Slopes für diese Variable freigeschaltet werden. Die betreffende Variable wird hierzu einfach ein zweites Mal hinter den Doppelpunkt nach der Gruppierungsvariable countrycode in die Syntax geschrieben. Zusätzlich muss man bei Random-SlopeModellen noch angeben, ob eine Kovarianz zwischen der Höhe der Intercepts und der Stei12
Da sich die beiden zu vergleichenden Modelle hier ausschließlich hinsichtlich der einen Zufallskomponente unterscheiden, kann auf die REML-Schätzmethode zurückgegriffen werden.
5.2 Modellierungsstrategien in Mehrebenen-Situationen
107
gung angenommen werden soll – was wir hier annehmen – oder diese als unkorreliert betrachtet werden sollen.13 xtmixed atomeinstellung alter geschlecht wissen || countrycode: > alter if filter==1, covariance(unstructured) variance
Testet man auf diese Weise die Variable alter, zeigt die LR-Testgröße einen Wert von 188, was deutlich über dem notwendigen theoretischen Chi-Quadrat-Wert liegt (bei zwei Freiheitsgraden – hinzukommende Parameter sind die Slope-Varianz sowie die Kovarianz zwischen Slope und Intercept – und einer Vertrauenswahrscheinlichkeit von 95 % wären dies 5,99). Entsprechend ist es sinnvoll die Steigung von alter als variabel zu modellieren.14 Im Output kommen im Vergleich zum Random-Intercept-Modell bei Random-Slopes zwei weitere Zeilen bei den Zufallseffekten hinzu: var(alter) gibt die Varianz zwischen den Steigungen an und cov(alter,_cons) stellt die Kovarianz zwischen der Steigung und dem Intercept dar, die wir mit 01 bezeichnen. Wie interpretiert man einen solchen Random-Slope-Output? Im Prinzip geben die Koeffizienten die mittleren Effekte für die betreffenden Variable an. In unserem Beispiel verringert ein zusätzliches Jahr Alter den geschätzten Atomeinstellungswert um 0,0412. Allerdings variiert diese Steigung bei einer 95 % Vertrauenswahrscheinlichkeit zwischen den Ländern innerhalb eines Intervalls von −0,1412 bis 0,2237.15 Die Intercept-Slope-Kovarianz gibt an, ob sich die Steigungen auffächern (fanning out) oder konvergieren (fanning in). Um dies zu eruieren, müssen neben der Intercept-Slope-Kovarianz allerdings auch die Vorzeichen von Intercept b0 und Steigung b1 betrachtet werden. Zudem ist es hier erneut wichtig, dass die UV zentriert werden, falls Null für diese keinen sinnvollen Wert darstellt. Abb. 5.7 illustriert die unterschiedlichen Kombinationsmöglichkeiten. Angewendet auf das von uns berechnete Modell, in dem gilt 0 > 0, 1 < 0, 01 > 0, zeigt sich, 13
14
15
Hinter dieser Entscheidung stehen einerseits theoretisch-konzeptionelle und andererseits statistischmethodische Gründe: Aus konzeptioneller Sicht sollte sich eine Forscherin fragen, ob es eine theoretische Basis dafür gibt, anzunehmen, dass die Steigung in einem Land mit dem landesspezifischen Achsenabschnitt zusammenhängen sollte. Anders ausgedrückt: Ist es plausibel, dass beispielsweise der Effekt einer Variable in denjenigen Ländern, die ein insgesamt hohes Niveau der AV aufweisen, besonders hoch (oder niedrig) ausfällt? Wenn dies der Fall ist und die Forscherin sich entsprechend ihrer Forschungsfrage auch für diese Kovarianz interessiert, dann sollte sie sie auch, so wie wir hier, direkt modellieren. Man könnte nun denken, dass es generell sinnvoll sei, eine Kovarianz anzunehmen, da hierdurch die Modellschätzung insgesamt flexibler wird. Dagegen spricht jedoch, dass durch das Anwachsen der Varianz-Kovarianz-Matrix bei mehreren Zufallseffekten sehr viele Freiheitsgrade verbraucht werden. Das Modell konvergiert dann evtl. nicht mehr. Es gilt hier also abzuwägen zwischen der Relevanz der Kovarianzstruktur für die Beantwortung der Forschungsfrage und den negativen Konsequenzen für Durchführung die Schätzung, die ein solch flexibleres Modell mit sich bringt. Mit der Option covariance(unstructured) berechnet Stata das Modell unter der Annahme, dass sich sämtliche Varianzen und Kovarianzen unterscheiden können. Dies ist das flexibelste Modell, es verbraucht aber gleichzeitig am meisten Freiheitsgrade. Weitere Optionen sind die Standardeinstellung covariance(independent), bei dem sich die Varianzen der Zufallseffekte unterscheiden können, die Kovarianzen jedoch alle gleich dem Wert null angenommen werden. Zudem stehen die Optionen covariance(exchangeable) und covariance(identity) zur Verfügung. Bei ersterer werden gleiche Varianzen bei den Zufallseffekten und eine gemeinsame paarweise Kovarianz angenommen, letztere Option setzt die Varianzen für die Zufallseffekte alle auf den gleichen Wert und sämtliche Kovarianzen auf null (Stata 2009a: 306). Auch bei den anderen beiden Variablen (Geschlecht und Wissen) würde der LR-Test für die Verwendung von Random-Slopes sprechen. Aus Gründen der Übersichtlichkeit wird hier jedoch mit dem Alter nur eine Random-Slope-Variable verwendet. Das Konfidenzintervall berechnet sich als: = 0,0412 ± 1,96√0,00867 = −0,1412; 0,2237
108
5 Mehrebenenanalyse
dass sich der im Durchschnitt über alle Länder hinweg negative Effekt des Alters auffächert. Junge Personen liegen also über die Länder noch vergleichsweise nah zusammen in ihrer Einstellung zur Atomenergie, wohingegen die Variation zwischen den Ländern bei älteren Personen größer ist. Output 5.4: Random-Slope-Modell Mixed-effects REML regression Group variable: countrycode
Number of obs Number of groups
Log restricted-likelihood = -109604.74
= =
25940 27
Obs per group: min = avg = max =
486 960.7 1551
Wald chi2(3) Prob > chi2
= =
1757.53 0.0000
-----------------------------------------------------------------------------atomeinste~g | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------z_alter | -.0412774 .0188765 -2.19 0.029 -.0782747 -.00428 geschlecht | -4.717329 .2108257 -22.38 0.000 -5.130539 -4.304118 z_wissen | -1.405688 .0458174 -30.68 0.000 -1.495489 -1.315888 _cons | 55.57006 1.274639 43.60 0.000 53.07181 58.06831 ----------------------------------------------------------------------------------------------------------------------------------------------------------Random-effects Parameters | Estimate Std. Err. [95% Conf. Interval] -----------------------------+-----------------------------------------------countrycode: Unstructured | var(z_alter) | .0086669 .0026822 .0047254 .0158961 var(_cons) | 43.32735 12.11487 25.04699 74.94949 cov(z_alter,_cons) | .412654 .1515054 .1157089 .7095991 -----------------------------+-----------------------------------------------var(Residual) | 271.8936 2.389989 267.2494 276.6185 -----------------------------------------------------------------------------LR test vs. linear regression: chi2(3) = 3285.05 Prob > chi2 = 0.0000
0
0
0
0
0
0
0
0
Abb. 5.7:
Fanning out (linke vier Grafiken) und fanning in (rechte vier Grafiken)
5.2 Modellierungsstrategien in Mehrebenen-Situationen
109
Alternativ zur Interpretation der Intercept-Slope-Kovarianz kann man sich die RandomSlopes auch grafisch ausgeben lassen. Hierzu müssen allerdings sämtliche Level-1-Variablen mit Ausnahme der interessierenden Random-Slope-Variablen aus der Modellgleichung entfernt werden. Diese sollte für die grafische Darstellung besser in der nicht-zentrierten Form in das Modell eingebracht werden. Zunächst sagt man auf Basis der auf diese Weise reduzierten Modellgleichung geschätzte Werte predscore voraus. xtmixed atomeinstellung alter || countrycode: alter if filter==1, > variance predict predscore, fitted
Man ordnet nun die Daten nach Ländern und innerhalb der Länder nach der Random-SlopeVariablen alter. Eine neue Variable pickone greift für jedes Land und Alter einen Fall heraus (dies ist möglich, da der auf Basis des Mehrebenenmodells vorhergesagte Wert für eine Land-Alter-Kombination immer gleich ist: Innerhalb jedes Landes wird die Steigung als einheitlich angenommen und gilt daher über alle Fälle). Im letzten Schritt trägt man die Schätzwerte gegen das Alter ab und verbindet diese in absteigender Reihenfolge mit Linien (vgl. Abb. 5.8).
40
Fitted values: Benefits of nuclear energy 50 60 70
80
sort countrycode alter egen pickone = tag(countrycode alter) twoway connected predscore alter if pickone==1, connect(ascending)
20
Abb. 5.8:
40
60 alter
80
100
Random-Slope-Plot für die Variable Alter
Auf diese Weise können die voneinander abweichenden Steigungen eines jeden Landes grafisch verglichen werden, allerdings fehlt bei diesem Vorgehen aufgrund des bivariaten Vorgehens die statistische Kontrolle auf andere Level-1-Variablen.16 Trotzdem zeigt sich deutlich das zuvor schon über die Intercept-Slope-Kovarianz identifizierte fanning out der Ländergeraden: Liegen die geschätzten Atomeinstellungswerte von 18-Jährigen in etwa in einer Spanne von 46 bis 66 so prognostiziert das Modell für 80-Jährige, einen Unterschied von fast 16
Einen Hinweis darauf, ob die in der Grafik präsentierten Effekte auch bei Kontrolle auf die weiteren UV vorlägen, liefert ein Blick in das ursprüngliche Random-Slope-Modell (hier Output 5.4). Wenn der Effekt im Output sich in etwa mit der mittleren Steigung in der Grafik deckt, dann ist davon auszugehen, dass die weiteren nicht kontrollierten Variablen keinen Bias erzeugen. Das ist hier der Fall:der schwach negative Koeffizient (-0,04) passt durchaus zum Bild in Abb. 5.8. Ist dem jedoch nicht so, stellt sich die Frage, ob es noch sinnvoll ist, fanning in/fanning out grafisch auf diese Weise zu beurteilen. In diesem Fall sollte man besser ausschließlich auf die weiter oben beschriebene Interpretation der Intercept-Slope-Kovarianz zurückgreifen.
110
5 Mehrebenenanalyse
40 Einstellungspunkten zwischen dem atomenergiefreundlichsten Land und dem Land, in dem die Bevölkerung im Durchschnitt am negativsten zu dem Thema eingestellt ist.
5.2.2
Modellierung von Level-2-Effekten
Neben den Level-1-Effekten, die sich wie gesehen auch von Level-2-Einheit zu Level-2Einheit unterscheiden können, kann es auch noch Effekte geben, die direkt von Level-2 aus auf die AV auf Level-1 wirken. So kann die Leistung eines Schülers beispielsweise auch von der Qualität seines Klassenlehrers abhängen, die alle Schüler in der Klasse betrifft. Auf unser Beispiel angewendet könnte sich z. B. das Vorhandensein von Atomkraftwerken in einem Land (kodiert als einfache Dummy-Variable) auf die Atomeinstellungen der Bevölkerung auswirken; Zudem könnten etwa Grüne Parteien im Parlament einen prägenden Einfluss auf die gesamte Bevölkerung haben. Um solche Kontexteffekte adäquat zu modellieren, ist ein Rückgriff auf Mehrebenenmodelle notwendig, da die Alternative – eine Inklusion von Level2-Variablen in ein Level-1-Modell (künstliche Disagreggierung der Level-2-Einheiten) wie weiter oben gezeigt die Standardfehler dieser Variablen systematisch unterschätzen würde. An der Modellgleichung ändert sich indes nicht viel: =
+
+
+
+
+
(5.4)
Dabei ist x1 eine Level-1-Variable, bei der Random-Slopes freigesetzt werden. X2 ist die Level-2-Variable, bei der es selbstverständlich keinen Index i gibt, da sich diese Variable nicht zwischen den einzelnen Individuen einer Gruppe unterscheidet, sondern nur zwischen den Gruppen. In Stata wird die Level-2-Variable, wie andere Variablen auch, einfach in die Syntax aufgenommen. Wir inkludieren hier nun beispielhaft den durchschnittlichen Sitzanteil Grüner Parteien im Zeitraum 1997–2007 (grüne) in das aus den vorangehenden Berechnungen bereits bekannte Random-Slope-Modell (vgl. Output 5.5)17: xtmixed atomeinstellung z_alter geschlecht z_wissen grüne || > countrycode: z_alter if filter==1, covariance(unstructured) > variance
Vergleicht man mittels LR-Test die beiden ineinander geschachtelten Modelle aus Output 5.4 (allerdings diesmal mit MLE geschätzt, da sich ein fixer Parameter ändert und somit die REML-Schätzung für den Devianztest nicht geeignet ist) und Output 5.5, erhält man als empirische Teststatistik den Wert 12,18. Das Hinzufügen der Level-2-Variable verändert nur einen einzigen Parameter am Modell, insofern liegt der theoretisch zu erreichende ChiQuadrat-Wert für das 99 %-Vertrauenswahrscheinlichkeitsniveau bei 6,63 (vgl. Tab. 5.1). Der empirische Wert ist also größer als der theoretische, was bedeutet, dass die Aufnahme der Level-2-Variable grüne die Schätzung signifikant verbessert und es demzufolge statistisch gerechtfertigt ist, sie in das Modell einfließen zu lassen. Interpretieren lassen sich Level-2Effekte analog zu den übrigen Level-1-Effekten. Das heißt somit konkret für das Beispiel: 17
Neben Variablen, die per se auf Level-2 vorliegen (wie grüne hier), kann es für bestimmte Fragestellungen auch sinnvoll sein, Individualmerkmale zu aggregieren und als Makro-Variable heranzuziehen. Beispielsweise könnte das Durchschnittsalter einer Regierung Auswirkungen auf die Aktionen der einzelnen Kabinettsmitglieder zeitigen. In diesem Fall würde man die durch Mittelwertbildung erhaltene Aggregatvariable als MakroVariable in die MEA einfließen lassen.
5.2 Modellierungsstrategien in Mehrebenen-Situationen
111
Starke grüne Parteien im Parlament gehen einher mit einer höheren Ablehnung von Atomenergie in der Bevölkerung.18 Output 5.5: Random-Slope-Modell mit Level-2-Effekt Mixed-effects ML regression Group variable: countrycode
Log likelihood = -109593.66
Number of obs Number of groups
= =
25940 27
Obs per group: min = avg = max =
486 960.7 1551
Wald chi2(4) Prob > chi2
= =
1774.74 0.0000
-----------------------------------------------------------------------------atomeinste~g | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------z_alter | -.0415624 .0186792 -2.23 0.026 -.0781728 -.0049519 geschlecht | -4.716301 .2107848 -22.37 0.000 -5.129432 -4.30317 z_wissen | -1.406511 .0457833 -30.72 0.000 -1.496245 -1.316778 grüne | 1.063832 .2470903 4.31 0.000 .5795442 1.54812 _cons | 52.94888 1.450392 36.51 0.000 50.10616 55.7916 ----------------------------------------------------------------------------------------------------------------------------------------------------------Random-effects Parameters | Estimate Std. Err. [95% Conf. Interval] -----------------------------+-----------------------------------------------countrycode: Unstructured | var(z_alter) | .0084769 .0025809 .0046674 .0153957 var(_cons) | 46.299 13.31726 26.34725 81.35942 cov(z_alter,_cons) | .5374199 .1685365 .2070944 .8677454 -----------------------------+-----------------------------------------------var(Residual) | 271.8673 2.389624 267.2238 276.5915 -----------------------------------------------------------------------------LR test vs. linear regression: chi2(3) = 3162.25 Prob > chi2 = 0.0000
5.2.3
Modellierung von Cross-Level-Interaktionen
Level-1- und Level-2-Variablen können nicht nur als Haupteffekte auf die AV wirken, sondern auch in Form von Interaktionen Einfluss ausüben Die Behandlung von Interaktionseffekten in MEA unterscheidet sich generell nicht von dem in Kapitel 3 beschriebenen Vorgehen. Aus einer konzeptionellen Sicht heraus gibt es jedoch eine Besonderheit: die Möglichkeit von Interaktionen zwischen einer Level-1- und einer Level-2-Variable – sogenannte Cross-Level-Interaktionen (vgl. Abb. 5.1f). Als Beispiel soll hier eine Cross-LevelInteraktion zwischen dem Alter und dem durchschnittlichen Sitzanteil grüner Parteien in den letzten zehn Jahren angenommen werden. Dabei gehen wir davon aus, dass der sozialisierende Effekt grüner Parteien stärker bei jüngeren Menschen wirkt als bei älteren, deren Weltbild bereits gefestigt ist. Die um den Interaktionseffekt 3 1 ∙ 2 erweiterte Modellgleichung lässt sich folgendermaßen schreiben: 18
Obgleich der Effekt deutlich signifikant ist, sollte man ihn doch insofern kritisch hinterfragen, als die Richtung der Kausalität nicht eindeutig ist. Es wäre auch möglich, dass nicht die Präsenz grüner Parteien im Parlament sich sozialisierend auf die Bevölkerung und deren Einstellung zur Atomenergie auswirkt, sondern dass eine latent der Kernkraft negativ gegenüberstehende Bevölkerung eher grüne Parteien wählt. Solche Endogenitätsprobleme lassen sich bei Querschnittsdesigns so gut wie nicht auflösen, weshalb es umso entscheidender ist, die Ergebnisse entsprechend kritisch in Bezug auf alternative Kausalitätsmuster zu hinterfragen.
112
5 Mehrebenenanalyse =
+
+
+
∙
+
+
+
(5.5)
In Stata generiert man zunächst den entsprechenden Interaktionseffekt und inkludiert diesen dann in das Mehrebenenmodell (für das spätere Plotten des Interaktionseffekts ist es sinnvoll, das Modell mit nicht-zentrierten Rohwerten zu rechnen): gen alter_grüne = alter * grüne xtmixed atomeinstellung alter geschlecht wissen grüne alter_grüne > || countrycode: alter if filter==1, covariance(unstructured) > variance
Der Output zeigt, dass der Interaktionseffekt signifikant und negativ ist, während die Variable grüne signifikant und positiv ist und die Altersvariable nun keinen signifikanten Effekt mehr aufweist. Dieser zuletzt genannte Koeffizient gibt den Effekt des Alters unter der Bedingung an, dass der Stimmenanteil grüner Parteien in einem Land null beträgt. Der Interaktionseffekt drückt aus, dass mit zunehmender Stärke grüner Parteien der negative Effekt von Alter auf die Ablehnung von Atomenergie zunimmt. Nachfolgend sei dieser bedingte Zusammenhang grafisch dargestellt. Dazu bietet es sich an, für unterschiedliche Kombinationen von alter und grüne die Prognosewerte durch Einsetzen in die Regressionsgleichung zu berechnen (s. Kapitel 3 zu Interaktion). Mit Excel lässt sich so auf einfache Weise eine Tabelle der vorhergesagten Werte erstellen (hier für null, fünf und zehn Prozent Grüne im Parlament (vgl. Tab. 5.2)). Output 5.6: Random-Slope-Modell mit Cross-Level-Interaktion Mixed-effects REML regression Group variable: countrycode
Log restricted-likelihood = -109600.96
Number of obs Number of groups
= =
25940 27
Obs per group: min = avg = max =
486 960.7 1551
Wald chi2(5) Prob > chi2
= =
1779.24 0.0000
-----------------------------------------------------------------------------atomeinste~g | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------alter | -.0090613 .0222686 -0.41 0.684 -.052707 .0345845 geschlecht | -4.713248 .2107964 -22.36 0.000 -5.126402 -4.300095 wissen | -1.405964 .0457915 -30.70 0.000 -1.495714 -1.316214 grüne | .9467126 .2618613 3.62 0.000 .433474 1.459951 alter_grüne | -.0133202 .0056128 -2.37 0.018 -.0243212 -.0023193 _cons | 62.56172 1.065795 58.70 0.000 60.4728 64.65064 ----------------------------------------------------------------------------------------------------------------------------------------------------------Random-effects Parameters | Estimate Std. Err. [95% Conf. Interval] -----------------------------+-----------------------------------------------countrycode: Unstructured | var(alter) | .0073323 .0023604 .0039014 .0137804 var(_cons) | 15.46812 5.11058 8.094785 29.55764 cov(alter,_cons) | .1196102 .0778031 -.0328811 .2721016 -----------------------------+-----------------------------------------------var(Residual) | 271.8881 2.389898 267.2441 276.6128 -----------------------------------------------------------------------------LR test vs. linear regression: chi2(3) = 3099.31 Prob > chi2 = 0.0000
5.3 Teststatistiken und Gütemaße Tab. 5.2:
113
Prognosewerte bei Cross-Level-Interaktion (Basis: Output 5.6)
Alter
20
30
40
50
60
70
80
90
Grüne 0 % Grüne 5 % Grüne 10 %
62,38 65,78 69,18
62,29 65,03 67,76
62,20 64,27 66,34
62,11 63,51 64,92
62,02 62,76 63,49
61,93 62,00 62,07
61,84 61,24 60,65
61,75 60,49 59,23
Atomeinstellung (hohe Werte = Ablehnung)
In ein Streudiagramm eingetragen zeigt sich der Interaktionseffekt: Je jünger der Befragte ist, desto stärker wirkt sich eine Sozialisierung durch grüne Parteien auf dessen ablehnende Haltung gegenüber der Atomenergie aus. Alternativ kann man den Interaktionseffekt auch anders herum lesen: Der Alterseffekt, nach dem ältere Personen eine weniger negative Einstellung zur Atomenergie aufweisen als jüngere, wäre damit besonders stark für Länder, in denen grüne Parteien einen politisch bedeutsamen Anteil der Parlamentssitze einnehmen.19 70 68 66 64 62 60 58 56 54 20
30 Grüne 0%
Abb. 5.9:
5.3
40
50
60
Alter Grüne 5%
70
80
90
Grüne 10%
Cross-Level-Interaktion zwischen Alter und Sitzanteil Grüner Parteien
Teststatistiken und Gütemaße
In einer normalen OLS-Regression bemisst sich die Güte des Modells daran, wie viel Prozent der Varianz der AV durch das Modell erklärt wird (s. Kapitel 2). Für MEA gibt es verschiedene Testverfahren, mit deren Hilfe sich nicht nur der Modellierungsprozess strukturieren, sondern letztlich auch die Güte des gefundenen Modells überprüfen lässt. 19
Problematisch an dem beschriebenen Vorgehen ist allerdings, dass auf diese Weise keine Aussagen zur Signifikanz der Interaktionseffekte getroffen werden können. Als Alternative bieten sich die im Kapitel zu Interaktionseffekten beschriebene Darstellungsweise über marginale Effekte an, bei denen auch Konfidenzintervalle ausgewiesen werden können. Hierzu bedarf es allerdings neben den Koeffizienten, die man benötigt um die Punktschätzer zu generieren, auch der Varianz-Kovarianz-Matrizen. Genauer beschrieben wird die Berechnung bei Preacher et al. (2006), die auch eine frei verfügbare Web-Applikation programmiert haben, mit der sich über die Koeffizienten und Varianzkomponenten die entsprechenden Grafiken zu marginalen Effekten erzeugen lassen (vgl. http://www.quantpsy.org/interact/index.html).
114
5 Mehrebenenanalyse
5.3.1
Devianz
Als erstes Maß für die Anpassungsgüte einer Mehrebenenregression an die vorliegenden empirischen Daten kann die bereits bekannte Devianz gelten. Diese berechnet sich, wie weiter oben beschrieben, über −2 ⋅ ℎ . Je näher dieser Wert bei null liegt, desto besser passt das Modell zu den Daten. Allerdings ist der Absolutwert der Devianz abhängig von der Fallzahl und lässt sich somit nicht direkt interpretieren. Erst im direkten Vergleich zweier ineinander geschachtelter Modelle sind die Devianzwerte aussagekräftig: Ist ihre Differenz signifikant (Test mittels Chi-Quadrat-Verteilung), so kann dasjenige Modell mit dem absolut betrachtet niedrigeren Devianzwert als signifikant besser angepasst gelten als das andere (Snijders/Bosker 2012). Die Devianz lässt damit nur Aussagen über die relative Güte eines Mehrebenenmodells im Vergleich zu einem in der Regel sparsamer ausgestalteten Modell zu. Die Log-Likelihood-Werte können wie oben gesehen direkt aus dem Mehrebenenoutput abgelesen werden. Problematisch am Devianztest ist jedoch der erwähnte Sachverhalt, dass die Devianzwerte automatisch mit steigender Variablenanzahl schrumpfen und hierdurch die Aufnahme weiterer Variablen belohnt wird. Ein Modell, das mit Hilfe von Devianztests spezifiziert wurde, hat daher oftmals die Tendenz, überspezifiziert zu sein.
5.3.2
AIC und BIC
Das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (BIC) sind zwei Gütemaße, die alternativ zur Devianz verwendet werden können. Im Gegensatz zu dieser „bestrafen“ sie grundsätzlich jedoch eher die Aufnahme weiterer Variablen, weshalb sie im Sinne einer möglichst sparsamen Modellbildung dem Devianztest vorzuziehen sind. Das BIC bestraft darüber hinaus eine hohe Fallzahl und stellt damit in der Regel einen noch härteren Test als das AIC dar.20 Ein Vorteil dieser Testmaße ist, dass sie nicht nur auf ineinander geschachtelte Modelle anwendbar sind – wie beim Devianztest der Fall – sondern mit ihrer Hilfe beispielsweise auch Modelle mit gänzlich unterschiedlichen erklärenden Variablen miteinander verglichen werden können. Allerdings müssen die Fallzahlen der beiden Modelle identisch sein. In Stata kann man sich beide Werte mit dem postestimation-Befehl estat ic nach der eigentlichen Mehrebenenschätzung ausgeben lassen.21 Im Output, der 20
21
Beide Maße basieren auf den Devianzwerten, die um die Anzahl der Prädiktoren und beim BIC zusätzlich um die Fallzahl bereinigt werden. Dabei ist allerdings nicht vollkommen klar, welche Fallzahl, d. h. genauer gesagt die Fallzahl welcher Ebene Eingang finden sollte (Raftery 1995: 135–140). Luke (2004: 34), wie auch Hox (2010: 50) favorisieren die Fallzahl auf der höchsten Ebene (bei uns die 27 Länder). Goldstein legt sich nicht fest, konstatiert jedoch, dass „the total number of higher level units is often used as an approximation“ (Goldstein 2011: 43). Stata verwendet als Standardeinstellung hingegen die Anzahl an Level-1-Einheiten. Generell lässt sich sagen, dass es bei sehr hohem IKK, d. h. bei hohen Korrelationen innerhalb der Gruppen und merklichen Gruppenunterschieden, sinnvoll ist, die Anzahl der Gruppen der höchsten Ebene als Fallzahl zu verwenden. Wenn hingegen die einzelnen Observationen nur sehr schwach korreliert sind, würde sich hingegen die Fallzahl auf der untersten Ebene anbieten. Mit diesen beiden Extremfällen wird man es in der Regel jedoch nicht zu tun haben und gleichzeitig lässt sich bei mittelstarken Korrelationen innerhalb der Gruppen keine so klare Richtlinie angeben, welche Fallzahl besser geeignet ist. Tendenziell ist die Fallzahl auf der untersten Ebene der konservativere Test und deshalb zumeist vorzuziehen. Wichtig ist in erster Linie jedoch, dass dasselbe N auf derselben Ebene für die beiden zu vergleichenden Modelle verwendet wird (Stata 2009b: 159– 161). Die genauen Formeln für die Berechnung von AIC und BIC finden sich bei Hox (2010: 50). Wie bei den Devianztests sollte auch hier die REML-Schätzung nur verwendet werden, wenn zwei Modelle verglichen werden, die sich ausschließlich in ihren Zufallskomponenten unterscheiden. Andernfalls sollte auf die klassische Maximum-Likelihood-Methode zurückgegriffen werden.
5.3 Teststatistiken und Gütemaße
115
hier beispielhaft für den Test der Random-Slope-Variable alter angegeben ist (verglichen werden das Random-Intercept-Modell aus Output 5.3 und das Random-Slope-Modell aus Output 5.4), wird neben dem Log-Likelihood-Wert, aus dem sich die Devianz berechnen lässt, auch das AIC und das BIC angegeben. Output 5.7: AIC und BIC für den Test des Random-Slope-Modells im Vergleich zum Random-Intercept-Modell Random Intercept-Vergleichsmodell: ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 25940 . -109698.7 6 219409.4 219458.4 -----------------------------------------------------------------------------
Random-Slope-Modell: ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 25940 . -109604.7 8 219225.5 219290.8 -----------------------------------------------------------------------------
Niedrigere AIC- und BIC-Werte weisen auf einen besseren Fit des Modells hin (Raftery 1995: 134). Auch hier lässt sich allerdings der Absolutwert nicht sinnvoll interpretieren, sondern ausschließlich die Differenz der AIC- bzw. BIC-Werte zweier Modelle M0 und M1. Nach Raftery kann man folgende Schwellenwerte für die Differenzwerte ansetzen (Raftery 1995: 140): Tab. 5.3:
Interpretation von AIC- und BIC-Differenzen
Differenz der AIC- bzw. BIC-Werte von zwei zu vergleichenden Modellen M0 und M1
Evidenz, dass M1 den besseren Fit aufweist als M0
0–2 2–6 6–10 >10
Schwach Positiv Stark Sehr stark
Vergleicht man die Unterschiede der Erklärungskraft zwischen den beiden Modellen (s. Output 5.7) anhand von Devianz- (= 188), AIC- (= 183,9) und BIC-Werten (= 167,6), zeigt sich die zuvor erwähnte Bestrafung, die durch die Aufnahme der beiden neuen Parameter entsteht (df steigt von 6 auf 8 durch das Hinzufügen des Alterszufalleffekts und der InterceptSlope-Kovarianz). Das Random-Slope-Modell bleibt jedoch trotzdem, auch wenn man AIC und BIC sowie die Grenzwerte von Raftery zugrunde legt, sehr deutlich das besser angepasste Modell.
5.3.3
Erklärte Varianz auf Mikro- und Makroebene
Devianz-, AIC und BIC-Tests eignen sich, um im direkten Vergleich mit anderen Modellen die am besten passende Modellspezifikation zu ermitteln. Ein absolutes Maß für die Erklärungskraft eines Mehrebenenmodells stellen sie jedoch nicht dar. Hierfür schlagen Snijders und Bosker für ein Zwei-Ebenen-Modell zwei getrennt zu berechnende R2 vor, ein R2mikro und ein R2makro. Das erste gibt die „proportionale Fehlerreduktion für ein individuelles Outcome“ (Snijders/Bosker 2012: 111 [eigene Übersetzung]) an, das R2 auf der Makroebene
116
5 Mehrebenenanalyse
hingegen um wie viel Prozent sich die Varianz zwischen den Level-2-Gruppen, d. h. zwischen den Gruppenmittelwerten, reduzieren lässt. Welche der beiden Maßzahlen von größerem Interesse ist, bestimmt sich über die zugrundeliegende Forschungsfrage. Für Snijders und Bosker, die aus einer erziehungswissenschaftlichen Perspektive v. a. an Individualmerkmalen interessiert sind, ist das R2makro in den meisten Fällen von geringerem Interesse als das R2mikro (Snijders/Bosker 2012: 111). Ein makro-vergleichender Politikwissenschaftler hingegen könnte sich gerade dafür interessieren ob Ländercharakteristika relevant sind und deshalb besonders auf das R2makro schauen. Gleichwohl soll hier die Berechnung für beide Maße beschrieben werden. Man greift dabei auf die Varianzen der Residuen zurück, die zwischen ( ) sowie innerhalb der Level-2-Gruppen ( ) vorliegen und vergleicht dabei das interessierende Modell (M1) stets mit dem Mehrebenen-Nullmodell (M0). Formal und mit den Bezeichnungen im Stata-Output sieht dies folgendermaßen aus (Snijders/Bosker 1999: 102– 103): =1−
+ +
=1− =1−
var(Residual)M1 +var(_cons)M1 (var(Residual)M0 +var(_cons)M0 ) =1−
(5.6)
var(_cons)M1 var(_cons)M0
Diese Formeln sind für Random-Intercept-Modelle geeignet. Bei Random-Slope-Modellen ist die Berechnung komplizierter. Die genauen Formeln finden sich bei Snijders und Bosker (Snijders/Bosker 1994). Allerdings verändern sich die Werte für R2mikro und R2makro in der Regel nur marginal, wenn Zufallsparameter in das Modell aufgenommen werden. Deshalb plädieren die beiden Autoren dafür, auch im Falle von Random-Slopes, das Modell nochmals mit fixen Parametern als Random-Intercept-Modell zu schätzen und darauf basierend anhand der oben angeführten Formeln R2mikro und R2makro zu berechnen (Snijders/Bosker 2012: 114). In unserem Beispiel greift man hierzu entsprechend auf Output 5.1 und Output 5.3 zurück, in denen die benötigten Werte abzulesen sind. Durch Einsetzen in die Formeln ergibt sich so274,38+43,36 43,36 =1− = 0,083; 2 =1− = 0,187. Die Erklärungskraft mit: 2 293,28+53,31
53,31
des zugegebenermaßen vergleichsweise sparsamen Modells ist nicht allzu hoch. Nur 8,3 % der Varianz können auf der Level-1-Ebene erklärt werden. Auf Level-2 sieht es etwas besser aus: Die Mehrebenenregression erklärt hier 18,3 % der Varianzen zwischen den Ländermittelwerten. Wichtig für die Berechnung der R2-Werte ist, wie schon beim IKK, dass die Schätzung in Stata mit der Option variance durchgeführt wird – aus den ansonsten standardmäßig ausgegebenen Standardfehlern lassen sich die R2-Maße nicht berechnen.
5.3.4
Maddala-R2
Sofern Kovarianzen zwischen den UV angenommen werden, lassen sich die R2mikro- und R2makro-Werte nicht mehr sinnvoll interpretieren. Pötschke (2006: 174) schlägt in diesen Fällen die Verwendung des Pseudo-R2 nach Maddala vor, welches grundsätzlich bei allen nach dem Maximum-Likelihood-Verfahren geschätzten Modellen berechnet werden kann. Entsprechend sollten die Modelle mit der Option mle berechnet werden. Dieses Maß baut auf den Devianzwerten des interessierenden Modells (M1) und denen des Nullmodells (M0) auf:
=1−
(
)
(5.7)
5.4 Erweiterungsmöglichkeiten und Schnittstellen zu anderen Verfahren
117
Berechnet man das Maddala-R2 beispielsweise für das Modell aus Output 5.5 so erhält man ( ⋅ ⋅ . , ) =1− = 0,0719.22 Im Vergleich mit dem Nullmodell erklärt demnach das Modell mit den hinzugefügten Variablen 7,2 % der Varianz, wobei diese Erklärungskraft sich sowohl auf „Varianzen der unabhängigen Variablen als auch […] Kovarianzen zwischen unabhängigen Variablen“ (Pötschke 2006: 174) beziehen kann.
5.4
Erweiterungsmöglichkeiten und Schnittstellen zu anderen Verfahren
Das in diesem Kapitel verwendete Beispiel einer Zwei-Ebenen-Regression mit einer metrisch skalierten UV lässt sich problemlos auf Drei- und Viel-Ebenenmodelle übertragen bzw. erweitern. Zudem können Mehrebenenmodelle in Form einer Mehrebenenlogit bei Datenstrukturen zum Einsatz kommen, bei denen ein dichotomes oder ordinales Merkmal als AV vorliegt (Snijders/Bosker 2012: 289–313). Daneben zeigt Hox die breite Palette an weiteren Anwendungsoptionen für MEA und v. a. die Schnittstellen zu anderen statistischen Verfahren auf: beispielsweise zur Mehrebenen-Survival-, -Pfad- oder -Faktoranalyse (Hox 2010). Insbesondere sei hier jedoch noch auf die enge Verbindung zwischen hierarchischen Mehrebenenmodellen und gepoolten Zeitreihenanalysen (Time-Series-Cross-Section) verwiesen (vgl. Kapitel 6 zu gepoolter Zeitreihenanalyse). Die Struktur der Daten, auf die diese Analyseverfahren angewendet werden können, ist dabei weitestgehend identisch. Sie unterscheiden sich jedoch in der Perspektive ihrer Forschungsfragen, wodurch auch die Herangehensweise an die Modellierung verschieden ausfällt. Für die Wahl der geeigneten Analysemethode gilt es entsprechend, sich zunächst der Passfähigkeit der Methode mit den eigenen konzeptionelltheoretischen Überlegungen zu vergewissern. MEA erhöhen dabei die Zahl an Beobachtungen durch ihren Fokus auf hierarchisch untergeordnete Ebenen, was laut King, Keohane und Verba (1994: 219–221) eine Option darstellt, wenn die empirische Datenvielfalt auf der übergeordneten Ebene nicht ausreicht, um eine sinnvolle Inferenz zu erzeugen. Gepoolte Zeitreihenanalysen schaffen dies dadurch, dass sie eine Gruppe von Einheiten über einen längeren Zeitraum im Panel betrachten. Die gepoolte Zeitreihenanalyse kann damit als eine spezifische Unterart des allgemeineren Mehrebenenmodells betrachtet werden. Auch bei dieser liegt eine gruppierte Datenstruktur vor: Hier werden die Einzelbeobachtungen (= Zeitpunkte) eben in einen zumeist nationalstaatlichen Kontext eingegliedert (Level 1: Zeitpunkte; Level 2: Länder) (Tiemann 2009: 213–214). Allerdings sollten beide Verfahren nicht ausschließlich als Werkzeuge zum Umgehen des small-N-Problem betrachtet werden, sondern beide „prüfen dezidiert dynamische Effekte, kontrollieren statische Kontexte und bestimmen die Interaktion von Modell und Kontext“ (Tiemann 2009: 231). In dieser Hinsicht sind Mehrebenenmodelle mit ihren Möglichkeiten, Random-Intercepts, Random-Slopes sowie komplizierte Residuenstrukturen direkt zu modellieren letztlich flexibler als gepoolte Zeitreihenanalysen – zumindest wenn diese durch die Verwendung fixer Effekte die Komplexität der empirischen Daten nur schwerlich fassen. 22
) liegt, sollte es noch Da der Maximalwert des Maddala R2 nicht bei eins, sondern bei 1 − ( ℎ entsprechend standardisiert werden (Hu et al. 2006). In unserem Beispiel hier ergibt der Term aber so gut wie genau eins, was an dem im Vergleich zur Fallzahl hohen Absolutbetrag des Log-Likelihood-Werts liegt. Aus diesem Grund kann hier auf die Korrektur verzichtet werden.
118
5 Mehrebenenanalyse
5.5 1.
Schrittweises Vorgehen Test, ob MEA… a)
… notwendig: Mehrebenen-Nullmodell mit Single-Level-Nullmodell vergleichen; IKK berechnen.
b) … statistisch möglich: v. a. N auf Level-2 muss groß genug sein. c)
… theoretisch sinnvoll.
2.
Zentrieren, wenn sinnvoll. In der Regel: grand-mean-centering bei sämtlichen Variablen, bei denen der Nullpunkt andernfalls nicht sinnvoll zu interpretieren ist.
3.
Bei der Modellbildung… a)
mit Random Intercepts beginnen,
b) Random Slopes wenn nötig hinzunehmen, wenn nicht, beim sparsameren Random-Intercept-Modell bleiben. c)
Level-2-Effekte und
d) Cross-Level-Interaktionen einbauen. e)
4.
Für den Test neuer Modellparameter (Variablen, Random Slopes, Kovarianzen) Devianz- oder AIC/BIC-Tests durchführen (Schätzung mit MLE, wenn sich fixe Parameter ändern, REML nur, wenn sich ausschließlich Zufallseffekte ändern).
R2mikro und R2makro bzw. Maddala-R2 als Gütemaße betrachten.
6
Gepoolte Zeitreihenanalyse
Beispielhafte Forschungsfrage: Der Einfluss von Parteien auf die Generosität der Arbeitslosenversicherung Eine vergleichende Wohlfahrtsstaatsforscherin interessiert sich dafür, ob die Ideologie von Regierungsparteien deren Sozialpolitik beeinflusst. Dafür betrachtet sie 19 entwickelte Industriestaaten im Zeitraum von 1985 bis 2010. Die AV der Untersuchung sind die Lohnersatzraten der Arbeitslosenversicherung – also der Anteil des Lohns in Prozent, den ein durchschnittlicher Industriearbeiter erhält, wenn er arbeitslos wird. Die zentrale unabhängige Variable (UV), die Ideologie der Regierungsparteien, misst die Forscherin über einen Index, der die Positionen der Parteien auf der Links-Rechts-Achse (aus Manifesto-ProjektDaten) mit der Stärke der Parteien an der jeweiligen Regierung gewichtet. So erhält sie ein Maß für die ideologische Position der Regierung auf der Links-Rechts-Achse, das über die Zeit und zwischen den Ländern variiert. Die Forscherin hat nun die Aufgabe, den Zusammenhang zwischen den beiden Variablen unter Kontrolle anderer Einflussfaktoren zu untersuchen. Eine Besonderheit der Analyse besteht darin, dass die Daten sowohl über die Zeit als auch zwischen den Ländern variieren, wobei die Zahl der Zeitpunkte (26 Jahre) die Zahl der Querschnittseinheiten (19 Länder) übersteigt. Aus diesem Grund wählt die Forscherin die gepoolte Zeitreihenreihenanalyse – oder „Times Series Cross Sectional“ (TSCS) Analysis – als Untersuchungsmethode.1 Datenbasis: 19 OECD-Länder, 26 Jahre (1985–2010), d. h. = 19 ∙ 26 = 494 Abhängige Variable (AV): Lohnersatzrate (Replacement Rate) der Arbeitslosenversicherung, Mittelwert für Single und Familie (Scruggs et al. 2013) Ziel der Analyse: Untersuchung der Frage, ob ein Zusammenhang zwischen der parteipolitischen Ideologie der Regierung und der Höhe der Lohnersatzrate der Arbeitslosenversicherung besteht. Anforderungen an die Datenstruktur: Metrische AV, die über Raum und Zeit variiert.
6.1
Variation über Raum und Zeit
Viele politikwissenschaftliche Fragestellungen und Theorien beziehen sich auf Entwicklungen über die Zeit. Wenn gleichzeitig unterschiedliche Länder verglichen werden, vereinigen solche Fragestellungen die Raum- und Zeitdimension. Im Eingangsbeispiel zu diesem Kapitel interessiert sich die Forscherin für die Unterschiede zwischen Ländern und über die Zeit im Hinblick auf die Lohnersatzraten der Arbeitslosenversicherung und stellt die Frage, ob 1
Mehr zu den Begrifflichkeiten und insbesondere der Abgrenzung zwischen gepoolter Zeitreihenanalyse und Panelanalyse, s. u.
120
6 Gepoolte Zeitreihenanalyse
sich diese Unterschiede durch Parteipolitik erklären lassen. Dieser parteipolitische Einfluss könnte sich sowohl im Querschnitt als auch über die Zeit zeigen. Beispielsweise könnten Länder mit einer Rechtsregierung geringere Lohnersatzraten aufweisen als sozialdemokratisch regierte Länder. Ebenso wäre es möglich, dass die Lohnersatzraten nach einem Regierungswechsel angepasst werden, da die neue Regierung eine andere Position vertritt als die bisherige. Zudem können sich über die Zeit auch Positionen von Parteien ändern. Sollen solche Fragestellungen quantitativ bearbeitet werden, bietet sich die gepoolte Zeitreihenanalyse als Methode an. Sie analysiert Daten, die über zwei Dimensionen variieren: zum einen über den Raum, im konkreten Fall untersucht die Forscherin 19 Länder; und zum anderen über die Zeit, also hier über 26 Jahre.2 Die einzelnen Beobachtungen sind damit sozusagen Länderjahre (oder Jahreländer), also Kombinationen aus einzelnen Ländern und einzelnen Jahren. Rechnet man eine einfache lineare Regressionsanalyse über eine solche Datenstruktur, werden diese einzelnen Beobachtungen so behandelt als seien sie völlig unabhängig voneinander – etwa wie Individuen, die man in einer Umfrage zufällig ausgewählt und befragt hat. Gerade dies trifft auf das Beispiel jedoch nicht zu, weil z. B. länderspezifische Pfadabhängigkeiten eine Rolle spielen. Wenn man Entwicklungen über die Zeit und über Länder betrachtet, haben die Daten also eine inhaltliche Struktur – wobei vergleichende Politikwissenschaftler, wie unsere Forscherin im Beispiel, dazu neigen, die Länder als höhere Einheit zu betrachten, in denen dann einzelne Zeitreihen eingebettet sind (vgl. Abb. 6.1).3 Land A
Land B
Land C
Land N
Jahr 1
Jahr 1
Jahr 1
Jahr 1
Jahr 2
Jahr 2
Jahr 2
Jahr 2
Jahr 3
Jahr T Abb. 6.1:
Jahr 3
Jahr T
Jahr 3
Jahr T
Jahr 3
Jahr T
Land
Jahr
A
1
A
2
A
3
A
T
B
1
B
2
B
3
B
T
…
…
Variable 1
…
Datenstruktur
In diesem Kapitel befassen wir uns mit der gepoolten Zeitreihenanalyse als einer Methode zur Untersuchung der beschriebenen Datenstruktur, welche insbesondere in der Vergleichenden Politischen Ökonomie und der Vergleichenden Policy-Analyse häufig verwendet wird. Dabei sind die Länder die übergeordneten Einheiten. Diesen werden die (in der Regel länge2
3
Die Zeitdimension kann natürlich auch aus Wochen, Monaten oder Quartalen bestehen. Jahre sind in der politikwissenschaftlichen Forschung jedoch am häufigsten anzutreffen, weshalb im Folgenden mit diesem Beispiel gearbeitet wird. Man könnte natürlich auch umgekehrt argumentieren, dass die 19 Länder in einzelnen Jahren eingebettet sind. Dann wären die Jahre die höhere Ebene, unter die sich jeweils die 19 Länderbeobachtungen sortieren. In jedem Fall wird an dieser Stelle deutlich, dass die Datenstruktur derjenigen einer Mehrebenenanalyse ähnelt, dass also Beobachtungen auf zwei Ebenen vorliegen, wobei die Beobachtungen der einen Ebene in der anderen gruppiert sind. Aus diesem Grund ist es auch durchaus möglich (und manchmal gibt es sogar sehr gute Gründe dafür, s. u.), ein gepooltes Zeitreihendesign mithilfe einer Mehrebenenregression zu untersuchen (StadelmannSteffen/Bühlmann 2008; Tiemann 2009; Western 1998).
6.1 Variation über Raum und Zeit
121
Irland
0
0
.2
.2
Lohnersatzrate AL .4 .6
Lohnersatzrate AL .4 .6
.8
.8
Belgien
1
1
ren)4 Zeitreihen zugeordnet – was die Denomination der Methode als (über Länder) gepoolte Zeitreihenanalyse erklärt. Organisiert werden diese Daten in der Regel in einer Datenmatrix wie sie in Abb. 6.1 (rechte Seite) exemplarisch dargestellt ist. Bei gepoolten Querschnitten, also kurzen Zeitreihen und sehr vielen Querschnittsbeobachtungen, die auftreten, wenn beispielsweise in Umfragen drei Wellen mit 1000 identischen Teilnehmern durchgeführt werden, sind andere Verfahren angebracht. Diese werden z. B. in der soziologischen Methodenliteratur zur Umfrageforschung ausführlich diskutiert (Andreß et al. 2013). Diese Verfahren werden in Abgrenzung zur gepoolten Zeitreihenanalyse häufig als Panelanalyse oder Panelregression bezeichnet.
−10 0 10 Regierungsposition (je kleiner die Werte, umso linker)
−10 0 10 Regierungsposition (je kleiner die Werte, umso linker) UEmean
Fitted values
1
UEmean
−20
20
20
Fitted values
gepoolt, alle 19 Länder
0
0
.2
.2
Lohnersatzrate AL .4 .6
Lohnersatzrate AL .4 .6
.8
.8
Italien
1
−20
−20
−10 0 10 Regierungsposition (je kleiner die Werte, umso linker) UEmean
Abb. 6.2:
Fitted values
20
−40
−20 0 20 Regierungsposition (je kleiner die Werte, umso linker) UEmean
40
Fitted values
Bivariate Regressionen in einzelnen Ländern; gepoolte Regressionsanalyse
Wie kann man nun mit einer solchen Datenstruktur von gepoolten Zeitreihen umgehen? Eine erste Möglichkeit besteht schlicht darin, für die unterschiedlichen Länder eigene Regressionsgleichungen zu schätzen. Somit würde man die Varianz über die Zeit separat für jedes einzelne Land analysieren. Wenn sich hierbei bestimmte Variablen als erklärungskräftig in 4
Es gibt keine klare Untergrenze für die Zahl der Beobachtungen, die in der Längsschnittdimension notwendig sind. Allerdings stellt sich die Frage, ob bei bspw. vier Jahren die Bildung von Mittelwerten (, die jeder Regression zugrunde liegen, vgl. Kapitel 2) sinnvoll möglich ist. Gleiches gilt für die Modellierung von zeitlicher Dynamik, die eine besondere Herausforderung darstellt wenn T nur vier Beobachtungen umfasst. Insofern sollte T zumindest „not tiny“ oder „reasonably large“ (Beck 2001: 274) sein, wobei weniger als 10 Messpunkte über die Zeit sicherlich zu wenig sein dürften (Beck 2001: 274).
122
6 Gepoolte Zeitreihenanalyse
.4
.5
Lohnersatzraten AL .6 .7
.8
allen Ländern erweisen, wäre das ein Hinweis darauf, dass eine Variable generelle Erklärungskraft beanspruchen kann. Abb. 6.2 zeigt bivariate Scatterplots, in denen die AV (Lohnersatzrate Arbeitslosenversicherung) gegen die ideologische Position der Regierung abgetragen wurde. Die ersten drei Grafiken stellen dabei die Scatterplots für einzelne Länder dar (Italien, Belgien, Irland) – die einzelnen Beobachtungen sind also die Jahre in einem bestimmten Land – während in der vierten Grafik (unten rechts) alle Länder und Jahre zusammen in einer Grafik abgetragen sind. Welche Schlüsse lassen sich aus den Scatterplots ziehen? Erstens zeigt sich, dass ein leicht negativer Zusammenhang zwischen beiden Variablen vorliegt, wenn man alle Daten „zusammenwirft“, also poolt. In Ländern und Jahren, in denen ideologisch linke Regierungen amtierten, liegen die Lohnersatzraten der Arbeitslosenversicherung tendenziell höher als in Ländern und Jahren, in denen die Regierungsposition weiter rechts ist. Allerdings, und das ist der zweite Schluss aus den Daten, ist der Zusammenhang über die Zeit in den drei ausgewählten Ländern sehr unterschiedlich. Für Irland gilt zwar, dass in Jahren, in denen eine ideologisch linke Regierung amtierte, die Lohnersatzraten höher lagen. Dies trifft aber nicht auf Italien und Belgien zu, wo sich keine starken Zusammenhänge bzw. leicht umgekehrte Assoziationen finden. Drittens zeigt sich, dass das Niveau der Lohnersatzraten in den drei Ländern sehr unterschiedlich ist, die Lohnersatzraten z. B. in Belgien grundsätzlich höher liegen als in Irland. Eine zweite Herangehensweise besteht darin, nicht die Variation über Zeit in den einzelnen Ländern zu betrachten, sondern die Variation im Querschnitt – also zwischen den Ländern – zu den einzelnen Zeitpunkten. Abb. 6.3 stellt die Regressionslinien von 26 bivariaten Querschnittsregressionen (für die einzelnen Jahre) zwischen Regierungsposition und Lohnersatzrate dar. Schon auf den ersten Blick fällt auf, dass mit Ausnahme einer Linie alle eine negative Steigung aufweisen. Sprich: In allen Jahren bis auf 2008 (gestrichelte Linie) weisen Länder mit einer linken Regierung eine höhere Lohnersatzrate auf als Länder mit einer rechten Regierung. Dennoch besteht auch hier eine gewisse Variation im Hinblick auf die Größe der Steigung, d. h. die Stärke des Zusammenhangs.
−40
Abb. 6.3:
−20 0 20 40 Regierungsposition (je kleiner die Werte, umso linker)
Bivariate Regressionsschätzungen im Querschnitt für einzelne Jahre
Diese beiden Möglichkeiten, Länder im Querschnitt zu einem bestimmten Zeitpunkt oder Jahre im Längsschnitt in einzelnen Ländern zu analysieren, führen vor Augen, dass es bei der gepoolten Zeitreihenanalyse immer um die Frage geht, welche Varianz analysiert wird. Während sich Ökonomen häufig v. a. für die Entwicklung bestimmter Indikatoren und Zusam-
6.2 Besonderheiten der gepoolten Zeitreihenanalyse
123
menhänge über die Zeit interessieren und die Länderspezifika in den Hintergrund treten (bzw. schlicht möglichst gut statistisch kontrolliert werden sollen), richtet sich der Fokus vergleichender Politikwissenschaftler häufig gerade auf diese Varianz zwischen den Ländern. Diese unterschiedlichen Perspektiven auf ein und dieselbe Datenstruktur sollten sich entsprechend in der Art und Weise niederschlagen, wie Regressionsmodelle über Raum und Zeit modelliert werden (s. u.). In der Notation der Regressionsgleichung ändert sich nur wenig, wenn die zeitliche und die räumliche Dimension zu beachten sind. Die Variablen bekommen – wie im Falle der Mehrebenenanalyse (vgl. Kapitel 5) – Subskripte, die angeben, ob sie über Raum und Zeit variieren, wobei t für die zeitliche und i für die räumliche Variation (Länder) steht. Um die Notation etwas zu vereinfachen, verzichten wir im Folgenden jedoch auf die Aufzählung der einzelnen UVs (z. B. x1, x2, x3) und geben diese als Matrix X an. Die basale Regressionsgleichung für eine gepoolte Zeitreihenanalyse heißt entsprechend: =
+
+
+
+⋯+
oder kurz: =
+
+
(6.1)
wobei b ein Vektor ist, der die räumlich und zeitlich konstanten Schätzparameter für die UVs der Matrix aufnimmt, und a den Achsenabschnitt der Schätzung darstellt, der ebenfalls einheitlich – also über Raum und Zeit konstant – geschätzt wird. Der Fehlerterm – oder das Residuum eit – variiert im Gegensatz dazu mit den beiden Dimensionen, da er die Abweichung der Beobachtungen (Landjahre) von den geschätzten Werten für yit angibt. Gepoolte Zeitreihenanalysen können freilich auch für nicht-metrische AVs berechnet werden. Diese Verfahren werden in der Literatur meist unter den Begriffen Panel-Logit bzw. PanelProbit oder – bei dichotomer AV – unter dem Stichwort binary time-series-cross-section (BTSCS) behandelt. Für die Regressionsschätzung von nicht-metrischen AVs über Raum und Zeit gelten grundsätzlich die gleichen Besonderheiten wie für metrische AVs. Allerdings ändern sich die konkreten Schätzverfahren und Interpretationen. Eine Einführung in die Thematik bieten die Aufsätze von Beck, Katz und Tucker (1998), Green, Kim und Yong (2001), Beck und Katz (2001) sowie Carter und Signorino (2007).
6.2
Besonderheiten der gepoolten Zeitreihenanalyse
Der vergangene Abschnitt hat bereits auf eine Besonderheit von gepoolten Daten hingewiesen – auf ihre gruppierte Struktur und die Heterogenität zwischen den Makroeinheiten. Diese Heterogenität, also die Tatsache, dass die einzelnen Jahre innerhalb der Länder nicht mehr unabhängig voneinander sind, ist die erste zentrale Besonderheit, mit der gepoolte Zeitreihenanalysen umgehen müssen. Die zweite Herausforderung ist die temporale Dynamik – also die zeitliche Struktur der Daten. Gerade bei der Analyse von Beobachtungen in aufeinander folgenden Jahren ist häufig davon auszugehen, dass ein Jahr mit dem Folgejahr kausal zusammenhängt. Dies führt zu Eigenheiten wie serieller Autokorrelation oder NichtStationarität. Drittens sind gepoolte Zeitreihendaten aufgrund ihrer Struktur häufig heteroskedastisch – ein Problem, das schon im Zusammenhang mit der linearen Querschnittsregression diskutiert wurde (vgl. Kapitel 2.5.2), im Falle der TSCS-Regression jedoch besonders
124
6 Gepoolte Zeitreihenanalyse
relevant wird. Zuletzt und viertens können auch räumliche Abhängigkeiten auftreten, wenn beispielsweise ein bestimmtes Land eine Policy von einem anderen Land übernimmt, weil diese dort gut funktioniert. All diese Besonderheiten stellen Herausforderungen an die Regressionsanalyse dar und werden im Folgenden zunächst theoretisch kurz diskutiert. Der nächste Abschnitt zeigt dann, wie eine TSCS-Regression mit Stata berechnet wird, und wie Probleme erkannt und eventuell gelöst werden können. Eine weitere Vorbemerkung ist an dieser Stelle notwendig: Da sich dieser Band an fortgeschrittene Studierende der Politikwissenschaft richtet, denen es primär um die Anwendbarkeit von Methoden für konkrete politikwissenschaftliche Fragestellungen geht, werden die folgenden Ausführungen an der ein oder anderen Stelle nicht bis ins letzte Detail vordringen und stattdessen auf weiterführende Literatur verweisen. Auf diese Weise hoffen wir die Methode einerseits für diejenigen ausreichend zu erklären, die ein grundlegendes Verständnis wünschen, und andererseits denjenigen zumindest einen Weg zum Ziel aufzuzeigen, die eine Lösung für ein sehr spezielles Problem suchen.
6.2.1
Heterogenität
Heterogenität ergibt sich in der gepoolten Zeitreihenanalyse dadurch, dass die Daten, die über Zeit und Länder variieren, gruppiert vorliegen. Damit sind die Beobachtungen, die durch das Poolen von Ländern und Jahren zu Länderjahren entstanden sind, nicht mehr unabhängig voneinander. In Anlehnung an Plümper und Troeger (2009) lassen sich drei Arten von Heterogenität unterscheiden: (1) Heterogenität der Einheiten, d. h. für unterschiedliche Länder liegen unterschiedliche y-Achsenabschnitte vor (sprich: das Niveau der AV unterscheidet sich); (2) Heterogenität der Parameter, d. h. die Zusammenhänge zwischen bestimmten Variablen sind in verschiedenen Ländern unterschiedlich (der Einfluss der parteipolitischen Position der Regierung auf die Höhe des Lohnersatzes in der Arbeitslosenversicherung ist unterschiedlich); (3) Heterogenität der Dynamiken und Lagstrukturen, d. h. die zeitliche Struktur der Effekte ist in den Ländern verschieden (in einem Westminster-System können Regierungen ihre parteipolitischen Präferenzen schneller in Policies umsetzen als in Konsensusdemokratien mit vielen institutionellen Barrieren). Im Folgenden gehen wir ausführlich auf die Heterogenität der Einheiten ein, da hierzu eine Vielzahl von Herangehensweisen diskutiert wird, und widmen uns dann kurz den beiden anderen Fällen von Heterogenität. Heterogenität der Einheiten Heterogene Einheiten liegen dann vor, wenn einzelne Länder sehr unterschiedliche yAchsenabschnitte aufweisen.5 Warum treten Schwierigkeiten auf, wenn hierfür eine „einfa5
Alle Punkte, die in diesem Abschnitt zum Thema Heterogenität der Länder diskutiert werden, lassen sich völlig parallel auf die Heterogenität von Jahren übertragen. Diese liegt vor, wenn die Jahresquerschnitte sehr unterschiedlich sind, das Jahr 2000 z. B. völlig anders „tickt“ als das Jahr 2001. Auch hier können Fixed Effects berechnet werden, indem für jedes Jahr ein Dummy aufgenommen wird (oder über De-meaning, s. u.). Um eine Unterscheidung zwischen den beiden Varianten treffen zu können, werden diese häufig als FE(T) (für Time) bzw. FE(C) (für Country) bezeichnet. In Fragestellungen der Vergleichenden Politikwissenschaft trifft man jahresspezifische Heterogenität etwas weniger häufig an als länderspezifische. Allerdings ist es bei manchen Fragestellungen überlegenswert, z. B. ganze Perioden von mehreren Jahren über einen gemeinsamen Dummy abzubilden, wenn diese Jahre eine Eigenschaft gemein haben – etwa die Jahre einer Wirtschaftskrise. Auch ist eine Kombination beider Arten von FE möglich. Dies wird in der Ökonometrie als two-way-fixedeffects-Modell bezeichnet (im Unterschied zu den unten diskutierten one-way-FE-Modellen) (Baltagi 2008).
6.2 Besonderheiten der gepoolten Zeitreihenanalyse
125
0
Abhängige Variable 10 20
30
che“ OLS-Regression über alle Länderjahre als Beobachtungen geschätzt wird? Abb. 6.4 illustriert dies. Dort wurde eine gepoolte Regression über drei Länder „hinweg“ geschätzt, ohne die gruppierte Struktur der Daten und die starke Heterogenität der Länder zu beachten. Die Regressionslinie für die gepoolte Schätzung (gestrichelte Linie) zeigt einen negativen Zusammenhang zwischen der UV und der AV an. Betrachtet man jedoch die drei Länder separat (durchgezogene Linien bei den Beobachtungen), so findet man einen eindeutig positiven Zusammenhang zwischen UV und AV, wobei die Steigungen der Geraden genau gleich, die Achsabschnitte jedoch sehr unterschiedlich sind. Im Ergebnis hätte uns also die Schätzung einer einfachen OLS-Regression über die Länder und Jahre hinweg zu einem falschen Schluss kommen lassen – einzig aus dem Grund, dass die Daten gruppiert sind und sich die Achsabschnitte der drei Gruppen stark unterscheiden.
−10
0
10
20
Unabhängige Variable
Abb. 6.4:
Unit-Heterogenität und gepoolte OLS
In der vergleichenden Politikwissenschaft ist solche unbeobachtete (also nicht modellierte) Heterogenität zwischen den Ländern durchaus plausibel, das zeigen z. B. die Ergebnisse der bivariaten Regressionen in Abb. 6.2. Im Fehlerterm der Regression stecken also nicht nur einfach zufällige Messfehler, sondern bei starker Heterogenität höchstwahrscheinlich unbeobachtete länderspezifische Variablen, die den Schätzer für die gepoolte OLS verzerren, wenn sie mit den UVs korreliert sind und zugleich einen Effekt auf die AV haben Um dies zu vermeiden, zerlegt man den Fehlerterm eit in zwei Komponenten: In einen einheitenspezifischen Fehler ui, der für jede Einheit separat geschätzt wird und zeitkonstant ist (daher nur noch das Subskript i trägt); sowie in ein Residuum vit, das die übrigbleibende unerklärte Variation aufnimmt (idiosynkratischer Fehler) (s. Gleichung (6.2)). =
+
+
+
(6.2)
Warum dieser zerlegte Fehlerterm? Im ursprünglichen gepoolten Modell haben wir alle Beobachtungen so behandelt, als seien sie völlig unabhängig voneinander. Die Variation, die unser Regressionsmodell nicht erklären konnte, wanderte in den Fehlerterm eit. Nun wissen wir jedoch, dass es einheitenspezifische Prädiktoren gibt, etwa das spezifische sozialgeschichtliche Erbe eines Landes, welches die Generosität seiner Arbeitslosenversicherung prägt. Dieses Erbe führt dazu, dass die Beobachtungen (Jahre) innerhalb eines Landes eben gerade nicht unkorreliert sind, wie es für die Schätzung eines „einfachen“ OLS Modells nötig wäre, sondern gruppiert in einem Land vorliegen. Aus diesem Grund werden diese
126
6 Gepoolte Zeitreihenanalyse
einheitenspezifischen unbeobachteten Prädiktoren von y aus dem ursprünglichen Residuum in einen einheitenspezifischen Fehlerterm „ausgegliedert“, während alle anderen unbeobachteten Prädiktoren von y, die über Zeit und Länder variieren, sowie mögliche zufällige Messfehler im Fehlerterm vit verbleiben (als sog. „weißes Rauschen“). Das Residuum einer so geschätzten Regression sollte also völlig zufällig und unsystematisch aussehen (dazu unten mehr). Fixed Effects, gepoolte OLS oder Random Effects Im Prinzip gibt es zwei Möglichkeiten, mit dem auf diese Weise isolierten, einheitenspezifischen Fehler ui umzugehen. Entweder man nimmt an, dass der einheitenspezifische Fehler nicht mit den anderen Prädiktoren des Modells korreliert ist und somit einen zufälligen Fehler auf Länderebene darstellt – dann kann man prinzipiell eine einfache gepoolte OLSRegression (mit korrigiertem Standardfehler) schätzen oder aber einen Random-EffectsSchätzer (RE) benutzen, der effizientere Schätzergebnisse hervorbringt.6 Die vorangehende Darstellung hat indes gezeigt, dass eben diese Annahme gerade für die Fragestellungen der Vergleichenden Regierungslehre häufig nicht zutrifft, die unterschiedliche Länder behandelt. Die Alternative hierzu ist der sogenannte Fixed-Effects-Schätzer (FE), der die Heterogenität der Einheiten absorbiert.7 Der einfachste Weg, um sich klarzumachen wie der FE-Schätzer funktioniert, führt über die Aufnahme von Dummy-Variablen – der sogenannte Least-Squares-Dummy-Variables-Ansatz (LSDV). Sprich: Für jedes Land im Sample (bis auf eines, die Referenz (allgemeiner zu Dummies, vgl. Kapitel 2.4)), wird ein Dummy in die Schätzung aufgenommen, der die einheitenspezifische Heterogenität absorbiert. Bei 19 Ländern in unserem Beispiel, sind das entsprechend 18 Staaten als Dummy-Variablen.8 Signifikante Ergebnisse für einen bestimmten Dummy zeigen dann an, dass das entsprechende Land mit seinen Spezifika (im Vergleich zur gewählten Referenzkategorie) einen signifikanten Einfluss auf die UV ausübt. LSDV hat den Vorteil, dass man sehr plastisch über die Koeffizienten für die Länderdummies sieht, wie relevant die Einflüsse der jeweiligen Länder auf die Regressionsschätzung sind. Der Nachteil
6
7
8
Das Problem bei einer simplen (gepoolten) OLS liegt in dem Fall darin, dass starke serielle Autokorrelation im Fehlerterm auftreten kann, dass also die Werte eines Jahres mit denen des Folgejahres hoch korrelieren (mehr zur seriellen Autokorrelation, s. u.). Der Grund hierfür ist, dass der ursprüngliche Fehlerterm eit aus zwei Teilen besteht, aus ui und vit. Weil nun aber der einheitenspezifische Fehler ui in jeder Zeitperiode derselbe ist (er variiert ja gerade nicht über die Zeit), sind die vit, die im einfachen gepoolten OLS-Modell geschätzt würden, seriell (d. h. über die Zeit) miteinander korreliert. Wenn diese Korrelation sehr stark ist, sind die Standardfehler zu groß, d. h. die Schätzung ist ineffizient. Es gibt unterschiedliche Möglichkeiten, damit umzugehen – etwa, indem man Random Effects schätzt (Wooldridge 2013: 474), oder gepoolte OLS mit einer Schätzung der Kovarianzmatrix, die das Korrelationsproblem korrigiert (z. B. in Stata bspw. über die Option cluster bei einer Regression). Eine gelungene Diskussion der Vor- und Nachteile von Random Effects findet sich bei Giesselmann und Windzio (2012: 79–88). Random-Effects-Modelle ähneln Random-Intercept-Modellen in der Mehrebenenanalyse (vgl. Kapitel 5). Mithilfe statistischer Tests (F-Test, Hausman-Test) kann ermittelt werden, ob RE oder FE geschätzt werden sollten, ob also eine Korrelation des einheitenspezifischen Fehlers mit den weiteren Prädiktoren von Y besteht oder nicht (Wooldridge 2013: 288–291) (zu Anwendung in Stata, s. u.). Daneben ist jedoch auch von zentraler Bedeutung, welche theoretische Fragestellung beantwortet werden soll. FE sind z. B. insbesondere dann problematisch, wenn man an der Varianz zwischen den (Niveaus der AV) der untersuchten Länder interessiert ist. Den Einfluss der Referenzkategorie kann man dann am Intercept ablesen. Alternativ kann man auch alle 19 Länder als Dummies aufnehmen und in den Schätzungen wird jeweils von Stata ein Dummy eliminiert, weil er perfekt ko-linear zu den anderen ist.
6.2 Besonderheiten der gepoolten Zeitreihenanalyse
127
dieses Ansatzes ist es freilich, dass für jeden Staatendummy ein Freiheitsgrad verbraucht wird. Alternativ zur LSDV-Schätzung können FE-Regressionen auch über das sogenannte Demeaning berechnet werden – beide Verfahren sind rechnerisch äquivalent. Hierbei drückt man die Länderjahr-Beobachtungen als Abweichung vom länderspezifischen Mittelwert aus. Wenn also in einem Land der Mittelwert für die Lohnersatzrate im Beobachtungszeitraum bei 70 Prozent lag und im Jahr 2002 auf 72 Prozent steigt, dann hat die Beobachtung im Jahr 2002 in diesem Land den Wert 2. Unterdurchschnittliche Werte erhalten entsprechend negative Vorzeichen.9 Folgende Regressionsgleichungen verdeutlichen dies. Sie nehmen jeweils eine zeitveränderliche Variable x und eine Variable z auf, die nicht über die Zeit variiert. Ausgangspunkt ist folgendes Modell10: =
+
+
+
(6.3)
Im nächsten Schritt wird von jedem Wert der einheitenspezifische Mittelwert abgezogen, wobei von der zeitinvarianten Variablen zi sowie dem einheitenspezifischen Fehlerterm ui der Mittelwert dem Wert der Variablen (im jeweiligen Land) entspricht (s. Formel). Entsprechend gilt nach De-meaning: (
−
)=
(
− ̅ )+
( − )+(
−
)+(
− ̅)
(6.4)
Es zeigt sich, dass – wie bereits oben erwähnt – die zeitinvariante Variable zi nicht geschätzt werden kann. Aufgrund des De-meaning fällt sie aus der Gleichung heraus. Gleiches gilt auch für den einheitenspezifischen Teil des Fehlerterms (ui). Damit hat die Transformation der Daten ihren Zweck erfüllt: Der einheitenspezifische Teil des Fehlers, der also auf die Besonderheiten der Länder zurückgeht, wird durch das De-meaning vollständig eliminiert. Somit kann er auch nicht mehr mit den Prädiktoren des Modells korreliert sein, ein „omitted variable bias“ und verzerrte Koeffizienten für die UVs sind somit unmöglich. Im Fehlerterm verbleibt nur noch das „de-meante“ Residuum vit, das man freilich weiterhin auf seine Eigenschaften hin testen sollte. Ist damit die FE-Schätzung der Königsweg für die gepoolte Zeitreihenanalyse, wenn man es mit einheitenspezifischer Heterogenität zu tun hat? Für Fragestellungen der Wirtschaftswissenschaften mag das zutreffen, da diese häufig nicht primär auf die Erklärung von Unterschieden zwischen Ländern abzielen, sondern auf Zusammenhänge, die in allen Ländern gleichermaßen gelten (etwa der Effekt von Verschuldung auf Wirtschaftswachstum). In diesen Fällen sind FE ein großer Vorteil, da sie die Untersuchung genereller Zusammenhänge unter Kontrolle für die Idiosynkrasien der Staaten erlauben. Vergleichende Politikwissenschaftler haben jedoch meist einen anderen Fokus. Sie interessieren sich in der Regel gerade für die (Niveau-)Unterschiede zwischen Ländern – und diese werden durch die FE quasi „zugedeckt“, weil die Dummies (bzw. das De-meaning) die Länderspezifika komplett absorbieren. Plümper und Troeger, zwei Spezialisten der gepoolten Zeitreihenanalyse, schreiben deshalb, dass man keine FE inkludieren sollte, wenn man hauptsächlich an Niveauunter9
10
Eine FE-Regression über De-meaning wird in Stata automatisch durch den Befehl xtreg, fe geschätzt, der auch die Freiheitsgrade anpasst. Man kann natürlich die Daten auch von Hand zuvor transformieren und dann eine normale OLS schätzen (ohne Konstante) – und erhält identische Koeffizienten, jedoch etwas zu optimistische Standardfehler aufgrund der fehlenden Anpassung der Freiheitsgrade (ausführlich hierzu: Giesselmann/Windzio 2012: 137–139). Hier der einfachen Darstellung wegen ohne Konstante geschätzt.
128
6 Gepoolte Zeitreihenanalyse
schieden zwischen Ländern interessiert ist (Plümper et al. 2005: 334): “In these cases, allowing for a mild bias resulting from omitted variables is less harmful than running a fixed effects specification”. Für die Anwendung von FE in der Politikwissenschaft heißt das nun v. a. eines: zurück zur Theorie. Denn wenn die Forschungsfrage und die Theorie insbesondere auf die Veränderung über die Zeit abstellen und Unterschiede zwischen Ländern nicht von zentraler Bedeutung sind, dürfte eine FE-Spezifikation genau die richtige Wahl sein. Wenn man sich jedoch – wie die eingangs erwähnte Forscherin – gerade für die Erklärung von Niveau-Unterschieden zwischen Ländern interessiert, führen FE am Ziel vorbei. Denn die Regressionsgleichung erklärt dann eine transformierte AV: nicht mehr die Unterschiede zwischen den Ländern im Niveau (wer hat höhere Lohnersatzraten in der Arbeitslosenversicherung?), sondern nur noch die Abweichung (der jährlichen Lohnersatzraten) von den länderspezifischen Mittelwerten. Entsprechend beantwortet die Regressionsanalyse schlicht und ergreifend die Forschungsfrage nicht richtig.11 In diesem Fall steckt man in einer schwierigen Lage, aus der kein rezeptbuchartiger Lösungsweg führt. Daher wollen wir mehrere mögliche Vorgehensweisen erläutern, um mit solchen alltäglichen Problemen der makro-quantitativen ländervergleichenden Forschung umzugehen. Die ersten Ansätze versuchen dabei, pragmatisch mit dem Problem umzugehen, die anderen stellen alternative Spezifikationen vor. Fixed Effects, Erklärungen von Niveaus und zeitinvariante Variablen Der erste Lösungsweg besteht aus einer Mischung aus theoretischen Überlegungen und empirischen Annäherungsversuchen, die man guten Gewissens als theoretisch informiertes „data mining“ beschreiben kann. Dabei versucht man durch Theoriearbeit und Durchsicht des Forschungsstands zum Untersuchungsgegenstand möglichst geeignete Indikatoren zu finden, um länderspezifische Unterschiede aufzufangen. Ziel ist es, die länderspezifische Heterogenität so weit wie möglich inhaltlich zu erklären anstatt sie über Länderdummies schlicht zu absorbieren. Auf Grundlage dieser theoretischen Erwägungen schätzt man ein erstes Modell ohne FE und betrachtet die Residuen genau. Zeichnen sich im Residualplot (z. B. Residuen vs. vorhergesagte Werte) Ländergruppen ab, kann erneut theoretisch nach möglichen Einflussfaktoren gesucht werden, welche diese Cluster gut erklären und entsprechend ins Modell aufgenommen werden sollten. Mit diesem Wechselspiel aus theoretischer und empirischer Arbeit reduziert man die Heterogenität der Einheiten auf einem inhaltlichen Weg – versucht also auf diese Weise, so „saubere“ Residuen wie möglich zu erhalten (sprich: der Residualplot sollte so zufällig wie möglich aussehen).12 Allerdings erfordert dieses Vorgehen häufig Ausdauer und Frustationstoleranz, wenn nach mühsamer Erstellung eines neuen Indikators der gewünschte Effekt ausbleibt und die Heterogenität weiterhin sehr hoch ist. Ein zweiter Ansatz besteht darin, über eine LSDV-Schätzung ohne die zeitinvarianten (oder kaum variierenden) Variablen den Einfluss der einzelnen Länder zu eruieren. Diese Schätzung dient zwei Zwecken: Zum einen bieten die Ergebnisse für die Dummies einen Einblick in die Länder oder Ländergruppen, die besonders einflussreich sind. Dies kann ein erneuter Anhaltspunkt für eine Modellierung über Variablen sein. Sind z. B. in unserer eingangs for11 12
Das gilt auch für die LSDV-Schätzung, da die Inklusion von − 1 Länderdummies und De-meaning äquivalent sind. Anschauliche Beispiele zum Umgang mit Residuendiagnostik finden sich z. B. in der quantitativen Analyse der Bildungsausgaben der deutschen Bundesländer bei Wolf (2006).
6.2 Besonderheiten der gepoolten Zeitreihenanalyse
129
mulierten Fragestellung die Dummies für alle skandinavischen Länder stark und signifikant mit den Lohnersatzraten korreliert, so müsste man nach einer theoretischen Erklärung suchen und diese über einen Indikator in die Schätzgleichung aufnehmen (z. B. starke Linksparteien in der Nachkriegszeit). Zum anderen erlaubt die LSDV-Schätzung einen Vergleich der Ergebnisse mit dem ersten Modell ohne FE. Weichen die Koeffizienten wenig voneinander ab, ist es ein gutes Zeichen: Die Heterogenität wurde anscheinend durch die inhaltlichen Variablen im Modell ohne FE gut aufgefangen. Führt dieses Vorgehen nicht zum Ziel, kann ein dritter Weg auch darin bestehen, das Ländersample zu „homogenisieren“, damit die Spezifika der Länder weniger ausgeprägt sind. Dies ist natürlich ein vergleichsweise extremer Schritt, da nun einige Länder schlicht ausgeschlossen werden. Entsprechend hängt es auch von der Fragestellung bzw. deren Reichweite ab, ob das Sample verändert wird. Manchmal finden sich jedoch gute Gründe, warum einige Staaten anders „ticken“ als andere. Wenn diese Gründe nicht über Variablen modelliert werden können, z. B. weil sie nicht gut messbar sind oder die Messung nicht valide ist, ist die Veränderung oder ein Aufspalten des Samples ein möglicher Ausweg. Klar ist jedoch auch, dass dieses Vorgehen nur möglich ist, wenn man nicht den Anspruch hat, aus einem zufallsausgewählten Sample generalisierbare kausale Schlüsse zu ziehen, sondern die Regressionsanalyse zur Identifikation korrelativer Zusammenhänge und zur Herausarbeitung von Datenmustern nutzt, die gepaart mit theoretischen Überlegungen und qualitativer Evidenz zu plausiblen kausalen Schlüssen führen können. Neben diesen drei pragmatischen Lösungen existieren alternative Schätzer, mit denen Niveaueffekte mit zeitinvarianten Variablen modelliert werden können und gleichzeitig die Heterogenität der Einheiten berücksichtigt wird.13 Zum einen ist dies der sogenannte FixedEffects-Vector-Decomposition-Schätzer (kurz: FEVD), den Vera Troeger und Thomas Plümper entworfen haben (Plümper/Troeger 2007; Plümper/Troeger 2011). Er versucht, grob gesprochen, einen Mittelweg zwischen FE und pooled OLS zu gehen und erlaubt es auch Variablen in die Gleichung aufzunehmen, die auf die Länderspezifika abstellen und kaum bzw. gar nicht über die Zeit variieren. Allerdings war der FEVD-Schätzer in der jüngeren Vergangenheit nicht ganz unumstritten (Beck 2011; Breusch et al. 2011; Greene 2011). Zum zweiten schlagen manche Autoren sogenannte hybride Modelle vor, die RE und FE kombinieren. Der Vorschlag von Allison (2009) ist z. B., ein RE-Modell zu schätzen, wobei dabei die zeitvarianten Variablen zweifach aufgenommen werden: Einmal de-meaned (also quasi wie bei FE) und einmal als Mittelwert für die jeweiligen Länder. Ein vergleichbares Modell zeigen auch Andreß et al. (2013: 157, 164). So erhält man konsistente Koeffizienten für beide – die zeitunveränderlichen und die zeitvarianten – Variablen. Beide Modelle beziehen sich jedoch auf Paneldaten ( < ) und wurden bisher nach unserem besten Wissen nicht im TSCS-Design ( > ) angewendet. Eine dritte Möglichkeit, um durch die Methode selbst auf Heterogenität der Einheiten zu reagieren ohne diese vollständig zu absorbieren, ist die sogenannte First-DifferenceSchätzung. In der Ökonometrie wird damit meist eine Transformation der UVs und der AV in erste Differenzen (also Veränderungen zum Vorjahr) beschrieben, die – ähnlich wie bei einer FE-Schätzung – die Heterogenität im Querschnitt vollständig eliminiert (Wooldridge 2013: 489–491). Dies löst also das Problem der Schätzung von zeitlich invarianten Variablen nicht. Kittel und Winner (2005) schlagen hingegen vor, nur die AV zu transformieren: Anstatt die 13
Die Schätzer werden hier nur genannt. Für eine Erläuterung ist die zitierte Literatur zu Rate zu ziehen.
130
6 Gepoolte Zeitreihenanalyse
Niveaus zu analysieren, untersucht man die jährlichen Veränderungen der AV. Durch diese Transformation fallen die großen Länderunterschiede heraus, es bleiben die Trends übrig und die Heterogenität wird stark reduziert. Allerdings gilt auch in diesem Fall, dass sich die Fragestellung mit der Transformation der AV verändert. Anstatt zu analysieren, welche Variablen die Niveauunterschiede der Lohnersatzraten zwischen den Staaten erklären, untersucht man, wie sich die unterschiedliche Entwicklung, also der Trend, erklären lässt. Entsprechend gilt auch hier: Optiert man für eine Schätzung der ersten Differenzen, muss dies aus theoretischer Sicht wohlüberlegt sein. Between- und Within-Schätzungen In der Ökonometrie wird häufig auch zwischen Between-Schätzung und Within-Schätzung unterschieden. Diese Unterscheidung bezieht sich einerseits auf die Perspektive, aus der man auf TSCS-Daten blickt, und andererseits auf die daraus folgenden Analyseverfahren. Die Within-Schätzung umfasst dabei die oben genannten Ansätze, bei denen die länderspezifische Heterogenität komplett ausgeschaltet wird (also das FE-Modell und die FirstDifference-Schätzung (nach klassischer ökonometrischer Spielart)) und die Aussagen über Zusammenhänge daher alleine auf der Varianz innerhalb eines Landes beruhen (daher Within-Schätzer). Man nutzt hier also das Paneldesign aus und analysiert einen Zusammenhang aufgrund eines intertemporalen Vergleichs, fokussiert demnach auf die Zeitvarianz. Die Perspektive der Between-Schätzung hingegen nimmt die Unterschiede im Querschnitt in den Blick. Hier rückt die Varianz zwischen den Ländern in den Vordergrund. In der Praxis ist der Between-Schätzer nichts anderes als eine Querschnittsregression der gemittelten Jahresbeobachtungen der Länder (bei drastisch reduziertem N – in Beispielfall 19 Staaten). Diese Unterscheidung bringt uns zurück zum Ausgangspunkt der Diskussion von Heterogenität: Die gepoolte Zeitreihenanalyse vereint Längsschnitts- und Querschnittsvariation, die in Within- und Between-Varianz zerlegt werden kann. Daher ist es für Politikwissenschaftler besonders wichtig, sich vor einer Regression gepoolter Zeitreihen zunächst theoretisch darüber klar zu werden, welche Varianz von besonderem Interesse ist und welche theoretischen Erwartungen über kausale Zusammenhänge die zeitliche Varianz bzw. die Querschnittsvarianz betreffen. Heterogenität der Steigungen In Abb. 6.2, die bivariate Regressionen zwischen der ideologischen Position einer Regierung und der Höhe der Lohnersatzraten darstellt, zeigten sich je nach Land sehr unterschiedliche Zusammenhänge. Diese Heterogenität wurde bisher nur im Hinblick auf den yAchsenabschnitt diskutiert (vgl. Abb. 6.4). Die Daten in Abb. 6.2 zeigen jedoch, dass auch der Zusammenhang zwischen Regierungsposition und Lohnersatzrate in den einzelnen Ländern variiert, d. h. die Steigungen der Regressionsgeraden für einzelne Länder sehr unterschiedlich sind (vgl. Belgien und Irland). Diese Art von Heterogenität weist im Kern auf eine Interaktion zwischen der erklärenden Variable (hier der Regierungsposition) und einer länderspezifischen Variable hin (vgl. Kapitel 3): In unserem Beispiel ist also der Einfluss der parteipolitischen Position der Regierung auf die Lohnersatzraten abhängig von einer (noch unbekannten) Drittvariable – z. B. der institutionellen Struktur eines Landes. Inhaltlich interpretiert hieße das, dass der Einfluss von Parteiideologie nur dann voll auf die Sozialpolitik durchschlägt, wenn es die politischen Institutionen eines Landes erlauben. Entsprechend wäre der Effekt der parteipolitischen Position mit einer Institutionen-Variable zu interagie-
6.2 Besonderheiten der gepoolten Zeitreihenanalyse
131
ren, wodurch die Heterogenität reduziert würde. Insofern ist der erste Schritt, um die Heterogenität der Koeffizienten zu reduzieren, auf Ebene der Theorie über mögliche Interaktionen nachzudenken und diese zu modellieren. Eine zweite Möglichkeit besteht darin, ein sogenanntes Random-Coefficients-Modell (RC) zu schätzen. Beck und Katz zeigen, dass hier eine Maximum-Likelihood-Schätzung die besten Ergebnisse produziert (Beck/Katz 2007). RC reagiert auf die Heterogenität der Parameter, indem es schlicht einheitenspezifische Koeffizienten erlaubt: Wir haben solche Modelle im Kapitel zur Mehrebenenanalyse unter dem Namen Random Slopes diskutiert. Aus diesem Grund verweisen wir an dieser Stelle auch auf die Ausführungen in Kapitel 5 (auch zur Schätzung in Stata) sowie auf einen kurzen aber instruktiven Abschnitt im Lehrbuch von Giesselmann und Windzio (2012: 117–125). Heterogenität der Dynamiken oder der Lagstruktur Plümper und Troeger (2009) fügen den beiden „klassischen“ Formen von Heterogenität (Achsabschnitt und Steigung) eine dritte Variante hinzu – die Heterogenität der Dynamiken und Lagstrukturen. Zunächst zu den Dynamiken: Gepoolte Zeitreihenanalysen haben mit dem für Zeitreihen klassischen Problem der seriellen Autokorrelation zu kämpfen – d. h., dass die Werte des Zeitpunkts t mit den Werten des Vorjahres ( − 1) (oder auch des Vorvorjahres ( − 2)) korreliert sind (mehr dazu im nächsten Abschnitt). Wenn diese Dynamiken in einzelnen Ländern unterschiedlich sind, haben wir es mit heterogenen Dynamiken zu tun. Um diese zu modellieren, schätzt man ein RC-Modell (lässt also heterogene Steigungen zu) und nimmt eine zeitverzögerte AV auf, die die zeitliche Dynamik modelliert und deren Koeffizient je nach Land unterschiedlich ausfallen kann. Eine verwandte, aber etwas andere Art von Heterogenität liegt vor, wenn in bestimmten Ländern unterschiedliche Lagstrukturen bestehen – wenn also z. B. Regierungen mit einer unterschiedlichen Zeitverzögerung (Lag) auf Problemlagen reagieren: In manchen Ländern geht das sehr schnell, in anderen brauchen sie (aus ganz unterschiedlichen Gründen) etwas länger. Die zeitlich sehr unterschiedlichen Reaktionen der Länder auf die Finanzkrise mit Konjunkturpaketen sind hierfür ein gutes Beispiel. Für die Modellierung einer solchen heterogenen Lagstruktur gibt es keine Patentlösung. Plümper et al. (2005) schlagen vor, mithilfe unterschiedlicher Fitmaße auszuprobieren, welche Lagstruktur in einem Land angemessen erscheint, und nutzen in ihrem Papier einen additiven Index zur Beurteilung der optimalen Lagstruktur. Die Ergebnisse ihres Beitrags zum Einfluss von Linksparteien auf Sozialausgaben zeigen, dass bei einer optimierten Lagstruktur (je nach Land entweder ein, zwei oder drei Jahre) der geschätzte Effekt 40-mal stärker ausfällt, als wenn ein uniformer Lag für alle Länder angenommen wird. Dies bleibt jedoch ein stark datengetriebenes Vorgehen und eignet sich insbesondere dann, wenn man gerade an der Lagstruktur an sich interessiert ist.
6.2.2
Zeitliche Dynamik
Eine zweite Besonderheit gepoolter Zeitreihendaten besteht in deren temporaler Struktur. Häufig sind Zeitreihendaten seriell autokorreliert, d. h. das Vorjahr beeinflusst das Folgejahr etc. (negativ: auf einen Anstieg folgt eine Rückgang; positiv: auf einen Anstieg folgt ein Anstieg, bzw. auf eine Abnahme eine Abnahme). Autokorrelation im Fehlerterm führt zu ineffizienten Schätzern, d. h. die Standardfehler und Konfidenzintervalle werden falsch
132
6 Gepoolte Zeitreihenanalyse
berechnet. Eine besondere (und besonders schwerwiegende) Form von Autokorrelation liegt vor, wenn der Residualterm nicht-stationär ist. In diesem Fall würde eine normale OLS stark verzerrte Koeffizientenschätzer liefern („spurious regression“). Nicht-Stationarität zeigt sich, wenn Daten einen klaren Trend aufweisen – also im Beobachtungszeitraum nur ansteigen (z. B. die mittlere mit grauen Dreiecken bezeichnete Datenreihen in Abb. 6.5) – oder aber in einem sogenannten „random walk“ um einen Wert mäandern (Abb. 6.5 obere mit schwarzen Dreiecken bezeichnete Reihe). Schließlich gibt es auch die Kombination beider Fälle, also einen klaren Zeittrend mit leichter Variation (untere weiße Dreiecks-Reihe in Abb. 6.5). Autokorrelation und Nicht-Stationarität können dabei sowohl für einzelne Zeitreihe von Variablen als auch für die Residuen nachgewiesen werden (die y-Achse in Abb. 6.5 kann also sowohl die Residuen als auch einzelne Variablen bezeichnen) – in der Regel werden aber insbesondere die Residuen betrachtet (s. u.). Für beide Fälle zeitlicher Dynamik in gepoolten Zeitreihenmodellen gibt es Reaktionsmöglichkeiten, die im Folgenden beschrieben werden.
2000
2002
2004
2006
2008
2010
Anm.: Punkte-Reihe: Serielle Autokorrelation, keine Nichtstationarität; Dreiecks-Reihen: Nicht-Stationarität (und serielle Autokorrelation) Abb. 6.5:
Autokorrelation und Nicht-Stationarität
Nicht-Stationarität Nicht-Stationarität im Fehlerterm führt zu verzerrten Schätzern, weshalb die Residuen daraufhin geprüft werden sollten. Stationarität lässt sich in einzelnen Datenreihen testen, indem man eine Autoregression, d. h. eine Regression der zeitverzögerten AV auf die AV durch= + + (am besten mit FE) berechnet. Wenn der Koeffizient der führt, also gelagten AV (b) nahe 1 liegt bzw. das zugehörige Konfidenzintervall die 1 inkludiert, besteht ein Problem der Nicht-Stationarität. Im Falle multipler Regressionen interessiert insbesondere, ob die AV unter Kontrolle ihrer Prädiktoren stationär ist. Aus diesem Grund liefert in diesem Fall insbesondere eine Autoregression der Residuen auf ihre zeitverzögerten Residuen eine sinnvolle Aussage zur Frage der Stationarität (vgl. Gleichung (6.5)).
6.2 Besonderheiten der gepoolten Zeitreihenanalyse
133
Daneben existieren eine Reihe von Tests (sogenannte Unit-Root-Tests), wie etwa der Levinlin-, der Hadri- oder der Im-Pesaran-Shin-Test, die Nicht-Stationarität in den Daten anzeigen (in Stata implementiert oder als Ado-File herunterzuladen).14 Welche Reaktionsmöglichkeiten gibt es bei nicht-stationären Daten? Eine erste, radikale Lösung besteht darin, statt der Niveaus die ersten Differenzen der AV zu schätzen, also nur die Anpassungen von Jahr zu Jahr. Dies dürfte in der Regel das Nicht-Stationaritäts-Problem lösen; zweitens haben Ökonometriker eine Reihe spezialisierter Verfahren entwickelt, um mit diesen Problemen umzugehen (Ko-Integrationsmodelle oder Error-Correction-Modelle (ECM), hierzu ausführlich: Baltagi (2008: 273–310)). Diese Modelle werden häufig bei sehr langen Zeitreihen angewendet – ihre Nutzung für die vergleichende Politikwissenschaft (mit häufig etwas kürzeren Zeitreihen) steckt noch in den Kinderschuhen. Allerdings gibt es – bei allen Schwierigkeiten, die Nicht-Stationarität grundsätzlich mit sich bringt – in jüngster Zeit einige Stimmen, die argumentieren, dass die damit verbundenen Probleme für klassische Untersuchungsobjekte der vergleichenden Policy-Forschung und der vergleichenden Politischen Ökonomie etwas weniger relevant sind (Beck/Katz 2011: 342– 344). Grund hierfür ist, dass viele der Daten, die dort analysiert werden – etwa Staatsausgaben in Prozent des BIP oder prozentuale Kabinettssitzanteile –, nach oben und unten limitiert sind (und z. B. nur von 0 bis 100 laufen) (Kittel 2005: 106). Diese Variablen können per Definition nicht unendlich wachsen, weshalb hier alleine aus konzeptionellen Gründen die klassischen Probleme der Nicht-Stationarität nach Ansicht von Beck und Katz (2011: 343) weniger zutreffen sollten – und das selbst, wenn Tests für die konkreten Zeitreihen NichtStationarität suggerieren. Die Autoren empfehlen, im Zweifelsfall Error-Correction-Modelle zu schätzen, die mit stationären und nicht-stationären Daten umgehen können (ausführlicher dazu, s. De Boef/Keele 2008).15 Serielle Autokorrelation Serielle Autokorrelation ist, im Vergleich zu Nicht-Stationarität, ein geringeres Problem, da sie „nur“ zu ineffizienten Schätzergebnissen, nicht aber zu verzerrten Koeffizienten führt. Dennoch lohnt es sich, über die dynamischen Prozesse nachzudenken, die serielle Autokorrelation hervorrufen. Inhaltlich bedeutet serielle Autokorrelation zunächst einmal nichts anderes, als dass (bei einer einjährigen Struktur) die AV des Vorjahres mit der des Folgejahres korreliert ist. Dynamische Modelle versuchen, diese Korrelationsstruktur zu modellieren. Hinsichtlich der Erklärung der AV ist zu erwarten, dass dasjenige Modell, welches die AV des Vorjahres erklärt, auch die AV des Folgejahres erklären sollte. Mit anderen Worten findet dann der Einfluss der UV auf die AV nicht innerhalb von einer Periode statt, sondern hält auch noch in den Folgejahren an, wenn auch in geringerem Maße. Das heißt aber auch, dass dynamische Modelle zwischen kurzfristigen Effekten (Effekt von x auf y zum Zeitpunkt t) und langfristigen Effekten (Gesamteffekt über mehrere Zeitperioden) unterscheiden sollten. Wie lange es dauert, bis ein dynamischer Effekt ausläuft, hängt von der Stärke der seriellen Korrelation ab, die mit rho (ρ) bezeichnet wird. Rho berechnet sich aus einer Regression der
14 15
Ausführliches zu Fragen der Nicht-Stationarität und zu entsprechenden Tests findet sich bei Baltagi (2008: 273–320). „Whether the series are integrated or stationary but slowly moving, they may be well modeled by the EC specification“ (Beck/Katz 2011: 343).
134
6 Gepoolte Zeitreihenanalyse
Residuen (vit) und der (um eine Einheit) gelagten Residuen (vi,t–1), wobei der Koeffizient für die gelagten Residuen die Stärke der seriellen Korrelation angibt: =
+ ɛ
(6.5)
Um auf serielle Korrelation zu testen, gibt es verschiedene Möglichkeiten. Kittel (2005: 103) gibt als Daumenregel an, dass der Schätzfehler bei einer seriellen Korrelation von ρ F
= =
2768.01 0.0000
-----------------------------------------------------------------------------UEmean | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------ldv | .8984078 .0170761 52.61 0.000 .8648499 .9319657 _cons | .0627063 .0106665 5.88 0.000 .0417446 .0836681 -------------+---------------------------------------------------------------sigma_u | .0140061 sigma_e | .02106616 rho | .30653904 (fraction of variance due to u_i) -----------------------------------------------------------------------------F test that all u_i=0: F(18, 455) = 3.13 Prob > F = 0.0000
Zum gleichen Ergebnis kommen zwei Tests auf Nicht-Stationarität – der Levin-Lin-Chu(LLC) und der Im-Pesaran-Shin-Test (IPS) (vgl. Output 6.4).23 Um testen zu können, muss man die angenommene Lagstruktur angeben (mit der Option ,lag) und kann sich dafür 21 22 23
In Stata ist dies durch den Befehl gen ldv = l.UEmean möglich, wobei das l. anzeigt, dass die Ausgangsvariable (UEmean) um ein Jahr zeitverzögert werden soll. Daumenregel nach Thomas Plümper (während eines Methodenseminars). Beide benutzergeschriebene Befehle können mithilfe von findit levinlin bzw. ipshin über Stata direkt aus dem Web heruntergeladen und implementiert werden. Ab Stata 11 sind beide Befehle im Kommando xtunitroot enthalten, wie auch einige andere Tests.
6.3 Anwendung
143
entscheiden, ob man einen Zeittrend unterstellen möchte oder nicht (mit der Option ,trend). Im Beispiel wählen wir den Lag von − 1 und unterstellen keinen Zeittrend (jedoch wären die Ergebnisse auch mit Trend ähnlich). Beide Tests gehen von der Nullhypothese aus, dass Nicht-Stationarität vorliegt. Diese wird in beiden Fällen abgelehnt (letzte Spalte zur Signifikanz des t-Werts), was stationäre Daten der Zeitreihe der AV anzeigt. Output 6.4: Levin-Lin-Chu-Test und Im-Pesaran-Shin-Test auf Nicht-Stationarität . levinlin UEmean, lag(1) Levin-Lin-Chu test for UEmean
Deterministics chosen: constant
Pooled ADF test, N,T = (19,26) Augmented by 1 lags (average)
Obs = 456 Truncation: 9 lags
coefficient -0.18917
t-value -8.040
t-star -3.05832
P > t 0.0011
. ipshin UEmean, lag(1) Im-Pesaran-Shin test for cross-sectionally demeaned UEmean Deterministics chosen: constant t-bar test, N,T = (19,26) Augmented by 1 lags (average) t-bar -2.127
cv10 -1.780
cv5 -1.850
Obs = 456
cv1 -1.990
W[t-bar] -2.907
P-value 0.002
Serielle Autokorrelation Liegt serielle Autokorrelation vor? Um einen Eindruck der seriellen Autokorrelation des Modells zu bekommen, ist es in einem ersten Schritt sinnvoll, die Residuen des Modells genauer zu inspizieren. Hierzu schätzen wir ein bereits möglichst gut spezifiziertes Pooled-OLS-Modell mit insgesamt sieben UV, die sich als „übliche Verdächtige“ aus der Forschung zum Wohlfahrtstaat (Allan/Scruggs 2004; Huber/Stephens 2001; Zohlnhöfer et al. 2013) gewinnen lassen: die ideologische Position der Regierung (regpos_lire), die institutionelle Struktur (jahn1), der Föderalismusgrad (fed), der Verschuldungsdruck (deficit_t1), die Arbeitslosigkeit (unemp_t1), die Offenheit der Wirtschaft (openc) und die Stärke der Gewerkschaften (ud).24 In einem zweiten Schritt lassen wir uns eine Grafik anzeigen, welche die Residuen gegen die geschätzten Werte abträgt („Residuals-vs-fitted-values-Plot“, kurz: RVF-Plot) – einmal mit den Ländern und einmal mit den Jahren als Label (rvfplot, mlabel(year)). Die Grafiken (vgl. Abb. 6.7) verdeutlichen sowohl das Problem der Heterogenität (die Residuen für einzelne Länder liegen nah beieinander) als auch das Problem der Autokorrelation (Residuen für aufeinander folgenden Jahre sind sehr ähnlich geschätzt, ersichtlich mit der Option ,mlabel(land)). Auch wenn man in der Mitte des Plots die einzelnen Labels nur schlecht lesen kann, lässt sich die autokorrelierte Struktur der Residuen direkt erkennen.
24
Defizit und Arbeitslosigkeit gehen um ein Jahr zeitverzögert ein, um Endogenitätsprobleme zu vermeiden.
144
6 Gepoolte Zeitreihenanalyse
Output 6.5: Pooled OLS ohne Kontrolle für Autokorrelation . reg UEmean regpos_lire jahn1 fed deficit_t1 unemp_t1 openc ud Source | SS df MS -------------+-----------------------------Model | 2.31699899 7 .330999855 Residual | 8.18131671 462 .017708478 -------------+-----------------------------Total | 10.4983157 469 .022384468
Number of obs F( 7, 462) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
470 18.69 0.0000 0.2207 0.2089 .13307
-----------------------------------------------------------------------------UEmean | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------regpos_lire | -.0028969 .0003899 -7.43 0.000 -.0036631 -.0021307 jahn1 | .002598 .0008466 3.07 0.002 .0009344 .0042617 fed | .053442 .0080084 6.67 0.000 .0377047 .0691794 deficit_t1 | -.0066818 .0020379 -3.28 0.001 -.0106865 -.0026771 unemp_t1 | -.0012982 .0017213 -0.75 0.451 -.0046807 .0020844 openc | .0006713 .000206 3.26 0.001 .0002665 .0010762 ud | .0007939 .0003339 2.38 0.018 .0001377 .0014501 _cons | .5081798 .0240495 21.13 0.000 .4609198 .5554398 ------------------------------------------------------------------------------
−.4
Residuals −.2
0
.2
SPA SWE SPA FRA POR SWE SPA SPA DENFRANET POR DEN SWE SWE NET NET NET FRA SWE NET SWE SPA NET NET SPA PORPOR SWE NET NET SPA SWE SWE SWE NET NET NET FRAPOR DEN NET FRA SWE DEN POR POR NET POR SWE DEN POR SPA NET NET SPA SWE BEL DEN FRA POR POR NET NET NET SWE SPA SWE NOR POR SWE NET POR NET POR NOR FRA POR SPA SPA SPA ITA USA NOR NOR POR POR POR BEL POR DEN POR SWE POR SWE NET ITA FRA DEN NOR DEN SWE SWE POR FRA SPA USAFRA NOR FRA SWE FRA DEN POR SPA FRA ITA DEN SWE SPA FRA SWE FRA ITA FRA SPA FRA ITA SPA NOR NOR NOR POR FRA FRA ITAITA AUT NOR FRA NOR SPA USA SWE SPA SWI GER FRA FIN NORBEL SPA NOR AUT NOR NOR FIN ITA SWI SWI BEL GER SWISWI FIN BEL ITA SWI USA NOR USA CAN FIN SPA SWI BEL CAN NOR SWI USA CAN SWI BEL NOR GER FIN SWI DEN GER DEN FIN DEN SPA GER AUT SWI SWI CAN DEN SWI USA DEN NOR USA FIN SWE SWI USA SWI FRA GER NOR USA DEN FIN GER USA GER DEN SWI CAN FIN USA DEN DEN USA GER FIN NOR FIN SWI FIN AUS FIN CAN FIN AUT FIN GER CAN AUT SWI AUS DEN AUT CAN AUS FIN AUT GER CAN ITA USA CAN CAN USA CAN C AN NOR USA USA USA GER CAN GER CAN DEN CAN FIN USA USA CAN CAN GER AUT AUT NOR AUT AUT AUT AUT AUS CAN AUT FIN BEL GER BEL IRE CAN AUT AUT AUS USA AUT FIN ITA BEL GER AUT GER GER BEL AUT DEN ITA FIN BEL AUT AUS NEZ ITA GER BEL AUT BEL AUS ITANEZ NEZ AUT GER BEL FIN USA AUS AUT GER DENIRE ITA NEZ AUT NEZ FIN BEL NEZ CAN NEZ AUS NEZ DEN AUS GER BEL NEZ GER FIN IRE BEL AUS BEL IRE NEZ IRE IRE BEL CAN FIN AUS AUS AUS AUS AUS IRE IRE BEL UK IRE NEZ NEZ AUS NEZ AUSAUS IRE IRE IRE UKUK BEL AUS AUS IRE IRE IRE AUS UKUK IRE AUS IRE IRE UK UK ITA NEZ NEZ NEZ AUS NEZ NEZ IRE NEZ IRE IRE UK UK UK AUSIRE NEZ IRE UKUK IRE NEZ IRE ITA ITA UK UK UK UKUK UK UK UKUK ITA ITA ITA
ITA ITA
−.6
ITA ITA
.4
Abb. 6.7:
.5
.6 Fitted values
.7
.8
Residuenplot für Pooled OLS ohne Kontrolle für Autokorrelation
Neben der grafischen Inspektion ist es möglich, Autokorrelation numerisch zu bestimmen – über das im Theorieteil eingeführte rho. Dieses erhält man bei einer Autoregression der Residuen auf sich selbst (Gleichung (6.5)). In Stata lässt man sich hierzu die Residuen zunächst anzeigen, lagged sie um eine Einheit und schätzt dann eine FE-Regression (FE, um für Heterogenität zu kontrollieren) (vgl. Output 6.6). Am Koeffizient der gelagten Residuen erkennt man eine starke serielle Autokorrelation von = 0,839. Schließlich existieren natürlich auch Tests auf Autokorrelation – etwa der Wooldridge-Test (über xtserial), der in unserem Fall erwartungsgemäß positiv ausfällt (vgl. Output 6.7). Serielle Autokorrelation kann nicht nur für einen „Jahreslag“ auftreten, sondern sozusagen langsam über mehrere Jahre auslaufen (vgl. 6.2.2). Hierzu ist es möglich, mehrjährige Lags der Residuen zu berechnen, dann jeweils eine FE-Autoregression zu schätzen und sich dann die Ergebnisse der Koeffizienten anzeigen zu lassen (vgl. Output 6.8; Befehle s. Do-File). Im Beispiel sieht man deutlich, wie der Effekt über die Jahre immer geringer wird.
6.3 Anwendung
145
Output 6.6: Autoregression der Residuen . predict res, res (24 missing values generated) . gen lagres = l.res (31 missing values generated) . xtreg res lagres, fe Fixed-effects (within) regression Group variable: ccode
Number of obs Number of groups
= =
449 19
R-sq:
Obs per group: min = avg = max =
18 23.6 25
within = 0.7622 between = 0.9965 overall = 0.9301
corr(u_i, Xb)
= 0.7943
F(1,429) Prob > F
= =
1375.34 0.0000
-----------------------------------------------------------------------------res | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------lagres | .8392379 .0226298 37.09 0.000 .7947589 .883717 _cons | -.0021327 .0015716 -1.36 0.175 -.0052216 .0009562 -------------+---------------------------------------------------------------sigma_u | .01898857 sigma_e | .03328927 rho | .24549301 (fraction of variance due to u_i) -----------------------------------------------------------------------------F test that all u_i=0: F(18, 429) = 2.84 Prob > F = 0.0001
Output 6.7: Wooldridge-Test auf serielle Autokorrelation . xtserial UEmean regpos_lire jahn1 fed deficit_t1 unemp_t1 openc ud Wooldridge test for autocorrelation in panel data H0: no first-order autocorrelation F( 1, 18) = 65.749 Prob > F = 0.0000
Output 6.8: Autokorrelation der Residuen über mehrere Lags -----------------------------------------------------------------Variable | lag1 lag2 lag3 lag4 -------------+---------------------------------------------------L1res | .83923791 L2res | .69318239 L3res | .57195861 L4res | .45655104 _cons | -.00213268 -.00408902 -.00493663 -.00500108 ------------------------------------------------------------------
Reaktionen auf serielle Autokorrelation In der theoretischen Diskussion serieller Autokorrelation (vgl. Kapitel 6.2.2) wurde deutlich, dass der Ausgangspunkt für die Spezifikation dynamischer Modelle das generelle ADLModell ist, in das für jede AV und UV die gelagte Version eingeht. Man kann dieses Modell mit Mehrjahreslags unendlich ausbauen – also z. B. auch die um drei Jahre verzögerten UV aufnehmen. In der Forschungspraxis wird jedoch meist mit einem Einjahreslag gearbeitet,
146
6 Gepoolte Zeitreihenanalyse
weil in diesem letztlich auch die Lags der Vorjahre enthalten sind (s. die abnehmende Korrelation der Residuen in Output 6.8). Auf Basis eines solchen Modells – in unserem Fall also mit allen UV und deren um ein Jahr gelagter Version sowie der LDV – schlagen De Boef und Keele (2008) vor, die gelagten Variablen zu entfernen, deren Koeffizient in einem t- oder FTest nicht signifikant ist (, also = 0 nicht abgelehnt wird). Dazu kann man die Signifikanzen im Regressionsoutput betrachten (t-Tests), oder aber einzelne F-Tests berechnen (mit dem Befehl test, vgl. Output 6.9). Output 6.9: Volles ADL-Modell und F-Tests auf den Einfluss gelagter Variablen . quietly: reg UEmean ldv regpos_lire lregpos jahn1 ljahn fed lfed deficit_t1 ldef unemp_t1 lunem openc lopenc ud lud . test lud ( 1) lud = 0 F( 1, 433) Prob > F . test lopenc ( 1) lopenc = 0 F( 1, 433) Prob > F . test lunem ( 1) lunem = 0 F( 1, 433) Prob > F . test ldef ( 1) ldef = 0 F( 1, 433) Prob > F . test lfed ( 1) lfed = 0 F( 1, 433) Prob > F . test ljahn1 ( 1) ljahn1 = 0 F( 1, 433) Prob > F . test lregpos ( 1) lregpos = 0 F( 1, 433) Prob > F . test ldv ( 1) ldv = 0 F( 1, 433) Prob > F
= =
6.72 0.0099
= =
0.75 0.3879
= =
0.40 0.5269
= =
0.78 0.3776
= =
0.47 0.4914
= =
3.17 0.0757
= =
0.78 0.3780
=17767.44 = 0.0000
In unserem Fall sind zwei der gelagten UV signifikant: Die um ein Jahr gelagte Gewerkschaftsstärke (lud, 99 % Niveau) und die um ein Jahr gelagte Variable für die institutionelle Struktur (ljahn1, 90 % Niveau). Daneben ist die zeitverzögerte AV hochsignifikant mit der Höhe der Lohnersatzraten assoziiert. Folgt man dem Vorschlag von De Boef und Keele (2008), so sollte also das in Output 6.10 dargestellte Modell geschätzt werden. Für die Gewerkschaftsstärke bedeutet dies inhaltlich interpretiert, dass im gleichen Jahr und kurzfristig starke Gewerkschaften die Lohnersatzrate erhöhen (Koeffizient für ud ist positiv), der Einfluss der Gewerkschaftsstärke aus dem Vorjahr auf die Lohnersatzraten im Beobachtungsjahr jedoch negativ ausfällt (Koeffizient für lud ist negativ).25 Langfristig ergibt sich ebenfalls 25
Eine substantielle Interpretation dieser sich widersprechenden Effekte könnte eine Gegenreaktion anzeigen: Während Gewerkschaften kurzfristig eine Anhebung der Lohnersatzraten in der Politik durchsetzen können,
6.3 Anwendung
147
ein negativer Effekt, da die Vorjahre schließlich durch das rho (und die gelagte AV) zusätzliche Wirkung entfalten: =
+ 1−
=
0,025 + (−0,026) = −0,03 1 − 0,967
(6.10)
Der dazugehörige RVF-Plot (Abb. 6.8) zeigt bereits, dass das Autokorrelationsproblem im Vergleich zum nicht-dynamischen Modell deutlich zurückgegangen ist – was auch ein Test mithilfe eines Autoregressionsmodells der Residuen zeigt ( = 0,0082). Output 6.10: Reduziertes ADL-Modell . reg UEmean ldv regpos_lire jahn1 ljahn fed deficit_t1 unemp_t1 openc ud lud Source | SS df MS -------------+-----------------------------Model | 9.67030898 10 .967030898 Residual | .200445281 441 .000454524 -------------+-----------------------------Total | 9.87075426 451 .021886373
Number of obs F( 10, 441) Prob > F R-squared Adj R-squared Root MSE
= 452 = 2127.57 = 0.0000 = 0.9797 = 0.9792 = .02132
.15
-----------------------------------------------------------------------------UEmean | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------ldv | .9670992 .0076319 126.72 0.000 .9520997 .9820986 regpos_lire | -.0000921 .0000692 -1.33 0.184 -.0002282 .000044 jahn1 | -.0001282 .0002667 -0.48 0.631 -.0006524 .0003959 ljahn1 | .0001994 .000271 0.74 0.462 -.0003332 .0007319 fed | -.0000953 .0013753 -0.07 0.945 -.0027984 .0026077 deficit_t1 | -.0001493 .0003365 -0.44 0.658 -.0008106 .0005121 unemp_t1 | -.0005669 .000283 -2.00 0.046 -.0011232 -.0000106 openc | .0000217 .0000341 0.64 0.525 -.0000454 .0000887 ud | .0025607 .0009085 2.82 0.005 .0007752 .0043463 lud | -.0026338 .00091 -2.89 0.004 -.0044222 -.0008454 _cons | .0261328 .0055313 4.72 0.000 .0152619 .0370037 ------------------------------------------------------------------------------
ITA
ITA
.1
ITA
ITA
FRA
Residuals 0 .05
SWE ITA
FIN SWI FIN DEN POR SWE NET SWE AUT AUS IRE FINCAN SWE POR CAN POR DEN AUT FRA SWE IRE SWI FRA BELSPA AUS FRA AUSITA AUS FIN AUS CAN SWE DEN BEL SPA FRA POR IRE SPA UK NET SWE AUS AUS GER POR NET FRA SPA AUT FIN SPA SPA SPA FRA FIN SWI BEL POR BEL NEZ CAN NET NET SPA FIN FRA POR CAN SPA NOR SWE NOR USA SPA SPA DEN SPA DEN AUT CAN UK IRE BEL CAN NEZ DEN GER NET FIN AUSNEZ GER IRE AUT NET FRA SWI GER AUT BEL AUS NET DEN POR POR USA BEL IRE SWE SPA GER NET POR CAN ITA FRA CAN POR NET POR CAN SWI NOR UK USA GER SWI BEL DEN IREIRE NEZ AUT BEL FRA DEN GER BEL NET POR SWE CAN AUT FRA SPA IRE ITA BEL POR GER CAN SPA NOR CAN NET USA USA BEL NET FRA AUT SWI AUT GER DEN DEN FIN POR AUT CAN FIN SWI USA NET NOR NET SPA IRE POR DEN POR USA NOR BEL FIN SWI BEL POR UK NET NET POR NEZ CAN NET DEN DEN FRA AUS IRE FIN BEL UK FRA CAN SWI FIN ITA AUT POR DEN CAN USA DEN USA AUT SWE SWE BEL FRA CAN DEN NOR SWE AUT NET FIN ITA UK AUT POR POR SWE AUS FRA CAN BEL IRE ITA NOR AUT IRE DEN IRE SWE NOR POR USA NEZ FIN ITA AUT CAN CAN SWE FIN FIN BEL AUS ITA NEZ ITA AUT FIN FIN FRA BEL FIN IRE UK ITA UK SWI AUS UK NEZ CAN DEN IRE SWE AUS ITAUK NEZ NEZ IRE ITA CAN BEL NEZ SPA ITA DEN NET UK UK AUS GER NEZ AUS BELPOR BEL BEL ITA FRA SWE SPA UK UK GER UK AUT SWE IRE UK NEZ IRE NEZ IRE SWE FIN SWI CAN AUS NEZ AUT SPA ITAUK USA NEZ ITA FIN AUS DEN UKUK NEZ AUS AUS FRA IRE SWI DEN SPA AUS AUS NEZNEZ SWE SWE IRE NEZ SWE USA DEN IRE DEN IRE
ITA
−.1
−.05
ITA ITA
SPA FRA
0
.2
.4
.6
.8
1
Fitted values
Abb. 6.8:
Residuenplot auf Basis des reduzierten ADL-Modells
Eine häufig benutzte Alternative besteht in einem beschränkten ADL-Modell, das nur die LDV beinhaltet. Dies empfehlen z. B. Beck und Katz (1995) in ihrem einflussreichen Aufführt dies jedoch langfristig zu einer Gegenreaktion und einer Senkung der Raten. Allerdings gilt hier – wie für alle inhaltlichen Interpretationen der Outputs in diesem Kapitel – größte Zurückhaltung.
148
6 Gepoolte Zeitreihenanalyse
satz. Die Ergebnisse für ein reines LDV-Modell (vgl. Output 6.11) ähneln den Resultaten des reduzierten ADL-Modells stark. Betrachtet man die Signifikanzen, so zeigt sich jedoch zumindest bei dem theoretisch besonders interessanten Indikator zur Regierungsposition nun wieder ein signifikanter Effekt – was im reduzierten ADL-Modell nicht der Fall war. Der Koeffizient für den kurzfristigen Effekt der Regierungsposition liegt bei −0,00013, für den langfristigen Effekt bei −0,00426 (Berechnung s. o.). Output 6.11: Schätzung mit LDV (nur Koeffizientenblock) . reg UEmean ldv regpos_lire jahn1 fed deficit_t1 unemp_t1 openc ud Source | SS df MS -------------+-----------------------------Model | 9.66645318 8 1.20830665 Residual | .204538207 444 .000460672 -------------+-----------------------------Total | 9.87099139 452 .021838477
Number of obs F( 8, 444) Prob > F R-squared Adj R-squared Root MSE
= 453 = 2622.92 = 0.0000 = 0.9793 = 0.9789 = .02146
-----------------------------------------------------------------------------UEmean | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------ldv | .969459 .0076405 126.88 0.000 .9544429 .9844751 regpos_lire | -.0001336 .0000681 -1.96 0.050 -.0002675 2.83e-07 jahn1 | .0000614 .0001397 0.44 0.661 -.0002132 .000336 fed | .0003584 .0013732 0.26 0.794 -.0023403 .0030572 deficit_t1 | -.0002444 .000337 -0.73 0.469 -.0009067 .0004178 unemp_t1 | -.0006306 .0002841 -2.22 0.027 -.0011889 -.0000723 openc | .0000123 .0000341 0.36 0.718 -.0000547 .0000793 ud | -.0000608 .0000553 -1.10 0.272 -.0001694 .0000479 _cons | .0239352 .0055143 4.34 0.000 .0130978 .0347725 ------------------------------------------------------------------------------
Vergleicht man das ADL und das LDV-Modell jedoch mit dem gepoolten Ausgangsmodell ohne Autokorrelationskorrektur (vgl. Output 6.5), sind die Einflüsse und Signifikanzen der Variablen deutlich gesunken. Dies illustriert den oben beschriebenen und von Achen (2001) sowie Plümper et al. (2005) angesprochenen Effekt der Inklusion einer LDV. Als Alternative schlagen die Autoren daher die Verwendung von Prais-Winsten-AR1-Modellen vor, bei denen die Autokorrelation im Fehlerterm korrigiert wird. Eine solche Schätzung ist in Stata in mehreren Befehlen als Option (meist ,corr(ar1)) direkt implementiert, etwa bei der Schätzung von OLS mit PCSE oder bei den xtreg-Kommandos. Schätzt man eine gepoolte OLS mit Prais-Winsten-Transformation, zeigen sich wieder mehr signifikante Koeffizienten, weil die LDV nicht mehr in der Gleichung inkludiert ist (vgl. Output 6.12).26 Gleichzeitig korrigiert die Transformation die serielle Autokorrelation auf eine andere Weise: Sie modelliert bei hohem rho in der Tendenz den Effekt einer Veränderung der UV auf die Veränderung der AV, während beim LDV-Modell bei hohem rho der Zusammenhang von Niveaus der UV auf die Veränderung der AV geschätzt wird (vgl. Gleichungen (6.8) und (6.7b) oben). Allerdings zeigt sich auch, dass die Prais-Winsten-Schätzung die Autokorrelation nicht so vollständig behebt wie die LDV- und die ADL-Regression (Plümper/Troeger 2009: 267). Lässt
26
Wir nutzen hier der Einfachheit halber den xtpcse-Befehl und nehmen ausschließlich seriell korrelierte Fehler an (Option ,corr(ar1) independent) (vgl. Cameron/Trivedi 2010: 275).
6.3 Anwendung
149
man sich einen RVF-Plot anzeigen, besteht weiterhin eine Struktur, die auf starke Autokorrelation schließen lässt.27 Output 6.12: Prais-Winsten-Schätzung (Pooled OLS mit AR1) . xtpcse UEmean regpos_lire jahn1 fed deficit_t1 unemp_t1 openc ud, corr(ar1) independent Number of gaps in sample: 2 (note: computations for rho restarted at each gap) (note: estimates of rho outside [-1,1] bounded to be in the range [-1,1]) Prais-Winsten regression, independent panels corrected standard errors Group variable: Time variable: Panels: Autocorrelation:
ccode year independent (unbalanced) common AR(1)
Estimated covariances = Estimated autocorrelations = Estimated coefficients =
1 1 8
Number of obs Number of groups Obs per group: min avg max R-squared Wald chi2(7) Prob > chi2
= = = = = = = =
470 19 19 24.73684 26 0.7193 36.70 0.0000
-----------------------------------------------------------------------------| Indep-corrected UEmean | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------regpos_lire | -.0003471 .0001507 -2.30 0.021 -.0006425 -.0000516 jahn1 | -.0000546 .0003778 -0.14 0.885 -.0007951 .0006859 fed | .0436372 .0090029 4.85 0.000 .0259919 .0612825 deficit_t1 | -.0012383 .0007953 -1.56 0.119 -.0027971 .0003205 unemp_t1 | -.0009342 .0013401 -0.70 0.486 -.0035608 .0016924 openc | .0005239 .0002084 2.51 0.012 .0001155 .0009322 ud | .0008238 .0004232 1.95 0.052 -5.74e-06 .0016533 _cons | .5280932 .026683 19.79 0.000 .4757955 .5803909 -------------+---------------------------------------------------------------rho | .8790714 ------------------------------------------------------------------------------
Eine letzte Möglichkeit des Umgangs mit serieller Korrelation besteht in der Schätzung eines Modells, in welches die AV direkt als Veränderung eingeht (Kittel/Winner 2005). Hierfür generiert man in Stata die ersten Differenzen der AV und schätzt dann eine neue pooled OLS (vgl. Output 6.13). Auf diese Weise wird – dies zeigt das Ergebnis einer Autoregression der Residuen (vgl. Do-File) – die Autokorrelation ausreichend eliminiert. Gleichzeitig haben sich jedoch die Ergebnisse der Schätzung erneut geändert, wobei nun ausschließlich der Koeffizient für die Arbeitslosenquote einen signifikanten Einfluss anzeigt. Stellt man abschließend die Modelle mit unterschiedlichen Korrekturen für Autokorrelationen (bzw. die dynamischen Spezifikationen) gegenüber, sieht man deutlich, wie die verschiedenen Vorschläge zum Vorgehen bei Autokorrelation zu teilweise unterschiedlichen Ergebnissen führen – ein nicht allzu überraschendes Resultat, wenn man bedenkt, wie stark die unterschiedlichen Spezifikationen die Ausgangsgleichung (, die Niveau-Effekte postuliert hat) verändern (vgl. Tab. 6.1). Insbesondere die Inklusion der LDV verändert die Koeffizien27
Der Grund hierfür könnten einerseits sehr spezifische Dynamiken in den einzelnen Ländern sein, die durch die Korrektur mit Hilfe eines gemeinsamen rho (für alle Länder) nicht behoben werden; andererseits könnte dies auch ein Hinweis auf höherrangige Autokorrelation sein (AR2, AR3), weshalb Prais-Winsten-AR1 nicht den erwünschten Effekt erzielt.
150
6 Gepoolte Zeitreihenanalyse
ten stark (im Vergleich zum Modell ohne Korrektur), während die Ergebnisse der PraisWinsten-Regression mit AR1-Korrektur (PW AR1) am nächsten an den nicht korrigierten Ergebnissen liegen – ein wohlbekanntes Ergebnis aus der makro-quantitativen ländervergleichenden Forschung (Achen 2001; Kittel/Winner 2005). Output 6.13: Schätzung mit ersten Differenzen der abhängigen Variablen . gen difUEmean = d.UEmean (19 missing values generated) . reg difUEmean regpos_lire jahn1 fed deficit_t1 unemp_t1 openc ud Source | SS df MS -------------+-----------------------------Model | .004046243 7 .000578035 Residual | .21189879 445 .000476177 -------------+-----------------------------Total | .215945032 452 .000477754
Number of obs F( 7, 445) Prob > F R-squared Adj R-squared Root MSE
= = = = = =
453 1.21 0.2934 0.0187 0.0033 .02182
-----------------------------------------------------------------------------difUEmean | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------regpos_lire | -.0000445 .0000655 -0.68 0.497 -.0001732 .0000841 jahn1 | -.0000237 .0001404 -0.17 0.866 -.0002995 .0002522 fed | -.0012699 .0013333 -0.95 0.341 -.0038902 .0013503 deficit_t1 | -.0000364 .0003385 -0.11 0.914 -.0007016 .0006288 unemp_t1 | -.000602 .0002887 -2.09 0.038 -.0011694 -.0000347 openc | -6.63e-06 .0000343 -0.19 0.847 -.0000741 .0000608 ud | -.0000874 .0000558 -1.57 0.118 -.000197 .0000223 _cons | .008501 .0040025 2.12 0.034 .0006348 .0163672 ------------------------------------------------------------------------------
Für die wichtigste UV im Untersuchungsdesign der Forscherin – die Regierungsposition auf einer Links-Rechts-Achse – kommen die Schätzungen zumindest im Hinblick auf die Richtung des Zusammenhangs zu einem eindeutigen Ergebnis: Linke Regierungen sind in allen Schätzungen mit höheren Lohnersatzraten assoziiert. In drei von fünf Modellen ist dieser Zusammenhang auch signifikant (keine Korrektur, LDV und PW AR1), während er im ADL-Modell knapp und im Modell der ersten Differenzen klar insignifikant ist. Betrachtet man das Modell mit ersten Differenzen in der Gesamtevaluation des Ergebnisses als etwas weniger relevant, da hier ja eine komplett transformierte AV zugrunde liegt, scheint dieses Resultat der Schätzungen auf einen vergleichsweise robusten parteipolitischen Einfluss hinzudeuten. Die folgende Diskussion der Heterogenität und der Heteroskedastizität werden wir auf Basis von einem der hier vorgestellten fünf Modelle weiterführen – dem ADL-Modell. Die unkorrigierte gepoolte OLS-Version scheidet wegen starker serieller Autokorrelation aus und auch die Prais-Winsten-Schätzung ist trotz AR1-Korrektur noch von ebensolcher geplagt. Die Spezifikation der ersten Differenzen führen wir hier nicht weiter, da die zugrundeliegende Fragestellung sehr stark verändert wird.28 Es bleiben das ADL- und das LDV-Modell. Aufgrund der doch recht ähnlichen Herangehensweise von LDV- und ADL-Modell und weil die Tests der Koeffizienten Hinweise darauf gegeben haben, dass wir nicht nur die LDV ein-
28
Angesichts eines hohen rho-Wertes (also Koeffizient der LDV) ist natürlich auch die ADL-Spezifikation in der Tendenz eine Betrachtung erster Differenzen – jedoch nicht ausschließlich.
6.3 Anwendung
151
schließen sollten, sondern auch zwei zeitverzögerte UV, nimmt die folgende Diskussion daher das ADL-Modell zur Grundlage. Tab. 6.1:
Unterschiedliche dynamische Modellierungen bei serieller Autokorrelation (1) Keine Korrektur
(2) ADL
(3) LDV
(4) PW AR1
(5) Erste Differenzen
regpos_lire
-0.00290*** (-7.43)
-0.0000921 (-1.33)
-0.000134* (-1.96)
-0.000347** (-2.30)
-0.0000445 (-0.68)
jahn1
0.00260*** (3.07)
-0.000128 (-0.48)
0.0000614 (0.44)
-0.0000546 (-0.14)
-0.0000237 (-0.17)
fed
0.0534*** (6.67)
-0.0000953 (-0.07)
0.000358 (0.26)
0.0436*** (4.85)
-0.00127 (-0.95)
deficit_t1
-0.00668*** (-3.28)
-0.000149 (-0.44)
-0.000244 (-0.73)
-0.00124 (-1.56)
-0.0000364 (-0.11)
unemp_t1
-0.00130 (-0.75)
-0.000567** (-2.00)
-0.000631** (-2.22)
-0.000934 (-0.70)
-0.000602** (-2.09)
openc
0.000671*** (3.26)
0.0000217 (0.64)
0.0000123 (0.36)
0.000524** (2.51)
-0.00000663 (-0.19)
ud
0.000794** (2.38)
0.00256*** (2.82)
-0.0000608 (-1.10)
0.000824* (1.95)
-0.0000874 (-1.57)
ldv
0.967*** (126.72)
0.969*** (126.88)
jahn1
0.000199 (0.74)
lud
-0.00263*** (-2.89)
_cons
0.508*** (21.13)
0.0261*** (4.72)
0.0239*** (4.34)
0.528*** (19.79)
0.00850** (2.12)
R2
0.221
0.980
0.979
0.719
0.019
t (z) statistics in parentheses * p < .1, ** p < .05, *** p < .01
6.3.3
Heterogenität
In der theoretischen Diskussion der Heterogenität haben wir uns mit drei Arten von Heterogenität beschäftigt – mit Heterogenität der Einheiten, der Steigungen und der Dynamiken. Im Folgenden werden wir insbesondere die Heterogenität der Einheiten diskutieren. Wenn hete-
152
6 Gepoolte Zeitreihenanalyse
rogene Steigungen und heterogene Dynamiken angenommen werden, sind RC-Modelle angebracht, die als „random slopes“-Modelle im Zusammenhang mit der Mehrebenenanalyse in diesem Buch ausführlich besprochen werden (vgl. Kapitel 5). Tab. 6.2:
Ldv regpos_lire jahn1 ljahn1 Fed deficit_t1 unemp_t1 Openc Ud Lud
Unterschiedliche dynamische Modellierungen bei serieller Autokorrelation (1) ADL, pooled
(2) ADL, LSDV
0.967***
0.892***
(126.72)
(51.15)
-0.0000921
-0.0000774
(-1.33)
(-0.96)
-0.000128
-0.000250
(-0.48)
(-0.93)
0.000199
-0.0000148
(0.74)
(-0.05)
-0.0000953
-0.000996
(-0.07)
(-0.21)
-0.000149
0.00000753
(-0.44)
(0.02)
-0.000567**
-0.000941**
(-2.00)
(-2.02)
0.0000217
-0.0000111
(0.64)
(-0.10)
0.00256***
0.00227**
(2.82)
(2.17)
-0.00263***
-0.00213**
(-2.89) dum1
(-2.17) -0.0187 (-1.01)
[…]
[…]
dum18
[…] -0.0407** (-2.41)
dum19
-0.00609 (-0.25)
_cons R2
0.0261***
0.0763***
(4.72)
(2.64)
0.980
0.982
t statistics in parentheses, * p < .1, ** p < .05, *** p < .01
Um sich der Frage der Heterogenität der Einheiten zu nähern, ist es in einem ersten Schritt sinnvoll, die Ergebnisse eines gepoolten OLS-Modells mit einem LSDV-Modell (also mit Dummies) zu vergleichen. Hierzu generiert man in Stata mit dem Befehl tab ccode, gen(dum) in einem ersten Schritt Dummies für die einzelnen Länder.29 Danach schätzt man die beiden Modelle mit dem einfachen Regressionsbefehl, wobei bei der LSDV29
Für eine FE-Regression mit Jahresdummies (FE(T)) ersetzt man ccode in diesem Fall schlicht durch year.
6.3 Anwendung
153
Schätzung die Länderdummies inkludiert werden. Die Ergebnisse der LSDV-Regressionen unterscheiden sich von der gepoolten OLS (vgl. Tab. 6.2, zum Schätzbefehl s. Do-File). Die Regierungsposition wird etwa noch deutlicher insignifikant als zuvor und für das Defizit als Indikator dreht sich das Vorzeichen des Koeffizienten. Der Grund für die Unterschiede liegt darin, dass im LSDV-Modell nur die Within-Varianz analysiert wird, also die Abweichungen von den Ländermittelwerten. Dass sich hier andere Assoziationen ergeben wie im gepoolten Modell, in dem die Varianz im Querschnitt dominiert, war nicht anders zu erwarten. Welche Aussagen lassen sich über die Heterogenität im Querschnitt treffen? Die Koeffizienten für die Dummy-Variablen in der LSDV-Schätzung30 sprechen eine nicht ganz eindeutige Sprache: Zwar sind die nationalen Spezifika, die über die Länderdummies ausgedrückt werden, in manchen Ländern (z. B. Land 18, Großbritannien) signifikant mit der AV korreliert, in anderen Ländern ist dies jedoch nicht der Fall (in Tab. 6.2 sind nicht alle Dummies dargestellt). Ob wir also FE benötigen, lässt sich auf Basis dieser Darstellung nicht abschließend beantworten – auch wenn die Unit-Heterogenität nicht enorm zu sein scheint.31 Eine klare Antwort auf die Frage der Relevanz von Heterogenität liefert der F-Test, der im Stata-Befehl xtreg, fe bereits implementiert ist. Der F-Test findet sich im ersten Teil von Output 6.14. Wie erwartet sind die Koeffizienten identisch mit dem LSDV-Modell. Daneben enthält die Tabelle einige weitere nützliche Informationen, wie etwa die Varianzen der Komponenten des zerlegten Fehlers (vgl. Gleichung (6.2), wobei sigma_u für die Standardabweichung des einheitenspezifischen Fehlerterms und sigma_e für die Standardabweichung des verbleibenden Fehlerterms steht).32 Der erwähnte F-Test auf die Notwendigkeit von FE ist in der letzten Zeile dargestellt. Die Nullhypothese, dass die einheitenspezifischen Fehler = 0 sind, wird abgelehnt (hochsignifikanter F-Test). Entsprechend sind FE notwendig.33 Wir sind an dieser Stelle mit unserer Schätzung also genau an dem Punkt angelangt, an dem sich makro-quantitativ vergleichende Policy-Forscherinnen häufig befinden: Eigentlich sind wir an den Unterschieden im Niveau zwischen den Ländern stark interessiert (und die Variation ist ja auch beachtlich, s). Wollen wir diese aber analysieren, verbauen uns FE den Weg, weil sie die Between-Varianz ignorieren (bzw. die Dummies diese absorbieren). Gepoolte OLS oder RE zu schätzen ist jedoch auch keine Lösung, da die Heterogenität im Querschnitt möglicherweise zu verzerrten Schätzern führt. Oben haben wir drei Wege vorgeschlagen, um in solchen Fällen zu einem. Output 6.2 Ergebnis zu kommen: 1) Auffangen der länderspezifischen Unterschiede mit geeigneten Variablen; 2) Ausschluss sehr heterogener Länder; 3) Alternative Schätzer. In dieser Reihenfolge gehen wir nun ebenfalls vor. Versucht man länderspezifische Unterschiede durch zusätzliche Variablen aufzufangen, müssen Theorie und Forschungsstand erneut durchforstet werden. In unserem Fall inkludieren 30 31 32 33
In den Schätzungen wird jeweils ein Dummy eliminiert, weil er perfekt ko-linear zu den anderen Dummies ist. Um auch für dieses Land einen Koeffizienten zu erhalten, kann man (mit ,noc) die Konstante unterdrücken. Schätzt man FE für die pooled OLS (ohne Autokorrelationskorrektur), ist die Heterogenität deutlich größer. Die Autokorrelationskorrektur hat also bereits einen Teil der Heterogenität zwischen den Ländern absorbiert. Für weitere Informationen zum Output nach einer FE-Regression s. Cameron und Trivedi (2010: 264). Eine Alternative zum F-Test stellt ein Hausman-Test dar, für den man beide Modelle schätzt (und die Schätzung mit estimates store speichert) und danach die Schätzungen vergleicht (mit dem Befehl hausman).
154
6 Gepoolte Zeitreihenanalyse
wir eine weitere Variable, die von einigen Autoren immer wieder mit der Ausgestaltung von Sozialpolitik in Verbindung gebracht wird – den Grad der Deindustrialisierung (gemessen über die Zahl der im Dienstleistungssektor Beschäftigten) (Iversen/Cusack 2000). Als Resultat zeigt sich, dass (bei nicht signifikantem Koeffizienten für Deindustrialisierung) zwar der Testwert im F-Test sinkt (von 3,52 auf 3,24), dieser jedoch weiterhin signifikant für die Inklusion von FE spricht. Dieser erste Weg führt also nicht zum Ziel (s. Do-File). Output 6.14: Tests auf Fixed Effects . xtreg UEmean ldv regpos_lire jahn1 ljahn fed deficit_t1 unemp_t1 openc ud lud, fe Fixed-effects (within) regression Group variable: ccode
Number of obs Number of groups
= =
452 19
R-sq:
Obs per group: min = avg = max =
19 23.8 25
within = 0.8680 between = 0.9963 overall = 0.9781
corr(u_i, Xb)
= 0.7768
F(10,423) Prob > F
= =
278.17 0.0000
-----------------------------------------------------------------------------UEmean | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------ldv | .8918195 .0174364 51.15 0.000 .8575467 .9260923 regpos_lire | -.0000774 .0000808 -0.96 0.339 -.0002362 .0000814 jahn1 | -.0002499 .0002696 -0.93 0.354 -.0007797 .0002799 ljahn1 | -.0000148 .0002715 -0.05 0.956 -.0005484 .0005188 fed | -.0009958 .0046637 -0.21 0.831 -.0101628 .0081711 deficit_t1 | 7.53e-06 .0003681 0.02 0.984 -.0007159 .000731 unemp_t1 | -.0009408 .0004665 -2.02 0.044 -.0018577 -.000024 openc | -.0000111 .00011 -0.10 0.919 -.0002273 .0002051 ud | .0022692 .001048 2.17 0.031 .0002094 .0043291 lud | -.0021345 .0009856 -2.17 0.031 -.0040718 -.0001972 _cons | .0726552 .0188793 3.85 0.000 .0355461 .1097642 -------------+---------------------------------------------------------------sigma_u | .01601384 sigma_e | .0203022 rho | .38353947 (fraction of variance due to u_i) -----------------------------------------------------------------------------F test that all u_i=0: F(18, 423) = 3.52 Prob > F = 0.0000
Neben theoretischen Erwägungen lohnt es sich auch, die Residuen der Regression nochmals genauer zu betrachten, um die Gründe für Heterogenität zu erkennen (vgl. Abb. 6.8, oben). In der Grafik sieht man eindeutig, dass ein Land besonders schlecht von der Schätzung erklärt wird: Italien. Der Grund hierfür liegt im formellen Ausbau der Arbeitslosenversicherung bei gleichzeitiger Reduzierung des funktionalen Äquivalents, der Sonderprogramme (s. o.). Insofern suggerieren die Lohnersatzraten in Italien einen Ausbau, obwohl dieser tatsächlich nicht oder zumindest nicht im dargestellten Maße stattgefunden hat. Zwei Lösungen sind für dieses Problem möglich: Entweder, man schließt Italien wegen nicht valider Daten aus dem Sample aus; oder man generiert einen Dummy für das Land und fängt dadurch die Sondersituation ab. Aufgrund der doch sehr prononcierten und untypischen Entwicklung der AV in Italien (vgl. Abb. 6.5) spricht in diesem Fall tatsächlich einiges für die radikale Lösung und einen kompletten Ausschluss Italiens aus dem Sample. Hierdurch wird der F-Wert im Test nach xtreg, fe deutlich reduziert, er bleibt aber auf dem 95 %-Niveau signifikant (Schätzung, s. Do-File). In einem nächsten Schritt könnte man sich erneut ein
6.3 Anwendung
155
Residuenplot ausgeben lassen und nach Erklärungen für länderspezifische Heterogenität fahnden. Oder aber man begnügt sich mit dem Eindruck von nicht allzu massiver Heterogenität und folgt dem Vorschlag von Plümper et al. (2005: 334), wonach bei theoretischem Interesse an Erklärungen von Niveauunterschieden ein „mild bias resulting from omitted variables“ weniger schlimm sei als ein Modell mit FE zu rechnen. Eine dritte Möglichkeit bei starker Heterogenität besteht darin, alternative Schätzer zu verwenden, z. B. FEVD. In Kapitel 6.2.1 haben wir verschiedene Vorschläge vorgestellt, die in der Literatur (auch kontrovers) diskutiert werden. Wir werden an dieser Stelle keine weiteren Schätzmodelle darstellen und verweisen bzgl. der praktischen Anwendung auf die Help-Files in Stata bzw. die oben zitierte Literatur.
6.3.4
Heteroskedastizität
.1
Zur Korrektur von Heteroskedastizität in TSCS-Daten wird in den meisten Studien auf PCSE zurückgegriffen, die diese (und auch cross-sectional correlation) effizient korrigieren. Allerdings sei auch an dieser Stelle darauf hingewiesen, dass Heteroskedastizität in den Daten häufig das Resultat von fehlenden UV ist, die also nicht in die Regressionsgleichung aufgenommen wurden. Auch hier gilt also, zunächst den Residuenplot genau zu inspizieren, die Länder oder Jahre zu identifizieren, die für Heteroskedastizität sorgen, und sich über mögliche Variablen Gedanken zu machen, die eventuell diese Länder oder Jahre erklären könnten. Heteroskedastizität liegt in Panel-Daten in zwei Formen vor: als „klassische“ Heteroskedastizität, wenn also die Residuen sehr unterschiedliche Varianzen bei unterschiedlichen Ausprägungen einer UV aufweisen (vgl. Kapitel 2), und als Panel-Heteroskedastizität. Letztere entsteht, wenn in den einzelnen Einheiten sehr unterschiedliche einheitenspezifische Varianzen vorliegen. Grafisch zeigt sich Heteroskedastizität in den Residuen durch eine Keilbzw. Rautenform wie sie etwa für unsere Daten nach einer Schätzung des ADL-Modells (vgl. Output 6.10, ohne Italien) eindeutig zu sehen ist (vgl. Abb. 6.9). FRA SWE
.05
FIN FIN
−.05
Residuals 0
SWI IRE DEN SWE AUS NET IRE POR SWE FIN AUT IRE AUSAUSDEN SWE CAN FRA CAN UK FRA AUS FRA SWE POR POR BELSPASWI AUSAUS AUT FIN DEN FIN FRA AUS IRE UK SPA FRA SWE SPA CAN FRA NEZ BEL SPA FIN FRA SPA GER AUS POR IRE UK FIN BEL NET NEZ USA SPA NEZ CAN NET FRA SPA AUS POR IRE CAN CAN SPA CAN SWE DEN SPA NET NOR FIN SPA POR NEZ NET AUT IRE SPA DEN SWI SWE BEL SPA DEN FRA FRA AUS GER SPA UK BEL SPA NOR POR IREUSA NOR FRA CAN GER CAN BEL DEN GER NOR CAN FIN UK NET IRE SWI UK GER USA NET BEL DEN FRA FRA DEN AUT CAN SWE GER USA AUT IRE POR BEL NOR POR AUT POR AUS NET FIN NOR AUT SPA BEL FIN GER CAN NEZ SWI CAN POR NOR USA USA USA NET SWE NOR FIN FIN FIN BEL GER AUS DEN FRA USA NET GER SWI IRE DEN UK AUT BEL AUT AUT FRA DEN GER SPA BEL NOR NOR SPA DEN SWI POR NET FIN NET IRE SPA USA UK NET GER FRA POR IREAUS IRE USA UK NEZ DEN NET POR USA BEL UK BEL NEZ DEN UK AUS DEN FIN NET NET SWI SWI CAN CAN CAN NET AUT AUT POR DEN BEL GER AUS USA DEN CAN POR FIN UK IRE UK NET NEZ UK AUT AUT NEZ SWE BEL AUT SWI CAN BEL USA FIN POR SWE AUS IRE NOR NEZ AUT CAN SWE NEZ SWI POR POR FIN POR SWI AUT UK FIN NEZ UK FIN NOR POR SWE SWE IRE NEZ AUS BEL NEZ BEL CAN AUS FIN UK IRE FRA POR DEN NOR AUT POR CAN AUT CAN SWI FIN DEN UK CAN UK NEZ SWE SWE IRE BEL IRE BEL IRE NET SPA SPA FRA NEZ SWE BEL UKUK AUS NEZ GER BEL AUS AUS FIN SWE FIN POR SWE NEZ AUT GER DEN FRA SPA AUS IRE SWI AUT USA SPA AUS NEZ AUS DEN SWI SWE NEZ IRE SWE NEZ SWE USA DEN
−.1
IRE DEN
SPA FRA
.2
Abb. 6.9:
.4
.6 Fitted values
.8
1
Residualplot für das ADL-Modell (ohne FE) ohne Italien
Daneben sind in Stata auch mehrere Tests implementiert, etwa der Breusch-Pagan-CookWeisberg-Test (hettest) oder ein modifizierter Wald-Test (Greene-Test) auf Panelheteroskedastizität (xttest3; selbstgeschriebenes Nutzerpaket, das aus dem Internet über
156
6 Gepoolte Zeitreihenanalyse
findit xttest3 heruntergeladen werden kann). Beide Tests funktionieren nach Schätzung des jeweiligen Modells, wobei der modifizierte Wald-Test nur nach einem GeneralizedLeast-Squares (GLS)-Modell bzw. einer FE-Spezifikation (über xtreg, fe) läuft. Für unsere Daten ist die Nullhypothese von Homoskedastizität bzw. gleichen Gruppenvarianzen abzulehnen (vgl. Output 6.15), d. h. der Eindruck des Residualplots, dass Heteroskedastizität ein Problem darstellt, wird durch die Tests eindeutig unterstützt. Output 6.15: Test auf (Panel-) Heteroskedastizität . quietly: reg UEmean ldv regpos_lire jahn1 ljahn fed deficit_t1 unemp_t1 openc ud lud deindus if ccode != 11 . hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of UEmean chi2(1) Prob > chi2
= =
18.20 0.0000
. . quietly: xtgls UEmean ldv regpos_lire jahn1 ljahn fed deficit_t1 unemp_t1 openc ud lud deindus if ccode != 11 . xttest3 Modified Wald test for groupwise heteroskedasticity in cross-sectional time-series FGLS regression model H0: sigma(i)^2 = sigma^2 for all i chi2 (18) = Prob>chi2 =
3120.68 0.0000
Als Reaktion sollte entsprechend ein Modell mit PCSE gerechnet werden, da hierdurch die Standardfehler angepasst werden. Wir spezifizieren dabei die Option ,hetonly, da wir ausschließlich für Heteroskedastizität kontrollieren wollen, nicht aber gleichzeitig auch für contemporaneous correlation (vgl. 6.3.5). Die Ergebnisse sehen für das ADL-Modell dann wie folgt aus: Output 6.16: ADL-Modell mit Kontrolle für Heteroskedastizität . xtpcse UEmean ldv regpos_lire jahn1 ljahn fed deficit_t1 unemp_t1 openc ud lud deindus if ccode != 11, hetonly Number of gaps in sample:
1
Linear regression, heteroskedastic panels corrected standard errors Group variable: Time variable: Panels: Autocorrelation:
ccode year heteroskedastic (unbalanced) no autocorrelation
Estimated covariances = Estimated autocorrelations = Estimated coefficients =
18 0 12
Number of obs Number of groups Obs per group: min avg max R-squared Wald chi2(11) Prob > chi2
= = = = = = = =
427 18 19 23.72222 25 0.9851 35693.16 0.0000
------------------------------------------------------------------------------
6.3 Anwendung
157
| Het-corrected UEmean | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------ldv | .9862946 .0070446 140.01 0.000 .9724875 1.000102 regpos_lire | -.0000642 .0000559 -1.15 0.250 -.0001737 .0000453 jahn1 | -.0005253 .0002316 -2.27 0.023 -.0009793 -.0000713 ljahn1 | .0004867 .0002377 2.05 0.041 .0000209 .0009525 fed | .0009242 .0011933 0.77 0.439 -.0014146 .003263 deficit_t1 | -.0001221 .0002506 -0.49 0.626 -.0006132 .000369 unemp_t1 | -.0010286 .0002692 -3.82 0.000 -.0015562 -.0005011 openc | .0000471 .000027 1.75 0.081 -5.79e-06 .0001 ud | .0023233 .0007663 3.03 0.002 .0008213 .0038252 lud | -.0023967 .0007698 -3.11 0.002 -.0039055 -.0008879 deindus | -.000083 .0000603 -1.38 0.169 -.0002012 .0000352 _cons | .0174231 .0053333 3.27 0.001 .0069699 .0278762 ------------------------------------------------------------------------------
Die Koeffizienten dieses Modells sind identisch mit denen des gepoolten ADL-Modells ohne Italien (s. Do-File). Alleine die Standardfehler sind angepasst, wobei sie sich manchmal verkleinern (etwa im Falle der Regierungsposition) und manchmal vergrößern (etwa bei den Variablen für die Vetospieler-Struktur). Nicht verwirren lassen sollte man sich durch die Angabe „no autocorrelation“ im Output, die sich alleine auf eine mögliche AR1-Korrektur bezieht. Wir haben die Autokorrelation durch die Lagstruktur modelliert und eliminiert.
6.3.5
Räumliche Abhängigkeit
Mit PCSE können Standardfehler nicht nur für Heteroskedastizität, sondern auch für contemporaneous correlation, also die räumliche Abhängigkeit der Einheiten z. B. durch gemeinsam „erlebte“ Schocks, angepasst werden. Für diese Art von räumlicher Abhängigkeit existieren unterschiedliche Tests, wobei bei langen Zeitreihen und wenigen Einheiten ( > ) insbesondere der Breusch-Pagan-Lagrange-Multiplier-Test in Frage kommt, der in Stata als Postestimation-Kommando (nach einer Regressionsschätzung) über xttest2 aufgerufen werden kann.34 Bei kurzem T oder wenn T und N, wie in unserem Fall, sehr ähnlich groß sind, kann dieser Test jedoch nicht berechnet werden. In diesem Fall kann man z. B. auf den Pesaran-Test zurückgreifen, der über den xtcsd- bzw. den xtcdBefehl in Stata implementiert werden kann (beide Routinen muss man herunterladen und installieren, am besten über findit xtcd). Das xtcd-Kommando hat dabei den Vorteil, die Datenreihe der Residuen direkt testen zu können. Hierzu schätzt man zuerst die Regression, lässt sich die Residuen vorhersagen (im Beispiel in zwei Schritten) und testet dann mit xtcd diese neu generierte Datenreihe (vgl. Output 6.17). Im dargestellten Fall wird die Nullhypothese, dass Unabhängigkeit vorliegt, nicht abgelehnt – d. h. die PCSEs sollten nur für Heteroskedastizität kontrollieren. Ist man sich unsicher, kann man auch die „vollen“ PCSEs schätzen – in der Regel verändern sich die Konfidenzintervalle nicht besonders stark (vgl. Do-File).
34
Der Befehl läuft nach den Regressionskommandos xtgls oder xtreg, fe. Wenn man ohne FE schätzen möchte, sollte man also zuvor die Regression über xtgls rechnen, die eigentliche Schätzung ignorieren und ausschließlich das Ergebnis des xttest2 betrachten.
158
6 Gepoolte Zeitreihenanalyse
Output 6.17: Test auf contemporaneous correlation . xtpcse UEmean ldv regpos_lire jahn1 ljahn fed deficit_t1 unemp_t1 openc ud lud if ccode != 11, hetonly . predict yhat, xb (42 missing values generated) . gen res = UEmean - yhat (42 missing values generated) . xtcd res, resid Average correlation coefficients & Pesaran (2004) CD test Residual series tested: res Group variable: Number of groups: Average # of observations: Panel is:
ccode 19 24.37 unbalanced
--------------------------------------------------------Variable | CD-test p-value corr abs(corr) -------------+------------------------------------------res | 0.53 0.594 0.010 0.185 --------------------------------------------------------Notes: Under the null hypothesis of cross-section independence CD ~ N(0,1)
Wie oben erwähnt liegt eine zweite Form der räumlichen Abhängigkeit vor, wenn Länder sich gegenseitig „anstecken“. Hier sollten, so die jüngste Literatur, sogenannte „Spatial Lags“ modelliert werden. Aufgrund des noch sehr jungen Stadiums der entsprechenden Literatur verzichten wir an dieser Stelle auf eine ausführliche Diskussion und Anwendung. Stattdessen sei auf die Literaturangaben oben verwiesen.
6.4
Zusammenfassung und Ausblick
Die Regressionsschätzung gepoolter Zeitreihen hat eine Reihe von Herausforderungen zu bewältigen, wenn zuverlässige Aussagen über Zusammenhänge getroffen werden sollen. Zu diesem Schluss sollte jeder Leser dieses Kapitels gekommen sein. In der angewandten politikwissenschaftlichen Forschung, und das wurde spätestens in Abschnitt 6.3.2 deutlich, steht man dabei häufig vor schwierigen Entscheidungen: Ist die Unit-Heterogenität so stark, dass ich FE schätzen muss? Verträgt sich dies mit meiner Fragestellung? Welches Korrekturverfahren für serielle Autokorrelation ist angemessen? Solche Fragen tauchen häufig im Verlauf der Schätzung einer Regressionsanalyse gepoolter Zeitreihen auf – und in nicht seltenen Fällen gibt es auf diese auch keine einfachen rezeptbuchartigen Lösungen. Dieses Kapitel hat versucht einen plausiblen Weg durchs Dickicht aufzuzeigen. Am Ende steht bei uns nun ein dynamisches ADL-Modell mit PCSE und ohne Fixed Effects (bei leichter verbleibender Heterogenität in den Daten). An verschiedenen Stellen hätte man auch andere Entscheidungen treffen können (z. B. FE schätzen, weil der F-Test dies nahelegte) – und wäre zu mehr oder weniger stark abweichenden Ergebnissen gekommen. Wichtig ist es daher, klar zu dokumentieren, warum man welche Entscheidung trifft, und deutlich zu machen, wann sich Forschungsfragen verändern, wenn man bestimmte Spezifikationen modelliert (etwa bei ersten Differenzen oder FE).
6.4 Zusammenfassung und Ausblick
159
Unser Rat aus der Erfahrung mit der Schätzung gepoolter Modelle ist aus diesem Grund vierfach: Erstens ist es sinnvoll, mehrere Wege zu beschreiten und verschiedene Modelle zu berechnen. Dadurch bekommt man nicht nur ein Gefühl für die Daten (und deren Eigenheiten), sondern auch für die Robustheit der Variablen. Wenn möglich, sollten die unterschiedlichen Ergebnisse auch berichtet werden – sei es in Fußnoten, in Annex-Tabellen oder im Haupttext und den dazugehörigen Regressionstabellen. Zweitens ist es ratsam, viel Zeit und Energie darauf zu verwenden, um möglichst „unauffällige“ Residuen zu erhalten. Diese sollten in unsystematischer Weise um die Null streuen, also möglichst keine Trends oder Strukturen aufweisen. Die grafische Inspektion ist dabei häufig mehr wert als statistische Tests, die ihrerseits wieder auf Annahmen beruhen, welche die Testwerte (und die Ergebnisse) beeinflussen. Drittens kann es sehr sinnvoll sein, vor der Analyse im gepoolten Design einzelne Querschnittsregressionen (zu bestimmten Zeitpunkten) oder Zeitreihenregressionen (in einzelnen Ländern) zu berechnen und erneut die Residuen zu betrachten. Hierdurch bekommt man einen Eindruck davon, ob Zusammenhänge über die Zeit variieren (vielleicht waren Parteieneffekte in den 1980ern stark, sind in den 2000ern jedoch verschwunden), oder ob sie nur in bestimmten Ländern oder Ländergruppen auftreten. Dies sind wichtige Informationen, die in eine gepoolte Analyse einfließen können, etwa als Interaktionsterme (s. Kapitel 3) zwischen einzelnen Jahren und einer UV. Viertens sollten die Ergebnisse auf ihre Robustheit hin getestet werden – am besten gelingt dies durch den iterativen Ausschluss einzelner Länder oder Jahre aus dem Sample und erneute Schätzung des Regressionsmodells (Jackknifing) – nicht nur den Ausschluss einzelner Beobachtungen (Jahreländer). Dieses etwas altmodisch anmutende Vorgehen hat den großen Vorteil, dass man direkt den Einfluss von Ländern oder Jahren auf die Ergebnisse abschätzen kann und entsprechend auch inhaltlich argumentieren bzw. interpretieren kann, warum etwa beim Ausschluss eines bestimmten Landes die Koeffizienten der Variablen größer oder kleiner werden. Zuletzt sei angemerkt, dass die statistische und die kausale Inferenz aus den Ergebnissen gepoolter Zeitreihenmodelle häufig nur eingeschränkt möglich sind. Meist handelt es sich bei der Länderauswahl nicht um ein zufallsausgewähltes Sample, aus dem Schlüsse auf eine Grundgesamtheit möglich wären. Das gilt auch für das eingangs erwähnte und in Kapitel 6.3 diskutierte Beispiel. Zudem erfolgen Entscheidungsprozesse in diesen Ländern meist auf Makro-Ebene, weshalb eine Rückbindung auf die Individualebene nur schwierig möglich ist (dazu pointiert: Kittel 2006). Dennoch ist die Methode nach unserem Dafürhalten nicht wertlos. Vielmehr ermöglicht sie es, in einer unüberschaubaren Datenmatrix Muster zu erkennen und Zusammenhänge zwischen Variablen herzustellen und dabei die dynamische Struktur der Daten zu modellieren. Dies ist für sich genommen eine große Leistung, auch wenn keine statistische oder kausale Inferenz möglich sein mag. Gepaart mit starken theoretischen Annahmen und z. B. Evidenz aus Fallstudien kann es dann durchaus möglich sein, zu kausalen Schlüssen zu kommen. Die Regressionskoeffzienten und Standardfehler stellen dann einen wichtigen Baustein dar, der zum Verständnis der empirischen Welt beiträgt.
160
6.5
6 Gepoolte Zeitreihenanalyse
Schrittweises Vorgehen
1.
Deskription und grafische Analyse der Daten (UV und AV) mit besonderem Augenmerk auf der Varianz-Zerlegung (Querschnitts- und Längsschnittsvariation).
2.
Schätzung erster (primär „deskriptiver“) Regressionen einzelner Jahresquerschnitte (alle Länder zu einem Zeitpunkt) bzw. einzelner Länder (Zeitreihe) und Betrachtung der Residuen sowie der Koeffizienten.
3.
Test auf Nicht-Stationarität: Bei Nicht-Stationarität: Transformation der AV in erste Differenzen, ErrorCorrection- oder Kointegrations-Modelle (in diesem Kapitel nur angedeutet, hierzu spezielle ökonometrische Literatur).
4.
Untersuchung der dynamischen Struktur und Prüfung serieller Autokorrelation: grafische Analyse der Residuen, generelles ADL-Modell und Tests einzelner zeitverzögerter Variablen bzw. Schätzung eines Modells mit AR(1)-Prais-WinstenKorrektur oder LDV. Wichtig: Auch nach der „Kontrolle“ für Autokorrelation sollten die Residuen geprüft werden.
5.
Untersuchung der Heterogenität: Fixed Effects; Random Effects oder Pooled OLS oder Random-Coefficient-Modelle mit heterogenen Steigungen (s. MehrebenenAnalyse). Sowohl theoretische Überlegungen als auch die Datenstruktur (das Ausmaß der Heterogenität) sollten die Wahl beeinflussen.
6.
Untersuchung von Heteroskedastizität: Tests und unter Umständen PCSE.
7.
Untersuchung der räumlichen Abhängigkeit: Tests auf contemporaneous correlation, unter Umständen PCSE. Mögliche Inklusion von „spatial lags“.
8.
Test auf Ausreißer und einflussreiche Fälle (z. B. durch Jackknifing).
9.
Bericht unterschiedlicher Modellspezifikationen als Robustheits-Test.
7
Survival-Analysen
7.1
Grundlagen
Dieses Kapitel befasst sich mit der Survival-Analyse – einem Typ statistischer Modelle, der aufgrund seiner Flexibilität und breiten Anwendungsmöglichkeiten in den unterschiedlichsten wissenschaftlichen Disziplinen beheimatet ist. Die verschiedenen Forschungstraditionen erklären auch die Vielzahl an äquivalenten Bezeichnungen, die sich für diese Verfahren finden – etwa Event-History-Analyse (EHA), Ereignisdatenanalyse oder auch Transitionsanalyse. Sie werden in diesem Kapitel äquivalent verwendet.
7.1.1
Survival-Analysen und ihre begrifflichen Pendants in unterschiedlichen Wissenschaftsdisziplinen
Allen Formen von Survival-Analysen gemein ist ein dezidiertes Interesse an Zustandswechseln, d. h. dem Eintreten von bestimmten Ereignissen (Events) und der Dauer, die eine Untersuchungseinheit in bestimmten Zuständen verbleibt, bis sie ein solches Ereignis erfährt. In der Medizin will man beispielsweise nicht nur wissen, ob ein Patient überlebt, sondern wie lange er überlebt und ob eine bestimmte Therapieform seine Überlebensdauer verlängert (Ziegler et al. 2004: 1). Die abhängige Variable ist dort entsprechend die Dauer, die ein Patient überlebt, bis ihm das Ereignis Tod widerfährt. Untersucht wird also der Zustandswechsel von „lebendig“ zu „tot“. Ähnliche Fragestellungen finden sich abseits der Medizin beispielsweise in der Werkstofftechnik sowie in der Überprüfung der Zuverlässigkeit von Maschinen, von deren Komponenten oder von Software (Ebeling 2005; Kalbfleisch/Prentice 2002; Kapur/Lamberson 1977; Musa 2004; Saunders 2007). In diesen technischen und ingenieurwissenschaftlichen Analysen wird meist von Reliability Engineering sowie von Failure Time Models gesprochen.1 Daneben werden Ereignisdatenmodelle seit den 1980er Jahren auch vermehrt in den Sozialwissenschaften und hier v. a. in der Soziologie eingesetzt. Dort, wie auch in der Politikwissenschaft, gibt es viele Fragestellungen, die sich nur unter Berücksichtigung der Zeit angehen lassen. Zur Untersuchung sozialer Prozesse wird deshalb verstärkt deren Geschichte (Event History) herangezogen, die dann mit Hilfe von Ereignisanalysen erforscht werden kann (Kertzer 1994: 1289). In einigen dieser Arbeiten bleibt die ursprüngliche medizinische Bedeutung von Überleben bestehen2, in anderen werden weniger letale 1
2
Auch das Erkenntnisinteresse von David Cox, dem Begründer des semi-parametrischen Proportional Hazards Models, lag ursprünglich in der Untersuchung der Stärke und Zuverlässigkeit von Materialien begründet. In den 1940er Jahren versuchte er über statistische Verfahren diejenigen Faktoren herauszufinden, die für Webfehler in den für Kriegsuniformen hergestellten Stoffen verantwortlich waren und dadurch die Qualität dieser Uniformen zu verbessern. Erst später erkannten er und andere die vielfältigen Möglichkeiten, die seine Methode bietet (Schönherr 2007). Derosas (2003) untersucht z. B. mit Hilfe von Survival-Analysen unterschiedliche Kindersterblichkeitsraten von Juden und Katholiken im Venedig des 19. Jahrhunderts.
162
7 Survival-Analysen
Zustandsänderungen untersucht3: Für diese Analysen hat sich aufgrund der Tatsache, dass sie die Übergänge zwischen Zuständen in den Blick nehmen, auch der Begriff der Transitionsanalyse eingebürgert. Für die Sozialwissenschaften interessante Transitionsprozesse umfassen dabei u. a. Heirats-, Scheidungs- und Fertiliätsmuster, Übergänge auf dem Arbeitsmarkt (z. B. von erwerbstätig zu arbeitslos) sowie soziale Mobilitätsprozesse. In der Politikwissenschaft wurden Survival-Methoden bislang u. a. in der Konfliktforschung (Box-Steffensmeier et al. 2003) sowie der Analyse von Regierungsdauern (Jäckle 2011; Warwick 1994) und der politischen Elitenforschung (Dowding/Dumont 2009) eingesetzt.4 Aus letzterem Forschungsgebiet stammt auch das in diesem Kapitel verwendete Beispiel. Beispiel: Die Amtsdauern von Ministern in den deutschen Bundesländern Während die Frage der Besetzung von Ministerposten sowohl theoretisch (z. B. portfolioallocation- und delegation-Ansätze) als auch empirisch recht gut erforscht ist, fehlt es an Studien, die die Gründe für ein Ausscheiden aus dem Kabinett und damit die Amtsdauer von Ministern ins Auge fassen. Ein Forscher hat sich nun diese Frage vorgenommen und möchte sie anhand von Daten aus den deutschen Bundesländern beantworten. Sein Datensatz beinhaltet sämtliche Personen, die zwischen dem 01.01.1990 und dem 31.12.2010 ein Ministeramt mit Stimmrecht im Kabinett eines der 16 Bundesländer innehatten. Jeder Fall steht dabei für eine ununterbrochene Amtsdauer eines Ministers. Dabei ist unerheblich wie viele unterschiedliche Positionen die betreffende Person während ihrer Zeit im Kabinett eingenommen hat – einzig die Gesamtdauer in der Regierung zählt. Entsprechend sind Wahlen und Regierungsumbildungen auch nicht zwangsläufig Endereignisse, sondern werden ausschließlich dann als Endereignis für die Amtsdauer eines Ministers betrachtet, wenn diese dazu führen, dass dieser aus dem Kabinett ausscheidet. Minister, die nach einem zwischenzeitlichen Ausscheiden aus dem Kabinett wieder in ein Ministeramt gelangen, werden als distinkte Fälle gewertet. Datenbasis: 768 Fälle (Amtsdauern von Landesministern) Datenquelle: Jäckle (2012, 2013) Abhängige Variable (AV): Amtsdauer der Minister (in Tagen) Unabhängige Variablen (UVs): u. a. Charakteristika der Minister (z. B. regionale Verwurzelung) Ziel der Analyse: Untersuchung der Frage, welche Faktoren die Wahrscheinlichkeit eines Ausscheidens aus dem Kabinett beeinflussen und damit die Amtsdauer verkürzen. Anforderungen an die Datenstruktur: Erfassung der möglichen Endereignisse (mindestens dichotom) und der verstrichenen Dauer bis zum Eintritt des Ereignisses (metrisch). UV entweder metrisch oder Dummy-kodiert. 3
4
So etwa in einer Studie zu Heirats- und Fortpflanzungsdynamiken in Usbekistan, in der die Hochzeit, oder genauer gesagt der Übergang vom Status „unverheiratet“ zum Status „verheiratet“, als Event gewertet wird (vgl. Agadjanian/Makarova 2003), oder in einer Studie, welche die zeitliche Lücke zwischen der offiziellen Gewährung bestimmter Rechte und deren erstmaliger realer Implementation am Beispiel der ersten Wahl einer Frau in ein Parlament eines Entwicklungslandes betrachtet (Swiss 2009). Eine umfangreiche Auflistung an möglichen Anwendungsgebieten und bereits durchgeführten SurvivalStudien findet sich bei Blossfeld, Golsch und Rohwer (2007: 1–3). Aktuelle, nicht übertrieben stark formalisierte und dabei auf politikwissenschaftliche Fragestellungen fokussierende Einführungsartikel zur Survivalanalyse finden sich bei Box-Steffensmeier und Sokhey (2009) sowie Golub (2008).
7.1 Grundlagen
7.1.2
163
Typen von Survival-Modellen
Zieht man Lehrbücher zu Statistik heran, zeigt sich, dass es eine ganze Reihe an Modellen gibt, welche sich auf je spezifische Art und Weise dem Problem widmen, wie die Komponente Zeit in die statistische Modellierung integriert werden kann. Unter dem Oberbegriff Survival-Modelle lassen sich daher unterschiedliche statistische Verfahren subsumieren (vgl. Abb. 7.1). Die grundlegendste Unterscheidung kann bei Survival-Modellen hinsichtlich der Art der AV durchgeführt werden: Die Anzahl der möglichen Zustände, in die das Untersuchungsobjekt übergehen kann, ist entweder genau abzählbar oder, wie bei kontinuierlich-quantitativen AV, stetig und damit nicht exakt bestimmbar. Letzteres wäre beispielsweise bei einer Analyse von Veränderungsraten der Fall.5 In der Regel befasst man sich in den Sozialwissenschaften mit einer diskreten Anzahl an möglichen Zuständen, die ein Objekt annehmen kann. Die weitere Diskussion in diesem Kapitel beschränkt sich aus diesem Grund auf Modelle, in denen das Untersuchungsobjekt eine begrenzte, klar definierbare Anzahl an Zuständen annehmen kann. In unserem Beispiel: Ein Minister kann sich entweder noch im Amt befinden oder aus dem Amt ausgeschieden sein. Der zweite Zustand kann sinnvollerweise noch in unterschiedliche, aber durchaus abzählbare Arten des „Sich-nicht-mehr-im-Amt-Befindens“ unterteilt werden (z. B. freiwilliger Rücktritt aufgrund gesundheitlicher Probleme, Rauswurf durch Ministerpräsident). Diese Survival-Modelle lassen sich weiter entsprechend der folgenden drei Kriterien differenzieren (Vermunt 1996: 3–4): 1. Unterscheiden lassen sie sich zunächst danach, ob die Zustandswechsel nur zu bestimmten Zeitpunkten stattfinden (diskrete Zeit-Modelle) oder jederzeit eintreten können (kontinuierliche Zeit-Modelle). Da es sich bei den meisten in den Sozialwissenschaften anzutreffenden Prozessen genuin um kontinuierliche Prozesse handelt, bietet es sich an, diese auch über ein kontinuierliches Modell zu schätzen.6 Der Fokus dieses Kapitels liegt entsprechend auf diesen stetigen Zeit-Modellen.7 Denn ein einfaches Logit-Modell, welches die AV binär als „Ereignis ist während des Observationszeitraums eingetreten“ (1) bzw. „Ereignis ist nicht eingetreten“ (0) erfasst und diese auf eine Reihe unabhängiger Fakto5 6
7
Beispiele, wie primär aus einer soziologischen Perspektive mit einer stetigen Anzahl an Zuständen umgegangen werden kann, liefern Tuma und Hannan (1984: 331–527) sowie Allison (1990). Daneben sprechen noch weitere Gründe für kontinuierliche Modelle: Diskrete Modelle erfordern eine von stetigen Modellen verschiedene Datensatzstruktur. Jedes Zeitintervall, in das die Verweildauer eingeteilt wird, stellt bei diesen einen Fall dar, bei dem dichotom angegeben wird, ob das Ereignis bereits eingetreten ist (1) oder das Objekt weiterhin im Risk Set verbleibt (0). Eine kleinteilige zeitliche Messeinteilung lässt den Datensatz damit immens anwachsen, was die Analyse im Statistikprogramm zumindest verlangsamt. Sobald die Zustandswechsel per se auf einer gröberen Zeitskala gemessen werden, böten sich diskrete Modelle aus dieser Perspektive eher an (Box-Steffensmeier/Jones 2004: 83). Daneben stellt sich die Frage, inwiefern es sinnvoll sein könnte, den untersuchten Prozess über ein diskretes Modell zu approximieren – auch wenn er per se ein kontinuierlicher ist. Dies wäre potentiell nur dann sinnvoll, wenn die bedingte Wahrscheinlichkeit, ein Ereignis an einem diskreten Zeitpunkt zu beobachten, vergleichsweise klein ist (Yamaguchi 1991: 17). In solch einem Fall würden die Abweichungen einer treppenförmigen Überlebenskurve, wie sie ein diskreter Ereignisprozess generiert, nur wenig von der Kurve des kontinuierlichen Prozesses abweichen. Anders ausgedrückt benötigt man ausreichend viele Beobachtungszeitpunkte, um den kontinuierlichen Prozess adäquat abbilden zu können. Abgesehen von dem generellen Vorteil, dass diskrete Zeit-Modelle von Sozialwissenschaftlern zumeist gut verstanden werden, spricht laut Box-Steffenmeier und Jones nur wenig für diese Modellierungsstrategie und gegen das kontinuierliche Cox-Modell (2004: 87). Zu diskreten Zeit-Modellen, die zumeist in Form von Logit- oder Probit-Analysen geschätzt werden s. BoxSteffensmeier und Jones (2004: 69–83), Yamaguchi (1991: 15–45) sowie das Kapitel zu Logitanalyse in diesem Buch.
164
2.
3.
8
9
7 Survival-Analysen ren regressiert, wird oftmals nicht ausreichen, um eine aufgeworfene SurvivalFragestellung umfassend zu beantworten. Besonders die fehlende Möglichkeit, im LogitModell, den Faktor Zeit adäquat zu berücksichtigen, unterminiert die Anwendbarkeit dieser Modelle (Bennett 1999: 259).8 Innerhalb der kontinuierlichen Zeit-Modelle kann unterschieden werden zwischen single event Modellen, in denen ein Untersuchungsobjekt nur einmal einen einzigen Zustandswechsel erfahren kann (beispielsweise der Tod eines Patienten) und repeated event Modellen, in denen ein Objekt nach dem Eintreten eines Ereignisses im UntersuchungsSample verbleibt und damit weiterhin dem Risiko unterliegt, erneut ein Event zu erfahren. Ein Beispiel hierfür wäre die Geburt eines Kindes, die im Gegensatz zum eigenen Tod ein für die Mutter durchaus wiederholbares Ereignis darstellt. In den meisten politikwissenschaftlichen Anwendungsfällen handelt es sich jedoch um single events. Dies gilt auch für das Ministerbeispiel: Ein Minister, der im Amt ist, unterliegt dem Risiko, sein Amt zu verlieren. Wenn er es allerdings verloren hat, kann er es aus diesem Zustand heraus nicht ein weiteres Mal verlieren. Im Folgenden werden ausschließlich solche single event Ansätze besprochen.9 Ein drittes Unterscheidungskriterium für Survival-Ansätze bildet die Trichotomie nichtparametrischer, semi-parametrischer und parametrischer Modelle (Reimer/Barrot 2007: 295–305). Während erstere keinerlei Annahmen über die funktionale Verteilung der Eintrittszeitpunkte der Ereignisse machen, ist diese Verteilungsfunktion bei den parametrischen Modellen genau spezifiziert (beispielsweise in Form einer exponentiellen, Weibull-, Gompertz- oder log-logistischen Verteilung). Als semi-parametrisch wird das Cox-Modell bezeichnet, welches zwar grundlegend von einer zeitlichen Abhängigkeit des Eintretens der Ereignisse und damit einer vorhandenen funktionalen Verteilung ausgeht, die genaue funktionale Form jedoch nicht wie bei den parametrischen Modellen a priori festlegt (Yamaguchi 1991: 101–102). Konkrete Ausgestaltungen nicht-parametrischer und parametrischer Modelle, sowie des semi-parametrischen Cox-Modells werden in den Abschnitten 7.2–7.4 näher erläutert. Zunächst sollen jedoch einige grundlegende Begrifflichkeiten, die für alle Überlebenszeitanalysen von Bedeutung sind, geklärt werden.
Nach Vermunt (1996: 90–92) und Yamaguchi (1991: 9) lassen sich vier Argumente ausmachen, weshalb einfache Logit-Modelle für die Analyse von Ereignisdaten nur sehr bedingt geeignet sind: (1) Dadurch, dass einzig die Information einfließt, ob ein Ereignis innerhalb der Observationsperiode stattgefunden hat, gehen sämtliche Informationen über den genauen Zeitpunkt des Ereignisses innerhalb der Untersuchungsperiode verloren; auch sind keine Informationen über Ereignisse bzw. deren zeitliches Vorkommen nach Ablauf der Observationsperiode vorhanden; (2) der einfache Logit-Ansatz erlaubt keine sich über die Zeit ändernden UV, welche jedoch für ein dynamisches Modell vonnöten wären; (3) daneben können auch die Effekte der UV in diesem Modell nicht variieren, d. h. es können keine Interaktionsterme zwischen verstrichener Zeit und Kovariaten integriert werden, da die Schätzergebnisse in einem solchen Modell abhängig von der Länge der arbiträr gewählten Observationsperiode wären; (4) die Handhabung von Observationen, welche nur partielle Informationen enthalten (Zensierungen), ist bei einfachen Logit-Modellen ebenfalls problematisch: Diese Observationen werden entweder aus dem Sample ausgeschlossen, wodurch man Informationen verliert, oder sie werden so behandelt als wäre kein Ereignis eingetreten, wodurch nicht vorhandene Information dem Modell hinzugefügt wird, nämlich die Information, dass diese Beobachtungen in der untersuchten Periode auch kein Event mehr erfahren werden. Insgesamt zeigt sich also, dass es durchaus Sinn ergibt, einfache Logit-Modelle zur Analyse von Ereignisprozessen durch differenziertere Modelle zu ersetzen, welche besser in der Lage sind, die Fülle der durch Ereignisprozesse generierten Informationen adäquat zu verarbeiten. Zur statistisch anspruchsvolleren Analyse von repeated events vgl. Box-Steffensmeier und Jones (2004: 155– 182).
7.1 Grundlagen
165
Survival Modelle (Event History Modelle)
stetige Anzahl an Zuständen
diskrete Anzahl an Zuständen
diskrete ZeitModelle
nicht-parametrische Modelle (Sterbetafelmethode)
kontinuierliche Zeit-Modelle
Logit Modelle
parametrische Modelle (z.B. Exponential; Weibull; Gompertz; log-logistisch)
semiparametrische Modelle (Cox-Modell)
repeated event (z.B. Geburt von Kindern)
nichtparametrische Modelle (Kaplan-MeierProdukt-LimitSchätzer)
single event (z.B. Regierungsscheitern)
Anm.:
Eigene Darstellung nach Vermunt (1997), Yamaguchi (1991) sowie Reimer und Barrot (2007).
Abb. 7.1:
Typen von Survival-Modellen
7.1.3
Grundlegende Begrifflichkeiten
Coleman (1981: 6–7) identifiziert die folgenden drei Elemente als die wichtigsten, generellen Bestimmungsfaktoren eines Überlebensprozesses: 1. Es gibt ein Kollektiv an Untersuchungsobjekten (Minister), von denen sich jedes einzelne auf eine begrenzte Anzahl an möglichen anderen Zuständen zubewegt (z. B. Tod des Ministers, Abwahl der gesamten Regierungspartei, freiwilliger Rücktritt des Ministers oder Entlassung durch Ministerpräsident)10 ; 2. Die Ereignisse bzw. Wechsel von einem Zustand (Mitglied einer Regierung) in einen anderen (nicht mehr Mitglied der Regierung) können zu jedem Zeitpunkt eintreten; 3. Es gibt bestimmte zeitkonstante und/oder zeitvariable Faktoren, die das Eintreten der Ereignisse beeinflussen (z. B. Alter des Ministers, Parteizusammensetzung der Regierung oder Vorliegen eines Skandals).
10
Gibt es nur ein mögliches Ereignis, spricht man hier zumeist ebenfalls von single events. Begrifflich mag dies etwas verwirren, da hier nicht die Abgrenzung zu repeated events, also mehrfach, zeitlich nacheinander für ein Untersuchungsobjekt wiederholbaren gleichen Ereignissen gemeint ist wie unter 7.1.2 beschrieben, sondern die Abgrenzung zu unterschiedlichen Ereignissen, die alle als mögliches Zielereignis eintreten können. In der Regel ergibt es durchaus Sinn, zwischen solchen unterschiedlichen Endereignissen zu unterscheiden. Diese competing events können in das Cox-Modell vergleichsweise einfach über unterschiedliche Zensur-Regime integriert werden. Dazu genauer in Abschnitt 7.4.5.
166
7 Survival-Analysen
Die Survival-Analyse bedient sich einer spezifischen Nomenklatur, die im Folgenden kurz dargelegt wird. Unter einem Ereignis oder Event versteht man den Wechsel von einem Zustand in einen anderen. Neben dem rein dichotom zu kodierenden Eintreten eines Ereignisses interessiert darüber hinaus auch, wie lange das Untersuchungsobjekt in Zustand A war, bis es in Zustand B übergewechselt ist. Für diese Periode haben sich die Begriffe Verweildauer oder auch Überlebenszeit eingebürgert, die in unserem Beispiel beide äquivalent zur Amtsdauer eines Ministers verwendet werden können. In vielen Studien können bestimmte Ereignisse nur eintreten, sofern das Untersuchungsobjekt bereits in einem bestimmten Zustand ist. Beispielsweise kann man erst geschieden werden, wenn man schon verheiratet ist. Singles befinden sich demzufolge nicht in der Menge an Personen, welche dem Risiko unterliegen, geschieden zu werden. Sie gehören damit nicht zum sogenannten Risk Set. Bei unserer Fragestellung befinden sich alle Personen, welche einen Posten in der Landesregierung innehaben, im Risk Set, da sie alle theoretisch vom ersten Tag ihrer Amtsperiode an wieder aus dem Kabinett ausscheiden könnten. Entsprechend dieser Unterscheidung zwischen Risikoperioden und Perioden, während derer ein Objekt nicht dem Risiko eines Zustandswechsels unterliegt, lässt sich die Methode der Survival-Analyse nach Yamaguchi dementsprechend auch auf zwei Arten definieren: Erstens „als die Analyse des Zeitraums, während dessen innerhalb der Risikoperiode kein Ereignis stattgefunden hat“ (1991: 3; eigene Übersetzung). Für unser Beispiel lautet die Forschungsfrage entsprechend dieser Definition: Wie lange sind Minister im Amt, bis sie zurücktreten. Zweitens kann eine Survival-Analyse auch „als eine Analyse der Eintrittsrate eines Ereignisses während der Risikoperiode definiert werden“ (1991: 3; eigene Übersetzung). Die Forschungsfrage für das Ministerbeispiel lässt sich entsprechend auch folgendermaßen formulieren: Wie hoch ist die bedingte Wahrscheinlichkeitsrate, dass ein Minister zu einem gegebenen Zeitpunkt während seiner Amtszeit aus dem Kabinett ausscheidet. Für diese Raten, welche einem spezifischen Zeitpunkt t zuzuordnen sein müssen, hat sich vornehmlich in der Soziologie der Begriff der Transitionsrate durchgesetzt, welcher auf das Moment des Zustandswechsels kapriziert, wohingegen in der Medizin und Epidemiologie aber auch der Politikwissenschaft meist von Hazard-Raten gesprochen wird. Ereignisanalysen bauen stets darauf auf, die Dauer zu beobachten, die ein Untersuchungsobjekt in einem bestimmten Zustand verweilt. Sobald die Beobachtung jedoch aus unterschiedlichen Gründen keine vollständigen Informationen liefert, spricht man von Zensierung (Censoring). Hierbei lassen sich verschiedene Arten unterscheiden, die in Abb. 7.2 veranschaulicht und im folgenden Abschnitt ausführlich beschrieben werden.
7.1 Grundlagen
167 A
E
B F C
D T0
Observationsperiode
T1
t
Anm.:
Dargestellt sind die sechs Observationen A, B, C, D, E und F. Ein Stern am rechten Ende der Linie, welche die Risikoperiode repräsentiert, indiziert ein Ereignis von Interesse für den Forscher. Der durchgestrichene Kreis hingegen weist auf ein anderes nicht interessierendes Event hin. Eigene Darstellung nach Yamaguchi (1991: 4)
Abb. 7.2:
Zensierungsarten
7.1.4
Zensieren
Fall A repräsentiert, aus Sicht des Forschers, den Idealzustand: Sowohl der Anfangspunkt wie auch die Zustandsänderung durch das Ereignis liegen innerhalb der Observationsperiode. Somit kann die vollständige Information über den Transitionsprozess in das Modell einfließen. Die Observation der Objekte B und D hingegen bietet jeweils nur partielle Informationen an. Bei B liegt ein Fall von Rechtszensierung vor, da zwar der Startpunkt beobachtet werden kann, das Ereignis aber erst nach Ablauf des Untersuchungszeitraums bei T1 eintritt. Von einer Linkszensierung spricht man dagegen in einem Fall wie D, wenn ein Ereignis für einen Fall beobachtet werden kann, dessen Event History bereits vor dem Beginn der Observation bei T0 beginnt. Rechts- wie Linkszensierungen stellen die Modellierung von Ereignisprozessen aufgrund der unvollständigen Informationen, die sie über den Prozess zur Verfügung bieten, vor Schwierigkeiten. Linkszensierungen können allerdings oftmals dadurch umgangen werden, dass man die Beobachtungsperiode für sämtliche betrachteten Objekte erst mit deren Eintritt in das Risk Set beginnen lässt – in unserem Fall gibt es entsprechend keinen einzelnen Stichtag, ab dem alle Landesminister betrachtet werden, sondern es wird für alle Minister die zwischen 01.01.1990 und 31.12.2010 im Amt waren, das exakte Anfangsdatum verwendet, auch wenn dieses vor 1990 lag. Rechtszensierte Daten sind hingegen schwieriger zu umgehen. Am Ende der Observationsperiode sind in sämtlichen untersuchten Ländern weiterhin Regierungen und damit Minister im Amt, die noch eine gewisse, nicht beobachtbare Zeitspanne im Kabinett bleiben werden. Diese Observationen sind damit rechtszensiert. Observation F unterscheidet sich in Bezug auf die Behandlung im Survival-Modell nicht von klassischen rechtszensierten Fällen, auch wenn der Endzeitpunkt dieses Mal innerhalb des Observationsraums liegt und somit durchaus bekannt ist. Der Grund für eine von Fall A abweichende Behandlung liegt in der Art des Ereignisses begründet. Das Event, welches Observation F beendet, ist nicht das eigentlich interessierende, weshalb die observierte Verweildauer auch nicht diejenige ist, die in das Modell einfließen sollte. Die beispielhafte Betrachtung einer medizinischen Studie erleichtert hier das Verständnis: Angenommen ein Medikament gegen Krebs soll auf seine Wirkung getestet werden. Hierfür wird über zwei Jahre eine Gruppe an Patienten
168
7 Survival-Analysen
betrachtet, die Krebs haben und mit dem Medikament behandelt werden. Von Interesse ist, wie lange sie überleben. Patienten, die innerhalb der zwei Jahre an Krebs sterben, stellen reguläre Beobachtungen dar (Fall A). Patienten, die die zwei Jahre überleben, werden rechtszensiert (Fall B). Es besteht aber auch die Möglichkeit, dass ein Patient nicht auf Grund von Krebs stirbt, sondern beispielsweise in Folge eines Verkehrsunfalls (Fall F). Hier geht man wie bei der klassischen Rechtszensierung davon aus, dass die observierte Lebensdauer dieses Patienten nicht diejenige ist, welche in das Modell übernommen werden sollte, da anzunehmen ist, dass er, falls er nicht durch den Unfall gestorben wäre, noch eine gewisse Zeit gelebt hätte, bis er an Krebs gestorben wäre. Übertragen auf unser Beispiel bedeutet dies, dass die beobachtete Amtsdauer von Ministern, die aus politischen Gründen ihren Kabinettsposten verlassen, anders behandelt werden sollte als die von Ministern, die beispielsweise während ihrer Amtszeit sterben. Während erstere aufgrund eines uns eigentlich interessierenden Ereignisses aus dem Amt scheiden und ihre observierte Amtsdauer damit komplett in das Modell aufzunehmen ist, ist bei zweiteren anzunehmen, dass diese sich noch länger im Amt hätten halten können, wären sie nicht verstorben. Hier zeigt sich jedoch, dass die Frage der Rechtszensierung kein rein technisches Problem ist, sondern theoretisch unterfüttert sein will. So ist beispielsweise fraglich, ob ein Rücktritt aufgrund gesundheitlicher Gründe ein zu zensierendes Ereignis darstellt – hier würde man annehmen, dass es wirklich die physische Konstitution ist, die einen Minister zur Amtsaufgabe zwingt und er ansonsten noch länger im Amt geblieben wäre. Oftmals werden gesundheitliche Gründe jedoch nur vorgeschoben, um einen eigentlich politisch veranlassten Rücktritt zu kaschieren. In einem solchen Fall wäre es angebrachter die observierte Dauer nicht als rechtszensiert zu betrachten.11 Die beiden verbliebenen Observationen aus Abb. 7.2 stellen Fälle dar, von denen weder der Anfangszeitpunkt der Risikoperiode noch der Eintrittszeitpunkt des Ereignisses bekannt sind, da das Event entweder vor Beginn der Observationsperiode liegt (Fall E) oder die Risikoperiode erst nach Ablauf des Untersuchungszeitraums beginnt (Fall C). Diese Fälle sind damit unproblematisch, da sie gar nicht erst in das Sample aufgenommen werden. In einem solchen 11
King und seine Kollegen gehen beim theoretischen, oder wie sie es nennen strategischen Zensieren noch einen Schritt weiter. Sie zensieren in ihrer Survival-Analyse von Regierungsdauern auf Grundlage der Überlegung, dass die letzten Monate von Legislaturperioden einer anderen politischen Logik folgen als die Zeit davor. Demzufolge ließen sich diese Zeiträume über eine vom sonstigen Modell distinkte „end game“-Verteilung (King et al. 1990: 853) modellieren. King et al. zensieren daher alle Regierungen, die bis maximal ein Jahr vor dem Ablauf der regulären verfassungsmäßigen Legislaturperiode enden. Sie begründen dieses Vorgehen mit der Annahme, dass der Anreiz eines Koalitionspartners, eine Regierungskoalition zu verlassen und damit gleichzeitig das Ende selbiger Regierung einzuläuten, mit näher rückendem Ende der Legislaturperiode ansteigt. Analog zur Argumentation bei sonstigen Zensierungen gehen King et al. entsprechend davon aus, dass ein Kabinett, welches während dieses Zeitraums beendet wird, noch länger angedauert hätte, wenn nicht das Ende der verfassungsgemäß festgelegten Legislaturperiode und damit die nächste reguläre Parlamentswahl schon so nahe gewesen wäre. Gegen ein solches strategisches Zensieren spricht jedoch, dass der theoretisch angenommene Zusammenhang, der zur Entscheidung herangezogen wird, eine Observation zu zensieren, als gesetzt angenommen wird. Das Zensieren verhindert damit gerade den Test von Theorien, die zu erklären versuchen, weshalb es bis ein Jahr vor Ende der Legislaturperiode zu gewissen Anomalien in der Überlebensdauer von Regierungen kommt (z. B. das nicht kooperative Verhandlungsmodell von Lupia und Strom (1995)). Das strategische Zensieren verzerrt damit gerade diejenigen Fälle, die aufgrund der End-Game-Problematik gerade die interessantesten für eine spezifischere Analyse wären (Diermeier/Stevenson 2000: 235–236). Warwick zeigt zudem, dass die statistische Begründung, welche King et al. ebenfalls für das strategische Zensieren ins Feld führen, ins Leere läuft. Ihm zufolge führt nämlich jegliches Zensieren – also auch ein solches von Fällen, die dezidiert nicht zensiert werden sollten (politische Endereignisse) – zu besseren Log-Likelihood-Werten, was das Argument entkräftet, strategisches Zensieren würde die Güte der Schätzungen verbessern (Warwick 1994: 25).
7.1 Grundlagen
169
Fall spricht man von Trunkierung. Diese unterscheidet sich dadurch von einer Zensierung, dass ein Fall nicht nur teilweise nicht-observierbare Dauern aufweist, sondern es teilweise gar nicht bekannt ist, dass die Fälle als solche überhaupt existieren oder sie zumindest gänzlich nicht beobachtet werden. Wüsste man beispielsweise nur von der Existenz von Fällen, die bereits eine gewisse Altersgrenze überschritten haben, würde dies über Trunkierungen erfasst.12 Aus statistischer Perspektive ist mit Trunkierungen anders umzugehen als mit Zensierungen. Dies liegt an der grundlegend verschiedenen Logik der beiden Phänomene: “Whereas censoring is a model of missing observations […], truncation is a model of selection bias […]. Therefore, estimation using truncated data is naturally based on methods for selection bias models” (Mandel 2007: 322).13 Insgesamt muss jedoch festgehalten werden, dass Zensierungen zwar allgemein ein Problem für die Modellspezifikation darstellen, die Ereignisanalyse aber im Vergleich zu klassischen Regressionsansätzen deutlich besser in der Lage ist, hiermit umzugehen. Deren sehr eingeschränkte Möglichkeiten zur Behandlung von zensierten Fällen – wie der komplette Ausschluss dieser Fälle aus der Analyse oder das Festlegen einer arbiträren Zeitspanne, die eine jede zensierte Beobachtung noch gelebt hätte, wäre sie nicht zensiert worden – würden dagegen unweigerlich zu einem nicht unerheblichen Bias führen (Yamaguchi 1991: 8). Wichtig ist jedoch, dass die Gründe für die Zensierung oder Trunkierung unabhängig von dem interessierenden Endereignis sind.
7.1.5
Mathematisch-statistische Grundlagen von Survival-Analysen
Es gibt zwei elementare Funktionen, die eine jede Überlebenszeitanalyse charakterisieren (s. Box-Steffensmeier/Jones 2004: 12–15). Die erste ist die Wahrscheinlichkeitsdichtefunktion f(t). Diese beschreibt die nicht bedingte und unmittelbare Wahrscheinlichkeit, dass ein Ereignis während des infinitesimal kurzen Intervalls, das durch die Zeitpunkte t und t + Δt begrenzt ist, stattfinden wird: ( ) = lim →
Pr ( ≤
≤ +Δ ) Δ
(7.1)
Dabei ist T eine kontinuierliche, nicht negative Zufallsvariable, welche die Zeitspanne angibt, nach der das Ereignis stattgefunden hat, t ist eine konkrete Realisierung dieser Variable. Mit der Wahrscheinlichkeitsdichtefunktion geht die Verteilungsfunktion F(t) einher, welche angibt, bei wie vielen Fällen, kumuliert über die Zeit betrachtet, ein Ereignis relativ zu allen Fällen eingetreten ist. Die Verteilungsfunktion lässt sich als Wahrscheinlichkeit begreifen, dass die Überlebenszeit kleiner oder gleich einem konkreten t-Wert ist: ( ) = Pr( ≤ )
12 13
(7.2)
Aus Gründen des Datenschutzes kann es beispielsweise der Fall sein, dass ausschließlich Daten von Volljährigen zur Verfügung stehen. Personen unter 18 würden damit trunkiert. Der Umgang mit Trunkierungen ist in Stata einfach: Im stset-Kommando kann über die Optionen (enter) und (exit) der Observationszeitraum eingegrenzt werden. Mit der Option (origin) kann zusätzlich festgelegt werden, wann für ein Untersuchungsobjekt die Periode beginnt, ab der es dem Risiko eines Ereignisses unterliegt. Genauer zum Umgang mit Zensierungen und Trunkierungen s. Klein und Moeschberger (2003).
170
7 Survival-Analysen
Die zweite ist die Überlebensfunktion S(t), welche die Wahrscheinlichkeit angibt, dass ein Ereignis bis zum Zeitpunkt t noch nicht eingetreten ist. Das Untersuchungsobjekt hat demzufolge bis t überlebt. Die Funktion schreibt sich als ( ) = 1 − ( ) = 1 − Pr( ≤ ) = Pr( ≥ )
(7.3)
wodurch sie sich allgemein als eine monoton fallende Funktion von t präsentiert, die ihr Maximum von Eins bei = 0 hat und für → ∞ ihr Minimum von Null annimmt: Zu Beginn der Beobachtung sind noch alle Untersuchungseinheiten im Risk Set, d. h. alle Minister im Amt. Mit fortschreitender Zeit scheiden kumulativ betrachtet immer mehr Einheiten aus dem Sample aus, bis, sofern man die Studie ins Unendliche fortsetzen würde, die Wahrscheinlichkeit, im Risk Set zu verbleiben oder in unserem Beispiel weiterhin Mitglied des Kabinetts zu sein, für einen Minister gleich Null wäre. Die Kombination dieser beiden Funktionen stellt das zentrale Konzept in der SurvivalAnalyse dar und wird als Hazard-Rate λ(t) bezeichnet (Yamaguchi 1991: 9–10): ( ) = ( )⁄ ( )
(7.4)
Die Hazard-Rate gibt das unmittelbare Risiko an, dass ein Ereignis im infinitesimal kleinen Zeitraum Δt stattfindet, unter der Bedingung, dass es bis t noch nicht stattgefunden hat. Entsprechend lässt sich die Hazard-Rate formal auch schreiben als: ( ) = lim →
Pr ( ≤
< +Δ | ≥ ) Δ
(7.5)
Dieser Abschnitt hat die grundlegenden Funktionen kontinuierlicher Zeit-Modelle beschrieben. Diskrete Zeit-Modelle unterscheiden sich von diesen letztlich nur insofern, als T bei diesen keine stetige, sondern eine diskrete Zufallsvariable ist, weshalb der „Umweg“ über lim unnötig ist.14 →
7.2
Nicht-parametrische Methoden
Nicht-parametrische Verfahren machen keinerlei Annahmen über die funktionale Form der Eintrittszeitpunkte der Ereignisse. Unterscheiden lassen sich Sterbetafelmethoden, welche für gruppierte Überlebensdauern angewandt werden, und Produkt Limit Schätzungen, welche für exakte Zeiten konzipiert sind.
7.2.1
Sterbetafel
Ein historisch betrachtet bereits relativ früh verwendeter Typus nicht-parametrischer Verfahren stellt die aus der Demografie stammende Sterbetafelmethode dar, bei der der Untersuchungszeitraum in kleinere Intervalle eingeteilt wird, für die dann jeweils die Überlebensfunktion berechnet werden kann (Elandt-Johnson/Johnson 1980: 83–93; Lawless 1982: 52–68). Die Sterbetafelmethode macht keinerlei Annahmen über die funktionale Verteilung der Über14
Zur genauen Ausgestaltung diskreter Zeit-Modelle, die zumeist in Form von Logit- oder Probit-Analysen geschätzt werden, vgl. Yamaguchi (1991: 15–45) sowie Box-Steffensmeier und Jones (2004: 69–83).
7.2 Nicht-parametrische Methoden
171
lebenszeiten. Sie eignet sich besonders zum Vergleich unterschiedlicher Gruppen. Mit folgendem Kommando lässt sich beispielsweise testen, ob Minister in West- oder Ostdeutschland länger im Amt überleben (Datensatz: „survival.dta“): ltable amtsdauer endereignis, survival failure by(ostdeu) > intervals(30)
Die erste Variable nach dem Befehl ltable gibt die Überlebensdauer an, die darauf folgende ist eine Dummy-Variable, die aufnimmt, ob am Ende dieses Zeitraums ein interessierendes Ereignis stattgefunden hat oder – wie bei zensierten Fällen – dies nicht der Fall war. Mit der Option survival fordert man die Ausgabe der Überlebensraten an. Dies ist die Standardeinstellung in Stata. Alternativ kann man sich auch die kumulierte Wahrscheinlichkeitsdichte sowie die empirischen Hazard-Raten über die Optionen failure bzw. hazard ausgeben lassen. Der by-Term enthält die Gruppierungsvariable, nach der der Output aufgeteilt werden soll – in unserem Fall einen Dummy, der zwischen Ost- und Westdeutschland unterscheidet. In der Klammer nach intervals wird angegeben (gemessen in derselben Einheit wie die Überlebenszeit), wie groß die Intervalle sein sollen, die für die Berechnung der Überlebensraten (bzw. Wahrscheinlichkeitsdichte oder Hazard-Raten) herangezogen werden. In unserem Fall wurde zur Veranschaulichung ein monatlicher Wert, d. h. 30 Tage gewählt (vgl. Output 7.1). Output 7.1: Ausschnitte aus Sterbetafel mit empirischen Überlebensraten unterteilt nach Ost- und Westdeutschland Beg. Std. Interval Total Deaths Lost Survival Error [95% Conf. Int.] ------------------------------------------------------------------------------ostdeu = 0 30 60 477 0 1 1.0000 0.0000 . . 90 120 476 0 1 1.0000 0.0000 . . 120 150 475 1 8 0.9979 0.0021 0.9850 0.9997 […] 8220 8250 9900 9930 10140 10170 ostdeu = 1 0 30 60 90 90 120
3 2 1
1 1 1
0 0 0
0.0200 0.0100 0.0000
0.0131 0.0096 .
0.0044 0.0010 .
0.0597 0.0471 .
291 289 288
0 0 2
2 1 0
1.0000 1.0000 0.9931
0.0000 0.0000 0.0049
. . 0.9725
. . 0.9983
[…] 4530 4560 4 2 0 0.0279 0.0180 0.0061 0.0811 4890 4920 2 1 0 0.0139 0.0134 0.0013 0.0637 6930 6960 1 1 0 0.0000 . . . -------------------------------------------------------------------------------
Die Tabelle lässt sich folgendermaßen lesen: In Westdeutschland sind insgesamt 477 Amtsdauern von Ministern im Datensatz vorhanden. Von diesen Ministern scheidet kein einziger im ersten Monat aus dem Amt aus (deshalb fehlt die Kategorie 0 bis 30 Tage auch komplett im Output). Nach 30 bis 60 Tagen im Amt scheidet dann erstmals ein Minister aus dem Kabinett aus, allerdings nicht aufgrund eines der Ereignisse, die für unsere Untersuchung als interessierendes Endereignis definiert werden, sondern aufgrund eines zu zensierenden events (als solche begreifen wir hier: Tod des Ministers, Ende der Observationsperiode, Abwahl der ganzen Regierungspartei). Fälle, die aufgrund eines nicht-interessierenden Ender-
172
7 Survival-Analysen
eignisses beendet werden, finden sich in der Spalte Lost. Der erste Minister, der aufgrund eines von uns als Endereignis definierten events aus dem Amt scheidet tut dies nach 120 bis 150 Tagen. Nur diese in der Spalte Deaths aufgelisteten Fälle zählen in die aus der Sterbetafel berechnete Überlebensfunktion. Das erkennt man daran, dass die Überlebensrate trotz der Lost-Fälle erst im Intervall 120–150 beginnt abzufallen. Die Sterbetafelmethode beinhaltet insofern die Gefahr einer Falschinterpretation, als sie für den Umgang mit zu zensierenden Fällen nur zwei gleichermaßen suboptimale Möglichkeiten bietet: Entweder würde gar nicht zwischen zu zensierenden Fällen und interessierenden Endereignissen unterschieden, wodurch für alle Fälle die observierte Zeit als reale Amtsdauer aufgefasst würde. D. h. für einen Minister, der zwei Wochen vor Ende der Observationsperiode gerade noch ins Amt gekommen ist, würde man davon ausgehen, dass dieser auch nur eine Amtsdauer von zwei Wochen hätte, was so natürlich sehr unwahrscheinlich wäre. Alternativ können die eigentlich zu zensierenden Fälle als nicht interessierende Endereignisse komplett aus der Berechnung der Überlebensraten herausgelassen werden, wie dies in Output 7.1 geschieht. Problematisch daran ist freilich, dass die Informationen, die über die Amtsdauer bis hin zu dem nichtinteressierenden Endereignis vorliegen, nicht genutzt werden. Gleichzeitig ist eine Interpretation der empirischen Überlebensraten in Form von „nach 150 Tagen sind noch 99,79 Prozent aller Minister im Amt“ entsprechend nur dann gültig, sofern es keine zensierten Fälle gibt. Da die längsten Amtsdauern jeweils mit einem event of interest enden, fällt die Überlebensrate wirklich bis auf exakt null ab, was bedeutet, das nach Ministerdauern von 10.170 Tagen in West- bzw. 6.960 Tagen in Ostdeutschland kein Minister mehr im Amt ist. Würde es sich bei diesen längsten observierten Dauern um zensierte Fälle handeln, würde die Überlebensrate entsprechend nicht vollständig auf null abfallen. Noch schöner als über die doch recht unübersichtlichen Sterbetafeln lassen sich empirische Überlebensfunktionen wie auch deren Umkehrfunktion, die kumulierte Wahrscheinlichkeitsdichtefunktion, grafisch darstellen. Dies ist ebenfalls mit dem ltable-Befehl möglich: ltable > over ltable > over
amtsdauer endereignis, graph notable survival ci by(ostdeu) intervals(30) amtsdauer endereignis , graph notable failure ci by(ostdeu) intervals(30)
Die Option notable unterdrückt die Ausgabe der Sterbetafel, ci plottet die Konfidenzintervalle und mit over werden beide Graphen sowohl für Ost- wie Westdeutschland in einem Plot dargestellt, was einen sinnvollen Gruppenvergleich erst ermöglicht. Erneut wurden Monatsintervalle gewählt. Abb. 7.3 zeigt die resultierenden Kurven. Es zeigen sich durchaus signifikante Unterschiede zwischen ost- und westdeutschen Ministern, was man daran erkennt, dass sich die als graue senkrechte Striche geplotteten Konfidenzintervalle der beiden Kurven nur bei kurzen Amtsdauern (bis ca. 800 Tage) überlagern. Es zeigt sich entsprechend, dass westdeutsche Minister ab einer Überlebenszeit von gut zwei Jahren durchweg höhere Überlebensraten aufweisen als ihre Kollegen im Osten. Die Sterbetafelmethode eignet sich gut, um einen ersten Überblick über die Daten zu bekommen und insbesondere Gruppen bezüglich ihrer Überlebensraten zu vergleichen. Die Ergebnisse sind jedoch immer von der Anzahl und Länge der letztlich arbiträr zu bestimmenden Intervalle abhängig. Zudem ist eine relativ große Anzahl an Fällen nötig um reliable Ergebnisse zu erzielen.
Proportion Failed .4 .6 .8 .2 0
0
.2
Proportion Surviving .4 .6 .8
1
173
1
7.2 Nicht-parametrische Methoden
0
2000
4000 6000 amtsdauer 95% CI ostdeu = 1
Abb. 7.3:
7.2.2
8000 ostdeu = 0
10000
0
2000
4000 6000 amtsdauer 95% CI ostdeu = 1
8000
10000
ostdeu = 0
Empirische Überlebensfunktion (links) und kumulierte Wahrscheinlichkeitsdichtefunktion (rechts) aus Sterbetafel
Kaplan-Meier-Schätzer
Der von Kaplan und Meier (1958) entwickelte Produkt-Limit-Schätzer berechnet zu jedem Zeitpunkt, an dem ein Objekt empirisch ein Event erfährt, die Risikomenge, d. h. diejenige Anzahl an Objekten, welche noch dem Risiko unterliegen, dass ihnen ein Ereignis widerfahren kann. Er ist damit unabhängig von einer arbiträren Intervalleinteilung wie bei der Sterbetafel.15 Die Interpretation des Outputs erfolgt jedoch analog zur Sterbetafel. So ist in unserem Beispiel (vgl. Output 7.2) in Westdeutschland nach 553 Tagen ein Minister aufgrund eines event of interest aus dem Amt geschieden (Spalte Fail), wobei nach diesem Tag noch 95,01 Prozent der Minister im Amt waren (Spalte Survivor Function). Zensierte Fälle verändern erneut nicht direkt die Überlebensfunktion: Die Kaplan-Meier-Überlebensfunktion bleibt bei den beiden zu zensierenden Fällen, die nach 565 bzw. 574 Tagen aus dem Amt scheiden (Spalte Net Lost), auf demselben Wert wie zuvor – bei 95,01 Prozent. Allerdings gibt es beim Kaplan-Meier-Schätzer die Möglichkeit, zensierte Fälle grafisch darzustellen. Dies ist sinnvoll und wichtig, da das Zensieren von Fällen die Überlebensfunktion auf indirekte Weise doch verändert: Ein zensierter Fall wird zwar aus dem Risk Set entfernt, ohne dass die Überlebensfunktion daraufhin absinkt. Da jedoch durch die Verkleinerung des Risk Set automatisch jeder weitere Fall, der ein Ereignis erfährt, einen größeren Anteil an der verbleibenden Population ausmacht, fällt die auf die Zensierung folgende Stufe größer aus als diejenigen vor der Zensierung. Die folgende Abb. 7.4 stellt das Problem beispielhaft dar. Angenommen ein zu analysierender Datensatz beinhaltet insgesamt 50 Observationen, von denen zehn ein event of interest erfahren: eine nach einer Zeiteinheit, eine nach zwei, eine nach drei bis hin zu einer nach zehn Zeiteinheiten. 40 weitere Fälle werden nach fünf Zeiteinheiten zensiert. Die resultierende Kaplan-Meier-Kurve sieht entsprechend unterschiedlich aus, je nachdem, wie mit den zensierten Fällen verfahren wird. Werden diese komplett aus der Analyse entfernt, sieht das Ergebnis wie in der linken Grafik aus: eine gleichförmige Stufenfunktion. Werden die zensierten Fälle als reguläre Endereignisse gewertet, sieht man zunächst ein schwaches Abfallen der Kurve, bis nach fünf Zeiteinheiten einen deutlicher Abfall erfolgt 15
Genauer zur Berechnung des Kaplan-Meier-Schätzers vgl. (Elandt-Johnson/Johnson 1980: 172–174; Kalbfleisch/Prentice 1980: 10–16; Lawless 1982: 71–74).
174
7 Survival-Analysen
(mittlere Grafik). Nach diesem erkennt man wieder dieselben kleinen Stufen wie zuvor. Der rechte Graph zeigt die Kaplan-Meier-Kurve, wenn die zu zensierenden Fälle auch wirklich als solche gewertet werden. Hier führt während der ersten fünf Zeiteinheiten jedes einzelne Ereignis zu einem Abfall der Überlebensfunktion um 0,02. Nachdem die 40 Fälle zensiert sind, fällt die Kurve dann bei jedem weiteren Ereignis um 0,18. Erst durch die Angabe, ob und, wenn ja, zu welchen Zeitpunkten wie viele Fälle zensiert werden, kann man die Kaplan-Meier-Kurve sinnvoll interpretieren. Andernfalls würde man bei diesem Beispiel wohl zunächst von einer nur geringen Wahrscheinlichkeit ausgehen, dass ein Ereignis eintritt und ab Zeiteinheit sechs annehmen, dass deutlich mehr Observationen ein Endereignis erfahren als zuvor. Enthält ein Datensatz Zensierungen, sollten diese bei der Analyse über Kaplan-Meier-Kurven immer in diesen vermerkt werden – Stata bietet hierfür unterschiedliche Optionen.
Abb. 7.4:
4 6 analysis time
8
10
1.00 0.75
40
0.50
0
2
4 6 analysis time
8
10
0.00
2
zensierte Fälle als Zensierungen gewertet
0.25
0.50
0.75
1.00
zensierte Fälle als reguläre Endereignisse gewertet
0.25
0
0.00
0.00
0.25
0.50
0.75
1.00
zensierte Fälle komplett aus Analyse entfernt
0
2
4 6 analysis time
8
10
Effekt zensierter Fälle auf Kaplan-Meier-Überlebensfunktion
Output 7.2: Ausschnitte aus Kaplan-Meier-Schätzung mit empirischen Überlebensraten unterteilt nach Ost- und Westdeutschland failure _d: analysis time _t:
endereignis == 1 amtsdauer
Beg. Net Survivor Std. Time Total Fail Lost Function Error [95% Conf. Int.] ------------------------------------------------------------------------------ostdeu=0 […] 553 404 1 0 0.9501 0.0104 0.9252 0.9669 565 403 0 1 0.9501 0.0104 0.9252 0.9669 574 402 0 1 0.9501 0.0104 0.9252 0.9669 […]
Zur Berechnung des Kaplan-Meier-Produkt-Limit-Schätzer muss Stata zunächst erklärt werden, dass es sich um Survival-Daten handelt. Dieser Vorgang ist nicht nur für die KaplanMeier-Schätzung, sondern auch für sämtliche weitere, noch zu besprechende SurvivalVerfahren notwendig.16 stset amtsdauer, failure(endereignis==1) scale(365)
Nach stset folgt die Variable, welche die Überlebensdauer angibt; nach failure die Variable und deren Wert, der ein event of interest angibt. Am einfachsten ist es, wenn man diese Variable dichotom kodiert. Die Option scale kann verwendet werden, um besser interpretierbare Zeiteinheiten zu erhalten. Mit dem Wert 365 wird die Analysezeit beispiels16
Genauer zu den Möglichkeiten, die stset bietet, um auch mit komplizierteren Datensatzformaten für Survivalanalysen umzugehen, s. Cleves et al. (2010: 47–71).
7.2 Nicht-parametrische Methoden
175
weise in Jahren anstelle der eigentlich zugrundeliegenden Tage ausgegeben. stset generiert vier neue Variablen: _d gibt an, ob die Observierung ein Endereignis erfährt oder zensiert wird, _t gibt die Überlebenszeit und _t0 den Startzeitpunkt an (beides in Analysezeit gemessen). Die vierte Variable _st indiziert, ob die Beobachtung für die folgenden Survival-Analysen verwendet wird, oder ob sie ausgeschlossen wurde. Den Output von stset sollte man sich auf jeden Fall genau ansehen, da sich hierdurch mögliche Fehler in der Datenstruktur oder der Kodierung auffinden lassen. Das Programm weist an dieser Stelle auch auf mögliche Fehler hin – beispielsweise wenn im Datensatz negative Überlebensdauern enthalten sind. Output 7.3 zeigt zunächst erneut die in stset vorgenommenen Angaben, unter dem ersten Querstrich folgen Informationen zur Gesamtzahl der Observationen, von denen scheinbar eine Beobachtung eine theoretisch nicht mögliche negative Überlebenszeit aufweist. Sortiert man die Daten nach amtsdauer finden wir den Fehler. Dieser „testminister“ sollte aus dem Datensatz entfernt werden. Die weiteren Zeilen unterhalb des zweiten Querstrichs weisen dagegen auf keine weiteren Probleme hin: 447 der 769 Fälle erfahren ein event of interest, 321 werden entsprechend zensiert; der früheste Eintritt in das Risk Set geschieht zum Zeitpunkt = 017 und die längste vorgefundene Überlebensdauer beträgt knapp 28 Jahre. Output 7.3: stset failure event: endereignis == 1 obs. time interval: (0, amtsdauer] exit on or before: failure t for analysis: time/365 -----------------------------------------------------------------------------769 total obs. 1 obs. end on or before enter() -----------------------------------------------------------------------------768 obs. remaining, representing 447 failures in single record/single failure data 3933.778 total analysis time at risk, at risk from t = 0 earliest observed entry t = 0 last observed exit t = 27.84932
Hat man die Daten als Survivaldaten gekennzeichnet, kann man sich die Kaplan-MeierÜberlebensraten als Liste ausgeben lassen: sts list, by(ostdeu)
Auf diese Weise erhält man den weiter oben angegebenen Output 7.2. Wie schon bei der Sterbetafel lassen sich auch die Kaplan-Meier-Schätzer besser grafisch interpretieren: sts graph, by(ostdeu) level(90) ci censored(number)
Obiger Befehl liefert Abb. 7.5, wobei erneut getrennte Kurven für ostdeutsche und westdeutsche Minister gezeichnet werden. Mit level kann das gewünschte Signifikanzniveau für die Konfidenzintervalle ci angegeben werden. Die Option censored führt dazu, dass
17
Dies sollte in unserem Beispiel bei allen Observationen der Fall sein. Ob dem so ist, kann man über sum _t0 prüfen. Zudem kann man sich mit stdescribe zusammenfassende Statistiken zu den Überlebenszeitvariablen ausgeben lassen, womit sich Kodierfehler identifizieren lassen.
176
7 Survival-Analysen
zensierte Observationen im Plot vermerkt werden.18 Wie schon bei der Sterbetafelmethode zeigen sich auch hier signifikante Unterschiede zwischen Ost und West. Dadurch, dass sich die Zensierungen zudem relativ gleichmäßig auf die beiden Gruppen verteilen, ist der direkte Vergleich der Überlebensfunktionen problemlos möglich. Um via Maßzahl zu testen, ob Überlebensfunktionen verschiedener Gruppen signifikant voneinander unterschiedlich sind, gibt es zudem eine ganze Reihe von Testverfahren. Sie alle testen die Nullhypothese, dass keine Unterschiede zwischen den Überlebensfunktionen der Gruppen bestehen über die Differenz zwischen der Anzahl erwarteter Ereignisse und der Anzahl an beobachteten Ereignissen: sts test ostdeu, logrank
2 11 111 4 3 1113 3 412 3 111 6 511 16 514112517 1 3231 11 143 32 1 312 31 19 3 5 1 2 4 21 32 12 11 3 121 1 411 11 81 21 1 2 11 131 12 1 2 4 3 31 13 41 11 1 11 1 4 1 1 2 1 1 111 1 21 13 1 11 4 1 2 113 12
.25
.5
.75
1
Der in Output 7.4 berichtete und auch als Standardeinstellung in Stata festgelegte LogrankTest ist dabei sensitiver zu Beginn der Überlebensdauer: Unterscheiden sich die Gruppen also stärker bei kurzen und wenig bei längeren Überlebensdauern, würde dieser Test trotzdem einen signifikanten Unterschied ausweisen. Beim Wilcoxon-Breslow-Gehan-Test (Option , wilcoxon) ist genau das Gegenteil der Fall – er ist sensitiver gegen Ende der Überlebensdauern.19 Für unsere Daten bestätigt der Logrank-Test den Eindruck aus der grafischen Analyse, wonach ein signifikanter Unterschied zwischen den Überlebensfunktionen ost- und westdeutscher Minister besteht (s. signifikanter Chi-Quadrat-Test in der letzten Zeile).
1 1
2 11 1
1
1 22 1
1
0
1
0
10
20
30
analysis time ostdeu = 0
Abb. 7.5:
18
19
ostdeu = 1
Kaplan-Meier-Überlebensfunktion
Gibt es nur wenige zensierte Fälle, genügt die Option censored(single), die für jeden Zeitpunkt, an dem ein Fall zensiert wird, einen einzigen kleinen senkrechten Strich in den Graph einfügt, egal wie viele Fälle zu dem Zeitpunkt zensiert werden. Mit multiple in der Klammer werden so viele Striche gezeichnet, wie Fälle zensiert werden; und mit number in der Klammer wird die exakte Anzahl an zensierten Fällen über den kurzen senkrechten Strichen abgetragen. Stata bietet zudem den Cox-Test, den Tarone-Ware-Test, den Peto-Peto-Test sowie den Fleming-HarringtonTest. Genauer zu diesen Testverfahren s. (Cleves et al. 2010: 123–126). Alle sechs finden sich im Do-File.
7.3 Parametrische Modelle
177
Output 7.4: Log-Rank-Test Log-rank test for equality of survivor functions | Events Events ostdeu | observed expected -------+------------------------0 | 265 316.44 1 | 182 130.56 -------+------------------------Total | 447 447.00 chi2(1) = Pr>chi2 =
29.79 0.0000
Insgesamt eignen sich die beiden nicht-parametrischen Verfahren (Sterbetafelmethode und Kaplan-Meier-Schätzung) insbesondere, um einen ersten allgemeinen Eindruck der Transitionsprozesse zu gewinnen. Zudem ist es durch den grafischen Vergleich der Subgruppen möglich, einen Überblick über potentielle Einflussfaktoren auf die Überlebensdauern zu erhalten. Allerdings funktioniert diese Vorgehensweise nur bei genügend Observationen pro Subgruppe20 und einer insgesamt deutlich begrenzten Anzahl an Subgruppen, da sich die Plots sonst nicht mehr sinnvoll interpretieren lassen. Sollen nichtparametrische Verfahren angewendet werden, müssen aus diesem Grund metrische oder kategoriale Variablen mit einer Vielzahl von Ausprägungen zunächst in dichotome oder kategoriale Variablen mit wenigen Ausprägungen umgewandelt werden. Durch das höhere Aggregationsniveau gehen allerdings unweigerlich Informationen verloren. Über die bloße Inspektion der Kurven lässt sich zudem die genaue Höhe des Einflusses einer Variablen nicht ausmachen. Darüber hinaus sind komplexere, multivariate Modelle über Kaplan-Meier-Schätzer bzw. Sterbetafeln so gut wie gar nicht erfassbar.
7.3
Parametrische Modelle
Im Gegensatz zu nicht-parametrischen Modellen definieren parametrische Modelle die funktionale Form des zeitlichen Einflusses auf den Transitionsprozess. Alle Aspekte des Modells, mit Ausnahme der zu schätzenden Parameter, sind in ihnen komplett spezifiziert. Eine vollkommen parametrisierte Hazard-Funktion verfolgt damit zumeist zwei Ziele: (1) Sie beschreibt stets die grundlegende Verteilung der Überlebenszeit, was dem Störterm einer linearen Regression entspricht, und (2) sie kann angeben, wie sich diese Verteilung als eine Funktion bestimmter Kovariate verändert, was vergleichbar ist mit der systematischen Komponente eines Regressionsmodells (Hosmer/Lemeshow 2008: 68). Parametrische Modelle ergeben demzufolge v. a. dann Sinn, wenn a priori, theoretisch fundiert, von einer bestimmten Form der zeitlichen Abhängigkeit ausgegangen werden kann. Diese funktionale Form findet ihren Ausdruck in der Modellgleichung. Sofern diese korrekt spezifiziert ist, liefert das Modell sehr gute Ergebnisse. Liegt jedoch eine falsche Parametrisierung vor, können sowohl die geschätzten Überlebenszeiten als 20
Problematisch wäre dies v. a. bei ungleich großen Gruppen. Würde man beispielsweise die Überlebensfunktionen getrennt nach Parteizugehörigkeit betrachten (s. Do-File), wäre dies für die großen Parteien wie die CDU und die SPD, die einen Großteil der Minister im Datensatz ausmachen, wohl gut möglich. Bei den Grünen und den Linken hingegen gäbe es hingegen so wenige Minister, dass sich Funktionen mit sehr großen Sprungstellen und extrem breiten Konfidenzintervallen ergeben würden. Hier wäre keine sinnvolle Interpretation mehr möglich.
178
7 Survival-Analysen
auch die Parameterschätzer der UVs fehlerhaft sein (Box-Steffensmeier/Jones 2004: 21–22). In diesem Sinne ist beim Einsatz parametrischer Modelle immer zu beachten, dass die gewählte funktionale Form des zeitlichen Einflusses sämtliche Ergebnisse determiniert und deshalb gut zu begründen und mit Bedacht zu wählen ist.
7.3.1
Das exponentielle Modell
Die einfachste Parametrisierung erhält man, sofern man davon ausgeht, dass das Eintreten der Ereignisse einem rein stochastischen Prozess folgt, d. h. die Wahrscheinlichkeit für ein Event in allen Zeitintervallen gleich groß ist. Anders ausgedrückt bedeutet dies, dass man von einer ausschließlichen Abhängigkeit von der verstrichenen Zeit ausgeht. Dies entspricht der Markov-Annahme, nach der die Zustände eines Prozesses grundsätzlich nicht von früheren Zuständen abhängig sind (King et al. 1990: 849). Je kleiner die Intervalle gewählt werden, desto kleiner ist die Eintrittswahrscheinlichkeit. In diesem Fall stellt die Poisson-Verteilung eine gute Näherung für die zufällig verteilten Überlebensdauern dar. Der Poisson-Charakter des Prozesses impliziert dabei eine negativ exponentielle Verteilung der Überlebensdauern. Dies erkennt man auch an der Überlebensfunktion, die sich bei konstanter Hazard Rate λ auf eine negativ exponentielle Funktion reduziert: ( )=
(7.6)
In Stata lässt sich ein solches rein exponentielles Modell folgendermaßen berechnen (vgl. Output 7.5) – die Option nohr erzwingt dabei die Ausgabe der normalen β-Koeffizienten (standardmäßig gibt Stata Hazard-Ratios aus; genauer zu deren Interpretation s. unten): streg, distribution(exponential) nohr Output 7.5: Rein Exponentielles Modell ohne UV failure _d: analysis time _t: Iteration 0: Iteration 1:
endereignis == 1 amtsdauer/365
log likelihood = -760.75535 log likelihood = -760.75535
Exponential regression -- log relative-hazard form No. of subjects = No. of failures = Time at risk = Log likelihood
=
768 447 3933.778082 -760.75535
Number of obs
=
768
LR chi2(0) Prob > chi2
= =
0.00 .
-----------------------------------------------------------------------------_t | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_cons | -2.174797 .0472984 -45.98 0.000 -2.2675 -2.082094 ------------------------------------------------------------------------------
Aus dem Koeffizienten -2,17 (der auch automatisch gespeichert wird) lässt sich zudem die , die unabhängig vom Zeitpunkt t stets dengeschätzte Hazard-Rate bestimmen ( ) = selben konstanten Wert annimmt: display exp(_b[_cons])
7.3 Parametrische Modelle
179
Der sich ergebende Wert von 0,1136 lässt sich so interpretieren, dass nach einer Zeiteinheit (hier nach einem Jahr) noch 100 % − 11,36 % = 88,64 % der Minister im Risk Set und damit im Amt sind. Nach zwei Jahren wären es entsprechend noch 88,64 % − 0,1136 ∙ 88,64 % = 78,57 %. Hier zeigt sich die negativ-exponentielle Verteilung der Überlebensdauern. Der Vergleich mit der empirischen Überlebensfunktion zeigt indes, dass das rein exponentielle Modell zu Beginn die empirischen Überlebensdauern unter- und ab etwa 3.000 Tagen überschätzt (vgl. Abb. 7.6). Die folgenden Befehle generieren den Plot, wobei zunächst in einer neuen Variable empsurvf die über den Kaplan-Meier-Schätzer bestimmte Überlebensfunktion und in der zweiten Zeile die über das exponentielle Modell geschätzte Überlebensfunktion berechnet wird (hierzu muss natürlich zuvor das exponentielle Modell wie oben gezeigt mit streg berechnet worden sein):
0
.2
.4
S(t)
.6
.8
1
sts gen empsurvf = s predict surv, surv twoway (scatter surv amtsdauer) (scatter empsurvf amtsdauer)
0
2000
4000 6000 amtsdauer
Exponentielles Modell
Abb. 7.6:
8000
10000
Kaplan−Meier Schätzung
Vergleich von negativ exponentieller und empirischer Überlebensfunktion
Eine ausschließliche Abhängigkeit von der Zeit – nicht aber von weiteren Kovariaten – wie sie dieses Modell annimmt, ist jedoch für die meisten politikwissenschaftlichen Fragestellungen ungeeignet. Aus diesem Grund gehen die meisten parametrischen Modelle davon aus, dass der Ereignisprozess von zwei Aspekten determiniert wird: erstens von einer grundlegenden, rein zeitlichen Abhängigkeit, die in Form einer Baseline-Hazard β0 beschrieben werden kann, sowie zweitens vom Einfluss weiterer Kovariate. Die Hazard-Rate schreibt sich dann folgendermaßen: =
(
)
´
.
(7.7)
Mit Hilfe einer Maximum-Likelihood-Schätzung lassen sich die β-Koeffizienten bestimmen. Über einen Dummy wird zudem noch zwischen zensierten und regulären Endereignissen unterschieden.21 Ein Modell bestehend aus exponentieller Baseline-Hazard und weiteren UV lässt sich in Stata mit folgendem Befehl berechnen: 21
Die Unterscheidung zwischen regulären und zu zensierenden Fällen erfolgt in Stata stets bereits beim „stset-ten“ der Daten, wie in Kapitel 7.2.2 beschrieben. Bei der eigentlichen Modellschätzung mit streg wird diese Information nicht benötigt. Im Output findet sich die Zensierungsvariable entsprechend auch nicht als erklärende Variable im Koeffizientenblock, sondern ganz oben bei der Definition des Endereignisses. Hier werden alle Fälle, bei denen endereignis ≠ 1 zensiert.
180
7 Survival-Analysen
streg ostdeu regional_verwurzelt, distribution(exponential) Output 7.6: Exponentielles Modell mit UV failure _d: analysis time _t: Iteration Iteration Iteration Iteration
0: 1: 2: 3:
log log log log
endereignis == 1 amtsdauer/365
likelihood likelihood likelihood likelihood
= = = =
-760.75535 -749.29874 -749.10943 -749.10937
Exponential regression -- log relative-hazard form No. of subjects = No. of failures = Time at risk = Log likelihood
=
768 447 3933.778082 -749.10937
Number of obs
=
768
LR chi2(2) Prob > chi2
= =
23.29 0.0000
-----------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------ostdeu | 1.352101 .1328 3.07 0.002 1.115338 1.639125 regional_v~t | .7419912 .0720433 -3.07 0.002 .6134112 .8975235 ------------------------------------------------------------------------------
Der Output zeigt, dass die beiden getesteten Dummy-Variablen einen signifikanten Effekt aufweisen. Wie bereits die nicht-parametrischen Verfahren indizierten, haben Minister in Ostdeutschland eine mehr als 30 Prozent höhere Hazard-Rate als ihre westdeutschen Kollegen. Regionale Verwurzelung22 hingegen reduziert die Hazard-Rate. Um zu überprüfen, ob dieses Modell eine signifikante Verbesserung gegenüber dem rein exponentiellen Modell ohne UV (Nullmodell) darstellt, kann man einen Likelihood-Ratio-Test (LR-Test) durchführen.23 Die Teststatistik kann man entweder „per Hand“ nach der Schätzung des Modells mit UV berechnen, display 2*(e(ll)-e(ll_0))
oder mit lrtest. Hierzu müssen zunächst vom Nullmodell die Log-Likelihood-Werte gespeichert werden: streg, distribution(exponential) estimates store ll_0 streg ostdeu regional_verwurzelt, distribution(exponential) lrtest ll_0
Wie angesichts der hoch signifikanten Erklärungsvariablen nicht anders zu erwarten, zeigt die Teststatistik mit einem Wert von 23,29 eine signifikante Verbesserung des Modells an (der kritische Wert der Chi-Quadrat-Verteilung für ein Vertrauensniveau von 95 Prozent liegt bei zwei geänderten Parametern bei 5,99).
22 23
Approximiert wird diese Variable darüber, ob ein Minister in dem Bundesland geboren wurde, in welchem er im Kabinett sitzt. LR-Tests sind immer dann möglich, wenn zwei Modelle verglichen werden, die ineinander geschachtelt sind (s. Kapitel 5 zur Mehrebenenanalyse).
7.3 Parametrische Modelle
7.3.2
181
Weibull, Gompertz und log-logistische Modelle
Neben den auf der Exponentialfunktion aufbauenden Modellen gibt es weitere Modelle mit flexibleren Basisfunktionen. Zu diesen gehören Weibull-, Gompertz- und log-logistische Modelle, die im Folgenden kurz präsentiert werden.24 Mögliche Funktionsverläufe dieser drei Modelle zeigt Abb. 7.7. Gompertz
log−logistisch
1
2
3
t a = 0,5 a=2
Abb. 7.7:
.2
.4
.6
.8
1
.5 0
lambda(t)
0
−.5
2 0
0
0
−1.5 −1
lambda(t) 4
lambda(t) 2 4
6
1
6
8
1.5
Weibull
t
a=1 a=4
a = 1,5
a = 0,5 a=0
0
.5
1
1.5
2
t
a=1 a = −2
a=2
a = −0,5 a=1
a = −2 a=2
a = 0,5 a=5
Hazard-Raten für Weibull, Gompertz und log-logistisches Modell bei unterschiedlichen Shape-Parametern a; ( = 1)
Das Weibull-Modell Das Weibull-Modell zeichnet sich dadurch aus, dass seine Baseline-Hazard-Rate nicht über die Zeit konstant bleiben muss, sondern sich monoton ändern kann, d. h. sie kann entweder sinken oder steigen.25 Für den Fall, dass sie konstant bleibt, reduziert sich das WeibullModell auf das exponentielle Modell. Dies lässt sich anhand der Formel für die Hazard-Rate ( )=
,
(7.8)
leicht erkennen. Dabei sind a und b zwei positive Parameter, von denen a die Form des Hazards bestimmt (shape parameter). Für < 1 sinkt die Hazard-Rate monoton, für > 1 steigt sie monoton und für = 1 ist sie konstant (Blossfeld et al. 2007: 196) (vgl. Abb. 7.7). UV haben keinerlei Einfluss auf a, hingegen wird der zweite Parameter b, der die Höhe des Hazards bestimmt und deshalb als scale parameter bezeichnet wird von den Kovariaten determiniert. Die Parametrisierung von b verläuft dabei entweder über ein Accelerated Failure Time (AFT) oder ein Proportional-Hazard-Modell (PH).26 24
25
26
Für weiterführende, v. a. mathematisch ausführlichere Darstellungen dieser und weiterer parametrischer Modelle sei auf die Werke von Blossfeld, Golsch und Rohwer (2007: 182–215), Box-Steffensmeier und Jones (2004: 21–46) sowie Hosmer und Lemeshaw (2008) verwiesen. Für die Applikation dieser Modelle ist zudem das Stata Handbuch zu Survival Analysis (2007: 303–332) sowie Cleves et al. (2010: 245–282) zu empfehlen. Politikwissenschaftliche Anwendungsbeispiele für das Weibull-Modell finden sich u. a. in der Konfliktforschung (u. a. Bennett/Stam 1996, 1998; Werner 1999) sowie der Überlebensdauer von politischen Führern (Bueno de Mesquita/Siverson 1995) und Regierungen (Alt/King 1994). Bei der PH-Parametrisierung wird ein multiplikativer Effekt der Kovariate auf die Hazard-Rate angenommen. Diese schreibt sich entsprechend als Baseline-Hazard multipliziert mit dem Exponent des Vektors aus UV und = ( ) ∙ exp . Beim AFT-Modell hingegen wird der Logarithden dazugehörigen Koeffizienten: = + . Die funktionale mus der Überlebenszeit als lineare Funktion der Kovariate beschrieben: ln Form des Fehlerterms zj determiniert, ob es sich beispielsweise um ein exponentielles, ein Weibull oder ein
182
7 Survival-Analysen
Da das Verhältnis zwischen den Hazards zweier Individuen (bei uns Minister) i und j ausschließlich von den UV und dem Parameter a abhängt, zählt das Weibull-Modell, genau wie das später noch zu besprechende Cox-Modell, zur Klasse der Proportional-Hazard-Modelle (Box-Steffensmeier/Zorn 2001: 985–986): ( ) = ( )
(7.9)
Diese Grundannahme führt dazu, dass „the assumption of proportional hazards across a number of groups […] corresponds to the assumption that the shape parameter [in der hier verwendeten Notation a; Anm. d. Autors] in the baseline hazard function is the same in each group“ (Collett 1995: 195). Wie im Cox-Modell, für das weiter unten verschiedene Tests dieser Annahme präsentiert werden, muss die Proportionalitätsannahme auch für das Weibull-Modell getestet werden. Für dieses bestehen allerdings deutlich weniger Testmöglichkeiten als für das Cox-Modell. Eine Option beschreibt Collett: Zunächst teilt man die Observationen nach ihrer Überlebensdauer in g Gruppen ein (in unserem Beispiel etwa nach der Medianüberlebensdauer der Minister; hier wäre = 2), dann schätzt man für jede Gruppe ein separates Weibull-Modell, zählt die log-Likelihood-Werte für alle einzelnen Gruppenmodelle zusammen und vergleicht diese Summe mit dem log-Likelihood-Wert des Gesamt-Weibull-Modells, in das alle Beobachtungen eingehen (vgl. Do-File). Diese Differenz folgt einer Chi-Quadrat-Verteilung mit − 1 Freiheitsgraden (Box-Steffensmeier/Zorn 2001). In unserem Beispiel trifft die Proportionalitätsannahme eindeutig nicht zu – die empirische Teststatistik liegt mit einem Wert von 386,1 deutlich über dem für das 95 % Signifikanzniveau erforderlichen theoretischen Chi-Quadrat-Wert von 3,85: Die Nullhypothese, dass die Effekte der Kovariaten auf die Hazard-Rate konstant über die Zeit sind, muss abgelehnt werden. In einem solchen Fall kann ein Weibull-Modell verzerrte Ergebnisse liefern.27 Insgesamt ist die Weibull-Funktion zwar flexibler als die exponentielle, da sie durch zwei und nicht nur durch einen Parameter bestimmt wird. Allerdings ist auch die Annahme eines zwar unterschiedlich stark aber doch monoton steigenden oder fallenden Hazards immer noch sehr voraussetzungsvoll und dürfte sich in vielen Fällen als ebenso unhaltbar herausstellen wie die Annahme eines vollkommen konstanten Hazards im exponentiellen Modell (Box-Steffensmeier/Jones 2004: 25–26). Eine Möglichkeit, um zumindest annähernd zu testen, ob ein Weibull-Modell von der funktionalen Form her zu den Daten passt, besteht
27
log-logistisches Modell handelt. Die Interpretation der Koeffizienten von AFT- und PH-Modellen ist ebenfalls unterschiedlich. Bedeutet ein positiver Koeffizient bei der PH-Parametrisierung, dass die Hazard-Rate steigt und damit die Überlebensdauer sinkt, so indiziert ein positiver Koeffizient bei der AFT-Parametrisierung eine Verlangsamung des Ereignisprozesses, was gleichbedeutend mit einer längeren geschätzten Überlebensdauer bis zum Eintritt des Events ist. Da es in den meisten politikwissenschaftlichen Fragestellungen in der Regel eher um die Erklärung des Risikos für den Eintritt eines Events in Abhängigkeit von Kovariaten geht und nur selten um konkrete Vorhersagen für Überlebenszeiten (wie dies beispielsweise im reliability engineering der Fall ist), werden im Folgenden in diesem Kapitel ausschließlich PH-Parametrisierungen verwendet. Einen guten Vergleich dieser beiden Möglichkeiten der Parametrisierung bietet Mills (2011: 116–117 ). Zur Berechnung von AFT-Modellen in Stata vgl. Cleves et al. (2010: 254–256; 265–266; 269–278). Wenn sich die Proportionalitätsannahme als nicht haltbar herausstellt, kann über die Inklusion von Interaktionstermen zwischen der oder den potentiell nicht-proportionalen Kovariaten und der Überlebenszeit versucht werden, die exakte Form sowie das Ausmaß der Nichtproportionalität genauer zu ergründen. Aufgrund der recht hohen Wahrscheinlichkeit, hierdurch Multikollinearität zu generieren, sollte man dieses Mittel jedoch nicht überstrapazieren (Box-Steffensmeier/Zorn 2001: 986).
7.3 Parametrische Modelle
183
0
.1
lambda(t) .2
.3
.4
darin, es mit einem stufenweise exponentiellen Modell zu vergleichen (Cleves et al. 2010: 260–261). Die Stufenfunktion wurde dabei so gewählt, dass sie ihre Sprungstellen an den Quartilsgrenzen der Überlebensdauer hat, wodurch jede Stufe etwa 25 Prozent aller Observationen ausmacht. Abb. 7.8 (zugehörige Syntax im Do-File), zeigt, dass für unser Modell die Weibull-Funktion im relevanten Bereich von bis zu etwa 10 Jahren einen durchaus annehmbaren Fit aufweist:
0
10
20
30
_t stufenweise exponentiell
Abb. 7.8:
Weibull
Vergleich von stufenweise exponentiellem und Weibull-Hazard
Das Gompertz-Modell Ähnlich wie beim Weibull-Modell kann die Hazard-Rate auch beim Gompertz-Modell ausschließlich monotone Funktionsverläufe annehmen. Sie schreibt sich als ( )=
∙
(
)
,
≥0
(7.10)
wobei der Faktor a die Form der Funktion determiniert. Bei = 0 reduziert sich das Gompertz-Modell zum einfachen exponentiellen Modell mit konstanter Hazard-Rate, bei > 0 steigt die Funktion an, für < 0 fällt sie monoton ab (vgl. Abb. 7.7). Ganz im Gegensatz zu den Naturwissenschaften und der Medizin, wo das Gompertz-Modell weit verbreitet ist, finden sich in der Politikwissenschaft nur vereinzelte Anwendungsbeispiele, z. B. bei der Analyse von Dekolonisierungsverläufen (Strang 1991) oder Regierungsdauern (Ferris/Voia 2009).28 Ein Grund mag sein, dass wie schon beim Weibull-Modell die Hazard-Rate ausschließlich monoton steigen oder fallen kann. Das im Folgenden beschriebene log-logistische Modell gibt diese Annahme einer strikten Monotonie der Hazard-Funktionen auf, weshalb es im Vergleich als flexibler anzusehen ist. Das log-logistische Modell Die verschiedenen Funktionsverläufe, die das log-logistische Modell in Abhängigkeit des Parameters a annehmen kann, sind in Abb. 7.7 dargestellt. Sowohl monoton fallende, steigende als auch glockenförmige Funktionsverläufe sind möglich. Die Hazard-Rate dieses Modells schreibt sich folgendermaßen:
28
Gompertz Modelle lassen sich über streg mit der Option distribution(gompertz) schätzen.
184
7 Survival-Analysen
( )=
[1 + ( ) ]
(7.11)
Das log-logistische Modell kann ausschließlich als AFT-Modell parametrisiert werden, was bei der Interpretation der Koeffizienten zu beachten ist.29 Anwendungen für das loglogistische Modell finden sich v. a., wenn von einem glockenförmigen Verlauf der BaselineHazard-Rate ausgegangen wird, wie dies häufig in demografischen bzw. unternehmensdemografischen Studien der Fall ist (vgl. Blossfeld 1995; Brüderl 1991a, 1991b; Carroll/Hannan 2000; Diekmann 1989). Eine ausführlichere Darstellung des log-logistischen Modells findet sich bei Blossfeld (2007: 204–209).
7.3.3
Anwendungsprobleme parametrischer Modelle
Das grundlegende Problem parametrischer Modelle wurde bereits angesprochen: Die Schätzungen dieser Modellklasse sind nur dann unverzerrt, wenn die angenommene funktionale Form der zeitlichen Abhängigkeit zumindest annähernd korrekt spezifiziert ist. Allerdings ist gerade dies sehr schwierig zu erreichen und zu testen. Das liegt daran, dass, sofern man die Hazard-Rate als Funktion bestimmter Kovariablen modelliert, die reine zeitliche Abhängigkeit stets auch von der Art und der Anzahl der inkludierten UV beeinflusst wird. Aus diesem Grund lässt sich die Baseline-Hazard-Rate, also diejenige um den Einfluss der UV komplett bereinigte Hazard-Rate, nur schwer a priori bestimmen. Zudem kann es grundsätzlich zwei Ursachen für eine Zeitabhängigkeit geben: nicht observierte Heterogenität in den Daten sowie eine wirkliche genuine zeitliche Abhängigkeit. Im ersten Fall stellt die Zeitabhängigkeit einen Proxy für nicht zu messende weitere UV dar (Blossfeld et al. 2007: 184). Hat man es beispielsweise mit einer Gruppe aus SPD und CDUMinistern zu tun, die als Gruppe betrachtet einen konstanten Hazard aufweist, bei der das Sub-Sample von SPD-Ministern jedoch einen sehr hohen und die Gruppe der CDU-Minister einen sehr niedrigen Hazard haben, so scheiden mit fortschreitender Zeit besonders die SPDMinister aus dem Risk Set aus. Das Sample besteht damit immer mehr nur aus den Kabinettsmitgliedern mit niedrigerer Hazard-Rate, d. h. den CDU-Ministern. Augenscheinlich führt nicht observierte Heterogenität in den Daten – selbst wenn sie nicht mit den beobachteten UV korreliert (Vermunt 1997: 189) – somit immer zu einer negativen zeitlichen Abhängigkeit, da diejenige Gruppe mit den hohen Hazards früher scheitert als diejenige Gruppe mit den niedrigen Hazards. Sofern ein Modell nicht zwischen diesen beiden Gruppen unterscheidet, ergibt sich damit zwangsläufig eine negative Abhängigkeit von der verstrichenen Zeit (Zorn 2000: 368). Box-Steffensmeier und Jones plädieren dafür, die zeitliche Abhängigkeit in Survival-Modellen größtenteils als eine solche statistische Störung („nuisance“) zu interpretieren, für die es sehr schwierig sein dürfte, a priori eine korrekte funktionale Form zu finden. Es sollte vielmehr versucht werden, diese unechte zeitliche Abhängigkeit durch eine passgenaue Modellspezifikation insbesondere in Bezug auf über die Zeit variierende UV zu reduzieren. Nur wenn dies nicht gelingt, ist es ratsam, die verstrichene Zeit als Proxy für die nicht direkt messbaren Variablen einzusetzen. Lässt sich die zeitliche Abhängigkeit hingegen wirklich auf einen genuin zeitlich determinierten Prozess zurückführen, ist es möglich, den Funktionsverlauf theoretisch herzuleiten. In 29
Die Schätzung erfolgt in stata über streg mit der Option distribution(loglogistic).
7.4 Das semi-parametrische Cox-Modell
185
der Soziologie geht man beispielsweise bei der Untersuchung von Eheschließungen von einer solchen genuinen Abhängigkeit vom Alter aus: Mit steigendem Alter treten immer mehr Personen in die Ehe ein, wodurch die verbleibenden Unverheirateten gleichzeitig einen verstärkten sozialen Druck verspüren, ebenfalls zu heiraten. Auf der anderen Seite nimmt jedoch sowohl die soziale Attraktivität als auch die Wahrscheinlichkeit, Unverheiratete und damit potentielle Ehepartner zu treffen, mit fortschreitender Zeit ab. Damit ergibt sich für Eheschließungen eine glockenförmige Transitionsrate, für die ein log-logistisches Modell als Parametrisierung wohl den besten Dienst leistet (Diekmann 1989; Hernes 1972). Ist eine theoretische Herleitung der Baseline-Hazard-Rate nicht möglich, kann man auch versuchen, diese über die empirisch beobachtete Gesamt-Hazard-Rate zu approximieren. Inwiefern die Baseline-Hazard-Rate jedoch wirklich mit dem funktionalen Verlauf des Gesamt-Hazards übereinstimmt, hängt von den einbezogenen UV und deren potentieller zeitlicher Abhängigkeit ab. Der Verlauf des Gesamt-Hazards kann damit zwar als Indiz für den Verlauf der Baseline-Hazard-Rate gewertet werden, ein wirklich verlässlicher Indikator, um diese zu bestimmen, ist er aber nicht. Zusammenfassend lässt sich damit sagen, dass das größte Hindernis für die Anwendung parametrischer Modelle die Bestimmung der grundlegenden, von den Einflüssen der UV bereinigten, zeitlichen Abhängigkeit darstellt (Box-Steffensmeier/Jones 2004: 85–87). Da jedoch bei vielen politikwissenschaftlichen Fragestellungen – wie auch bei unserem Beispiel – weder eine theoretische Herleitung, noch ein Vergleich mit empirisch observierten HazardRaten eine exakte Bestimmung dieser Baseline-Hazard-Funktion ermöglichen30, raten die meisten Experten eher davon ab, parametrische Modelle zu schätzen – und wenn, deren Ergebnisse mit Vorsicht zu interpretieren (Blossfeld et al. 2007: 186; Box-Steffensmeier/Jones 2004: 21–22).31 Eine gute Alternative stellt oftmals das Cox-Modell dar, welches auf den folgenden Seiten beschrieben wird.
7.4
Das semi-parametrische Cox-Modell
7.4.1
Vor- und Nachteile des Cox-Modells
Das von David Cox (1972, 1975) entwickelte Proportional-Hazards-Modell, im Folgenden kurz Cox-Modell, besitzt einen grundlegenden Vorteil, dem es seine weitverbreitete Anwendung von der Demografieforschung bis hin zur Medizin, aber eben auch in den Sozialwissenschaften, verdankt: Es nimmt zwar eine zeitliche Abhängigkeit an und inkludiert den 30
31
Blossfeld, Golsch und Rohwer präsentieren eine weitere, eher pragmatisch anmutende Alternative, für den Fall, dass die genaue funktionale Form der Parametrisierung nicht theoretisch bestimmbar ist. Sie schlagen vor, eine Reihe unterschiedlicher Parametrisierungen zu berechnen und zu betrachten, inwiefern die Schätzergebnisse für die interessantesten UV stabil bleiben. Bei dieser Methode handelt es sich, wie die Autoren auch selbst zu bedenken geben, um eine rein heuristische Vorgehensweise, die bestenfalls dazu geeignet ist, grobe Hinweise zu geben, welche Klasse von Modellen vorzuziehen ist, die aber keinen eindeutigen Test einer spezifischen Parametrisierung erlaubt. Außerdem ließe sich im Falle abweichender Ergebnisse bei den Schätzern wiederum nicht bestimmen, welche der Parametrisierungsoptionen die korrekte ist, sofern überhaupt eine der getesteten Optionen passen sollte (Blossfeld et al. 2007: 215–223). So schreibt Golub: „[I]n nearly all situations researchers should fit a Cox model rather than a parametric model in order to avoid unreliable estimates. […] Parametric models should always be treated with caution since they are inherently prone to bias…“ (Golub 2008: 543).
186
7 Survival-Analysen
Faktor Zeit damit explizit in die Schätzung – im Gegensatz zu klassischen beispielsweise OLS-basierten Regressionsverfahren. Diese Zeitabhängigkeit muss aber im Gegensatz zu parametrischen Modellen in ihrer Form nicht genau spezifiziert werden. Das Cox-Modell wird aus diesem Grund auch als semi-parametrisch bezeichnet, da die Überlebenszeiten über ein Set an UV parametrisiert werden, was für die zugrunde liegende zeitliche Verteilungsfunktion (Baseline-Hazard) hingegen nicht notwendig ist (Box-Steffensmeier/Jones 2004: 49). Cox-Modelle reduzieren damit die Anzahl der für die Schätzung notwendigen Grundannahmen und folglich die Anzahl potentieller Fehlerquellen. Im Gegensatz zu klassischen Regressionsanalysen bietet das Cox-Modell zudem den großen Vorteil, besser mit unvollständigen Informationen umgehen zu können, die zwangsläufig aus Zensierungen resultieren. Daneben ist das Cox-Modell gut geeignet, stratifizierte, d. h. geschichtete Modelle zu berechnen und auf diese Weise kategoriale Variablen statistisch zu kontrollieren, deren zeitliche Abhängigkeit auf andere Weise nicht erfassbar wäre. Den prinzipiellen Vorteilen stehen jedoch auch einige Nachteile gegenüber, die sich nach Yamaguchi (1991: 102–103) folgendermaßen zusammenfassen lassen: 1. Das Cox-Modell verwendet, wie im Folgenden noch zu zeigen sein wird, ausschließlich Informationen über die relative Reihenfolge der Überlebenszeiten und nicht die exakten Zeitpunkte, an denen Ereignisse wie auch Zensierungen eintreten. Dieser Informationsverlust kann theoretisch zu einer Verzerrung der Ergebnisse führen. Es wurde allerdings gezeigt, dass bei ausreichend vielen Fällen die vom Cox-Modell berechnete Partial Likelihood (PL) der parametrischen Maximum Likelihood Estimation (MLE) an Effizienz und Präzision nicht sonderlich nachsteht (Efron 1977; Oakes 1977; Wong 1986: 116– 118). Die Kenntnis der genauen Zeitpunkte enthält zwar Informationen über die absolute Größe der Hazard-Rate, aber sie bietet für große N, verglichen mit dem Wissen über die reine Reihenfolge der Events, nur wenig neue Erkenntnisse bezüglich der Auswirkungen der UV auf die Überlebenswahrscheinlichkeit (Coleman 1981: 178). Einzig für sehr kleine Samples ( < 20) ist die Cox-Methode aus diesem Grund weniger geeignet. Auf der anderen Seite können parametrische Modelle zwar etwas präziser sein, bei ihnen besteht im Gegensatz zum Cox-Modell aber auch immer die Gefahr, dass sich aufgrund einer falschen Spezifikation der Baseline-Hazard-Rate ein gänzlich falsches Ergebnis einstellt (Golub 2008: 540). 2. Da zur Anwendung des Cox-Modells die Reihenfolge des Eintretens der Ereignisse benötigt wird, ergeben sich Probleme, wenn diese Reihenfolge nicht exakt anzugeben ist. Man spricht in diesem Fall von Tied Events, also Ereignissen, die nach derselben Überlebensdauer eintreten oder zumindest aufgrund einer zu ungenauen zeitlichen Messung nicht voneinander unterscheidbar sind (s. Infobox zu Tied Events weiter unten). Es gibt jedoch eine Reihe an Approximationsmöglichkeiten für die in diesem Fall nicht mehr exakt zu bestimmende PL (s. Kapitel 7.4.3). 3. Das Cox-Modell nimmt zwar eine gewisse grundlegende zeitliche Abhängigkeit an, spezifiziert diesen Baseline-Hazard aber nicht funktional. Dieser Vorteil an Flexibilität birgt jedoch gleichzeitig auch einen gewissen Nachteil, da das Cox-Modell damit nicht in der Lage ist, die Frage nach der Form der zeitlichen Abhängigkeit direkt anzugehen, wie dies parametrische Modelle tun. Sofern in erster Linie die exakte Form des Baseline-Hazards von Interesse ist, ist das Cox-Modell Modell daher weniger geeignet. Allerdings existiert zumindest die Möglichkeit, die Baseline-Hazard-Funktion approximativ
7.4 Das semi-parametrische Cox-Modell
187
aus dem Cox-Modell heraus zu bestimmen (vgl. Kalbfleisch/Prentice 2002: 115) – genauer hierzu in Kapitel 7.4.7. 4. Als letztes Problem des Cox-Modells identifiziert Yamaguchi die schwächere theoretische Basis der PL-Schätzmethode im Vergleich zur MLE. Auch wenn bei ausreichend großem Sample die Parameterschätzer aus der PL effizient sind, ist bei der Modellauswahl auf Grundlage von Chi-Quadrat Teststatistiken (Likelihood-Ratio, Score Test, Wald Test) Vorsicht geboten. Yamaguchi empfiehlt daher, immer mehrere unterschiedliche Tests durchzuführen sowie diese auf deren Kongruenz zu überprüfen, um die Reliabilität dieser Tests festzustellen (Yamaguchi 1991: 109–110). Die verschiedenen Testverfahren für die Modellgüte sowie weitere residuendiagnostische Tests werden in Kapitel 7.4.8 beschrieben. Insgesamt betrachtet bedeuten diese vier Punkte allerdings keine allzu großen Hindernisse für die Anwendung des Cox-Modells bzw. umgekehrt formuliert keine wirklich relevanten Vorteile parametrischer Modelle: Entweder sind ihre negativen Auswirkungen per se nicht sonderlich gravierend oder sie können zumindest durch bestimmte Modellierungen deutlich abgemildert werden.
7.4.2
Statistische Grundlagen des Cox-Modells und der PL-Schätzung
Wie das Weibull-Modell gehört auch das Cox-Modell zur Klasse der proportionalen HazardModelle, was bedeutet, dass Hazard-Raten entsprechend multiplikativ verknüpft sind und demzufolge auch der Quotient aus den Hazard-Raten zweier beliebiger Untersuchungseinheiten nicht von der Baseline-Hazard-Rate, sondern ausschließlich von den relevanten UV abhängen darf (Garczorz 2004: 98–99) – eine Annahme, die es auch beim Cox-Modell zu testen gilt. Im Gegensatz zu vollständig parametrisierten Modellen, wie dem exponentiellen oder dem Weibull-Modell, ist die funktionale Form des Baseline Hazards im Cox-Modell nicht festgelegt: ( )=
( )
(
...
)
(7.12)
Das lässt sich daran erkennen, dass, im Gegensatz beispielsweise zur exponentiellen Funktion (7.7), keine Konstante vorkommt, weil dieser Term von der nicht weiter spezifizierten Baseline-Hazard-Funktion ( ) absorbiert wird. Aber auch ohne deren genaue Form zu kennen, können Parameterschätzer gefunden werden. Hierfür macht man sich die Annahme der proportionalen Hazards zunutze. Die Schätzung der β-Koeffizienten erfolgt mittels der von Cox entwickelten PL-Methode (Cox 1975), die von der für parametrische Modelle verwendeten MLE insofern abweicht, als sie nur einen Teil der in Ereignisdaten verfügbaren Informationen verwendet. Dabei fließen nicht die exakten Überlebensdauern in das Modell ein, sondern die geordnete Reihenfolge dieser Überlebensdauern. Angenommen, ein Daten= 10 Tage, = 600 Tage, satz enthält vier Observationen mit Überlebenszeiten = 640 Tage und = 660 Tage – das Cox-Modell würde aus diesen Daten ausschließlich die aufsteigend geordnete Reihenfolge verwenden ( < < < ), nicht aber die Information darüber, dass T1 deutlich kürzer ist als die anderen drei. Auch wenn die Berechnung eines Cox-Modells in diesem Beispiel einen Informationsverlust im Vergleich zu der Berechnung eines parametrischen Modells bedeutet, ist dies oftmals kein gravierendes Problem für die Parameterschätzungen, da mit wachsender Sample-Größe der Unterschied in den
188
7 Survival-Analysen
Ergebnissen zwischen Berechnungen, die die exakte Zeit, und solchen, die eine geordnete Reihenfolge der Überlebenszeiten verwenden, immer weiter abnimmt. Aus den aufsteigend geordneten Überlebenszeiten ergibt sich die PL-Funktion, über deren Maximierung sich die multiplikativ auf die Hazard-Rate einwirkenden Effekte der Kovariablen schätzen lassen.32
7.4.3
Das Cox-Modell in Stata
Wie schon zuvor müssen die Daten zunächst mit stset als Survival-Daten gekennzeichnet werden, dann folgt das eigentliche Cox-Modell33: stset amtsdauer, failure(endereignis==1) scale(365) id(id_1) stcox ostdeu regional_verwurzelt, nohr exactm
Nach dem Befehl stcox finden sich die UVs, mit nohr werden β-Koeffizienten anstatt der Hazard-Ratios ausgegeben und exactm gibt die zu verwendende Approximationsmethode für Tied Events (genauer hierzu, s. Infobox) an – hier ist es die exact-marginal-calculation (Cleves et al. 2010: 148–149). Das Ergebnis der Berechnung findet sich in Output 7.7. Tied Events und deren Handhabung Wie beschrieben müssen zur Berechnung des Cox-Modells zunächst alle Ereignisse in eine eindeutige Zeitreihe gebracht werden. Da das Proportional-Hazard-Modell annimmt, dass die Hazard-Funktion stetig verläuft (was gleichbedeutend mit der Annahme ist, dass es keine gebundenen Ereignisse gibt), muss die PL-Funktion modifiziert werden, sofern doch Tied Events im Datensatz vorhanden sind und der Erstellung einer Rangfolge damit entgegenstehen (Stata 2007: 130). Tied Events können auf zwei Arten entstehen: Einerseits können sie darauf zurückzuführen sein, dass Endereignisse auch empirisch nur zu diskreten Zeitpunkten stattfinden (z. B. kann ein Sportler nur alle vier Jahre bei Olympischen Spielen eine Medaille gewinnen, nicht aber in der Zeit dazwischen); Andererseits können sie daher rühren, dass die Ereignisse empirisch zwar einem stetigen Transitionsprozess entspringen, sich die dazugehörigen Überlebensdauern aber zeitlich nur relativ grob messen lassen, wodurch sie nur als gebundene Ereignisse wahrgenommen werden können (Therneau/Grambsch 2000: 31–33). Das hier verwendete Beispiel der Amtsdauer von Ministern fällt eindeutig in letztere Kategorie: Minister können zu jedem Zeitpunkt ihrer Amtszeit aus dem Amt scheiden. Einzig die Messgenauigkeit bestimmt damit das Vorhandensein und die Anzahl von Tied Events. Generell gilt: je ungenauer die Überlebenszeit gemessen wird, desto größer ist die Problematik der Tied Events (s. Tabelle 7.1).
32 33
Genauer zu PL-Funktion und deren Schätzung vgl. Box-Steffensmeier und Jones (2004: 51-54) sowie Cox (1975: 272). Die Option id gibt an, welche Zeilen einen gemeinsamen Fall darstellen, d. h. eine zu kumulierende Überlebensdauer haben. An dieser Stelle hier ist jede Zeile ein Fall – die id-Angabe könnte entsprechend auch weggelassen werden. Anders wenn Variablen vorliegen, die sich über die Zeit verändern – dann ist die id-Option elementar notwendig (s. Kapitel 7.4.9).
7.4 Das semi-parametrische Cox-Modell
189
Stata bietet vier Verfahren, mithilfe derer sich die PL-Funktion auch bei Vorliegen von Ties zumindest approximieren lässt (alle vier finden sich im Do-File). Die auch als Standard eingestellte breslow-Methode ist dabei vergleichsweise einfach zu berechnen – gleichzeitig liefert sie nur bei relativ wenigen Ties (bis zu 5 Prozent (Prentice/Farewell 1986: 44)) gute Ergebnisse. Die efron-Methode ist etwas genauer, dafür aber auch rechenintensiver. Die genauesten Ergebnisse – freilich auf Kosten einer bei vielen Ties sehr langen Rechenzeit – liefert die exact-marginal-likelihood (exactm), welche auch als averagedlikelihood-Methode (Box-Steffensmeier/Jones 2004: 56) bezeichnet wird. Im Gegensatz zu den drei genannten Methoden, die allesamt von einem stetigen Transitionsprozess ausgehen, nimmt die exact-partial-likelihood-Methode (exactp) an, dass die Ereignisse nur an diskreten Zeitpunkten stattfinden können. Aus diesem Grund ist von dieser Approximationsmethode abzuraten, sofern man von einem kontinuierlichen Ereignisprozess ausgeht. Bei extrem vielen, und v. a. mehrfachen Tied Events, wie sie bei der Messung der Amtsdauer in Jahren vorliegen, gelangen die Approximationsmethoden generell an ihre Grenzen. Die Schätzung wird hierdurch extrem ungenau. In diesem Fall böten sich parametrische, über Maximum Likelihood-Verfahren geschätzte Modelle eher an, v. a. wenn diese über diskrete Zeit-Verfahren berechnet werden. Tab. 7.1:
Anzahl der Fälle, die in Form von Tied Events vorliegen
Art der Ties
Anzahl der Fälle bei tagesgenauer Messung
Anzahl der Fälle bei Messung in Monaten
Anzahl der Fälle bei Messung in Jahren
kein Tie doppelte Ties dreifache Ties vierfache Ties fünffache Ties sechsfache Ties 7 bis 11-fache Ties Mehr als 11-fache Ties
352 156 84 80 25 12 59 0
47 58 66 52 75 24 254 192
2 6 3 0 5 6 10 736
Summe Ties
416
721
766
Summe gesamt
768
768
768
Output 7.7: Einfaches Cox-Modell – Ausgabe in Form von Partial-Likelihood-Koeffizienten No. of subjects = No. of failures = Time at risk = Log likelihood
=
768 447 3933.778082 -2348.9422
Number of obs
=
768
LR chi2(2) Prob > chi2
= =
41.06 0.0000
-----------------------------------------------------------------------------_t | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------ostdeu | .4581212 .1008599 4.54 0.000 .2604393 .655803 regional_v~t | -.3518856 .0986758 -3.57 0.000 -.5452867 -.1584846 ------------------------------------------------------------------------------
190
7 Survival-Analysen
Anhand des LR-Tests lässt sich erkennen, dass auch bei diesem Modell die Aufnahme der beiden UV eine höchst signifikante Verbesserung der Modellschätzung bewirkt. Daher ist es auch nicht verwunderlich, dass beide Variablen signifikante Effekte aufweisen – erkennbar daran, dass die angegebenen 95 %-Konfidenzintervalle für die Koeffizienten den Wert null nicht miteinschließen. Anhand der Vorzeichen der PL-Koeffizienten lässt sich aus der Tabelle direkt ablesen, ob eine Variable die Hazard-Rate erhöht oder verringert. Um das Ausmaß dieses Einflusses prozentual beziffern zu können, müssen die Koeffizienten jedoch noch anhand folgender Formel umgeformt werden (Box-Steffensmeier/Jones 2004: 60): (
%∆ ( ) =
) (
−
(
)
∙ 100
)
(7.13)
Neben den Koeffizienten β, benötigt man zwei konkrete Ausprägungen (X1 und X2) einer Variable Xi. Die Hazard-Rate würde sich entsprechend unter Ceteris-paribus-Bedingungen für Minister mit regionaler Verwurzelung ( = 1) im Vergleich zu ihren Kollegen, die nicht in dem Bundesland geboren wurden, in dem sie als Minister arbeiten ( = 0), um folgenden Prozentsatz ändern: %∆ ( ) =
,
∙
,
− ,
∙
∙
∙ 100 =
0,703 − 1 ∙ 100 1
(7.14)
= −29,66% Die Reduzierung der Hazard-Rate um knapp 30 % lässt sich noch einfacher ablesen, sofern man nicht die PL-Koeffizienten, sondern die Hazard-Ratios ausgeben lässt (vgl. Output 7.8). An der Modellschätzung selbst ändert sich nichts, einzig die Darstellung der Effekte ist anders: Der Wert von 0,7034 bedeutet, dass regional verwurzelte Minister eine Hazard-Rate von etwa 70 % der Hazard-Rate der Vergleichskategorie „nicht regional verwurzelt“ haben, was gleichbedeutend ist mit einer Reduzierung um 30 % wie sie oben berechnet wurde. Generell dürfte die Darstellung in Form von Hazard-Ratios aufgrund ihrer einfacheren Interpretierbarkeit vorzuziehen sein. Output 7.8: Einfaches Cox-Modell – Ausgabe in Form von Hazard-Ratios No. of subjects = No. of failures = Time at risk = Log likelihood
=
768 447 3933.778082 -2348.9422
Number of obs
=
768
LR chi2(2) Prob > chi2
= =
41.06 0.0000
-----------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------ostdeu | 1.581101 .1594697 4.54 0.000 1.2975 1.926689 regional_v~t | .7033605 .0694047 -3.57 0.000 .5796756 .8534361 ------------------------------------------------------------------------------
7.4.4
Stratifizierte Cox-Modelle
Ein Vorteil des Cox-Modells ist, dass mit ihm auf einfache Art und Weise stratifizierte Modelle zu berechnen sind. Bei einem solchen Modell wird angenommen, dass UV in unterschiedlichen Gruppen denselben Effekt auf die Hazard-Rate ausüben, sich gleichzeitig aber
7.4 Das semi-parametrische Cox-Modell
191
die zugrunde liegenden Baseline-Hazards unterscheiden können. Anhand des bereits bekannten Beispiels sollen im Folgenden verschiedene Optionen verglichen werden (vgl. Tab. 7.2): Im ersten Modell wird die Variable ostdeu komplett außen vor gelassen, was nichts anderes bedeutet, als dass man annimmt, dass sich die Baseline-Hazards für Ostdeutsche und Westdeutsche nicht unterscheiden. Nimmt man hingegen an, dass sich Minister in Ost- und in Westdeutschland in ihren Baseline-Hazards unterscheiden, könnte der für regionale Verwurzelung geschätzte Effekt in Modell 1 hierdurch verfälscht sein. Inkludiert man ostdeu als weitere UV so lautet die dahinterstehende Annahme, dass die Baseline-Hazards für Minister in Ost- und in Westdeutschland zwar nicht identisch sein müssen, aber doch die selbe Form aufweisen und damit proportional sein müssen (Modell 2). Um zu testen, ob die Baseline-Hazards für diese beiden Gruppen an Ministern sich nicht doch auch in ihrer Form unterscheiden, kann man getrennte Modelle für ostdeutsche und westdeutsche Minister berechnen. Problematisch an diesem Vorgehen ist jedoch, dass man neben den (gewünscht) unterschiedlichen Baseline-Hazards zusätzlich auch separate Schätzungen für die Effekte der weiteren UV erhält (was oftmals nicht gewünscht ist). Die Lösung wäre in diesem Fall ein stratifiziertes Modell, bei dem die Baseline-Hazards für west- und ostdeutsche Minister voneinander abweichen können, jedoch gleichzeitig ein einziger Effekt für die Variable der regionalen Verwurzelung geschätzt wird. Die Ergebnisse zeigen, dass der Effekt der regionalen Verwurzelung, so man identische Baseline-Hazards zwischen Ost- und Westdeutschland annimmt (Modell 1), durchaus von dem Effekt abweicht, wenn auf die Variable hin kontrolliert (Modell 2) oder nach ihr stratifiziert wird (Modell 4). Zugleich unterscheiden sich diese beiden zuletzt genannten Varianten nur marginal: Es ist demnach irrelevant, ob man von gänzlich unterschiedlich verlaufenden Baseline-Hazards ausgeht (stratifiziertes Modell 4) oder ob diese proportionale Vielfache voneinander sind („Kontroll“-Modell 2): die Hazard-Ratios für regionale Verwurzelung sind für beide Modelle so gut wie identisch. Da sich die Effekte für regionale Verwurzelung in den beiden separaten Modellen für ostdeutsche und westdeutsche Minister jedoch deutlich unterscheiden – und damit also eindeutig nicht gleich sind, wie es das stratifizierende Modell annimmt – ist das auf ostdeu kontrollierende Modell dem nach ostdeu stratifizierenden Modell vorzuziehen. Generell gilt, dass es nicht möglich ist den Effekt einer Variable auf die Hazard-Rate zu schätzen, wenn nach dieser variable stratifiziert wird. Unterscheiden sich die Effekte der UV hingegen nicht stark zwischen zwei oder mehr Gruppen und geht man gleichzeitig von einer unterschiedlichen grundlegenden zeitlichen Abhängigkeit innerhalb der Gruppen aus, dann bietet es sich an, über die Gruppierungsvariable zu stratifizieren. Die Berechnung stratifizierter Modelle kann zudem eine Lösung für die beim Cox-Modell potentiell auftretende Problematik nicht proportionaler Hazards bieten. Im folgenden Abschnitt werden Analyseverfahren für die Annahme proportionaler Hazards sowie weitere Ansätze vorgestellt, mit diesem Problem umzugehen.
192
7 Survival-Analysen
Tab. 7.2:
Optionen zum Umgang mit einer Variable in Cox-Modellen (hier Variable ostdeu)
Modell
Annahme
Stata-Befehl
HazardRatio
95 % Konfidenzintervall
1.
Variable nicht beachten Auf Variable kontrollieren
stcox regional_verwurzelt
0,6442
0,5331
0,7784
stcox regional_verwurzelt ostdeu stcox regional_verwurzelt if ostdeu stcox regional_verwurzelt if !ostdeu stcox regional_verwurzelt, strata(ostdeu)
0,7034
0,5797
0,8534
0,8154
0,5973
1,1132
0,6487
0,5074
0,8294
0,7074
0,5821
0,8595
2. 3.
Getrennte Modelle für alle Ausprägungen der Variable berechnen
4.
Nach der Variable stratifiziertes Modell berechnen
Tabelle in Anlehnung an Cleves et al. (2010: 154). Alle Modelle sind mit der Option exactm berechnet. Die Hazard-Ratio bezieht sich auf die Variable regional_verwurzelt.
7.4.5
Tests auf Proportionalität der Hazards
Eine für alle Cox-Modelle elementare Grundannahme ist die auch schon vom Weibull-Modell bekannte Proportionalitätsannahme. Diese besagt, dass der Effekt der UV über die Analysezeit hinweg konstant sein muss. Wenn dem nicht so ist, ist das Modell fehlspezifiziert und liefert verzerrte Effektschätzer. Würde beispielsweise eine UV das Überleben nur bis zum Zeitpunkt t1 beeinflussen und danach keinen Einfluss mehr ausüben, wäre dies ein klarer Fall nichtproportionaler Hazards. Das Cox-Modell würde hier einen zu geringen Effekt für diese Variable vor t1 und einen zu großen Effekt nach t1 schätzen. Um solche Fehler zu vermeiden bzw. über Modifikationen der Modellspezifikation ausgleichen zu können, müssen Cox-Modelle stets auf die Proportionalitätsannahme hin getestet werden (Box-Steffensmeier/Jones 2004: 131). Als Forscher hat man die Auswahl zwischen drei grafischen Methoden sowie einem statistischen Testverfahren, die im Folgenden kurz präsentiert werden. Log-Log-Plots Sofern das Cox-Modell korrekt ist, sollten die „Log-Log geplotteten“ Kaplan-Meier-Kurven für die einzelnen Ausprägungen der Kovariablen annähernd parallel verlaufen.34 Es wird also auf der y-Achse − [− (Überleben)] und auf der x-Achse (Analysezeit) abgetragen (Stata 2007: 160): stphplot, by(ostdeu) stphplot, by(regional_verwurzelt)
Während der Verlauf der Linien für ostdeutsche und westdeutsche Minister über die gesamte Analysezeit als annähernd parallel bezeichnet werden kann, trifft dies auf die Variable regionale Verwurzelung nicht zu. Hier ist davon auszugehen, dass sich der Effekt dieser Variable mit der Zeit verändert. Allerdings gibt es keinen klaren Richtwert, ab wann eine ausreichende Parallelität der Kurven gegeben ist, was deren Interpretation immer ein wenig arbiträr erscheinen lässt. 34
Dies ist der Fall, da für das Cox-Modell die Beziehung ( ) = exp(− ( ) (Therneau/Grambsch 2000: 127). ln − ln ( ) = ln[ ( )] −
) gilt und damit auch
7.4 Das semi-parametrische Cox-Modell
193
−2
−2
−ln[−ln(Survival Probability)] 0 2 4
−ln[−ln(Survival Probability)] 0 2 4 6
6
Daneben sind Log-Log-Plots nur bei solchen Variablen sinnvoll anwendbar, die eine begrenzte Anzahl diskreter Werte annehmen können. Für metrische Variablen oder nominale Variablen mit sehr vielen Ausprägungen würden die Plots schnell zu unübersichtlich werden.
−4
−2
0 ln(analysis time) ostdeu = 0
Abb. 7.9:
2
−4
4
ostdeu = 1
−2
0 ln(analysis time)
regional_verwurzelt = 0
2
4
regional_verwurzelt = 1
Log-Log-Plots zum Test der Proportionalitätsannahme
Kaplan-Meier- vs. Cox-Plots Eine zweite Option, die Proportionalitätsannahme grafisch zu überprüfen, besteht darin, die empirischen Kaplan-Meier-Überlebenskurven mit den aus dem Cox-Modell geschätzten Überlebenskurven zu vergleichen. Sofern diese Kurven nahe beieinander liegen, kann davon ausgegangen werden, dass die Annahme proportionaler Hazards nicht verletzt wurde. In Stata erhält man diese Plots über: stcoxkm, by(ostdeu) sep stcoxkm, by(regional_verwurzelt) sep
20
30 0
10
20
30
1
0.50
Survival Probability 10
0.00
0
0
1.00
1
0.50 0.00
Survival Probability
1.00
0
0
10
20
analysis time Observed: ostdeu = 0 Predicted: ostdeu = 0 Graphs by ostdeu
Abb. 7.10:
30 0
10
20
30
analysis time
Observed: ostdeu = 1 Predicted: ostdeu = 1
Observed: regional... = 0 Predicted: regional... = 0
Observed: regional... = 1 Predicted: regional... = 1
Graphs by regional_verwurzelt
Kaplan-Meier vs. Cox-Plots zum Test der Proportionalitätsannahme
Bei dieser Testmethode erscheint nun weder die Variable ostdeu noch die Variable regional-verwurzelt problematisch – bei beiden sind die empirischen und geschätzten Überlebenskurven sehr ähnlich. Aber auch hier gelten die gegen die Log-Log-Plots bereits aufgeführten Einwände in Bezug auf die Interpretierbarkeit der Kurven: Exakt lässt sich auch hier nicht sagen, ab welchem Abweichungsgrad die Modellschätzung nicht mehr auf proportionalen Hazards, sondern einer Fehlspezifikation des Modells aufbauen würde.
194
7 Survival-Analysen
Plots von geglätteten, skalierten Schoenfeld-Residuen Eine weitere grafische Methode, um die Proportionalitätsannahme zu überprüfen, bedient sich der Schoenfeld-Residuen (Schoenfeld 1982), welche auf den „individuellen Beiträgen zur Ableitung der Log-PL basieren“ (Hosmer/Lemeshow 2008: 171; eigene Übersetzung). Letztlich lassen sich die Schoenfeld-Residuen als die beobachteten Werte minus die Erwartungswerte der UV zu jedem Endzeitpunkt verstehen. Abgetragen gegen die Zeit (oder eine bestimmte Funktion der Zeit35) indizieren die zuvor skalierten Schoenfeld-Residuen, ob ein Effekt über die Zeit konstant bleibt oder Veränderungen unterliegt (Box-Steffensmeier/Jones 2004: 121).36 Die Schoenfeld-Residuen werden skaliert und gegen die Zeit oder eine bestimmte Funktion der Zeit abgetragen (Therneau/Grambsch 2000: 130–131). Zusätzlich wird eine nach der Lowess (locally weighted regression scatter plot smoothing)37-Methode berechnete geglättete Kurve in den Plot der skalierten Schoenfeld-Residuen gelegt. Entspricht diese einer waagrechten Geraden, kann von Proportionalität der Hazards ausgegangen werden. Um diese Plots in Stata zu erhalten, müssen zunächst die skalierten sowie die regulären Schoenfeld-Residuen vorhergesagt und gespeichert werden, bevor sie mit Hilfe des estat phtest-Kommandos geplottet werden können.
−2
scaled Schoenfeld− ostdeu 0 2 4
6
scaled Schoenfeld− regional_verwurzelt −4 −2 0 2 4
stcox ostdeu regional_verwurzelt, scaledsch(sca*) schoenfeld(sch*) > efron estat phtest, plot(ostdeu) bwidth(0.8) estat phtest, plot(regional_verwurzelt) bwidth(0.8)
0
10
20
30
0
Time bandwidth = .8
Abb. 7.11:
35
36
37
10
20
30
Time bandwidth = .8
Schoenfeld-Residuen-Plots zum Test der Proportionalitätsannahme
Mögliche funktionale Formen des zeitlichen Einflusses, auf die getestet werden kann, sind beispielsweise der Logarithmus naturalis der Zeit, eins minus den Kaplan-Meier-Produkt-Limit-Schätzer oder auch der Rangplatz der Analysezeit (Stata 2007: 169). Zur genauen Berechnung der Schoenfeld-Residuen eignet sich neben Schoenfelds Originalartikel (1982) auch die Darstellungen von Therneau und Grambsch (2000: 85–86) sowie Box-Steffensmeier und Jones (2004: 120–121). Da Stata bei Verwendung der Averaged Likelihood-Methode (exactm) zur Integration der Tied Events keine Schoenfeld-Residuen berechnen kann, wird für alle Tests, in denen diese benötigt werden, die efron-Option verwendet. Für eine Beschreibung dieses Verfahrens vgl. den Artikel von Cleveland (1979), in dem diese Methode zum ersten Mal präsentiert wird, sowie die Beiträge im Sammelband „Statistical Theory and Computational Aspects of Smoothing“ (Härdle/Schimek 1996), darin besonders das einführende Kapitel zu verschiedenen Glättungsmethoden per lokaler Regressionsberechnung (Cleveland/Loader 1996).
7.4 Das semi-parametrische Cox-Modell
195
Beide Plots zeigen nur leichte Abweichungen der Lowess-Linie von einer horizontalen Geraden, was eher gegen eine Verletzung der Proportionalitätsannahme spricht. Allerdings spielt für die Interpretation dieses Tests auch immer die Stärke der Glättung des Lowes-smooth eine Rolle, die sogenannte Bandbreite. Ihr Wert bewegt sich zwischen 0 und 1, wobei ein größerer Wert eine stärkere Glättung bedeutet. Für die beiden obigen Plots wird der in Stata auch als Standard eingestellte Wert von 0,8 verwendet (bwidth(0.8)). Da die Wahl der Bandbreite immer eine willkürliche Entscheidung des Forschers darstellt und wie schon zuvor bei den anderen grafischen Verfahren eine rein visuelle Inspektion der Kurven zumeist nicht ausreicht, um die Proportionalitätsannahme klar und eindeutig entweder zu bestätigen oder zu verwerfen (Blossfeld et al. 2007: 235), sind auch die Schoenfeld-Residuen-Plots alleine nicht ausreichend, um auf die Proportionalität der Hazards zu testen. Der Grambsch-Therneau-Test Ein statistischer Test, der die Unsicherheit hinter sich lassen soll, die mit der Interpretation der grafischen Testverfahren einhergeht, geht auf Grambsch und Therneau (1994) zurück. Er prüft über ein Generalized Least Squares (GLS) Modell, inwiefern die skalierten SchoenfeldResiduen über die Zeit geradlinig-horizontal verlaufen, und liefert damit eindeutige Signifikanzwerte für das, was im letzten Abschnitt noch rein visuell interpretiert wurde (Therneau/Grambsch 2000: 131–132). Der Test kann sowohl global für das gesamte Modell (Standardeinstellung) als auch einzeln für jede im Modell enthaltene Variable berechnet werden (Option detail).38 Fügt man die Optionen log, rank oder km hinzu, kann wiederum auf unterschiedliche Funktionen der Zeit (Identität, ln, 1-Kaplan-Meier-Schätzer, Rangplatz) getestet werden: estat phtest, detail Output 7.9: Detaillierter Grambsch-Therneau-Test Time: Time ---------------------------------------------------------------| rho chi2 df Prob>chi2 ------------+--------------------------------------------------ostdeu | -0.03053 0.42 1 0.5152 regional_v~t| -0.00562 0.01 1 0.9043 ------------+--------------------------------------------------global test | 0.42 2 0.8091 ----------------------------------------------------------------
Wenn die Chi-Quadrat-Statistik signifikant ausfällt (d. h. Prob>chi2-Wert unter 0,1 bzw. 0,05 liegt), ist die Nullhypothese der Proportionalität abzulehnen. Unser Test zeigt demnach, dass weder für eine der beiden UVs für sich genommen, noch global betrachtet Nichtproportionalität der Hazards vorliegt. An diesem Ergebnis ändert sich auch nichts, sofern auf andere Funktionen der Zeit geprüft wird. Ist die Proportionalitätsannahme verletzt, ist für die Interpretation darüber hinaus das Vorzeichen von rho interessant. Ist dieses negativ, hat eine Variable mit fortschreitender Zeit einen immer größeren Einfluss auf die Hazard-Rate. Ist es positiv, sinkt der Einfluss mit der Zeit.
38
Für die genauen Formeln der beiden Tests vgl. Therneau und Grambsch (2000: 132–136).
196
7 Survival-Analysen
Zusammenfassend lässt sich sagen, dass alle drei grafischen Methoden damit zu kämpfen haben, dass ihre Interpretation nur in drastischen Fällen von Nichtproportionalität eindeutig ist. Bei grenzwertigen Fällen stellen sie keine besonders große Hilfe dar. Insgesamt ist damit der Grambsch-Therneau-Test den grafischen Methoden in der Regel vorzuziehen. Jedoch bietet auch dieses Verfahren keine vollständige Sicherheit, um sämtliche Formen nichtproportionaler Hazards aufzudecken. Beispielsweise dürfte ein quadratischer Funktionsverlauf von β(t) durch diesen Test kaum erkannt werden.39 In solchen und ähnlichen Fällen stellen die Plot-Methoden oftmals die bessere Option zur Überprüfung der Proportionalitätsannahme dar (Therneau/Grambsch 2000: 140). In der Forschungspraxis bietet eine kombinierte Verwendung der unterschiedlichen Verfahren die größte Sicherheit. Was ist zu tun, wenn Nichtproportionalität vorliegt? Liefern die vorgestellten Verfahren Hinweise darauf, dass Nichtproportionalität vorliegen könnte, sollte man nach Grambsch und Therneau zunächst die Ergebnisse hinterfragen und zwei sehr grundlegende Fragen stellen: Erstens „does it matter“ und zweitens „is it real“ (Therneau/Grambsch 2000: 142). Erstens kann es sein, dass der Grambsch-Therneau-Test zwar eine signifikante Nichtproportionalität ausweist, diese jedoch aufgrund eines vergleichsweise großen Samples keine sonderlichen Auswirkungen auf die Ergebnisse eines Cox-Modells hat. Je größer der Datensatz, desto schneller fällt der Test auf Nichtproportionalität nämlich signifikant aus – was erneut dafür spricht, neben den Teststatistiken auch die Schoenfeld-Grafiken zu betrachten, aus denen sich in der Regel recht gut abschätzen lässt, wie stark die Variation der β-Koeffizienten einer Variable über die Zeit im Vergleich zu dem aus dem Cox-Modell geschätzten besten Gesamteffekt dieser Variable ausfällt (Therneau/Grambsch 2000: 142–144). Fällt der Einfluss der Zeit auf den Koeffizienten relativ betrachtet gering aus, kann es zwar sein, dass der Grambsch-Therneau-Test Nichtproportionalität indiziert, diese Verletzung der Grundannahmen des Cox-Modells allerdings keinerlei relevante Auswirkungen hat – die Frage „does it matter“ also klar zu verneinen ist und das Modell ohne weitere Adaption geschätzt und interpretiert werden kann. Zweitens besteht die Möglichkeit, dass der Test die Proportionalitätsannahme eindeutig ablehnt, dies jedoch ausschließlich über einige wenige Ausreißer im Datensatz zu erklären ist, welche die Plots deutlich verzerren (für ein anschauliches Beispiel vgl. Therneau/Grambsch 2000: 144–145). Auch dies ist über die grafischen Methoden relativ gut erkennbar, weshalb sich nur über die Kombination beider Ansätze halbwegs sicher einschätzen lässt, ob eine wirklich reale, potentiell das Modell stark verzerrende, Nichtproportionalität vorliegt. Sofern dem jedoch so ist, stellt sich die Frage, wie mit einem solch fehlspezifizierten Modell weiter zu verfahren ist.
39
Es gibt noch zwei weitere Fälle, in denen der Grambsch-Therneau-Test keine validen Ergebnisse liefert: Erstens, wenn das untersuchte Sample vergleichsweise klein ist – in diesem Fall lassen sich insbesondere keine Unterschiede zwischen diskreten Stufenfunktionen und linearen Funktionen von β(t) feststellen. Zweitens nimmt der Test Homogenität der Varianzen zwischen den Risk Sets an (Stata 2007: 179). Es wurde zwar gezeigt, dass auch bei Verletzung dieser Annahme der Grambsch-Therneau-Test relativ robust ist (Grambsch/Therneau 1994), aber gerade bei geschichteten Cox-Modellen ist Vorsicht bei der Interpretation der Testergebnisse geboten. In diesem Fall ist es angebracht, die Proportional-Hazard-Assumption separat für jede Schicht zu testen.
7.4 Das semi-parametrische Cox-Modell
197
Eine Option ist die schon beschriebene Schätzung stratifizierter Modelle. Diese löst das Problem nichtproportionaler Hazards zwar vergleichsweise effektiv, allerdings zahlt man hierfür auch einen hohen Preis: Sobald eine Variable als Schichtungsvariable in ein Modell aufgenommen wird, ist es nicht mehr möglich, den Effekt zu bestimmen, den diese Variable auf die Hazard-Rate ausübt. Zudem sollte die Aufteilung des Gesamt-Samples in mehrere Teilpopulationen, die in einem stratifizierten Cox-Modell separat voneinander geschätzt werden, auch immer eine theoretische Fundierung aufweisen. Schließlich darf das Verhältnis von Fällen zu Schichtungsvariablen bzw. deren Kategorienanzahl nicht zu gering ausfallen. Daneben sprechen laut Therneau und Grambsch noch einige weitere Punkte eher gegen Stratifizierung, wenn es nur darum geht Nichtproportionalität zu beheben.40 Als zweite Möglichkeit zum Umgang mit Nichtproportionalität nennen Therneau und Grambsch eine Unterteilung der Zeitachse (z. B. nach der Medianüberlebenszeit, oder den Quartilen). Über die so gebildeten Gruppen werden dann getrennte Cox-Modelle – mitsamt Proportionalitätstest – berechnet (2000: 145–146). Diesem Vorgehen liegt die Annahme zugrunde, dass die Effekte einer Variablen, wenn auch nicht über die gesamte Überlebenszeit so doch über einzelne Abschnitte konstant sein könnten. Weil diese Annahme jedoch nicht zwangsweise zutrifft, löst diese Vorgehensweise auch nicht in jedem Fall das Problem der Nichtproportionalität. Zudem wird die Interpretation der Effekte dadurch komplizierter, dass für jede Gruppe ein separates Modell mit potentiell auch voneinander abweichenden Koeffizienten geschätzt wird. Die dritte von Therneau und Grambsch vorgeschlagenen Vorgehensweise ist auch die von Box-Steffensmeier und Jones präferierte Option: Über in das Modell eingebrachte Interaktionsterme zwischen der oder den Kovariable(n), welche die Nichtproportionalität verursacht hat (haben), und einer bestimmten Funktion der Zeit soll die zeitliche Abhängigkeit der Effekte modelliert werden. Selbstverständlich darf dies erst nach den Tests auf Proportionalität geschehen, denn sobald die Interaktionsterme Teil des Modells sind, würden die Proportionalitätstests zwangsläufig negativ ausfallen (Box-Steffensmeier/Jones 2004: 136–137). Die Umsetzung in Stata erfolgt auf dieselbe Art und Weise wie von anderen Interaktionseffekten her bekannt (vgl. Kapitel 3 zu Interaktionen). Sollte das proportionale Hazard-Modell insgesamt nicht angebracht sein, wird als letzte Option vorgeschlagen, eine komplett andere Parametrisierung und damit Modellklasse zu verwenden – Therneau und Grambsch (2000: 145–152) denken dabei primär an AFT-Modelle. Zumeist dürfte jedoch eine solch radikale Lösung nicht nötig sein, da die anderen Methoden in der Regel ausreichen, um die Proportionalität der Hazards herzustellen.
7.4.6
Competing-Risks im Cox-Modell
Bislang gingen wir in den Survival-Modellen von einem einzigen Endereignistyp aus: dem Ausscheiden eines Ministers aus dem Kabinett, aus welchen Gründen auch immer. Dieses wurde als terminal event gewertet. Allerdings lassen sich Endereignisse durchaus noch weiter ausdifferenzieren. Beispielsweise kann zwischen freiwilligen Rücktritten, erzwungenen 40
(1) Geschichtete Modelle sind weniger effektiv; (2) es gibt keine unmittelbaren Signifikanztests für die Nullhypothese einer nicht vorhandenen Beziehung zwischen dem Schichtungsfaktor und dem Überleben; (3) Stratifizierung funktioniert problemlos bei kategorialen Variablen, die Überführung stetiger Variablen in willkürlich zu wählende diskrete Skalen führt jedoch zu Problemen bei der Berechnung geschichteter Modelle (Therneau/Grambsch 2000: 145).
198
7 Survival-Analysen
Amtsaufgaben sowie denjenigen Fällen unterschieden werden, in denen ein Minister seinen Kabinettssitz räumen muss, da seine Partei nach Wahlen nicht erneut an die Macht gelangt. Wenn es sich dabei um konkurrierende, d. h. sich gegenseitig ausschließende Endereignisse handelt – wie es bei den drei geschilderten Terminierungsoptionen der Fall ist – ist es sinnvoll, diese eben nicht undifferenziert so zu behandeln, als wären sie alle dasselbe Endereignis (Box-Steffensmeier/Jones 1997: 1437). Vielmehr können im Rahmen eines CompetingRisks-Ansatzes getrennte Modelle für jedes einzelne Endereignis berechnet werden. Dahinter steht die Annahme, dass unterschiedliche Faktoren den Ereignisprozess für die unterschiedlichen Typen von Endereignissen beeinflussen, weshalb eine undifferenzierte Analyse Effekte unter Umständen verschleiert. Für die Schätzung dieser Modelle müssen drei Voraussetzungen erfüllt sein: (1) Jeder Fall kann nur ein einziges dieser terminal events erfahren (keine repeating events); (2) Jedes Untersuchungsobjekt ist dem Risiko ausgesetzt, jedes der in der Population vorkommenden Endereignisse auch wirklich zu erfahren; (3) Die Hazards der verschiedenen Endereignisse bedingen sich nicht gegenseitig (Elandt-Johnson/Johnson 1980: 270). Technisch funktioniert der Competing-Risks-Ansatz über das Zensieren all derjenigen Endereignisse, mit Ausnahme des interessierenden.41 Untersucht man freiwillige Rücktritte würde man entsprechend alle Fälle zensieren, die nicht aufgrund eines freiwilligen Rücktritts aus dem Amt scheiden. Die Logik dahinter bleibt dieselbe wie bei der regulären Zensierung: Man nimmt an, dass die Amtszeit eines Ministers, der durch einen erzwungenen oder kollektiven Rücktritt ausscheidet, noch länger angedauert hätte, bis er dann irgendwann freiwillig zurückgetreten wäre. Für die Schätzung von Competing-Risks-Modellen müssen über den stset-Befehl die unterschiedlichen Zensierungsoptionen angegeben werden. Die Syntax der eigentlichen CoxModelle bleibt hingegen gleich: stset stcox stset stcox stset stcox
amtsdauer, failure(freiwillig==1) scale(365) id(id_1) ostdeu regional_verwurzelt, exactm amtsdauer, failure(erzwungen==1) scale(365) id(id_1) ostdeu regional_verwurzelt, exactm amtsdauer, failure(kollektiv==1) scale(365) id(id_1) ostdeu regional_verwurzelt, exactm
Vergleicht man die Ergebnisse, so zeigen sich in der Tat gewisse Unterschiede (vgl. Output 7.10): Während die regionale Verwurzelung insbesondere die Amtsdauer von denjenigen Ministern verlängert, die letztlich freiwillig zurücktreten, erhöht der Ostdeutschland-Dummy die Hazard-Rate nicht signifikant. Bei den erzwungenen Amtsaufgaben ist dies genau umgekehrt – hier weist die Variable ostdeu den größeren Einfluss auf – und bei den kollektiven Rücktritten haben beide UVs keinen signifikanten Effekt auf die Hazard-Rate, was sich auch in dem insgesamt schlechten Fit dieses Modells widerspiegelt. Würde man die drei Endereignisse nicht differenzieren, wäre es auch nicht möglich, diese voneinander abweichenden Effekte aufzuzeigen. Noch eklatanter wäre dies bei Variablen, die bei einem Endereignis einen positiven Effekt auf die Hazard-Rate haben, bei einem anderen Endereignis jedoch einen negativen. Gepoolt betrachtet würde man hier evtl. gar keinen Effekt feststellen, da sich die beiden Effekte gegenseitig aufheben.
41
Eine aus statistischer Sicht elaboriertere Beschreibung des Competing-Risks-Ansatzes bieten Kalbfleisch und Prentice (2002: 163–187) sowie die Werke von Blossfeld und Kollegen (2007: 169; 1986: 59 und 165).
7.4 Das semi-parametrische Cox-Modell
199
Output 7.10: Competing-Risks-Modelle für freiwilligen, erzwungenen und kollektiven Amtsverlust Freiwillig No. of subjects = No. of failures = Time at risk = Log likelihood
=
768 156 3933.778082 -795.10976
Number of obs
=
768
LR chi2(2) Prob > chi2
= =
11.69 0.0029
-----------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------ostdeu | 1.315492 .2322935 1.55 0.120 .9306378 1.859499 regional_v~t | .6389777 .1072828 -2.67 0.008 .4598022 .8879742 -----------------------------------------------------------------------------Erzwungen No. of subjects = No. of failures = Time at risk = Log likelihood
=
768 274 3933.778082 -1485.0183
Number of obs
=
768
LR chi2(2) Prob > chi2
= =
27.07 0.0000
-----------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------ostdeu | 1.741042 .2215766 4.36 0.000 1.356687 2.234286 regional_v~t | .7782963 .0974718 -2.00 0.045 .6088955 .9948261 -----------------------------------------------------------------------------Kollektiv No. of subjects = No. of failures = Time at risk = Log likelihood
=
768 186 3933.778082 -989.86253
Number of obs
=
768
LR chi2(2) Prob > chi2
= =
0.66 0.7196
-----------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------ostdeu | 1.023508 .1651716 0.14 0.886 .7459786 1.404289 regional_v~t | .8924622 .1340119 -0.76 0.449 .6649264 1.19786 ------------------------------------------------------------------------------
7.4.7
Schätzung der Baseline-Hazard-Rate
Der große Vorteil des Cox-Modells – die Möglichkeit, Effekte auf die Hazard-Rate schätzen zu können, ohne dass a-priori die funktionale Form der zugrundeliegenden zeitlichen Abhängigkeit festgelegt werden muss – bedeutet gleichzeitig, dass die Baseline-Hazard-Rate nicht direkt modelliert werden kann. Allerdings kann sie im Anschluss an die Schätzung eines Cox-Modells zumindest approximativ bestimmt werden.42 Sofern man sich also neben den Effekten der UV auch für die rein zeitliche Abhängigkeit interessiert, welche den Transitionsprozesses determiniert, oder testen möchte, inwiefern eine bestimmte funktionale Form für die Schätzung eines parametrischen Modells geeignet ist, so besteht diese Option beim Cox-Modell. Generell gibt der Baseline-Hazard die Werte der Hazard-Funktion an, wenn alle 42
Ausführlichere Beschreibungen dieses Vorgehens finden sich bei Box-Steffensmeier und Jones (2004: 64–65), Kalbfleisch und Prentice (2002: 114–118) sowie Collett (2003: 95–100).
200
7 Survival-Analysen
Kovariaten den Wert null annehmen. Aus diesem Grund muss für die Bestimmung der Baseline-Hazard-Rate der Wert null für alle UV ein sinnvoll zu interpretierender Wert sein. Während dies in unserem Beispiel bei den beiden Dummy-Variablen ostdeu und regional_verwurzelt der Fall ist, wäre das Alter des Ministers problematisch, da die Baseline-Hazard-Rate hier für Minister, die Null Jahre alt sind, geschätzt würde – was freilich wenig Sinn ergäbe. Hier böte es sich an, die Variable zu zentrieren, was einerseits an den geschätzten Effekten nichts ändert, aber andererseits eine sinnvolle Interpretation der Baseline-Hazard-Rate ermöglicht (Befehl mcenter). In Stata gibt es zwei Optionen um die Baseline-Funktionen (Überlebensfunktion, kumulative Hazard-Funktion und Hazard-Rate) zu berechnen. Entweder speichert man die Schätzer für die drei Funktionen oder man verwendet den Befehl stcurve. Bei der erstgenannten Vorgehensweise ist zu beachten, dass für die Baseline-Hazard-Rate nur die sogenannten hazard contributions gespeichert werden können (Kalbfleisch/Prentice 2002: 114–118). Diese lassen sich nicht direkt, sondern erst nach komplexer mathematischer Umformung als BaselineHazard-Rate anzeigen.43 Für die Baseline-Überlebensfunktion wie auch die kumulative Baseline-Hazard-Rate ist das Vorgehen einfacher: stset amtsdauer, failure(endereignis==1) scale(365) id(id_1) stcox ostdeu regional_verwurzelt, exactm basesurv(ueberleben) > basec(kumulativ) line ueberleben _t , sort c(J)|| histogram _t line kumulativ _t, sort c(J)
8
0
Baseline−Überleben .2 .4 .6 .8
Kumulativer Baseline Hazard 2 4 6
1
Nach dem Speichern der Funktionswerte werden diese einfach in einem Liniendiagramm gegen die Überlebenszeit abgetragen. In die Baseline-Überlebensfunktion kann zusätzlich noch gut ein Histogramm der Überlebenszeiten eingefügt werden. So lässt sich auf einen Blick ausmachen, welcher Bereich der Kurve die meisten Fälle abdeckt und somit von besonderem Interesse ist. Die Option c(J) bewirkt, dass die einzelnen Punkte in Form einer Stufenfunktion verbunden werden. Das ist deshalb wichtig, da wie bereits zuvor bei den Kaplan-Meier-Kurven Ereignisse in den Daten nur zu spezifischen Zeitpunkten (den Sprungstellen der Funktion) stattfinden können (Cleves et al. 2010: 138). Abb. 7.12 zeigt die Ergebnisse.
10
20
30
0
0
_t baseline survivor
Abb. 7.12: 43
Density
0
10
20 _t
Baseline-Überlebensfunktion (links) und kumulative Baseline-Hazard-Rate
Wie dies in Stata bewerkstelligt wird zeigt http://www.stata.com/support/faqs/statistics/baseline-hazard/.
30
7.4 Das semi-parametrische Cox-Modell
201
Da die kumulative Baseline-Hazard-Rate bis zu einer Überlebenszeit von etwa 13 Jahren mit einer wachsenden Rate ansteigt, sollte auch deren Ableitung, die Baseline-Hazard-Rate, in diesem Zeitraum ansteigen. Nach _ = 13 fällt der Zuwachs schwächer aus, was für eine gleichbleibende, oder sogar sinkende Baseline-Hazard-Rate spricht. Um die BaselineHazard-Rate zu plotten bietet sich wie zuvor erwähnt eher das zweite Verfahren über das Postestimation-Kommando stcurve an. Mit dessen Hilfe können alle für eine Ereignisanalyse interessierenden Funktionen bei frei vom Forscher zu wählenden Werten für die Kovariablen gezeichnet werden, also auch beim Wert null für die Baseline-Hazard: stcurve, hazard at(ostdeu = 0 regional_verwurzelt = 0) > kernel(parzen)
In der Tat steigt die Baseline-Hazard-Rate bis etwa 13 Jahre relativ kontinuierlich an, danach wird das Bild uneinheitlicher (vgl. Abb. 7.13). Die starke Variation im rechten Teil des Plots ist dabei auf die extrem wenigen Fälle zurückzuführen, die eine Amtsdauer von mehr als 13 Jahren aufweisen. Diese schiefe Verteilung konnte man bereits auch schon gut in obigen Histogramm sowie den großen Stufen im rechten Bereich der kumulierten Baseline-HazardRate (rechte Grafik in Abb. 7.12) ablesen. Insofern ist für die Interpretation der Kurven insbesondere deren linker Bereich von Relevanz, da dieser die große Masse der Observationen enthält (etwa 96 Prozent aller Amtsdauern sind kürzer als 13 Jahre). Für die approximative Bestimmung der Hazard-Rate muss eine Glättung der Funktion vorgenommen werden. Die Art und Weise wie dies geschieht wird über die Option kernel angegeben. Stata bietet insgesamt acht unterschiedliche Kerndichteschätzverfahren an, u. a. parzen und epanechikov, welcher auch als Standard eingestellt ist. Im Do-File zu diesem Kapitel finden sich die übrigen, die zum Teil durchaus stark voneinander abweichende Kurven generieren.44 Neben der Baseline-Hazard-Rate können über die Optionen surv und cumh auch die Baseline-Überlebensfunktion sowie die kumulierte Baseline-Hazard-Rate erzeugt werden. Diese unterscheiden sich nicht von den Plots in Abb. 7.12. Daneben ermöglicht dieser Befehl auch, Hazard-Raten (oder andere Ereigniszeitfunktionen) für verschiedene Ausprägungen einer Variable zu vergleichen. Will man beispielsweise die Hazard-Raten für die vier möglichen Ausprägungen aus ostdeu und regional_verwurzelt in einem Plot darstellen, so ist dies über den folgenden Befehl möglich (vgl. Abb. 7.13): stcurve, hazard
at1(ostdeu at2(ostdeu at3(ostdeu at4(ostdeu
= = = =
0 1 0 1
regional_verwurzelt regional_verwurzelt regional_verwurzelt regional_verwurzelt
= = = =
0) /// 0) /// 1) /// 1)
Der Graph zeigt, dass die Hazard-Raten entsprechend der Proportional-HazardParametrisierung parallel zueinander verlaufen, die Kurven sich jedoch deutlich in ihrem Niveau unterscheiden. Dabei weisen ostdeutsche Minister ohne regionale Verwurzelung die höchste Wahrscheinlichkeit auf, aus dem Amt zu scheiden.
44
Eine klare Empfehlung, welche Glättungsmethode verwendet werden sollte, kann nicht gegeben werden. Hier gilt, was generell für smoothing-Verfahren gilt: Die Glättung soll dadurch, dass sie nur relevante Trends in den Daten abbildet, ein einfacher zu interpretierendes Bild liefern. Gleichzeitig darf nicht so weit geglättet werden, dass auch relevante Schwankungen in den Daten „weggeglättet“ werden.
7 Survival-Analysen
Smoothed hazard function .1 .2 .3 .4
Smoothed hazard function 0 .1 .2 .3 .4 .5
.5
202
0
Abb. 7.13:
5
10 15 analysis time
20
10 15 analysis time
20
25
ostdeu = 0 regional_verwurzelt = 0 ostdeu = 1 regional_verwurzelt = 0 ostdeu = 0 regional_verwurzelt = 1 ostdeu = 1 regional_verwurzelt = 1
0
0
5
25
Baseline-Hazard-Rate (Parzen-smooth) und Hazard-Raten für unterschiedliche Werte von ostdeu und regional_verwurzelt (Epanechnikov-smooth)
7.4.8
Gütemaße und Residuendiagnostik
Wie in der linearen Regression ist es auch bei Survival-Modellen wichtig, die Güte der Modellschätzung zu testen. In diesem Abschnitt werden zunächst zwei Optionen aufgezeigt, um die Güte eines Cox-Modells zu testen: Harrell’s C und Plots der Cox-Snell-Residuen. Im Anschluss daran werden drei weitere residuendiagnostische Verfahren präsentiert, mit deren Hilfe man auf Spezifika der Cox-Modelle testet. Harrell’s C Für Survivalanalysen steht kein Gütemaß in Form eines wie von OLS-Regressionen bekannten R2 zur Verfügung. Eine Alternative über Paarvergleiche schlagen Harrell et al. (1982) vor. Die Logik dieses Maßes ist intuitiv plausibel: Zunächst werden über all diejenigen Fälle Paare gebildet, bei denen keine Tied Events vorliegen und bei denen mindestens einer der Fälle wirklich ein Endereignis erfahren hat. In einem zweiten Schritt wird untersucht, bei wie viel Prozent dieser Paare diejenige Observation, die laut Cox-Modell länger überleben sollte, auch tatsächlich länger überlebt. Dieser als Harrell’s C bekannt gewordene Prozentwert konkordanter Paare kann als Gütemaß für die Passgenauigkeit des Cox-Modells gelten. In Stata kann Harrell’s C als postestimation-Kommando nach einer Cox-Regression berechnet werden: estat concordance Output 7.11: Harrell’s C (für das Modell aus Output 7.7) Number Number Number Number
of of of of
subjects (N) = comparison pairs (P) = orderings as expected (E) = tied predictions (T) =
768 153537 71078 39950
Harrell's C = (E + T/2) / P = Somers' D =
.593 .1861
Etwas mehr als 59 Prozent der Paare sind laut Harrells C konkordant. Umgekehrt bedeutet dies, dass bei mehr als 40 Prozent der Ministerpaare derjenige Minister, für den das CoxModell die längere Amtsdauer vorhersagt, empirisch die kürzere besitzt. Eine gewisse Erklä-
7.4 Das semi-parametrische Cox-Modell
203
rungskraft des Cox-Modells ist damit zwar vorhanden, gleichzeitig ist diese aber durchaus noch ausbaufähig, was angesichts nur zweier UV im Modell jedoch auch nicht sehr verwundert. Cox-Snell-Residuen Eine weitere Möglichkeit, die allgemeine Passgenauigkeit von Cox-Modellen abzuprüfen, bieten Cox-Snell-Residuen (Cox/Snell 1968). Bei diesen wie auch bei den weiter unten beschriebenen Residuentests handelt es sich im eigentlichen Sinne nicht um Teststatistiken, sondern um grafische Verfahren, die dabei helfen, mögliche Probleme in den Modellen aufzuspüren. Um eine möglichst klare und eindeutige Interpretation zu ermöglichen, sind diese Plots zum Teil so angelegt, dass ein Abweichen von der Linearität ein bestimmtes Problem indiziert. Dahinter steht die empirisch recht gut belegbare Annahme, dass „the human eye can distinguish well between a straight line and a curve“ (Miller et al. 1981). Der Fit des Cox-Modells lässt sich über den Plot der Cox-Snell-Residuen gegen die mit Hilfe des Kaplan-Meier-Schätzers berechnete empirische kumulierte Hazard-Funktion überprüfen. Hierzu werden im ersten Schritt ein Cox-Modells berechnet und die Cox-SnellResiduen vorhergesagt. Diese definiert man im Anschluss mit stset als neue Überlebensdaten. Aus dem nun geschätzten Kaplan-Meier-Schätzer wird eine kumulierte Hazard-Rate berechnet, die in einem letzten Schritt gegen die Cox-Snell-Residuen abgetragen wird. Ein gut passendes Modell zeichnet sich dadurch aus, dass dieser Plot einer Geraden mit Steigung 1 möglichst nahe kommt (Stata 2007: 170–171).45 Der folgende Befehl liefert den linken Plot aus Abb. 7.14 (die genauen Beschreibungen der einzelnen Befehle finden sich im Do-File): stcox ostdeu regional_verwurzelt, exactm predict double cs, csnell stset cs, failure(endereignis==1) sts generate km = s gen double H = -ln(km) line H cs cs, sort legend(nodraw)
Der Cox-Snell-Plot weicht erst in der rechten Hälfte der Grafik deutlicher von der Winkelhalbierenden ab. Diese stärkeren Abweichungen dürften größtenteils dadurch zu erklären sein, dass in diesem Bereich eine höhere Unsicherheit über die Schätzer vorliegt. Diese rührt daher, dass aufgrund von bereits zuvor ausgeschiedenen Observationen die effektive Samplegröße mit ansteigender Überlebenszeit immer kleiner wird, wodurch die Baseline-HazardRate variabler ausfällt (Stata 2007: 171). Wenn der Cox-Snell-Plot demzufolge erst im rechten oberen Teil der Grafik von der Referenzgeraden abzuweichen beginnt, ist dies im Sinne der Eignung des Cox-Modells tolerabel. Insofern weist unser schlankes Cox-Modell keinen allzu schlechten Fit auf.
45
Für die genauen funktionalen Zusammenhänge vgl. Cox und Oakes (1984: 107–109) sowie Box-Steffensmeier und Jones (2004: 120 und 124–125).
−6
−4
2
martingale −2
4
0
2
7 Survival-Analysen
6
204
0
0 0
2
Abb. 7.14:
4 Cox−Snell residual
.2
.4
.6
.8
1
ostdeu
6 bandwidth = .8
Plots von Cox-Snell-Residuen (links) und Martingalen Residuen
Martingale Residuen Eine weitere Residuenart sind die Martingalen Residuen. Auch wenn diese eng mit den CoxSnell-Residuen zusammenhängen (Box-Steffensmeier/Jones 2004: 121–122), erlauben sie doch keine Aussagen über die Anpassungsgüte des Modells. Martingale Residuen sind hingegen geeignet, um die korrekte funktionale Form zu identifizieren, in der eine UV in das Modell eingebracht werden sollte. Nehmen wir an, bei den Tests der Proportionalitätsannahme erweist sich eine UV als nicht proportional und sollte daher zusätzlich in Form eines die Zeit inkorporierenden Interaktionsterms in das Modell aufgenommen werden. Nun stellt sich die Frage, nach welcher Funktion die Zeit mit der Kovariable interagieren soll. Hier können die Martingalen Residuen wichtige Hinweise liefern. Darüber hinaus können sie auch andere Fehlspezifikationen identifizieren, z. B. wenn eine Variable besser logarithmiert in das Modell einfließen sollte. Der folgende Stata-Befehl liefert den Plot, der in Abb. 7.14 rechts abgetragen ist. stcox ostdeu regional_verwurzelt, exactm mgale(mg) lowess mg ostdeu, mean noweight title("") m(o)
Hierbei wird erst das gesamte Modell geschätzt und im Anschluss daran werden die gespeicherten Martingalen Residuen gegen die interessierende(n) Kovariable(n) geplottet, wobei zusätzlich eine Lowess-Linie eingefügt wird. Da die Martingalen Residuen einen Erwartungswert von null haben, würde jede systematische Abweichung von der waagrechten Nulllinie bedeuten, dass die funktionale Form, in der die UV in das Modell einfließt, unpassend ist und durch eine andere Funktion ersetzt werden sollte (Box-Steffensmeier/Jones 2004: 125–127).46 Wie bei einer Dummy-Variable nicht anders zu erwarten indiziert der Plot keine falsche funktionale Form bezüglich der Variable ostdeu – der Smooth verläuft exakt auf der Nulllinie (dasselbe Bild bietet sich bei regional_verwurzelt, s. Do-File). Sollten sich hingegen deutliche Abweichungen von einer Geraden zeigen, müssen im trial & errorVerfahren unterschiedliche funktionale Formen für die Variablen oder Interaktionsterme getestet werden, bis die Martingalen-Residuen-Plots ein lineares Schema aufweisen. Aber auch hier gilt, dass die Linearität immer im Auge des Betrachters liegt, weshalb die Plots der Martingalen-Residuen auch immer einen gewissen Interpretationsspielraum beinhalten. 46
Einen umfassenden Überblick dieser und weiterer Möglichkeiten, die korrekte funktionale Form von UV zu ermitteln, liefert das entsprechende Kapitel in Therneau und Grambsch (2000: 87–126).
7.4 Das semi-parametrische Cox-Modell
205
Deviance-Residuen Bei den Deviance-Residuen handelt es sich um normalisierte Martingale Residuen. Letztere haben einen Wertebereich von −∞ bis 1 und sind damit stark asymmetrisch. Eine solche Asymmetrie unterminiert jedoch die Interpretierbarkeit grafischer Residuen-Plots (BoxSteffensmeier/Jones 2004: 122–123). Um bei Schätzung des korrekten Modells eine symmetrische Verteilung um null herum zu erzielen – wie dies beispielsweise auch aus den Residuentests in OLS-Modellen bekannt ist, werden die Martingalen Residuen deshalb in DevianceResiduen transformiert (Therneau/Grambsch 2000: 83). Diese eignen sich v. a., um Ausreißer zu finden – also Fälle, deren Schätzwerte weit von den realen empirischen Beobachtungen entfernt liegen. Diese zu erkennen ist deshalb wichtig, weil zu viele Ausreißer zu irreführenden Schlüssen bezüglich der Hazard-Rate oder der Überlebenszeiten führen können. Hohe absolute Werte der Deviance-Residuen indizieren potentielle Ausreißer, wobei negative Deviance-Residuenwerte angeben, dass die geschätzte Überlebensdauer für einen Fall kürzer ist als die real observierte und bei positiven Werten das Umgekehrte gilt. Besonders einfach kann man die Ausreißer ablesen, wenn man die Residuen gegen die Observationsnummer oder die Überlebenszeit abträgt und im Befehl für die Erstellung der Grafik die Option mlabel wählt, und (vgl. Abb. 7.15 links) (Stata 2007: 167 und 173–174). Auch wenn das Diagramm durch die Namensüberlagerungen in großen Teilen unleserlich wird, kann man so doch auf einen Blick erkennen, bei welchen Ministern das Cox-Modell deutlich an der realen Amtsdauer vorbeischätzt. Dies ist beispielsweise bei Volker Sklenar der Fall, der sich im Plot rechts unten findet. Sklenar war Landwirtschaftsminister in Thüringen und wurde, da er in Sachsen auf die Welt kam, nicht regional verwurzelt kodiert. Das Cox-Modell sagt entsprechend für ihn eine unterdurchschnittliche Amtsdauer voraus. In Wirklichkeit war Sklenar allerdings mehr als 19 Jahre im thüringischen Kabinett. Mit diesem Wissen lässt sich auch der Plot gegen die Überlebenszeit (Abb. 7.15) interpretieren: Bis etwa 5 ½ Jahre (2000 Tage) überschätzt das Modell im Durchschnitt die Amtsdauer der Minister, danach unterschätzt es sie tendenziell.
4
4
predict dev, deviance scatter dev obs, mlabel(Nachname) lowess dev amtsdauer
−2
−2
deviance residual 0 2
deviance residual 0 2
Thoben Hombach Lieske Müller Biel Gysi Frigge Gramke Grotelüschen Sagurna RennerGloystein KrajewskiMappus Samland Gies Braun Rösler Marnette Sauter Bernhard Mintus Kupfer MeiserBrunner Fluß Waike Thomas Ohnewald Bülck Jung Krause Henne Hay Werwigk−Hertneck Schultz Hackel Huber Schill Ringstorff Vigener Kaiser Schöning Stölzl Diederich Brüggen Müller Lange Duchac Lengemann Born Groß Lüdemann Gomolka Hardraht Kolbe Meiser Rippel Stiewitt Böse Breuer Wutzke Mosiek−Urbahn Ludwig Scherer Peschel −Gutzeit Rühmkorf Kurth Werthebach Wagner Pfarr Horstmann Rehhahn Hoffmann −Riem Maurer Jelen Gabriel Eckhoff Schwanhold Körting Klein Volkholz Schreyer Nölle Müller Baaske Hoff Dammeyer Axthelm Meister Krautscheid Franzen Münterfering FritschNüssel Nimsch Tandler Gobrecht Horakova Rehm Müller Zumkley Deubel Pätzold Martiny Mitzscherling Riedmüller−Seel Pfarr Günther Gauweiler Weise Goetsch Hajduk Steffen Häußler Uhlmann Nagel Scharping Rott Kopp Rasch Gillo Mannsfeld Wittkevon derAustermann Leyen Birthler Fugmann −Heesing Branoner Richstein Pietzsch Sakuth Kaesler Köberle Winkler Spöri Fücks Welteke Perschau Gaertner Kahrs Weiß Galle Schneider Szymanski Fischer Helmrich Milde Lemke−Schulte Hecken von Boetticher Bührmann Herzog Jansen Schnoor Hauk Oettinger Steenblock Birk Weber Schelter Rüdiger Schönbohm Schaefer Wolf Engholm Froschmaier Dellmann Männle Goebel Leonhardt Nußbaum Buttolo Staiblin Jordan Mayer Birkmann Marquardt Borttscheller Goppel Münch Rehberger Schreiber Sobetzko Becker Fürniß Ziegler Dinges−Dierig Nagel Rohwer Köckert Kunick Peiner Weber Leeb Schöttler Fischer−Menzel Uhl Döring Ross−Luttmann Kusch Blaul Heydemann Repnik Müller Rhiel Banzer Palmer Freytag Peschel −Schultz−Hector Gutzeit Hahn Kuppe Reck Grobecker Stegner Pietzsch Gnauck Hackmann EggertSchucht Corts Krüger Swieter Glück Krapp Schipanski Schliemann Fugmann Hübner Flierl Goll −Heesing Schnieber−Jastram Uldall Hohlmeier Kuessner Spoerhase Görner −Eisel Berghofer −Riebel Weichner Jeziorsky Hirche Hansen Trauernicht Wienholtz Peter Metelmann Ehlen Stratmann Gedaschko Heinemann Limbach Steinbrück Behler Krupp de Haas Kauffold Bunge Wulff Woidke Zeh Jentsch Orosz Hattig Stewens Sinner Peter Hirche Meyer Geil Schulte Schuchardt Walter Hoffmann Schreier Goppel Stamm Hiller Kniola Hajen Vahrenholt von Welck Böhrk Schubert Döring Freiherr von Waldenfels Dräger Mackenroth Kühbacher Funke Granz Simon Wagner Eggert Bull Wrocklage von Beust Althaus Buß Luther Heckelmann Roloff−Momin Hassemer Haase Erhardt Birthler Wolff Dreher Schnappauf Heister−Neumann Lautenschläger Schaufler Röpke Voscherau Hardraht Glogowski Diezel Stratthaus Meisner Leinen Zimmermann Hohmann Dietzel −Dennhardt Wucherpfennig Wernstedt Griefahn Metz Möller Gasser Georgi Wernicke Brusis Klingner Tidick Miller Althaus Ridder−Melchers Mörsdorf Wischer Speer Schäfer Bocklet Milbradt de Maizière Schröder Kuhbier Lang Lemke Platzeck Erdsiek−Rave Zeh Timm Gerster Nassauer Wintermeyer Rhein Puttrich Vahldieck Stuth Schäfer Soltau Karan Kraft Löhrmann Walter−Borjans Jäger Schneider Kutschaty Schulze Schäfer Steffens Remmel Vetter Perschau Scholz Voigtsberger Schwall−Düren McAllister Nockemann Koch Weimar Radunski Klemann Wieland Freifrau von Friesen Lukowitz Schomburg Lieberknecht Nagel Wolff Böger Althusmann Kasper Wedemeier Jähnichen Goehler Bergner Kupfer Günthner Wanka Özkan Mappus Köberle Maas Langen Wiesen Sarrazin Götte Vogelsänger Schick Klimmt Ebnet Funke Toscani Kessler Peter Beckmeyer Schubert Bode Schlie de Rumpf Klug Jager Knake−Werner Lienenkämper Bischoff Hinz Schleußer Bergmann Faltlhauser Hartmann Weisweiler Schmalfuß Garg Heitmann Schlee Schöneburg Baaske Taubert Matschie Carius Martini Bluhm Neumeyer Hill Pieroth Ringstorff Stock Ulbig Budde vonReinhart Trotha Clement Reiche Kühl Fischer Merk Markov Christoffers Tack Münch Kröning Poppenhäger Machnig Pape Rößler Aeikens Hahn Kühne−Hörmann Wiesheu Horrmann Kastendiek Morlok Martens von Schorlemer Vaatz Seehofer Zeil Heubisch Spaenle Fahrenschon Brunner Mittler Trauernicht Olbertz Moser Böck Diepgen Engler Jäger Mettbach Strieder Boddenberg Posch Henzler Späth Keller Beth Brüderle Huber Adolf Kuschke Gerhards Schäfer Horstmann Flath Haderthauer Nußbaum Wersich Breitenbach Knorre Pfeiffer Resch Wittling Wackernagel −Jacobs Rehaag Polzin Bräutigam Hildebrandt Wagner Söder Herrmann Gabriel Senff Momper Clauß Einert Schäuble Ahlhaus Matthiesen Mäurer Gundelach Kupfer Lafontaine Walsmann Lieberknecht Ziegler Zuber Schneider Schlotmann Schwesig Jochimsen Krumsiek Daehre Eyrich Schmidt Reichhardt Weimar Koch Trageser Gerhardt Remmers Jürgens Röwekamp Wagner Peschel Nümann−Seidewinkel Porschke − Gutzeit Birzele Schäfer Unger−Soyka Wernicke Bohn Kraft Teufel Linnert Jürgens−Pieper Loske Jäger van Trüpel Rosenkötter Nispen Roth Bartling Bartels Unland Beermann Caesar Bökel Hering Bamberger Curilla von Rahlfs Münch Rauls Rittershaus Aller Jürgens−Pieper Jüttner Heidecke Schartau Wallmann Kanther Wagner Hirche Posch Sager M aier Schoppe Trittin Stange Solinger Böhmer Frick Starzacher Stolterfoht Schwier Seidel Meyer Uhlenberg Raab Rüttgers Pinkwart Laschet Laumann Linssen Müller−Piepenkötter Sommer Thoben Enderlein Milbradt Müller Böhrnsen Rau Klemm Beckstein Wöller Harms von Plottnitz Fickel Lompscher Schneider Lehment Gollert Carstensen Wiegard Seidel Tesch Bruch Dieckmann Rauber Remmers Stolz Oppermann Hövelmann Bullerjahn Kolb Haseloff Brunn Schuster Schuchardt Pfister Rech Goll Gönner Palm Jurk Stahmer Schavan Wolf Paqué Rehberger Kley Zehetmair Lütkes Fischer Vogel Linke Gerhards Keller Sieckmann Zöllner von der Aue Bauckhage Grüttner Caffier Kuder Mayer−Vorfelder Schünemann Möllring Busemann Sander Remmers Eichel Holzapfel Dewes Kretschmer Ellenberger Franke Biedenkopf Meyer Geisler Schommer Trautvetter Dreyer Steinbrück Mertin Stolpe Merk Cassens Weiser ConradKramp−Karrenbauer Blechinger Stächele Ahnen Ziel Vesper Mirow Schnoor Geil Reinholz Stoiber Püchel Keler Rupprecht Kleedehn Brick Methling Holter Müller Jacoby Höppner Simonis Seite Platzeck Daehre Junge−Reyer Frankenberg Ritz Zöllner Krajewski Junghanns Streibl Höhn Wowereit Körting Bouffier Müller Weiss Behrens Kuppe Heyer Schönbohm Wolf Robra TillichBöhmer Wanka Scherf Gölter Läpple Breuel Schnipkoweit Sellering Beck Runde Rau Wagner Albrecht Walter Backhaus Sklenar 0
0
Abb. 7.15:
200
400 id_1
600
2000
800
4000 6000 amtsdauer
bandwidth = .8
Plots von Deviance-Residuen gegen Observationsnummer (links) und Amtsdauer
8000
10000
206
7 Survival-Analysen
Score-Residuen Mit der letzten hier zu besprechenden Residuenart kann überprüft werden, ob einzelne Observationen einen übermäßig starken Einfluss auf die Schätzwerte ausüben und damit das gesamte Modell verzerren. Dies ist wichtig, da auf diese Weise auch etwaige Mess- oder Kodierfehler aufgedeckt werden können. Eine Alternative zu der für solche Fragestellungen oftmals angewendeten Jackknife-Methode (Shikano 2006: 73–78) bieten im Cox-Modell die kovariablenspezifischen Score-Residuen (Box-Steffensmeier/Jones 2004: 123). Nach Therneau und Grambsch (2000: 153–159) sind diese in Verbindung mit der Varianz-Kovarianz-Matrix der Parameterschätzer gut in der Lage, den iterativen Prozess des Jackknife zu approximieren. Mit Hilfe der Score-Residuen ist es damit möglich, diejenige skalierte Veränderung eines BetaKoeffizienten grafisch sichtbar zu machen, die sich ergäbe, wenn eine der Observationen, sagen wir i, nicht mit geschätzt würde. In dieser Hinsicht können die Score-Residuen als funktionales Äquivalent zu den dfbetas der linearen Einfachregression verstanden werden, da auch sie den Einfluss der i-ten Beobachtung auf die j-te Kovariable angeben (vgl. Kapitel 2.5.5). In Analogie zur Behandlung der dfbetas kann bei Cox-Modellen durch Multiplikation der beiden Matrizen (Score-Residuen-Matrix und Varianz-Kovarianz-Matrix der Beta-Schätzer) eine „Einfluss-Matrix“ der Form × (n = Fall; m = Kovariable) berechnet werden, in der jede einzelne Zelle mit der skalierten Veränderung der Parameterschätzer für die i-te Beobachtung besetzt ist (Box-Steffensmeier/Jones 2004: 128). Dieser Einfluss kann dann in Stata für jede UV separat, beispielsweise gegen die Observationsnummern grafisch dargestellt werden (s. DoFile). Alternativ kann zur Identifikation von besonders stark beeinflussenden Observationen auch auf Boxplots zurückgegriffen werden (vgl. Abb. 7.16):
−.03
−.02
score residual −.01 0
.01
.02
stcox ostdeu regional_verwurzelt, exactm esr(esr*) set matsize 1000 mkmat esr1 esr2, matrix(esr) mat V = e(V) mat Influence = esr*V svmat Influence, names(s) label var s1 "ostdeu" label var s2 "regional_verwurzelt" graph box s1 s2, marker(1,mlab(Nachname)) marker(2,mlab(Nachname))
Albrecht Schnoor
Wowereit Rau Tillich Trautvetter
Ziel Sellering Tillich Backhaus
Sklenar
ostdeu
Abb. 7.16:
Sklenar Albrecht Runde Zöllner Backhaus
regional_verwurzelt
Boxplots der Score Residuen
7.4 Das semi-parametrische Cox-Modell
207
Die stärkste Verzerrung generiert erneut Volker Sklenar. Entfernt man diesen aus dem Datensatz würde sich hierdurch der Koeffizient für ostdeu um 0,03 erhöhen. Umgerechnet bedeutet dies eine Steigerung der Hazard-Ratio von 1,58 (vgl. Output 7.7) auf 1,63. Bei regional_verwurzelt fällt der Einfluss einzelner Observationen noch geringer aus. Auch wenn in diesem Fall also die Verzerrungen durch Einzelfälle keinen Anlass zur Sorge geben, schadet ein genauerer Blick auf die Score-Residuen grundsätzlich nicht. Problematisch an ihnen ist zwar, dass sich ihre Interpretation aufgrund von Interkorrelationen zwischen den UV zum Teil etwas problematisch gestalten kann. Wendet man sie jedoch gemeinsam mit den anderen hier präsentierten Residuentests an, stellen sie eine gute Möglichkeit dar, um Fehlspezifikationen des Modells oder etwaige Mess- oder Kodierfehler zu identifizieren.
7.4.9
Sich über die Zeit verändernde UV
Die bisher behandelten Modelle haben allesamt eine Gemeinsamkeit: sämtliche UV wurden als über die Zeit konstant angenommen. Survivalanalysen bieten jedoch auch die Möglichkeit, auf relativ einfache Art Variablen in das Modell zu inkludieren, die sich während der Observationsdauer verändern. Dies gilt sowohl für solche Variablen, die einer kontinuierlichen Veränderung unterliegen (z. B. die Dauer der Parteimitgliedschaft) wie auch für Variablen, die nur zu diskreten Zeitpunkten ihre Werte ändern (z. B. die jeweils für ein Quartal angegebene Arbeitslosenquote). Um solche zeitveränderlichen Variablen in einem Survivalmodell zu testen, muss die Struktur des Datensatzes modifiziert werden. Für jeden Zeitpunkt, zu dem eine zeitvariante Variable einen anderen Wert annehmen könnte, wird nun eine eigene Zeile generiert. Am einfachsten gelingt dies mit Hilfe des expand-Befehls. Dieser dupliziert jede Zeile so häufig, wie es die in Klammern dahinter angegebene Variable (hier z. B. amtsdauer) vorgibt. Für jeden Tag der Amtsdauer würde auf diese Weise eine extra Zeile generiert werden.47 Wichtig ist an dieser Stelle, dass jeder Fall eine eigene id-Variable besitzt. Innerhalb dieser kann dann eine neue Amtsdauer-Variable (amtsdauer_tv) generiert werden, die in der ersten Zeile eines Falles den Wert eins in der zweiten den Wert zwei etc. annimmt, bis sie in der letzten Zeile den Wert der vorherigen Amtsdauer-Variable aufweist. Daneben muss auch eine neue EndereignisVariable (endereignis_tv) erzeugt werden, welche nur in der letzten Zeile eines jeden Falles die Ausprägung der ursprünglichen Endereignis-Variable annimmt und ansonsten stets null ist. Die sich kontinuierlich verändernde Variable parteimitgliedschaft_tv setzt sich zusammen aus der Parteimitgliedschaft zu Beginn der Amtsperiode und der kontinuierlichen Amtsdauer-Variable. Für stset werden dann die neu generierten Variablen verwendet. Die eigentliche Schätzung unterscheidet sich nicht von den Modellen ohne zeitvariate UV. Lässt man die Parteimitgliedschaft außen vor, sollte sich exakt dasselbe Ergebnis einstellen wie in Output 7.8.
47
Da der Datensatz so sehr schnell riesige Ausmaße annimmt, ist es hier oftmals notwendig den internen Speicher mit set memory zu vergrößern (z. B. auf 700m). Dies geht allerdings nur ohne geladenen Datensatz.
208
7 Survival-Analysen
expand amtsdauer sort id_1 quietly by id_1: gen amtsdauer_tv = _n gen endereignis_tv = 0 quietly by id_1: replace endereignis_tv = endereignis if _n ==_N gen parteimitgliedschaft_tv = (parteimitgliedschaft_anfang + > amtsdauer_tv)/365 stset amtsdauer_tv, failure(endereignis_tv==1) scale(365) id(id_1) stcox ostdeu regional_verwurzelt parteimitgliedschaft_tv, exactm
Mit der neuen Variable parteimitgliedschaft_tv stellt sich das Modell wie in Output 7.12 dar. An der Interpretation der Hazard-Ratios ändert sich auch bei sich über die Zeit verändernden UV nichts: Die Dauer der Parteimitgliedschaft hat einen schwach negativen Effekt auf die Amtsdauer, was aufgrund der sicherlich relativ starken Interkorrelation mit dem Alter der Person erklärt werden kann. Output 7.12: Cox-Modell mit zeitvariater Variable No. of subjects = No. of failures = Time at risk = Log likelihood
=
734 424 3812.909589 -2210.8066
Number of obs
=
1391712
LR chi2(3) Prob > chi2
= =
46.41 0.0000
-----------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------ostdeu | 1.707772 .1846736 4.95 0.000 1.381603 2.110942 regional_v~t | .6822536 .0696098 -3.75 0.000 .5585967 .8332843 parteimitg~v | 1.015211 .0053967 2.84 0.005 1.004688 1.025844 ------------------------------------------------------------------------------
Möchte man Variablen testen, die nur zu diskreten Zeitpunkten Änderungen erfahren, beispielsweise in unserem Fall die wirtschaftliche Lage gemessen über Arbeitslosenquote und Inflation oder auch die relative Stärke der Partei des Ministers im Parlament (die sich bei Wahlen ändern kann, während der Minister weiterhin im Amt bleibt), so ist die Generierung des Datensatzes aufwendiger, das Vorgehen bei der Analyse bleibt indes gleich.
7.5 Schrittweises Vorgehen
7.5
209
Schrittweises Vorgehen
1.
Daten mit stset als Survival-Daten kennzeichnen und auf etwaige Fehler überprüfen (stset-Output, stdescribe).
2.
Auswahl des Analyseverfahrens: a)
nicht-parametrisch: für erste Einblicke in die Daten und Gruppenvergleiche;
b) parametrisch: wenn v. a. Interesse an Form der zeitlichen Abhängigkeit besteht und diese theoretisch gut hergeleitet werden kann; c)
semi-parametrisch (Cox-Modell): wenn keine exakte funktionale Form der Zeitabhängigkeit theoretisch postuliert werden kann und die Analyse stärker auf die Effekte der UV abzielt.
3.
Modellaufbau: sich über die Zeit verändernde UV, Competing-Risks, repeating events, stratifizierte Modelle, bei Bedarf: Schätzung der Baseline-Hazard-Rate.
4.
Modellcheck: a)
Test der Proportional-Hazard-Annahme: Bei Problem stratifizieren oder Interaktionsterm mit der Zeit.
b) Residuendiagnostik (Martingale, Deviance-, und Score-Residuen). c)
Harrell’s C oder Cox-Snell-Plots für den Model-Fit.
Literatur Achen, Christopher (2001): Why Lagged Dependent Variables Can Suppress the Explanatory Power of Other Independent Variables, Annual Meeting of Political Methodology. Los Angeles. Agadjanian, Victor/Makarova, Ekaterina (2003) From Soviet Modernization to Post-Soviet Transformation: Understanding Marriage and Fertility Dynamics in Uzbekistan, in: Development and Change 34 (3): 447–473. Allan, James P./Scruggs, Lyle (2004) Political Partisanship and Welfare State Reform in Advanced Industrial Societies, in: American Journal of Political Science 48 (3): 496–512. Allison, Paul D. (1990) Change Scores as Dependent Variables in Regression Analysis, in: Sociological Methodology 20: 93–114. Allison, Paul D. (2009) Fixed Effects Regression Models. Thousand Oaks: Sage. Alt, James/King, Gary (1994) Transfers of Governmental Power: The Meaning of Time Dependence, in: Comparative Political Studies 27 (2): 190–210. Andreß, Hans-Jürgen/Golsch, Katrin/Schmidt, Alexander W. (2013) Applied Panel Data Analysis for Economic and Social Surveys. Heidelberg: Springer. Backhaus, Klaus/Erichson, Bernd/Plinke, Wulff/Weiber, Rolf (2008) Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 12., vollständig überarbeitete Auflage. Berlin: Springer. Backhaus, Klaus/Erichson, Bernd/Weiber, Rolf (2013) Fortgeschrittene Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 2., überarbeitete und erweiterte Auflage. Berlin: Springer. Baltagi, Badi H. (2008) Econometric Analysis of Panel Data. Chichester: John Wiley & Sons. Beck, Nathaniel (2001) Time-Series-Cross-Section Data: What Have We Learned in the Past Few Years?, in: Annual Review of Political Science 2001 (4): 271–293. Beck, Nathaniel (2011) Of Fixed-Effects and Time-Invariant Variables, in: Political Analysis 19 (2): 119–122. Beck, Nathaniel/Katz, Jonathan (1995) What to Do (and Not to Do) with Time-Series Cross-Section Data, in: American Political Science Review 89 (3): 634–647. Beck, Nathaniel/Katz, Jonathan (2001) Throwing Out the Baby with the Bath Water: A Comment on Green, Kim, and Yoon, in: International Organization 55 (2): 487–495. Beck, Nathaniel/Katz, Jonathan (2007) Random Coefficients Models for Time-Series-Cross-Section Data: Monte Carlo Experiments, in: Political Analysis 15 (2): 182–195. Beck, Nathaniel/Katz, Jonathan (2011) Modeling Dynamics in Time-Series-Cross-Secion Political Economy Data, in: Annual Review of Political Science 14: 331–352. Beck, Nathaniel/Katz, Jonathan/Tucker, Richard (1998) Taking Time Seriously: Time-Series-CrossSection Analysis with a Binary Dependent Variable, in: American Journal of Political Science 42 (4): 1260–1288. Behnke, Joachim (2005) Lassen sich Signifikanztests auf Vollerhebungen anwenden? Einige essayistische Anmerkungen, in: Politische Vierteljahresschrift 46 (1): O-1–O-15. Bennett, D. Scott (1999) Parametric Models, Duration Dependence, and Time-Varying Data Revisited, in: American Journal of Political Science 43 (1): 256–270. Bennett, D. Scott/Stam, Allan C., III (1996) The Duration of Interstate Wars. 1816–1985, in: The American Political Science Review 90 (2): 239–257. Bennett, D. Scott/Stam, Allan C., III (1998) The Declining Advantages of Democracy. A Combined Model of War Outcomes and Duration, in: Journal of Conflict Resolution 42 (3): 344–366.
212
Literatur
Berk, Richard (2004) Regression Analysis: A Constructive Critique. Thousand Oaks: Sage. Berk, Richard (2010) What You Can and Can’t Properly Do with Regression, in: Journal of Quantitative Criminology 26: 481–487. Bickel, Robert (2007) Multilevel Analysis for Applied Research – It’s Just Regression! New York: The Guilford Press. Blossfeld, Hans-Peter (Hrsg.) (1995) The New Role of Women. Family Formation in Modern Societies. Boulder: Westview Press. Blossfeld, Hans-Peter/Golsch, Katrin/Rohwer, Götz (2007) Event History Analysis with Stata. Mahwah: Lawrence Erlbaum Associates. Blossfeld, Hans-Peter/Hamerle, Alfred/Mayer, Karl Ulrich (1986) Ereignisanalyse. Frankfurt: Campus. Bortz, Jürgen/Schuster, Christof (2010) Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer. Box-Steffensmeier, Janet M./Jones, Bradford S. (1997) Time Is of the Essence. Event History Models in Political Science, in: American Journal of Political Science 41 (4): 1414–1461. Box-Steffensmeier, Janet M./Jones, Bradford S. (2004) Event History Modeling. Cambridge: Cambridge University Press. Box-Steffensmeier, Janet M./Reiter, Dan/Zorn, Christopher (2003) Nonproportional Hazards and Event History Analysis in International Relations, in: Journal of Conflict Resolution 47 (1): 33–53. Box-Steffensmeier, Janet M./Sokhey, Anand E. (2009) Event History Methods, in: Leicht, Kevin T./Jenkins, J. Craig (Hrsg.): Handbook of Politics. State and Society in Global Perspective. New York: Springer, 605–618. Box-Steffensmeier, Janet M./Zorn, Christopher J. W. (2001) Duration Models and Proportional Hazards in Political Science in: American Journal of Political Science 45 (4): 972–988. Brambor, Thomas/Clark, William Roberts/Golder, Matt (2006) Understanding Interaction Models: Improving Empirical Analysis, in: Political Analysis 14 (1): 63–82. Braun, Daniela/Seher, Nicole/Tausendpfund, Markus/Wolsing, Ansgar (2010): Einstellungen gegenüber Immigranten und die Zustimmung zur Europäischen Integration – eine Mehrebenenanalyse, Working Paper Mannheim, Mannheimer Zentrum für Europäische Sozialforschung. http://www.mzes.uni-mannheim.de/publications/wp/wp-136.pdf (03.01.2011). Breusch, Trevor/Ward, Michael B./Nguyen, Hoa Thi Minh/Kompas, Tom (2011) On the Fixed-Effects Vector Decomposition, in: Political Analysis 19 (2): 123–134. Browne, William J./Draper, David (2000) Implementation and Performance Issues in the Bayesian and Likelihood Fitting of Multilevel Models, in: Computational Statistics 15 (3): 391–420. Brüderl, Josef (1991a): Bell-Shaped Duration Dependence in Social Processes. A Generalized LogLogistic Rate Model, mimeo. Bern, University of Bern. Brüderl, Josef (1991b) Mobilitätsprozesse in Betrieben. Dynamische Modelle und Empirische Befunde. Frankfurt am Main Campus-Verlag. Broscheid, Andreas/Gschwend, Thomas (2005) Zur statistischen Analyse von Vollerhebungen, in: Politische Vierteljahresschrift 46 (1): O-16–O-26. Bueno de Mesquita, Bruce/Siverson, Randolph M. (1995) War and the Survival of Political Leaders: A Comparative Study of Regime Types and Political Accountability, in: American Political Science review 89: 841–855. Busemeyer, Marius R. (2009) From myth to reality: Globalisation and public spending in OECD countries revisited, in: European Journal of Political Research 48 (4): 455–482. Caballero, Claudio (2005) Nichtwahl, in: Falter, Jürgen/Schoen, Harald (Hrsg.): Handbuch Wahlforschung. Wiesbaden: VS Verlag, 329–365. Cameron, Colin A./Trivedi, Pravin K. (2010) Microeconomics using Stata. College Station: Stata Press. Carroll, Glenn R./Hannan, Michael T. (2000) The Demography of Corporations and Industries. Princeton: Princeton University Press. Carter, David/Signorino, Curtis (2007) Back to the Future: Modeling Time Dependence in Binary Data, Working Paper 1. November 2007. University of Rochester.
Literatur
213
Cleveland, William S. (1979) Robust Locally Weighted Regression and Smoothing Scatterplots, in: Journal of the American Statistical Association 74 (368): 829–836. Cleveland, William S. (1994) The Elements of Graphing Data. Summit: Hobart Press. Cleveland, William S./Loader, Clive L. (1996) Smoothing by Local Regression. Principles and Methods, in: Härdle Wolfgang/Schimek, Michael G. (Hrsg.): Statistical Theory and Computational Aspects of Smoothing. Heidelberg: Physica Verlag, 10–49. Cleves, Mario Alberto/Gutierrez, Roberto G./Gould, William/Marchenko, Yulia V. (2010) An introduction to survival analysis using Stata. College Station, Tex.: Stata-Press. Cohen, Jacob/Cohen, Patricia/West, Stephen/Aiken, Leona (2003) Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. 3. Auflage. Mahwah: Lawrence Erlbaum Associates, Inc. Coleman, James Samuel (1981) Longitudinal Data Analysis. New York: Basic Books. Collett, David (1995) Modelling Survival Data in Medical Research. London: Chapman & Hall. Collett, David (2003) Modelling Survival Data in Medical Research. Boca Raton: Chapman & Hall/CRC. Cox, David R. (1972) Regression Models and Life-Tables, in: Journal of the Royal Statistical Society. Series B (Methodological) 34 (2): 187–220. Cox, David R. (1975) Partial Likelihood, in: Biometrika 62 (2): 269–276. Cox, David R./Oakes, David. (1984) Analysis of Survival Data. London: Chapman & Hall. Cox, David R./Snell, E. Joyce (1968) A General Definition of Residuals, in: Journal of the Royal Statistical Society. Series B (Methodological) 30 (2): 248–275. De Boef, Suzanna/Keele, Luke (2008) Taking Time Seriously, in: American Journal of Political Science 52 (1): 184–200. Derosas, Renzo (2003) Watch Out for the Children! Differential Infant Mortality of Jews and Catholics in Nineteenth-Century Venice, in: Historical Methods 36 (3): 109–130. Diekmann, Andreas (1989) Diffusion and Survival Models for the Process of Entry into Marriage, in: Journal of Mathematical Sociology 14 (1): 31–41. Diekmann , Andreas (2007) Empirische Sozialforschung. Grundlagen – Methoden – Anwendungen.. Reinbek bei Hamburg: Rowohlt. Diermeier, Daniel/Stevenson, Randolph T. (2000) Cabinet Terminations and Critical Events, in: The American Political Science Review 94 (3): 627–640. Dowding, Keith/Dumont, Patrick (Hrsg.) (2009) The Selection of Ministers in Europe. Hiring and Firing. London: Routledge. Ebeling, Charles E. (2005) An Introduction to Reliability and Maintainability Engineering. Long Grove: Waveland Press. Efron, Bradley (1977) The Efficiency of Cox’s Likelihood Function for Censored Data, in: Journal of the American Statistical Association 72 (359): 557–565. Elandt-Johnson, Regina C./Johnson, Norman L. (1980) Survival Models and Data Analysis. New York: Wiley. Faas, Thorsten (2013) Wahlbeteiligung, in: van Deth, Jan W./Tausendpfund, Markus (Hrsg.): Politik im Kontext: Individuelle und kontextuelle Determinanten politischer Orientierungen. Wiesbaden: Springer VS, 413–440. Fahrmeir, Ludwig/Künstler, Rita/Pigeot, Iris/Tutz, Gerhard (2007) Statistik: Der Weg zur Datenanalyse. 6., überarbeitete Auflage. Berlin: Springer-Verlag. Ferris, J. Stephen/Voia, Marcel-Cristian (2009) What Determines the Length of a Typical Canadian Parliamentary Government?, in: Canadian Journal of Political Science 42 (4): 881–910. Fox, John (1991): Regression diagnostics. Newbury Park: Sage. Franzese, Robert J./Hays, Jude C. (2007) Spatial Econometric Models of Cross-Sectional Interdependence in Political Science Panel and Time-Series-Cross-Section Data, in: Political Analysis 15 (2): 140–164.
214
Literatur
Franzese, Robert J./Hays, Jude C. (2008) Empirical Models of Spatial Interdependence, in: BoxSteffensmeier, Janet M./Brady, Henry E./Collier, David (Hrsg.): The Oxford Handbook of Political Methodology. Oxford: Oxford University Press. Ganghof, Steffen (2005) Kausale Perspektiven in der vergleichenden Politikwissenschaft: X-zentrierte und Y-zentrierte Forschungsdesigns, in: Kropp, Sabine/Minkenberg, Michael (Hrsg.): Vergleichen in der Politikwissenschaft. Wiesbaden: Verlag für Sozialwissenschaften, 67–93. Garczorz, Ingo (2004) Adoption von Online-Banking-Services. Wiesbaden: Deutscher UniversitätsVerlag. Giesselmann, Marco/Windzio, Michael (2012) Regressionsmodelle zur Analyse von Paneldaten. Springer VS: Wiesbaden. Green, Donald/Kim, Soo Yeon/Yoon, David (2001) Dirty Pool, in: International Organization 55 (2): 441–468. Goldstein, Harvey (2011) Multilevel Statistical Models. Chichester: Wiley. Golub, Jonathan (2008) Survival Analysis, in: Box-Steffensmeier, J. M./Brady, Henry E./Collier, David (Hrsg.): The Oxford Handbook of Political Methodology. Oxford: Oxford University Press, 530–546. Grambsch, Patricia M./Therneau, Terry M. (1994) Proportional Hazards Tests and Diagnostics Based on Weighted Residuals, in: Biometrika 81 (3): 515–526. Greene, William (2011) Fixed Effects Vector Decomposition: A Magical Solution to the Problem of Time Invariant Variables in Fixed Effects Models?, in: Political Analysis 19 (2): 135–146. Green-Pedersen, Christoffer (2002) The Politics of Justification: Party Competition and Welfare-State Retrenchment in Denmark and the Netherlands from 1982 to 1998. Amsterdam: Amsterdam University Press. Hadler, Markus (2004) Die Mehrebenen-Analyse. Ihre praktische Anwendung und theoretische Annahmen, in: Österreichische Zeitschrift für Soziologie 29 (1): 53–74. Hamaker, Ellen L./Klugkist, Irene (2011) Bayesian Estimation of Multilevel Models, in: Hox, Joop J./Roberts, J. Kyle (Hrsg.): Handbook of Advanced Multilevel Analysis. New York: Taylor and Francis, 137–162. Härdle, Wolfgang/Schimek, Michael G. (Hrsg.) (1996) Statistical Theory and Computational Aspects of Smoothing. Heidelberg: Physica-Verlag. Harrell, Frank E., Jr/Califf, Robert M./Pryor, David B./Lee, Kerry L./Rosati, Robert A. (1982) Evaluating the Yield of Medical Tests, in: Journal of the American Medical Association 247 (18): 2543– 2546. Hernes, Gudmund (1972) The Process of Entry into First Marriage, in: American Sociological Review 37 (2): 173–182. Hosmer, David W./Lemeshow, Stanley (2008) Applied Survival Analysis. Hoboken: Wiley. Hosmer, David/Lemeshow, Stanley (2000) Applied Logistic Regression. New York: Wiley. Hox, Joop J. (2010) Multilevel analysis: techniques and applications. New York: Routledge. Hu, Bo/Shao, Jun/Palta, Mari (2006) Pseudo-R2 in Logistic Regression Model, in: Statistica Sinica 16: 847–860. Huber, Evelyne/Ragin, Charles/Stephens, John D./Brady, David/Beckfield, Jason (2004): Comparative Welfare States Data Set. Northwestern University, University of North Carolina, Duke University and Indiana University. Huber, Evelyne/Stephens, John D. (2001) Development and Crisis of the Welfare State. Chicago/London: Chicago University Press. Iversen, Torben/Cusack, Thomas R. (2000) The Causes of Welfare State Expansion: Deindustrialization or Globalization?, in: World Politics 52 (3): 313–349. Jäckle, Sebastian (2011) Determinanten der Regierungsbeständigkeit in parlamentarischen Systemen. Berlin: LIT. Jäckle, Sebastian (2012) A New Measure of Political Stability – Portfolio Duration in the German Länder and its Determinants (1990–2010), in: Zeitschrift für Staats- und Europawissenschaften 10 (3): 338–360.
Literatur
215
Jäckle, Sebastian (2013) Ministerial turnover in the German Länder (1991–2010), in: Zeitschrift für Vergleichende Politikwissenschaft 7 (1): 27–48. Jäckle, Sebastian/Bauschke, Rafael (2012) Comparing socialization, cultural and individual level effects on attitudes towards nuclear energy – A multilevel analysis of 27 European countries, in: Politics, Culture and Socialization 2 (4): 341–366. Jahn, Detlef (2006) Globalization as ‘Galton’s Problem’: The Missing Link in the Analysis of Diffusion Patterns in Welfare State Development, in: International Organization 60 (2): 401–431. Kalbfleisch, John D./Prentice, Ross L. (1980) The Statistical Analysis of Failure Time Data. New York: Wiley. Kalbfleisch, John D./Prentice, Ross L. (2002) The Statistical Analysis of Failure Time Data. Hoboken: Wiley-Interscience. Kam, Cindy D./Franzese, Robert J. (2007) Modeling and interpreting interactive hypotheses in regression analysis. Ann Arbour: University of Michigan Press. Kaplan, Edward L./Meier, Paul (1958) Nonparametric Estimation from Incomplete Observations, in: Journal of the American Statistical Association 53 (282): 457–481. Kapur, Kailash C./Lamberson, Leonard R. (1977) Reliability in Engineering Design. New York: Wiley. Keele, Luke/Kelly, Nathan J. (2006) Dynamic Models for Dynamic Theories: The Ins and Outs of Lagged Dependent Variables, in: Political Analysis 14 (2): 186–205. Kertzer, David I. (1994) Review on Courgeau, Daniel/Lelièvre, Éva: Event History Analysis in Demography, in: American Historical Review 99 (4): 1289–1290. King, Gary/Alt, James E./Burns, Nancy E./Laver, Michael (1990) A Unified Model of Cabinet Dissolution in Parliamentary Democracies, in: American Journal of Political Science 34 (3): 846–871. King, Gary/Keohane, Robert/Verba, Sidney (1994) Designing Social Inquiry. Scientific Inference in Qualitative Research. Princeton: Princeton University Press. King, Gary/Zeng, Langche (2001a) Explaining Rare Events in International Relations, in: International Organization 55 (3): 693–715. King, Gary/Zeng, Langche (2001b) Logistic Regression in Rare Events Data, in: Political Analysis 9 (2): 137–163. Kitschelt, Herbert (2001) Partisan Competition and Welfare State Retrenchment: When Do Politicians Choose Unpopular Policies? , in: Pierson, Paul (Hrsg.): The New Politics of the Welfare State. Oxford/New York: Oxford University Press, 265–302. Kittel, Bernhard (2005) Pooled Analysis in der ländervergleichenden Forschung: Probleme und Potenziale, in: Kropp, Sabine / Minkenberg, Michael (Hrsg.): Vergleichen in der Politikwissenschaft. Wiesbaden: Verlag für Sozialwissenschaften, 96–115. Kittel, Bernhard (2006) A Crazy Methodology? On the Limits of Macro-Quantitative Social Science Research, in: International Sociology 21 (5): 647–677. Kittel, Bernhard/Winner, Hannes (2005) How Reliable is Pooled Analysis in Political Economy? The Globalization-Welfare State Nexus Revisited, in: European Journal of Political Research 44 (1): 269–293. Klein, John P./Moeschberger, Melvin L. (2003) Survival Analysis. Techniques for Censored and Truncated Data. New York: Springer. Kleinbaum, David/Kupper, Lawrence/Nizam, Azhar/Muller, Keith (2008) Applied Regression Analysis and Other Multivariable Methods. 4. Auflage. Belmong: Thompson. Kohler, Ulrich/Kreuter, Frauke (2008) Datenanalyse mit Stata. München: Oldenbourg. Kreft, Ita G. G./de Leeuw, Jan/Aiken, Leona S. (1995) The Effect of Different Forms of Centering in Hierarchical Linear Models, in: Multivariate Behavioral Research 30 (1): 1–21. Kuhn, Andreas/Ruf, Oliver (2006) Einführung in die Statistiksoftware Stata, Working Paper 277, Institute for Empirical Research in Economics, University of Zurich. Kühnel, Stefan-M./Krebs, Dagmar (2007) Statistik für die Sozialwissenschaften. Reinbek: Rowohlt. Lawless, Jerald F. (1982) Statistical Models and Methods for Lifetime Data. New York: Wiley.
216
Literatur
Long, J. Scott (1997) Regression models for categorical and limited dependent variables. Thousand Oaks: Sage. Long, J.Scott/Freese, Jeremy (2006) Regression Models for Categorical Dependent Variables Using Stata. College Station, Tex.: Stata Press. Longford, N. T. (1989) Contextual Effects and Group Means, in: Multilevel Modelling Newsletter 1 (3). Luke, Douglas A. (2004) Multilevel Modeling. SAGE Publications. Lupia, Arthur/Strom, Kaare (1995) Coalition Termination and the Strategic Timing of Parliamentary Elections, in: The American Political Science Review 89 (3): 648–665. Maas, Cora J. M./Hox, Joop J. (2004) Robustness issues in multilevel regression analysis, in: Statistica Neerlandica 58 (2): 127–137. Mandel, Micha (2007) Censoring and Truncation. Highlighting the Differences, in: The American Statistician 61: 321–324. Miller, M. Clinton/Westphal, Milton C./Reigart, John R. (1981) Mathematical Models in Medical Diagnosis. New York: Praeger. Mayntz, Renate/Scharpf, Fritz W. (1995) Der Ansatz des akteurszentrierten Institutionalismus, in: Mayntz, Renate/Scharpf, Fritz W. (Hrsg.): Gesellschaftliche Selbstregelung und politische Steuerung. Frankfurt/Main: Campus, 39–72. McLaren, Lauren (2007) Explaining Mass-Level Euroscepticism: Identity, Interests, and Institutional Distrust, in: Acta Politica 42: 233–251. Mills, Melinda (2011) Survival and Event History Analysis. Los Angeles: Sage. Musa, John D. (2004) Software Reliability Engineering. Bloomington: AuthorHouse. Neumayer, Eric/Plümper, Thomas (2010) Spatial Effects in Dyadic Data, in: International Organization 64 (1): 145–166. Oakes, David (1977) The Asymptotic Information in Censored Survival Data, in: Biometrika 64 (3): 441–448. O’Brien, Robert (2007) A Caution Regarding Rules of Thumb for Variance Inflation Factors, in: Quality & Quantity 41: 673–690. Ohr, Dieter (2010) Lineare Regression: Modellannahmen und Regressionsdiagnostik, in: Wolf, Christof/Best, Henning (Hrsg.): Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften: 639–675. Paccagnella, Omar (2006) Centering or Not Centering in Multilevel Models? The Role of the Group Mean and the Assessment of Group Effects, in: Evaluation Review 30 (1): 66–85. Peffley, Mark/Rohrschneider, Robert (2003) Democratization and Political Tolerance in Seventeen Countries: A Multi-level Model of Democratic Learning, in: Political Research Quarterly 56 (3): 243–257. Picot, Georg (2012) Politics of Segmentation: Party Competition and Social Protection in Europe. London/New York: Routledge. Plewis, I. (1989) Comment on “Centering” Predictors in Multilevel Analysis: Choices and Consequences, in: Multilevel Modelling Newsletter 1 (2): 10–12. Plümper, Thomas/Neumayer, Eric (2010) Model specification in the analysis of spatial dependence, in: European Journal of Political Research 49 (3): 418–442. Plümper, Thomas/Troeger, Vera (2007) Efficient Estimation of Time-Invariant and Rarely Changing Variables in Finite Sample Panel Analyses with Unit Fixed Effects, in: Political Analysis 15 (2): 124– 139. Plümper, Thomas/Troeger, Vera (2009) Fortschritte in der Paneldatenanalyse: Alternativen zum de facto Beck-Katz-Standard, in: Pickel, Susanne/Pickel, Gert/Lauth, Hans-Joachim/Jahn, Detlef (Hrsg.): Methoden der vergleichenden Politik- und Sozialwissenschaft. Neue Entwicklungen und Anwendungen Wiesbaden: VS Verlag, 263–276. Plümper, Thomas/Troeger, Vera (2011) Fixed Effects Vector Decomposition: Properties, Reliability, and Instruments, in: Political Analysis 19 (2): 147–164. Plümper, Thomas/Troeger, Vera/Manow, Philip (2005) Panel data analysis in comparative politics: Linking method to theory, in: European Journal of Political Research 44 (2): 327–354.
Literatur
217
Pötschke, Manuela (2006) Mehrebenenanalyse, in: Behnke, Joachim/Gschwend, Thomas/Schindler, Delia/Schnapp, Kai-Uwe (Hrsg.): Methoden der Politikwissenschaft. Neuere qualitative und quantitative Analyseverfahren. Baden-Baden: Nomos, 167–179. Preacher, Kristopher J./Curran, Patrick J./Bauer, Daniel J. (2006) Computational Tools for Probing Interactions in Multiple Linear Regression, Multilevel Modeling, and Latent Curve Analysis, in: Journal of Educational and Behavioral Statistics 31 (4): 437–448. Pregibon, Daryl (1980) Goodness of link tests for generalized linear models, in: Applied Statistics 29: 15–24. Prentice, Ross L./Farewell, Vern T. (1986) Relative Risk and Odds Ratio Regression, in: Annual Review of Public Health 7 (1): 35–58. Raftery, Adrian E. (1995) Bayesian Model Selection in Social Research, in: Sociological Methodology 25: 111–163. Raudenbush, S.W. (1989) “Centering” predictors in multilevel analysis: Choices and consequences, in: Multilevel Modelling Newsletter 1 (2): 10–12. Reimer, Kerstin/Barrot, Christian (2007) Hazard-Raten-Modelle, in: Albers, Sönke/Klapper, Daniel/Konradt, Udo/Walter, Achim/Wolf, Joachim (Hrsg.): Methodik der Empirischen Forschung. Wiesbaden: Gabler, 293–310. Robinson, Warren (1950) Ecological Correlations and the Behavior of Individuals, in: American Sociological Review 15 (3): 351–357. Rosar, Ulrich (2003) Die Einstellungen der Europäer zum Euro. Ein Anwendungsbeispiel der Mehrebenenanalyse als Instrument komparativer Umfrageforschung, in: Pickel, Susanne/Pickel, Gert/Lauth, Hans-Joachim/Jahn, Detlef (Hrsg.): Vergleichende politikwissenschaftliche Methoden: neue Entwicklungen und Diskussionen. Wiesbaden: Westdeutscher Verlag, 221–245. Saunders, Sam C. (2007) Reliability, Life Testing and the Prediction of Service Lives. New York: Springer. Scharpf, Fritz W. (1997) Games Real Actors Play. Actor-Centered Institutionalism in Policy Research. Boulder/Oxford: Westview. Schoen, Harald (2008) Identity, Instrumental Self-Interest, and Institutional Performance, in: European Union Politics 9 (1): 5–29. Schoenfeld, David (1982) Partial Residuals for The Proportional Hazards Regression Model, in: Biometrika 69 (1): 239–241. Schönherr, Maximilian (2007): Der Zufall des Sir David Cox – Ein Porträt des Meisters der Stochastik und seiner Wissenschaft (Rundfunkinterview mit Sir David Cox), Südwestrundfunk SWR2: Sendung: Montag, 15. Januar 2007, 8.30 Uhr. Scruggs, Lyle (2004): Welfare State Entitlements Data Set: A Comparative Institutional Analysis of Eighteen Welfare States. http://sp.uconn.edu/~scruggs/cwed/sumdatstata12.zip (3.5.2011). Scruggs, Lyle/Jahn, Detlef/Kuitto, Kati (2013): Comparative Welfare Entitlements Data Set 2, Version 2013. http://cwed2.org/ (8.5.2013). Shikano, Susumu (2006) Bootstrap und Jacknife, in: Behnke, Joachim/Gschwend, Thomas/Schindler, Delia/Schnapp, Kai-Uwe (Hrsg.): Methoden der Politikwissenschaft. Neuere Qualitative und Quantitative Analyseverfahren. Baden-Baden: Nomos, 69–79. Snijders, Tom (2005) Power and sample size in multilevel modeling, in: Everitt, B.S./Howell, D.C. (Hrsg.): Encyclopedia of Statistics in Behavioral Science. Chicester: Wiley, 1570–1573. Snijders, Tom/Bosker, Roel (1994) Modeled Variance in Two-Level Models, in: Sociological Methods & Research 22 (3): 342–363. Snijders, Tom/Bosker, Roel (1999) Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. London: Sage. Snijders, Tom/Bosker, Roel (2012) Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. London: Sage. Stadelmann-Steffen, Isabelle/Bühlmann, Marc (2008) Space and Time in Comparative Political Research, in: Methoden, Daten, Analysen 2 (1): 29–57.
218
Literatur
Stata (2007) Stata Release 10 – Survival Analysis and Epidemiological Tables. College Station: Stata Press. Stata (2009a) Longitudinal-Data/Panel-Data Reference Manual Release 11. College Station, Texas: Stata Press Publication. Stata (2009b) Stata release 11 – reference manual A–H. College Station, Tex.: Stata Press. Steele, Fiona (2009): Module 5: Introduction to Multilevel Modelling Concepts, Centre for Multilevel Modelling. http://www.cmm.bris.ac.uk/lemma/. Stegmueller, Daniel (2013) How Many Countries for Multilevel Modeling? A Comparison of Frequentist and Bayesian Approaches, in: American Journal of Political Science 57 (3): 748–761. Strang, David (1991) Global Patterns of Decolonization. 1500–1987, in: International Studies Quarterly 35 (4): 429–454. Swiss, Liam (2009) Decoupling Values from Action. An Event-History Analysis of the Election of Women to Parliament in the Developing World. 1945–1990, in: International Journal of Comparative Sociology 50 (1): 69–95. Taagepera, Rein (2008) Making Social Sciences More Scientific: The Need for Predictive Models. Oxford: Oxford University Press. Tacq, Jacques (1997) Multivariate Analysis Techniques in Social Science Research. London: Sage. Therneau, Terry M./Grambsch, Patricia M. (2000) Modeling Survival Data. Extending the Cox Model. New York: Springer. Tuma, Nancy B./Hannan, Michael T. (1984) Social Dynamics. Models and Methods. Orlando: Academic Press. Tiemann, Guido (2009) Zwei Verfahren zur Analyse heterogener Kausalität: Time-Series-CrossSection- und Mehrebenenmodelle, in: Pickel, Susanne/Pickel, Gert/Lauth, Hans-Joachim/Jahn, Detlef (Hrsg.): Methoden der vergleichenden Politik- und Sozialwissenschaft. Neue Entwicklungen und Anwendungen Wiesbaden: VS Verlag, 213–232. Urban, Dieter/Mayerl, Jochen (2011) Regressionsanalyse: Theorie, Technik und Anwendung. Wiesbaden: VS Verlag. Wagschal, Uwe (1999) Statistik für Politikwissenschaftler. München: Oldenbourg. Vermunt, Jeroen K. (1996) Log Linear Event History Analysis. Tilburg: Tilburg University Press. Vermunt, Jeroen K. (1997) Log-Linear Models for Event Histories. Thousand Oaks: Sage. Warwick, Paul V. (1994) Government Survival in Parliamentary Democracies. Cambridge: Cambridge University Press. Weins, Cornelia/Gehring, Uwe W. (2009) Grundkurs Statistik für Politologen und Soziologen. Wiesbaden: VS Verlag. Werner, Suzanne (1999) The Precarious Nature of Peace. Resolving the Issues, Enforcing the Settlement, and Renegotiating, in: American Journal of Political Science 43 (3): 912–934. Western, Bruce (1998) Causal Heterogeneity in Comparative Research: A Bayesian Hierarchical Modelling Approach, in: American Journal of Political Science 42 (4): 1233–1259. Wolf, Frieder (2006) Die Bildungsausgaben der Bundesländer im Vergleich. Münster: Lit Verlag. Wong, Wing Hung (1986) Theory of Partial Likelihood, in: The Annals of Statistics 14 (1): 88–123. Wooldridge, Jeffrey M. (2013) Introductory econometrics: a modern approach. Mason: South-Western Cengage Learning. Yamaguchi, Kazuo (1991) Event History Analysis. Newbury Park: Sage Publications. Ziegler, Andreas/Lange, Stefan/Bender, Ralf (2004) Überlebenszeitanalyse. Die Cox-Regression, in: Deutsche Medizinische Wochenschau 129: 1–3. Zohlnhöfer, Reimut/Wolf, Frieder/Wenzelburger, Georg (2012) Parteien und die Generosität der Altersrenten in Zeiten permanenter Austerität, in: Swiss Political Science Review 18 (1): 28–53. Zohlnhöfer, Reimut/Wolf, Frieder/Wenzelburger, Georg (2013): Political Parties and Pension Generosity in Times of Permanent Austerity, World Political Science Review 9 (1): 291–318. Zorn, Christopher J. W. (2000) Modeling Duration Dependence, in: Political Analysis 8 (4): 367–380.
Index A Accelerated-Failure-Time-Parametrisierung (AFT) 181, 184 ADL-Modell (autoregressive distributed lag) 134, 148 AIC (Akaike Informationskriterium) 72, 114– 15 Alpha-Fehler 26 Ausreißer 205 Autokorrelation (serielle) 126, 131, 133–36, 141, 142, 143–51 B Baseline-Hazard 179, 184, 185, 186, 199–202 Betas 15, 18, 21 Between-Schätzung 130 BIC (Bayes Informationskriterium) 72, 114– 15 bivariate Regression Siehe Regression BLUE (best linear unbiased estimator) 27, 32, 57 Breusch-Pagan-Cook-Weisberg-Test 30, 155 Breusch-Pagan-Lagrange-Multiplier-Test 138, 157 C Caterpillar-Plot 99 Ceteris-Paribus-Annahme 21 Chi-Quadrat-Verteilung 98 Cochrane-Orcutt-Verfahren 135 Competing-Risks 165, 197–99 contemporaneous correlation 137, 157 Cooks Distance 35–36, 86 Cox-Modell Siehe Survival-Modelle, semiparametrisch Cramérs V 67 Cross-Level-Interaktion 93, 101, 111–13 D Degress of freedom Siehe Freiheitsgrade De-meaning 124, 127–28 Devianz(test) Siehe Likelihood-Ratio-Test DFBETA 36–37, 206 DFITS Siehe Cooks Distance Diskriminanzanalyse 59, 64 Dummy-Variable 19 erstellen 19, 69
E einflussreiche Fälle (Identifikation) 206 Einflussreiche Fälle (Identifikation) 34–37 Eintrittswahrscheinlichkeit 59–60 erklärte Abweichung 16 Error-Correction-Modelle (ECM) 133 Event History Analyse (EHA) Siehe SurvivalModelle F Fanning-In/Fanning-Out 107–9 First-Difference-Schätzung 129, 130 Fixed Effects 124, 126–30 Fixed-Effects-Vector-Decomposition (FEVD) 129 Freiheitsgrade 8, 24, 64, 127 F-Test 126, 153 G Gauß-Markov-Annahmen 27 geschachtelte Modelle Siehe nested models Gewichtung 20 Grambsch-Therneau-Test 195–96 Grundgesamtheit (Verallgemeinerung auf) 23–27 Gruppenvergleich 57–58 H Harrell's C 202–3 Hausmann-Test 153 Hausman-Test 126 Hazard Rate 178 Hazard-Rate 166, 170 Hazard-Ratio 178, 190 Heterogenität der Dynamiken und Lagstrukturen 124, 131 der Einheiten 124–30, 151–55 der Steigungen/Parameter 124, 130–31 Heteroskedastizität 30–31, 57, 137, 155–57 Homoskedastizität Siehe Heteroskedastizität I IKK (Intraklassenkorrelationskoeffizient) 91– 97, 102 Im-Pesaran-Shin-Test (IPS) 142 Interaktion dichotome moderierende Variable 44–50 metrische moderierende Variable 50–53
220 Interaktionseffekt 40–43, 197 Intercept-Slope-Kovarianz 106–8 Irrtumswahrscheinlichkeit 26 J Jackknife 206 Jackknifing 159 K Kaplan-Meier-Schätzer 173–77, 179, 193 Kausalität 17 Konfidenzintervall 22, 26, 48–50, 101 Korrelation 8, 11–12 Korrelationsmatrix 12, 31, 87 Kovarianz 9–11 L LDV (lagged dependent variable) 135, 148 Level-1-Effekte 103–9 Level-2-Effekte 109–11 Leverage (Hebelwert) 87 Levin-Lin-Chu-Test (LLC) 142 Likelihood-Ratio-Test 72, 83–84, 98, 105, 110, 114, 180, 190 Likelihood-Ratio-Tests 106 Linearität 29–30 Linkszensierung 167 Logit-Funktion 60–61 Logits 62 Log-Likelihood-Wert Siehe LikelihoodRatio-Test Log-Log-Plots 192–93 Logrank-Test 176 Lowess 85, 194 LSDV (Least-Squares-Dummy-VariablesAnsatz) 126, 128, 152–53 M Mann-Whitney-U-Test 58, 67 marginaler Effekt 43, 45, 52–53 Maximum-Likelihood-Schätzung (MLE) 63– 65, 98, 101, 105 Methode der kleinsten Quadrate Siehe OLS moderierende Variable Siehe Interaktion Multikollinearität 31–32, 87 Multiple Regression Siehe Regression N nested models 72, 82, 98, 110, 114 nicht erklärte Abweichung Siehe Residuen Nicht-Linearität Siehe Linearität Nicht-Stationarität 132–33, 142–43 Nullhypothese 25, 26
Index O Odds 61–63 Odds-Ratio 62–63, 69, 74–76 ökologischer Fehlschluss 17, 94 OLS 13 omitted variable bias 127 Ordinary Least Squares Siehe OLS P Panel Corrected Standard Errors (PCSE) 137, 138, 148, 155, 156, 157 Panelanalyse 121 Partial Likelihood (PL) 186, 187 Pearson-Residuen 87 Pearsons r 11, 15 Pesaran-Test 157 Prais-Winsten-Verfahren 135, 148 Produkt-Limit-Schätzer Siehe Kaplan-MeierSchätzer Proportional-Hazard-Parametrisierung (PH) 181, 201 Proportional-Hazards-Assumption 182, 197, 204 R R² 15 adjustiertes 21 Maddala 116–17 mikro/makro 116 Pseudo 71 Random Effects 101, 126, 129 Random-Coefficients-Modell (RC) 131 Random-Intercept-Modell 103, 116 Random-Slope-Modell 106–9, 116 Räumliche Abhängigkeit 138 Räumliche Dynamik 137–38 Rechtszensierung 167 Regression bivariate 8, 12–18 multiple 8, 18–27 Regressionsdiagnostik 27–37 Residuen 13, 16 Cox-Snell 203–4 Deviance 205 Martingale 204 Normalverteilung der 32–34 Schoenfeld 194–95, 195 Score 206–7 studentisierte 35 Restricted Maximum Likelihood (REML) 98, 100, 101, 105 Risk Set 166, 179 RVF-Plot (residuals vs. fitted values) 143, 147, 149
Index S Signifikanz 22, 26 spatial lags 138 Standardfehler 24 robuste 31 standardisierte Koeffizienten Siehe Betas Sterbetafel 170–73, 177 Stratifizieren Siehe Survival-Modelle, stratifiziert Survival-Modelle diskrete Zeit 163, 170 exponentiell 178–80 Gompertz 183 kontinuierliche Zeit 163, 170 log-logistisch 183–84 nicht-parametrisch 164 parametrisch 164, 177, 184–85 repeated event 164 semi-parametrisch 164, 185–90 single event 164 stratifiziert 192, 197 Weibull 181–83 T Tied Events 186, 188–89 Toleranz Siehe Variance Inflation Factor (VIF) Transitionsrate Siehe Hazard-Rate Trunkierung 169
221 TSCS-Daten (Time Series Cross Section) 139–41 t-Test 58, 68–69 t-Wert 24, 25 U Überlebensfunktion 170, 172, 173, 176, 178 Unit-Heterogenität Siehe Heterogenität der Einheiten V Variance Inflation Factor (VIF) 31, 87 vorhergesagte Wahrscheinlichkeiten 76–82 vorhergesagte Werte 46–48, 52, 112 W Wald-Test 82–83, 84, 155 Wilcoxon-Breslow-Gehan-Test 176 Within-Schätzung 130 Wooldridge-Test 144 Z Zeitvariate UV 207–8 Zensieren 166–69, 172–74, 179, 186, 198 Zentrieren 43, 103–4, 200 z-Transformation 15 Zufallseffekte Siehe random effects z-Wert 23