197 58 3MB
German Pages 357 [358] Year 2013
Lehr- und Handbücher der Statistik Herausgegeben von Prof. Dr. Rainer Schlittgen
Bisher erschienene Titel: Bock, Bestimmung des Stichprobenumfangs- für biologische Experimente und kontrollierte klinische Studien Böhning, Allgemeine Epidemiologie und ihre methodischen Grundlagen Brunner, Langer, Nichtparametrische Analyse longitudinaler Daten Caspary, Wichmann, Lineare Modelle- Algebraische Grundlagen und statistische Anwendungen Chatterjee, Price, Praxis der Regressionsanalyse Degen, Lohrscheid, Statistik-Aufgabensammlung mit ausführlichen Lösungen Hartung, Elpelt, Voet, Modellkatalog Varianzanalyse Harvey, Ökonometrische Analyse von Zeitreihen Harvey, Zeitreihenmodelle Heiler, Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller, Grundlagen der Angewandten Statistik Naeve, Stochastik für Informatiker Oerthel, Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer, Heine, Hartung, Deskriptive Statistik Pflaumer, Heine, Hartung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse
Rasch, Herrendörfer u. a., Verfahrenbibliothek, Band I und II Riedwyl, Ambühl, Statistische Auswertungen mit Regressionsprogrammen Rinne, Statistische Analyse multivariater Daten Rinne, Wirtschafts- und Bevölkerungsstatistik Rüger, Induktive Statistik- Einführung für Wirtschafts- und Sozialwissenschaftler Rüger, Test- und Schätztheorie, Band I und II Schendera, Datenmanagement und Datenanalyse mit dem SAS-System Schlittgen, Angewandte Zeitreihenanalyse mit R Schlittgen, Einführung in die Statistik- Analyse und Modellierung von Daten Schlittgen, GAUSS für statistische Berechnungen Schlittgen, Multivariate Statistik Schlittgen, Regressionsanalysen mit R Schlittgen, Statistische Auswertungen- Standardmethoden und Alternativen mit ihrer Durchführung in R Schlittgen, Statistische Inferenz Schlittgen, Statistik-Trainer- Aufgaben zur Analyse und Modellierung von Daten Schlittgen, Streitberg, Zeitreihenanalyse Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten- Anwendungsorientierte Einführung in LogitModellierung und kategoriale Regression
Regressionsanalysen mit R von
Prof. Dr. Rainer Schlittgen Universität Hamburg
Oldenbourg Verlag München
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2013 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 143, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Dr. Stefan Giesen Herstellung: Tina Bonertz Einbandgestaltung: hauser lacour Gesamtherstellung: Grafik + Druck GmbH, München Dieses Papier ist alterungsbeständig nach DIN/ISO 9706. ISBN 978-3-486-71701-3 eISBN 978-3-486-73967-1
Vorwort Die Begriff Regression (lat.: regressio für Rückkehr) wurde von Francis Galton (1822 – 1911) im Rahmen der Untersuchung der Vererbung von Merkmalen von Vätern und Söhnen geprägt. In seiner berühmten Veröffentlichung aus dem Jahre 1886 untersuchte Galton die Beziehung der Größe der Väter und der ihrer Söhne. Er fand, dass die Söhne größerer bzw. kleinerer Väter tendenziell wieder näher beim Durchschnitt liegen. Dies bezeichnete er zunächst als ‚reversion‘ und später als ‚regression toward mediocrity‘. Im Rahmen der Regression wird die Abhängigkeit einer Variablen von (einer) anderen betrachtet. Zunächst untersuchte man lineare Abhängigkeiten, Regression war lineare Regression. In einem breiteren Sinn geht es in der Regression darum, eine Variable durch eine oder einige andere ‚zu erklären‘. Formal gesprochen sieht man allgemein das Ziel der Regression darin, Rückschlüsse über die bedingte Verteilung einer (univariaten) Responsevariablen Y bei gegebenem (1, p )-Vektor von Prädiktoren oder Regressoren x = (X 1 , . . . , X p ) zu machen. Wie ändert sich die bedingte Verteilung von Y bei gegebenem x , bezeichnet mit Y |x , mit den Werten von x ? Viele unterschiedliche statistische Konzepte sind dazu entwickelt worden. Die Bedeutung der Fragestellung wird auch daran deutlich, dass Regressionsmethoden den wohl wichtigsten Anwendungsbereich der Statistik darstellen. Unterschiedliche Datensituationen erforderten verschiedene Ansätze, um der formulierten Zielvorstellung gerecht zu werden. Das Skalenniveau der abhängigen Variablen führt zu unterschiedlichen Modellierungsansätzen für stetige und kategoriale zu erklärende Variablen. Bei kategorialen ist dann weiter zu unterteilen, ob binäre, multinomiale, ordinale oder solche mit absoluten Anzahlen von möglichen Werten betrachtet werden. Bei stetigen kann die Datensituation einmal dahingehend unterteilt werden, dass die Zielvariable vollständig beobachtet wird oder dass sie zensiert ist, dass also von einigen Beobachtungen nur bekannt ist, dass sie einen Schwellenwert nicht über- oder unterschreiten. Für den ersteren Fall können ganz unterschiedliche Formen der Tendenz unterstellt werden, wie die Prädiktoren auf die Zielgröße wirken. Regressionsmodelle sind oft von datenspezifischen Problemen heimgesucht, welche die Standardauswertung erschweren oder gar unmöglich machen. Dazu gehören die sogenannte Multikollinearität, extreme Beobachtungen, unterschiedliches Streuverhalten der Störungen und Korrelationen aufeinanderfolgender Beobachtungen. Dies hat zu eigenen Methoden geführt, die den einzelnen Problempunkten jeweils Rechnung tragen. Diese Gegebenheiten haben zur Gliederung des Buches nach den unterschiedlichen Datensituationen geführt. Die lineare Regression ist die am besten ausgearbeitete. Dementsprechend ist dieser Teil am stärksten in einzelne Kapitel aufgefächert. Da einige der weiteren Methoden in Spezialgebiete der Statistik hineinreichen, sind dafür knappe Überblicke der zugehörigen Grundlagen vorangestellt worden. Dies gilt speziell für die Hauptkomponentenanalyse, die Survival- und die Zeitreihenanalyse.
VI
Vorwort
Es wird in diesem Buch eine große Anzahl von Regressionsansätzen präsentiert. Das kann nur geschehen, indem die Darstellung sich auf den Kern der Methoden beschränkt. Dass dies unabdingbar ist, lässt sich schon daran erkennen, dass es zu jeder der vorgestellten Methoden bzw. zu fast jedem vorgestellten Modell eigene Monographien gibt. Auf weitergehende Literatur wird jeweils zu Beginn der Literaturverzeichnisse der einzelnen Kapitel verwiesen. Eine zusätzliche Einschränkung bei der Auswahl der darzustellenden Ansätze besteht darin, dass nur Ansätze mit festen oder doch als fest angesehenen Werten der Regressoren aufgenommen sind, Das Buch richtet sich an alle, die mit der Anwendung von Statistik konfrontiert sind. Grundkenntnisse in Statistik werden vorausgesetzt. Die zahlreichen Beispiele werden mit der freien statistischen Programmierumgebung R durchgerechnet. R ist inzwischen weit verbreitet; die zugehörige URL lautet: http://www.r-project.org/ Dort findet man das Programm zum Herunterladen, viele Zusatzpakete, die den Umfang der Auswertungsmöglichkeiten enorm erweitern, und eine Liste von Büchern, die als Basis für das Arbeiten mit R geeignet sind. Einführungen in R gibt es nunmehr zahlreich auch im WWW; man braucht bloß „Einführung R“ in eine Suchmaschine einzugeben. Daher werden hier die Grundlagen von R nicht zusätzlich dargestellt. Die überwältigende Anzahl von Funktionen in R erlaubt es, die Vielfalt der hier besprochenen Methoden mit R allein und (fast) ohne eigene Programmierung umzusetzen. Zu den Beispielen wird der R-Kode angegeben. Diese Kodes und Daten zu den Beispielen sind auch auf der Webseite des Verlages unter Materialien zu dem Buch zu finden. In den Erklärungen zu den R-Kodes wird auch auf verschiedene Spezifika von R hingewiesen. Mit diesen Kodes als Muster sind nicht zu komplexe Auswertungen auf der Basis dieses Textes leicht möglich. Berlin, im Februar 2013
Rainer Schlittgen
Inhaltsverzeichnis I
Lineare Regression
1
1
Einfache lineare Regression
3
1.1 1.1.1 1.1.2
Regression als Deskription. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bestimmung der Regressionsgeraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Bestimmtheitsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 3 5
1.2
Das einfache lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3 1.3.1 1.3.2 1.3.3
Schätzen und Testen im einfachen linearen Regressionsmodell . . . . . . . . . . . . . . . . . 8 Die Kleinste-Quadrate-Schätzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Konfidenzintervalle und Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Prognoseintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4
Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2
Multiple lineare Regression
19
2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6
Das klassische lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests, Konfidenz- und Prognoseintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variablenselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stochastische Regressoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19 19 24 35 40 44 47
2.2 2.2.1 2.2.2 2.2.3
Das allgemeine lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . KQ- und GKQ-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Heteroskedastische Störungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Clusterweise Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49 50 51 56
2.3 2.3.1 2.3.2 2.3.3
Multivariate multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das multivariate lineare Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung im multivariaten Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das multivariate Modell mit normalverteilten Fehlern . . . . . . . . . . . . . . . . . . . . . . . . . . .
59 59 61 63
2.4
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
VIII
Inhaltsverzeichnis
3
Robuste Regression
67
3.1
Ausreißer und Einflusspunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 3.2.1 3.2.2 3.2.3 3.2.4
Robuste Schätzer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erfassung der Robustheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . M-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . REWLS-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regressionsschätzer mit hohem Bruchpunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 3.3.1 3.3.2
Regressionsanalyse auf der Basis von Rängen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Transformation nur der Zielvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 R-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.4
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4
Lineare Regression mit vielen Regressoren
4.1 4.1.1 4.1.2
Hauptkomponentenregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Hauptkomponentenregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.2 4.2.1 4.2.2
Partial Least Squares-Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Univariate Responsevariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Multivariate Responses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.3
Beziehung zwischen Hauptkomponenten- und PLS-Regression . . . . . . . . . . . . . . . . 108
4.4
Reduzierte Rang-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.5 4.5.1 4.5.2
Regularisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Ridge-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.6
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
II
Nichtlineare, nicht- und semiparametrische Regression 123
5
Nichtlineare Regression
125
5.1 5.1.1 5.1.2 5.1.3
Formen nichtlinearer Abhängigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linearisierbare Zusammenhänge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Polynomiale Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eigentlich nichtlineare Zusammenhänge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
125 125 128 131
5.2 5.2.1 5.2.2 5.2.3
Inferenzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kleinste-Quadrate Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistische Inferenz auf Basis der linearen Approximation . . . . . . . . . . . . . . . . . . . . . . Likelihoodquotienten-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
133 133 135 138
5.3
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
72 72 73 77 79
95
Inhaltsverzeichnis
IX
6
Nichtparametrische Regression
143
6.1 6.1.1 6.1.2
Kernregression und Nächste-Nachbarn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Lokale Lageschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Biasreduktion durch gewichtete Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.2
Lokale polynomiale Glättung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.3 6.3.1 6.3.2
Spline-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Penalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.4
Additive Modelle (AM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.5 6.5.1 6.5.2 6.5.3 6.5.4
Regressionsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bestimmung eines Regressionsbaumes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spezielle Aspekte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eigenschaften von Regressionsbäumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7
Semiparametrische Regression
7.1
Projection Pursuit Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.2 7.2.1 7.2.2 7.2.3
Suffiziente Reduktion der Dimension des Prädiktorraumes. . . . . . . . . . . . . . . . . . . . . . Sliced Inverse Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sliced Average Variance Estimation (SAVE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Haupt-Hesse-Richtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
8
Quantilsregression
8.1 8.1.1 8.1.2
Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Quantilsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Regressionsquantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
8.2 8.2.1 8.2.2
Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Die Schätzprozedur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Eigenschaften der QR-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
8.3
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
III
Kategoriale Zielvariablen
9
Logistische Regression
9.1 9.1.1 9.1.2
Binomialverteilte Zielgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Modellformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
168 168 171 177 179
183
187 188 193 194
199
213 215
X
Inhaltsverzeichnis
9.1.3 9.1.4
Überprüfung der Modellanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
9.2 9.2.1 9.2.2 9.2.3 9.2.4
Logitmodelle für mehrkategorielle Zielgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Multinomiales Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kumulatives Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sequentielles Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schätzen und Testen für mehrkategorielle Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
10
Generalisierte lineare Modelle
10.1 10.1.1 10.1.2
Das allgemeine Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Formulierung des Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 Parameterschätzung und Modellanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
10.2 10.2.1 10.2.2 10.2.3
Poisson-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Modell und seine Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testen im Poisson-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
IV
Regressionsmodelle für zensierte Daten
11
Grundlagen der Analyse zensierter Daten
11.1
Survivor- und Hazardfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
11.2
Zensierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
11.3
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
12
Accelerated Failure Time- und Tobit-Modelle
12.1 12.1.1 12.1.2
Accelerated Failure Time-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Schätzen und Testen in AFT-Modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Überprüfung der Eignung eines AFT-Regressionsmodells. . . . . . . . . . . . . . . . . . . . . . . . 272
12.2 12.2.1 12.2.2 12.2.3
Tobit-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erweiterungen des Tobit-Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.3
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
13
Das Proportional-Hazards-Modell
13.1
Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
13.2
Partial-Likelihood-Inferenz für das PH-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
225 225 228 230 232
235
241 241 244 247
251 253
265
275 277 283 286
289
Inhaltsverzeichnis
XI
13.2.1 13.2.2
Inferenz bzgl. β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 Schätzen der Survivorfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
13.3
Zeitabhängige Regressoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
13.4 13.4.1 13.4.2
Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 Maßzahlen zur Beurteilung einer Anpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
13.5
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
V
Zeitreihen mit Regressoren
14
Grundlagen der Zeitreihenanalyse
14.1
Grundlegende Begriffsbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
14.2
ARIMA-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
14.3
Mehrdimensionale Zeitreihen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
14.4
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
15
Regressionsmodelle für Zeitreihen
15.1
Regression mit autokorrelierten Störungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
15.2
Interventionsanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
15.3
Transferfunktionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
15.4
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
307 309
315
Die verwendeten R-Pakete
337
Abkürzungen, Nomenklatur und Symbole
339
Sachindex
343
Teil I
Lineare Regression
1
Einfache lineare Regression
Im einfachsten Fall kann man davon ausgehen, dass eine metrisch skalierte Variable Y von einer anderen Variablen X linear abhängt. Beispiele dafür sind die Sparquote, die mit der Höhe des Einkommens steigt, der Bremsweg eines Kraftfahrzeuges, der mit höherer Geschwindigkeit länger wird, und die Miethöhe, die mit der Größe und der Ausstattung der Wohnung steigt. Dann ist die lineare Beziehung zu ermitteln.
1.1
Regression als Deskription
Zunächst wird die Fragestellung als rein deskriptive Beschreibungsaufgabe betrachtet. Das bedeutet dann, dass durch die Punkte (x i , y i ), i = 1, . . . , n , eine Ausgleichsgerade gelegt werden soll, die diese Punkte im Wesentlichen beschreibt.
1.1.1
Bestimmung der Regressionsgeraden
Eine Ausgleichsgerade hat die Form y = b 0 + b 1 x . Bezüglich der Ausgangspunkte (x i , y i ) gilt dann die Beziehung (i = 1, . . . , n ) . yi = b 0 + b 1 · x i + e i
5
Es ist plausibel, von den Abweichungen oder Fehlern e i , also von den Differenzen zwischen den tatsächlichen Werten y i und den zugehörigen, auf der Gerade liegenden Werten b 0 + b 1 x i auszugehen. Dies ist in der Abbildung 1.1 skizziert.
Y
3
4
b1
2
b0 + b1x1
y1 − (b0 + b1x1)
0
1
y1 b0 0
2
4
6
8
X
Abb. 1.1: Zur Bestimmung einer Ausgleichsgeraden
Möglichst gut beschreibt eine Gerade die Punkte dann, wenn die Fehler insgesamt klein
4
1 Einfache lineare Regression
sind. Allgemein verbreitet ist die Bestimmung der Ausgleichsgeraden nach der Kleinste-Quaˆ 1 als Minimalstellen der Summe ˆ 0, b drate-Methode (KQ-Methode), bei der die Koeffizienten b der quadrierten Abweichungen bestimmt werden: ˆ 1 ) = argmin ˆ 0, b (b
b 0 ,b 1
n
(y i − (b 0 + b 1 x i ))
2
.
(1.1)
i =1
Dadurch werden also die beiden Koeffizienten b 0 und b 1 der Ausgleichsgeraden festgelegt. Die resultierende Ausgleichsgerade wird als Regressionsgerade bezeichnet; dafür wird ˆ0 +b ˆ 1x yˆ = b
(1.2)
ˆ 0 gibt dabei den Achsenabschnitt auf der y -Achse an und b ˆ 1 die Steigung der geschrieben. b ˆ Geraden. b 1 wird auch Regressionskoeffizient genannt. Zu x i gehört nun nicht nur ein empirischer Wert y i , sondern auch ein ‚angepasster‘, nämlich ˆ 1 x i . Die zugehörige Differenz ˆ0 +b yˆi = b ˆ0 +b ˆ 1x i ) ; eˆi = y i − yˆ = y i − (b
(1.3)
wird als Residuum bezeichnet. ˆ 0, b ˆ 1 der RegressiDie Kleinste-Quadrate-Methode ergibt folgende Werte der Koeffizienten b ˆ ˆ onsgeraden yˆ = b 0 + b 1 x bei einem gegebenen Datensatz (x i , y i ), i = 1, . . . , n : ¯ ¯ ˆ 1 = x y − x · y = sXY . (1.4) b 2 s X2 x − x¯ 2 n Dabei ist x¯ das übliche arithmetische Mittel, x¯ = i =1 x i , entsprechend y¯ und x y das der n Produkte x i y i . Weiter ist s X2 die empirische Varianz s X2 = i =1 (x i − x¯ )2 /(n − 1). Die Summe 2 der quadrierten Abweichungen wird auch n angegeben als SS(x ), so dass s X = SS(x )/(n − 1). Schließlich ist s X Y die Kovarianz, s X Y = i =1 (x i − x¯ )(y i − y¯ )/(n − 1). ˆ 1 x¯ , ˆ 0 = y¯ − b b
ˆ 0 zeigt, dass die nach der Kleinste-Quadrate-Methode erDie Bestimmungsgleichung für b mittelte Gerade stets durch (x¯ , y¯ ), den Schwerpunkt des Datensatzes, verläuft. (Diese Aussage hängt offensichtlich daran, dass ein konstanter Term b 0 berücksichtigt wird!) Beispiel 1.1
Internetnutzung in der EU
In einer Erhebung wurde für 2011 der Einsatz von Computer und Internet untersucht, siehe Czajka & Jechová (2012). Einmal ist angegeben, wie stark Schüler, Schülerinnen und Studierenden das Internet am Ort der Bildung in allen Ländern der Europäischen Union nutzen (Variable ISU). Durch das Internet ist es weiter möglich, mit Behörden online in Kontakt zu treten und das Internet für private Behördengänge zu nutzen. Unter E-Government geführte Kontakte zu Behörden oder öffentlichen Einrichtungen werden folgende Aktivitäten zusammengefasst: die Informationssuche auf Webseiten, das Herunterladen von amtlichen Formularen und die Rücksendung ausgefüllter Formulare über das Internet (Variable EGov). Da mit einer erhöhten Nutzung des Internet an
1.1 Regression als Deskription
5
Bildungseinrichtungen die Bereitschaft für E-Government steigen dürfte, wird hier die Abhängigkeit von EGov von ISU betrachtet. Das Streudiagramm mit der Ausgleichsgeraden ist in der Abbildung 1.2 dargestellt. Man sieht eine leicht steigende Tendenz. Die mit der Kleinste-Quadrate-Methode ermittelten Koeffizienten sind:
ISU 0.4895
60 20
40
EGov
80
Coefficients: (Intercept) 19.2190
50
60
70
80
90
ISU
Abb. 1.2: Internetnutzung an Bildungseinrichtungen und E-Government
R-Kode: 1 2 3 4 5 6 7
dat|t|) (Intercept) 19.2190 18.4414 1.042 0.312 ISU 0.4895 0.2398 2.041 0.057 Der Steigungskoeffizient ist gerade nicht mehr signifikant, der Achsenabschnitt überhaupt nicht. Die simultanen Konfidenzinztervalle zum 90%-Niveau erhält man für β0 zu [−5.370; 43.808] und für β1 zu [0.170; 0.809]. R-Kode: 1 2 3 4 5
summary(out) n