Regressionsanalysen mit R 9783486739671, 9783486717013

Das Buch vereinigt die zahlreichen Ansätze zur Erklärung einer Menge von Variablen mittels einer anderen Variablenmenge.

196 58 3MB

German Pages 357 [358] Year 2013

Report DMCA / Copyright

DOWNLOAD PDF FILE

Recommend Papers

Regressionsanalysen mit R
 9783486739671, 9783486717013

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Lehr- und Handbücher der Statistik Herausgegeben von Prof. Dr. Rainer Schlittgen

Bisher erschienene Titel: Bock, Bestimmung des Stichprobenumfangs- für biologische Experimente und kontrollierte klinische Studien Böhning, Allgemeine Epidemiologie und ihre methodischen Grundlagen Brunner, Langer, Nichtparametrische Analyse longitudinaler Daten Caspary, Wichmann, Lineare Modelle- Algebraische Grundlagen und statistische Anwendungen Chatterjee, Price, Praxis der Regressionsanalyse Degen, Lohrscheid, Statistik-Aufgabensammlung mit ausführlichen Lösungen Hartung, Elpelt, Voet, Modellkatalog Varianzanalyse Harvey, Ökonometrische Analyse von Zeitreihen Harvey, Zeitreihenmodelle Heiler, Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller, Grundlagen der Angewandten Statistik Naeve, Stochastik für Informatiker Oerthel, Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer, Heine, Hartung, Deskriptive Statistik Pflaumer, Heine, Hartung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse

Rasch, Herrendörfer u. a., Verfahrenbibliothek, Band I und II Riedwyl, Ambühl, Statistische Auswertungen mit Regressionsprogrammen Rinne, Statistische Analyse multivariater Daten Rinne, Wirtschafts- und Bevölkerungsstatistik Rüger, Induktive Statistik- Einführung für Wirtschafts- und Sozialwissenschaftler Rüger, Test- und Schätztheorie, Band I und II Schendera, Datenmanagement und Datenanalyse mit dem SAS-System Schlittgen, Angewandte Zeitreihenanalyse mit R Schlittgen, Einführung in die Statistik- Analyse und Modellierung von Daten Schlittgen, GAUSS für statistische Berechnungen Schlittgen, Multivariate Statistik Schlittgen, Regressionsanalysen mit R Schlittgen, Statistische Auswertungen- Standardmethoden und Alternativen mit ihrer Durchführung in R Schlittgen, Statistische Inferenz Schlittgen, Statistik-Trainer- Aufgaben zur Analyse und Modellierung von Daten Schlittgen, Streitberg, Zeitreihenanalyse Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten- Anwendungsorientierte Einführung in LogitModellierung und kategoriale Regression

Regressionsanalysen mit R von

Prof. Dr. Rainer Schlittgen Universität Hamburg

Oldenbourg Verlag München

Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2013 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 143, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Dr. Stefan Giesen Herstellung: Tina Bonertz Einbandgestaltung: hauser lacour Gesamtherstellung: Grafik + Druck GmbH, München Dieses Papier ist alterungsbeständig nach DIN/ISO 9706. ISBN 978-3-486-71701-3 eISBN 978-3-486-73967-1

Vorwort Die Begriff Regression (lat.: regressio für Rückkehr) wurde von Francis Galton (1822 – 1911) im Rahmen der Untersuchung der Vererbung von Merkmalen von Vätern und Söhnen geprägt. In seiner berühmten Veröffentlichung aus dem Jahre 1886 untersuchte Galton die Beziehung der Größe der Väter und der ihrer Söhne. Er fand, dass die Söhne größerer bzw. kleinerer Väter tendenziell wieder näher beim Durchschnitt liegen. Dies bezeichnete er zunächst als ‚reversion‘ und später als ‚regression toward mediocrity‘. Im Rahmen der Regression wird die Abhängigkeit einer Variablen von (einer) anderen betrachtet. Zunächst untersuchte man lineare Abhängigkeiten, Regression war lineare Regression. In einem breiteren Sinn geht es in der Regression darum, eine Variable durch eine oder einige andere ‚zu erklären‘. Formal gesprochen sieht man allgemein das Ziel der Regression darin, Rückschlüsse über die bedingte Verteilung einer (univariaten) Responsevariablen Y bei gegebenem (1, p )-Vektor von Prädiktoren oder Regressoren x = (X 1 , . . . , X p ) zu machen. Wie ändert sich die bedingte Verteilung von Y bei gegebenem x , bezeichnet mit Y |x , mit den Werten von x ? Viele unterschiedliche statistische Konzepte sind dazu entwickelt worden. Die Bedeutung der Fragestellung wird auch daran deutlich, dass Regressionsmethoden den wohl wichtigsten Anwendungsbereich der Statistik darstellen. Unterschiedliche Datensituationen erforderten verschiedene Ansätze, um der formulierten Zielvorstellung gerecht zu werden. Das Skalenniveau der abhängigen Variablen führt zu unterschiedlichen Modellierungsansätzen für stetige und kategoriale zu erklärende Variablen. Bei kategorialen ist dann weiter zu unterteilen, ob binäre, multinomiale, ordinale oder solche mit absoluten Anzahlen von möglichen Werten betrachtet werden. Bei stetigen kann die Datensituation einmal dahingehend unterteilt werden, dass die Zielvariable vollständig beobachtet wird oder dass sie zensiert ist, dass also von einigen Beobachtungen nur bekannt ist, dass sie einen Schwellenwert nicht über- oder unterschreiten. Für den ersteren Fall können ganz unterschiedliche Formen der Tendenz unterstellt werden, wie die Prädiktoren auf die Zielgröße wirken. Regressionsmodelle sind oft von datenspezifischen Problemen heimgesucht, welche die Standardauswertung erschweren oder gar unmöglich machen. Dazu gehören die sogenannte Multikollinearität, extreme Beobachtungen, unterschiedliches Streuverhalten der Störungen und Korrelationen aufeinanderfolgender Beobachtungen. Dies hat zu eigenen Methoden geführt, die den einzelnen Problempunkten jeweils Rechnung tragen. Diese Gegebenheiten haben zur Gliederung des Buches nach den unterschiedlichen Datensituationen geführt. Die lineare Regression ist die am besten ausgearbeitete. Dementsprechend ist dieser Teil am stärksten in einzelne Kapitel aufgefächert. Da einige der weiteren Methoden in Spezialgebiete der Statistik hineinreichen, sind dafür knappe Überblicke der zugehörigen Grundlagen vorangestellt worden. Dies gilt speziell für die Hauptkomponentenanalyse, die Survival- und die Zeitreihenanalyse.

VI

Vorwort

Es wird in diesem Buch eine große Anzahl von Regressionsansätzen präsentiert. Das kann nur geschehen, indem die Darstellung sich auf den Kern der Methoden beschränkt. Dass dies unabdingbar ist, lässt sich schon daran erkennen, dass es zu jeder der vorgestellten Methoden bzw. zu fast jedem vorgestellten Modell eigene Monographien gibt. Auf weitergehende Literatur wird jeweils zu Beginn der Literaturverzeichnisse der einzelnen Kapitel verwiesen. Eine zusätzliche Einschränkung bei der Auswahl der darzustellenden Ansätze besteht darin, dass nur Ansätze mit festen oder doch als fest angesehenen Werten der Regressoren aufgenommen sind, Das Buch richtet sich an alle, die mit der Anwendung von Statistik konfrontiert sind. Grundkenntnisse in Statistik werden vorausgesetzt. Die zahlreichen Beispiele werden mit der freien statistischen Programmierumgebung R durchgerechnet. R ist inzwischen weit verbreitet; die zugehörige URL lautet: http://www.r-project.org/ Dort findet man das Programm zum Herunterladen, viele Zusatzpakete, die den Umfang der Auswertungsmöglichkeiten enorm erweitern, und eine Liste von Büchern, die als Basis für das Arbeiten mit R geeignet sind. Einführungen in R gibt es nunmehr zahlreich auch im WWW; man braucht bloß „Einführung R“ in eine Suchmaschine einzugeben. Daher werden hier die Grundlagen von R nicht zusätzlich dargestellt. Die überwältigende Anzahl von Funktionen in R erlaubt es, die Vielfalt der hier besprochenen Methoden mit R allein und (fast) ohne eigene Programmierung umzusetzen. Zu den Beispielen wird der R-Kode angegeben. Diese Kodes und Daten zu den Beispielen sind auch auf der Webseite des Verlages unter Materialien zu dem Buch zu finden. In den Erklärungen zu den R-Kodes wird auch auf verschiedene Spezifika von R hingewiesen. Mit diesen Kodes als Muster sind nicht zu komplexe Auswertungen auf der Basis dieses Textes leicht möglich. Berlin, im Februar 2013

Rainer Schlittgen

Inhaltsverzeichnis I

Lineare Regression

1

1

Einfache lineare Regression

3

1.1 1.1.1 1.1.2

Regression als Deskription. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bestimmung der Regressionsgeraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Bestimmtheitsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 3 5

1.2

Das einfache lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.3 1.3.1 1.3.2 1.3.3

Schätzen und Testen im einfachen linearen Regressionsmodell . . . . . . . . . . . . . . . . . 8 Die Kleinste-Quadrate-Schätzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Konfidenzintervalle und Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Prognoseintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.4

Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2

Multiple lineare Regression

19

2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6

Das klassische lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests, Konfidenz- und Prognoseintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variablenselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stochastische Regressoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19 19 24 35 40 44 47

2.2 2.2.1 2.2.2 2.2.3

Das allgemeine lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . KQ- und GKQ-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Heteroskedastische Störungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Clusterweise Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49 50 51 56

2.3 2.3.1 2.3.2 2.3.3

Multivariate multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das multivariate lineare Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung im multivariaten Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das multivariate Modell mit normalverteilten Fehlern . . . . . . . . . . . . . . . . . . . . . . . . . . .

59 59 61 63

2.4

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

VIII

Inhaltsverzeichnis

3

Robuste Regression

67

3.1

Ausreißer und Einflusspunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.2 3.2.1 3.2.2 3.2.3 3.2.4

Robuste Schätzer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erfassung der Robustheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . M-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . REWLS-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regressionsschätzer mit hohem Bruchpunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3 3.3.1 3.3.2

Regressionsanalyse auf der Basis von Rängen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Transformation nur der Zielvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 R-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.4

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4

Lineare Regression mit vielen Regressoren

4.1 4.1.1 4.1.2

Hauptkomponentenregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Hauptkomponentenregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.2 4.2.1 4.2.2

Partial Least Squares-Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Univariate Responsevariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Multivariate Responses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.3

Beziehung zwischen Hauptkomponenten- und PLS-Regression . . . . . . . . . . . . . . . . 108

4.4

Reduzierte Rang-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4.5 4.5.1 4.5.2

Regularisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Ridge-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

4.6

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

II

Nichtlineare, nicht- und semiparametrische Regression 123

5

Nichtlineare Regression

125

5.1 5.1.1 5.1.2 5.1.3

Formen nichtlinearer Abhängigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linearisierbare Zusammenhänge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Polynomiale Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eigentlich nichtlineare Zusammenhänge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

125 125 128 131

5.2 5.2.1 5.2.2 5.2.3

Inferenzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kleinste-Quadrate Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistische Inferenz auf Basis der linearen Approximation . . . . . . . . . . . . . . . . . . . . . . Likelihoodquotienten-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

133 133 135 138

5.3

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

72 72 73 77 79

95

Inhaltsverzeichnis

IX

6

Nichtparametrische Regression

143

6.1 6.1.1 6.1.2

Kernregression und Nächste-Nachbarn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Lokale Lageschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Biasreduktion durch gewichtete Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

6.2

Lokale polynomiale Glättung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6.3 6.3.1 6.3.2

Spline-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Penalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

6.4

Additive Modelle (AM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

6.5 6.5.1 6.5.2 6.5.3 6.5.4

Regressionsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bestimmung eines Regressionsbaumes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spezielle Aspekte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eigenschaften von Regressionsbäumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.6

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

7

Semiparametrische Regression

7.1

Projection Pursuit Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

7.2 7.2.1 7.2.2 7.2.3

Suffiziente Reduktion der Dimension des Prädiktorraumes. . . . . . . . . . . . . . . . . . . . . . Sliced Inverse Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sliced Average Variance Estimation (SAVE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Haupt-Hesse-Richtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.3

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

8

Quantilsregression

8.1 8.1.1 8.1.2

Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Quantilsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Regressionsquantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

8.2 8.2.1 8.2.2

Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Die Schätzprozedur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Eigenschaften der QR-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

8.3

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

III

Kategoriale Zielvariablen

9

Logistische Regression

9.1 9.1.1 9.1.2

Binomialverteilte Zielgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Modellformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

168 168 171 177 179

183

187 188 193 194

199

213 215

X

Inhaltsverzeichnis

9.1.3 9.1.4

Überprüfung der Modellanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

9.2 9.2.1 9.2.2 9.2.3 9.2.4

Logitmodelle für mehrkategorielle Zielgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Multinomiales Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kumulatives Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sequentielles Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schätzen und Testen für mehrkategorielle Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9.3

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

10

Generalisierte lineare Modelle

10.1 10.1.1 10.1.2

Das allgemeine Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Formulierung des Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 Parameterschätzung und Modellanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

10.2 10.2.1 10.2.2 10.2.3

Poisson-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Modell und seine Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testen im Poisson-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10.3

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250

IV

Regressionsmodelle für zensierte Daten

11

Grundlagen der Analyse zensierter Daten

11.1

Survivor- und Hazardfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254

11.2

Zensierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

11.3

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

12

Accelerated Failure Time- und Tobit-Modelle

12.1 12.1.1 12.1.2

Accelerated Failure Time-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Schätzen und Testen in AFT-Modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Überprüfung der Eignung eines AFT-Regressionsmodells. . . . . . . . . . . . . . . . . . . . . . . . 272

12.2 12.2.1 12.2.2 12.2.3

Tobit-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erweiterungen des Tobit-Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12.3

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

13

Das Proportional-Hazards-Modell

13.1

Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289

13.2

Partial-Likelihood-Inferenz für das PH-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291

225 225 228 230 232

235

241 241 244 247

251 253

265

275 277 283 286

289

Inhaltsverzeichnis

XI

13.2.1 13.2.2

Inferenz bzgl. β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 Schätzen der Survivorfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296

13.3

Zeitabhängige Regressoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297

13.4 13.4.1 13.4.2

Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 Maßzahlen zur Beurteilung einer Anpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300

13.5

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305

V

Zeitreihen mit Regressoren

14

Grundlagen der Zeitreihenanalyse

14.1

Grundlegende Begriffsbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309

14.2

ARIMA-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310

14.3

Mehrdimensionale Zeitreihen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

14.4

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314

15

Regressionsmodelle für Zeitreihen

15.1

Regression mit autokorrelierten Störungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315

15.2

Interventionsanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320

15.3

Transferfunktionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327

15.4

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334

307 309

315

Die verwendeten R-Pakete

337

Abkürzungen, Nomenklatur und Symbole

339

Sachindex

343

Teil I

Lineare Regression

1

Einfache lineare Regression

Im einfachsten Fall kann man davon ausgehen, dass eine metrisch skalierte Variable Y von einer anderen Variablen X linear abhängt. Beispiele dafür sind die Sparquote, die mit der Höhe des Einkommens steigt, der Bremsweg eines Kraftfahrzeuges, der mit höherer Geschwindigkeit länger wird, und die Miethöhe, die mit der Größe und der Ausstattung der Wohnung steigt. Dann ist die lineare Beziehung zu ermitteln.

1.1

Regression als Deskription

Zunächst wird die Fragestellung als rein deskriptive Beschreibungsaufgabe betrachtet. Das bedeutet dann, dass durch die Punkte (x i , y i ), i = 1, . . . , n , eine Ausgleichsgerade gelegt werden soll, die diese Punkte im Wesentlichen beschreibt.

1.1.1

Bestimmung der Regressionsgeraden

Eine Ausgleichsgerade hat die Form y = b 0 + b 1 x . Bezüglich der Ausgangspunkte (x i , y i ) gilt dann die Beziehung (i = 1, . . . , n ) . yi = b 0 + b 1 · x i + e i

5

Es ist plausibel, von den Abweichungen oder Fehlern e i , also von den Differenzen zwischen den tatsächlichen Werten y i und den zugehörigen, auf der Gerade liegenden Werten b 0 + b 1 x i auszugehen. Dies ist in der Abbildung 1.1 skizziert.

Y

3

4

b1

2

b0 + b1x1

y1 − (b0 + b1x1)

0

1

y1 b0 0

2

4

6

8

X

Abb. 1.1: Zur Bestimmung einer Ausgleichsgeraden

Möglichst gut beschreibt eine Gerade die Punkte dann, wenn die Fehler insgesamt klein

4

1 Einfache lineare Regression

sind. Allgemein verbreitet ist die Bestimmung der Ausgleichsgeraden nach der Kleinste-Quaˆ 1 als Minimalstellen der Summe ˆ 0, b drate-Methode (KQ-Methode), bei der die Koeffizienten b der quadrierten Abweichungen bestimmt werden: ˆ 1 ) = argmin ˆ 0, b (b 

b 0 ,b 1

 n 

 (y i − (b 0 + b 1 x i ))

2

.

(1.1)

i =1

Dadurch werden also die beiden Koeffizienten b 0 und b 1 der Ausgleichsgeraden festgelegt. Die resultierende Ausgleichsgerade wird als Regressionsgerade bezeichnet; dafür wird ˆ0 +b ˆ 1x yˆ = b

(1.2)

ˆ 0 gibt dabei den Achsenabschnitt auf der y -Achse an und b ˆ 1 die Steigung der geschrieben. b ˆ Geraden. b 1 wird auch Regressionskoeffizient genannt. Zu x i gehört nun nicht nur ein empirischer Wert y i , sondern auch ein ‚angepasster‘, nämlich ˆ 1 x i . Die zugehörige Differenz ˆ0 +b yˆi = b ˆ0 +b ˆ 1x i ) ; eˆi = y i − yˆ = y i − (b

(1.3)

wird als Residuum bezeichnet. ˆ 0, b ˆ 1 der RegressiDie Kleinste-Quadrate-Methode ergibt folgende Werte der Koeffizienten b ˆ ˆ onsgeraden yˆ = b 0 + b 1 x bei einem gegebenen Datensatz (x i , y i ), i = 1, . . . , n : ¯ ¯ ˆ 1 = x y − x · y = sXY . (1.4) b 2 s X2 x − x¯ 2 n Dabei ist x¯ das übliche arithmetische Mittel, x¯ = i =1 x i , entsprechend y¯ und x y das der n Produkte x i y i . Weiter ist s X2 die empirische Varianz s X2 = i =1 (x i − x¯ )2 /(n − 1). Die Summe 2 der quadrierten Abweichungen wird auch n angegeben als SS(x ), so dass s X = SS(x )/(n − 1). Schließlich ist s X Y die Kovarianz, s X Y = i =1 (x i − x¯ )(y i − y¯ )/(n − 1). ˆ 1 x¯ , ˆ 0 = y¯ − b b

ˆ 0 zeigt, dass die nach der Kleinste-Quadrate-Methode erDie Bestimmungsgleichung für b mittelte Gerade stets durch (x¯ , y¯ ), den Schwerpunkt des Datensatzes, verläuft. (Diese Aussage hängt offensichtlich daran, dass ein konstanter Term b 0 berücksichtigt wird!) Beispiel 1.1

Internetnutzung in der EU

In einer Erhebung wurde für 2011 der Einsatz von Computer und Internet untersucht, siehe Czajka & Jechová (2012). Einmal ist angegeben, wie stark Schüler, Schülerinnen und Studierenden das Internet am Ort der Bildung in allen Ländern der Europäischen Union nutzen (Variable ISU). Durch das Internet ist es weiter möglich, mit Behörden online in Kontakt zu treten und das Internet für private Behördengänge zu nutzen. Unter E-Government geführte Kontakte zu Behörden oder öffentlichen Einrichtungen werden folgende Aktivitäten zusammengefasst: die Informationssuche auf Webseiten, das Herunterladen von amtlichen Formularen und die Rücksendung ausgefüllter Formulare über das Internet (Variable EGov). Da mit einer erhöhten Nutzung des Internet an

1.1 Regression als Deskription

5

Bildungseinrichtungen die Bereitschaft für E-Government steigen dürfte, wird hier die Abhängigkeit von EGov von ISU betrachtet. Das Streudiagramm mit der Ausgleichsgeraden ist in der Abbildung 1.2 dargestellt. Man sieht eine leicht steigende Tendenz. Die mit der Kleinste-Quadrate-Methode ermittelten Koeffizienten sind:

ISU 0.4895

60 20

40

EGov

80

Coefficients: (Intercept) 19.2190

50

60

70

80

90

ISU

Abb. 1.2: Internetnutzung an Bildungseinrichtungen und E-Government

R-Kode: 1 2 3 4 5 6 7

dat|t|) (Intercept) 19.2190 18.4414 1.042 0.312 ISU 0.4895 0.2398 2.041 0.057 Der Steigungskoeffizient ist gerade nicht mehr signifikant, der Achsenabschnitt überhaupt nicht. Die simultanen Konfidenzinztervalle zum 90%-Niveau erhält man für β0 zu [−5.370; 43.808] und für β1 zu [0.170; 0.809]. R-Kode: 1 2 3 4 5

summary(out) n