196 97 9MB
German Pages 256 Year 1994
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen
Lineare Regression und Varianzanalyse Von
Prof. Dr. Fritz Pokropp Universität der Bundeswehr Hamburg
R. Oldenbourg Verlag München Wien
Für
Jessica
und Martin
Die Deutsche Bibliothek — dP-Einheitsaufnahme Pokropp, Fritz: Lineare Regression und Varianzanalyse / von Fritz Pokropp. München ;Wien : Oldenbourg, 1994 (Lehr- und Handbücher der Statistik) ISBN 3-486-22997-4
© 1994 R. Oldenbourg Verlag GmbH, München Das Werk außerhalb lässig und filmungen
einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzustrafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverund die Einspeicherung und Bearbeitung in elektronischen Systemen.
Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München
ISBN 3-486-22997-4
Vorwort Der weiten Verbreitung von Linearen Modellen in Theorien und in Anwendungen entspricht nicht eine ebenso weite Verbreitung der theoretischen Grundlagen. Begünstigt wird dieser Umstand auch dadurch, daß reichlich vorhandene Software auf Groß- und Klein-Rechnern dazu einlädt, sich in mannigfacher Weise linearer Modelle zu bedienen, ohne die notwendigen theoretischen Details zur Kenntnis nehmen zu müssen. Als Folge ergeben sich vor allem zwei Probleme: — es entstehen Unsicherheiten bei der Interpretation von Ergebnissen (die ja in der Regel als voluminöse Computer-Ausdrucke vorliegen); — es werden (naturgemäß) nur diejenigen Fragestellungen behandelt, deren Behandlung die benutzte Software vorsieht, nicht aber die Probleme, die der Anwender hat bzw. haben sollte, wenn er sich nicht von vornherein von den Möglichkeiten der Software einschränken läßt! Nun gibt es gewiß eine Reihe von Monographien und Lehrbüchern, die sich mit der Theorie Linearer Modelle ausführlich befassen. Die Konzentration auf die univariate multiple Regression (mit einer zu erklärenden Größe und mehreren erklärenden Größen) verbunden mit der Spezifizierung hin zur Varianz-Analyse (mit qualitativen Größen als Erklärenden) scheint in der deutschsprachigen Literatur zu fehlen. Diese Lücke ein wenig zu füllen ist Absicht und Ehrgeiz des vorliegenden Buches. Im Blick ist dabei als Leser vor allem der Anwender Linearer Modelle, dessen Kompetenz auch bei den theoretischen Grundlagen gefragt oder sogar unerläßlich ist. Dies mag z.B. dann der Fall sein, wenn der Anwender nicht nur RoutineProbleme zu lösen hat oder wenn er — in welchem Bereich auch immer — wissenschaftlich arbeitet. Insbesondere Nutzer von Software-Paketen zur Datenanalyse werden sich die Mächtigkeit solcher Pakete nur dann in gewünschtem Umfang und mit korrekter Interpretation von "Ergebnissen" erschließen können, wenn sie sich Zugang zu den theoretischen Grundlagen verschaffen (können). Im Blick ist
VI
Vorwort
aber auch der an Anwendungen interessierte Mathematiker, für den Anwendungen mehr als nur Beispiele zur Illustration der mathematischen Theorie sind, weil er die Herausforderung annimmt, die Mächtigkeit mathematischer Methoden für die (Formulierung (!) und) Lösung von realen, relevanten Problemen dienstbar zu machen. Die einfache lineare Regression — mit den notwendigen Grundlagen in Wahrscheinlichkeitstheorie und schließender Statistik, insbesondere der Schätz- und Testtheorie — gehört vielfach zur (methodisch orientierten) Statistik-Grundausbildung an Wirtschafts- und Sozialwissenschaftlichen Fachbereichen deutscher Universitäten. Es scheint daher nicht unbillig, die Kenntnis dieses Stoffes beim Leser vorauszusetzen. (Wenn der Stoff nicht mehr ganz präsent ist, läßt er sich doch relativ schnell aus reichlich vorhandenen Lehrbüchern — etwa POKROPP(1990), S. 262 ff oder SCHLITTGEN(1993), S. 411 ff — erarbeiten. Überdies bietet in vorliegendem Buch das zweite Kapitel in Teilen eine Wiederholung an.) Zum mathematischen Rüstzeug, über das der Leser im wesentlichen verfügen sollte, gehört außer den bereits in der Statistik- Grundausbildung geübten mathematischen Fertigkeiten der — eher elementare, zuweilen jedoch auch ein wenig "aufwendigere" — Umgang mit Matrizen. (Dieser "aufwendigere" Umgang beschränkt sich allerdings weitgehend auf Beweise — insbesondere im 4. Kapitel zur Verteilungstheorie.) Zwar werden die benötigten Begriffe, Notationen und Sachverhalte aus der Linearen Algebra jeweils an geeigneter Stelle eingeführt; doch ist dem mit Matrizen gänzlich unbekannten Leser eine einführende Lektüre — wie ζ. B. OBERHOFER(1993) (am ausführlichsten und in der Regel zum Nachlesen bei Hinweisen auf die "lineare Algebra" geeignet), OPITZ(1989), S. 159 ff oder STÖWE/HARTTER(1990), S. 159 ff — anzuraten. In einigen Büchern über Lineare Modelle (und Verwandtes) findet man Anhänge, in denen die (für das jeweilige Buch) wichtigsten Teile der Linearen Algebra zusammengestellt sind — etwa bei ARNOLD(1981), JOBSON[I](1991), S C H E F F £ ( 1 9 5 9 ) . F e r n e r ist TOUTENBURG(1992) z u n e n n e n , in
dem der Leser eine Vertiefung der Theorie Linearer Modelle findet. Im Hinblick auf die Varianz-Analyse, bei deren theoretischer Behandlung "singulare" Matrizen eine wichtige Rolle spielen, wird von vornherein die RegressionsAnalyse mit Hilfe von generalisierten Inversen (von Matrizen) durchgeführt. Der Leser dürfte sich schnell an diesen nicht ganz üblichen Weg gewöhnen und feststellen, daß auf ihm fortzuschreiten kaum zusätzliche Mühe erfordert — trotz der verschiedenen Ziele, zu denen man auf diesem Wege gelangen kann. Die Theorie der linearen Regression ist Grundlage für viele weiterführende Gebiete und deren Anwendungen. Außer der in diesem Buch behandelten Varianz-Analyse sind vor allem die wichtigen Bereiche Ökonometrie und Multivariate Datenanalyse zu nennen. Zur Orientierung über Ökonometrie sei ζ. B. auf DHRYMES(1978),
Vorwort
JUDGE/GRIFFITHS/HILL/LEE(1980),
SCHNEEWEISS(1978),
VII
SCHÖNFELD(1969)
verwiesen; zur Orientierung über Multivariate Datenanalyse mag der Leser Ζ. B . F A H R M E I R / H A M E R L E ( 1 9 8 4 ) , H A R T U N G / E L P E L T ( 1 9 8 4 ) , JOBSON[II](1992),
JOHNSON/WLCHERN(1982) konsultieren. Die Literatur zu Fragestellungen, die im Zusammenhang mit im vorliegenden Buch behandelten Problemen stehen, ist nahezu unübersehbar reichhaltig. Detaillierte Angaben finden sich an Kapitelenden in JOBSON[I](1991).
Diesem Buch sind zwei Anhänge mitgegeben. In Anhang 1 findet der Leser einige in der Programmiersprache (dyalog-)APL erstellte Programme, die gelegentlich zum Rechnen der Beispiele und Aufgaben (stets mit Lösungen) benutzt wurden; den mit APL (oder anderen Computersprachen) nicht vertrauten Leser wird dies jedoch nicht stören, da (nahezu) alle Berechnungen ohne Computer-Hilfe möglich oder zumindest nachvollziehbar sind. Anhang 2 enthält die für die Durchführung von statistischen Tests benötigten Tabellen zur F- Verteilung, berechnet mit dem Programm CDFFC in der Sprache GAUSS. Die acht Kapitel des Buches sind jeweils in mehrere Abschnitte unterteilt. Die 'markanten' Aussagen — nämlich Definitionen, Sätze, Bemerkungen, Gleichungen, Tabellen u. ä. — eines jeden Abschnitts sind fortlaufend 'numeriert', markiert — m i t jeweiliger Kapitel- und Abschnitts-Markierung. So ist Ζ. B. (3.1.9) die 9. 'Markierung' im 1. Abschnitt des 3. Kapitels. (3.1.9) markiert einen Satz, der kurz mit 'Satz (3.1.9)' oder auch nur mit '(3.1.9)' angesprochen wird. Definition (6.2.1) ist Ζ. B. eine Definition, die die Markierung 1 im 2. Abschnitt des 6. Kapitels (also in Abschnitt 6.2) hat. Ich danke Herrn Kollegen Prof. Dr. R. Schlittgen für kritische Ermunterungen und ihm und dem Oldenbourg-Verlag für die Aufnahme des Buches in die Reihe der 'Lehr- und Handbücher der Statistik'. Frau Dr. J. Arrenberg verdanke ich wertvolle - vor allem auch konzeptionelle - Hinweise. Frau Dr. R. Elsebach hat das Manuskript mit bewundernswerter Genauigkeit gelesen und mancherlei Fehler und Unzulänglichkeiten aufgedeckt. Herr stud. math. D. Mahnke hat mit beeindruckender Perfektion und Ausdauer das TpX-Manuskript erstellt. Ihnen allen gilt mein aufrichtiger Dank. Schließlich danke ich herzlich meiner Frau und meinen beiden Kindern für Geduld und Rücksicht, mit denen sie toleriert haben, daß ich mich immer wieder der Familie entzog, um an dem Buch zu arbeiten. Ich widme dieses Buch meinen Kindern Jessica
Fritz Pokropp
und
Martin.
Inhalt s Verzeichnis
1
Einleitung
1
1.1
Grundstruktur linearer Modelle
1
1.2
Spezielle Typen linearer Modelle
5
1.3
Behandelte Probleme
9
2 Einfache lineare Regression 2.1
2.2
2.3
2.4
13
Regression mit vollem Rang
13
Das Modell
13
OLS-Schätzer
15
Normalgleichungen
16
Varianz-Zerlegung
16
Unverzerrtheit/Erwartungstreue
17
Einfache lineare Regression in Matrix-Notation
18
Matrizen
18
Modell in Matrix-Form
21
Regression mit nicht vollem Rang
23
Lineare Abhängigkeit. Nicht-Existenz der Inversen
23
Generalisierte Inverse. Lösungen der Normalgleichungen
24
Identiiizierbarkeit. Schätzbarkeit
25
Aufgaben
26
X
3
Inhaltsverzeichnis
Univariate Multiple Regression 3.1
3.2
3.3
3.4 4
29
Das Modell. OLS-Schätzer. Normalgleichungen und ihre Lösungen
29
Modellannahmen
29
Normalgleichungen und OLS-Schätzer
31
Wichtige Summen von Quadraten
35
Konstruktion von g-Inversen
36
Homogene/inhomogene Regression
41
Bestimmtheitsmaße, Korrelationskoeffizienten
43
Schätzbarkeit. (Co-)Varianzen. Gauß-Markov-Theorem
47
Schätzbarkeit
47
Covarianz-Matrizen
51
Gauß-Markov-Theorem
52
Schätzung der (Co-)Varianzen
55
Schätzung von σ2
55
Diagonalisierung von Matrizen
55
Wichtige symmetrische, idempotente Matrizen
57
Unverzerrte Schätzer von Covarianz-Matrizen
58
Prognosen
60
Aufgaben
63
Normalverteilung. Quadratische Formen
67
4.1
Multivariate Normalverteilung
67
4.2
Die Chi-Quadrat-Verteilung
70
Zentrale/Nicht-Zentrale Chi-Quadrat-Verteilung
70
Unabhängigkeit quadratischer Formen
72
Fishers F-Verteilung
73
4.3
Inhaltsverzeichnis
5 Multiple Regression unter Normalverteilung 5.1
5.2
5.3
75
ML-Schätzer und Konfidenzbereiche
75
Multiples Regressionsmodell mit Normalverteilung
75
Maximum-Likelihood-Schätzer
76
Konfidenzintervalle für σ2
77
Konfidenzbereiche für β
78
Tests über Modellparaineter
80
Grundsätzliches über Tests
80
Tests über Varianzen
82
Testbare lineare Hypothesen über β
83
Teststatistiken für lineare Hypothesen über β
84
Tests über lineare Hypothesen
86
Berechnungsformeln für Teststatistiken
86
Spezielle Testprobleme über β
89
Vier wichtige Hypothesen
89
(1) Die Hypothese β = ß 0
90
(2) Die Hypothese ßi = 0, ß2 = 0, . . . , ß„ = 0
92
Sonderfall im inhomogenen Modell
94
(3) Die Hypothese ßi = ßm, • • •, ß, = ßo, (4) Die Hypothese β1 = ···=βη 5.4
XI
Aufgaben
95 98 101
XII
Inhaitsverzeichnis
β Verallgemeinerte kleinste Quadrate (GLS) 6.1
107
Modell-Annahmen
107
Allgemeine Varianz-Struktur
107
Heteroskedastizität
109
Autokorrelation
109
Verallgemeinerte Kleinste-Quadrate-Schätzer (GLS)
110
Aitken-Schätzer. Gauß-Markov-Theorem
110
Varianz-Schätzung .
112
6.3
Durbin-Watson-Test
113
6.4
Aufgaben
115
6.2
7 Varianz— und Covarianz-Analyse bei Einfach-Klassifikation 7.1
7.2
7.3
119
Varianz-Analyse ohne allgemeinen Effekt
119
Modell-Annahmen
119
OLS-Schätzer
121
Vier wichtige Hypothesen
123
Die Hypothese ßt = 0, . . . , /?, = 0
123
Die Hypothese β = ßo
124
Die Hypothese ß1 = ---=ßq
125
Die Hypothese β = k,
127
Varianz-Analyse mit allgemeinem Effekt
128
Modell-Annahmen
128
Schätzbare Funktionen. Testbare Hypothesen
129
Tests unter problematischen Restriktionen
131
Schätzungen und Tests unter sinnvollen Restriktionen
132
Grundsätzliches über Modelle mit nicht vollem Rang
135
Covarianz-Analyse
137
Inhaltsverzeichnis XIII
7.4
Modell-Annahmen
137
BLU-Schätzer (Modell ohne allgemeinen Effekt)
138
SSR und SSE (Modell ohne allgemeinen Effekt)
140
Drei wichtige Hypothesen (ohne allgemeinen Effekt)
141
Modell mit allgemeinem Effekt
145
Schätzen und Testen unter Restriktionen
146
Aufgaben
150
8 Varianzanalyse bei Zweifach-Klassifikation 8.1
155
Modellstrukturen
155
Das allgemeine Modell für zwei Faktoren
155
Spezifizierte Modelle für zwei Faktoren
157
8.2 Vollständige Kreuzklassifikation mit Wechselwirkung
158
Das Modell
158
Berechnung von SSR und SSE
160
Schätzbare Parameter. Testbare Hypothesen
162
Berechnung von Teststatistiken für ausgewogene Versuchspläne . . . 167 Teststatistiken bei nicht-ausgewogenen Versuchsplänen
169
ANOVA-Tafeln
171
Kombinationen von Hypothesen
172
8.3 Vollständige Kreuz-Klassifikation ohne Wechselwirkung
8.4
8.5
174
Modell und test bare Hypothesen
174
Berechnung von SSE
176
Berechnung von Teststatistiken und ANOVA-Tafeln im ausgewogenen Fall
177
Hierarchische Klassifikation
179
Spezifikation des Modells
179
Testbare Hypothesen
181
Berechnung der Teststatistiken
183
Aufgaben
186
XIV
Inhaltsverzeichnis
Anhang 1 APL-Programme Anhang 2 Prozentpunkte der -F-Verteilung
193 193 213 213
Literaturverzeichnis
232
Symbolverzeichnis
235
Stichwortverzeichnis
238
Kapitel 1 Einleitung 1.1
Grundstruktur linearer Modelle
Sowohl in der wissenschaftlichen Theorie als auch in der Praxis steht man oft vor dem Problem, gewisse (als wichtig erachtete) quantitative Größen — wie "Ertrag", "Lebensdauer" (eines Produktes), "Transport-Kapazität" — durch den Einfluß anderer Größen — wie "Düngemittelmenge", "Lieferant des Vorproduktes", "Warenmengen" — zu erklären. Wir beschränken uns auf nur eine zu erklärende Größe, die wir stets mit Y bezeichnen. Die für die "Erklärung" von Y herangezogenen Variablen werden mit Χχ,..., Xk bezeichnet. In einem "linearen Modell" — und nur solche Modelle werden hier behandelt1 — erfolgt die "Rückführung" (Regression) von Y auf X\% . . . , Xk dadurch, daß — bis auf eine "unsystematische" Stör-Größe U — die Variable Y (der Regressant!) als von den Regressoren Xi, . . . , Xk linear abhängig unterstellt wird. Wir haben also reelle Zahlen — die Regressionskoeffizienten — ß\, ..., ßk, so daß gilt: (1.1.1) (1) Y = ß1X1 + · · · + ßkXk + U
(Modell-Gleichung) ;
(2) Y: zu erklärende quantitative Größe (Regressand; endogen: im Modell erklärt) ; (3) Λ ι , . . . , Xk· erklärende Größen (Regressoren; exogen: nicht innerhalb des Modells zu erklären, "von außen" gegeben) ; (4) U: Stör-Term (auch theoretisches Residuum: theoretisch unerklärter Rest; Fehler-Term) . 'Erstens stellen lineare Beziehungen mathematisch "einfache" Relationen dar, die überdies für die Formalisierung von in realen Situationen vorhandenen Zusammenhängen oft sehr gute Dienste tun (wenn nicht sogar ausreichen!); zweitens ist die mathematische Behandlung linearer Modelle vergleichsweise problemlos möglich.
2
Kapitel 1.
Einleitung
Natürlich sind die Koeffizienten ßi im allgemeinen unbekannt. Um das Modell (1.1.1) zu "verifizieren" — oder auch zu verwerfen —, muß man verschiedene "Messungen" der Größen Υ, Xi, Xk vornehmen, die dann die Grundlage der "empirischen" Nachprüfung bilden. Wir vereinfachen die Situation nun durch die Annahme, daß Xx, . . . , Xk "kontrollierbar" sind, d. h. daß wir Werte für Χι, Xk fest vorgeben können. Wir sprechen dann von fixen Regressoren. Man denke an folgendes (1.1.2) Beispiel (Düngemittel) Χι = Saatgutmenge, Xj = Menge von Düngemittel A, X$ = Menge von Düngemittel Β, Y = Ertrag (auf genormtem Versuchsfeld für eine bestimmte Feldfrucht). Auf (beispielsweise) 8 Versuchsfeldern könnte man nun ζ. B. folgende Mengen (in gewissen Einheiten) vorgeben (x