195 96 97MB
German Pages 360 Year 1984
K.M.S.Humak Statistische Methoden der Modellbildung I I
Mathematische Lehrbücher und Monographien Herausgegeben von der Akademie der Wissenschaften der DDR Institut für Mathematik
II. Abteilung Mathematische Monographien Band 44 Statistische Methoden der Modellbildung I I von K. M. S. Humak
Statistische Methoden der Modellbildung II Nichtlineare Regression, robuste Verfahren in linearen Modellen, Modelle mit Fehlern in den Variablen
von K. M. S. Humak
Mit 10 Abbildungen
Akademie-Verlag Berlin 1983
Erschienen im Akademie-Verlag, DDR-1086 Berlin, Leipziger Straße 3—4 © Akademie-Verlag Berlin 1983 Lizenznummer: 202 • 100/537/83 Printed in the German Democratic Republic Einband und Schutzumschlag: Dietmar Kunz Gesamtherstellung: VEB Druckerei „Thomas Müntzer", 5820 Bad Langensalza Lektor: Dr. Reinhard Höppner LSV 1075 Bestellnummer: 7618721 (6130/2) DDR 5 8 , - M ISSN 0076-5430
Der Autorenname ist ein Pseudonym für Kollektiv Mathematische Statistik: Humboldt-Universität zu Berlin und Akademie der Wissenschaften der DDR
Neben den Wissenschaftlern der genannten Einrichtungen gehört J . JUREÖKOVÄ. von der Karls-Universität Prag, die ein halbes J a h r Gast an der Humboldt-Universität war, zum Autorenkollektiv. Das Kollektiv stand unter der Leitung von H E L G A und O L A F BUNKE, die auch für die Herausgabe verantwortlich zeichnen. Autoren: Kap. 1
1.1
H . B U N K E , W . H . SCHMIDT
1.2
U . SCHULZE
Kap. 2 Kap. 3
Anhänge
J . JUREÖKOVÄ 3.1-3.6
H . - P . HÖSCHEL
3.7
M . NUSSBAUM
3.8-3.9
H . - P . HÖSCHEL
AI
M . NUSSBAUM
A 2 - A 3
W . H . SCHMIDT
An der redaktionellen Bearbeitung wirkten B. GBABOWSKI, K. H E N S C H K E , B. S E I F E R T und R. STRÜBY mit. Die Leitung der redaktionellen Bearbeitung lag in den Händen v o n K . HENSCHKE.
Große Teile des Manuskripts wurden von R. T E U F E L angefertigt. Besonderer Dank gebührt R. H Ö P P N E B vom Akademie-Verlag für seinen Anteil an der redaktionellen Arbeit.
Vorwort
Die Theorie linearer Modelle spielt eine zentrale Rolle bei der statistischen Analyse experimenteller Daten sowie bei der statistischen Modellierung von UrsacheWirkungs-Beziehungen. Sie ist in einer außerordentlich großen Zahl von Arbeiten und Monographien entwickelt und dargestellt worden, und unser Band I über „Statistische Inferenz für lineare Parameter" gibt eine umfassende Darstellung dieser Theorie. Bei vielen Problemen der statistischen Analyse und Modellierung sind aber lineare Ansätze nicht ausreichend. Es werden erweiterte Modelle sowie allgemeinere oder andersartige Methoden benötigt. Dies ist beispielsweise der Fall, wenn erst nichtlineare Regressionsfunktionen eine ausreichende Beschreibung von Ursache-WirkungsBeziehungen geben oder wenn die Ursache oder die Regressoren nur mit Fehlern beobachtet werden können. Manchmal erfordern auch Unregelmäßigkeiten der Beobachtungsfehler, wie z.B. das Vorhandensein von „Ausreißern", die Verwendung von sogenannten „robusten" Verfahren. Die Behandlung solcher Probleme erfordert im allgemeinen einen erheblichen Mehraufwand an Numerik und Rechentechnik. Gerade die gewachsenen Möglichkeiten dieser Gebiete erlaubten es dem Statistiker, sich solchen komplizierten Fragestellungen zuzuwenden. Daraus ergab sich in den letzten Jahren ein entscheidender Impuls für die Weiterentwicklung der statistischen Theorie. Viele theoretische und angewandte Arbeiten zur nichtlinearen Regressionsanalyse, zu funktionellen oder strukturellen Beziehungen und zu nichtparametrischen und robusten Schätzungen sind in diesem Zusammenhang entstanden. Das Autorenkollektiv hat sich das Ziel einer umfassenden und nach Möglichkeit einheitlichen Darstellung des modernen Standes dieser Gebiete gesetzt. Während Einzelthemen in einer Reihe von Büchern wie die von M. G. K E N D A L L und A. S T U A R T , E. M A I O K V A U D und J . B A B D behandelt werden und während es für einige Gebiete wichtige Übersichtsartikel gibt, ist bisher eine solche Darstellung für keines der genannten Gebiete vorhanden. Das Buch wendet sich an den Statistiker in Forschung, Lehre und Praxis und an den Mathematiker, der sich über die Theorie der obengenannten Gebiete, also der statistischen Inferenz über Parameter nichtlinearer Regressionsfunktionen, der Modelle mit Fehlern in den. Variablen oder der robusten Verfahren für Regressionsparameter informieren will. Dabei werden solide Kenntnisse der Wahrscheinlichkeitstheorie und Mathematischen Statistik, insbesondere auch der Regressionsanalyse, vorausgesetzt. Das Buch ist derart aufgebaut, daß es unabhängig von Band I lesbar ist und die verschiedenen Probleme und Ergebnisse streng mathematisch und in einer systematischen Form abhandelt. Dabei sind die Kapitel einerseits aufeinander abgestimmt, aber andererseits auch selbständig lesbar. Um den ohnehin großen Umfang des Buches nicht zu überschreiten, werden eine Reihe von Ergebnissen ohne Beweis diskutiert.
8
Vorwort
Ähnlich wie in Band I erscheinen die bei Beweisen benötigten Sätze und Hilfsmittel der linearen Algebra, Wahrscheinlichkeitsrechnung und Statistik in einem Anhang, um den Umfang der Beweise zu verkleinern und um die für die betrachteten Gebiete spezifischen Überlegungen und Beweisschritte besser hervorzuheben. Dabei sind einige der Ergebnisse aus dem Anhang neuartig und eigens zur Lösung der untersuchten Probleme abgeleitet worden. Bei Verweisen auf Ergebnisse über Inferenz für lineare Parameter werden die entsprechenden Stellen aus Band I genannt. 1 ) I n der folgenden Beschreibung des Inhaltes kann angesichts des Buchumfanges keineswegs ein Überblick angestrebt werden. Es wird auf die wesentliche Ausrichtung der Kapitel, auf neue Ergebnisse und auf einige im Buch aufgenommene besonders aktuelle Ergebnisse der Spezialliteratur hingewiesen. Viele der beschriebenen Ergebnisse sind von den Autoren erzielt worden. Dies wird hier nicht im einzelnen hervorgehoben. Kapitel 1 ist der Schätzung von Parametern nichtlinearer Regressionsfunktionen und der Prüfung von Hypothesen über solche Parameter gewidmet. Es wird zunächst diskutiert, wieso Approximationen durch lineare Modelle oder Transformationen nichtlinearer Modelle auf lineare nur manchmal zu befriedigenden Resultaten führen. Dabei werden die Ergebnisse von I. P E T E R S E N und C. W I S O T Z K I über die Approximation durch Interpolationspolynome gesondert betrachtet. Hauptgegenstand der Untersuchungen ist die gewichtete Kleinste-Quadrat-Schätzung bzw. die MaximumLikelihood-Schätzung der Regressionsparameter. Dabei wird eine Erweiterung der bisher üblichen Voraussetzungen erreicht, indem teilweise auf die Annahme der Adäquatheit der Regressionsfunktion und auf die Annahme identischer Fehlervarianzen verzichtet wird. So werden die von R. I . J E N N B I C H und E. MALINVATJD bewiesenen asymptotischen Eigenschaften der gewichteten Kleinste-Quadrat-Schätzung, wie Konsistenz und asymptotische Normalität im Modell ohne Normalverteilung verallgemeinert. Außerdem wird ein asymptotisches Analogon zum Gauß-MarkowTheorem gezeigt. Unter der Annahme der Normalverteilung ergeben sich stärkere Optimalitätseigenschaften (BAN-Eigenschaft), die im Falle identischer Fehlerverteilungen auch die Normalverteilung charakterisieren. Entsprechende Ergebnisse werden auch für die Maximum-Likelihood-Schätzung unter allgemeineren Annahmen über die Fehlerverteilung abgeleitet. Eine ähnliche asymptotische Theorie wird f ü r die Residualschätzung der Varianz entwickelt. Für die Prüfung von Hypothesen über Regressionsparameter werden asymptotische Tests auf Grundlage der KleinsteQuadrat-Schätzung und der Likelihood-Quotienten-Statistik untersucht, und es wird ihre asymptotische Güte unter lokalen Alternativen angegeben. Konfidenzbereiche werden überblicksweise beschrieben. Ein gesonderter umfangreicher Abschnitt behandelt Modelle mit Zustandsänderungen, bei denen verschiedene Regressionsbeziehungen für bestimmte Teilmengen von Beobachtungen gelten. Dabei werden Modelle mit abrupten und mit stetigen Zustandsänderungen betrachtet. F ü r die Schätzung der Umschlagpunkte und der Regressionsparameter werden geeigeten Verfahren, insbesondere Kleinste-QuadratSchätzungen sowie ihre Eigenschaften, wie z.B. die Konsistenz, untersucht. Es wird die Anwendung von Tests und Cluster-Verfahren für Entscheidungen über das Vorliegen von Umschlägen diskutiert. Der Abschnitt gibt einen Überblick über die Literatur zu Modellen mit Zustandsänderungen. *) Verweise auf Band 1 werden durch „HTTMAK I (1977)" gekennzeichnet.
Vorwort
9
Im Kapitel 2 wird die Theorie robuster Verfahren zur Inferenz über lineare Parameter in linearen Modellen mit unabhängigen, identisch und stetig verteilten Fehlern entwickelt. Nach einführender Diskussion der Robustheit werden vorwiegend asymptotische Eigenschaften von L-Schätzungen, die auf Linearkombinationen von Ordnungsstatistiken beruhen, von R-Schätzungen, die aus Rang-Tests oder aus rangabhängigen Kriterien abgeleitet werden, und von M-Schätzungen, die aus Verallgemeinerungen des Kleinste-Quadrat-Kriteriums berechnet werden, untersucht. Für den Spezialfall des Lokationsmodells wird eine von P. H U B E R bewiesene, für endliche Stichprobenumfänge gültige Minimax-Eigenschaft derjenigen M-Schätzung gezeigt, die durch die Hubersche ^-Funktion gegeben ist. Für M-Schätzungen linearer Parameter wird unter gewissen Regularitätsvoraussetzungen die asymptotische Normalität gezeigt. Es erweist sich nach einem Satz von P. HTJBER, daß die Hubersche M-Schätzung eine asymptotische Minimax-Eigenschaft hat. Diese Eigenschaft gilt dann auch für die zur Huberschen M-Schätzung asymptotisch äquivalenten L- und R-Schätzungen. Für die asymptotische Äquivalenz von M-, L- und R-Schätzungen werden Gleichungen zwischen den zugehörigen Gewichts- bzw. Score-erzeugenden Funktionen angegeben. Numerische Algorithmen zur Berechnung von M-Schätzung werden, P. HTJBER und R. DTJTTER folgend, ausführlich dargestellt. Als Grundlage für rangabhängige Verfahren werden zunächst die bekannten lokal besten Rangtests für die Hypothese eines verschwindenden Regressionsanteils und für die Hypothese der Symmetrie abgeleitet. Für die entsprechenden linearen Rangstatistiken bzw. Zeichenrangstatistiken wird nach J . H A J E K die asymptotische Normalität unter der Nullhypothese gezeigt. Anschließend wird die gleichmäßige asymptotische Linearität der linearen Rangstatistik in den Regressionsparametern gezeigt sowie der analoge, von C. VAN E E D E N bewiesene Satz für die Zeichenrangstatistik angegeben. Mit Hilfe dieser Eigenschaft ergibt sich die asymptotische Normalität von R-Schätzungen, die auch die Angabe der asymptotischen Effizienz unter verschiedenen Verteilungsannahmen gestattet. Nach C. VAN E E D E N wird auch die asymptotische Normalität einer linearisierten Version von Rangschätzungen studiert. Da die asymptotische effizienten RSchätzungen von der unbekannten Dichte abhängen, werden drei von J. H A J E K , R. B E R A N und C . VAN E E D E N untersuchte adaptive Verfahren vorgestellt, die asymptotisch effizient sind. Asymptotische Konfidenzintervalle für eindimensionale Regressionskoeffizienten werden aus Rang-Tests konstruiert. Es wird gezeigt, daß der Quotient der Längen des Standard- bzw. des Rangkonfidenzintervalls gegen die Pitmansche asymptotische relative Effizient des Standard- und des Rang-Tests konvergiert. Ein von F. J. ANSCOMBE, J. GEERTSMA sowie M. GOSH und P. K. S E N untersuchtes, auf dem Wilcoxon-Test beruhendes sequentielles Konfidenzintervall mit vorgegebener Länge wird ebenfalls diskutiert. Kapitel 3 gibt eine Einführung in die Problematik der Modelle- mit Fehlern-in-denVariablen wie auch eine relativ abgeschlossene zusammenfassende Darstellung der vorhandenen Ergebnisse. Nach Diskussion einfacher Beispiele aus Anwendungen wird erläutert, wieso die Kleinste-Quadrat-Schätzungen aus Regressionsmodellen bei Vorhandensein von Fehlern in den Variablen schlecht sein können. Allgemeine Modellformulierungen werden ausführlich diskutiert. Innerhalb eines Überblicks über Identifizierbarkeitsaussagen werden unter anderem die Sätze von O . R E I E R S O L angegeben. Es wird erläutert, daß in einem Modell mit nichtzufälligem Versuchsplan der Strukturparameter nicht konsistent schätzbar ist, wenn er in einem zugehörigen Modell mit zufälligem Versuchsplan nicht identifizierbar ist. Maximum-Likelihood-Schätzungen
10
Vorwort
werden zunächst für bivariate lineare funktionelle Beziehungen behandelt. Dabei sind nach N. R. Cox und G. R. D O L B Y sowohl Modelle mit nichtzufälligem wie auch solche mit normalverteiltem Versuchsplan gemeinsam behandelbar. Weiterhin werden multivariate Modelle mit nichtzufälligem Versuchsplan betrachtet. Der Zusammenhang zwischen Maximum-Likelihood- und Kleinste-Quadrat-Schätzungen wird beschrieben. Unter der Annahme unabhängiger Meßfehler ist die Maximum-Likelihood-Schätzung aus einer Eigenwertaufgabe erhältlich. Neben diesem bekannten Ergebnis werden Äquivarianz und Eindeutigkeitsaussagen gezeigt. Für Modelle mit bis auf einen Faktor bekannter Kovarianzmatrix ermöglicht die koordinatenfreie Darstellung die Zusammenfassung einiger bekannter Ergebnisse. Es wird der lange Zeit übersehene Satz von T. W. A N D E R S O N über die Maximum-Likelihood-Schätzung bei unbekannter Kovarianz für normalverteilte unabhängige Fehler als Lösung eines Eigenwertproblems dargestellt. Für nichtlineare Modelle werden Möglichkeiten zur Vereinfachung auf der Grundlage spezieller Annahmen über die Kovarianz der Fehler und Identifizierbarkeitseigenschaften angegeben. Für nichtlineare Modelle mit Wiederholungen eines festen Versuchsplanes werden, ähnlich wie im Kapitel 1, die Konsistenz, die asymptotische Normalität und die Optimalität der gewichteten KleinsteQuadrat-Schätzungen bzw. der Maximum-Likelihood-Schätzung gezeigt. Auch eine von W . A. FTJLLER und K . M. W O L T E R vorgeschlagene modifizierte Gauß-NewtonIteration erweist sich als asymptotisch normal. Explizite Formeln und Schätzungen für die asymptotischen Varianzen und Kovarianzen der verallgemeinerten KleinsteQuadrat-Schätzungen werden für den bivariaten Fall angegeben. Als Alternativen zur Maximum-Likelihood-Schätzung werden neben anderen Instrument-VariablenSchätzungen behandelt. Die Beziehungen zwischen bekannten Schätzungen bei funktionellen Beziehungen und bei Simultangleichungen der Ökonometrie werden nach T. W. A N D E R S O N deutlich gemacht und mit einem approximativen Gütevergleich der Schätzungen verbunden. Ebenso werden die von W. A. FTJLLER untersuchten modifizierten Maximum-Likelihood-Schätzungen und Zwei-Stufen-Kleinste-Quadrat-Schätzungen verglichen. F ü r lineare Modelle, in denen Meßfehler und Versuchspunkte durch Zeitreihen erzeugt werden, findet man Aussagen über Konsistenz, asymptotische Normalität und Identifizierbarkeit bei einer von P . M. R O B I N S O N konstruierten Schätzung. Ein selbständiger umfangreicher Abschnitt ist einer einheitlichen asymptotischen Theorie linearer Modelle mit nichtzufälligem Versuchsplan gewidmet. Nach Erläuterung der Parametrisierung und einer Zusammenstellung von Ergebnissen über Maximum-Likelihood-Schätzung wird eine allgemeine Formulierung von „kanonischen" Instrument-Variablen-Schätzungen erarbeitet, als deren formaler Spezialfall die Maximum-Likelihood-Schätzung erscheint. Die Konsistenz solcher Schätzungen wird unter gewissen Voraussetzungen bewiesen, die zusätzlich gedeutet werden. Einige aus der Literatur bekannte Spezialfälle werden diskutiert. Die asymptotische Effizienz der Maximum-Likelihood-Schätzung kann nun wegen des unendlich-dimensionalen Parameterraumes nicht mit Hilfe der klassischen Schätztheorie bewiesen werden. Deshalb wird unter der speziellen Annahme der Normalverteilung eine normale Grenzverteilung und damit zusammenhängend die Effizienz in einer gewissen heuristisch motivierten Klasse von Schätzungen bewiesen. Diese Klasse enthält neben der Maximum-Likelihood-Schätzung die wichtigsten in der Literatur untersuchten alternativen Schätzungen. Darüber hinaus ergibt sich aus einem Verbesserungsverfahren eine einfach berechenbare effiziente Schätzung.
11
Vorwort
Viele bekannte Resultate über Grenzverteilung und Vergleiche folgen aus den allgemeinen Sätzen. Basierend auf Ergebnissen von T. W. A N D E R S O N wird ein Uberblick über Tests und Bereichschätzungen für lineare Modelle gegeben. Schließlich werden Möglichkeiten zur numerischen Berechnung von gewichteten Kleinste-Quadrat-Schätzungen beschrieben. Für zweidimensionale lineare Modelle mit verschiedenen aber bekannten Kovarianzen über den einzelnen Versuchspunkten wird ein Verfahren von J . H. W I L L I AMSON wiedergegeben. Für zweidimensionale Polynomial-Modelle wird nach M. O ' N E I L L und L. G. S I N C L A I R ein Newton-Raphson-ähnliches Verfahren beschrieben. Schließlich wird für allgemeine Modelle mit Fehlern in den Variablen die spezielle Struktur der Gauß-Newton-Verfahren diskutiert. Helga Bunke
Olaf Bunke
Inhaltsverzeichnis
1.
Parameterschätzung und Hypothesenprüfung in nichtlinearen Modellen
17
1.1. 1.1.1. 1.1.2. 1.1.3. 1.1.4. 1.1.5. 1.1.6. 1.1.6.1. 1.1.6.2. 1.1.6.3. 1.1.6.4. 1.1.6.5. 1.1.6.6. 1.1.7. 1.1.8. 1.1.9.
Parameterschätzung in allgemeinen nichtlinearen Modellen Einleitung Beispiele Kleinste-Quadrat-Schätzung Linearisierung Approximation von Regressionsfunktionen durch Polynome Konsistenz und asymptotische Verteilung der Kleinste-Quadrat-Schätzung Einleitung Modell und Voraussetzungen Konsistenz Weitere Voraussetzungen Asymptotische Verteilungen Spezialfälle und verwandte Resultate Asymptotische Optimalität Asymptotische Ergebnisse für die Schätzung und Tests der Varianz Tests und Konfidenzbereiche für die Regressionskoeffizienten
19 19 20 21 24 27 32 32 32 34 38 39 42 43 52 59
1.2. 1.2.1. 1.2.2. 1.2.2.1. 1.2.2.2. 1.2.2.3. 1.2.3. 1.2.3.1. 1.2.3.2. 1.2.3.3. 1.2.4.
Modelle mit Zustandsänderungen Einführung Geordnete Modelle mit abrupten Zustandsänderungen Modell Kleinste-Quadrat-Schätzung Tests auf Vorliegen einer Zustandsänderung Modelle mit stetigen Zustandsänderungen Modell Kleinste-Quadrat-Schätzung Einige Testprobleme Einige asymptotische Resultate zur Kleinste-Quadrat-Schätzung in geordneten Modellen mit Zustandsänderungen Einige andere Modelle mit Zustandsänderungen Methoden der Identifikation von Zustandsänderungen in Modellen mit unbekannter Zustandsanzahl
63 63 68 68 70 71 77 77 78 80
1.3. 1.3.1. 1.3.2.
Literatur Literatur zu Abschnitt 1.1 Literatur zu Abschnitt 1.2
90 90 92
2.
Robuste statistische Methoden in linearen Modellen
95
2.1.
Allgemeine Bemerkungen über Robustheit
95
2.2. 2.2.1. 2.2.2. 2.2.3. 2.2.4.
Robuste Alternativen zur Methode der Kleinsten Quadrate L-Schätzungen M-Schätzungen R-Schätzungen Zusammenhang zwischen L-, M- und R-Schätzungen
1.2.5. 1.2.6.
82 88 89
96 97 98 99 101
14
Inhaltsverzeichnis
2.3. 2.3.1.
Eigenschaften von M-Schätzungen 101 Minimax-Eigenschaften von M-Schätzungen im Lokationsmodell bei endlichem Stichprobenumfang 102 Andere Wahl der y-Funktion 105 Rechentechnische Aspekte und numerische Algorithmen 107 Asymptotische Eigenschaften von M-Schätzungen 110 Einleitung 110 Asymptotische Normalität von M-Schätzungen 110 Asymptotische Minimaxeigenschaften von M-Schätzungen (und von R - und L-Schätzungen) 117
2.3.2. 2.3.3. 2.3.4. 2.3.4.1. 2.3.4.2. 2.3.4.3. 2.4. 2.4.1. 2.4.2.
Einige Eigenschaften von Rangtests Lokal beste Rangtests Asymptotisches Verhalten von Rang- und Zeichenrangteststatistiken . . . .
120 121 125
2.5. 2.5.1. 2.5.2. 2.5.3.
Auf Rangtests beruhende Schätzungen von Regressionskoeffizienten Asymptotische Normalität von R-Schätzungen Linearisierte Rangschätzungen und ihre asymptotische Verteilung Adaptive Rangschätzungen
131 133 137 139
2.6. 2.6.1. 2.6.2.
Asymptotischer Vergleich von verschiedenen Schätzverfahren 143 Asymptotische Verteilung der Differenz von M- und R-Schätzungen 143 Asymptotische Verteilung der Differenz von linearisierter Rangschätzung und R-Schätzung 145
2.7. 2.7.1. 2.7.2.
Auf Rängen basierende Konfidenzintervalle für Regressionskoeffizienten . . 146 Asymptotische Effizienz von Rangkonfidenzintervallen 147 Auf dem Wilcoxon-Test beruhende Konfidenzintervalle mit beschränkter Länge 149
2.8.
Literatur
152
3.
Modelle mit Fehlern in den Variablen
156
3.1. 3.1.1. 3.1.2. 3.1.3. 3.1.3.1. 3.1.3.2. 3.1.3.3.
Grundeigenschaften von Modellen mit Fehlern in den Variablen Funktionelle und strukturelle Beziehungen — eine Einführung Vergleich mit dem Regressionsmodell Modelle mit Fehlern in den Variablen Grundmodell Lineare funktionelle Beziehungen Lineare funktionelle Beziehungen mit festem Versuchsplan und mit linearem Regressionsanteil Allgemeine Modelle mit Fehlern in den Variablen Regressionsmodelle Funktionelle Beziehungen mit zufälligem Versuchsplan Identifizierbarkeit Über Existenz konsistenter Schätzungen des Strukturparameters bei nichtzufälligem Versuchsplan Bibliographische Anmerkungen
161 161 163 166 166 171
3.1.3.4. 3.1.3.5. 3.1.3.6. 3.1.4. 3.1.5. 3.1.6. 3.2. 3.2.1. 3.2.1.1. 3.2.1.2. 3.2.1.3. 3.2.2. 3.2.2.1. 3.2.2.2. 3.2.2.3. 3.2.2.4. 3.2.3. 3.2.3.1. 3.2.3.2.
172 173 174 176 176 182 183
Maximum-Likelihood-Schätzung 189 Bivariate lineare funktionelle Beziehungen 190 Das allgemeine Modell 190 Wiederholte Beobachtungen 191 Beobachtungen ohne Wiederholung 195 Maximum-Likelihood- und Kleinste-Quadrat-Schätzung 197 Sehätzverfahren für Modelle mit Fehlern in den Variablen 197 Maximum-Likelihood-Schätzung 197 Kleinste-Quadrat-Schätzung 198 Meßbarkeit und Eindeutigkeit 199 Lineare funktionelle Beziehungen mit nichtzufälligem Versuchsplan und bekannter Kovarianz I 200 Modell 200 Kleinste-Quadrat-Schätzung 200
Inhaltsverzeichnis 3.2.3.3. 312.3.4. 3.2.4. 3.2.5. 3.2.6. 3.2.7. 3.3. 3.3.1. 3.3.1.1. 3.3.1.2. 3.3.1.3. 3.3.1.4. 3.3.1.5. 3.3.1.6. 3.3.2. 3.3.3. 3.3.3.1. 3.3.3.2. 3.3.3.3. 3.3.4. 3.3.4.1. 3.3.4.2. 3.3.4.3. 3.3.4.4. 3.3.4.5. 3.4. 3.4.1. 3.4.2. 3.4.3. 3.4.4. 3.4.5. 3.4.6. 3.4.7. 3.5. 3.5.1. 3.5.1.1. 3.5.1.2. 3.5.1.3. 3.5.1.4. 3.5.1.5. 3.5.1.6. 3.5.2. 3.5.3.
Äquivarianz Lineare funktionelle Beziehungen m i t nichtzufälligen nichtbeobachtbaren Variablen und m i t linearem Regressionsanteil Lineare funktionelle Beziehungen mit nichtzufälligem Versuchsplan und bis auf einen F a k t o r bekannter Kovarianz Lineare funktionelle Beziehungen m i t nichtzufälligem Versuchsplan bei unabhängigen normalverteilten Beobachtungsfehlern Nichtlineare Modelle mit bekannter Fehlerkovarianz Modelle m i t unbekannter Fehlerkovarianz bei normalverteilten Fehlern . . . Weitere Schätzverfahren Lineare funktionelle Beziehungen m i t unabhängigen Beobachtungsfehlern Einführung Gewöhnliche und orthogonale Kleinste-Quadrat-Sehätzung Instrumentvariable Benutzung von Varianzkomponenten Teil-Informations-Maximum-Likelihood-Schätzung und Zwei-Stufen-Kleinste-Quadrat-Schätzung Modifizierte Maximum-Likelihood-Schätzung Lineare funktionelle Beziehungen mit abhängigen Beobachtungsfehlern . . . Nichtlineare Modelle m i t unabhängigen Beobachtungsfehlern Modifizierte Kleinste-Quadrat-Sehätzung Verschiedene Kovarianzen Unbekannte, verschiedene Kovarianzen Schätzung m i t Hilfe von Instrumentvariablen bei linearen funktionellen Beziehungen Einleitung E i n allgemeines Modell funktioneller Beziehungen m i t nichtzufälligen nichtbeobachtbaren Variablen Maximum-Likelihood-Schätzung bei linearen funktionellen Beziehungen mit nichtzufälligen nichtbeobachtbaren Variablen Instrumentvariablenschätzung bei linearen funktionellen Beziehungen mit zufälligen nichtbeobachtbaren Variablen Instrumentvariablenschätzung bei linearen funktionellen Beziehungen mit nichtzufälligen nichtbeobachtbaren Variablen Asymptotische Theorie für lineare funktionelle Beziehungen mit nichtzufälligen nichtbeobachtbaren Variablen und mit unabhängigen Fehlern . . Einleitung Konsistenz Beispiele Asymptotische Normalität unter Normalverteilung Asymptotische Effizienz Der allgemeine nichtnormale Fall Schlußbemerkungen Spezielle Asymptotik Asymptotik bei festem Versuchsplan Modell Asymptotik für Maximum-Likelihood-Schätzungen Die Informationsmatrix unter Normalverteilung Asymptotik für gewichtete Kleinste-Quadrat-Schätzungen Aussagen über asymptotische Optimalität von gewichteten KleinsteQuadrat-Schätzungen Asymptotische Kovarianz der Schätzung des Strukturparameters Gütevergleich von Maximum-Likelihood-Schätzung und Zwei-StufenKleinste-Quadrat-Schätzung bei linearen funktionellen Beziehungen m i t nichtzufälligen nichtbeobachtbaren Variablen Gütevergleich von modifizierten Maximum-Likelihood-Schätzungen und Zwei-Stufen-Kleinste-Quadrat-Schätzungen bei linearen funktionellen B e ziehungen mit nichtzufälligen nichtbeobachtbaren Variablen
15 203 204 205 206 212 215 216 217 217 217 218 220 220 222 223 227 227 229 230 230 230 231 237 242 247 248 248 255 261 264 270 281 284 286 287 287 288 288 289 291 292 294 296
16
Inhaltsverzeichnis
3.5.4. 3.5.4.1. 3.5.4.2. 3.5.5.
Asymptotik bei abhängigen Fehlern in linearen funktionellen Beziehungen . . 297 Minimum-Kontrast-Schätzung 297 Identifizierbarkeit 299 Nichtlineare Modelle mit wachsendem Versuchsplan 299
3.6. 3.6.1. 3.6.2. 3.6.3.
Prüfung von Hypothesen in linearen funktionellen Beziehungen Tests zur Dimension des Unterraumes Tests bei vorgegebenem Unterraum Test auf Vorliegen einer linearen funktionellen Beziehung
305 305 306 307
3.7. 3.7.1. 3.7.2. 3.7.3.
Bereichsschätzung bei linearen funktionellen Beziehungen Der Fall von Unterräumen der Kodimension Eins Konsistenz von Bereichsschätzungen Bivariate lineare Modelle
308 308 308 309
3.8. 3.8.1. 3.8.1.1.
309 310
3.8.2. 3.8.2.1. 3.8.2.2. 3.8.2.3. 3.8.3. 3.8.3.1. 3.8.3.2. 3.8.3.3. 3.8.3.4. 3.8.3.5.
Numerik Lineare funktionelle Beziehungen Bivariate lineare funktionelle Beziehungen m i t nichtzufälligen nichtbeobachtbaren Variablen Bivariate lineare funktionelle Beziehungen m i t zufälligen nichtbeobachtbaren Variablen Multivariate lineare funktionelle Beziehungen mit nichtzufälligen nichtbeobachtbaren Variablen Bivariate Polynomialbeziehungen Polynomialbeziehungen Newton-Raphson-Verfahren Der Algorithmus Allgemeine Modelle mit Fehlern in den Variablen Voraussetzungen zur Anwendung der Verfahren Gauß-Newton-Verfahren Vereinfachtes Gauß-Newton-Verfahren Modifiziertes Gauß-Newton-Verfahren Newton-Raphson-Verfahren
311 311 311 312 313 313 313 314 315 315 316
3.9. 3.9.1. 3.9.2.
Literatur Bibliographie zu Fehlern-in-den-Variablen-Modellen Weitere Literatur
317 317 328
A.
Anhänge
331
A. 1. A.2. A. 3. A. 4. A. 4.1. A. 4.2. A. 4.3. A. 4.4. A. 4.5. A. 4.6. A. 4.7.
Lineare Algebra Asymptotik Ergänzungen Bezeichnungen Abkürzungen Vektoren, Matrizen, R ä u m e Mengen und Funktionen Zufallsgrößen und Modelle Verteilungen und Maße Konvergenz Stichprobenfunktionen
331 333 339 344 344 345 347 348 349 349 350
3.8.1.2. 3.8.1.3.
310 311
Namenverzeichnis
351
Sachverzeichnis
356
1.
Parameterschätzung und Hypothesenprüfung in nichtlinearen Modellen
Während sich für lineare Regressionsmodelle eine befriedigende, abgerundete Theorie ,kleiner' Stichproben entwickeln läßt (vgl. H U M A K I (1977)), scheitern im nichtlinearen Fall wirksame Konzepte der Statistik an der komplizierten Struktur des Parameterraumes. Geometrische Zugänge, wie in der linearen Schätztheorie, oder die Anwendung der Theorie der Exponentialfamilien im Normalmodell, sind jetzt nicht mehr erfolgreich. Heuristisch motivierte Schätzungen, wie die Kleinste-QuadratSchätzung, sind nur noch iterativ bestimmbar. Sie sind nicht erwartungstreu und ihre Verzerrung und Varianz sind nur approximativ bestimmbar (vgl. (1.1.3)). Um diesen Schwierigkeiten auszuweichen, wird der Statistiker zunächst versuchen, das nichtlineare Modell durch ein lineares zu approximieren oder durch eine geeignete Datentransformation den Übergang zu einem linearen Modell zu erzwingen (vgl. 1.1.4). Allerdings gehen bei der Approximation oft Parameterinterpretation und typisch nichtlineare Effekte, die für den Naturwissenschaftler vielleicht gerade von Interesse sind, verloren. Bei der Datentransformation, die nur in Ausnahmefällen möglich ist, muß die Auswirkung auf die Fehlerstruktur beachtet werden. Spielt die Parameterinterpretation eine untergeordnete Rolle, handelt es sich vielmehr darum, die unbekannte Regressionsfunktion möglichst gut zu approximieren, dann kann die statistische Vorgehensweise mit den numerischen Verfahren der Interpolationspolynome kombiniert werden (vgl. 1.1.5). Ein entsprechender Zugang liegt jedoch bisher nur für eindimensionale Regressanden vor. Eine Möglichkeit der theoretischen Behandlung des nichtlinearen Regressionsmodells besteht im Aufbau einer asymptotischen Theorie (,großer' Stichprobenumfang). Hat man erst einmal die Konsistenz der üblichen Schätzverfahren gezeigt (vgl. Sate 1.1.4), liegt die Vermutung nahe, daß man für großen Stichprobenumfang das Modell näherungsweise als linear betrachten kann, daß sich also die Eigenschaften dieses linearen Modells beispielsweise in Grenzverteilungen der Parameterschätzungen widerspiegeln (vgl. Satz 1.1.5). Läßt man bei diesen Untersuchungen die Annahme der Adäquatheit des Regressionsmodells weg, ergeben sich aus den asymptotischen Resultaten wichtige Aufschlüsse über die Robustheit der Verfahren gegenüber Modellfehlern. Gleichzeitig eröffnen sich neue Ansatzpunkte für eine noch zu entwickelnde Theorie der Modellwahl. Die Analogie zum linearen Modell, die sich in der Struktur der Grenzverteilungen der Schätzungen ergibt, legt der damit aufgebauten statistischen Schlußweise folgende heuristische Deutung zugrunde: Die Verfahren (Kleinste-Quadrat-Schätzungen, Teststatistiken, usw.) werden aufgrund der nichtlinearen Struktur des Modells konstruiert, ihrer Beurteilung aufgrund von (asymptotischen) Verteilungseigenschaften (Optimalität, Sicherheitspunkte, usw.) liegen jedoch lineare Näherungen 2
Humak II
18
1. Parameterschätzung in nichtlinearen Modellen
zugrunde. Erst'eine ,feinere' Asymptotik (vgl. Bemerkung 1.1.6) wird den nichtlinearen Charakter des Modells auch in den Verteilungseigenschaften zur Geltung bringen. Aus diesem Grund ist es nicht sehr überraschend, daß sich viele Analogien zum linearen Modell ergeben, wenn man die Güte der nichtlinearen Kleinsten-QuadratSchätzung aufgrund der Kovarianzstruktur ihrer Grenzverteilung beurteilt (vgl. 1.1.7). Ohne Normalverteilungsannahmen über die Fehler kann eine asymptotische Analogie zum Gauß-Markow-Theorem bewiesen werden (Satz 1.1.6). Unter Normalverteilung können stärkere Optimalitätseigenschaften (BAN) nachgewiesen werden, die im Falle identischer Fehlerverteilung die Normalverteilung auch charakterisieren (Satz 1.1.8). Entsprechende Untersuchungen können für die Maximum-LikelihoodSchätzung auch unter allgemeinen Annahmen über die Fehlerverteilung durchgeführt werden (vgl. Satz 1.1.10). Eine ähnliche asymptotische Theorie wie für Parameter der Regressionsfunktion läßt sich auch für die Residualschätzung der Varianz herleiten (vgl. 1.1.8). Für das Prüfen von Hypothesen bieten sich zwei Vorgehensweisen an: Einmal kann man in Analogie zum linearen Modell Tests auf der Grundlage der Grenzverteilüng der Kleinsten-Quadrat-Schätzung konstruieren (vgl. (1.1.9)). Andererseits kann man auch die für den Fall identisch verteilter Beobachtungen bekannten asymptotischen Verteilungsaussagen (y?) über Likelihood-Quotienten-Teststatistiken für das nichtlineare Regressionsmodell verifizieren (vgl. Satz 1.1.16). Die Beurteilung der Güte der Tests auf lokalen Alternativen gelingt mit dem Konzept der benachbarten Verteilungen. Einen wichtigen Modelltyp, der sich formal in die nichtlinearen Regressionsmodelle einordnet, der aber aufgrund seiner Spezifik doch eine gesonderte Rolle spielt, bilden die Modelle mit Zustandsänderungen (vgl. 1.2). Hier gilt ein bestimmter Regressionsansatz nur für eine Teilmenge der Beobachtungen, sonst gilt ein anderer. Der Punkt (evtl. Zeitpunkt), an dem dieses Umschlagen zwischen den verschiedenen Zuständen des Systems erfolgt, ist ein zusätzlicher nichtlinearer Parameter im Modell, und häufig gerade ein Parameter von besonderem Interesse. Viele Fragestellungen aus Anwenderbereichen führen auf solche Modelle (vgl. 1.2.1). Je nach den Anschlußbedingungen für die Regressionsfunktionen in den Umschlagspunkten unterscheidet man Modelle mit abrupten (1.2.2) und mit stetigen (1.2.3) Zustandsänderungen. Die Schwierigkeiten, die sich für die numerische Berechnung der Kleinsten-Quadrat-Schätzung in solchen Modellen ergeben, legen für die Analyse von Umschlagspunkten eine geschickte Kombination von Test- und Schätzverfahren nahe. Deshalb nimmt auch die Diskussion verschiedener Tests zum Prüfen der Zustandsstabilität einen verhältnismäßig breiten Raum ein. Die Konsistenz der Kleinsten-Quadrat-Schätzung erfordert eine modifizierte Betrachtung, da nun im allgemeinen der Parameterraum nicht kompakt und vom Stichprobenumfang abhängig ist. Außerdem hängt die Regressionsfunktion nicht stetig vom Parameter ab (vgl. 1.2.4). Zusammenfassend kann eingeschätzt werden, daß für Modelle mit Zustandsänderungen Verfahren in speziellen Klassen entwickelt werden müssen, bei denen die numerische Realisierbarkeit von Anfang an im Auge behalten wird.
1.1. Parameterschätzung in allgemeinen nichtlinearen Modellen
1.1.
Parameterschätzung in allgemeinen nichtlinearen Modellen
1.1.1.
Einleitung
19
Eine Beziehung zwischen einer unabhängigen Variablen x (Regressor) und einer abhängigen Variablen y (Regressand) werde durch eine F u n k t i o n / : 3C —> R1 beschrieben, die Regressionsfunktion oder auch Wirkungsfunktion genannt wird (vgl. Humak I, Kap. 1 (1977)). Dabei wird angenommen, daß bei festem Wert x des Regressors der Wert y des Regressanden zufällig ist und den E r w a r t u n g s w e r t f ( x ) hat. Die vorhandene Kenntnis über / drückt man durch Angabe einer Menge & = {g6 \ •& € &}, ( 0 £ R') von Funktionen g#: SC -> R1 aus, über die bekannt ist, daß sie die „wahre Regressionsfunktion" / enthält, d. h., es gibt ein £ 0 („wahrer Regressionsparameter") mit / = g#t. Ist g& nichtlinear in dann spricht man von einer nichtlinearen Regressionsfunktion. Liegen Beobachtungen yt des Regressanden zu Werten xt des Regressors (t = 1, ... ,n) vor, ergeben sich die Problemstellungen: 1. Schätzung von / oder der Werte von / auf einer Teilmenge 5Tm cz 3C. 2. Schätzung von und abgeleiteter Parameter y($ 0 ). 3. Approximation von / durch eine Funktion aus einer vorgegebenen Menge cF von Funktionen, die möglicherweise von einfacher Struktur sind oder andere Vorteile besitzen. 4. Konfidenzbereiche für . 5. Prüfung von Hypothesen über / oder Für die mathematische Behandlung dieser Problemstellungen sind geeignete Annahmen über die Werte xt, yt erforderlich. Die Werte xt des Regressors, die Versuchspunkte genannt werden, sind durch einen Vektor | = (x1; ... , xn), den Versuchsplan, vorgegeben. Weiterhin gelten die Gleichungen yt =/(«,) +et, t = 1,2,...,», (1) wobei tj, ... , e„ unabhängige Zufallsvariablen sind mit Eet = 0
und
Det = af .
(2)
Die Varianzen of sind unbekannt, und es können irgendwelche Annahmen der Form CT(k) : = (ffj, ... , a n ) € cf getroffen werden. Solche Annahmen werden wir später im Abschnitt 1.1.6 für die gesamte Folge der at, t = 1,2, ... , benötigen. Zur Approximation der Regresssionsfunktion setzen wir eine parametrische Funktionenklasse {gd | § e 0 } an, wobei g9: 5T — R1 für jedes feste •& € 0 eine gegebene Funktion ist. Nehmen wir wie üblich fi*:={g6|#€0}
(3)
an, dann sagen wir, das Modell ist adäquat (/ = g&J. Später lassen wir diese Annahme aber auch teilweise fallen. Bei den asymptotischen Betrachtungen lassen wir auch zu, daß die Funktionen g9 von n abhängen: g%l\ Nach den obigen Annahmen sind yt unabhängige Zufallsgrößen, deren Verteilung durch den Parameter £ : = (/, x) festgelegt wird, wobei x die Verteilung von e : = (elf ... , e„)' bezeichnet. Durch Vorgabe einer Menge X von Verteilungen mit x e X kann die Vorkenntnis über x charakterisiert werden.
2•
20
1. Parameterschätzung in nichtlinearen Modellen
In der Bezeichnungsweise von H U M A K I (1977) werden wir für eine beliebige Funktion g: SC -*• R1 den Vektor ..., g(xn))' mit g* bezeichnen. Mit
= (»I = (»#(*i),..., gtM)' V : = {Diag [ I
0=0.
i
- 1
l
(10)
0# s
r
Es gibt verschiedene Gründe, die Annahme (3): / 6 & fallenzulassen. Einmal kann einfach nicht bekannt sein, ob das Modell mit & adäquat ist, also ob (3) gilt. Regressionsmodelle werden häufig bei einem sehr geringen fachwissenschaftlichen Kenntnisstand über die wahre zugrundeliegende Struktur der Abhängigkeiten angewandt. Das Modellwahlproblem ist im nichtlinearen Fall kompliziert, und es ist nicht zweckmäßig, die Adäquatheit von Anfang an vorauszusetzen. Weiterhin kann die Aufgabe an sich darin bestehen, die Regressionsfunktion in einer vorgegebenen Funktionenklasse cT zu approximieren. Wenn man die Adäquatheit des Modells nicht mehr anstrebt, kann man durch geeignete Wahl von & eventuell das Optimierungsproblem (8) vereinfachen. Um den Anschluß zu den späteren asymptotischen Betrachtungen zu gewinnen, wollen wir (8) noch etwas verallgemeinern. Es seien = {g^ \ e 0} vorgegebene *) OLSE: "ordinary least squares estimator". a ) GLSE: "generalized least squares estimator".
23
1.1. Parameterschätzung in allgemeinen nichtlinearen Modellen
Funktionenklassen (SC —• R1) und w = {W(M) | t = 1, ... , n} Folgen positiver zufälliger Variablen. Es sei Q n { K { y ) )
=
m i n
ß „ ( 0 )
de©
O . W : = "|y
-
[ g
{
,
(11)
M
•
Definition 1.1.2. /„ : = g ^ heißt gewichtete inadäquate Kleinste-Quadrate-Approximation (WILSA) v o n / , falls # (11) erfüllt. Die zugehörige Parameterschätzung nennen wir W1LSE. Abgesehen vom heuristischen Sinn der Optimierungsprobleme (8) und (11) verbindet man mit ihnen die Vorstellung, daß bei wachsender Zahl von Beobachtungen WILSE y gegen y konvergiert und WILSA die Projektion von / auf im Sinne der Seminorm |/| : = w \f\ n immer besser annähert. Die Fragestellungen werden in 1.1.6 untersucht. Der Nachweis guter Approximationseigenschaften der WILSA ist für nichtlineare Regressionsmodelle von fundamentaler Bedeutung. Der Ansatz einer bestimmten Funktionenklasse J stellt in Anwendungen fast immer eine Approximation dar, d. h., die Voraussetzung der Adäquatheit de*»Modells („Es existiert ein &0 mit = / " . ) ist verletzt und höchstens näherungsweise gesichert („Es existiert ein mit ~ /."). Gute Eigenschaften der WILSA entsprechen Stabilitätseigenschaften der KleinsteQuadrat-Methode bei solchen Modellungenauigkeiten. ein, d. h., ist Gehen einige der Komponenten von § linear in go(x)
=
1 mit Werten in 1 beschränkt. Dies erscheint vernünftig, falls / „in der N ä h e " von X liegt. Die Verfälschung solcher Schätzfunktionen B(Ji) = \\Ep(y) - f \ \
A
,
AeW^,
wird genau d a n n am kleinsten, wenn \\Efry)-Pjf\\A gilt, wobei Pin
= 0
(16)
f ü r jedes ¡j, 6 R
n
ein bestimmtes Element von I mit min ||/j — z\\A
= ||/i — PjfJ.\\ bezeichnet (Projektion im Sinne der Seminorm IHW- I n der Klasse
1.1. Parameterschätzung in allgemeinen nichtlinearen Modellen
25
der Schätzfunktionen, welche die „verallgemeinerte Erwartungstreue" (16) oder Bedingungen der minimalen Verfälschung für alle zugelassenen Parameter erfüllen, kann im Normalmodell die Schätzfunktion fJ, mit minimalem Risiko E \\jx(y) — b e stimmt werden. Sie ist nach HTJMAK I ( 1 9 7 7 ) , Satz 2 . 7 . 2 (vgl. auch H U M A K I ( 1 9 7 7 ) , Beispiel 2.7.1) durch Ji{y) = PjPWay gegeben. Auf ähnliche Probleme wird man geführt, wenn man die Funktion / durch eine Funktion / = a'A aus einem linearen Funktionsraum J0 = {a'h | *m) ( x i
g»(*)
+
1
d X — Xm
— ^OL)*1 ••• (xm — x0m)li
Man approximiert g9 also durch ein Polynom in x. Erweitert man die Wertebereiche {c ö (i x , ... , im) | •& e 0 } der Koeffizienten des Taylor-Polynoms jeweils auf R1, dann sucht man eine Approximation in dem linearen Raum solcher Polynome. Rückschlüsse vom neuen Parametervektor c9 auf den alten Parameter •& sind nach solchen Modellerweiterungen nicht mehr ohne weiteres möglich. Die Problematik der Polynomialapproximation behandeln wir in 1.1.5. zu d): Viele nichtlineare Regressionsfunktionen, die in Anwendung häufig auftreten, können durch Transformation in eine funktionelle Gestalt gebracht werden die nach Reparametrisation linear in den Parametern ist (vgl. z.B. D B A P E R und SMITH ( 1 9 6 6 ) ) . Betrachten wir beispielsweise das Exponentialmodell mit g&{x) = A ePx, dann erhalten wir die lineare Funktion In / = a -)- ßx mit a = In a. Für die CobbDouglas-Funktion g$(x) = ax^ ... xfy erhalten wir i
In g0(x) = In ) und VarianzenoH] gemacht werden Ij = 0,..., s ~ sn, 1 = £ rt ]. «» \ i / Es gibt also eine Zerlegung {0, ... , n) = (J