198 23 89MB
German Pages 344 Year 1985
K . M. S. Humak Statistische Methoden der Modellbildung I I I
Mathematische Lehrbücher u n d Monographien Herausgegeben von der Akademie der Wissenschaften der DDR Institut f ü r Mathematik
I I . Abteilung Mathematische Monographien Band 45 Statistische Methoden der Modellbildung I I I von K. M. S. Humak
Statistische Methoden der Modellbildung III Statistische Inferenz für Kovarianzparameter von K. M. S. Humak
Akademie-Verlag Berlin 1984
I S S N 0076-5430
Erschienen im Akademie-Verlag, DDR-1086 Berlin, Leipziger Straße 3 — 4 © Akademie-Verlag Berlin 1984 Lizenznummer: 202 • 100/402/84 P r i n t e d in t h e German Democratic R e p u b l i c Gesamtherstellung: V E B Druckerei „ T h o m a s Müntzer", 5820 B a d Langensalza L e k t o r : Dr. R e i n h a r d H ö p p n e r E i n b a n d u n d Schutzumschlag: D i e t m a r K u n z e LSV1075 Bestellnummer: 7618748 (6130/3) 05800
Der Autorenname ist ein Pseudonym für Kollektiv Mathematische Statistik: Humboldt Universität zu Berlin und Akademie der Wissenschaften der DDR
Das Kollektiv stand unter der Leitung von Herausgabe verantwortlich zeichnen.
HELGA
und
O L A F BTJNKE,
die auch für die
Autoren: Kap. 1
1.1—1.4
J.
1.5.1 — 1.5.3 R.
KLEFFE THRUM,
unter
redaktioneller
Mitwirkung
von
J . KLEFFE 1.5.4
W.
H.
SCHMIDT
unter redaktioneller Mitwirkung von
J . KLEFFE 1.6
Kap.
J. KLEFFE
B.
2
MARK
unter redaktioneller Mitwirkung von R.
PINCUS Kap. 3
3.1-3.3.2
B.SEIFERT
3.3.3
R . PINCUS
Anhang
J . KLEFFE
Neben den Autoren wirkten an der redaktionellen Bearbeitung B. G R A B O W S K I und K . H E N S C H K E mit. Die Leitung der redaktionellen Bearbeitung lag in den Händen v o n B . SEIFERT.
Große Teile des Manuskripts wurden von R. T E U F E L angefertigt. Besonderer Dank gebührt R. H Ö P P N E R vom Akademie-Verlag für seinen Anteil an der redaktionellen Arbeit. Hinweis: In
HUMAK (1983)
ist auf dieser Seite ein Fehler unterlaufen. Es muß richtig heißen
Kap. 3 3 . 1 - 3 . 3 . 3
H.-P.
HÖSCHEL
3.3.4 — 3.4
M . NUSSBAUM
3.5-3.9
H.-P.
HÖSCHEL
Vorwort
Die Methoden der linearen und der nichtlinearen Regressionsanalyse und die Varianzanalyse bei Modellen mit festen Effekten sind wesentliche Hilfsmittel für die Analyse experimenteller Daten und für die statistische Modellierung von Ursache-WirkungsBeziehungen. Unsere Bände I und I I geben eine umfassende Darstellung der zugehörigen Theorie. Andererseits setzen diese Methoden eine relativ gute Kenntnis der Variabilität und der stochastischen Abhängigkeitsverhältnisse zwischen den Beobachtungen, d. h. über die Kovarianzmatrix des Beobachtungsvektors, voraus. Da diese Kenntnis in der Praxis im allgemeinen nicht vorhanden oder nur ungenau sein wird, sind folglich für die genannten Anwendungen auch die Methoden zur Schätzung von Parametern der Kovarianzmatrix in linearen und nichtlinearen Modellen und zur Prüfung statistischer Hypothesen über die Kovarianzstruktur unerläßliche Grundlagen. Diese Schätz- und Testverfahren finden auch direkte Anwendung bei der Untersuchung von Ursache-Wirkungs-Beziehungen, wenn die Wirkungen besser durch zufällige Größen als durch deterministische beschrieben werden, wie z. B. in linearen Modellen mit zufälligen additiven Effekten und Wechselbeziehungen oder in linearen Regressionsmodellen mit zufälligen Koeffizienten. Gerade diese Anwendungen haben bereits seit vielen Jahrzehnten eine große Verbreitung gefunden, vor allem in den Biowissenschaften, wobei sie oft unter dem Namen Schätzung von Varianzkomponenten oder auch als Varianzanalyse auftauchen. Die Verfahren spielen auch eine große Rolle bei der Analyse multivariater Beobachtungen, wo beispielsweise Aufschlüsse über Abhängigkeitsverhältnisse bei hochdimensionalen Daten erreicht werden sollen. I n diesem Band soll eine umfassende und nach Möglichkeit einheitliche Darstellung des modernen Standes der Schätz- und Testtheorie für Parameter der Kovarianzmatrix in linearen und nichtlinearen Modellen gegeben werden. Dabei finden auch viele zum Teil noch unveröffentlichte Ergebnisse der Autoren Eingang. Das Buch wendet sich an den Statistiker in Forschung, Lehre und Praxis und an den Mathematiker, der sich über die Theorie der genannten Gebiete informieren will. Es werden solide Kenntnisse der Wahrscheinlichkeitstheorie und der mathematischen Statistik, insbesondere auch der Regressions- und der Varianzanalyse vorausgesetzt. Die verschiedenen Probleme und Ergebnisse werden streng mathematisch und in einer systematischen und möglichst einheitlichen Form abgehandelt. Dabei sind die Kapitel einerseits aufeinander abgestimmt, aber andererseits selbständig lesbar. Um den ohnehin großen Umfang des Buches nicht zu überschreiten, werden eine Reihe von Ergebnissen ohne Beweis diskutiert. Ähnlich wie in den Bänden I und I I werden die bei Beweisen benötigten Sätze und Hilfsmittel der linearen Algebra, Wahrschein-
8
Vorwort
lichkeitsrechnung und Statistik in einem Anhang aufgenommen, um den Umfang der Beweise zu verkleinern, und um die für die betrachteten Gebiete spezifischen Überlegungen und Beweisschritte besser hervorzuheben. Dabei sind einige der Ergebnisse aus dem Anhang neuartig und eigens zur Lösung der untersuchten Probleme abgeleitet worden. Bei Verweisen auf Ergebnisse über Inferenz für lineare Parameter in linearen Modellen und für nichtlineare Regressionsfunktionen werden die entsprechenden Stellen aus Band I bzw. I I genannt. In der folgenden Beschreibung des Inhaltes kann angesichts des Buchumfanges keineswegs ein Überblick angestrebt werden. Es soll auf die wesentliche Ausrichtung der Kapitel, auf neue Ergebnisse und auf einige im Buch aufgenommene besonders aktuelle Ergebnisse der Spezialliteratur hingewiesen werden. Viele der beschriebenen Ergebnisse sind von den Autoren erzielt worden. Dies wird hier nicht im einzelnen hervorgehoben werden. Kapitel 1 behandelt die Schätzung von Parametern in linearen oder nichtlinearen Modellen mit linearer Kovarianzstruktur. Dabei stehen Schätzungen von Kovarianzparametern bzw. von Varianzkomponenten und ihre schätztheoretischen Eigenschaften, wie Erwartungstreue und minimales Risiko, im Mittelpunkt des Interesses. Es werden u. a. sowohl die klassischen Schätzverfahren von C. R. H E N D E R S O N wie auch die von C. R. RAO eingeführten MINQUE-Schätzungen, letztere als lokale KleinsteVarianz-Schätzungen, in die Darstellung einbezogen. Sie umfaßt auch die in den letzten Jahren von J . S E E L Y , H. D R Y G A S , L . R. L A M O T T E , F. P U K E L S H E I M und anderen Autoren erzielten Resultate. Zu Beginn des Kapitels wird erläutert, wie sich wichtige spezielle Modelle, z. B. Wiederholungsmodelle, Blockmodelle und multivariate Modelle, als Spezialfälle des eingeführten allgemeinen Modells ergeben. I n diesem Modell werden dann Bedingungen für die Identifizierbarkeit und die Schätzbarkeit von Parametern abgeleitet. Es wird die Klasse aller quadratischen Schätzfunktionen mit Erwartungstreue oder mit minimaler Verzerrung charakterisiert. Dabei wird auch herausgestellt, daß Identifizierbarkeit und Schätzbarkeit nicht äquivalent sind. Unter Annahme einer Normalverteilung wird die Existenz gleichmäßig bester erwartungstreuer Schätzfunktionen untersucht und u. a. bemerkt, daß sich die lokale und die gleichmäßige Optimalität von quadratischen Schätzungen auf die Klasse aller Schätzfunktionen erweitern lassen. Es wird gezeigt, wie man aus optimalen Schätzfunktionen für ein eindimensionales Modell solche für ein dazugehöriges multivariates Modell oder für ein auf Wiederholungen zurückgehendes Modell konstruieren kann, wobei sich aber die Optimalitätseigenschaften nicht notwendigerweise vollständig übertragen. Bayessche quadratische Schätzfunktionen werden auch untersucht, für die im Fall von zwei Kovarianzparametern explizite Formeln hergeleitet werden. Als Spezialfall optimaler quadratischer Schätzfunktionen treten die von C. R. RAO entwickelten Minimum-Norm-Schätzungen (MINQUE) mit und ohne Invarianz auf. Erste Ergebnisse ohne Annahme der Normalverteilung werden vorgeführt, wobei die Übertragung von Optimalitätseigenschaften, die unter Normalverteilung gelten, im Mittelpunkt des Interesses steht. Für nichtsymmetrische Verteilungen ergibt sich, daß die üblichen linearen Schätzfunktionen für lineare Parameter des Erwartungswertes nicht mehr optimal in der Klasse der quadratischen Schätzfunktionen sind. Diesbezügliche Untersuchungen basieren auf einem neuen Kalkül zur Berechnung der 2. Momente quadratischer Formen, der sich als grundlegend für die Behandlung multivariater Modelle erwies. Mit seiner Hilfe gelingt es, viele bisher nur für ein-
Vorwort
9
dimensionale Modelle bekannte Ergebnisse, wie z. B. die von F. A . GKAYBILL zur Schätzung von Varianzkomponenten, auf multivariate Modelle auszudehnen. Die asymptotische Theorie für Regressionsmodelle mit linearer Kovarianzstruktur wird in einem einheitlichen Aufbau entwickelt. Dieser wird durch Resultate ermöglicht, die in den letzten Jahren von W . H. SCHMIDT und R . THRUM erzielt wurden. Ausgehend von allgemeinen Aussagen über die Konsistenz von quadratischen (-plus-linearen) Schätzfunktionen, für deren Herleitung eine grundlegende Abschätzung des Risikos durch das unter Normalverteilung berechnete Risiko bewiesen und ausgenutzt wird, wird besonders ausführlich auf die asymptotischen Eigenschaften der invarianten lokalen Kleinste-Varianz-Schätzungen eingegangen. Die von K . BROWN für Wiederholungsmodelle sowie die von J. N . K . RAO, 0 . HARTLEY und R . L . LA MOTTE für Modelle mit zufälligen Effekten erzielten Ergebnisse werden weitgehend verallgemeinert. Weiterhin wird die Effizienz von zweistufigen Schätzungen von linearen Parametern des Erwartungswertes und der Kovarianzmatrix untersucht, die in enger Beziehung zu Maximum-Likelihood-Schätzungen stehen. Die meisten Aussagen lassen sich auf nichtlineare Regressionsmodelle übertragen, womit sich konsistente und asymptotisch effiziente Schätzungen der Parameter ergeben. Schließlich werden mit Hilfe asymptotischer Verteilungen verschiedene asymptotische Tests und Konfidenzbereiche für Regressions- und Kovarianzparameter konstruiert. Zuletzt wird eine Auswahl konkreter Modelle der Varianzanalyse behandelt. Hier werden explizite Formeln für die lokal besten erwartungstreuen invarianten Schätzfunktionen, die identisch mit M I N Q U E sind, sowie für ihre Stichprobenvarianzen unter Normalverteilung erarbeitet. Die Prüfung von Hypothesen über Kovarianzparameter in uni- und multivariaten Varianzkomponentenmodellen ist Gegenstand von Kapitel 2. Hier wird die Prüfung einiger Hypothesen über die Kovarianzmatrix multivariater Normalverteilungen behandelt. Es sind dies die Hypothesen über die Gleichheit mehrerer Kovarianzmatrizen, über die Proportionalität zur Einheitsmatrix, über die Gleichheit mit einer gegebenen Matrix und über die Unabhängigkeit mehrerer Teilvektoren. Es wird ein umfassender Überblick über die verschiedenen Tests gegeben, insbesondere Likelihood-Quotienten-Tests und andere auf Eigenwerten aufgebaute Tests, wie die von S. N . ROY, H . NAGAO U. a. Eigenschaften dieser Tests, wie Invarianz, Unverfälschtheit, Konsistenz, Zulässigkeit, Gütefunktion und deren Monotonie werden diskutiert. Aussagen über die Verteilungen der verschiedenen Teststatistiken und besonders auch asymptotische Näherungen finden breiten Raum, wobei aber für Beweise auf die Spezialarbeiten verwiesen wird. Die Darstellung überdeckt die in der letzten Zeit von vielen Autoren erzielten Ergebnisse, insbesondere die v o n T . W . A N D E R S O N , P . R . K R I S H N A I A H , N . G I R I u n d N . SUGIURA.
> Kapitel 3 behandelt die Prüfung von festen Effekten und Varianzkomponenten in zufälligen und gemischten Modellen der Varianzanalyse. Zunächst wird ein allgemeines gemischtes Modell der Varianzanalyse mit gleicher Klassenbesetzung formuliert. Aufbauend auf Ergebnissen von J. SEELY werden explizite Formeln für minimal erschöpfende Statistiken sowie Bedingungen für ihre Vollständigkeit angegeben. Diese sind einfache Eigenschaften gewisser Indexmengen, durch die feste und zufällige Effekte im Modell indiziert werden. Unter leicht verifizierbaren Bedingungen an die Indexmengen ist der mit Hilfe der üblichen Quadratsummen aus der Varianzanalyse konstruierte A N O V A - T e s t unverfälscht, und es werden für ihn mehrere Optimalitätseigenschaften nachgewiesen. In Fällen, in denen der A N O V A -
10
Vorwort
Test verfälscht ist, wird als Alternative zum ebenfalls dargestellten approximativen Test von F. E. SATTEETHWAITE, dessen Signifikanzniveau stark von den Störparametern abhängt, eine F-verteilte Teststatistik vom Bartlett-Scheffé-Typ entwickelt. Für die entsprechenden Tests werden Optimalitätseigenschaften untersucht und Vergleiche der Gütefunktion durchgeführt. Für typische Beispiele werden explizite Formeln für diese Tests berechnet. Die Ergebnisse werden auf multivariate Verallgemeinerungen des Modells, auf gemischte Modelle auf lateinischen Quadraten und auf gemischte Zwei-Weg-Modelle ohne Wechselwirkungen auf balancierten Blocks übertragen.
Inhaltsverzeichnis
1.
Parameterschätzung in Modellen mit linearer Kovarianzstruktur
15
1.1. 1.1.1. 1.1.2. 1.1.3. 1.1.4. 1.1.5. 1.1.6. 1.1.7.
Modell Regressionsmodelle mit inhomogenen Varianzen Varianzkomponentenmodelle Kovarianzkomponentenmodell Modelle mit zufälligen Regressionskoeffizienten Wiederholungsmodelle Modelle mit Blockstruktur Multivariate Modelle
18 19 20 21 21 22 23 23
1.2. 1.2.1. 1.2.2. 1.2.3. 1.2.4. 1.2.5. 1.2.6.
Identifizierbarkeit und Schätzbarkeit Identifizierbarkeit Existenz erwartungstreuer Schätzfunktionen Minimal verzerrte Schätzfunktionen Invariante Schätzfunktionen Existenz invarianter erwartungstreuer Schätzfunktionen Minimal verzerrte invariante Schätzfunktionen
25 25 30 38 40 42 44
1.3. 1.3.1. 1.3.2. 1.3.3. 1.3.4. 1.3.5. 1.3.6. 1.3.7. 1.3.8.
Normalverteilte Beobachtungen Erwartungstreue Schätzfunktionen mit kleinster Varianz Schätzfunktionen mit gleichmäßig kleinster Varianz Bayessche erwartungstreue Schätzfunktionen Invariante erwartungstreue Schätzfunktionen mit kleinster Varianz Eine Minimax-Eigenschaft invarianter Schätzfunktionen Bayessche invariante quadratische erwartungstreue Schätzfunktionen . . . . Schätzfunktionen mit kleinstem mittleren quadratischen Abstand Ausnutzung von quadratischen Teilräumen zur Berechnung von optimalen Schätzfunktionen
45 46 53 62 70 79 80 83
1.4. 1.4.1. 1.4.2. 1.4.3.
Optimale quadratische Schätzfunktionen in nichtnormalen Modellen Lokale Kleinste-Varianz-Schätzungen Sätze von H s u für Varianzkomponentenmodelle Sätze von Hsu für multivariate Varianzkomponentenmodelle
91 92 100 106
1.5. 1.5.1. 1.5.1.1. 1.5.1.2. 1.5.1.3. 1.5.1.4. 1.5.2.
Asymptotische Theorie Konsistenz quadratisch-plus-linearer Schätzungen Modell Konsistenz im quadratischen Mittel Schwache Konsistenz Starke Konsistenz Asymptotische Eigenschaften von quadratischen invarianten lokalen Kleinste-Varianz-Schätzungen Problemstellung Starke und schwache Konsistenz Grenzverteilung der invarianten lokalen Kleinste-Varianz-Schätzung für Kovarianzparameter unter Normal Verteilung Unabhängigkeit von der Mittelwertstruktur
113 114 114 116 118 118
1.5.2.1. 1.5.2.2. 1.5.2.3. 1.5.2.4.
:
87
121 121 121 130 132
12
Inhaltsverzeichnis
1.5.2.5.
Starke Konsistenz und Grenzverteilung der invarianten lokalen KleinsteVarianz-Schätzung bei n-facher Wiederholung der Fehlerstruktur Zweistufige Schätzfunktionen Aufbau zweistufiger Schätzfunktionen Schätzung der Erwartungswertparameter Schätzung der Kovarianzparameter Varianzkomponentenmodelle m i t nichtlinearer Erwartungswertstruktur Modell Starke Konsistenz Asymptotische Normalität Asymptotische Optimalität Tests und Konfidenzbereiche
135 138 138 139 141 144 144 145 149 154 160
1.6.1. 1.6.1.1. 1.6.1.2. 1.6.2. 1.6.2.1. 1.6.2.2. 1.6.2.3. 1.6.3. 1.6.3.1. 1.6.3.2. 1.6.3.3. 1.6.3.4.
Invariante lokale Kleinste-Varianz-Schätzfunktionen modellen Ein-Weg-Klassifikation Allgemeiner Fall Balancierter Fall Hierarchische Zwei-Weg-Klassifikationsmodelle Zwei-Weg-Klassifikationsmodelle E i n zufälliger F a k t o r Zwei zufällige F a k t o r e n Zwei-Weg-Kreuz-Klassifikationsmodelle Zwei-Weg-Kreuz-Klassifikation E i n zufälliger F a k t o r ohne Wechselwirkung Orthogonale Modelle Zwei zufällige F a k t o r e n ohne Wechselwirkung
164 164 164 171 172 172 172 174 184 184 184 188 189
1.7'.
Literatur
193
2.
Prüfung von Kovarianzstrukturen multivariater Zufallsgrößen
200
2.1. 2.1.1. 2.1.1.1. 2.1.1.2. 2.1.1.3. 2.1.1.4. 2.1.2. 2.1.2.1. 2.1.2.2. 2.1.2.3. 2.1.2.4. 2.1.2.5.
Homogenitätstest Homogenitätstest für zwei Kovarianzmatrizen Problemstellung und Reduktion durch Invarianz Likelihood-Quotiententest R o y s größte und kleinste Wurzel T e s t gegen einseitige Alternativen Multipler Homogenitätstest Problemstellung und Reduktion durch Invarianz Likelihood-Quotiententest Weitere Tests Spezifische Kovarianzstrukturen Univariater Fall
202 202 202 205 210 211 214 214 215 218 218 219
2.2. 2.2.1. 2.2.2.
Sphärizitätstest Likelihood-Quotiententest Weitere Tests
221 222 225
2.3. 2.3.1. 2.3.2.
Test auf Gleichheit mit einer gegebenen Kovarianzmatrix Likelihood-Quotiententest Weitere Tests
226 227 230
2.4. 2.4.1. 2.4.1.1. 2.4.1.2. 2.4.1.3. 2.4.2.
Unabhängigkeitstest Unabhängigkeitstest für zwei Variablenmengen Problemstellung und Reduktion durch Invarianz Likelihood-Quotiententest Weitere Tests Unabhängigkeitstest für h Variablenmengen
231 231 231 234 237 238
2.5.
Literatur
241
1.5.3. 1.5.3.1. 1.5.3.2. 1.5.3.3. 1.5.4. 1.5.4.1. 1.5.4.2. 1.5.4.3. 1.5.4.4. 1.5.5. 1.6.
in
Klassifikations-
Inhaltsverzeichnis 3.
Tests in Varianzkomponentenmodellen
13 247
3.1. 3.1.1.
Tests in gemischten Varianzanalysemodellen mit gleicher Klassenbesetzung 250 Gemischtes Varianzanalysemodell mit gleicher Klassenbesetzung (balanciertes ANOVA-Modell) 250 3.1.2. Beispiele 256 3.1.3. Varianzanalyse — Minimalsuffizienz und Vollständigkeit 260 3.1.4. Testproblem 264 3.1.5. Invarianz 265 3.1.6. ANOVA-Testprinzip 266 3.1.6.1. ANOVA-Test z u m P r ü f e n eines festen E f f e k t s 266 268 3.1.6.2. ANOVA-Test zum P r ü f e n eines zufälligen E f f e k t s 3.1.7. Eigenschaften unverfälschter ANOVA-Tests 269 3.1.8. Verallgemeinerungen des ANOVA-Tests 271 3.1.9. Tests vom Bartlett-Scheffe-Typ '272 3.1.9.1. P r ü f u n g eines festen E f f e k t s 272 275 3.1.9.2. P r ü f u n g eines zufälligen Effekts 3.1.10. P r ü f u n g allgemeiner Hypothesen 276 3.1.10.1. Problemstellung u n d ANOVA-Test 276 3.1.10.2. P r ü f u n g einer Einflußgröße 278 3.1.11. Beispiele 279 3.2. 3.2.1. 3.2.2. 3.2.3. 3.2.4. 3.2.4.1. 3.2.4.2. 3.2.5. 3.2.5.1. 3.2.5.2. 3.3.
Tests in multivariaten gemischten Varianzanalysemodellen m i t gleicher Klassenbesetzung Balanciertes MANOVA-Modell Varianzanalyse — Minimalsuffizienz u n d Vollständigkeit Testproblem MANOVA-Testprinzip P r ü f u n g eines festen E f f e k t s P r ü f u n g eines zufälligen Effekts Tests vom Bartlett-Scheffe-Typ P r ü f u n g eines festen Effekts P r ü f u n g eines zufälligen Effekts
284 284 286 290 290 290 293 293 293 294
3.3.1.1. 3.3.1.2. 3.3.1.3. 3.3.1.4. 3.3.1.5. 3.3.2. 3.3.2.1. 3.3.2.2. 3.3.2.3. 3.3.2.4. 3.3.2.5. 3.3.2.6. 3.3.3. 3.3.3.1. 3.3.3.2. 3.3.3.3. 3.4.
Tests in gemischten Varianzanalysemodellen mit ungleicher Klassenbesetzung Tests im gemischten Zwei-Weg-Modell ohne Wechselwirkungen auf balancierten Blocks . Modell Varianzanalyse P r ü f u n g des festen H a u p t e f f e k t s P r ü f u n g des Mittelwerts P r ü f u n g des zufälligen H a u p t e f f e k t s Tests in gemischten Modellen auf lateinischen Quadraten Lateinische Quadrate Modell Varianzanalyse P r ü f u n g eines H a u p t e f f e k t s P r ü f u n g der Wechselwirkung P r ü f u n g des Mittelwerts Testen von Varianzkomponenten in unbalancierten Modellen Probeime bei der Behandlung unbalancierter Modelle Ein-Weg-Klassifikation Hierarchische Zwei-Weg-Klassifikation Literatur
A. A. A. A. A.
Anhang 317 Matrizen, quadratische Formen u n d verallgemeinerte innere P r o d u k t e . . . 317 Allgemeine Matrizenrechnung 317 Matrizenprodukte 320 Eigenwerte von Matrizen 321
3.3.1.
1. 1.1. 1.2. 1.3.
295 295 295 297 298 300 302 302 302 302 303 304 305 305 307 307 307 309 312
14 A. A. A. A. A. A. A. A.
Inhaltsverzeichnis 2. 2.1. 2.2. 2.3. 3. 4. 5. 6.
Momente quadratischer Formen und Zufallsvektoren Momente quadratischer Formen Ungleichungen Normalverteilung Minimierung verallgemeinerter innerer Produkte Quadratische Teilräume Wandlung von Matrizen in Vektoren Grenzwertsätze
Bezeichnungen
322 322 326 327 328 330 332 333 336
Namenverzeichnis
339
Sachverzeichnis
342
1.
Parameterschätzung in Modellen mit linearer Kovarianzstruktur
Statistische Modelle beruhen auf der Annahme einer durch Gleichungen beschriebenen Ursache-Wirkungs-Beziehung, die von einem stochastischen Fehler überlagert ist. Üblicherweise werden die im Modell erfaßten Wirkungen als Effekte bezeichnet, die fest oder zufällig sein können. Ein fester Effekt ist z. B. ein Merkmal eines Versuchsobjektes. Zufällige Effekte treten stets dann auf, wenn Versuchsobjekte oder die zur Durchführung von Versuchen verwendeten Mittel einer zufälligen Auswahl unterliegen. Zum Beispiel wird das Ergebnis einer Reihenuntersuchung stets von der Auswahl der untersuchten Personen abhängen. Um die Aussagekraft einer solchen Untersuchung für die gesamte Bevölkerung einschätzen zu können, ist es notwendig zu wissen, wie stark sich die Ergebnisse von unter gleichen Bedingungen, aber mit anderen Testpersonen durchgeführten Untersuchungen unterscheiden würden. Solche Aufgabenstellungen haben zu einer Reihe von komplizierteren Modellen für Ursache-Wirkungs-Beziehungen geführt, die als Varianzkomponentenmodelle, Kovarianzanalysemodelle, Modelle mit zufälligen Regressionskoeffizienten und Modelle mit inhomogenen Varianzen in den Naturwissenschaften, in den Agrarwissenschaften, in der Technik, und den Sozialwissenschaften und in der Ökonomie eine wachsende Bedeutung erlangten. In der bisherigen Literatur wurden alle diese Modelle einzeln theoretisch recht umfangreich behandelt. Besonders weit verbreitet sind die Methoden von HENDERSON (1953) zur Schätzung von Varianzkomponenten in Varianzanalysemodellen. Die für die statistische Analyse wesentliche Eigenschaft aller dieser Modelle ist aber immer die gleiche. Es liegt ein lineares Modell für die zufälligen Effekte zugrunde, das dazu führt, daß die Varianzen und Kovarianzen der Beobachtungen bekannte lineare Funktionen einer meist kleinen Anzahl unbekannter Parameter sind. Das trifft auch für eine Reihe von Zeitreihenmodellen und für einzelne stochastische Prozesse zu. Der Einfachheit halber nimmt man in den meisten Fällen auch ein lineares Modell für die festen Effekte an. Dann sprechen wir von einem linearen Modell mit linearer Kovarianzstruktur. Die Entwicklung einer allgemeinen Theorie letzterer Modelle begann etwa um 1970 und kann auf verschiedene unabhängige Quellen zurückgeführt werden. SEELY (1970, 1971, 1972) betrachtete Probleme der Identifizierbarkeit und der Schätzbarkeit unbekannter Parameter und der Existenz gleichmäßig optimaler Schätzfunktionen mit Hilfe von erschöpfenden und vollständigen Statistiken. C. R. RAO (1970, 1971, 1972) entwickelte die Minimum-Norm-Schätzfunktionen (MINQUE-Theorie) und damit zugleich eine erste einheitliche Methodik zur optimalen Schätzung von Varianzkomponenten. Er charakterisierte diese Schätzfunktionen auch durch MinimumVarianz-Eigenschaften unter der Normalverteilungsannahme. HARTLEY, J . N. K . RAO ( 1 9 6 7 ) , ANDERSON ( 1 9 6 9 , 1 9 7 0 , 1 9 7 3 , 1 9 7 5 ) u n d PATTERSON, THOMPSON ( 1 9 7 4 ) fee-
mühten sich um eine Theorie der Maximum-Likelihood-Schätzfunktionen
unter teil-
16
1. Modelle mit linearer Kovarianzstruktur
weise noch, allgemeineren Modellannahmen, die auch faktorenanalytische Modelle und Regressionsmodelle mit stochastischen Regressoren erfassen. Dabei sind die Varianzen und Kovarianzen der Beobachtungen quadratische Funktionen unbekannt e r P a r a m e t e r . GNOT, K L O N E C K I , ZMYSLONY ( 1 9 7 6 , 1 9 7 7 ) u n d DRYGAS ( 1 9 7 7 ) h a t t e n
großen Anteil an der Untersuchung von gleichmäßig besten erwartungstreuen, quadratischen Schätzungen f ü r unbekannte Kovarianzparameter. Das insgesamt zu diesem Themenkreis bereits veröffentlichte Material ist sehr umfangreich. Deshalb konzentrieren wir uns in den folgenden Abschnitten vor allem auf die Diskussion von Schätzfunktionen, die durch Optimalitätseigenschaften, wie minimale Varianz, minimale Verzerrung oder minimalen mittleren quadratischen Fehler, charakterisiert sind. Der Theorie der Maximum-Likelihood-Schätzfunktionen schenken wir hier wenig Aufmerksamkeit. Dazu verweisen wir den Leser auf die ausgezeichnete Übersichtsarbeit
v o n HARVILLE ( 1 9 7 7 ) , a u f MILLER ( 1 9 7 7 ) u n d
die
den neuesten Stand wiedergebende Arbeit von THRTJM (1982). RAO (1979) brachte die Maximum-Likelihood-Methode in engem Zusammenhang mit der von ihm entwickelten MINQUE-Theorie. Bei der MINQUE-Theorie handelt es sich u m einen heuristischen Zugang zur Schätzung von P a r a m e t e r n der Kovarianzmatrix durch quadratische Formen, der mit dem Gaußschen Prinzip der kleinsten Quadrate eng verwandt ist. Hierzu verweisen wir auf die Übersichtsarbeit RAO, KLEFFE (1980). Darüber hinaus gibt es eine Reihe durch heuristisches Vorgehen entwickelter quadratischer Schätzfunktionen f ü r inhomogene Varianzen durch ANSCOMBE
HARTLEY,
RAO,
K I E F E R ( 1 9 6 9 ) , C H E W ( 1 9 7 0 ) , H O R N , H O R N , DUTSTCAN ( 1 9 7 5 ) , RAO ( 1 9 7 3 ) u n d
(1961),
ANSCOMBE,
TTJKEY
(1963),
MANDEL
(1964),
RAO,
CHATJBEY (1978), auf die wir n i c h t a u s f ü h r l i c h eingehen.
I m Abschnitt 1.1 führen wir ein lineares Modell mit linearer Kovarianzstruktur ein, das die überwiegende Anzahl der bisher genannten Modelle umfaßt. Zusätzlich führen wir Modellstrukturen (Wiederholungsmodell und Blockmodell) ein, die f ü r die mathematische Auswertung von kombinierten Versuchen beachtliche Vorteile bringen. Eine spezielle Form des kombinierten Versuches stellt das multivariate Modell mit linearer Kovarianzstruktur dar, dessen Behandlung sich als Spezialfall des allgemeinen Modells durch alle folgenden Abschnitte zieht. Abschnitt 1.2 beschäftigt sich mit Problemen der Identifizierbarkeit und Schätzbarkeit unbekannter Parameter. Wir charakterisieren die Klasse aller quadratischen erwartungstreuen bzw. minimal verzerrten quadratischen Schätzfunktionen. Dabei stellt sich heraus, daß im Gegensatz zur Schätzung von Erwartungswertparametern bei der Schätzung von Kovarianzparametern die Begriffe Identifizierbarkeit und Schätzbarkeit durch erwartungstreue Schätzfunktionen nicht mehr äquivalent sind. Im Abschnitt 1.3 entwickeln wir verschiedene optimale Schätzfunktionen unter der Normalverteilungsannahme und untersuchen die Existenz gleichmäßig bester erwartungstreuer Schätzfunktionen. Dabei finden wir, daß lokale und gleichmäßige Optimalität von quadratischen Schätzfunktionen in verschiedenen Fällen in der größeren Klasse aller meßbaren Schätzfunktionen gilt. F ü r die im Abschnitt 1.1 eingeführten kombinierten Modelle wird untersucht, wie sich optimale Schätzfunktionen in einfacher Weise konstruieren lassen. Wir zeigen z. B., wie m a n aus optimalen Schätzfunktionen f ü r ein eindimensionales Modell solche f ü r ein multivariates Modell erhalten kann, oder in welcher Weise Schätzfunktionen zu verändern sind, wenn ein Grundversuch mehrfach wiederholt wird. Dabei übertragen sich die Optimalitätseigenschaften nicht notwendigerweise vollständig. Neben lokal und gleichmäßig
1. M o d e l l e m i t l i n e a r e r K o v a r i a n z s t r u k t u r
17
optimalen Schätzfunktionen werden auch bayessche Schätzfunktionen innerhalb der Klasse der quadratischen Schätzfunktionen behandelt, für die im Fall von zwei unbekannten Kovarianzparametern eine geschlossene Lösung und damit eine explizite Formel für alle in der betrachteten Klasse zulässigen Schätzfunktionen erarbeitet wird. Als Spezialfälle optimaler quadratischer erwartungstreuer Schätzfunktionen treten die von RAO (1971a) entwickelten Minimum-Norm-Schätzfunktionen (MINQUE) mit und ohne Invarianz auf. Ohne Annahme der Normalverteilung ist die Entwicklung optimaler Schätzfunktionen weitaus schwieriger. Hierzu liefert Abschnitt 1.4 erste Ergebnisse. I m Vordergrund des Interesses steht die Frage, wann unter der Normalverteilungsannahme geltende Optimalitätseigenschaften von Schätzfunktionen auf den nichtnormalen Fall übertragbar sind. Für nichtsymmetrische Verteilungen ergibt sich, daß die üblichen linearen Schätzfunktionen für Erwartungswertparameter allgemein nicht mehr optimal in der Klasse der quadratischen Schätzfunktionen sind. Diesbezügliche Untersuchungen basieren auf einem Kalkül zur Berechnung der 2. Momente quadratischer Formen, der sich als grundlegend für die Behandlung multivariater Modelle erwies. Mit seiner Hilfe gelingt es, eine große Anzahl bisher nur für eindimensionale Modelle bekannter Resultate (z.B. die Ergebnisse von GRAYBILL ( 1 9 6 1 ) zur Varianzkomponentenschätzung in balancierten ANOVA-Modellen) auf multivariate Modelle auszudehnen. I n Abschnitt 1.5 werden Ergebnisse einer einheitlichen asymptotischen Theorie von SCHMIDT, THRUM ( 1 9 8 1 ) für Regressionsmodelle mit linearer Fehlerstruktur dargestellt. Ausgehend von allgemeinen Aussagen über die Konsistenz von quadratischen-plus-linearen Schätzfunktionen, für deren Herleitung ein allgemeines Prinzip des Risikovergleiches mit dem unter Normalverteilungsannahme berechneten Risiko eine zentrale Rolle spielt, wird besonders ausführlich auf die asymptotischen Eigenschaften der invarianten lokalen Kleinste-Varianz-Schätzungen (ILKVS) eingegangen. Die von BROWN ( 1 9 7 6 ) für Modelle mit unabhängigen Versuchswiederholungen und von HARTLEY, R A O , LAMOTTE ( 1 9 7 8 ) für Modelle mit zufälligen Effekten (ANOVA) erzielten Resultate werden weitgehend verallgemeinert. Weiterhin wird die Effizienz von zweistufigen Schätzungen untersucht. Die Schätzungen erweisen sich als asymptotisch äquivalent zur Maximum-Likelihood-Schätzung, für die MILLER ( 1 9 7 7 ) , D A S ( 1 9 7 9 ) , ANDERSON ( 1 9 7 0 ) und HARTLEY, R A O ( 1 9 6 7 ) eine asymptotische Theorie entwickelten (vgl. auch THRUM ( 1 9 8 4 ) ) . Die meisten Aussagen lassen sich auf Modelle mit nichtlinearer Erwartungswertstruktur übertragen. Während im Kapitel 1 des zweiten Bandes die Schätzung der Mittelwertparameter im Vordergrund steht, konzentrieren wir uns hier auf konsistente und effiziente Schätzungen für Varianzkomponenten. Mit Hilfe von Grenzverteilungsaussagen werden asymptotische Tests und Konfidenzbereiche konstruiert. I m letzten Abschnitt (1.6) behandeln wir eine Auswahl von Modellen der Varianzanalyse. Wir entwickeln explizite Formeln für die lokal besten erwartungstreuen invarianten Schätzfunktionen und ihre Stichprobenvarianzen unter Annahme einer Normalverteilung. Diese Resultate sollen die praktische Nutzung der entwickelten Methoden stimulieren. Die verwendeten mathematischen Hilfsmittel sind fast ausschließlich diejenigen der linearen Algebra, über die ein gewisses Maß an Grundkenntnissen vorausgesetzt wird. Einige spezielle Ergebnisse sind im Anhang 1 zusammengestellt. Die Anhänge 2 und 3 informieren über grundlegende Resultate zur Berechnung von Momenten quadratischer Formen und die Minimierung von verallgemeinerten inneren Produkten. 2 Humak III
18
1. Modelle mit linearer Kovarianzstruktur
In den Anhängen 4 und 6 findet man eine Zusammenstellung von Eigenschaften quadratischer Teilräume und gewissen Grenzwertsätzen, auf die der Abschnitt 1.5 aufbaut.
1.1.
Modell
Sei y ein beobachtbarer jV-dimensionaler zufälliger Vektor mit Erwartungswert fi und Kovarianzmatrix D. Dann sagen wir, daß y einem linearen Modell mit linearer Kovarianzstruktur folgt, falls lineare Teilräume 1 und X bekannt sind, in denen ¡x und D liegen. Wir schreiben kurz
y=fi
+ e,
ptX,
Eee' = D e X,
(1)
wobei e ein iV-dimensionaler zufälliger Fehlervektor mit Erwartungswertvektor 0 ist. X ist ein linearer Teilraum des und wird von einer Teilmenge 2) J i äRf? nichtnegativ definiter Matrizen erzeugt. 2) ist durch die zu untersuchend e UrsacheWirkungs-Beziehung bestimmt und nicht notwendigerweise gleich der Menge aller nichtnegativ definiten Matrizen in X. Die Menge der regulären Matrizen in 2) bezeichnen wir mit 2)> und setzen grundsätzlich voraus, daß 2) > nichtleer ist. Darüber hinaus nehmen wir an, daß 2) > wenigstens eine in X offene Teilmenge enthält. Bei Kenntnis geeigneter Basisvektoren x1;..., xk e 1 bzw. Basismatrizen D1,..., Dp 6 € X schreiben wir Modell (1) in parametrischer Form als
y = Xß + e,
Ee = 0 ,
Eee' = E 0 { A . »=l
(2)
X ist die (N x -Matrix der Spaltenvektoren xly ... , xk, und ß = (ßlt ... , ßk)' bzw. 6 = (01; ... , dPY sind unbekannte Parameter Vektoren. 0 variiert nur in einer Teilmenge des BP, J - = {0€Ä*|D(Ö) = 1 0 4 A e 2 > } . »=i
(3)
Der Menge 3)> entspricht eine Teilmenge 3"* ^ N der typische Fall, da n u r eine kleine Anzahl durch die Abi =1
bildung U vermittelter linearer F u n k t i o n e n der zufälligen E f f e k t e auf die Beobachtungsergebnisse einwirkt.
1.1. Modell 1.1.3.
21
Kovarianzkomponentenmodell
Das Kovarianzkomponentenmodell, wie es von RAO (1971a) eingeführt wurde, unterscheidet sich vom Varianzkomponentenmodell (8) dadurch, daß nt = n, i = 1 , ... , p, und die unabhängig verteilte Zufallsvektoren mit Erwartungswertvektor 0 und gleicher, aber unbekannter Kovarianzmatrix 0 sind, deren Elemente den unbekannten Parametervektor 6 bilden. Das führt zu einem Modell (2) folgender Art: y = Xß + e,
E«?' =
i USU'i. i=1
(12)
Es ist hier nicht ratsam, die Kovarianzmatrix von y als Linearkombination fester Basismatrizen auszudrücken, da die obige Parameterdarstellung einfacher zu handhaben ist. Mit U — (U11 ... | Up) und § = |... | £,'p)' erhält man eine zu (11) analoge Schreibweise für Modell (12): y = Xß+U§,
1.1.4.
E§f = (Ip (g) 6>) .
(13)
Modelle mit zufälligen Regressionskoeffizienten
Die allgemeine Form des Regressionsmodells mit zufälligen Regressionskoeffizienten ist
wobei ß, &, a2 die unbekannten Parameter sind. Dieses Modell kann in die Form (2) gebracht werden, indem wir den Erwartungswert und die Kovarianzmatrix von y berechnen. Es folgt mit e = X(b — ß) - f £ y = Xß + e,
Et = 0 ,
Esc' = X&X' + a2I.
(15)
Als Besonderheit dieser Modelle tritt die Matrix X sowohl im Erwartungswert als auch in der Kovarianzmatrix von y auf. Dies wirkt sich erschwerend auf theoretische Untersuchungen solcher Modelle aus, wenn nicht eine aktive Versuchsplanung zu einer besonders geeigneten Matrix X führt. Viele der praktisch genutzten Modellansätze besitzen eine spezielle Gestalt. X ist eine Blockdiagonalamtrix
mit Teilmatrizen X( vom Typ nt x k. Die ersten beiden Momente des fcg'-dimensionalen Zufallsvektors b sind Eb = (1, (g) ß) ,
E(b -
E6) (b -
E6)' = (Iq (x) 0).
(16)
22
1. M o d e l l e m i t l i n e a r e r K o v a r i a n z s t r u k t u r
Dann erhält Modell (15) die Form /X10X1 E es' = •
ff2/.
I Xq0Xq;
(17)
Hierbei wurde der Beobachtungsvektor y entsprechend der Aufteilung von X in q Teilvektoren y t zerlegt. Dieses Modell entspricht der allgemeinen Definition von E. SPJOTVOLL ( 1 9 7 7 ) . E s u m f a ß t als Spezialfälle die Modelle von RAO ( 1 9 6 5 ) , SWAMY
(1970,
1973),
FISK
(1967),
HILDRETH,
HOUCK
(1968)
und
KLEIN
(1953).
Gelegentlich wird zusätzlich noch Inhomogenität der Fehlervarianzen angenommen. Dann ist die Kovarianzmatrix von e
/ x , e x [ + a\ini \
I x q e x ' t + a\int
und die unbekannten Parameter sind ß, 0, a\, ... , oq. Eine gründliche Untersuchung solcher Modelle findet man in INFANTE ( 1 9 7 8 ) , WILLERS ( 1 9 7 8 ) , JÖRESKOG ( 1 9 7 3 ) . Aber Modell (17) zerfällt bereits offensichtlich in q Teilmodelle y, = Xtß + et,
E**; = XtfX'i
+ oHn.,
i = 1, ... , q ,
(18)
2
wobei die unbekannten Parameter ß, 0, a in jedem Teilmodell die gleichen sind. Dies entspricht der Zusammenfassung von unabhängigen, nicht notwendigerweise gleichen Versuchen, die auf die Bestimmung derselben unbekannten P a r a m e t e r gerichtet sind. Gilt zum Beispiel Xt — X, i = 1, ... , q, so fällt Modell (17) in folgende Modellklasse:
1.1.5.
Wiederholungsmodelle
Die einfachste Form eines zusammengesetzten Versuches ist die w-malige unabhängige Wiederholung eines Experimentes, das dem Grundmodell y = Xß + e,
Eee'
=
¿
»=i
=
D(6)
folgt. I h r entspricht ein Modell (2) der Form >D{6) (?/»)
Eee' =
(19)
\tyß)> Wir nennen es Wiederholungsmodell. E s erlaubt oft statistische Inferenz über ß und Q, obwohl diese in jedem Teilmodell yi
= Xß + e(,
= D(6,) ,
i = 1, . . . , » ,
(20)
nicht möglich zu sein braucht. Nicht immer können alle Versuchsbedingungen bei der Wiederholung von Experimenten genau reproduziert werden. D a n n müssen wir in (20) Abhängigkeiten von X und D(0) vom Index i = 1, ... , n zulassen. Wir erhalten
23
1.1. Modell
ein verallgemeinertes
Wiederholungsmodell 'DM
y = Xß + e,
E«> =
.
(21)
I Dn(d)j Es zeichnet sich nur noch durch die Blockdiagonalgestalt der Kovarianzmatrix von y aus und läßt daher keine wesentlichen Vereinfachungen allgemeiner Resultate zu. 1.1.6.
Modelle mit Blockstruktur
Im Wiederholungsmodell ändert sich der Parameter ß während der n Wiederholungen eines Versuches nicht. Diese Annahme erfordert eine entsprechend günstige Einrichtung der Versuche, die mit zusätzlichem Aufwand verbunden sein kann. Im Gegensatz dazu betrachten wir auch folgende Modellstruktur: /yi\
\ / m 7
Wn/
\
IX j
(pm
|
, ,
\ßj
\
\D„(6),
(22)
wobei die Dt(0), i = 1, ... , n, Linearkombinationen bekannter symmetrischer Matrizen Dq, j = 1, ... , p, sind. Da 6 in den n Teilmodellen Vi = Xißi + et,
= Dt(0) ,
i = 1, ... , » ,
(23)
gemeinsam auftritt, ist es sinnvoll, das kombinierte Modell (22) zu betrachten. Diese Modellkombination erlaubt meist in besonders einfacher Weise die Konstruktion von optimalen Schätzungen. Sie wird auch bei praktischen Fragestellungen vorgefunden. Ein Beispiel ist das im Abschnitt 1.6 behandelte hierarchische Zwei-Weg-Klassifikationsmodell mit gemischten Effekten. Weitere Beispiele findet man in den Arbeiten von Dewess (1971), Focke, Dewess (1972), Rao (1973) und K l e f f e , Zöllneb (1978). 1.1.7.
Multivariate Modelle
Wird nicht ein Merkmal, sondern werden gleichzeitig r verschiedene Merkmale von N zu untersuchenden Objekten studiert, so erhält man anstelle von N skalaren IVr-dimensionale Beobachtungen Ordnet man diese für i = 1, ... , N untereinander an. so entsteht ein iVr-dimensionaler Vektor y = (y[, ... , yN)'. Wir sagen, y folgt einem multivariaten linearen Modell mit linearer Kovarianzstruktur, falls y = (X®IT)ß
+ e,
E e e ' = f ( A i,
1 + V », ^ k ^ i n,, j=1 3=1
* = 1,... , P ,
(25)
0 wobei £ n i = 0 z u setzen ist. Nimmt man zusätzlich an, daß zwischen den Vektoren 3=1 yi; i = l,...,N; ß], j = l,...,k; f*, k = 1, ... , s , die gleichen linearen Beziehungen bestehen wie im Modell (11) zwischen den entsprechenden skalaren Größen, so erhält man für den Vektor y = (y[ I ... | yN)' aller Nr Beobachtungen das Modell y=(X®IT)ß
+ {U®Ir)§,
(26)
mit ß = (ß't | ... | ß'k) und | = (Ii | ... | Ü)'. Aus der Annahme (25) folgt E||' =
1 (Ft ..., Dp linear unabhängig sind und die Matrix X vollen Rang hat. In vielen Fällen gibt es jedoch sowohl identifizierbare als auch nichtidentifizierbare Parameterfunktionen. Folgender Satz charakterisiert die Menge aller identifizierbaren linearen Funktionen von ß und 6. Satz 1.2.1. Die lineare Parameterfunktion bar, wenn c e 4 — P A P ] ) ' vec [D, — PD^] = sp [ A A — PDiPDj] gilt jedoch SS' = H - HP ,
(35)
was die Notwendigkeit von (27) beweist. Ist umgekehrt A eine beliebige Lösung von (33), so löst die symmetrische Matrix ±(A
+A'
- P(A + A') P)
beide Gleichungen (23) und (25), womit (27) auch hinreichend ist.
|
Der eben bewiesene Satz besagt unter anderem auch, daß y = c'ß + f'd genau dann durch Funktionen aus G erwartungstreu schätzbar ist, wenn eine lineare erwartungstreue Schätzfunktion für c'ß und eine quadratische erwartungstreue Schätzfunktion f ü r / ' 0 existieren. Weiterhin zeigt ein Vergleich mit den Identifizierbarkeitsbedingungen des Satzes 1.2.1, daß für lineare Funktionen von ß Identifizierbarkeit und Schätzbarkeit zusammenfallen, aber für lineare Funktionen von 0 die Schätzbarkeit wegen Jt{H - HP) g
Jl(H)
eine stärkere Eigenschaft ist. Unter der Normalverteilungsannahme ist es möglich, das Ergebnis des Satzes 1.2.2 auf die Klasse aller meßbaren Schätzfunktionen (nicht notwendigerweise aus G) auszudehnen. Das wird möglich, da dann die durch (1.1.2) gegebenen ersten beiden Momente die Verteilung von y vollständig festlegen. Folgender Satz geht im wesentlichen auf PINCUS ( 1 9 7 4 ) zurück, der ihn für c = 0 bewies: Satz 1.2.3. Ist y normalverteilt, so existiert genau dann eine erwartungstreue funktion für y = c'ß + f'6, wenn c e Jl(X') und f e Jt(H — HP) ist.
Schätz-
32
1. Modelle mit linearer Kovarianzstruktur
B e w e i s . Wegen Satz 1.2.2 haben wir nur die Notwendigkeit der Bedingungen e J l { X ' ) und / e Jt(H — H P ) zu beweisen. Sei c 5 J l ( X ' ) und c = q + c2 eine Zerlegung von c mit c± € J l ( X ' ) , c2 € 0 und Xc2 = 0. Nach Satz 1.2.2 existiert eine erwartungstreue Schätzfunktion für c[ß. Existiert nun eine erwartungstreue Schätzfunktion für y = c'ß + f'6, so existiert auch eine solche für c'2ß + f'O. Diese sei T(y). Wegen (22) folgt c
E ß,eT(y)
=
c '
2
ß + f ' d
für alle ß und insbesondere Eß+c„oT(y)
=
c '
2
ß + f ' d +
\\c2\\* .
Da die Dichtefunktion der Normalverteilung nicht von c2 abhängt, müssen beide Erwartungswerte übereinstimmen, was c2 = 0 impliziert. Es gibt also keine erwartungstreue Schätzfunktion für y, wenn c S J t ( X ' ) . I m Fall c 6 J l ( X ' ) folgt aus der Existenz einer erwartungstreuen Schätzfunktion für y auch die einer solchen für f'O, die wir mit T(y) bezeichnen. Analog zum ersten Teil des Beweises berechnen wir den Erwartungswert von T(y) an zwei speziellen Punkten des Parameterraumes 3~ und kommen im Fall / 5 Jl(H — HP) zu einem Widerspruch. Diese beiden Punkte sind 0O und (60 + ary), wobei 80 Element einer offenen Teilmenge von J ' * , rj = P j v ( H - H r ) f =i= 0 und a > 0 hinreichend klein gewählt ist. Dann gilt Eß,eT(y)
= f %
* f ' ( 6
+
0
M. u n d
Eft o.+.nT(y)
= j T(V~1z) dP*; d P ^ , = J/'öo
M
e,+0Lr, = f'Oo >
was zum Widerspruch führt. • Satz 1.2.3 gewinnt im Abschnitt 1.3 an Bedeutung, wenn wir optimale erwartungstreue Schätzfunktionen in der Klasse aller Schätzfunktionen, also meßbaren Funktionen von y behandeln. Um jedoch in den folgenden Abschnitten umständliche Ausdrucksweisen zu vermeiden, wollen wir vereinbaren, daß wir unter der Existenz einer erwartungstreuen Schätzfunktion stets gleichzeitig die Existenz einer quadratisch plus linearen erwartungstreuen Schätzung und unter Normalverteilungsannahme die Existenz einer erwartungstreuen Schätzfunktion überhaupt verstehen. Im Abschnitt 1.3.5 werden Modelle (1.1.2) mit der inhomogenen Kovarianzstruktur Erc' = Z OiDi + XKX' ¿=i
(36)
auftreten, wobei K eine fest vorgegebene Matrix ist. Diese Änderung hat jedoch keinerlei Auswirkung auf die Gültigkeit der Sätze 1.2.3 und 1.2.2, da der Effekt der Matrix K bei "Übergang zu D(6) — PD(6) P verschwindet. Die Matrix H — HP ist unabhängig von K. Allerdings kann ihre Berechnung recht aufwendig sein. Eine effektive Methode zur Bestimmung von Jt(H — HP) basiert auf der Identität JV(H - HP) = { f i e f i » | ( / - P ) D(6) = 0 } , mit deren Hilfe oft sehr einfach
so gilt Ji(H - HP) = Jl(H -
Hp)
B e w e i s . Jede erwartungstreue Schätzfunktion in y läßt sich auch als Punktion von Ty ausdrücken und liefert damit zugleich eine erwartungstreue Schätzfunktion im transformierten Modell Ty = Xß + e,
ES' = ¿(0) .
•
Trotz des trivialen Beweises erlangt Lemma 1.2.7 im Abschnitt 1.3 Bedeutung f ü r den Nachweis der Lösbarkeit komplizierter Gleichungssysteme. Zunächst demonstrieren wir jedoch anhand von zwei Beispielen, wie einfach die Berechnung der Matrix L im Vergleich zu den von H — H P in konkreten Fällen sein kann. Beispiel 1.2.1. Angenommen, wir haben p Stichproben vom Umfang n mit einem gemeinsamen Erwartungswert ß und verschiedenen Varianzen dt, i = 1, ... , p, d. h. np Beobachtungen y^, i = 1, ... , p; j = 1, ... , n mit Eyij = ß ,
D(y„) = ö t .
Alle Beobachtungen seien unkorreliert. Sie folgen nach entsprechender Anordnung zu einem np-Vektor y einem linearen Modell mit inhomogenen Varianzen y=lnpß
+ e,
Ese' = 1 0((e W i=1
(g) / „ ) ,
(41)
35
1.2. Identifizierbarkeit und Schätzbarkeit
wobei e'/' der i-te Einheitsvektor des Rp ist. Die Matrizen Dt = (e^eW' 0 /„) genügen den Bedingungen von Lemma 1.2.6. Demnach ist = n
ki = sp
1
(42)
V
und von Null verschieden, wenn nur max {n, p} > 1. Dann sind alle linearen Parameterfunktionen y = cß +
p
£ fSi erwartungstreu schätzbar.
Beispiel 1.2.2. Wir betrachten das lineare Modell mit zufälligen Regressionsit koeffizienten (1.1.14), wobei 0 = dieWeW' eine unbekannte Diagonalmatrix ¿=1 bezeichnet. Dem entspricht ein Modell (1.1.2) mit p = k + 1, A = XeWefyX', i = 1, ... , p — 1, D p = I. Es folgt
{
.N — r ,
falls
0
sonst,
i 4= j — p , (43>
und nach Lemma 1.2.5 ist y = c'ß + f'd genau dann erwartungstreu schätzbar, wenn c e Jl(X') und ft = / 2 = ... = / J 1 _ 1 = 0 gilt. Die Varianzen ö 1 ; . . . , Qk und damit auch 0 sind nicht erwartungstreu schätzbar. Sie können aber identifizierbar sein, denn die im Satz 1.2.1 definierte Matrix H ist X'X * X'X
dv [X'X]
dv [ X ' X ] '
N
und kann durchaus regulär sein. dv [ X ' X ] bezeichnet hierbei den Vektor der Diagonalelemente von X'X und , , * " das Hadamardsche Matrizenprodukt (A 1.44). Wir sehen, daß im Gegensatz zur Schätzung linearer Funktionen von ß für die Schätzung linearer Funktionen von 6 Identifizierbarkeit und Existenz erwartungstreuer Schätzungen nicht mehr äquivalente Eigenschaften sind. Von mehr allgemeinem Interesse ist die Anwendung des Satzes 1.2.2 auf die am Ende des Abschnittes 1.1 definierten Modellstrukturen. Ein erstes Resultat ist schon rein anschaulich klar. Lemma 1.2.8. Im Wiederholungsmodell (1.1.19) existiert genau dann eine treue Schätzfunktion für y = c'ß + f'd, wenn c e Jl(X') und '
€
Je%(H - HP) ,
falls
n=
1,
\ Ji(H) ,
falls
n>
1.
Dabei sind H und HP die in den Sätzen 1.2.1 bzw. 1.2.2 definierten Teilmodell (1.1.20).
erwartungs-
(
}
Matrizen für das
Dieses Lemma sagt aus, daß die Identifizierbarkeit von y im Teilmodell (1.1.20) die Existenz erwartungstreuer Schätzungen in (1.1.19) garantiert, falls wenigstens eine Wiederholung des Versuches vorliegt. Ein algebraischer Beweis des Lemmas beruht auf der Identität L = (n 3*
1) H + L ,
(45)
36
1. Modelle mit linearer Kovarianzstruktur
wobei L die im Lemma 1.2.5 definierte Matrix (37) für das Gesamtmodell (1.1.19) ist. n Andererseits folgt dieses Resultat auch aus der Tatsache, daß mit y. = l/n ^ yt £ =
~ 7 S (Vi - y) Gr« n — l< = x
y.Y
eine erwartungstreue Schätzfunktion für D(d) ist, aus der für jede identifizierbare lineare Funktion von 6 eine erwartungstreue Schätzung durch entsprechende Dekomposition von H erhalten werden kann. Die Gleichung (45) hätten wir bereits im Beispiel 1.2.1 ausnutzen können. Modell (41) geht nämlich durch entsprechende Umordnung der Beobachtungen in ein Wiederholungsmodell der Form
y = {In 1») ß + e ,
Eee' = {In®Z
mit Teilmodellen der Gestalt y=lpß
+ e,
Eee' =
f 0 »=i
t
»=i
W )
e W
(46)
über. Für Modell (46) gilt H = I„,
L=
1
I Ip
Damit ist in (46) jede lineare Parameterfunktion von 6 zwar identifizierbar, aber nur im Fall p > 1 erwartungstreu schätzbar. I m dazugehörigen Wiederholungsmodell muß also entweder p oder n größer als 1 sein, um die Schätzbarkeit der Parameter 0], ... , dv zu gewährleisten. Für Modelle mit Blockstruktur (1.1.22) gilt ein dem Lemma 1.2.2 völlig analoges Resultat: n
Lemma 1.2.9. Die lineare Parameterfunktion y = £ cßi + f'Q ist im i=1 (1.1.22) genau dann erwartungstreu schätzbar, wenn c« 6 Jl(X\) ,
i = 1, ... , n ,
Modell (47)
und 1 * 3 1 ( 2 Li). i=i
(48)
Dabei ist Lt die Matrix aus Lemma 1.2.5 für das i-te Teilmodell (1.1.23) von (1.1.22). Der B e w e i s ist auch hier völlig trivial und basiert auf der Identität L =
+ ... + Ln ,
wenn mit L die L entsprechende Matrix für das Gesamtmodell (1.1.22) bezeichnet wird. Dieselbe Relation gilt auch für die Matrix H — HP in Satz 1.2.2. Die bisher entwickelten Schätzbarkeitskriterien erfordern die Kenntnis einer Basis Dlt... , Dp von X. Ist eine unbekannte Kovarianzmatrix 0 = ((Ö^)) zu schätzen, so wäre die Basisdarstellung 0 = 1
Ö«eW + £
+
37
1.2. Identifizierbarkeit und Schätzbarkeit
notwendig. Oft arbeitet man in solchen Fällen einfacher mit folgendem basisfreien Resultat: Lemma 1.2.10. treu
schätzbaren r «
Sei
3C =
{D
—
linearen =
{EA
e
PDP
\ D
€ ¡ X } . Dann
ist
die
Menge
aller
erwartungs-
Parameterfunktionen
(a'y +
y ' A y ) \ A t 3 T ,
a e Ji{X)} .
(49)
B e w e i s . Nach Satz 1.2.2 gibt es zu jeder erwartungstreu schätzbaren Parameterfunktion y eine quadratische Funktion y = a'y + y'Ay 6 & mit Ej> = y. Eine Einschränkung auf a € Jl(X) und A e SC ist nun zulässig, da E(b'y + y'By) = 0 für alle b € cyf(Z') und B mit sp [BW] = 0 für alle W e 5C. • Lemma 1.2.10 eignet sich zum Beispiel zur vollständigen Beschreibung aller linearen Parameterfunktionen (16), für die eine erwartungstreue Schätzfunktion existiert. p
Lemma 1.2.11. genau
dann
multivariaten
schätzbar,
wenn
¿
btVi
=
sind
H
und
¿=i Hierbei
I m
0
H
Ji(C)
£ b =
die
Satz
im
ist
= sp
y
[C'B]
-f
(bv
...
, bP)'
sp [F¿0i]
£ 8=1
J l ( X ' ) und
f ü r alle
P
(1.1.28)
Modell
g JV{H
— H
1 . 2 . 2 definierten
P
) .
Matrizen
(50)
f ü r
das
Grundmodell
(1.1.2).
B e w e i s . Wir gehen von der äquivalenten Modellformulierung (1.1.29) aus. Nach Lemma 1.2.10 sind dann alle erwartungstreu schätzbaren linearen Parameterfunktionen durch y =
=
E{d'(Ir
¿
® X ' ) y *
d \ X ' X ß t +
A=1
+
1
y*'{Ck
® D
4=1
£
(hik
-
P D
k
P ) y * )
*£>) sp [C*©.]
-
i, 4 = 1
k
(51)
beschrieben. Dabei ist d = (d[ | ... | d'r)' ein beliebiger &r-dimensionaler Vektoi und Ck, k = 1, ... , p, sind beliebige symmetrische (r x r)-Matrizen. Mit D = (d1 | ... | dr), B = ( ß \
| ...
y =
| ß*)
und F, =
sp [ D X ' X B ] +
über. Mit C' = DX'X denn es gilt
¿ (hik 4=1 f
f=i
-
h) C k , i =
sp [ Fi©,]
1,
...
, p,
geht (51) in (52)
ist y offensichtlich von der in Lemma 1.2.11 geforderten Form,
'¿6,7,= ¿ (hik i=1 i, 4 = 1
- h W ) b
t
C
k
=
0
für alle b = (61; ..., bp)' € JV(H — HP). Das beweist die Notwendigkeit der im Lemma 1.2.11 gegebenen Bedingungen. Umgekehrt erfüllt jede Menge symmetrischer (r X r)-Matrizen F { , i = 1, ... , p, die Bedingung (50) genau dann, wenn Vi = ¿ ry,Ff , 3= 1
i = 1, ... , p ,
(53)
38
1. Modelle mit linearer Kovarianzstruktur
wobei Ty die Elemente der Projektionsmatrix Pj^n-Hp) sind.*) Dann folgt y = sp [C'B] + Z ( f r
ro e 30,
sein. Wegen Ea'y = c'ß ist die Schätzfunktion y0 erwartungstreu f ü r / ' 0 , und deshalb ist y genau dann invariant schätzbar, wenn c € Jl(X') u n d / ' ö invariant schätzbar ist. Satz 1.2.5. Sei B e ¿9 beliebig, aber fest gewählt. (i) y = a'y + y'Ay ist genau dann invariante erwartungstreue Schätzfunktion für y = c'ß + f'6, wenn X'a = c ,
AX = 0 ,
sp {ADA = f t ,
(72)
*' = 1, - , P •
(ii) y = c'ß + f'6 ist genau dann invariant schätzbar, wenn ceJi(X'),
f e Jl(HBB.),
wobei HBB' die (p X J>)-Matrix mit den Elementen h\fB"> = sp [BB'DiBB'Dj]
(73) ist.
B e w e i s . Wegen der dem Satz vorangegangenen Überlegung genügt es zu zeige:: daß in J 0 eine erwartungstreue Schätzung für f'6 genau dann existiert, wenn / e c7l(H BB -). Sei B eine beliebige (N X (N — r))-Matrix mit B € Dann ist jede meßbare Funktion aus J 0 eine meßbare Funktion der Zufallsgröße t = B'y, die dem linearen Modell Ef = 0 ,
Ett' = J1 6iB'DiB »=i
(74)
genügt. Wenden wir Satz 1.2.2 auf dieses Modell an, so folgen (72) und (73) unmittelbar. Mit den Resultaten des Anhangs A. 5 zeigt man leicht, daß Bedingung (73) unabhängig von der Wahl von B € ) = c\X'W-*X)-c
+ 2f'(Hw-> - Hw-iPw)~
unabhängig von der Wahl der verallgemeinerten
f,
(4)
Inversen.
Eine äquivalente Formulierung für die LKVS ist y = c'(X'W-iX)~
X'W-hf
+ X'(hw->(j, - Xß0) - hw->Pw(y - Xß0)) ,
wobei A eine beliebige Lösung der linearen Gleichung (.Hw-i — Hw-lPw) X = /
(5) (6)
47
1.3. Normalverteilte Beobachtungen
ist. Mit den Bezeichnungen At = W 1(Dl — PwDiP'w)W wir auch oft (5) und (6) in der Form y = c\X'W-^)~ p
z
X'W-iy
sp [AiDf] A] = fi,
1,
i — 1, ... , p, schreiben
+ S h{y - Xß0)' At(y - Xß0) , (?)
I = 1, ... , p .
3= 1
B e w e i s von S a t z 1.3.1. Die Normalgleichungen (2) und (3) sind stets lösbar. Für (3) sehen wir dies z. B . mittels der Darstellungen A r - - Hw-,Pw
= SS' ,
hw-M
- hw-iPw(y)
= 8(W~^y
- Hw->Pw) 6 ,
(9)
und daher gilt für jede Lösung der Normalgleichungen (2) und (3) E(?_ ey = c'ß + f'6. Es bleibt zu zeigen, daß (4) bzw. (6) kleinste Varianz hat oder, äquivalent dazu, unkorreliert zu jeder beliebigen meßbaren Funktion t(y) ist, die den Bedingungen E/s, eHy) = 0 >
(10)
(ß,d)iRkX (13), (14), der Stetigkeit von gßte(y) und der Regularität von D(0o) = W lassen sich leicht bezüglich y integrierbare obere Schranken für ö2
8
und
t(y)oQ9ß,e{y)
innerhalb einer gewissen Umgebung 1£(ß0, 60) von (ß0, 0O) 6 Rk X e ( y ) d y
(15)
für alle j = 1, ... , k und ( ß , 6) e U(ß0, 60). Es folgt oovß., ea ( % ) , X'jW-iy)
= 0 ,
j = 1, ... , k .
(16)
Nochmaliges Differenzieren von (15) nach ßt liefert mit (16) cov A>fli ( % ) , y'W-iX-XjW-iy)
= 0,
i , j = 1, ... , k .
(17)
Nun differenzieren wir (10) nach 0t und erhalten / t ( y ) ( y - Xß)' D(6)~i A D ( 0 ) " i ( y - Xß) gß> e ( y ) d y = 0
(18)
für ( ß , 6) € l£(ß0, 0O). Daraus folgt cov f t ) e 0 {W, y'W-WtW-iy
-
2y'W^DiW~iXß0)
=0,
i = 1,... , p .
(19)
Damit sind durch (16), (17) und (19) quadratische-plus-lineare Funktionen in y gegeben, die mit t ( y ) unkorreliert sind und aus denen (7) als Linearkombination gewonnen werden kann. (16) impliziert und
c o v
f t . »o (%).
c'{X'W-^X)-
X'W-iy)
= 0
c o v A i f l , ( t ( y ) , ßoX'W-^XXjW-iy)
= 0 ,
(20) i , j = 1, ... , k .
(21)
Da die Matrizen XiXj, i , j = 1, ... , k, ein Erzeugendensystem des linearen Raumes aller Matrizen der Gestalt XDX' mit beliebiger (k X &)-Matrix D bilden, folgt aus (21) und (17) c o v A t f l , {m^W-iPwDtP'wW-iy i =
-
2ß'0X'W~1PwDiP'wW~1y)
= 0 ,
1, ... , p .
(22)
Das ergibt aber zusammen mit (19), (20) und (7) (%)>?) = 0 (23) Deshalb ist jede Schätzfunktion der Gestalt (7) LKVS für ihren Erwartungswert. Mit Hilfe von Satz A. 3.2 und der Regularität von W = D{60) überlegt man sich leicht, daß die LKVS eindeutig ist. Behauptung (ii) folgt aus (7) und (A. 2.45). Wir setzen A = J
AfAi,
a = d — 2AXß0,
d = W^X^'W^X)'
c
i= 1
und finden mit d = X(ß — ß0) Dßi0(y)
= (d + 2AÖ)' Z(d + 2AÖ) + 2 s p [AIAI]
,
(24)
wobei Z = D(0) zu setzen ist. Obiger Ausdruck vereinfacht sich jedoch erheblich, wenn d = 0, S = W. E s f o l g t d'Wd
= ¿{X'W-iXyc
u n d sp [ A W A W ] = X'Hw-i
-
Hw-iPw.
49
1.3. N o r m a l v e r t e i l t e B e o b a c h t u n g e n
Aber A war irgendeine Lösung von (6), d. h. A = (Hw-1 — Hw-,Pw) / e Ji(Hw-1 — IIw-iPw) sp [AWAW]
= f ' ( H
w
-
f zieht für
Hw.,Pw)~f
nach sich. H Die Formel (24) vereinfacht sich auch schon dann beachtlich, wenn nur Z = W ist. Es gilt Dß,ej
= c'(X'W-*X)-c
wobei H(MWMyi
+ 2X'H W -, - Hw-,PwX
+ 4
w-iee'w-i die Matrix der Elemente sp [Dt(MWMy
, (25) l
1
D1W^ dd'W^ ]
ist.
Bemerkung 1.3.1. Satz 1.3.1 gilt in nur geringfügig veränderter Form für Modelle (1.1.2) mit der Kovarianzstruktur (1.2.36). Dabei tritt an die Stelle von W die reguläre zum Kovarianzmatrix W + XKX'. Man beachte jedoch die Identität Pw = Pw+xkx' Zwecke weiterer Vereinfachungen (s. (A. 1.23)). Einen ausführlichen Beweis findet man in K L E F F E (1979a). Die explizite Darstellung der resultierenden Schätzfunktion ist in (7) angegeben. Dabei kann sogar die Regularitätsforderung für W entfallen, wenn nur W + XKX' regulär ist. Folgende zusätzliche Eigenschaften von LKVS sind zu bemerken: Lemma 1.3.1. (i) Die LKVS (7) ist invariant gegenüber Multiplikation von 0O mit einer positiven reellen Zahl. (7) hat somit gleichmäßig kleinste Varianz entlang des Strahles {(ß, 6) € «* X cT | ß = ß0, 0 = «0 O ,« > 0} . (26) (ii) Die LKVS ist linear in y, d. h., sind y1 und y2 erwartungstreu schätzbar und sind y2 LKVS für y1 und y2, so ist a.1y1 + a 2 y 2 LKVS für y = a^ + (x2y2 für beliebige Skalare
> 0. Dann gilt mit den Bezeichnungen 1 n y.=-;Zyi,
~ 1 Zw = -—7
n j=1
n
2 (vi - y.) (y} -
n
ij=i
Die L K V S für y = c'ß + f'd ist durch y(n) = c'(X'W-iX)-
X'W-iy.
y.Y-
+
p /n — 1 2 nXJ sp [ ¿ W ^ T F " 1 ] »=l \ n + (y. - Xß0y Ai(y. - XßSj
gegeben, wobei A{ wie in (7) erklärt ist und X = (Aj, ... ,XV)' eine beliebige Lösung (nHw-1-Hw-iPw)X=f
(29) von (30)
ist. B e w e i s . Wir wenden Satz 1.3.1 auf Modell (1.1.19) an und kennzeichnen alle Matrizen, die für Modell (1.1.19) zu bilden sind, mit dem Index (n). Aus X(n) = (l„(x)Z),
W(n) =
{I®W)
folgt sofort Pw
und Am
""
=
=
ln
® ln
Pw
)
® w-WtW-j
+
\n i ; ®
.
Das führt mit (7) und y{n) = (y[ | ... | y'n)' unmittelbar zu (29) und (30). Die Existenz von erwartungstreuen Schätzfunktionen für Modell (1.1.19) ist durch Lemma 1.2.8 geklärt. | Die oft schwierig zu berechnende Matrix Hw-iPw verliert in (30) bei wachsendem n an Einfluß, so daß unter Umständen X* = (ljn) H^-if eine gute Approximation für X sein kann.
51
1.3. Normalverteilte Beobachtungen
Zur Berechnung der Varianz von y (n) an der Stelle (ß, 60) geben wir folgendes Resultat an, das sich unmittelbar aus (25) gewinnen läßt: d
A«.(?) = 7t^c'iX'W-^X)-
c + 2X'(nH w -, -
Hw-rPw)X
+ 4nX'H^MWM)*, w^sö'w-1^ •
(31)
Dabei ist w-ww-1 w i ß in (25) definiert. Wegen (30) strebt X mit der Ordnung 1/n gegen 0, falls n unendlich anwächst. Das bedeutet, auch (31) strebt gegen Null. Aber auch an einer beliebigen Stelle (0, ß) läßt sich die Berechnung der Varianz von leicht durchführen, da und y. unabhängig verteilt sind. Ein wenig Rechnung liefert mit G* = £ XiDi ¿=1 d
afl(?w)
und
A* = £ XtAt i =1
=
X'W-iy) + nDßi6(y
- Xß)'A*(y
+ 2(» - 1)
d'Hw-iG.w-S
- Xß) ,
wobei alle hier auftretenden Größen nur im Grundmodell (1.1.20) berechnet zu werden brauchen. Die Bezeichnungen G* und A * weisen darauf hin, daß X nach (30) zu berechnen ist. Auch eine Blockstruktur des Modelles wie in (1.1.22) führt zu Vereinfachungen : Lemma 1.3.3. Sei ein Modell mit Blockstruktur der Form, (1.1.22) gegeben und ß0 = {ß' | ... | ß'), W = D(d0) = Diag [Wk]. Dann ist 9 = 2 ck(X'kW^Xny 4=1
X'kW^yk n
+ 1 Xt 1 (yk - Xkßk)' i = l 4 =1
Aik(yk
t
genau dann LKVS für y = 2 ckßk + f'O, wenn 4=1 ( i
H^li
-
\lPwp)
X= /,
-
Xnßkj (32)
(33)
wobei Aik, i = 1 , . . . , p, und \i bzw. H^Lp^t) die im Satz 1.3.1 auftretenden für das k-te Teilmodell (1.1.23) von Modell (1.1.22) sind. - H%L *>y f • DA>e.(P) = £ c'k(XkW^Xk)ek + 2f'( £ flSJ», 1Pwj 4=1 4=1 " * *
Matrizen
B e w e i s . (32) folgt direkt aus (7) durch Einsetzen der Blockmatrizen Diag [X®], W = Diag \ Wk~\. Die Gleichung (33) folgt durch Berechnung des Erwartungswertes von (32). • Der Rechenaufwand zur Bestimmung von LKVS im Gesamtmodell ist nicht größer als der Aufwand, der zur Berechnung von LKVS in jedem Teilmodell notwendig wäre. Er ist sogar erheblich geringer, da wir nur ein Gleichungssystem für X zu lösen haben, während anderenfalls n solche Gleichungssysteme zu lösen wären. Sind alle Teilmodelle (1.1.23) identisch, so ist wegen (32) die LKVS y für y = f'B im Blockmodell gerade der Mittelwert der einzelnen LKVS für y in den Teilmodellen. I m allgemeinen Fall ist sie aber nicht einmal eine Linearkombination der 4»
52
1. Modelle m i t linearer Kovarianzstruktur
einzelnen LKVS. Ist f'O in jedem Teilmodell schätzbar, so zeigt man leicht wie im Beweis von Lemma 1.3.16, daß y = mit (H^X -
n
genau dann gilt, wenn ein /. e R p existiert
i=1
l = 0ikf,
4=1,...,».
Zur Anwendung von Satz 1.3.1 auf multivariate Modelle (1.1.24) wird die Inversion von Kovarianzmatrizen der Form E = 2 (Di ®io) t=l notwendig. Für spezielle Strukturen der Dlt ... ,DP können hier Methoden aus Anhang 4 Hilfe leisten. I m einfachsten Fall 0io = 6{o0, i = 1, ... , p, erhalten wir w = (W®&),
(34)
w=zei0Di, i=1
und W ist genau dann positiv definit, wenn W und 0 beide positiv definit sind. Lemma 1.3.4. Für das multivariate Modell (1.1.28) ist y = sp [C'{X'W-^Xr
X'W-W]
genau dann LKVS für die schätzbare
+ f sp [AJY - XB0)' At(Y - XB0)] i=1 Parameterfunktion
y = sp [C'B] + 2 1 sp [Fi6>i] i=X an der Stelle B0, 0{o = 6io0, gegebenen Matrizen sind und "
Ai=Z*{%Vi,
(35)
(36)
i = 1, ... , p, 0 > 0, wenn A1, ... , Ap die durch (7)
i = l,...,p.
(37)
3= 1
Hierbei sind oc^ die Elemente einer beliebigen verallgemeinerten Inversen von Hw-1 — HWiPw. Weiter gilt Dj»., w(y) = sp [C'iX'W-^Xy
1
Es ist wichtig zu wissen, daß die linearen Teilräume J f - i J , =
{ W ~ H
\ d t A }
und ( M W M y % ( M W M )
+
=
{ ( M W M )
+
G ( M W M )
+
\G
e J f )
nicht von W € 2 ) abhängen und deshalb eine von W 6 5 ) > unabhängige Charakterisierung des linearen Raumes aller K V S y e G L liefern. Darüber hinaus ist jede lineare Funktion a ' y , a e W ~ < A , von jeder quadratischen Form y ' A y , A e { M W M ) * J f ( M W M ) , unabhängig verteilt, und zwar für alle (ß, 6) 6 IRk X . Gilt für eine vorgegebene Schätzfunktion y = a ' y + y ' A y mit a = W ' H , A = ( M W M ) G ( M W M ) nicht d €
1
+
+
+
56
1. Modelle mit linearer Kovarianzstruktur
I n den meisten Fällen gilt I e 2)>. Dann f ü h r t die Wahl von W = I zu wesentlichen Vereinfachungen der Bedingungen des Satzes 1.3.3. Die Menge JL geht in den linearen Teilraum des RN über, der invariant gegenüber allen linearen Abbildungen D £ X ist (vgl. (A. 1.52)). Um eine einfachere Beschreibung für Í zu finden, bezeichnen wir mit £ X den linearen Teilraum aller linearen Abbildungen D e X , für die Jl(X) ein invarianter Teilraum ist. Dann ist Jf der lineare Teilraum aller O g X mit (MDM) G(MDM) e J f x für alle
D eX .
(52)
Nun untersuchen wir, unter welchen Bedingungen für alle schätzbaren linearen Funktionen von ß und 6 KVS existieren: Lemma 1.3.5. Es existiert genau dann eine KVS für jede schätzbare lineare von ß, wenn für festes W £ UP" MDW^X
= 0 für alle
Funktion
D eX .
(53)
B e w e i s . Seien ylt ... , ys eine Basis des linearen Raumes aller schätzbaren linearen Funktionen von ß und y x , ... , y s ihre LKVS zu gegebenen 0O € cT*. Nach Satz 1.3.1 sind sie lineare Funktion vony, d. h. fa = d',¿W~ly, wobei d l5 ... , ds linear unabhängige Vektoren sind, die Jt(X) aufspannen. Lineare Abhängigkeiten zwischen den d¡ würden den Erwartungstreuebedingungen Ey t = yt widersprechen. Sind nun y1; ... , ys sogar KVS ihrer Erwartungswerte, so muß di e gilt, wählen wir zuerst D = W. Es folgt MWM
(58)
= MGWM . +
+
Nun multiplizieren wir mit (MDM) (MWM) von links und mit (MWM) (MDM) von rechts und erhalten mit (56) die Bedingung (47). Demnach ist G w € 1 , da die Bedingung (48) wegen (55) durchweg erfüllt ist. Mit der Bemerkung am Ende des Satzes 1.3.3 folgt aus (56) weiter W € Jf. W e 2)> war beliebig gewählt, und da diese Matrizen den Raum X erzeugen, folgt 1 = X. • Aus (A. 1.13) folgt, daß in (ii) von Lemma 1.3.8 die Projektionsmatrix M auch durch die beliebige Matrix B 6 (definiert in (1.2.70)) ersetzt werden kann. Sie lautet dann (59) B'DB(B'WB)+ B'DB = B'GDB .
59
1.3. Normalverteilte Beobachtungen
Weiterhin sei darauf hingewiesen, daß die Notwendigkeit beider Bedingungen (i) und (ii) des Lemmas 1.3.8 schon aus der Existenz von KVS für jedes schätzbare y —f'6 folgt. Mit Satz A. 4.2 gilt (56) für spezielles W e 2) > genau dann, wenn es für alle W € 3)mit Jl( W) zd Ji(M) gilt. Wir können also zum Prüfen dieser Bedingung ein jeweils geeignetes W € S>- auswählen. Selbstverständlich wird die Wahl W = I (falls möglich) am einfachsten sein. Dann vereinfachen sich (55) und (56) zu: (i) (ii)
DP = PD für alle DaX. XM ist ein quadratischer Teilraum.
(60) (61)
Hinreichend für (61) ist bereits (60) und daß X ein quadratischer Teilraum ist. Diese Bedingung ist jedoch nicht notwendig, was folgendes Beispiel zeigt: Beispiel 1.3.2. I m Abschnitt 1.6 wird das Zwei-Weg-Klassifikationsmodell der Varianzanalyse behandelt, das im balancierten Fall einem Modell (1.1.2) mit A = {im i„ i'n), D2 = (i m i ; /„) , D3 = In entspricht, wobei N = mn ist. Die Projektionsmatrix P = Pji(X) ist P = (1 ¡N) ljy und ist mit Di; i = 1, 2, 3 vertauschbar. Eine einfache Rechnung zeigt, daß X m ein quadratischer Teilraum ist. X dagegen ist kein quadratischer Teilraum, da sich die Matrix DxD2 + D2D1 = 2 1 ^ 1 ^ nicht als Linearkombination der Matrizen Dlt D2, D3 darstellen läßt. Beispiel 1.3.3. Wir betrachten RAOS Modell (1965) mit zufälligen Regressionskoeffizienten, das durch (1.1.17) gegeben ist, wenn die Matrizen ... , Xq identisch sind. Dann gilt mit X = (1? (x) X) p j K x > = j ( i 4 1 ; p ) , und Pjt(x) ist mit allen Kovarianzmatrizen der Form D(&,o*) = {it®xex,)
+ oH
vertauschbar. X ist ein quadratischer Teilraum, da [Z>(0, a 2 )] 2 = (I ®X(6X'X0
+ 2a2©) X') + o*I
wieder von obiger Gestalt ist. Also existieren KVS für alle schätzbaren linearen Parameterfunktionen von 0,CT2und ß. Die Übertragung der bisherigen Resultate auf Wiederholungsmodelle bereitet keine Schwierigkeiten. Aus Lemma 1.3.2 und Satz 1.3.2 folgt zunächst, daß KVS für y stets von der Gestalt y = a'y. + n
S
P \-G W'1^*)
+ y.(MWM)+
G(MWM)+ y.j
(62)
sein müssen. "Überprüfung der Bedingungen des Satzes 1.3.3 für das Gesamtmodell (1.1.19) liefert Lemma 1.3.9. Im Wiederholungsmodell (1.1.19) ist (62) genau dann KVS für ihren Erwartungswert, -wenn (i) de
wobei JI(mwm)\ w^xrx-w-1
den Elementen
aus
lMWMr, W-1XRX'W-1
h
(98)
=
sp
[(MWM)+ DiW-lXRX'W-1Di\
(99)
besteht. Diese Formeln erweisen sich als sehr vorteilhaft für die Behandlung des Wiederholungsmodells (1.1.19). Bezeichnen wir die in (94) auftretenden Matrizen A( für Modell (1.1.19) mit A{> so gilt Lemma 1.3.13. 8ei für n > 1 ein Wiederholungsmodell (1.1.19) gegeben, W = positiv definit und K eine reguläre (k x k)- Matrix ist. Dann gilt
D(6)
w
(ioo)
^
=
® r A r j
wobei A{ die in (94) auftretende Matrix Atfür von K die Matrix nK eingesetzt wird, d. h. At = T-^Di (ii)
y'Aiy
-
in = ni s
PwDtP'w) 1 p
+ ^ i , ! ; ® ^ ,
das Grundmodell (1.1.20) ist, wenn anstelle
T~l,
[DiW-iZ^W-1]
T = W + nXKX' + y.A 0 und y = c'ß + f'6
identifizierbar:
(i) Die I L K V S für y ist mit d = (/ - (MWM)+ ^
~
y =y.'ä + s P [%,)£(„)] + —
W) Z+'c
n
,
wobei ö(«) =
£ hW^DiW'1,
A(n)
1=1
und A = (/.], ... , Ap)' eine beliebige
1
Lösung
=
Z k(MWM)+
Di(MWM)+
i-1
von
\ i H{mwm)+ JA — f
n
ist. (ii)
D a 9 (p) = ±
i
Qd'Dd
+ ^
0' (hGw
+ ^
ffA(J
e.
Die Regularität von W mußte vorausgesetzt werden, da die Forderung Jl(W) ¡2 Jl(M) im Gesamtmodell (1.1.19) nur dann erfüllt ist. Anderenfalls ist für jedes gtJV(W) der Vektor (1„ (x)g) im Bild von M = (In ® I) - (1 \n 1„ l'n (g) P) und gehört zum Nullraum von W = (I„ ® W).
73
1.3. N o r m a l v e r t e i l t e B e o b a c h t u n g e n
Lemma 1.3.15. Sei ein Modell mit Blockstruktur (1.1.22) gegeben und w = D i a g [Wlt
... , Wn]
mit
Jl(Wi)
2 3i(Mt)
.
n
(i) Die ILKVS
für invariant n Z (42/* +
schätzbares
p Z
^y'kAikyk),
= ( I - (MkWkMky
Wk) Xtck
y =
Jc= 1
4=1
£ ckßk + / ' ö k=i
y =
Lemma
1.2.15) ist
wobei d
k
Dik(MkWkMk)+
Aik = {MkWkMky
k = 1,...
, ,
ist und X = (Aj, ... , Xp)' eine beliebige Lösung
,n ,
i = 1, ... , j> , von
n
)*=/•
(Hl)
k=l Mit H^kWklI]cy (ü)
Oß!e(y)
bezeichnen =
wir die Matrix
n p Z (Z Otd'kDikdk k = l ¿=1
H^MWMy
für das k-te Teilmodell
(1.1.23).
p + 26'(Z
hHÄil)
6) .
i=1 Damit ergibt sich die ILKVS für c'ß = Zn c'kßk i m Blockmode] 1 gerade aus der Summe 4=1
der entsprechenden Schätzungen für c'kßk in den Teilmodellen, was ganz natürlich ist. Aber die ILKVS für f'6 ist nicht einmal eine Linearkombination der ILKVS in den einzelnen Teilmodellen. Das war auch nicht zu erwarten, da f'6 nicht in jedem Teilmodell invariant schätzbar zu sein braucht und vor allem aber die Varianzen der Schätzungen für f'6 in den einzelnen Teilmodellen sehr verschieden sein können. Deshalb kann höchstens eine gewichtete Linearkombination der Einzelschätzungen als Gesamtschätzung erwartet werden. Folgendes Lemma gibt eine Charakterisierung dieses Falles: L e m m a 1.3.16. Angenommen, die I L K V S y^ für y = f'6 existiert in jedem, Teilmodell (1.1,23). Dann ist die I L K V S y für y im Oesamtmodell (1.1.22) eine Linearkombination der p(jt) in den Teilmodellen mit Koeffizienten , ist und (ii)
MDW~1X
Teilraum
= 0 für alle
bezüglich
.
(118)
genau
einer
dann
regulären
eine I K V S für Gewichtsmatrix
alle W'1,
D eX .
B e w e i s . Bezeichnen wir mit M die orthogonale Projektion auf (1„ (x) X') und mit Jj = (In (y) D) bzw. W = (In (x) W), so folgt durch einfache Rechnung MWM
= ( M n eine A-priori-Verteilung über den Vektor der Parameter 0 1 , . . . , © p . Dann folgt
/ D@^...tep(y)
* = 2 i ci} sp [ADtADA
dP®'
(136)
i, j = l
mit c ö = / sp [V&iV&f] dP®—>®* .
(137)
Deshalb kann (136) auch als gemischtes Risiko (128) im eindimensionalen Modell (1.1.2) bezüglich einer zu C = ((ci3)) gehörenden A-priori-Verteilung interpretiert werden. Bayessche invariante quadratische erwartungstreue Schätzfunktionen der Form y'(A (x) F) y = sp [VY'AY] im multivariaten Modell (1.1.28) werden also durch BAIQUE für f ' d im eindimensionalen Modell (1.1.2) geliefert. Als Spezialfall gehen auch lokal optimale invariante erwartungstreue Schätzfunktionen der betrachteten Form im multivariaten Modell auf bayessche invariante quadratische erwartungstreue Schätzungen im eindimensionalen Modell zurück.
1.3.7.
Schätzfunktionen mit kleinstem mittleren quadratischen Abstand
Eine Alternative zu bayesschen erwartungstreuen Schätzfunktionen, bei der die mittlere Varianz minimal ist, sind Schätzfunktionen mit minimalem bezüglich einer A-priori-Verteilung gemitteltem quadratischem Abstand. Jedoch hat die Berechnung solcher Schätzfunktionen nur innerhalb bestimmter Teilklassen einen Sinn. Wir betrachten hier nur die Klasse G L aller quadratischen Funktionen von y , deren Erwartungswert eine lineare Funktion von ß und 0 ist. G
L
= {a'y + y'Ay |aeF, X ' A X
= 0 , 4 e äKy x jy} .
y e Gh heißt Schätzfunktion mit kleinstem (MSESF) füry, falls y das gemischte Risiko
Definition 1.3.3.
Abstand
J Eft
e(?
—
y)2
mittleren
quadratischen
dP^ dP e
(138)
minimiert, wobei P^ und unabhängige A-priori-Verteilungen über ß und 0 sind. Die Minimierung von (138) kann mit Hilfe von Satz A. 3.1 durchgeführt werden, denn Pe
/ Eß,e(y
- y ) ( ö - y)
dP"dP8
=< y - y , ö - y >
(139)
ist ein verallgemeinertes inneres Produkt zweier Schätzfunktionen y und 6. Demnach minimiert y e Gl genau dann (138), falls