188 64 44MB
German Pages 918 [920] Year 1996
Multivariate statistische Verfahren Herausgeber: Ludwig Fahrmeir • Alfred Hamerle • Gerhard Tutz
Multivariate statistische Verfahren 2., überarbeitete Auflage Herausgegeben von
Ludwig Fahrmeir, Alfred Hamerle und Gerhard Tutz unter Mitarbeit von Wolfgang Brachinger, Walter Häußler, Heinz Kaufmann, Peter Kemeny, Christian Kredler, Willi Nagl, Friedemann Ost, Heinz Pape
w
Walter de Gruyter G Berlin • New York 1996 DE
Die Herausgeber: Professor Dr. Ludwig Fahrmeir Institut für Statistik, Ludwig-Maximilian-Universität München Professor Dr. Alfred Hamerle Lehrstuhl für Statistik, Wirtschaftswissenschaftliche Fakultät, Universität Regensburg Professor Dr. Gerhard Tutz Institut für Quantitative Methoden, Technische Universität Berlin © Gedruckt auf säurefreiem Papier, das die US-ANSI-Norm über Haltbarkeit erfüllt
Die Deutsche Bibliothek -
CIP-Einheitsaufnahme
Multivariate statistische Verfahren / hrsg. von Ludwig Fahrmeir ... Unter Mitarb. von Wolfgang Brachinger ... - 2., Überarb. Aufl. - Berlin ; New York ; de Gruyter, 1996 ISBN 3-11-013806-9 NE: Fahrmeir, Ludwig [Hrsg.]; Brachinger, Wolfgang
© Copyright 1996 by Walter de Gryter & Co., 10785 Berlin. Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Satz und Druck: Tutte Druckerei GmbH, Salzweg-Passau - Bindearbeiten: Lüderitz & Bauer GmbH, Berlin - Umschlaggestaltung: Johannes Rother, Berlin
Vorwort zur zweiten Auflage Die Grundkonzeption des Buches wurde in der zweiten Auflage unverändert gelassen. Alle Kapitel wurden durch die Berücksichtigung neuerer Literatur aktualisiert, einige Kapitel wurden ergänzt und erweitert, ein Kapitel (Analyse von Verweildauer) wurde zusätzlich aufgenommen. Die wichtigsten Veränderungen gegenüber der ersten Auflage sind: In Kapitel 3 wurde der Abschnitt 2.4 über Verfahren zur Minimierung einer Funktion erweitert (SQP-Verfahren der nichtlinearen Optimierung, EM-Algorithmus). Neu ist Abschnitt 2.5 zur nichtparametrischen Dichteschätzung. In Abschnitt 4.1 wurden der Likelihood-Quotienten-Test durch Score- und Wald-Test ergänzt und Hinweise zum Testen unter Ungleichungsrestriktionen aufgenommen. In Kapitel 4 wurde der dritte Abschnitt zur nichtlinearen Regression überarbeitet und erweitert. Neu ist Abschnitt 4 zur nichtparametrischen Regression mit einer Übersicht unter besonderer Berücksichtigung von Kernregressionsschätzern, Glättungssplines und additiven Modellen. Kapitel 5 enthält einen vollständig überarbeiteten und erweiterten dritten Abschnitt über Versuchspläne mit Meßwiederholungen. Die Kapitel 6 und 7 der ersten Auflage wurden zu einem Kapitel zusammengefaßt. Hier werden uni- und multivariate generalisierte lineare Modelle und ihre Anwendung beschrieben, wobei der Schwerpunkt auf kategorialen Regressionsmodellen liegt. Zur Parameterschätzung werden Maximum-Likelihood-Verfahren behandelt, während in der ersten Auflage im Kapitel 6 gewichtete KleinstQuadrate-Ansätze im Vordergrund standen. Kapitel 7 der zweiten Auflage ist neu und enthält einen Überblick über die wichtigsten statistischen Grundkonzepte zur Analyse von Verweildauern und Lebenszeiten. Wesentliche Erweiterung in Kapitel 8 ist der Einbezug von CART (Klassifikations- und Regressionsbäume)-Methoden. Die nonparametrische Diskriminanzanalyse mittels Kerndichteschätzung wurde überarbeitet und um ein Beispiel zur Insolvenzprognose erweitert. In Kapitel 10 wurde ein Abschnitt über graphische Modelle aufgenommen und die Verfahren zur Modellwahl wurden überarbeitet und ergänzt. Kapitel 11 wurde um einen Abschnitt über LISREL-Ansätze erweitert. Der größte Teil der Veränderungen wurde von den ursprünglichen Autoren vorgenommen. Weitgehend unverändert blieben Beiträge von Heinz Kaufmann, einem Freund und Mitautor der ersten Stunde, der bei einem Bergunfall ums Leben kam. Als neue Autoren sind Willi Nagl und Wolfgang Brachinger hinzugekommen. Für ihre Mithilfe danken wir Göran Kauermann, Oliver Jost, Ulrich Hornsteiner und Christian Gieger. Weiterer Dank gilt allen, die aus Manuskripten leserliche Druckvorlagen machten: Norbert Behrens, Renate Maier-Reusch, Monika Thier, Petra Glaw, Marietta Dostert und Gabriele Schnabel. Schließlich danken wir dem Walter de Gruyter Verlag, insbesondere Frau Dr. Bianka Ralle, für die stets verständnisvolle und angenehme Zusammenarbeit. München, Regensburg und Berlin im Dezember 1995
Ludwig Fahrmeir Alfred Hamerle Gerhard Tutz
Vorwort zur ersten Auflage Ziel dieses Buches ist die Darstellung der wichtigsten Teilgebiete der multivariaten Statistik. Als Lehrbuch und Nachschlagewerk wendet es sich an Studierende und Fachleute aus den Bereichen Angewandte Mathematik, Wirtschafts- und Sozialwissenschaften, Psychologie, Medizin, Naturwissenschaften und Technik. Gegenüber anderen - meist englischsprachigen - Büchern zu diesem umfangreichen Gebiet der Statistik wurde neben der Behandlung von klassischen Verfahren, die vorwiegend für metrische Variablen geeignet sind, besonderer Wert gelegt auch auf Verfahren zur Analyse qualitativer bzw. gemischt qualitativ-metrischer Daten. Diese wichtige Erweiterung und die Aufnahme vieler ausführlicher, realer Anwendungsbeispiele schien uns für eine umfassende Darstellung des Gebietes und für seine vielfaltige effektive Nutzung unumgänglich. Dem Ziel entsprechend sind einige Kapitel, die klassische Verfahren behandeln, relativ gestraffter gehalten, da sie in einer Reihe von Einzeldarstellungen und englischsprachigen Standardwerken ausführlich dargestellt sind. Dies betrifft Teile von Kapitel 4 zur Regressionsanalyse, in dem die Korrelationsanalyse nur in knapper Form gestreift wird, und insbesondere Kapitel 5 zur Varianz- und Kovarianzanalyse, wo nur auf die gebräuchlichsten Versuchspläne eingegangen wird. Demgegenüber nehmen eine Reihe von Kapiteln, bei denen neben den bekannteren Methoden für metrische Variablen auch Methoden für qualitative oder gemischt qualitativ-metrische Variablen vorgestellt werden, mehr Raum als üblich ein. Dies gilt für die Kapitel 8 (Diskriminanzanalyse), Kapitel 9 (Clusteranalyse) und Kapitel 11 (Faktorenanalyse). Kapitel 6 (Kategoriale Regression) und 10 (Zusammenhangsanalyse in mehrdimensionalen Kontingenztabellen) haben überwiegend Verfahren mit qualitativen Variablen zum Inhalt. Kapitel 7 stellt mit den verallgemeinerten linearen Modellen eine umfassende Modellfamilie vor, in die sich eine Vielzahl von Regressionsansätzen für rein metrische, rein qualitative und gemischt qualitativ-metrische Variablen einordnen läßt. In Kapitel 1 wird nach einführenden Beispielen und einem kurzen Abriß der Meßtheorie der Inhalt der einzelnen Kapitel näher ausgeführt. Kapitel 2 stellt die später benötigten wahrscheinlichkeitstheoretischen Hilfsmittel zur Verfügung, Kapitel 3 behandelt wichtige grundlegende multivariate Schätz- und Testprobleme. Beide Kapitel besitzen überwiegend Referenzcharakter, auf Beweise wurde weitgehend verzichtet. Durch zahlreiche reale Beispiele aus verschiedenen Bereichen werden die Anwendungsmöglichkeiten der behandelten Methoden aufgezeigt. Wegen der Breite des Gebietes, des Umfangs des Buches und des hohen Aufwands für die numerischen Auswertungen der realen Problemstellungen hätte das Werk ohne die Mitarbeit und die Spezialkenntnisse weiterer Autoren nicht in vertretbarem Zeitaufwand entstehen können. Die Herausgeberform erschien uns die geeignetste Möglichkeit, diese Mitarbeit entsprechend zu würdigen. Dennoch sind, dem Zusammenhang der Teilgebiete entsprechend, Form und Inhalt der Kapitel im Stil eines Lehrbuchs aufeinander abgestimmt, jedoch ist auch das Studium einzelner Kapitel - eventuell nach Lektüre der einführenden Kapitel 1 bis 3 bzw. Anhang A jeweils für sich möglich.
Vorwort
VII
W i r danken Frau Renate Meier-Reusch und Frau Kornelia Treiber, die mit viel Ausdauer und Sorgfalt das Manuskript geschrieben haben. Schließlich gilt unser Dank dem de Gruyter Verlag für die stets angenehme Zusammenarbeit und das Eingehen auf alle unsere Wünsche, und besonders Herrn Werner Schuder, dessen Initiative und Unterstützung das Projekt erst ermöglichten. Regensburg, im Dezember 1983
Ludwig Fahrmeir Alfred Hamerle
Inhalt
Vorwort zur zweiten Auflage Vorwort zur ersten Auflage
Kapitel 1 Einführung Ludwig Fahrmeir und Alfred Hamerle 1. Einführende Beispiele 2. Grundlegende Begriffe der Meßtheorie 3. Überblick über multivariate statistische Verfahren
1 1 4 11
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen Ludwig Fahrmeir und Alfred Hamerle 1. Verteilungsfunktionen und Dichten 1.1 Gemeinsame Verteilungsfunktionen und Dichten 2. Erwartungswerte und Kovarianzmatrizen 3. Mehrdimensionale Normalverteilung, Multinominalverteilung und Grenzwertsätze 3.1 Mehrdimensionale Normalverteilung 3.2 Verteilungskonvergenz und Grenzwertsätze 3.3 Multinominalverteilung 4. Wishart- und verwandte Verteilungen 4.1 X 2 -, F- und t-Verteilung 4.2 Wishart-, Λ- und 0-Verteilung 5. Exponentialfamilien 5.1 Definition und Beispiele 5.2 Einfache Exponentialfamilien
18 19 19 22 25 25 29 33 37 37 38 42 42 46
Kapitel 3 G r u n d l e g e n d e m u l t i v a r i a t e Schätz- u n d Testprobleme Ludwig Fahrmeir und Alfred Hamerle 1. Punktschätzung von Erwartungswerten und Kovarianzmatrizen 1.1 Ein-Stichprobenfall 1.2 Mehr-Stichprobenfall 2. Allgemeine Prinzipien der Parameterschätzung 2.1 Likelihood-Funktion und Suffizienz 2.2 Einige Eigenschaften von Punktschätzern 2.3 Maximum-Likelihood-Schätzung 2.4 Einige Verfahren zur Minimierung einer Funktion 2.5 Nichtparametrische Dichteschätzung 3. Hypothesentests und Vertrauensbereiche für Erwartungswerte und Kovarianzmatrizen
49 49 49 52 53 54 57 59 65 72 80
X
Inhalt
3.1 3.2 4. 4.1 4.2
Test und Vertrauensbereiche für Erwartungswerte Tests für Kovarianzmatrizen Testprinzipien Likelihood-Quotienten-Test, Score-Test und Wald-Test Der Union-Intersection-Test und simultane Kofidenzintervalle
80 84 85 85 90
Kapitel 4 Regressionsanalyse Ludwig Fahrmeir, Heinz Kaufmann und Christian Kredler 1. Univariate lineare Regression 1.1 Modelle der linearen Regressionsanalyse 1.2 Schätzen im klassischen und allgemeinen linearen Modell 1.3 Tests, Konfidenzbereiche und Modellüberprüfung 1.4 Variablenselektion 1.5 Beispiele 2. Multivariate lineare Regression 2.1 Das Modell 2.2 Punktschätzung der Parameter 2.3 Tests und Konfidenzintervalle 2.4 Beispiel 2.5 Kanonische Korrelationsanalyse 3. Nichtlinare Regression 3.1 Modellgleichung, Kleinst-Quadrat-Schätzung 3.2 Die Gauß-Newton-Methode zur numerischen Berechnung der KQ-Schätzer . . 3.3 Asymptotische Eigenschaften der KQ-Schätzer 3.4 Test und Konfidenzbereiche 3.5 Beispiel 4. Nichtparametrische Regression 4.1 Nichtparametrische Einfachregression: Scatterplot-Smoother 4.2 Nichtparametrische Mehrfachregression
93 93 95 97 108 118 123 132 132 133 135 141 144 146 146 149 150 152 155 158 158 163
Kapitel 5 Varianz- u n d K o v a r i a n z a n a l y s e Ludwig Fahrmeir, Alfred Hamerle und Willi Nagl 1. Univariate Varianzanalyse mit festen Effekten 1.1 Einfaktorielle Versuchspläne 1.2 Zweifaktorielle Versuchspläne 2. Kovarianzanalyse 2.1 Allgemeine zweistufige Vorgehensweise 3. Versuchspläne mit zufälligen Effekten, genestete Designs und Meßwiederholungspläne 3.1 Grundbegriffe und Kennzeichnung des Designs 3.2 Einige Modelle 3.2.1 Modell mit einem Wiederholungsfaktor (zufälliger Blockplan) 3.2.2 Modell mit zwei Wiederholungsfaktoren 3.2.3 Modell mit Gruppen- und Wiederholungsfaktoren 3.3 Allgemeine Form der Gemischten Modelle 3.3.1 Spezialfälle 3.3.2 Schätzung des Modells 4. Multivariate Varianzanalyse mit festen Effekten
169 169 169 182 196 198 205 205 209 210 212 215 220 220 225 228
Inhalt 4.1 4.2
Einfaktorielle Versuchspläne Zweifaktorielle Versuchspläne
XI 228 234
Kapitel 6 Kategoriale und generalisierte lineare Regression Ludwig Fahrmeir, Alfred Hamerle, Gerhard Tutz 1. Univariate generalisierte lineare Modelle 1.1 Beispiele und Daten 1.2 Definition generalisierter linearer Modelle 1.3 Modelle für stetige Zielvariablen 1.4 Modelle für binäre und binomiale Zielvariablen 1.5 Modelle für Zähldaten 2. Statistische Inferenz in univariaten generalisierten linearen Modellen 2.1 Maximum-Likelihood-Schätzung 2.2 Hypothesentests und „Goodness of fit" 3. Mehrkategoriale Regressionsmodelle 3.1. Daten und Beispiele 3.2. Das mehrkategoriale Logit-Modell als multivariates verallgemeinertes lineares Modell 3.3 Modelle für geordnete Responsekategorien 3.4 Schätzen und Testen in multivariaten generalisierten linearen Modellen 3.5 Anpassungstests und Residualanalyse 4. Parametrische Erweiterungen 4.1 Quasi-Likelihood-Modelle und generalisierte Schätzgleichungen 5. Regressionsmodelle für multivariate korrelierte Zielvariablen 5.1 Generalisierte additive Modelle 5.2 Kernschätzung zur geglätteten Regression bei diskreter abhängiger Variable
239 239 240 243 246 247 253 254 254 258 262 263 263 271 277 279 287 287 293 293 296
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern Ludwig Fahrmeir, Alfred Hamerle und Gerhard Tutz 1. Grundlegende Begriffe und Modelle 1.1 Zensierte Daten 1.2 Survivalfunktion und Hazardrate 1.3 Zwei Modellklassen 2. Schätzverfahren 2.1 Die Sterbetafel-Methode 2.2 Nichtparametrische Schätzung der Survivalfunktion (Kaplan-Meier-Schätzer) 2.3 Maximum-Likelihood-Schätzung in Transformationsmodellen (bei bekannter Fehlerverteilung) 2.4 Kleinst-Quadrate-Schätzung in Transformationsmodellen 2.5 Maximum-Partial-Likelihood-Schätzung für das Proportional-Hazard-Modell 3. Einbeziehung von zeitabhängigen Kovariablen 4. Tests für Regressionsparameter und Überprüfung der Proportionalitätsannahme 4.1. Test für Regressionskoeffizienten und Modellteile 5. Einbeziehung unbeobachteter Populationsheterogenität
301 302 302 304 304 317 317 321 323 326 328 331 338 338 341
XII 5.1. 5.2. 5.3 5.4 6. 6.1 6.2 6.3
Inhalt Beispiele zur unbeobachteten Heterogenität Modelle und Parameterschätzung bei gegebener Verteilung der Heterogenitätskomponente Simultane Schätzung der strukturellen Modellparameter und der Verteilung der Heterogenitätskomponente Vergleich verschiedener Schätzverfahren bei Fehlspezifikation, insbesondere bei unbeobachteter Heterogenität Kurze Übersicht über weitere Verfahren und Probleme der Verweildaueranalyse „Competing Risks" und Mehr-Zustands-Modelle Multivariate Ereignisanalyse Zeitdiskrete Modelle für Verweildauern
341 344 345 346 349 349 351 355
Kapitel 8 Diskriminanzanalyse
357
Ludwig Fahrmeir, Walter Häußler und Gerhard Tutz 1. 1.1 1.2 2. 2.1 2.2 2.3 2.4 3. 3.1 3.2 3.3 3.4 3.5 3.6 4. 4.1 4.2 5. 5.1. 5.2. 5.3. 5.4
Der allgemeine entscheidungstheoretische Ansatz Problemstellung, Entscheidungsregeln und Fehler Geschätzte Entscheidungsregeln und Fehlerraten Klassische Diskriminanzanalyse: Normalverteilte Merkmale und Fisher-Ansatz Diskriminanzfunktionen bei bekannten Normalverteilungen in den Klassen Lineare Diskriminanzanalyse bei unbekannten Parametern Bewertung von Entscheidungsregeln und Variablenselektion Beispiele Diskriminanzanalyse mit kategorialen Variablen Das volle multinomiale Modell Unabhängige binäre Variablen Parametrisierung in Modellfamilien Dichteschätzer Variablenselektion Beispiele Diskriminanzanalyse mit gemischten Variablen Das Lokalisationsmodell Das logistische Modell Verteilungsfreie Verfahren Dichteschätzung mit Kernfunktionen Nächste-Nachbarn-Zuordnungsregeln Kleinstquadratapproximation von Bayes-Klassifikatoren durch verallgemeinerte lineare Diskriminanzfunktionen Klassifikationsbäume
358 358 366 372 373 376 381 387 394 395 396 398 404 406 409 411 411 413 416 416 418 422 425
Kapitel 9 Clusteranalyse
437
Heinz Kaufmann und Heinz Pape 1. 2. 2.1 2.2
Einleitung Ähnlichkeits- und Distanzmaße Definitionen Transformationen von Ähnlichkeiten in Distanzen und umgekehrt
437 440 440 442
Inhalt 2.3 3. 3.1 3.2 3.3 3.4 4. 4.1 4.2 4.3 4.4 4.5 4.6 5. 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 6. 6.1 6.2 6.3 6.4 6.5 6.6 7. 7.1 7.2 7.3 8.
Spezielle Ähnlichkeits- und Distanzmaße Hierarchische Klassifikationsverfahren Grundzüge und Anwendungsbeispiele Formale Beschreibung einer Hierarchie Agglomerative Verfahren Divisive Verfahren Optimale Partitionen Problemstellung Zur Wahl des Gütekriteriums Bestimmung lokal optimaler Partitionen Bestimmung der Klassenanzahl Gütekriterien bei quantitativen Merkmalen Gütekriterien bei Ähnlichkeits- und Distanzmaßen Mischverteilungsverfahren Das Modell Identifizierbarkeit Maximum-Likelihood-Schätzung der Parameter Andere Schätzverfahren Normalverteilte Komponenten Binäre Variablen: Latent Class Analysis Zur Bestimmung der Klassenzahl Verwandte Modelle Stochastische Partitionsverfahren Maximum-Likelihood-Ansatz Normalverteilte Klassen Bestimmung der Klassenzahl Ein modifizierter ML-Ansatz Bayes-Ansätze Verwandte Modelle Verteilungsfreie Verfahren Gradientenverfahren Ein sequentielles „Quick and Dirty—Verfahren Das Verfahren von Wishart und Cluster hoher Dichte Einige abschließende Bemerkungen
XIII 442 453 453 457 457 468 469 469 470 471 472 473 484 486 487 487 489 493 494 506 508 510 511 511 514 520 522 530 531 532 532 533 533 535
Kapitel 10 Z u s a m m e n h a n g s a n a l y s e n in m e h r d i m e n s i o n a l e n K o n t i n g e n z t a b e l l e n d a s loglineare M o d e l l Alfred Hamerle und Gerhard Tutz 1. Zweidimensionale Modelle 1.1 Formen der Datenerhebung 1.2 Das loglineare Modell 1.3 Analogie zur Varianzanalyse und Modellparameter 2. Drei- und höherdimensionale Modelle 2.1 Zusammenhangsstrukturen in dreidimensionalen Modellen 2.2 Die Parameter des loglinearen Modells 2.3 Erhebungsschemata in dreidimensionalen Modellen 2.4 Vier- und höherdimensionale Tafeln 2.5 Graphische Modelle und Interpretierbarkeit höherdimensionaler Modelle . . . . 2.6 Die Grundstruktur aller Modelle - loglineare Modelle als Spezialfälle verallgemeinerter linearer Modelle 2.7 Aggregierbarkeit von Kontingenztafeln 3. Parameterschätzung und Modellanpassung
537 538 538 541 545 548 548 557 557 568 571 575 578 580
XIV 3.1 3.2 3.3 3.4 4. 4.1 4.2 4.3 4.4 4.5 4.6 4.7 5. 5.1 5.2 5.3 5.4 6. 6.1 6.2 7. 7.1 7.2 7.3
Inhalt Maximum-Likelihood-Schätzung Anpassungs-Tests Konditionale Teststatistiken Parametertests Modellwahl Schrittweise Auswahl bei vorgegebener Modellhierarchie Effektwahl nach Brown Simultane Tests der Ordnung k Modellspezifizierung über die standardisierten Parameter des saturierten Modells Schrittweise Testprozeduren nach Goodman Simultane Testprozeduren nach Aitkin Modellwahl nach Edward? Havranek Logit-Modelle Loglineare Modelle und Logit-Modelle Darstellung als Regressionsmodelle Interpretation der Parameter und Analogie zur Varianzanalyse Schätzung der Parameter Unvollständige Kontingenztafeln Zweidimensionale unvollständige Kontingenztafeln Drei- und höherdimensionale unvollständige Tafeln Spezielle, quadratische zweidimensionale Kontingenztabellen: Symmetrie, Quasi-Symmetrie und marginale Homogenität Symmetrie Quasi-Symmetrie Marginale Homogenität
580 589 593 595 596 598 600 603 605 607 611 614 616 616 619 620 621 622 622 626 631 631 634 635
Kapitel 11 Modelle mit latenten Variablen: Faktorenanalyse, Latent-Structure-Analyse und LISREL-Analyse Hans Wolfgang Brachinger und Friedmann Ost 1. Das faktorenanalytische Modell 1.1 Modell, Grundgleichung und Schätzaufgabe 1.2 Eindeutigkeit der Parameter (Identifizierbarkeit) 2. ML-Faktorenanalyse 2.1 ML-Schätzung für L und V 2.2 Test des Modells, Bestimmung von k 2.3 Verteilung der ML-Schätzer, Vertrauensintervalle 2.4 Ergänzungen 2.5 Beispiel 3. Hauptkomponentenanalyse 3.1 Hauptachsentransformation 3.2 Hauptkomponentenmethode 3.3 Hauptfaktorenanalyse 3.4 Beispiel 4. Faktorentransformation und Interpretation 4.1 Faktorentransformation 4.2 Interpretation der rotierten Faktoren 4.3 Beispiele 4.4 Identifikation einflußreicher Beobachtungen 5. Schätzung der Faktorenwerte 5.1 ML-Prinzip und KQ-Methode (Bartlett 1937, 1938) 5.2 Regressionsmethode (Thomson 1951)
637 639 639 642 646 647 650 652 654 656 659 661 665 669 673 675 676 680 681 686 688 688 689
Inhalt 5.3 5.4 6. 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 7. 7.1 7.2 7.3 7.4 7.5 8. 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 8.10
Berechnung der Faktorenwerte nach einer Hauptkomponentenanalyse Beispiel Überblick über weitere Verfahren Rangreduktion und Zentroidmethode (Thurstone 1947) Multiple Group-Methode Minres-Verfahren Image-Analyse Kanonische Faktorenanalyse a-Faktorenanalyse Maximum-Determinanten-Lösung Direkte Dreieckszerlegung im gestuften Faktorenmodell Konfirmative Faktorenanalyse Strukturanalyse von Kovarianzmatrizen Latent Structure-Analyse Das allgemeine Modell Latent Class-Analyse Latent Profile-Analyse Dichotome und ordinale Faktorenanalyse Die normale Faktorenanalyse als Modell der Latent Structure-Analyse LISREL-Analyse Das LISREL-Modell Grundgleichung und Modellparameter Eindeutigkeit der Parameter (Identifizierbarkeit) Schätzung der Modellparameter Schätzqualitäten Berechnung von Schätzwerten Beurteilung der Schätzer Anpassungsgüte eines Modells Modifikationsindizes Hypothesentests
XV 690 691 692 692 694 696 697 699 702 703 704 704 706 708 709 714 716 719 726 729 730 736 740 743 746 750 754 756 759 762
Kapitel 12 Grundlagen der mehrdimensionalen Skalierung
765
Alfred 1. 2. 3. 4. 4.1 4.2 4.3 5. 6.
765 767 773 774 775 776 782 783 790
Hamerle und Heinz Pape Ziele und Konzeption mehrdimensionaler Skalierungsverfahren Meßtheoretische Aspekte der mehrdimensionalen Skalierung Methoden zur Erhebung von Ähnlichkeitsdaten Metrische MDS Distanzmodell Klassische metrische Skalierung Kleinste-Quadrate-Ansätze zur MDS Nichtmetrisches MDS Hinweise auf weitere MDS-Verfahren
Anhang A Grundbegriffe der Matrix-Algebra
795
Peter A.l A.2 A.3
795 799 801
Kemeny Matrizen und Vektoren Matrizenverknüpfungen Elementare Rechenregeln für Matrizen
XVI A.4 Α.5 A.6 A.7 A.8 A.9 A.10 A.ll A.12 A.13 A.14
Inhalt Determinanten Matrixinversion Partitionierte Matrizen Lineare Abhängigkeit von Vektoren und Rang einer Matrix Lineare Gleichungssysteme Spur einer quadratischen Matrix Eigenwerte und Eigenvektoren Diagonalisierung symmetrischer Matrizen Quadratische Formen und Hauptachsenrotation Vektor- und Matrixdifferentiation (symbolische Differentiation) Extrema ohne Nebenbedingungen
802 803 805 808 812 813 814 815 816 819 824
Anhang Β Tabellen
831
Literatur
857
Wichtige Programmpakete und Programmierumgebungen
893
Kapitel 1 Einführung Ludwig Fahrmeir und Alfred Hamerle
Bei vielen A n w e n d u n g e n der Statistik, sei es als Entscheidungshilfe für praktische u n d wissenschaftliche Problemstellungen oder zur Überprüfung v o n H y p o t h e s e n in empirischen Wissenschaften, werden mehrere Merkmale simultan in die Untersuchung einbezogen und analysiert. In diesem Kapitel wird ein Überblick und eine Einteilung multivariater statistischer Verfahren zur A n a l y s e solcher Problemstellungen gegeben. D i e Einteilung richtet sich erstens danach, o b die Untersuchungsmerkmale in abhängige und unabhängige Variablen aufgeteilt oder eher symmetrisch behandelt werden und zweitens nach d e m Meßniveau der beteiligten Merkmale. D a z u bietet Abschnitt 2 eine kurze Einführung in die Meßtheorie. Zunächst sollen einige Beispiele, die in späteren Kapiteln ausführlich behandelt werden, einige typische Problemstellungen der multivariaten Statistik veranschaulichen.
1. Einführende Beispiele Beispiel 1.1. Für größere Gemeinden werden durch eine Stichprobenerhebung sogenannte Mietspiegel erstellt, um die ortsübliche Vergleichsmiete für „Wohnraum vergleichbarer Art, Größe, Ausstattung, Beschaffenheit und Lage" (nach §2 des Gesetzes zur Regelung der Miethöhe) zu schätzen. Sinngemäß bedeutet dies, daß die Nettomiete in Abhängigkeit von Merkmalen wie Wohnfläche, Alter der Wohnung bzw. des Gebäudes, Lage sowie Ausstattungsmerkmalen (z.B. Zentralheizung oder Warmwasserversorgung vorhanden, Qualität von Küchen- und Sanitärausstattung, etc.) zu modellieren. Im einfachsten Fall könnte man versuchen, die Nettomiete als Linearkombination dieser oder geeignet transformierter Merkmale, additiv überlagert von einer Störvariablen, darzustellen. Beispiel 1.2 (Schuchard-Ficher u.a. 1980, S. 30). Der Marketing-Leiter eines LebensmittelKonzerns steht vor der Frage, zu welchem empfohlenen Richtpreis eine neue Margarinemarke auf den Markt gebracht werden soll. Neben der Preisstrategie (Niedrig-, Normal- oder Hochpreispolitik) ist auch die Wirkung des Faktors „Kommunikationsstrategie" auf das Kaufverhalten von Interesse und zwar in den alternativen Formen „Postwurfsendungen" und „Anzeigenwerbung in regionalen Tageszeitungen". Insgesamt sollen die Einflüsse der beiden Faktoren Preis- und Kommunikationsstrategie einzeln und/oder in Kombination auf das Merkmal „Absatz (in Mengeneinheiten") analysiert werden. Beispiel 1.3. Einer Stichprobe von männlichen und weiblichen Ratten werden drei verschiedene Drogen verabreicht. Jeweils nach der ersten und zweiten Woche wird der Gewichtsverlust der Versuchstiere festgestellt. Es sollen die Einflüsse der Variablen „Geschlecht" und „Drogenart" auf die beiden Merkmale „Gewichtsverlust nach der ersten Woche" und „Gewichtsverlust nach der zweiten Woche" analysiert werden.
2
Kapitel 1 Einführung
Beispiel 1.4. In einer Teilauswertung zur Marktsegmentierung einer von der Infratest Forschung GmbH, München, durchgeführten Fallstudie mit dem Titel „Informationsgewohnheiten von Frauen" wurde der Einfluß der Personenmerkmale „Berufstätigkeit", „Alter" und „Schulbildung" auf die dichotome Zielvariable „Präferenz für Zeitschrift A " analysiert. Von besonderem Interesse war, ob durch spezifische Kategorienkombinationen der Personenmerkmale Frauengruppen definiert werden können, die dann eventuell als Marktsegmente angesehen werden können und die sich durch möglichst unterschiedliche Präferenzurteile für Zeitschrift Α auszeichnen. Beispiel 1.5. Die Vergabe von Privatkrediten wird von der „Bonität" der Kunden abhängig gemacht, also von der Bereitschaft und Fähigkeit der Kunden, die anfallenden Zins- und Tilgungsraten ordnungsgemäß zu begleichen. Ein potentieller Kreditnehmer ist entweder der Klasse der problemlosen Kreditnehmer zuzuordnen oder in die Klasse der Problemfälle einzuordnen, bei denen eine genauere Prüfung vorzunehmen bzw. auf das Kreditgeschäft zu verzichten ist. Jeder Kreditkunde wird durch eine Reihe von Merkmalen charakterisiert, die seine persönliche, wirtschaftliche und rechtliche Situation kennzeichnen. Auf der Basis dieser Merkmale wird versucht, eine statistisch gesicherte Entscheidung über Vergabe oder Ablehnung des Kredits zu treffen. Beispiel 1.6. In einer Untersuchung zur Suizidgefährdung (Heimann 1969), wurden 106 depressive Patienten, die während eines Jahres in eine Klinik eintraten, hinsichtlich des Auftretens von vier Symptomen (Stimmung gereizt, Stimmung gespannt, Denkablauf verlangsamt, Suizidgelahrdung) beurteilt (vgl. auch Krauth/Lienert 1973). Es sollen mögliche Zusammenhänge zwischen den vier Symptomen analysiert werden. Beispiel 1.7. U m die Vorlieben ihrer Hörer zu analysieren, gibt eine Rundfunkgesellschaft eine Umfrage in Auftrag. Eine Anzahl von Personen wird befragt, welche Art von Programmen sie gerne hören, wobei eine Auswahl von bestimmten Programmtypen wie Nachrichten, Quiz-, Show- und Pop-Sendungen, Sport, Serien usw. zur Verfügung steht. Für jeden Programmtyp i wird eine dichotome Variable Xj eingeführt. Mag eine Person den Typ i, wird Xj = 1 gesetzt, sonst gleich Null. Mittels der Befragungsergebnisse sollen Klassen (Schichten) „ähnlicher" Hörer, ζ. B. gewisse Typen von Durchschnittshörern, religiös-konservative Hörer usw., gebildet werden. Beispiel 1.8. In einer Befragung von 114 Psychologiestudenten sollen die Gründe für die Wahl ihres Studienfaches untersucht werden. Die Studenten können 13 Beweggründe (Variablen) mit einer Bewertung von eins bis sieben Punkten versehen und dadurch angeben, wie stark der jeweilige Aspekt in ihre Entscheidung einging. Einer der Gründe: ich studiere Psychologie, um auf die Bedürfnisse und Anschauungen anderer besser eingehen zu lernen. Ziel der Analyse ist eine Grobstrukturierung der 13 Variablen in wenige, trennbare Blöcke anhand einer Zurückführung der erhobenen Merkmale auf wesentliche Faktoren, wie etwa einen sozialen Faktor, sowie die Interpretation dieser Faktoren. Beispiel 1.9. In der Psychologie interessiert häufig, welche Merkmale bei der Wahrnehmung von Objekten angesprochen werden. In einer Arbeit von L. M. Ward (1977) interessierte beispielsweise, wie die physische Umgebung wahrgenommen wird, 20 typische Umgebungen waren auf.Fotos festgehalten. Unter anderen zeigten die Fotos Personen in häuslicher Umgebung, eine Farm in Kansas, Segelboote in einer Bucht und eine Autobahn im Smog. Versuchspersonen gaben für alle 190 Paare von Fotos an, in welche von sieben vorgegebenen Ähnlichkeitskategorien die Paare ihrer Ansicht nach fielen. Ausgehend von den Ähnlichkeitsdaten wurden die Umgebungen in einen euklidischen Raum von möglichst geringer Dimensionalität abgebildet, so daß die euklidische Distanz zwischen Umgebungen möglichst umso kleiner war, je ähnlicher die Umgebungen im Urteil der Personen waren. Eine Interpretation der Abbildung lieferte dann Informationen über den Wahrnehmungsvorgang.
1. Einführende Beispiele
3
Beispiel 1.10. (Braun, 1978). Zur Beurteilung und Entscheidung netzpolitischer Maßnahmen, insbesondere nach absatzrelevanten Kriterien, wurden über das Tankstellennetz der A R A L A G in der Bundesrepublik Deutschland im Rahmen einer Stichprobenerhebung (TV = 700 Anlagen) Informationen über Lage, Umgebung, Besitzverhältnisse, Ausstattung, Serviceangebot, Bedienung oder Selbstbedienung, erwirtschaftete Ergebnisse, etc., erhoben. Als ein wichtiges Zielkriterium diente das Merkmal ,Absatz' mit den Kategorien .niedrig', ,mittel' und ,hoch'. Beispiel 1.11. In der Arbeitsmarktforschung beschäftigt man sich unter anderem mit der Analyse der Dauer der Arbeitslosigkeit (vgl. z.B. Schneider, 1990), denn Arbeitslosigkeit ist seit über 20 Jahren ein gesellschaftliches Problem von ständiger Aktualität. Von besonderem Interesse ist die Identifikation potentieller Determinanten der Arbeitslosigkeitsdauer, etwa Alter, Gesundheitliche Einschränkungen, Schulbildung, Berufliche Ausbildung, Nationalität, Erhalt von Unterstützungszahlungen, etc. Die statistische Analyse wird dadurch erschwert, daß in einer Stichprobe einige Arbeitslosigkeitsdauern zum Erhebungszeitpunkt noch nicht abgeschlossen sind, d.h. lediglich „zensiert" vorliegen. D i e Beispiele legen einen ersten Einteilungsgesichtspunkt multivariater statistischer Verfahren nahe. In den Beispielen 1.1 bis 1 . 5 , 1 . 1 0 und 1.11 sind eine oder mehrere Variablen als eigentliche Untersuchungsmerkmale ausgezeichnet. D i e s e werden als abhängige Variablen bezeichnet, da sie in Abhängigkeit v o n sogenannten unabhängigen Variablen untersucht werden. M a n spricht dann auch v o n D e p e n d e n z analyse. D i e unabhängigen Variablen werden als Einflußgrößen betrachtet, die sich einzeln und/oder in K o m b i n a t i o n auf die abhängigen Variablen auswirken. N e b e n diesen beiden Variablengruppen enthalten die M o d e l l e der multivariaten Statistik oft n o c h Störvariablen, die auf die abhängigen Variablen einwirken, ohne selbst Untersuchungsgegenstand zu sein. Bei den Beispielen 1.6 bis 1.9 ist es nicht sinnvoll, die Untersuchungsmerkmale nach unabhängigen und abhängigen Merkmalen zu unterscheiden. Alle Merkmale gehen gleichwertig in die Analyse ein. Analysiert wird nicht die Wirkung von Einflußfaktoren auf bestimmte Variablen, sondern ζ. B. die Zusammenhangsstruktur zwischen den einzelnen Variablen (Interdependenzanalyse) oder die Möglichkeit einer Klassifikation der Untersuchungsobjekte. In Beispiel 1.1 werden die Steuereinnahmen als abhängige Variable betrachtet, die durch die unabhängigen Variablen Fläche der Gemeinde, Wohnbevölkerung etc. möglichst gut erklärt werden soll. Man könnte aber auch zu einer symmetrischeren Betrachtungsweise übergehen und die Variablen simultan analysieren, etwa im einfachsten Fall neben den Mittelwerten und Varianzen der einzelnen Variablen auch die Korrelationen sämtlicher Paare oder auch die Korrelation zweier Variablen nach Bereinigung des Einflusses der restlichen Variablen. In Beispiel 1.2 wird der Einfluß der beiden unabhängigen Merkmale Preis- und Kommunikationsstrategie auf die abhängige Variable Absatz untersucht. In Beispiel 1.3 sind die Gewichtsverluste nach der ersten bzw. zweiten Woche die beiden abhängigen Variablen und Drogenart und Geschlecht die unabhängigen Variablen. Die abhängige Variable in Beispiel 1.4 ist Präferenz für Zeitschrift A, die unabhängigen Merkmale sind Berufstätigkeit, Alter Und Schulbildung. In Beispiel 1.5 kann die Bonität als abhängige Variable gesehen werden, während die für jeden Kunden erhobenen Merkmale, wie ζ. B. Höhe und Laufzeit des Kredits, Verwendungszweck, bisherige Zahlungsmoral, etc. die unabhängigen Variablen bilden. Man kann die Kreditvergabe auch als Klassifikationsproblem sehen, bei dem auf der Basis der unabhängigen Merkmale jeder Kunde als kredit- oder nicht kreditwürdig eingestuft werden soll. Beispiel 1.6 ist typisch für eine Zusammenhangsanalyse, Beispiel 1.7 ist ein Klassifikationsproblem.
4
Kapitel 1 Einführung
In Beispiel 1.8 sollen die ursprünglichen Variablen durch einige wenige hypothetische Variablen möglichst gut repräsentiert werden, in Beispiel 1.9 sollen Objekte (hier: Umgebungen) in einem Raum möglichst niedriger Dimension so abgebildet werden, daß die Ähnlichkeitsbeziehungen möglichst gut repräsentiert werden. In Beispiel 1.10 ist die abhängige Variable ,Absatz' ordinal mit drei Kategorien. In Beispiel 1.11 ist die abhängige Variable eine Zeitdauer und es tritt das zusätzliche Problem „zensierter" Daten auf, d.h. einige Zeitdauern können nicht vollständig beobachtet werden.
Die Beispiele zeigen, daß die getroffene Einteilung nicht erschöpfend ist und daß Überlappungen auftreten können. Ein zweiter wichtiger Unterscheidungsgesichtspunkt bei der Auswahl des statistischen Verfahrens ist das Skalenniveau der Merkmale. Die Frage, welche Ausprägungen bei einem Merkmal unterschieden werden sollen, die Präzisierung des Aussagegehalts dieser Ausprägungen und damit des Skalenniveaus sind Gegenstand der Meßtheorie. Wegen ihrer zentralen Bedeutung für die Messung und Skalierung von Variablen in allen Wissenschaftsdisziplinen werden im folgenden Abschnitt die grundlegenden Begriffe und Zielsetzungen der Meßtheorie kurz zusammengestellt.
2. Grundlegende Begriffe der Meßtheorie Ein wichtiger Teilaspekt jeder empirischen Untersuchung ist die Analyse und Erhebung bestimmter Untersuchungsmerkmale. Beispiele solcher Merkmale sind Länge, Masse, Volumen oder Geschwindigkeit in der Physik, Angebot, Nachfrage, Einkommen oder Konsum in der Ökonomie, Persönlichkeitsmerkmale wie Intelligenz, Angst oder Kreativität in der Psychologie. Die Betrachtung einer Einheit, etwa die Feststellung des Gewichts einer Person, aber auch eine Befragung, ein psychologischer Test oder die Durchführung eines Experiments, liefert jeweils einen Wert (eine Ausprägung oder Realisation) dieser Merkmale oder Variablen. Die Frage, welche Ausprägungen bei einer Variablen unterschieden werden sollen, und was diese Ausprägungen bezüglich der einzelnen Untersuchungseinheiten besagen, ist in allen Wissenschaften, welche die Richtigkeit ihrer theoretischen Gesetzmäßigkeiten durch empirisches Datenmaterial überprüfen, von zentralem Interesse. Die Festlegung des Wertebereichs einer Variablen und die Präzisierung des Aussagegehalts der Ausprägungen sind Gegenstand eines eigenständigen Bereichs der Datenanalyse: der Meßtheorie und Skalierung. Ganz allgemein wird die Zuordnung von Zahlen zu Objekten, so daß die Zahlen bestimmte Eigenschaften der Objekte ausdrücken, Messung genannt. Einige Eigenschaften aus dem Bereich der Naturwissenschaften, wie Länge, Gewicht, Volumen, etc., werden mit Methoden gemessen, die uns seit langer Zeit vertraut sind. Überhaupt erscheint die Messung der meisten physikalischen Größen völlig problemlos. Anders verhält es sich in den Sozialwissenschaften. Obwohl sie nach derselben Präzision streben wie die Naturwissenschaften, werden sie mit einer harten Realität konfrontiert: menschliche Verhaltensweisen und soziale Prozesse sind äußerst schwer zu quentifizieren. So erscheint uns beispielsweise die Messung der Persönlichkeitsmerkmale Intelligenz oder Angst im Vergleich zu technisch-physiklischen Messungen wesentlich willkürlicher und problematischer. Vielfach wurde sogar die Auffassung vertreten, daß psychologische Eigenschaften überhaupt
2. Grundlegende Begriffe der Meßtheorie
5
nicht in demselben Sinne meßbar seien wie physikalische Eigenschaften, etwa z.B. Länge oder Masse. Dabei blieb die Rechtfertigung für die vertretenen Standpunkte meistens recht vage. Sind psychologische und sozialwissenschaftliche Merkmale prinzipiell nicht meßbar bzw. quantifizierbar, oder sind sie nur nicht mit derselben Genauigkeit meßbar, die man bei technisch-physikalischen Merkmalen erhalten kann? Prinzipiell gilt, daß sowohl in den Naturwissenschaften als auch in den Sozialwissenschaften nicht die untersuchten Objekte bzw. Individuen selbst, sondern lediglich ihre Eigenschaften meßbar sind. Die Meßtheorie erforscht die Voraussetzungen für die Meßbarkeit der Eigenschaften. Unter den Voraussetzungen versteht man in diesem Zusammenhang bestimmte, meist qualitative Beziehungen, die im empirisch beobachteten Bereich vorliegen müssen, damit eine „Messung" möglich ist. Entgegen dem vielfachen Gebrauch in der Alltagssprache korrespondiert der Begriff „Messung" hier hauptsächlich mit dem Vorgang der Entwicklung des „Meterstabes" und nicht mit dem Gebrauch eines bereits konstruierten und geeichten Meterstabes. Das Ziel der Meßtheorie ist also, dem Meßprozeß eine logische Grundlage zu geben. Die Aussagen der Meßtheorie gelten für alle Wissenschaftsdisziplinen. Das Konzept der Meßtheorie, welche in jüngerer Zeit ein umfassendes Theoriegebäude geworden ist, kann hier nur kurz skizziert werden. Für detailliertere Darstellungen vergleiche man Krantz/Luce/Suppes/Tversky (1971), Pfanzagl (1971), Suppes/Zinnes (1963), Campbell (1928), Ellis (1966), Orth (1974) und andere. Die vorliegende kurze Einführung richtet sich im wesentlichen nach der Darstellung in Hamerle/Kemeny (1994), Kap. 3.4.1. Ausgangspunkt der Messung ist eine Menge Μ von Objekten bzw. Individuen, denen Meßwerte zugeordnet werden sollen. Neben den Objekten bzw. Individuen untersucht man eine (endliche) Anzahl empirisch feststellbarer Relationen R 1 ; . . . , R n zwischen den Objekten bzw. Individuen. Definition 2.1. (1) Eine Teilmenge R des cartesischen Produkts Α χ Β heißt binäre Relation zwischen den Mengen Α und Β (bzw. auf Α χ Β). (2) Eine Teilmenge R des cartesischen Produkts A ( χ ... χ A n der η Mengen A 1 ; . . . , A n nennt man n-steilige Relation auf Α, χ ... χ A n . Die Elemente von Relationen sind also geordnete Paare (a, b) bzw. n-Tupel ( a 1 ; . . . , a n ). Bei den Mengen, die der cartesischen Produktbildung zugrundeliegen, muß es sich nicht um verschiedene Mengen handeln. So nennt man eine Teilmenge von Α χ Α eine binäre Relation auf A. Ist R ^ A x B eine binäre Relation zwischen Α und Β und gilt (a, b) e R, so schreibt man hierfür auch aRb. Definition 2.2. Eine binäre Relation ist reflexiv irreflexiv symmetrisch asymmetrisch
wenn für alle a, b, c e Α gilt aRa -naRa aRb => bRa aRb => - i b R a
6
Kapitel 1 Einführung
antisymmetrisch transitiv negativ transitiv konnex {vollständig, total)
aRb A bRa => a = b aRb A bRc => aRc ~~ι aRb λ —\ bRc => ~ι aRc aRb ν bRa
Eine reflexive, symmetrische und transitive Relation wird Äquivalenzrelation genannt. Man stellt fest, daß diese Relation die Elemente der Menge A so in Teilmengen zerlegt, daß innerhalb jeder Teilmenge alle Elemente zueinander in der Relation R stehen und kein Element einer Teilmenge in Relation zu irgendeinem Element einer anderen Teilmenge steht. Die so entstandenen Teilmengen heißen Äquivalenzklassen. Beispiele für empirisch feststellbare Relationen sind: Produkt a, wird Produkt a 2 vorgezogen, Person a löst Testaufgabe b, Paul hat mehr Fehler im Diktat als Hans, Ton ,dl wird lauter empfunden als Ton a 2 . Bei vielen Anwendungen, vor allem in den Sozialwissenschaften, können die Objekte hinsichtlich der untersuchten Eigenschaft in eine Rangordnung gebracht werden. Besteht sonst keine Beziehung zwischen den Objekten bzw. Individuen der Grundmenge, ist lediglich eine einzige Relation empirisch feststellbar. Vom mathematischen Standpunkt aus handelt es sich dabei in der Regel um eine sog. „schwache Ordnung", d.h. eine konnexe und transitive binäre Relation, die durch ,ist mindestens so ... wie" oder „ist höchstens so ... wie" festgelegt ist.
Definition 2.3. a) Sei Μ eine Menge von Objekten bzw. Individuen und , . . . , Rn seien auf Μ definierte Relationen. Das System heißt empirisches relationales System oder empirisches Relativ. b) Ist Ν eine Menge von Zahlen oder Vektoren und bezeichnen S t , . . . , S m Relationen auf dieser Menge, so heißt das System numerisches relationales System oder numerisches Relativ. Voraussetzung für die Messung ist das Vorhandensein eines empirischen Relativs, also einer Menge empirisch beobachtbarer Objekte oder Individuen, die in bezug auf eine bestimmte Eigenschaft in beobachtbaren Relationen zueinander stehen. Die eigentliche Messung erfolgt dann durch Zuordnung von numerischen Werten zu den Objekten bzw. Individuen, d. h. das empirische Relativ wird durch das numerische Relativ repräsentiert. Allerdings ist nicht jede Zuordnung als Messung anzusehen.
2. Grundlegende Begriffe der Meßtheorie
7
Definition 2.4. Eine Messung ν ist ein Homomorphismus von einem relationalen System in ein anderes (i.a. numerisches) relationales System , d.h. eine Abbildung ν: Μ Ν, so daß für alle a 1 ; . . . , a r . e A gilt ( a 1 ; . . . , ar.) e Rs ο
(v(a1),...,v(ar.)6Si)
i = l,...,n
(dabei seien R ; und S; r r stellige Relationen). Die homomorphe Abbildung v, zusammen mit empirischem und numerischem Relativ, heißt dann Skala (manchmal wird auch die homomorphe Abbildung ν allein bereits als Skala bezeichnet). Eine homomorphe Abbildung ν ist dadurch gekennzeichnet, daß nicht nur die (empirische) Urbildmenge Μ in die (numerische) Bildmenge Ν abgebildet wird, sondern daß darüber hinaus auch die bestehenden Relationen auf der Menge Μ in analoge Relationen, die dann auf der Menge Ν bestehen, übergeführt werden. Gilt also beispielsweise für zwei Elemente a, und a 2 aus Μ die Relation a
i Ria2>
so muß für die zu R ; korrespondierende Relation Si auf der Menge Ν v(a 1 )S i v(a 2 ) gelten. Bezeichnet man etwa die empirische schwache Ordnungsrelation „ist höchstens so ... wie" im Unterschied zur entsprechenden Relation im Zahlenbereich mit „ < " , und stehen zwei Objekte oder Individuen in der Relation is a 2 , so hat die numerische Zuordnung so zu erfolgen, daß für die Skalenwerte v(aj)^v(a2) gilt. Die Existenz eines Homomorphismus der beschriebenen Art ist das Kriterium dafür, daß eine Variable als „meßbar" betrachtet werden kann. Die Repräsentation eines empirischen Relativs durch ein numerisches Relativ bildet die Grundlage der meisten modernen Meßtheorien. Ist eine Variable ausschließlich aufgrund dieser Repräsentation meßbar, spricht man von fundamentaler Messung. Beispiele hierfür sind Länge, Masse, Volumen etc. Eine abgeleitete Messung hingegen liegt vor, wenn neue Meßvariablen als Funktionen der Variablen fundamentaler Messung festgelegt werden. Eine abgeleitete Messung hängt also nicht unmittelbar von einem empirischen Relativ, sondern von weiteren numerischen Relativen ab. Als Beispiel für eine abgeleitete Messung betrachte man etwa den physikalischen Begriff der Dichte, der als Quotient von Masse und Volumen definiert ist, und somit zwei fundamentale Messungen voraussetzt.
8
Kapitel 1 Einführung
Ein erstes Hauptproblem der Meßtheorie ist das Repräsentationsproblem. Es besteht in der Angabe von Bedingungen bzw. Eigenschaften, die ein empirisches Relativ erfüllen muß, damit die Existenz einer homomorphen Abbildung vom empirischen Relativ in das numerische Relativ gesichert ist. In der Regel wird dieses Problem durch die Formulierung eines Repräsentationstheorems gelöst, mit welchem die Existenz eines Homomorphismus bzw. einer Skala bewiesen wird, sofern das empirische Relativ bestimmte Eigenschaften erfüllt. Diese Eigenschaften bzw. Annahmen werden in der Meßtheorie gewöhnlich als „Axiome" angegeben. Unter einem Axiomensystem versteht man einen Annahmenkatalog, d.h. eine endliche Menge von Axiomen, aus denen das Repräsentationstheorem abgeleitet wird. Die Meßtheorie bemüht sich darüber hinaus um konstruktive Beweise der Repräsentationstheoreme: es soll nicht nur bewiesen werden, daß eine numerische Repräsentation möglich ist, sondern es soll gleichzeitig ein Weg gewiesen werden, wie sie zu konstruieren ist. Insofern ist auch ein Ziel der Meßtheorie, nicht nur die Überprüfung der Meßbarkeit einer Eigenschaft zu analysieren, sondern auch praktische Meßverfahren zu liefern. Ein zweites Hauptproblem der Meßtheorie ist das Problem der Eindeutigkeit der erhaltenen Skala. Denn in der Regel gibt es zu einem speziellen Repräsentationsproblem viele Skalen, die das angegebene Axiomensystem in gleicher Weise erfüllen, d. h. es gibt neben ν noch weitere Homomorphismen v' von in , die dem Repräsentationssatz genügen. Aufgrund dieser Mehrdeutigkeit ist es möglich, eine Skala in eine andere zu transformieren, ohne die Gültigkeit des Repräsentationstheorems zu verletzten. Alle Skalen mit derselben Menge zulässiger Transformationen faßt man zu einer Skalenart zusammen. Die Menge der zulässigen Transformationen charakterisiert grundsätzlich den Typ der Skala. Die vier wichtigsten Skalenarten, zusammen mit ihren zulässigen Transformationen, sind in Tab. 2.1 aufgeführt. Die Klassifikation geht auf Stevens (1946 bzw. 1951) zurück.
Tab. 2.1: Die vier wichtigsten Skalenarten mit ihren zulässigen Transformationen Skalentyp
zulässige Transformationen
Beispiele
Nominalskala
eineindeutige Funktionen
Geschlecht (Bsp. 1.3) Kreditwürdigkeit (Bsp. 1.5) Verwendungszweck (Bsp. 1.5) Programmtyp (Bsp. 1.7)
Ordinalskala
streng monoton steigende Funktionen
Schulbildung (Bsp. 1.4) Zahlungsmoral (Bsp. 1.5)
Intervallskala
positiv-lineare Funktion ν' = αν + /?( 0)
Temperatur
Verhältnisskala
Ahnlichkeitstransformationen ν' = αν(α > 0)
Kredithöhe (Bsp. 1.5) Mietausgaben (Bsp. 1.1) Absatz (Bsp. 1.2)
2. Grundlegende Begriffe der Meßtheorie
9
Nominale und ordinale Merkmale, die lediglich in einigen Kategorien vorliegen, werden gelegentlich auch qualitative oder kategoriale Merkmale genannt, bei mindestens intervallskalierten Merkmalen spricht man auch von quantitativen, kardinalen oder metrischen Variablen. Gehören die Untersuchungsvariablen zum Bereich der Naturwissenschaften oder der Technik, wie etwa Länge, Masse oder Volumen, so ist für die hier gebräuchliche Messung charakteristisch, daß nicht nur die zu messenden Objekte bezüglich dieser Eigenschaft qualitativ vergleichbar sind, etwa durch eine schwache Ordnungsrelation, sondern daß überdies im Objektbereich eine Operation des „Zusammenfügens" (Verkettungsoperation; concatenation operation) sinnvoll ist, welche dann im numerischen Bereich durch die Addition der einzelnen Meßwerte vollzogen wird. So entsteht beispielsweise durch Verknüpfen von zwei Strecken eine neue Strecke, deren Länge die Summe der Längen der beiden ursprünglichen Strecken ergibt, oder man kann Gewichte aufeinanderhäufen und erhält als Gesamtgewicht die Summe der Einzelgewichte. Definition 2.5. Unter einer (binären) Operation „o" versteht man eine Zuordnung, welche jedem Paar a „ a 2 e M ein Element a , o a 2 e M zuordnet, also eine Abbildung von Μ χ Μ in Μ. Beispielsweise wird bei der Operation der Addition im Bereich der reellen Zahlen jedem Paar x, y e IR die Summe der Zahlen χ + y zugeordnet. Sei nun auf Μ außer einer Vergleichsrelation < , d.h. einer schwachen Ordnung, auch eine Verkettungsoperation „o" definiert. Man geht also aus vom empirischen Relativ 0,
so gibt es ein
ηe Ν
mit
nx > y.
Gleichgültig, wie klein die positive Zahl χ und wie groß die Zahl y ist, endlich viele „Kopien" von χ zusammengenommen sind größer als y. Für eine Messung bedeutet dies folgendes: man wählt χ als Maßeinheit und kann diese Maßeinheit mit jedem Element y vergleichen, indem man feststellt, wieviele „Kopien" der Maßeinheit χ notwendig sind, um gerade y zu überschreiten.
10
Kapitel 1 Einführung
Je kleiner die Maßeinheit χ gewählt wird, umso mehr „Kopien" sind notwendig, um das zu messende Objekt y zu überschreiten. Dies steht im Zusammenhang mit der Genauigkeit der Messung und es hängt dann von der Güte des konstruierten Meßinstruments ab, bei welcher Maßeinheit χ das „Überschreiten von y" gerade noch exakt angezeigt wird. Lange Zeit erachteten Meßtheoretiker eine Verkettungsoperation im empirischen Bereich, wie sie eben bei extensiven Meßstrukturen beschrieben wurde, für unerläßlich zur Gewinnung metrischer Skalen, d. h. Skalen mit mindestens Intervallskalenniveau. Aus diesem Grunde hielt man insbesondere psychologische und sozialwissenschaftliche Eigenschaften prinzipiell nicht für meßbar, zumindest nicht in dem Sinne wie etwa in der Physik, da bei psychologischen und sozialwissenschaftlichen Eigenschaften in der Regel keine Verkettungseigenschaft im empirischen Bereich vorhanden ist. So lassen sich beispielsweise Helligkeiten, Lautstärken oder gar Intelligenzen nicht derart empirisch verknüpfen, daß sich die korrespondierenden numerischen Skalenwerte addieren. Solange das Konzept der „empirischen Addition" nicht übertragbar sei auf psychologische und sozialwissenschaftliche Variablen, so die damalige Auffassung, sei die Messung dieser Variablen durch einfache Zuordnung von Zahlen zu den Objekten (Eigenschaftsträgern) stets subjektiv und empirisch nicht bedeutsam. In jüngerer Zeit wurde jedoch gezeigt, daß die Verkettungseigenschaft keineswegs eine zwingende Voraussetzung zur Gewinnung metrischer Skalen ist. Es wurden eine ganze Reihe von Axiomensystemen entwickelt, welche ohne die Verkettungseigenschaft im empirischen Bereich auskommen und dennoch hinreichend sind für eine numerische Repräsentation auf einer Intervallskala. Man vergleiche hierzu beispielsweise Pfanzagl (1959 bzw. 1971), Kristof (1968) oder Krantz et al. (1971, Kap. 4 ff). Ein für die Anwendung in Wirtschaftsund Sozialwissenschaften besonders wichtiges Verfahren zur Gewinnung von Intervallskalen, die additiv verbundene Messung (additive conjoint measurement), wird in Krantz et al. (1971, Kap. 6), ausführlich behandelt. Nach dem Skalenniveau der erhobenen Merkmale richtet sich bei praktischen Anwendungen die Datenanordnung. Hierzu gibt es mehrere Möglichkeiten, von denen zwei hier kurz skizziert werden. Wird an einer Stichprobe von Ν Objekten oder Individuen mindestens ein metrisches Merkmal von insgesamt ρ Merkmalen erhoben, werden die Meßwerte gewöhnlich in einer (Ν χ p)-Datenmatrix
X =
angeordnet. Werden hingegen qualitative oder künstlich kategorisierte Merkmale erhoben, so kann lediglich für jede auftretende Kategorienkombination die auftretende Häufigkeit festgestellt werden. Man erhält auf diese Weise eine p-dimensionale Kontingenztabelle. Beispiele für solche Kontingenztabellen findet man in Kapitel 10.
3. Überblick über multivariate statistische Verfahren
11
Die Einteilung v o n Merkmalen nach ihrem Skalenniveau ist nicht zu verwechseln mit der Unterscheidung von stetigen und diskreten Merkmalen. Ein Merkmal heißt diskret, wenn es höchstens abzählbar viele Ausprägungen annehmen kann. M a n nennt es stetig, wenn mit jeweils zwei Ausprägungen auch jeder Zwischenwert möglich ist. D e m n a c h kann zwar ein stetiges Merkmal nicht nominalskaliert sein, jedoch kann ein diskretes Merkmal verhältnisskaliert (Laufzeit in Monaten, Bsp. 1.5), ordinalskaliert (Zahlungsmoral, Bsp. 1.5) oder nominalskaliert (Verwendungszweck, Bsp. 1.5) sein.
3. Überblick über multivariate statistische Verfahren In diesem Abschnitt werden zunächst die in den folgenden Kapiteln behandelten Verfahren tabellarisch zusammengefaßt. D i e Tabellen sind nach den Einteilungsgesichtspunkten „Abhängige - unabhängige Variablen bzw. symmetrische Behandlung der Merkmale" und „Skalenniveau der Merkmale" gegliedert. Zu den VerfahTab. 3.1: Verfahren mit abhängigen und unabhängigen Variablen Verfahren; Beispiel
Skalenniveau und Dimension q der abhängigen Variablen
Skalenniveau und Dimension ρ der unabhängigen Variablen
Zielsetzung
Lineare u. nichtlineare multiple Regression (Kap. 4, 1 u. 3); 1.1 Multivariate Regression Univariate Varianzanalyse (Kap. 5,1 u. 3); 1.2 Multivariate Varianzanalyse (Kap. 5, 4); 1.3 Kovarianzanalyse * (Kap. 5,2) Kategoriale Regression (Kap. 6, Kap. 10,4); 1.4, 1.5 Verweildaueranalyse (Kap. 7); 1.11 Diskriminanzanalyse (Kap. 8); 1.5
metrisch, q = 1
beliebig, ρ δ 1
metrisch, q > 1 metrisch, q = 1
beliebig, ρ έ 1 kategorial, ρ ä 1
metrisch, q > 1
kategorial, p ä 1
Analyse und Beschreibung des Einflusses (Effekts) von unabhängigen Variablen auf eine oder mehrere abhängige Variablen
metrisch, q = 1
gemischt kategorial/ metrisch, ρ § 2 gemischt, ρ ä 1
kategorial, q ^ 1 Zeitdauer, stetig gemessen kategorial, q ä 1
gemischt, ρ § 1 metrisch, kategorial, gemischt, ρ δ 1
Möglichst gute Unterscheidung der Kategorien einer nominalskalierten abhängigen Variablen aufgrund mehrerer (unabhängiger) Merkmale
* Wir behandeln nur die univariate Kovarianzanalyse; für den multivariaten Fall q > 1 siehe die in Kap. 5,4 zitierte Literatur.
12
Kapitel 1 Einführung
ren werden auch die dazugehörigen Beispiele aus Abschnitt 1 genannt. Zusätzlich wird die Zielsetzung des jeweiligen Verfahrens kurz beschrieben. Damit wird eine Entscheidungshilfe zur Auswahl des für eine konkrete Problemstellung geeigneten Verfahrens gegeben. Im folgenden gehen wir auf den Inhalt der weiteren Kapitel näher ein. Kapitel 2 enthält die wahrscheinlichkeitstheoretischen Grundlagen. Zunächst werden mehrdimensionale Verteilungsfunktionen und Dichten, Erwartungswerte und Kovarianzmatrizen behandelt. Abschnitt 3 führt mit der mehrdimensionalen Normalverteilung die für stetige Variablen und mit der Multinomialverteilung die für diskrete Variablen wichtigsten Verteilungen ein. In 3.2 sind einige Grenzwertsätze dargestellt, die vor allem für den Beweis asymptotischer Aussagen in späteren Kapiteln von Bedeutung sind. Sie können daher vom rein anwendungsorientierten Leser übergangen werden. Das gleiche gilt für die Abschnitte 4 und 5: Die Wishart- und damit verwandte Verteilungen werden für ein besseres Verständnis der multivariaten Regressions- und Varianzanalyse (Kap. 4,2, Kap. 5,4) und der Faktorenanalyse (Kap. 11) benötigt, insbesondere bei Beweisen; die Theorie der Exponentialfamilien wird nur in einigen Teilen von Kap. 3 und in Kap. 6 verwendet.
Tab. 3.2: Verfahren mit symmetrischer Behandlung der Variablen Verfahren; Beispiel
Skalenniveau der Merkmale
Zielsetzung
Schätzen und Testen von Erwartungswerten und Kovarianzmatrizen (normalverteilter Merkmale) (Kap. 3 , 1 u. 3); 1.1 Diskriminanzanalyse (Kap. 8); 1.5 Clusteranalyse (Kap. 9); 1.7
metrisch
Lage- und Variabilitätsanalyse im Ein- und Zweistichprobenfall
metrisch, kategorial, gemischt
Klassifikation von Objekten in vorgegebene Klassen Zusammenfassung von Objekten zu Klassen „ähnlicher" Objekte
Analyse mehrdimensionaler Kontingenztabellen (Kap. 10); 1.6 Partielle, multiple und kanonische Korrelationskoeffizienten (Kap. 4 , 1 u. 2); 1.1 Faktorenanalyse (Kap. 11); 1.8
kategorial
Untersuchung der Zusammenhangsstruktur
metrisch
Untersuchung der Zusammenhangsstruktur; Datenreduktion
(vorwiegend) metrisch
Möglichst gute Repräsentation von mehreren Variablen durch wenige hypothetische Variablen (Faktoren); Datenreduktion Repräsentation ähnlicher Objekte in Räumen von möglichst niedriger Dimension
Mehrdimensionale Skalierung (Kap. 12); 1.9
beliebig
metrisch oder ordinal
3. Überblick über multivariate statistische Verfahren
13
Die Abschnitte 1 und 3 von Kap. 3 haben die einfachsten Schätz- und Testmethoden für Erwartungswerte und Kovarianzmatrizen normalverteilter Zufallsvektoren im Ein- und Zweistichprobenfall zum Gegenstand. In den Abschnitten 2 und 4 werden allgemeine Schätz- und Testverfahren, nämlich Maximum-Likelihood-Schätzung, Likelihood-Quotienten- und Union-Intersection-Tests, vorgestellt. Sie dienen zur Herleitung und Konstruktion von statistischen Verfahren in späteren Kapiteln und können von nur an Anwendungen interessierten Praktikern fürs erste weggelassen werden. In Abschnitt 2.4 werden moderne iterative numerische Verfahren zur Minimierung von Funktionen (ζ. B. von Likelihood-Funktionen) überblicksartig dargestellt. Abschnitt 2.5 enthält Methoden zur nichtparametrischen Dichteschätzung. In den Kapiteln 4-7 stehen statistische Verfahren im Mittelpunkt, mit denen der Einfluß einer Gruppe von unabhängigen Variablen χ = ( x 1 ( . . . , x p ) auf eine (oder mehrere) abhängige Variable(n) y untersucht werden kann. Dieser Einfluß kann jedoch typischerweise nicht durch eine deterministische Funktion y = f ( x ) beschrieben werden, da die y-Werte durch die x-Werte nicht eindeutig bestimmt sind, sondern von weiteren „zufälligen" Einflüssen abhängen. Solche zufälligen Einflüsse können etwa Meßfehler, weitere nicht beobachtete oder beobachtbare Variablen usw. sein, die man zu einer Fehler- oder Störvariablen ε zusammenfaßt. Die Wirkung der unabhängigen x-Variablen auf y wird dann durch y = f ( x ) + ε beschrieben. Sind dann Daten (y„, x n l , . . . , χ πρ , η = 1,..., Ν ) = (y, X ) der N-mal gemessenen Variablen gegeben, so sollen die Verfahren dieser Kapitel statistische Rückschlüsse auf die Form von f ermöglichen. Die Fehler ( ε 1 ; . . . , ε Ν )' = ε können dabei nicht gemessen werden, aber die statistische Analyse erlaubt ihre Abschätzung. Die Modelle dieser Kapitel unterscheiden sich durch die Annahmen über das Skalenniveau der Variablen, die Verteilung der abhängigen Variablen und die funktionale Form von f. In der „klassischen Regressionsanalyse" (Kapitel 4) und in der Varianz- und Kovarianzanalyse (Kapitel 5) müssen die abhängigen Variablen metrisch skaliert sein, zusätzlich muß für gewisse Aussagen Normalverteilung angenommen werden. Je nachdem ob y ein- oder mehrdimensional ist, spricht man dabei von einer univariaten oder multivariaten Analyse. Sind die abhängigen Variablen dagegen qualitativ, so müssen Verfahren aus den Kap. 6 und 7 herangezogen werden. Die Modelle der Kapitel 4 und 5 bzw. 6 und 7 differieren ihrerseits wieder durch die Annahmen über die unabhängigen Variablen (Tabelle 3.1). Mit Ausnahme des Abschnitts 3, Kap. 4, über nichtlineare Regression, wo f nichtlinear ist, wird in den Kapiteln 4 und 5 weiter vorausgesetzt, daß f ( x l 5 . . . , x p ) = ß 0 + β + ... + jßpXp linear in unbekannten, zu schätzenden Modellparametern β = ( ß 0 , . . . , ß p ) ' ist. Stellt man der Datenmatrix der x-Werte eine Spalte mit lauter Einsen voran, d.h. ist
dann soll ein lineares Modell y = X ß + ε gelten. In allen Fällen beschränken wir uns auf Modelle, für die X vollen Rang hat oder dies durch geeignete Repara-
14
Kapitel 1 Einführung
metrisierung oder das Streichen von Spalten einfach erreicht werden kann. Regressions-, Varianz- und Kovarianzanalyse unterscheiden sich nun durch das Skalenniveau der unabhängigen Variablen. Wir sprechen von Varianzanalyse, wenn diese rein kategorial und so kodiert sind, daß X i.a. nur die Werte 0,1, — 1 enthält. Dabei besitzt X i.a. keinen vollen Rang. Wir beschränken uns allerdings auf varianzanalytische Modelle, für die durch geeignete Reparametrisierung ein voller Rang erreicht werden kann. Besitzt X vollen Rang und treten auch metrische Variablen auf, so sprechen wir von linearer Regressionsanalyse. Es sind also durchaus kategoriale Variablen mit zugelassen („Dummy-Variablen"), aber so kodiert, daß rg(X) = ρ + 1 gilt. Zerfallt X in (X 1 ; X 2 ), wobei X, wie bei der Varianzanalyse beschaffen ist, und X 2 nur die Werte metrischer Variablen enthält, so sprechen wir von Kovarianzanalyse, wenn wir uns hauptsächlich für die Problemstellung der Varianzanalyse, nämlich Analyse des Effekts der kategorialen „Faktoren", interessieren. Einheitliche Darstellungen des linearen Modells, die ohne diese Rangbedingung und zum Teil mit verallgemeinerten Inversen arbeiten, findet man für den univariaten Fall etwa bei Searle (1971), Searle et al. (1992), Schach/Schäfer (1978) oder Hinkelmann/Kempthorne (1994), für den multivariaten Fall bei Timm (1975). Das Kapitel 4, Regressionsanalyse, ist - im Vergleich zu manchen Einzeldarstellungen - relativ kompakt gehalten. Trotzdem wurde versucht, neben den traditionellen Ergebnissen auch neuere Entwicklungen anzusprechen und zu skizzieren. Abschnitt 1 behandelt die wichtigsten Teile der univariaten linearen Regressionsanalyse. Gegenüber anderen Darstellungen wurde einigen numerischen Aspekten und der Variablenselektion verhältnismäßig breiter Raum gewidmet. Zusammenhänge mit partiellen und multiplen Korrelationskoeffizienten werden an den entsprechenden Stellen in knapper Form angesprochen. Abschnitt 2 skizziert die Grundzüge der multivariaten linearen Regressionsanalyse. Darunter wird wie üblich der Fall verstanden, daß die abhängige Variable mehrdimensional ist, aber keine Komponenten dieser abhängigen Variablen auf der „rechten Seite" auftreten. Solche „simultanen" Gleichungssysteme sind Gegenstand der Ökonometrie (siehe z.B. Schneeweiß 1971), die wir ganz ausgeklammert haben. Im Teilabschnitt 2.5 wird die kanonische Korrelationsanalyse skizziert. Abschnitt 3 ist der univariaten nichtlinearen Regression gewidmet. In Abschnitt 4 werden Verfahren der nichtparametrischen Regression beschrieben, insbesondere mit Hilfe von Kernregressionsschätzern, Glättungssplines und additiven Modellen. Kap. 5 enthält die Beschreibung ein- und mehrfaktorieller Versuchspläne der Varianz- und Kovarianzanalyse. Dabei werden stellvertretend nur einige wichtige Versuchspläne behandelt, da bereits eine Vielzahl von umfassenden Monographien auf diesem Gebiet vorhanden ist (etwa Scheffe 1959, Kirk 1968, Winer 1971). Im ersten Abschnitt werden ein- und zweifaktorielle Versuchspläne der univariaten Varianzanalyse mit festen Effekten und einfache Versuchspläne mit Meßwiederholungen dargestellt. Der nächste Abschnitt gibt eine Einführung in die univariate Kovarianzanalyse. Der dritte Abschnitt enthält die Darstellung von Versuchsplänen mit zufälligen Effekten, insbesondere Meßwiederholungsdesigns. Der letzte Abschnitt des Kapitels hat ein- und zweifaktorielle Versuchspläne der multivariaten Varianzanalyse zum Gegenstand.
3. Überblick über multivariate statistische Verfahren
15
Treten bei statistischen Problemstellungen kategoriale abhängige Variablen auf, so scheiden die Methoden der Kapitel 4 und 5 aus. In Kapitel 6 werden Regressionsmodelle behandelt, bei denen die abhängigen Variablen kategorial sind. Dies geschieht im Rahmen der generalisierten linearen Modelle, einer umfassenden Modellfamilie, bei der die Verteilung der abhängigen Variablen y einer Exponentialfamilie angehören darf. Es werden sowohl binäre als auch mehrkategoriale Regressionsmodelle behandelt und die statistische Inferenz bei diesen Modellen dargestellt. In den letzten beiden Abschnitten wird eine Einführung in verschiedene Erweiterungen des Modellansatzes, etwa Quasi-Likelihood- und generalisierte Schätzgleichungs-Ansätze, generalisierte additive Modelle und nonparametriche geglättete Regression bei diskreten abhängigen Variablen, gegeben. Kapitel 7 behandelt Regressionsmodelle zur Analyse von Verweildauern. Auch hier liegt die asymmetrische Fragestellung zugrunde, jedoch ist die abhängige Variable eine Zeitdauer. In der hier gegebenen Einführung wird nur der Fall betrachtet, daß für jede Untersuchungseinheit eine einzige Verweildauer vorliegt. Allerdings kann diese zum Erhebungszeitpunkt noch nicht abgeschlossen sein, so daß für einige Untersuchungseinheiten lediglich zensierte Verweildauern zur Verfügung stehen. Im ersten Abschnitt werden statistische Grundkonzepte der Verweildaueranalyse wie Hazardrate und Survivorfunktion sowie wichtige Modellklassen vorgestellt. Der zweite Abschnitt hat Verfahren der Parameterschätzung zum Gegenstand. Abschnitt 3 enthält eine Erörterung der Möglichkeiten zur Einbeziehung von zeitabhängigen Kovariablen, während im vierten Abschnitt Modelltests und Tests für Regressionsparameter behandelt werden. Im fünften Abschnitt werden verschiedene Ansätze zur Einbeziehung unbeobachteter Populationsheterogenität dargestellt und der letzte Abschnitt dieses Kapitels gibt eine kurze Übersicht über weitere Verfahren und Probleme der Verweildaueranalyse. Interpretiert man die abhängige kategoriale Variable y in Kapitel 6 als Klassenindex, so lassen sich die dort dargestellten Verfahren auch für Zwecke der Diskriminanzanalyse (Kapitel 8) nutzen. Dies gilt insbesondere für das logistische Modell (Kap. 8,4.2). Umgekehrt kann man die Diskriminanzanalyse auch so auffassen, daß eine abhängige kategoriale Variable, die dann Klassenindex heißt, durch andere Variablen möglichst gut erklärt werden soll. Wir haben allerdings in Kapitel 8 das Klassifikationsproblem in den Vordergrund gestellt. Es läßt sich folgendermaßen beschreiben: Eine Grundgesamtheit von Objekten bestehe aus vorgegebenen, disjunkten Teilgesamtkeiten (Klassen). Dann sollen Objekte, von denen nicht bekannt ist, welcher Klasse sie angehören, aufgrund der an ihnen festgestellten Werte von Variablen x l 5 . . . , x p , einer der Klassen zugeordnet werden, möglichst der richtigen natürlich. Deshalb ist es das primäre Ziel diskriminanzanalytischer Zuordnungsregeln, Fehlklassifikationswahrscheinlichkeiten oder -kosten möglichst niedrig zu halten (Abschnitt 1), während die genauere Art des Einflusses der Variablen x 1 , . . . , x p auf die Klassenzugehörigkeit eines Objekts von sekundärer Bedeutung ist. Die Verfahren der klassischen linearen Diskriminanzanalyse (Kap. 8, 2) verlangen dabei, zumindest für große Teile der Theorie, metrisches Skalenniveau und Normalverteilung für die Variablen x 1 ; . . . , x p . Wir haben deshalb Wert darauf gelegt, auch Verfahren für rein kategoriale Variablen (Abschnitt 3), sowie für den gemischten Fall (Abschnitte 4 u. 5.3) zu beschreiben.
16
Kapitel 1 E i n f ü h r u n g
Für viele Fragestellungen ist es nützlich, eine große Zahl von Objekten in wenigen Klassen ähnlicher Objekte zusammenzufassen. Dabei sind also im Gegensatz zur Diskriminanzanalyse die Klassen nicht vorgegeben. Damit wird der Datenbestand reduziert und die Übersichtlichkeit erhöht. In günstigen Fällen ergeben sich einfache Interpretationen für die einzelnen Klassen, oder statistische Verfahren lassen sich sinnvoll zur Analyse innerhalb der einzelnen Klassen einsetzen. In Kap. 9 (Clusteranalyse) werden Verfahren diskutiert, die zu einer solchen Einteilung einer Menge von Objekten in Klassen verwendet werden können. Nach einer kurzen Einführung ist der zweite Abschnitt der nötigen Präzisierung der Ähnlichkeitsvorstellung gewidmet. Die beiden nächsten Abschnitte beschreiben Verfahren, die deskriptiv-heuristisch motiviert sind (hierarchische und partitionierende Verfahren). Die Vorstellung, daß die Klassen sich hinsichtlich der Verteilung der beobachteten Merkmale unterscheiden, bildet die Grundlage der folgenden Abschnitte über stochastische Modelle zur Klassifikation (Mischverteilungsverfahren, Partitionsverfahren, Verteilungsfreie Verfahren). Abschließend werden die wesentlichen Probleme nochmals zusammenfassend diskutiert. Kap. 10 hat die Analyse mehrdimensionaler Kontingenztabellen mit Hilfe loglinearer Modelle zum Gegenstand. Dabei liegt der Schwerpunkt auf einer anwendungsbezogenen Darstellung der Modelle und Verfahren. Zunächst wird eine Einführung in die Theorie der loglinearen Modelle gebracht, wobei die verschiedenen Modelltypen und Erhebungssituationen erläutert werden. Der nächste Abschnitt betrifft Methoden zur Parameterschätzung und zur Prüfung von Hypothesen über Parameter bzw. Modellanpassung. In Abschnitt 4 werden Methoden der Modellwahl dargestellt. Während die in den ersten Abschnitten dargestellten loglinearen Modelle vorwiegend für symmetrische Problemstellungen geeignet sind, bei denen sämtliche Merkmale gleichwertig in die Analyse eingehen, ist das in Abschnitt 5 behandelte Logit-Modell für asymmetrische Fragestellungen angemessen, bei denen zwischen abhängigen und unabhängigen Merkmalen unterschieden wird (vgl. Abschnitt 1 dieses Kapitels). Den Schluß dieses Kapitels bildet ein Abschnitt über Kontingenztabellen mit „strukturellen" Nullen, d.h. Kontingenztabellen, bei denen einige Zellen a priori aus sachlogischen Gründen nicht besetzt sind. Gegenstand des 11. Kapitels ist die Faktorenanalyse. Sie verfolgt das Ziel, eine Menge von beobachtbaren Variablen auf ihre Hauptursachen zurückzuführen. Damit wird einmal eine Verdichtung des Datenmaterials auf wenige wichtige Größen bezweckt und zum anderen der Versuch unternommen, eine Struktur in den Daten aufzudecken. Man sucht nach einer geringeren Zahl hypothetischer Variablen, den Faktoren, aus denen die vorliegenden Meßgrößen möglichst gut hergeleitet werden können. Die Anzahl dieser hypothetischen Variablen, ihr (im Fall der klassischen Faktorenanalyse linearer) Zusammenhang mit den Meßvariablen und die Varianz des dadurch nicht erfaßten Rests sind als Parameter des faktorenanalytischen Modells zu schätzen. Aufgrund der geringen Information, die allein in Form einer Matrix von Ausgangsdaten über das Modell zur Verfügung steht, entstehen Identifikationsprobleme, und eine Vielzahl von Lösungsansätzen ist möglich. Wir behandeln in ausführlicher Weise die beiden wichtigsten Methoden der Faktorenanalyse, die statistische ML-Faktorenanalyse und die Hauptkomponentenanalyse. In den letzten Abschnitten werden LISREL-Ansätze beschrieben.
3. Überblick über multivariate statistische Verfahren
17
Kap. 12 enthält eine Einführung in die wichtigsten Verfahren der mehrdimensionalen Skalierung. Dabei sollen Objekte ausgehend von Ähnlichkeits- oder Distanzbeziehungen so in einen Raum von möglichst geringer Dimension abgebildet werden, daß in dem Raum hinsichtlich eines festzulegenden Distanzmaßes dieselben Ordnungsrelationen zwischen den Objekten gelten, die auch aus den Ausgangsdaten folgen. Es werden die wichtigsten Verfahren der metrischen und der nichtmetrischen mehrdimensionalen Skalierung behandelt. Am Ende des Kapitels erfolgen noch Hinweise auf weitere Verfahren der mehrdimensionalen Skalierung. Schließlich werden im Anhang Α grundlegende Begriffe und Sätze der Matrixalgebra zusammengefaßt. Sie sollen vor allem dem mathematisch weniger geschulten Leser Gelegenheit geben, sich die Kenntnisse in Vektor- und Matrizenrechnung anzueignen, die für das Verständnis multivariater statistischer Verfahren unerläßlich sind. Anhang Β enthält die für multivariate Verfahren wichtigsten Tabellen und ein FORTRAN-Programm zur Berechnung der Verteilung und der Quantile von Wilk's Λ.
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen Ludwig Fahrmeir und Alfred Hamerle
In diesem Kapitel werden wahrscheinlichkeitstheoretische Grundlagen, die wir später f ü r die Darstellung multivariater statistischer Probleme und Methoden benötigen, zusammengestellt. Dazu gehören Erwartungswerte und Kovarianzmatrizen von mehrdimensionalen Zufallsvariablen, die multivariate Normalverteilung und die Multinomialverteilung, Exponentialfamilien, sowie die Wishart- u n d damit verwandte Verteilungen. F ü r ausführlichere Darstellungen, insbesondere für zum Teil weggelassene Beweise, sei etwa auf Anderson (1958,1984), Mardia u.a. (1979), R a o (1973), Seber (1984), Johnson/Wichern (1992) verwiesen.
1. Verteilungsfunktionen und Dichten 1.1 Gemeinsame Verteilungsfunktionen und Dichten Multivariate Verfahren dienen zur simultanen Analyse mehrerer Variablen (Merkmale), die m a n zu einem Vektor zusammenfaßt. Entsprechend heißt X = ( X t , . . . , X p )' Zufallsvektor oder p-dimensionale Zufallsvariable, wenn die Komponenten X ! , . . . , X p eindimensionale Zufallsvariablen sind. Stillschweigend nehmen wir also an, daß es einen Wahrscheinlichkeitsraum (Ω, A, P) gibt und daß die Komponenten Xj, i = 1,..., p, (meßbare) Abbildungen von Ω nach R sind bzw. dazu äquivalent, daß X eine (meßbare) Abbildungnach R p ist. Dabei ist Α eine geeignete σ-Algebra von Ereignismengen. Bei statistischen Problemstellungen und Verfahren interessiert jedoch weniger die Zufallsvariable X (als Abbildung), sondern die (gemeinsame) Verteilungsfunktion F ( x ) = F ( x x , . . . , xp) = P ( X i £ x 1 ; . . . , X p ^ xp) = P ( X ^ x ) .
(1.1)
In der Statistik wird immer eine Verteilungsfunktion bzw. eine Familie von Verteilungsfunktionen vorgegeben (oder gesucht), nicht die Zufallsvariable X als Abbildung auf (Ω, Α, Ρ). Nach dem Satz von Kolmogoroffläßt sich dann immer eine passende Abbildung X auf einem geeigneten Wahrscheinlichkeitsraum konstruieren. X heißt stetig, wenn es eine Funktion f(x) = f ( x t , . . . , x p ) ^ 0 mit F(x) = F ( x 1 , . . . , X p ) =
x xP i J ... J f ( u 1 , . . . , u p ) d u 1 . . . d u p = — OO
— OO
gibt. Die Funktion f heißt (gemeinsame) Dichte von X.
* (1-2) j f(u)du — 00
20
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen
X heißt diskret, wenn X (m. W. 1) nur Werte aus einer höchstens abzählbaren Menge {x 1; x 2 , . . . } 0 } , also für Werte von X mit f(χ) > 0 erklären. Des öfteren werden wir auch von der Verteilung von X sprechen. Damit kann, je nach Situation, die Verteilungsfunktion oder die (stetige oder diskrete) Dichte gemeint sein. (Nach dem Satz von Kolmogoroff ist die Verteilung als Wahrscheinlichkeitsmaß auf (M p, B p ) durch Vorgabe der Verteilungsfunktion oder Dichte bestimmt). Der folgende Satz zeigt eine wichtige Charakterisierungsmöglichkeit multivariater Verteilungen, die wir für die mehrdimensionale Normalverteilung benützen wollen.
1. Verteilungsfunktionen und Dichten
21
Satz 1.1. (Cramer-Wold) Die Verteilung eines p-Zufallsvektors X ist durch die eindimensionalen Verteilungen aller Linearkombinationen a' X, wobei a den R p durchläuft, eindeutig bestimmt. Der Beweis wird mit Hilfe der charakteristischen Funktion geführt, vergl. z.B. Mardia u.a. (1979). 1.2 Randverteilungen und bedingte Verteilungen Ein (p + q)-Zufallsvektor Ζ sei partitioniert in Ζ' = (X', Y'), wobei X und Y pbzw. q-dimensional sind. F x (x) = P(X ^ x) = F ( x 1 ; . . . , xp, oo,..., oo)
(1.7)
heißt dann Randverteilungsfunktion von X. Entsprechendes gilt für Y. Eine zu F x gehörige (stetige oder diskrete) Dichte f x heißt Randdichte und es ist f x ( x ) = 7 ° f(x,y)dy. -
(1.8)
00
Ist speziell ρ = 1, so ist F x (x) die eindimensionale Verteilungsfunktion. Variiert Y für einen festen, gegebenen Wert χ von X, dann ist durch f(y|x) = W · 0,
(...) sonst
die bedingte Dichte von Y bei gegebenem χ definiert. Man sieht, daß die bedingte Dichte proportional zur gemeinsamen Dichte f (x, y) ist. Die Proportionalitätskonstante l/f x (x) ist dabei so gewählt, daß +
ff(y|x)dy = l
— OO
gilt, also f(y | x) tatsächlich eine Dichte zur bedingten Verteilungsfunktion F (y | x) = J f(u|x)du
(1.10)
- co
ist. Man kann auch umgekehrt zuerst die bedingte Verteilungsfunktion durch F(y|x) = lim hJO
P(Ygy,x-h σ2 ist die größere Achse parallel zur χ;-Achse; für σ1 < σ 2 ist die größere Achse parallel zur x 2 -Achse; für σ, = σ 2 ergeben sich Kreise. Für ρ φ 0 liegen die Achsen nicht mehr parallel zu den Koordinatenachsen. Die genaue Lage kann dann mit Hilfe von Formeln der analytischen Geometrie ermittelt werden. Aus (3.2) liest man auch ab: für ρ = 0 ist f(x1,x2) = f1(x1)f2(x2)> also sind x 1 ; x 2 unabhängig genau dann, wenn sie unkorreliert sind.
Für p > 2 sind die durch den Exponenten definierten quadratischen Formen Hyperellipsen. In Verallgemeinerung des bivariaten Falles im Beispiel läßt sich direkt (oder kürzer mit Hilfe der charakteristischen Funktion) zeigen: Zwei gemeinsam multinormalverteilte Zufallsvektoren sind genau dann unabhängig, wenn sie unkorreliert sind, d.h. wenn cov(x, y) = 0 ist. Mit Hilfe der charakteristischen Funktion läßt sich die folgende, Satz 1.1 entsprechende Charakterisierung der Normalverteilung zeigen (Mardia 1969, S. 61): Satz 3.3. χ ~ Ν ρ (μ, Σ) mit Σ > 0 (d. h. Σ positiv definit) gilt genau dann, wenn für alle a e (Rp, a φ 0, a' χ univariat normalverteilt ist mit var(a'x) = a'La > 0. Dieser Satz bleibt auch für die singuläre Normalverteilung gültig, wenn man | Σ | = 0 und damit a ' I a = 0 zuläßt.
Lineare Transformationen Satz 3.3 läßt sich geometrisch folgendermaßen deuten: Die Linearkombinationen a'x sind Projektionen von χ auf eindimensionale Unterräume. Nach Satz 3.3 ist die Projektion von χ auf jeden eindimensionalen Unterraum wieder normalverteilt. Das bedeutet, daß die Eigenschaft der Normalverteilung von χ invariant gegenüber Translationen, Rotationen und Projektionen ist. Genauer gilt Satz 3.4. Sei χ ~ Ν ρ (μ, Σ) und y = Ax + b, wobei Α eine (q χ p)-Matrix mit rg(A) = q ^ p ist. Dann ist y ~ Nq(A/< + b, ΑΣΑ'). Beweis. Sei c e IRq. Dann ist c' y = a' χ + c' b mit a = A' c. Da a' χ für jedes a e IRP univariat normalverteilt ist, ist c'y univariat normalverteilt für jedes c e R q und damit ist y multinormal. Erwartungswert und Kovarianzmatrix von y folgen bereits aus (2.6), (2.9). • Bemerkung 3.5. Wie der Beweis zeigt, ist die Annahme rg(A) = q < ρ nur nötig, wenn man keine singulären Normalverteilungen zulassen will. Ist rg(A) = r < q, so ist ΑΣΑ' singulär und die mehrdimensionale Dichte von y kann nicht durch (3.1) ausgedrückt werden. Jedoch kann eine weitere Transformation mit einer (r χ q)-Matrix Τ derart gewählt werden, daß Ty ~ ΝΓ(ΤΑμ, TA Σ Α'Τ'), y ist dann singulär normalverteilt und die Wahrscheinlichkeitsmasse von y ist auf einen r-dimensionalen Unterraum konzentriert.
3. Mehrdimensionale Normal Verteilung
27
Ist χ ~ Ν ρ (μ, Σ), so kann χ durch die spezielle lineare Transformation γ=Σ~τ(*-μ)
(3.3)
standardisiert werden, d.h. es ist y ~ N p (0,1). Randverteilungen und bedingte Verteilungen Sei
-CK- -C:)· - α ? Sind Σ χ und L y positiv definit, so folgt aus Satz 3.4 speziell χ ~ Ν ρ (/ι χ , Σ χ ), y ~ N q 0i y , Σ , ) , d. h. die Randverteilungen sind wieder multinormal. Es sei übrigens angemerkt, daß umgekehrt aus der Tatsache, daß x l 5 . . . , x p univariat normalverteilt sind, keineswegs folgt, daß χ = ( x 1 ; . . . , x p )' multivariat normalverteilt ist, wie durch Gegenbeispiele belegt werden kann. Satz 3.6. Die bedingte Verteilungsfunktion von y, gegeben x, ist eine multivariate Normalverteilung mit der Dichte f ( y l x ) ~ N q (/i y | X , Σ,| Χ ),
(3.4)
1
/'Λ exp x - f x j \E*y Σχ J
— (2π)~(ρ+,)/2|Σχ|~^|Α|~"ϊεχρ {—i
ft
,
x-^y-ih
mit A — Σ^ — Σ γ χ Σ χ _ /Α 1 \— Σ χ
1
1
Σ.χγ ,
Σχ), Α
1
—Α 1 Σ Ϊ Χ Σ Χ 1 Σ χ 1 + Σ χ 1 ΣΧ}, Α
1
Σ Ϊ Χ Σχ
1
gemäß (Α.6.12), (Α.6.9). Division durch f(x) = ( 2 π ) ~ ρ / 2 1 Σ χ | " ϊ e x p { - i ( x - μχ)'Σχ"1 (χ - μχ)} ergibt dann (3.4), (3.5), (3.6).
•
(y-Py \X — μχ
28
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen
Den bedingten Erwartungswert /iy|X bezeichnen wir auch als Die (q + p)-Matrix
Regressionsfunktion.
Β^Σ,,Σ-1
(3.7)
heißt Matrix der Regressionskeoffizienten
von y auf x.
Ist y eindimensional (q = 1), dann erhält man die Partitionierung
z-FVxy Ζ,χί und Β wird zum Spaltenvektor β=
1
ffxy
der multiplen Regressionskoeffizienten. Die Regressionsfunktion /iy|X besitzt folgende Optimalitätseigenschaft: Für alle Schätzfunktionen y(x), die y aufgrund von χ prognostizieren sollen, gilt Ε II y — Ε (y | x) 112
E||y — y(x)|| 2 ,
d.h. E(y|x) = /iy|X ist die beste Prognosefunktion für y bei Beobachtung von x. Läßt man die Normalverteilungsannahme fallen, so ist die Regressionsfunktion immer noch beste lineare Prognosefunktion. In Anwendungen müssen /iy, μχ, Σ χ , Σ χ γ durch Schätzwerte ersetzt werden. Die Matrix Σ,| Χ enthält die partiellen Varianzen und Kovarianzen Durch Normierung erhält man die partielle Korrelation = — J L j/^ΐϊΐ*
1 ^ i, j ^ q.
(3.9)
β ι 1 | χ
zwischen y; und y-sbei festgehaltenem x. Sie ist ein Maß für die lineare Abhängigkeit von γ; und yj nach Bereinigung des linearen Zusammenhangs zwischen y und x. Bei Anderson (1958, S. 34) werden Rekursionsformeln zur Berechnung der partiellen Korrelationskoeffizienten angegeben. Ist y eindimensional (q = 1), so wird aus Σ^χ die partielle Varianz "y|X = Cy — a'xy Σ χ
1
axy
2
= ^(l-öy ,x) mit (3io) ffy
ß y | x heißt multipler Korrelationskoeffizient. Es kann mit (A.15.10) gezeigt werden, daß ργ|Χ die maximale Korrelation zwischen y und einer Linearkombination a'x ist:
3. Mehrdimensionale Normalverteilung
29
/ , χ a χ
D x N —• F x
oder auch
(„x N ist asymptotisch nach F x verteilt"). Es gilt plim x N = χ => x N —> χ , N->oo
und ist χ m.W. 1 eine Konstante c, so gilt auch die Umkehrung, d.h. plimx N = c ο X n
c,
N-»oo
falls die x N , Ν = 1 , 2 , . . . auf demselben Wahrscheinlichkeitsraum definiert sind. Besonders wichtig ist der Fall, daß sich asymptotisch eine Normalverteilung ergibt, da dann viele Resultate für normalverteilte Variablen wenigstens asymptotisch ihre Gültigkeit behalten. Die folgende Verallgemeinerung des univariaten zentralen Grenzwertes gibt eine hinreichende Bedingung dafür an, daß eine (geeignet standardisierte) Summe von Zufallsvektoren asymptotisch normalverteilt ist. Satz 3.8. Multivariater zentraler Grenzwertsatz. x N , Ν = 1, 2 , . . . sei eine Folge von p-Zufallsvektoren. Sind die x N unabhängig und identisch verteilt mit Ε (x N ) = μ, cov(x N ) = Σ, Σ positiv definit, dann gilt 1 Zn = - 7 = J/N
N D Σ Κ - μ) —
Νρ(0,Σ).
n=l
Wie im univariaten Fall kann man die Forderung nach unabhängigen, identisch verteilten x N wesentlich abschwächen. Derartige allgemeine Fassungen findet man z.B. bei Rao (1973, S. 117). Der Beweis läßt sich führen mit der folgenden Bemerkung. (Varadarayan 1958). Gilt für eine Folge von p-Zufallsvektoren x N , Ν = 1 , 2 , . . . D a'x N —> a χ
3. Mehrdimensionale Normalverteilung
31
für alle a e R p , so gilt auch xN
D
• x.
Damit stehen alle univariaten Kriterien zur Verfügung. In manchen Anwendungen ist es wichtig, zwei Zufallsvektoren simultan zu betrachten. Falls D D x N * x J YN * y J so muß i.a. nicht D (*N,
ΥΝ) —- (χ, y)
gelten; die Konvergenz der Randverteilungen ist also für die Konvergenz der gemeinsamen Verteilung ohne weitere Bedingungen nicht hinreichend. Der folgende Satz gibt solche Bedingungen an. Satz 3.9. Die Folgen x N und yN, Ν = 1,2,... von p- bzw. q-Zufallsvektoren seien verteilungskonvergent gegen χ bzw. y. Dann gilt (x N ,y N )
F(£, η) = Fx( R q eine stetige Abbildung, so gilt: D D xN —• X => g(x N ) —> g(x). Beweis. Etwa Witting/Nölle (1970, S. 45). Die Voraussetzung der Stetigkeit läßt sich etwas abschwächen. Satz 3.9 und 3.10 erlauben eine Reihe von häufig benutzten Folgerungen. Da Addition, Subtraktion, Multiplikation und Division stetige Operationen sind, erhält man z.B. für p-Zufallsvektoren x N , yN aus Satz 3.10 die asymptotische Verteilung von x N + yN, xJsiyN, falls die Voraussetzungen in Satz 3.9 erfüllt sind, für q = 1 auch die asymptotische Verteilung des Quotienten x N /y N , falls die Wahrscheinlichkeit für {YN = 0} gegen 0 geht.
32
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen
Ist eine Zufallsgröße χ N p (0, E)-verteilt, so ist χ ' Σ - 1 χ χ 2 (ρ)-verteilt. Dieser D Schluß gilt auch asymptotisch, falls lediglich x N —> N p (0, Σ) gilt: Wir wählen in Satz 3.10 die (stetige) Abbildung g(x) = Χ'Σ _ 1 Χ. Wir erhalten sogar dann eine asymptotische χ2 (ρ)-Verteilung, wenn wir anstelle von Σ - 1 lediglich eine gegen Σ - 1 nach Wahrscheinlichkeit konvergente Folge Σ Ν 1 zur Verfügung haben:
Satz 3.11. Für die Folge x N , Ν = 1 , 2 , . . . von p-dimensionalen Zufallsvektoren gelte N p (0, Σ ) ,
Σ > 0
und die Folge Σ ^ ' , Ν = 1 , 2 , . . . konvergiere nach Wahrscheinlichkeit gegen Σ ~ 1 . Dann gelten folgende asymptotische Verteilungsaussagen:
3
)ς4
Χ ν
Ρ , N p (0,1),
b) χ Ν ^ ~ 1 χ Ν ^
c)E^Xn
X2(P),
Np(0,I),
D , d) XN Σ Ν XN —• χ (p). Beweis, a), b) gi(x) = Σ 2 χ bzw. g 2 (x) = χ ' Σ " 1 χ in Satz 3.10. c), d): Nach Satz 3.9 ist die gemeinsame asymptotische Verteilung von (x N , Σ Ν '), Ν = 1 , 2 , . . . gegeben durch die Produktverteilung einer N„(0, E)-verteilten Variablen χ und der Konstanten Σ" 1 , g ^ x , Σ" 1 ) = Σ " 1 / 2 χ bzw. g 2 (x, Σ - 1 ) = χ ' Σ " 1 χ sind stetige Funktionen, so daß man mit Satz 3.10 das gewünschte Ergebnis c) bzw. d) erhält.
Bemerkung 3.12. Im Zusammenhang mit Schätzproblemen ist Σ Ν oft ein Schätzer für die - als invertierbar vorausgesetzte - Matrix Σ. Dann formulieren wir Aussagen wie in c) oder d) auch in der Schreibweise xN ~ NP(0, Σ ν )
bzw.
ΧΝΣν*Χν ~
χ2(ρ)
und sagen x N bzw. Χ^Σν 1 x N ist (für große N) approximativ N p (0, Σ Ν )- bzw. χ2 (p)-verteilt. Bei Schätzproblemen mit identisch verteilten Zufallsvariablen ist es häufig der Fall, daß x N bzw. Σ^ 1 von der Form Dann schreiben wir statt
x N = l / N ( y N — μ)
] / N ( y N — μ) 5 N p (0, Σ)
bzw.
Σ*,1 = — V™1 sind. Ν
3. Mehrdimensionale Normalverteilung
33
Yn ~ N p (|i, Σ / Ν ) bzw. wenn wir wie in c) oben Σ durch
ΣΝ = V N · Ν
ersetzen
yN Ζ N p (|i, V N ). Der folgende Satz zeigt, wann auch nach einer nichtlinearen Transformation die Grenzverteilung wieder eine Multinormalverteilung ist. Satz 3.13. Für y N gelte j / N (yN - μ) ^ N p (0, Σ) mit rg(L) = p. g = ( g l , . . . , g q )' seien reellwertige, an der Stelle μ stetig partiell differenzierbare Funktionen gi: R p -> R mit der (ρ χ q)-Funktionalmatrix (an der Stelle μ) /dgl dg D = DQ,)=f(,.)
=
y
Ι
dy
>
1
^gq 3yi
"'
3g, d
\ yP
d
yP/
Es gelte rg(D) = q. Dann ist auch g(y N ) asymptotisch normalverteilt: l/N(g(yN)-g(|«)) ^
N q (0, D S D )
Benützt man die Schreibweise der vorhergehenden Bemerkung, so läßt sich der Satz so formulieren: Aus yN £ N p (//, Σ / Ν ) folgt g(y N ) ä N q (g(//), D' Σ D/N). Läßt man die Voraussetzung rg(D) = q fallen, so wird die asymptotische Normalverteilung singulär. Beweis. Rao (1973, S. 323), Mardia u.a. (1979, S. 52).
3.3 Multinomialverteilung Die Multinomialverteilung ergibt sich als Verallgemeinerung der Binomialverteilung. Für einen Zufallsvorgang seien q -I-1 sich gegenseitig ausschließende Ausgänge möglich. Der Zufallsvorgang wird N-mal unabhängig wiederholt und die auftretenden Häufigkeiten der einzelnen Kategorien werden mit χ 1 , . . . , xq + 1 bezeichnet q+1
( Σ X; = Ν). Die Auftretenswahrscheinlichkeiten der einzelnen Ausgänge seien i=l
q+1
q+1
n u . . . , π ς + ! (π; > 0; Σ π ί = 1)· Wegen Σ π ί = 1 ist die Wahrscheinlichkeitsi= 1 i=l funktion der Multinomialverteilung bereits durch q Parameter, etwa π ΐ 5 . . . , π„, q+i
festgelegt. Wegen Σ x i = Ν gilt analoges für die auftretenden Häufigkeiten. Desi=1 halb gehen wir gleich aus vom (diskreten) Zufallsvektor χ = ( x l 5 . . . , x q )' und die Wahrscheinlichkeitsfunktion des multinomialverteilten Zufallsvektors χ ist gegeben durch
34
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen
f(x1,...,xq;«)=
N' q q q : 5 Π π?(1- Σ π , ) Ν " £ \ i= 1 j= 1 X l ! . . . x q ! ( N - Σ xj)! j=i
XjG {0,1,..., Ν}, π ; > 0, Σ ^ < 1 . j=i
(3.11)
Wir schreiben dafür auch χ ~ M q (N; π) (π = ( π ΐ 5 . . . , 7rq)'). Für q = 1 ergibt sich der Spezialfall der Binomialverteilung mit der bekannten Wahrscheinlichkeitsfunktion N' χ! (N — x)! Bei einigen Anwendungen, insbesondere bei der Analyse mehrdimensionaler Kontingenztabellen, erweist es sich als zweckmäßig, die redundante Ausprägung xq + ί bzw. den Parameter n q + x explizit in die Wahrscheinlichkeitsfunktion aufzunehmen. f(x l 5 ...,Χη + ^ π ! , ...,7t q + 1 ) =
N' i+1 — Π
ΪΤΊ
Π xr i=1 xie{0,l,...,N},7ri>0,'1i>i = 1 , i=1
ί=1
• · ·> X| + = Σ j
X
Ij)'
eine Multinomialverteilung mit den Parametern Ν und «ι+ = Σ * υ , i
i = 1,..., I.
Analoges gilt für die Spaltensummen. Betrachtet man beispielsweise die Zeilensummen x 1 + , . . . , x I+ als gegeben (z.B. durch den Versuchsplan a priori festgelegt), so ist nach Teil b) die bedingte Verteilung der Zellhäufigkeiten x u , . . . , x u in jeder Zeile der Kontingenztabelle eine Multinomialverteilung mit den Parametern x i+ und πη/πί+,..., nis/ni+ (i = 1,..., I). Von besonderer Bedeutung für die Anwendungen bei mehrdimensionalen Kontingenztabellen (siehe Kap. 10) ist der Zusammenhang zwischen Poisson- und Multinomialverteilung. Satz 3.16. Seien x 1 ; . . . , x q + 1 unabhängige Poisson-verteilte Zufallsvariablen mit den Parametern l u . . . , > l q + D a n n ist die bedingte Verteilung von ( x l 5 . . . , x q + i ) '
36
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen q+l
bei gegebenem Ν = Σ
x
i e i n e Multinomialverteilung mit den Parametern Ν und
i=l
q+l
π-, = λ-J Σ hj=i
Beweis. q+l
Π e" Ai ^ P ( x 1 , . . . , x q + 1 | Z x i = N) = e i : ^ j ( ^ ) N , N! da die Summe von unabhängigen Poisson-verteilten Zufallsvariablen wieder Poisson-verteilt ist mit dem Parameter Damit erhält man aber N! / L \xi P ( x 1 , . . . , x q + 1 I Z x . = N) = i p r — Π U y • • π xä! i = 1 ν Σ ' i J i=l
Aufgrund dieses Zusammenhangs kann man die Zellhäufigkeiten einer (I χ J)Kontingenztabelle (und auch höherdimensionaler Tabellen) als Realisationen von IJ unabhängigen, poissonverteilten Zufallsvariablen auffassen, wobei der Stichprobenumfang Ν = Σ x u vorgegeben ist. i. j
Schließlich wird noch die asymptotische Verteilung der relativen Häufigkeiten X;/N, i = 1,..., q angegeben. Satz3.17. Sei χ = ( x 1 ; . . . , xq)' ein multinomialverteilter Zufallsvektor mit der Wahrscheinlichkeitsfunktion (3.11) und den Parametern Ν und π = ( π 1 ; . . . , π ς )', q π, > 0, Σ πί < 1. Ferner seien die beobachteten relativen Häufigkeiten i =1
π=
..., Äq)' gegeben durch =
i = 1,..., q.
Dann gilt /Ν(π-π) ^
N(0; Σ)
mit Σ = diag (π) — ππ'. Beweis. Anwendung von Satz 3.8.
4. Wishart- und verwandte Verteilungen
37
4. W i s h a r t - und v e r w a n d t e V e r t e i l u n g e n In statistischen Problemstellungen, bei denen unbekannte Varianzen bzw. Kovarianzen geschätzt werden, benötigen wir Verteilungen quadratischer bzw. verallgemeinerter quadratischer Formen von normalverteilten Zufallsvariablen. Dies führt auf die ^-Verteilung bzw. auf die Wishart-Verteilung als deren multivariates Analogon. Die Rolle der Fisher-Verteilung wird von der Λ-Verteilung (oder damit zusammenhängenden Verteilungen) übernommen. Die Wishart- und /1-Verteilung wird vor allem in der multivariaten Regressions- und Varianzanalyse gebraucht. Wir beschränken uns jeweils auf die „zentralen" Verteilungen. Die Ergebnisse über die Verteilungseigenschaften quadratischer bzw. verallgemeinerter quadratischer Formen werden in erster Linie bei Beweisen benötigt. Sie können u. U. beim ersten Lesen übergangen und später bei Bedarf nachgeschlagen werden. Für weggelassene Beweise und weitere Eigenschaften sei für die ^-Verteilung auf Graybill (1961), Searle (1971), Rao (1973) und für die Wishart- und /1-Verteilung auf Anderson (1984), Mardia u.a. (1979), Rao (1973) und Seber (1984) verwiesen.
4.1 χ2-, F- und t-Verteilung Definition 4.1 Sei χ = (x l 5 . . . , x p ) ' ~ N p ( 0 , I ) , d.h. x 1 ; . . . , x p standardnormalverteilt. Dann heißt w = x'x =
Ρ
Σ
Xi2 ~
unabhängig und
x2(p)
i =1
X2-verteilt mit ρ Freiheitsgraden. Im folgenden Satz ist eine Reihe später benötigter Ergebnisse über die Verteilung und Unabhängigkeit quadratischer Formen zusammengefaßt. Satz 4.2. a) Sind W[ ~ χ 2 ( ρ ι ) und w 2 ~ ^ 2 ( p 2 ) unabhängig, so ist Wl+Wj-X^Pi+P;,). b) Sei χ ~ N p ( 0 , Σ ) , Σ > 0 und Α eine symmetrische (ρ χ p)-Matrix. Dann gilt x ' A x ~ γ 1 (r) genau dann, wenn r g ( A ) = r und Α Σ idempotent(d.h. Α Σ Α = A ) ist. c) Sei χ ~ N p (/j, Σ ) , Α eine symmetrische (ρ χ p)-Matrix, Β eine (ρ χ q)-Matrix. Dann sind x ' A x und Bx genau dann unabhängig, wenn A B = 0 gilt. Ist Β zusätzlich symmetrisch, so sind χ' A x und x' Bx genau dann unabhängig, wenn A B = 0 gilt. Sehr oft wird für Teststatistiken nicht die x2-Verteilung selbst, sondern die F- oder tVerteilung benötigt: Sind W[ ~ χ 2 ( ρ ι ) und w 2 ~ ^ 2 ( p 2 ) wjpi F = — j — ~ F(Pi,Pi) w 2 /p 2 c
unabhängig, dann heißt
38
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen
F(isher)-verteilt
mit den Freiheitsgraden p x und p 2 .
Sind x ~ N ( 0 , l ) und w ~ χ 2 (ρ) unabhängig, so heißt t =
~ t(p) j/w/p
(Studen) t-verteilt mit Freiheitsgrad p.
4.2 Wishart-, Λ - und Θ-Verteilung Wishart-Verteilung Die multivariate Verallgemeinerung der χ 2 -Verteilung ist die Wishart-Verteilung. Dementsprechend lassen sich auch die in Satz 4.2 beschriebenen Eigenschaften verallgemeinern. Definition4.3. Sei X = ( x l 5 . . . , x N )' eine(N x p)-Datenmatrixaus Ν ρ (0,Σ), d.h. X j , . . . , x N seien unabhängig und N p (0, L)-verteilt. Dann heißt die (p x p)-Matrix W = X ' X = Σ x„x'n ~ W p (Σ, N) η =1
Wishart-verteilt mit Ν Freiheitsgraden. Ν
Für ρ = 1 ist X'X = Σ x 2 = x'x, d.h. die W^ct 2 , N)-Verteilung ist mit der n = l
σ2 χ1 (N)-Verteilung identisch. Als Erwartungswert ergibt sich gemäß der Definition E(W) = Σ Ε(χ η χή) = Ν Σ
(4.1)
η =1
Die Dichte von W benötigen wir nur in Kap. 11, wir verzichten deshalb auf die Formel (siehe z.B. Anderson 1958, S. 154, Mardia u.a. 1979, S. 85). Satz 4.4. a) - W p (L, N,) und \ ν 2 ~ \ ν ρ ( Σ , Ν 2 ) seien unabhängig. Dann ist W 1 + W 2 ~ W p ( ^ N 1 + N 2 ). b) Sei W ~ W p ^ , N) und Α eine (ρ χ q)-Matrix vom Rang q. Dann ist A ' W A ~ W q (A'EA, N). Aus b) folgt z.b.: Diagonale Hauptuntermatrizen von W sind Wishart-verteilt, insbesondere ist wuM2~*2(N).
(4.2)
Für aelR p
mit
a'Ea φ 0
ist
a'Wa/a'Ia~χ2(Ν).
(4.3)
Definition 4.3 besagt, daß eine Zufallsmatrix Wishart-verteilt ist, wenn sie sich in
4. Wishart- und verwandte Verteilungen
39
der Form X'X darstellen läßt, wobei die x n , η = 1, ..., Ν unabhängig und identisch N p (0,E)-verteilt sind. So wie im Falle der χ 2 -Verteilung auch quadratische Formen χ' Ax unter den Bedingungen von Satz 4.2 ^ 2 -verteilt sind, werden in analoger Weise verallgemeinerte quadratische Formen X' AX betrachtet. Bezeichnen wir die Spalten von X mit x ( 1 ) , . . . , x (p) , ist also X = (Xl, · · · ; Xn)' = (X(l)> · · ·' X(p))' dann läßt sich eine verallgemeinerte quadratische Form folgendermaßen schreiben (A sei eine symmetrische Ν χ N-Matrix):
(4.4)
Die Diagonalelemente sind also gewöhnliche quadratische Formen, während die Nebendiagonalelemente Bilinearformen sind. In entsprechender Verallgemeinerung von Satz 4.2 b), c) gilt für die Verteilung und Unabhängigkeit verallgemeinerter quadratischer Formen. Satz4.5. a) Sei X = (x t , . . . , x N ) ' , wobei X j , . . . , x N unabhängig und N p (0, Σ)verteilt sind. Α sei eine symmetrische Ν χ N-Matrix. Dann gilt X'AX ~ W p (E, r) genau dann, wenn A idempotent (A 2 = A) mit rg(A) = r ist. Diese Aussage bleibt auch für μ φ 0 gültig, wenn die Zeilensummen von Α gleich 0 sind. b) x l 5 . . . , x N seien unabhängig und Ν ρ (μ, Σ)-verteilt, Α eine symmetrische N x N Matrix, Β eine Matrix mit Ν Zeilen. Dann gilt: X'AX und X'B sind genau dann unabhängig, wenn AB = 0 ist. Ist Β symmetrisch, so gilt: X'AX und X'BX sind genau dann unabhängig, wenn AB = 0 ist. Teil b) wird wie in Satz 4.2 oft so formuliert, daß Α und Β als idempotent vorausgesetzt werden; dann sind die beiden verallgemeinerten quadratischen Formen Wishart-verteilt. Der Beweis von Searle (1971, S. 59) für den univariaten Fall läßt sich jedoch multivariat verallgemeinern, siehe dazu auch Rao (1973, S. 454). Hotelling's T 2 -Verteilung Die T 2 -Verteilung kann als multivariates Analogon der Student-Verteilung angesehen werden. Definition 4.6. Eine Zufallsvariable u heißt Hotelling- (T2-)verteilt mit den Parametern ρ und N, wenn sie sich in der Form u = Nx'Wx,
40
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen
wobei χ ~ N p (0,1) und W ~ W p (I, N) unabhängig sind, darstellen läßt, i.Z. u~T2(p,N). Aus der Definition folgt sofort: Sind x ~ N p O , Σ) und W ~ W p ( E , N) unabhängig, dann ist N(x-/i)'W-1(x-/i)~T2(p,N). „1
(4.5) _i
_i
(4.5) erfüllt nämlich mit χ* = Σ 2 (χ — μ) und W* = Σ z W I 2 nach Satz 4.4 b) die Definition. Für ρ = 1 ergibt sich die F ( l , N)-Verteilung. Wie für ρ = 1 ist auch für ρ > 1 die T2-Verteilung der F-Verteilung äquivalent. Es gilt nämlich (z.B. Mardia 1979, S. 74): T 2 (p, Ν) ~ {Np/(N _ ρ + l)} F(p, Ν - ρ + 1),
(4.6)
also N P
+ 1
~
(x - μ)' W
1
(χ-μ)~
F(p, Ν - ρ + 1).
(4.7)
Ρ Wilks' Λ- und Θ-Verteilung
Während im univariaten Fall Fisher-verteilte Quotienten quadratischer Formen als Teststatistiken verwendet werden, geht man im multivariaten Fall zu Quotienten der Determinanten oder zu Eigenwerten geeigneter Wishart-verteilter Matrizen über. Definition 4.7. Seien W 1 ~ W p (I, m) und W 2 ~ W p (I, n) unabhängig mit m ^ p, dann heißt Λ = I W J / I W ^ W 2 | = |I + W f ' W ^ " 1 ~ Λ ( ρ , m, n) Λ-verteilt mit Parametern p, m und η. Α selbst heißt auch Wilks' Λ. Wie für die T2-Verteilung läßt sich auch für Wilks' Λ-Verteilung zeigen: Sind W 1 ~ W p (Σ, m) und W 2 ~ W p (Σ, n) unabhängig m p, so ist i4 = | W 1 | / | W 1 + W 2 | ~ / l ( p , m , n ) ,
(4.8)
d. h. die Verteilung von Λ ist von Σ unabhängig. Wilks' Λ tritt vor allem im Zusammenhang mit Likelihoodquotiententests in normalverteilten Grundgesamtheiten auf. Die A- Verteilung kann als multivariate Verallgemeinerung der Beta-Verteilung angesehen werden. Es gilt nämlich (z.B. Mardia 1979, S. 82): Λ(ρ, m, η) ~ Π ui> i=l
(4.9)
4. Wishart- und verwandte Verteilungen
41
wobei UJL, ..., u n unabhängige Beta-verteilte Variablen mit u ; ~ ß{\ (m + i - p), ip), i = 1 , . . . , n, sind. Im Anhang finden sich Tabellen zur Λ- Verteilung, sowie FORTRAN-Programme zur approximativen Berechnung der Verteilung von Λ bzw. der a-Quantile Λ (a). Darüber hinaus gelten folgende Beziehungen: A(p, m, η) ~ Λ(η, m + η — ρ, ρ)
(4.10)
1-A(p,m, 1) Λ(ρ, m, 1)
(4.11)
ρ F(p, m — ρ + 1) m-p +1
Ι-Λ(Ι,ιη,η)^, A(l,m, n) m l - j A l f o m, 2)
ρ
]/yl(p, m, 2)
m-p +1
1 — \Ζλ (2, m, η) γΛ(2,
m, η)
η ~ m-1
F ( 2 p , 2 ( m - p + l))
F(2n,2(m-1))
(4.13)
(4.14)
Für große m gibt es darüber hinaus eine Reihe von Approximationsmöglichkeiten, siehe z.B. Bock (1975, S. 153), Anderson (1958, S. 208), Rao (1973, S. 473) und im Anhang. Die Bartlett-Approximation beruht darauf, daß für m oo - { m - i ( p - n + l)}log^Äz2(pn)
(415)
gilt. Verteilung des größten Eigenwerts (Θ-Verteilung) Λ kann auch durch die Eigenwerte λγ 2: ... ^ λρ von W f 1 W 2 ausgedrückt werden. Sei nämlich k = min (n, p) die Anzahl der von Null verschiedenen Eigenwerte, so ist Λ = \1 + W f 1 W 2 | _ 1 = Π (1 + < y - 1 i =1
(4.16)
Anstelle von Λ sind eine Reihe weiterer Statistiken vorgeschlagen worden, die alle Funktionen der Eigenwerte von W f ' W j sind. Das Union-Intersection-Prinzip (siehe Kap. 3) führt oft auf das Kriterium des größten Eigenwerts. Definition 4.8. Seien W, ~ W P ( I , m) und W 2 ~ W p ( I , n) unabhängig, m Ϊ: p. Dann heißt der größte Eigenwert θ von (W1 + W 2 ) " 1 W 2 θ-verteilt, i.Z. θ ~ 0(p, m, n). Wie bei der Λ- Verteilung bleibt die Definition gültig, wenn I jeweils durch Σ ersetzt wird. Zwischen dem größten Eigenwert λ1 von W f 1 W 2 und θ besteht die Beziehung
42
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen
θ=
λ1Ι(ί+λι),
Den Beziehungen (4.10), (4.11), (4.12) entsprechen 0(p, m, η) ~ 0(n, m + η - ρ, ρ) 0(1, m, η)
l-yl(l,m,n)
(4.17)
1 — 0(1, m, η)
Λ(1, m, n)
η — F(n, m) m
0(p,m,l) l - 0 ( p , m, 1)
1 — yl(p, m, 1) Λ(ρ, m, 1)
m-p +1
(4.18)
F(p, m — ρ + 1)
(4.19)
Pearson/Hartley (1972, S. 98ff., S. 336ff.) geben Tabellen für die Quantile für ρ ^ 2 an (vgl. Anhang).
5. Exponentialfamilien Wie wir in einigen späteren Kapiteln, insbesondere für „Generalisierte lineare Modelle" in Kap. 6 sehen werden, lassen sich viele zunächst verschieden erscheinende Modelle von einem einheitlichen Standpunkt aus behandeln, wenn man beachtet, daß eine große Zahl der für Anwendungen interessanten diskreten oder stetigen Verteilungen zu sogenannten Exponentialfamilien gehören. In Lehrbüchern wurde dies zuerst von Lehmann (1959), im deutschsprachigen Raum von Witting (1966) konsequent beachtet. Plackett (1974), Bishop/Fienberg/Holland (1975) und Andersen (1980) verwenden sie zur Behandlung diskreter statistischer Modelle. Sehr ausführlich werden Exponentialfamilien bei Barndorff-Nielsen (1978) dargestellt. Wir werden in den entsprechenden Kapiteln weitere Originalarbeiten zitieren.
5.1 Definition und Beispiele Definition 5.1. Ein Zufallsvektor χ bzw. seine Verteilung gehört zu einer Exponentialfamilie, wenn die (stetige oder diskrete) Dichte von der Form m
f(x|T) = c ( x ) - e x p { Z ^ ( τ ) ^ ( χ ) } / 3 ( τ )
(5.1)
j=i
ist. Dabei ist τ ein Parametervektor, die Funktionen t j5 c(x) ^ 0.
sind reellwertig, a (τ) > 0,
Sind die Funktionen 1, t j ( x ) , . . . , t m (x) bzw. 1, φ ι (τ),..., φτη(τ) linear abhängig, so kann f ( x | r ) in die Form (5.1) mit m ' < m gebracht werden. Sind die Funktionen linear unabhängig, dann ist m minimal und die Exponentialfamilie heißt m-parametrig. Wir bezeichnen dann 0 t = φ1 (τ),..., 0 m = (pm (τ) als natürliche (oder kanonische) Parameter. Mit θ = ( 0 l 5 . . . , 0 m )' und t(x) = (tj ( x ) , . . . , t m (x))' ergibt sich die Dichte in natürlicher, minimaler (oder kanonischer) Form zu f ( x | 0 ) = c(x)exp{0't(x)}/a(0)
(5.2)
5. Exponentialfamilien
43
oder mit b(0) = lna(0) f(x|0) = c(x) exp {0't(x) - b(0)}.
(5.3)
Wegen Jf(x|0)dx = l muß a(0) = jc(x) exp [0't(x)]dx gelten. Die Menge Θ 0, also λχ 1 f(x|A) = — e " A = — e x p ( x l n A - A ) x! x!
(5.9)
Es liegt eine einparametrige Exponentialfamilie mit t(x) = χ und 0 = InA,
0 = ( - o o , + oo)
(5.10)
als natürlichem Parameter vor. Sind x 1 ( . . . , xN unabhängig und Ρ(A)-verteilt, so ist in (5.6) t
c) Normalverteilung:
= ίάϊ
exP
0 δθδθ' δθδθ' ' ist In f(χ 10) streng konkav.
•
5. Exponentialfamilien
47
In Definition 5.4 ist die Dichte durch die natürlichen Parameter θ ..., θp parametrisiert. Eine andere, in Anwendungen oft primär verwendete Parametrisierung ist die Erwartungswertparametrisierung: 32b(0) 3b (ö) D a ßßgß, P o s i t i v definit ist, ist die Abbildung μ = ^ eineindeutig und es Sb(e) (θ) = ——— = μ und δθ
existiert eine Umkehrabbildung ψ mit ψ θ = ψ(μ).
(5.19)
D a n n erhält m a n (5.15) in der ^-Parametrisierung zu Τ(χ|/ι) = ί(χ\φ(μ))
= c (x) exp (φ(μ)'χ
— d (μ)),
(5.20)
mit d(ß) = btyM). Es gelten die Identitäten — — = (cov(x)) δμ „
^
^
ψ
(5.21)
,
ί
ψ
δμ
\
ι
γ
δμ
J
ψ
.
(5.22)
δμ
Beispiele, a) Binomialverteilung: öb(0) exp0 b(0) = nln(l + expö), - — - = η = ηπ = Ex = μ, οθ 1 + exp θ ö 2 b(0) exp θ
Ebenso prüft man mit ψ(μ) = In — — , ά(μ) = — η In 11 — — ) die Beziehungen (5.21), η-μ \ ηJ (5.22) nach. b) Poisson-Verteilung: b(0) = expö, b'(0) = expö = λ, b"(0) = λ; (5.9) ist die Erwartungswertparametrisierung. c) Normalverteilung bei bekanntem ν(μ) = 4 < σ
ο
(5.11) ist die Erwartungswertparametrisierung mit
=
2 σ20
Man rechnet sofort die Gültigkeit von (5.21), (5.22) nach. d) Gammaverteilung: Mit θ = - α in (5.12) ist b(0) = - m l n ( - 0 ) und b'(0) = — = μ a = Ex. Entsprechend weist man die anderen Identitäten nach. e) Multinomialverteilung: b(0) = Nln(l + Σ exp (θ,)) j=i 3b (0)1 expö: —j- = Ν — = Νπ; = Ε(χ ; ) 50i 1 + Σ exp 0j
48
Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen a2b(0) ~ W
expOiil + Z e x p S j W e x p O , ) 2 =
52b(0) = M ,Q d0jde k
(1 + Σ exp 6j) 2 XI N
— expöj exp 6k 7Γ—^ Wv2 = (1 + Σ exp
,, Νπ
' ( 1 " *•> =
Var(Xi)
W ^ K K = cov x i ; x t , ι Φ k, 1 g i , k g q .
Die Identitäten (5.21) und (5.22) lassen sich ebenfalls leicht nachweisen.
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme Ludwig Fahrmeir und Alfred Hamerle
Die Abschnitte 1 und 3 dieses Kapitels behandeln einige einfache, aber grundlegende Probleme des Schätzens und Testens von Erwartungswerten und Kovarianzmatrizen. Dabei beschränken wir uns auf die üblichen Standardmethoden, die im Falle der Normalverteilung optimal sind. Für robuste Alternativen verweisen wir auf Huber (1981), Hampel/Ronchetti/Rousseuw/Stahel (1986), Tyler (1991), Davies (1987, 1992). Die Abschnitte 2 und 3 führen in später wiederholt verwendete allgemeine Schätz- und Testprinzipien ein, insbesondere solche, die auf dem Likelihood-Prinzip basieren.
1. Punktschätzung von Erwartungswerten und Kovarianzmatrizen Wir nehmen wie in Kap. 1 an, daß für Ν Objekte die Beobachtungen x 1 ; . . . , x N eines p-dimensionalen Merkmals vorliegen und in der (Ν χ ρ)-Datenmatrix ip
\ (1.1)
X =
\ * N
/
v
Np/
angeordnet sind. Die im folgenden angegebenen Schätzer können wie in der univariaten Statistik selbstverständlich auch rein deskriptiv verstanden werden, wobei x x , . . . , x N dann auch als Totalerhebung aufgefaßt werden kann. Wir werden Xj, . . . , x N jedoch meist als Stichprobe, d.h. als Realisierung von Stichprobenvariablen X 1 ; . . . , X N auffassen. U m in keinen Bezeichnungskonflikt mit Datenmatrizen zu gelangen, unterscheiden wir im weiteren wie in Kapitel 2 notationell nicht zwischen Stichprobenwert und Stichprobenvariable, Schätzwert und Schätzfunktion, etc. und bezeichnen beides mit Kleinbuchstaben.
1.1 Ein-Stichprobenfall Die Beobachtungen x x , . . . , x N seien unabhängig aus einer ν(μ, L)-verteilten Grundgesamtheit gezogen, d.h. genauer: x x , . . . , x N sind Realisierungen unabhän-
50
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
giger, identisch ρ(μ, L)-verteilter Stichprobenvariabler. Wir sagen auch kurz: Die Datenmatrix X entstammt einer ρ(μ, S)-Grundgesamtheit. In Analogie zu den univariaten Schätzern definieren wir das arithmetische Mittel
ί
=
1 Ν 1 Ν Σ Χ " = Ν
(1.2)
als Schätzer für μ, und die empirische S =
Kovarianzmatrix
Σ (xn-x)(xn-x)' JN — -1 π = 1 Ν
j
Ι
Ν
\2 λ Σ ( Χ η 1 - Χ ι ) 2 . . . Σ (Χπΐ - Χι) (Χηρ -- ,Χρ) η =1 η=1
(1.3)
Ν—1
Ν
Σ ( χ „ ρ - χ ρ ) ( χ „ ι - χ ι ) . . . Σ (χ„ρ-χρ)2 η =1 Ν 1 Τ ϊ — τ ( Σ IN — I η =1 χ„χ'„ - Ν χ χ )
(1.3)
als Schätzer für Σ. Neben S kommt noch ~ ^
1 =
N
Ν n ?i
Ν —1 _
_
=
(1.4)
Ν
als Schätzer für Σ in Frage. In Matrizenschreibweise lassen sich x, S auch folgendermaßen schreiben:
— — f x ' x - —X'll'X), Ν—1 V Ν '
(1.5)
wobei X = ( χ , . . . , χ)' und 1 ein Spaltenvektor mit Ν Einsen ist. Schätzer für die Korrelationsmatrix Ρ (Kap. 2, (2.5)) ist die empirische Korrelationsmatrix R = (rjj) mit Σ ( x n i - Xi) (x„j - Xj) n=l Ν
' Σ (x„i-xi) η =1
2
, i * j ; r„ = 1; i, j = 1 , . . . , p.
/ Ν
Σ (x„j-xj)
2
1. Punktschätzung von Erwartungswerten und Konvarianzmatrizen
Satz 1.1. X i , . . . , x N seien unabhängig und identisch a) E(x) = μ, E(S) = Σ
ρ(μ,
51
E)-verteilt. Dann gilt
(Unverzerrtheit),
b) cov(x) = 1 Σ, c) E||x — μ|| 2 Ε||/ι — μ\\2 für jeden anderen unverzerrten linearen Schätzer μ = it(x u ..., xN) = a j Xi + ... + a N x N . Sind x x , . . . , x N zusätzlich normalverteilt, dann gilt außerdem Σ\ d) χ ~ N p ( μ, — ) und Ν;
£ (N - 1) S = Σ (xn - χ) (xn - χ)' ~ W P (E, Ν - 1).
e) χ und S sind unabhängig. Beweis, a) und b): Wegen Ε (xn) = μ ist E(x) = i
Σ E(xn) = μ,
JN η =1
und wegen cov(x n ) = Σ und cov(x n , x m ) = 0, η φ m gilt cov
(*) =
Aus
N 1 ί Σ cov(x n ) + Σ cov(x n , x j } = — IN η = 1 ntni iN
1
(N — 1)S = Σ (x„ - X) (x n - X)' = Σ
η =1
=
\
(χα-μ)(χη-μ)'-·Ν(χ-μ){χ-μ)'
η =1
Σ
Σ
Μ / η =1
Μ ηΦm
(χη-μ)(χη-μ)'
und cov(x n ,x m ) = 0 für n + m folgt E((N - 1)S) =
- ^
Ν Σ = (N - 1)E.
Damit sind a) und b) bewiesen, c) beweist man wie im univariaten Fall. d) χ ist als lineare Funktion der x n wieder normalverteilt. Um zu zeigen, daß (N — 1)S Wishart-verteilt ist, geht man von der Darstellung (1.5) aus. Beachtet 1 man, daß I — — 11' idempotent ist und den Rang Ν — 1 besitzt, so ergibt sich (N — 1)S ~ W p (Σ, Ν - 1) nach Satz 4.5a), Kap. 2. e) Man benützt Satz 4.5b), Kap. 2 mit A = I
-*r
i r
'
" 4
1
"
Bemerkung. Weitere Eigenschaften ergeben sich im Abschnitt 2. Dort wird gezeigt, daß χ und t, Maximum-Likelihood-Schätzer und x, S bzw. £ suffizient für μ, Σ sind.
52
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
1.2 Mehr-Stichprobenfall Wir nehmen jetzt an, daß die Beobachtungen aus g verschiedenen (Teil-) Grundgesamtheiten (auch Gruppen, Klassen) ß j , . . . , ß g stammen. Dies bewirkt eine Partitionierung der (Ν χ p)-Datenmatrix X in g Teilmatrizen X 1 ; . . . , Xg:
X =
g
Dabei enthält Xk = ( x k l , . . . , x k n , . . . , x kN )', k = 1 , . . . , g, Ν = Σ N k , die Beobk =1
achtungen aus ß k und x kn bezeichnet die zum n-ten Objekt aus Qk gehörige pdimensionale Beobachtung. Wir nehmen an, daß sämtliche Beobachtungen unabhängig sind und die in der Teilmatrix X k , k = 1,..., g, als Zeilen aufgelisteten Beobachtungen p (/i k , Lk)-verteilt sind. Seien x k , S k das arithmetische Mittel und die empirische Kovarianzmatrix zur Datenmatrix Xk der k-ten Gruppe. Sind alle Erwartungswerte und Kovarianzmatrizen verschieden, so sind x k , S k die Schätzer für /ik und E k . Von besonderem Interesse für Regressions-, Varianz- und Diskriminanzanalyse ist jedoch der Fall gleicher Kovarianzmatrizen Σ1
=
Σ 2 = ... = Σ8 = Σ .
(1.6)
Dann definieren wir als Schätzer für die gemeinsame Kovarianzmatrix Σ die gepoolte empirische Kovarianzmatrix S =
Σ (Nk-l)Sk = - i - W Ν — g k=i N - g g
mit
w = Σ
N
k
g
Σ (x k „ - Xk) (Xk„ - Xk)' = Σ W k .
k =1 η =1
(1.7)
k=l
(1.8)
W heißt Inner-Gruppen-SSP-Matrix (within groups sum of squares and products) oder Inner-Gruppen-Streumatrix. Daneben benötigt man noch die Zwischen-Gruppen-SSP-Matrix (between groups) B=
Σ Nk(xk-x)(xk-x)', k=l
(1.9)
wobei für das Gesamtmittel χ gilt 1 g x = T7 Σ N k x k . Ν k =1
Sei S tot die nach (1.3) aus der totalen Datenmatrix berechnete Kovarianzmatrix, dann gilt für die Gesamt-SSP-Matrix
2. Allgemeine Prinzipien der Parameterschätzung
g Nk τ = (Ν - 1 ) s t o t = Σ Σ (χ,η - X) (x kn - Χ)' k =1 η =1 die Zerlegung T = W + B.
53
(1.10)
(1.11)
Satz 1.2. a) Für Ei = ... = Σ'e Β = Σ ist S ein unverzerrter Schätzer, b) Gilt zusätzlich die Normalverteilungsannahme, so ist W~Wp(E,N-g) Wishart-verteilt mit Ν — g Freiheitsgraden und unabhängig von B. c) Für μ1 = μ2 = ... = μΐ gilt unter Normalverteilungsannahme B~WpCE,g-l). Bemerkung. Die in a) geforderte Gleichheit von Kovarianzmatrizen tritt etwa in der multivariaten Regressions- und Varianzanalyse und in der Diskrimanzanalyse auf, die Gleichheit der Erwartungswerte in c) ist dort eine zu prüfende Nullhypothese. Im folgenden Beweis zeigen wir die Unabhängigkeit nur für den Fall μ1 = ... = μ^. Die Unabhängigkeit gilt jedoch auch, wenn diese Voraussetzung verletzt ist, Β ist dann nicht-zentral Wishart-verteilt. Beweis, a) zeigt man ähnlich wie bei Satz 1.1, b) und c) zeigen wir für μ1 = μ2 = ... = /V Sei l k ein N-Vektor mit Einsen an den Stellen, die zur k-ten Gruppe gehören, und Nullen sonst, und I k = diag (l k ) die Diagonalmatrix mit Einsen an den Stellen, die zur k-ten Gruppe gehören, und Nullen sonst. Man rechnet leicht nach, daß sich W und Β als W = X'C1X,
B = X'C2X
mit
schreiben lassen. Weiter läßt sich nachweisen, daß C j und C 2 idempotente Matrizen mit den Rängen Ν — g und g — 1 sind, und daß C^ C 2 = 0 gilt. Nach Satz 4.5, Kap. 2, folgt dann b) und c). •
2. Allgemeine Prinzipien der Parameterschätzung In diesem Abschnitt behandeln wir neben Eigenschaften wie Konsistenz und asymptotischer Normalität, die man von vernünftigen Schätzern erwartet oder erhofft, vor allem die Maximum-Likelihood-Methode. Es geht uns dabei vor allem um die zugrundeliegenden Prinzipien. Eine breite, wesentliche Ideen betonende
54
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
Einführung geben Cox/Hinkley (1974). Mathematisch strengere Darstellungen, insbesondere bei Beweisen, bieten z.B. Witting/Nölle (1970), Strasser (1985), Rüschendorf (1988) und Pruscha (1989), Barndorff-Nielsen/Cox (1989). Speziell für die ML-Schätzung in Exponentialfamilien sei auf Andersen (1980) oder BarndorffNielsen (1978) hingewiesen.
2.1 Likelihood-Funktion und Suffizienz Wie in Abschnitt 1 bezeichnen wir mit x l s . . . , x N sowohl Beobachtungen als auch Zufalls variablen. Sei f ( x 1 ; . . . , x N | 0) die gemeinsame Dichte von x ] 5 . . . , x N , wobei 0 ein unbekannter, zu schätzender Parametervektor ist. Die Likelihood-Funktion der Stichprobe ist L(0;x1,...,xN) = f(x1,...,xN|0),
(2.1)
die log-Likelihood-Funktion ist 1(0; X l , . . . , xN) = In L(0; x 1 ; . . . , xN) = In f ( x 1 ; . . . , xN 10).
(2.2)
Für den Fall unabhängiger x 1 ; . . . , x N mit den Dichten f n (x n | 0) erhalten wir L(0;x t , ...,x N ) = Π f n (x n |0)
(2.3)
η =1
1 ( 0 ; χ 1 , . . . , χ Ν ) = Σ Inf n (x n 10).
(2.4)
η =1
Fassen wir zur Datenmatrix X = ( x 1 ; . . . , x N )' zusammen, so schreiben wir auch kurz L(0; X) bzw. 1(0; X). Im Spezialfall identisch verteilter x n schreiben wir einfach f(x n |0). Für das wahre, aber unbekannte 0 ist die rechte Seite von (2.1) die gemeinsame Dichte von x 1 ; . . . , x N . Die Likelihood-Funktion L(0;x t , ...,x N ) wird dagegen für die feste Stichprobe x 1 ? . . . , x N als Funktion von 0, das in einem zulässigen Parameterbereich Θ variieren darf, aufgefaßt. Notationell werden wir in der Regel nicht zwischen dem wahren 0 und irgendeinem 0 e Θ unterscheiden. Beispiel 2.1. a) Multinormalverteilung: Seien x 1 ; . . . , x N identisch N p (μ, L)-verteilt und unabhängig. Als Likelihood-Funktion ergibt sich
L(/i, Σ; X) =
Np (2π) ~2~
|Σ|
Ν \ Ν 2 exp {— - Σ
l n=l
(*„ - μ)' Σ" 1
(x„ -
μ)},
(2.5)
und als log-Likelihood-Funktion
Np Ν \(μ, Σ; Χ) = InLOi, Σ; Χ) = - -γ 1η2π - — 1η |Σ| - I
Σ (.Χ„-μ)'Σ-ι(Χη-μ)·
I η=1
(2.6)
b) Multinomialverteilung: Die Likelihood-Funktion eines multinomialverteilten Zufallsvektors χ = ( x 1 ; . . . , x q )' ~ Μ (Ν; π) ist gegeben durch
2. Allgemeine Prinzipien der Parameterschätzung Nt
L(n; x) =
1
:
-
X i ! . . . x „ ! ( N - Σ Xj)! j=i
q Ν - Σ Xj
q
i=
Π «Ρ (1 - Σ i=1
55
' ·
(2.7)
j = 1
c) Exponentialfamilien: Sind x 1 ; . . . , xN unabhängig und gehören die Dichten zu Exponentialfamilien der Form (5.2), Kap. 2, so ist die Likelihood-Funktion durch (5.5), Kap. 2, und die log-Likelihood-Funktion durch 1(0; X) = Σ In {c„(xn)} + 0't(X) - B(0)
(2.8)
η =1
gegeben mit t(N>(X) = Σ t„(x„) und Β(θ)= Σ b„(0).
Score-Funktion und Informationsmatrix Die ersten Ableitungen der log-Likelihood-Funktion sind zur Bestimmung von Maximum-Likelihood-Schätzwerten von Bedeutung. Der Spaltenvektor dieser Ableitungen wird auch als Score-Funktion bezeichnet: s(0;X) = A 1 ( 0 ; x )
=
_ J _ ^
L ( e ; X )
.
(2.9)
Ist d2i δθδθ'
l
d2i \d0i30j
die Matrix der zweiten Ableitungen der log-Likelihood-Funktion, so heißt 3 2 1(0;X)
(Fisher'sche) Informationsmatrix der Stichprobe ist bezüglich f(x x , . . . , x N | Θ) zu bilden). Sind die x n unabhängig, so heißt
Informationsmatrix Offensichtlich gilt
. . . , x N . (Der Erwartungswert
der Beobachtung x n .
F (N) (0) = Σ F„(Ö)
(2.12)
n=l
bzw. speziell F (N) (0) = NF(0) im Fall identisch verteilter x 1 ; . . . , x N mit der Informationsmatrix F(0). Im folgenden und auch später geben wir Eigenschaften an, die unter gewissen Regularitätsbedingungen für die Likelihood-Funktion gelten. Sehr oft gestatten diese
56
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
das Vertauschen von Differentiation und Integration (bzw. Summation), was wir im weiteren als erlaubt annehmen. Für „reguläre" Likelihood-Funktionen gilt: E(s(0; X)) = 0,
(2.13)
F (N) (0) = E(s(0; X)s'(0; X)) = cov(s(0; X)).
(2.14)
Man kann zeigen, daß diese Eigenschaften für Exponentialfamilien gelten, für allgemeinere Regularitätsvoraussetzungen siehe z.B. Witting/Nölle (1970, S. 70). Wir wollen nur andeuten, wie (2.13), (2.14) Zustandekommen, wenn Differentiationen und Integrationen (bzw. Summationen) vertauscht werden dürfen. Differenzieren wir if(x1,...,xN|0)d(x1,...,xN) = iL(0;X)dX = l nach 0, so erhalten wir . - J ^ d X . J ^ L W X J d X . E W f t X » . Nochmaliges Differenzieren ergibt (2.14).
•
Suffizienz Die durch eine (mehrdimensionale) Beobachtung χ gegebene Information über das unbekannte 0 der Dichte f (χ 10) ist oft schon in einer vereinfachenden, zusammenfassenden Statistik t(x) enthalten. Eine solche Statistik t (x) heißt sujfizient für 0, wenn die bedingte Dichte f (χ 11) von 0 unabhängig ist. Für viele Anwendungen geeigneter ist die Charakterisierung durch die Neyman-Faktorisierung: Eine Statistik t(x) ist suffizient genau dann, wenn die Dichte sich faktorisieren läßt durch f(x|0) = g(t|0)h(x),
(2.15)
wobei g nur über t(x) von χ abhängt und h(x) ^ 0 von 0 unabhängig ist. Die Definition gilt ganz entsprechend für eine Stichprobe X = ( x 1 ; . . . , x N )'. Mit Hilfe der Likelihood-Funktion formuliert, ist eine Statistik t(X) genau dann suffizient für 0, wenn sich L(0; X) in ein Produkt L(0; X) = g(t(X)|0)h(X),
h(X) ^ 0
(2.16)
faktorisieren läßt. Beispiel 2.2. a) Multinormalverteilung: man (x„ - μγτ.-1
Wir formen in (2.5) bzw. (2.6) geeignet um. Summiert
(x„ - μ) = (x„ - χ ) ' Σ " 1 (x n - χ ) + (χ - / ί ) ' Σ _ 1 (χ - μ) + + 2(χ-/ι)'Σ-1(χ„-χ)
2. Allgemeine Prinzipien der Parameterschätzung
57
über η auf, so verschwindet der gemischte Term. Also ist Σ (* n — /Ο'ΣΓ1 (* n — f ) = Σ ( χ η — χ ) ' Σ _ 1 (x„ — Χ) + Ν (X — / 0 als Lösung von (2.38) bestimmt wird. Ist f stetig differenzierbar, so hat das Verfahren die Eigenschaft (2.39) (z.B. Luenberger 1970 S. 149). Ist die Folge der 0 k , k = 0,1, 2 , . . . beschränkt, so gibt es konvergente Teilfolgen, die wegen (2.39) jeweils gegen eine Lösung von (2.36) konvergieren. Eine ohne Kenntnis der speziellen Folge hinreichende Bedingung für die Beschränktheit ist wegen (2.40) die Annahme, daß für 0O {0|f(θ) < f(0 o )} beschränkt ist (Stoer 1976, S. 232). In den Anwendungen ist diese Annahme häufig für einen großen Bereich von Startwerten erfüllt. Die Konvergenz ist jedoch i.a. langsam (linear), d.h. Ilö l + i - 0JI
< < c < 1.
(Für eine korrekte Dezimalstelle benötigt man ungefähr lnc/ln 10 Iterationen, falls die Ungleichung scharf ist). Die folgenden Verfahren haben lokal, d. h. in der Umgebung eines Minimums, bessere Konvergenzeigenschaften, dafür erfordern die einzelnen Iterationen größeren Aufwand.
Newton-Verfahren Entwickelt man — (0) um 0·., so erhält man δθ δΐ
δ2ΐ
df
Wäre diese Näherung korrekt, würde man eine Nullstelle von df/δθ ( δ2ΐ V 1 df
=
r e ^
für (2 41)
·
erhalten. Da die höheren Ableitungen i.a. nicht verschwinden, wendet man (2.41) iterativ an, was der Wahl / δ2ΐ
V
1
in (2.37) entspricht. Ist f zweimal stetig differenzierbar, so erfüllt auch das Newton-Verfahren die Bedingung (2.39). In der Nähe eines Minimums 0, ist M k positiv definit und Ak = 1 in dem Sinn optimal, daß sich mindestens quadratische Konvergenz ergibt: Pk+i - 0 J < c Quadratische Konvergenz bedeutet: Liegt 0 k im Konvergenzbereich, so verdoppelt sich beim Übergang zu 0 k + 1 die Zahl der korrekten Dezimalstellen. Konvergenz für
68
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
einen großen Bereich von Startwerten ist für das Newton-Verfahren i.a. nicht gegeben. Führt man entlang der „Newton-Richtung" ΰΐ M k —(0 k ) eine eindimensionale Minimumsuche (2.38) durch, so erhält man ein neues Iterationsverfahren (modifiziertes Newton-Verfahren). Für eine Vielzahl von Funktionen werden durch diese Modifikation die Konvergenzbereiche vergrößert, und für gleichmäßig konvexe Funktionen ζ. B. erhält man damit globale Konvergenz, d. h. Konvergenz für beliebige Startwerte. In der Praxis vereinfacht man die Minimumsuche (2.38): Als Ak wählt man die größte Zahl der Form 2 _ 1 , i ^ 0, für die f(ö k + 1 ) < f ( 0 k ) ist. Man halbiert also die Newtonkorrektur solange, bis der Funktionswert von f kleiner ist als f(0 k ). Obwohl für dieses Verfahren kein globaler Konvergenzbeweis existiert, verhält es sich zumeist kaum schlechter, als würde die Minimumsuche exakt durchgeführt. In einer genügend kleinen Umgebung von θ, wählt dieses Verfahren automatisch Ak = 1 und ist deshalb wie das Newton-Verfahren selbst quadratisch konvergent. Bei statistischen Anwendungen hat sich das obige modifizierte Newton-Verfahren bewährt. Es hat jedoch den Nachteil, daß pro Iterationsschritt die Matrix der zweiten Ableitungen ausgewertet werden muß, was oft sehr viel Rechenaufwand erfordert. Hinzu kommt der Aufwand für die Invertierung bzw. Faktorisierung. Diesen Nachteil vermeiden
Quasi-Newton-Verfahren Bei diesen Verfahren wird in der Iterationsvorschrift (2.37) für M k anstelle der Inversen der Matrix der zweiten Ableitungen eine einfacher zu berechnende Matrix gewählt (Stoer 1976, S. 273). Um eine gewisse Verwandtschaft zu garantieren, verlangt man, daß M k + 1 die Quasi-Newton-Gleichung (2.42) erfüllt. Ist nämlich die Matrix der zweiten Ableitungen konstant, so genügt deren Inverse (2.42). Weiter soll M k positiv definit sein. Oren/Luenberger (1974) haben eine Klasse von Verfahren mit diesen Eigenschaften angegeben, bei denen M k + 1 rekursiv aus M k berechnet wird. Darin enthalten sind das Davidon-Fletcher-Powell (DFP)- und das Broyden-Fletcher-Goldfarb-Shanno (BFGS)-Verfahren. Wir beschränken uns hier auf das BFGS-Verfahren, das sich als leistungsfähiger erwiesen hat. Ausgehend von einer positiv definiten Startmatrix M 0 und einem Startwert 0O setzt man
Mk+1=A'kMkAk + ? ^ Pklk
2. Allgemeine Prinzipien der Parameterschätzung
69
mit Pk =
0
df
k + i - 0 k , flk =
8ϊ
-
^:P k pkqk
A = II A k
Man überzeugt sich leicht, daß M k + ^ die Bedingung (2.42) erfüllt und symmetrisch ist, falls M k symmetrisch ist. Ist M k positiv definit, so ist M k + 1 positiv definit genau dann, wenn p ' k q k > 0 ist. Die Schrittweite l k in der Iteration (2.37) bestimmt man mit einem der bei den modifizierten Newton-Verfahren besprochenen Algorithmen. Wählt man zur Bestimmung von /tk die exakte Minimierung (2.38), so ist stets die Bedingung p k q k > 0 erfüllt; wird die Minimierung nur näherungsweise durchgeführt, so ist p'k q k > 0 zu überprüfen. Unter gewissen Voraussetzungen (vgl. Stoer 1976, S. 279) kann in einer genügend kleinen Umgebung von 0, Ak = 1 gewählt werden und man erhält superlineare Konvergenz,
d.h.
lim ΙΙ^+ι-fl.ll
=
ο
Die Konvergenzrate vieler Optimierungsverfahren hängt von der Skalierung, d.h. der Wahl des Koordinatensystems für θ und für f (θ) ab. Nur das Newton-Verfahren ist skalierungsinvariant. Man kann zeigen, daß die beste Skalierung für QuasiNewton-Verfahren darin besteht, daß man M k „möglichst nahe" bei der entsprechenden Matrix der Newtonkorrektur wählt. Deswegen ist es günstiger Γ
δ2ί
(2.43)
zu wählen, falls M 0 positiv definit ist, als etwa M 0 = I, wie es oft in Bibliotheksprogrammen vorgeschlagen wird. Das Verfahren ist zwar selbstskalierend, d.h. wählt im Laufe der Iteration eine geeignete Skalierung. Die Wahl (2.43) verbessert jedoch die Konvergenz des BFGS-Verfahrens in der Startphase entscheidend. Es ist zu beachten, daß bei statistischen Anwendungen θ 0 oft in natürlicher Weise gegeben ist. Vielfach ist dann die Auswertung von M 0 viel billiger als an einer beliebigen Stelle. Betrachtet man etwa bei der Binomialverteilung die natürliche Parameterisierung θ = In - π 1 -π' so erhält man für die zweite Ableitung der logarithmierten Dichte, (vgl. Beispiel 5.3a, Kap. 2), d2 3Θ
lnf(x|0) 2r
d2 e" = — 2 nln(l +e") = n 8Θ ' ' (l+e9)2'
Hat man keine Vorinformation, so wird man π 0 = 1 — π 0 = \ setzen und erhält mit 0 o = 0
70
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
^lnf(x|0) = J,
(2.44)
was keine Auswertung der Exponentialfunktion erfordert.
Wird der Fixpunkt 0, in (2.39) mit hoher Genauigkeit benötigt, so kann noch ein Newton-Schlußschritt angeschlossen werden. Beim ML-Verfahren bedeutet dies keinen zusätzlichen Aufwand, wenn man die asymptotische Kovarianzmatrix schätzen will. Dieses von Kredler (1981) vorgeschlagene kombinierte Verfahren vereinigt die Vorteile beider Verfahren, nämlich a) Skalierungsinvarianz des Newton-Verfahrens (die Wahl von M 0 in (2.43) entspricht einer Newton-Iteration zu Anfang), b) gute Konvergenzeigenschaften des BFGS-Algorithmus bei günstiger Skalierung mit verhältnismäßig geringem numerischen Aufwand, c) quadratische Konvergenz des Newtonverfahrens in der Nähe der Lösung 0, (Newton-Schlußschritt). Scoring-Methode Diese Methode ist nur bei ML-Schätzungen anwendbar. Die Maximierung der Likelihoodfunktion L ist zur Minimierung von — InL äquivalent. Rao (1973) schlug vor, zur Lösung dieses Minimumproblems anstelle der Matrix der zweiten Ableitungen die Informationsmatrix d2lnL\
F (N) (0) = E(
(2.45)
δθδθ'
zu verwenden. Diese Matrix ist positiv semidefinit und in der Regel sogar positiv definit. Ist dies der Fall, so kann man in der Iteration (2.37) M^OW*,))"1
(2.46)
wählen. Diese Wahl ist mit der Newton-Wahl eng verwandt. Für identisch verteilte Beobachtungen gilt ja nach der Bemerkung zu Satz 2.4 unter geeigneten Bedingungen ö
s
-
s
w
«
-
™
wobei 0 den wahren Parameter bezeichnet. Für große Ν werden also
nahe beieinanderliegen. Auch für nicht identisch verteilte Beobachtungen gilt oft 1 (ζ. B. Kap. 4, 3.3) dieselbe Aussage, wenn man F(0) durch F„(0) = lim — F (N) (0) ersetzt, die durchschnittliche Information pro Beobachtung. N->CON Für die Wahl der Schrittweiten Ak gelten ähnliche Bemerkungen wie beim NewtonVerfahren (Rao schlägt Ak = 1, k = 0 , 1 , 2 , . . . vor, was nicht in allen Fällen emp-
2. Allgemeine Prinzipien der Parameterschätzung
71
fehlenswert sein dürfte). Die lokal quadratische Konvergenz ist für die Wahl (2.46) i.a. nicht gegeben. In manchen Fällen (siehe z.B. Gauß-Newton-Verfahren bei der nichtlinearen Regression, Kap. 4 und verallgemeinerte lineare Modelle, Kap. 6) ist die Informationsmatrix einfacher auszuwerten als die Matrix der zweiten Ableitungen, dann kann sich die Verwendung von (2.46) schon lohnen. Erfordert die Berechnung von (2.45) numerische Integration, so ist der Aufwand kaum gerechtfertigt. Minimierung unter Restriktionen Falls der Parametervektor θ in (2.35) zusätzlichen linearen oder nichtlinearen Restriktionen genügt, so existieren Algorithmen, die solche Nebenbedingungen berücksichtigen und explizit einbeziehen. Nichtlineare Nebenbedingungen können z.B. mit „Penalty"- oder „Barrier"-Verfahren behandelt werden. Eine ausführliche Darstellung findet man in McCormick (1983). Als sehr robust und stabil haben sich ferner die in Bertsekas (1982) behandelten „Augmented-Lagrange"-Verfahren herausgestellt. Weit verbreitet sind SPQ (sequential quadratic programming)-Verfahren, insbesondere in der Version von Schittkowski (1981). Ihr Prinzip besteht darin, nichtlineare Probleme durch eine Folge quadratischer Minimierungsprobleme, für die sehr effiziente Algorithmen existieren, zu lösen. Aufgrund dieser Konstruktion ist ihr Einsatz für Probleme mit linearen Gleichungs- oder Ungleichungsrestriktionen besonders empfehlenswert. Einen sehr guten Überblick zur Optimierung unter Restriktionen findet man in Gill/Murray/Saunders/Wright (1989). Ableitungsfreie Verfahren Die bisher besprochenen Methoden hatten alle gemeinsam, daß mindestens die erste, manchmal sogar die zweite Ableitung benötigt wurde. In der konkreten Anwendung kann es vorkommen, daß sie entweder nicht zur Verfügung stehen oder sehr aufwendig zu berechnen bzw. zu approximieren sind. Ableitungsfreie Verfahren bilden daher oft für niedrigdimensionale Probleme (etwa < 5) eine brauchbare Alternative. Sie sind in der Regel einfach zu implementieren und robust in der Anwendung. Neider, Mead (1965) haben die „downhill simplex method" vorgestellt. Für eindimensionale Probleme kann auch der „golden section search" aus Press/Flannery/Teukolsky/Vetterling (1989) verwendet werden. EM-Algorithmus Der EM-Algorithmus ist eine sehr allgemein einsetzbare iterative Methode zur ML-Schätzung in Situationen mit unvollständigen bzw. fehlenden Daten oder latenten Variablen. Bezeichne dazu y einen Vektor beobachtbarer Variablen und ζ einen Vektor unbeobachtbarer Variablen; Y und Ζ seien die entsprechenden beobachtbaren und unbeobachtbaren Datenmatrizen. Die hypothetischen vollständigen Daten sind dann durch X = (Υ, Z) gegeben. Dabei kann Ζ ζ. Β. eine Matrix fehlender Werte bezeichnen oder - wie beim Mischverteilungsansatz der Clusteranalyse, (Kap. 9, Abschnitt 5) - die nicht beobachtbaren Werte einer latenten Variablen z. Für die ML-Schätzung muß die log-Likelihood
72
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
1(0; Y) = log j L(0; X = (Y, Z))dZ maximiert werden. Durch die dabei auftretende Integration der vollständigen Likelihood L(0; X = (Υ, Z)) wird eine direkte Maximierung in der Regel schwierig. Dagegen ist in vielen statistischen Anwendungen die Maximierung von L(0; X = (Υ, Z)) vergleichsweise einfach. Der EM-Algorithmus nützt dies aus, indem die direkte Maximierung von 1(0, Y) in eine iterative Folge von einfacheren Maximierungsproblemen für L(0; X = (Υ, Z)) übergeführt wird. Ausgehend von einem Startwert 0O, führt der EM-Algorithmus jeweils einen E- und einen M-Schritt aus. Beim (k + l)-ten Iterationsschritt wird im Ε-Schritt der bedingte Erwartungswert von 1(0; Y) = log L (0; X), gegeben die beobachteten Daten Y und der Schätzwert 0 k des vorhergehenden Iterationsschrittes berechnet: Q(0;0 k ) = f l ( 0 ; X ) f ( Z | Y ; 0 k ) d Z . Im M-Schritt wird anschließend 0 k + j als Maximierer von Q(0; 0 k ), 0k fest bestimmt. Unter Regularitätsannahmen ist die Folge {l(0k; Y)} monoton wachsend und {0 k } konvergiert unter geeigneten Regularitätsbedingungen, vgl. Dempster/Laird/Rubin (1977), Wu (1983). Der EM-Algorithmus ist dann einfach zu implementieren, wenn E- und M-Schritt explizit durchführbar sind. Für kompliziertere Fälle existieren Modifikationen, vgl. etwa Meng/Rubin (1993).
2.5 Nichtparametrische Dichteschätzung In den bisherigen Abschnitten wurde vorausgesetzt, daß eine bestimmte Verteilungsfamilie, etwa eine Multinormal- oder Multinomialverteilung, vorliegt, die bis auf unbekannte Parameter vollständig spezifiziert ist. Die Schätzung dieser Parameter liefert dann zugleich eine Schätzung der zugrundegelegten Verteilung. Ein Hauptproblem dieser parametrischen Vorgehensweise besteht damit in der richtigen Festlegung einer Klasse von Verteilungen. Nichtparametrische Ansätze zur Dichteschätzung stellen dazu Alternativen dar, die mit geringen Voraussetzungen, etwa Glattheit, an die zu schätzende Dichte auskommen. Wir beschränken uns auf eine kurze Beschreibung von Kern- und Nächste-Nachbarn-Schätzern. Ausführlichere Darstellungen finden sich bei Silverman (1986), Härdle (1991), Scott (1992), kürzere Überblicke in Michels (1992), Härdle/Müller (1993). Dort findet man auch Hinweise auf andere Dichteschätzer, wie Orthogonalreihen-Schätzer und penalisierte Likelihood-Schätzer.
Univariate Dichteschätzung Wir nehmen an, daß x 1 ? . . . , x N unabhängig und identisch verteilt sind. Die zu schätzende Dichte f sei stetig mit F als zugehöriger Verteilungsfunktion. Der älteste und bekannteste Dichteschätzer ist das Histogramm. Es besitzt jedoch folgende Nachteile: der optische Eindruck kann ganz wesentlich von der gewählten Klasseneinteilung abhängen, eine stetige Dichte wird durch eine Treppenfunktion dargestellt, und Datenpunkte nahe von Klassengrenzen haben keinerlei Einfluß auf die Schätzung der Dichte in benachbarten Klassen. Der zuletzt genannte Nachteil läßt sich vermeiden, wenn man von der festen Klasseneinteilung zu gleitenden
2. Allgemeine Prinzipien der Parameterschätzung
73
Histogrammen (Fix/Hodges 1951, Rosenblatt 1956) übergeht. Sei F die aus x t , ...,x N gebildete empirische Verteilungsfunktion. Dann ist der gleitende Histogramm-Schätzer f(x) für die Dichte f(x) an der Stelle χ definiert durch den symmetrischen Differenzenquotienten f(x) =
—
,
h> 0.
Für festes χ gehen in diesen Schätzer alle Beobachtungen ein, die innerhalb des Intervalls (x — h, χ + h) liegen. Läßt man χ und das Intervall über die reelle Zahlenachse gleiten, erhält man ein gleitendes Histogramm. Die sogenannte Bandoder Fensterweite h übernimmt nun die Rolle der Klassenbreite und steuert den Kompromiß zwischen Glattheit (h groß) und Datentreue (h klein) der Schätzung. Mit Hilfe der Rechtecks-Kernfunktion 1 K(u) = -
für
|u| < 1 ,
0
sonst
läßt sich der gleitende Histogramm-Schätzer auch in der Form
schreiben. Dabei ist Kh(x-xn) =
^ K ^
ein Rechtecks-Kern oder -fenster mit dem Zentrum über x n , der Weite h und der Höhe 1/2 h. Univariate Kern-Dichteschätzer erhält man, indem man in (2.47) statt des Rechtecks-Kerns allgemeinere Kerne oder Fenster Κ (u) zuläßt. Solche Kerne sollen symmetrisch um 0 liegen und dort ihr Maximum annehmen, und es soll wie bei einer Dichte |K(u)du = 1 gelten. Zusätzlich sind die meisten üblichen Kerne nichtnegativ. Einige gebräuchliche Kernfunktionen sind neben dem Rechteckskern • der Epanechnikov-Kern 3 K(u) = -(1 - u 2 )
für
|u| < 1 , 0 sonst;
• der Bisquare- (Biweight- oder Quartic-)Kern 15 K(u) = — ( 1 - u 2 ) 2 16
für
|u| < 1,
0 sonst;
• der Gauß-Kern: 1 . 1 K(u) = —^=exp( — - u 2 ) j/2^ 2
für
u e R.
74
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
Bisquare Epanechnikov Gauss Rechteck
CO ö
ό ο
ö -2
-1
0
2
Abb. 2.1: Kernfunktionen
Kern-Dichteschätzer ?(x) der F o r m (2.47) hängen bei gegebenen Daten x , , . . . , x N damit von der Wahl des Kerns Κ und von der Bandweite h ab. Stetigkeits- und Differenzierbarkeitseigenschaften des Kerns übertragen sich auf die geschätzte Dichte f. Deshalb verwendet man in der Anwendung gerne glattere Kerne wie den Bisquare-Kern. Die Bandweite h bestimmt, wie weit sich der einzelne Kern K h ( x —x n ) in (2.47) um x n ausdehnt. Die Wahl der Bandweite beeinflußt die Schätzung deutlicher als die Wahl des Kerns: G r o ß e Bandweiten glätten Details im zentralen Bereich, wo mehr Daten liegen, weg, während zu kleine Bandweiten oft deutliche Ausschläge in den Randbereichen bewirken. F ü r eine datengesteuerte Wahl von h existieren verschiedene Ansätze. Die einfachste Möglichkeit ist die Verwendung von Faustregeln, die an der Minimierung des mittleren quadratischen Fehlers orientiert sind. F ü r den Gauß-Kern erhält man etwa (vgl. Härdle 1991, S. 91) h = 1.06 min(σ, R/1.34) · n " s
(2.48)
wobei σ die empirische Standardabweichung und fi. der empirische Interquartilsabstand sind. Faustregeln für andere Kerne erhält m a n über Umrechnungsfaktoren (Härdle, 1991, S.76). Andere, rechenintensivere Möglichkeiten sind meist am Prinzip der Kreuzvalidierung und der Minimierung bestimmter Kriterien orientiert. Die Eigenschaft von Kernschätzern, daß Details im zentralen Bereich eher weggeglättet werden und in dünn besetzten Randbereichen eher überzeichnet werden, läßt sich durch k-Nächste-Nachbarn-(k-NN)Schätzer vermeiden. Dazu ersetzt man in (2.47) die im gesamten Datenbereich konstante Bandweite h durch den Abstand d k (x) zwischen χ und der Beobachtung x n , welche am k-nächsten zu χ liegt. Außerdem werden nur Kerne mit K ( u ) = 0 für |u| > 1 zugelassen. Allerdings wird der so erhaltene Vorteil gegen Nachteile eingetauscht: f(x) ist nicht mehr überall differenzierbar und das Integral über f divergiert. Beide Nachteile lassen sich durch sogenannte adaptive Kernschätzer (Silverman 1986, S. lOOff.) vermeiden. Multivariate Dichteschätzung Die univariaten Konzepte lassen sich auf die Schätzung multivariater Dichten f(x) = f ( x j , . . . , x p ) mittels einer Stichprobe x , , . . . , x N und zugehöriger Datenmatrix
2. Allgemeine Prinzipien der Parameterschätzung
/ X 'l \
/X,,
W
\XN1
...
Xil j;
.· .· .·
Λ X 1ρ
75
\
X = v
Nj
Np
/
übertragen. Zur Kern-Dichteschätzung sind dazu geeignete multivariate Kernfunktionen zu definieren. Eine einfache, in vielen Fällen empfehlenswerte Möglichkeit sind Produktkerne. Sie führen auf die Schätzung f(x) =
Ν
1 Nhi ...hp
Σ
(2.49)
π κ \ ( »jν
D=1 Lj = 1
Dabei wird für jede Dimension die gleiche univariate Kernfunktion Κ verwendet, während die Bandweiten h , , . . . , h p unterschiedlich sein können. Eine andere Möglichkeit, die etwa in der nonparametrischen Diskriminanzanalyse (Kap. 8.5) häufig verwendet wird, sind multivariate Versionen der univariaten Kernfunktionen. Eine allgemeine Form ist ff.
1
f
/(x-x„)'S-'(x-xn)
(2.50)
wobei die multivariaten Kerne K(u) die mehrdimensionalen Versionen entsprechender univariater Kerne bzw. Dichten sind: • der Rechteckskern K(u) =
1 h p IS| 1 / 2 -
für u ' S _ 1 u < h 2 ,
0 sonst,
mit CQ = π ρ / 2 /Γ(ρ/2 + 1); • der Epanechnikov-Kern K(u) = Cj(l — u'S _ 1 u/h 2 ) p
mit c, = ( 1 + p/2/)/(h |S|
1/2
für u'S _ 1 u < h 2 ,
0 sonst,
c 0 );
• der Bisquare-Kern K(u) = c 2 (l — u'S _ 1 u/h 2 ) 2
für u ' S - ' u < h 2 ,
0 sonst,
mit c 2 = (1 +p/4)cj; • der Gauß-Kern K(u) =
u'S 'u 1 eX (2π) ρ/2 h I S I 1 ' ! P I - ~2h2
Für die Wahl von S sind folgende Varianten üblich: S = I, d. h. gleiche Bandweiten in allen Dimensionen; S = diag (s 2 ,..., s 2 ) mit den empirischen Varianzen s 2 , . . . , s 2p der Stichprobe, womit unterschiedliche Skalierungen berücksichtigt werden können; S gleich der empirischen Kovarianzmatrix, womit auch Abhängig-
76
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
keiten der K o m p o n e n t e n berücksichtigt werden können. Zur Bestimmung v o n Bandweiten k ö n n e n wieder Faustregeln oder kreuzvalidierte Kriterien herangez o g e n werden, m a n vergleiche dazu Silverman (1986), Scott (1992). Multivariate Nächste-Nachbarn-Schätzer erhält man, indem m a n anstelle der festen Bandweite h in (2.50) den euklidischen A b s t a n d d k ( x ) zwischen χ und d e m k-nächsten Beobachtungsvektor einsetzt. D i e Prinzipien der Kern- und N ä c h s t e - N a c h b a r n - D i c h t e s c h ä t z u n g wurden hier nur für den Fall stetiger Merkmale skizziert. Sie lassen sich j e d o c h auf den Fall v o n diskreten und gemischt diskret-stetigen M e r k m a l e n in geeigneter Weise übertragen, m a n vergleiche dazu etwa Kap. 8.3, Tutz (1990), Fahrmeir/Tutz (1994, Kap. 5).
Beispiel 2.4. Bonitätsprüfung von Unternehmen. Banken bemühen sich, von Unternehmen, die bei ihnen um einen Kredit nachfragen oder bereits Kreditkunden sind, u.a. Daten aus den Jahresabschlüssen zu erhalten. Es werden Bilanzkennzahlen gebildet, die Auskunft über die momentane wirtschaftliche Lage des Unternehmens, etwa Rentabilität und Liquidität, geben und u.U. auch Rückschlüsse auf die mittelfristige zukünftige Entwicklung zulassen. Ziel ist es, aus der Fülle aller möglichen Bilanzkennzahlen geeignete auszuwählen und diese so zu analysieren, daß man eine Regel erhält, anhand derer jedes Unternehmen mit einer möglichst großen Treffsicherheit als „gut" oder „schlecht" erkannt werden kann (Diskriminanzanalyse, vgl. Kap. 8). „Schlecht" heißt, daß in den folgenden drei Jahren nach Erstellung des analysierten Jahresabschlusses - aus welchen Gründen auch immer - mit einer Störung der ordnungsgemäßen Kreditrückzahlung durch das Unternehmen zu rechnen ist. Die Bayerische Vereinsbank stellte einen anonymisierten Datensatz zur Verfügung, der im Rahmen einer Diplomarbeit analysiert wurde (Hornsteiner 1993, für eine kurze Zusammenfassung davon siehe Fahrmeir/Frank/Hornsteiner 1994). Er enthält bis zu 24 Bilanzkennzahlen des Jahres 1988 von Firmenkunden der Bank. Dabei handelt es sich um eine nach den beiden Klassen „ G u t " und „Schlecht" geschichtete Stichprobe, darin 322 Unternehmen ohne Leistungsstörung bis einschließlich 1991 und 66 Unternehmen mit Zahlungsschwierigkeiten in diesen drei Jahren. Hinsichtlich der Klassentrennung haben sich die folgenden beiden Bilanzkennzahlen als besonders bedeutend herausgestellt. Die Kennzahl χ, =
wirtschaftliches Eigenkapital χ 100 Bilanzsumme
(„Eigenkapitalquote W E K " in %)
gibt Auskunft über die Kapitalstruktur des Unternehmens. Je höher der Anteil des für die Leistungserstellung eines Unternehmens zur Verfügung stehenden Eigenkapitals ist, desto besser können Beeinträchtigungen der Ertragslage verkraftet werden. Die zweite Größe x2 =
Forderungen aus Lieferungen und Leistungen x 360 Umsatzerlöse („durchschnittliche Debitorenlaufzeit" in Tagen)
besagt, wie lange ein Unternehmen im Mittel auf die Begleichung seiner Außenstände warten muß. Eine lange Debitorenlaufzeit deutet evtl. auf ein schlechtes Mahnwesen hin, führt aber in jedem Fall zu geringerer Liquidität. Für diese zwei Kennzahlen wurden, getrennt nach den beiden Unternehmensklassen, jeweils eindimensionale Kerndichteschätzungen durchgeführt (Abb. 2.2 und 2.3). Dabei wurde der Gauß-Kern gewählt und für die Bandweiten die Faustregel (2.48) verwendet. Ferner wird anhand der Kennzahl x 2 veranschaulicht, wie sich die Dichteschätzungen tendenziell ändern, wenn man kleinere (Abb. 2.4) oder größere (Abb. 2.5) Bandweiten wählt. Abb. 2.6 zeigt eine zweidimensionale Kerndichteschätzung nach (2.50) für die guten und Abb. 2.7 für die schlechten Unternehmen. Auch hier wurde der Gauß-Kern verwendet, es wurde S = I gesetzt und h so gewählt, daß ein plausibles Ergebnis erzielt wurde.
2. Allgemeine Prinzipien der Parameterschätzung
100
0
100
200
Abb. 2.2: Geschätzte Dichten der Eigenkapitalquote; Band weiten h = 8 (gut) und h = 6 (schlecht).
-100
0
100
Abb. 2.3: Geschätzte Dichten der Debitorenlaufzeit; Bandweiten h = 8 (gut) und h = 18 (schlecht).
200
78
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
-100
0
100
200
Abb. 2.4: Geschätzte Dichten der Debitorenlaufzeit; Bandweiten h = 16 (gut) und h = 36 (schlecht).
-100
0
100
Abb. 2.5: Geschätzte Dichten der Debitorenlaufzeit; Bandweiten h = 4 (gut) und h = 9 (schlecht).
200
2. Allgemeine Prinzipien der Parameterschätzung
Abb. 2.7: Geschätzte Dichten der schlechten Unternehmen.
80
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
3. Hypothesentests und Vertrauensbereiche für Erwartungswerte und Kovarianzmatrizen Wir besprechen in diesem Abschnitt Tests und Vertrauensbereiche, die zum Teil multivariate Analoga univariater Verfahren sind, zum Teil aber auch aus den allgemeinen Prinzipien des nächsten Abschnitts gewonnen werden können.
3.1 Test und V e r t r a u e n s b e r e i c h e für Erwartungswerte Ein-Stichprobenfall Sei X = ( x x , . . . , x N )' eine Stichprobe aus Ν ρ (/ι, Σ). Das einfachste Testproblem ist wie im univariaten Fall Η0:/ί = /ι0,Η1:/ίΦ/ι0.
(3.1)
Bei bekannter Kovarianzmatrix Σ ist wegen χ ~ N p (μ, Σ / Ν ) und Satz 4.2b, Kap. 2 mit Α = Ν Σ " 1 bei Gültigkeit von H 0 Τ 2 = N ( x — μογ Σ-1 (χ - μ0) ~ χ2(ρ).
(3.2)
Damit ergibt sich beim Signifikanzniveau α die Testvorschrift H0
ablehnen, falls
Τ 2 > χ2(ρ; 1 - α),
(3.3)
und der (1 — α)-Vertrauensbereich P{N(x - μ)' Σ - 1 (X - μ)} ύ Χ2(ρ; 1 - «)
(3.4)
(Ellipsoid mit Mittelpunkt χ). Für ρ = 1 reduziert sich (3.3) auf den bekannten Erwartungswerttest. Im folgenden sei nun die Kovarianzmatrix Σ unbekannt und weiterhin liege das Testproblem (3.1) vor. Im univariaten Fall ist unter H 0 T = — ^ ~ t ( N - l ) s/j/N J
mit
s2 = - — -
bzw.
Τ 2 ~ F ( l , Ν — 1),
Ν
Σ
IN — 1 η = 1
(x„-x)2.
Ersetzt man χ und s durch die multivariaten Analoga, so erhält man die Teststatistik T 2 = N ( x — /j 0 )' S~ 1 (χ — μ0). Nach Satz l.ld), e) und Kap. 2, (4.7) ist unter H 0
(3.5)
3. Hypothesentests und Vertrauensbereiche
N-P (N-l)p
TΤ22 ~ F ( ρ , Ν — ρ ) .
81
(3.6)
Damit ergibt sich die Testvorschrift (N - D)N 2 H 0 ablehnen, falls V/XT D > F(p, Ν - ρ; 1 - α) (Ν - 1)ρ mit der Mahalanobis-Distanz D 2 = (χ — Po)' S ~ 1 (χ — μ0). Man erhält den (1 — α)-Vertrauensbereich . °
(N-l)p (>Γ^ρ)Ν
Ν — ρ; 1 — α).
Dies ist wieder ein Ellipsoid mit Mittelpunkt χ und für höhere Dimensionen ein sehr unhandlicher Vertrauensbereich. Interessiert man sich nur für eine Komponente, etwa ßi, dann ist Xi - t(N - 1; 1 -
g
^ x, + t(N - 1; 1 - a / 2 ) / s J N
ein (1 — α)-Vertrauensbereich. Simultane Vertrauensbereiche für mehrere Komponenten i 61 s {1,..., p} erhält man ζ. B. nach dem Bonferroni-Prinzip. Es gilt simultan Ρ ( Π {Xi - t(N - 1; 1 - «i/2)|/s^/N g iel
A
g x, + t(N - 1;
(17)
mit α = Σ F(p, Ν — ρ; 1 — α). (Ν - l)p Vertrauensintervalle werden entsprechend konstruiert.
(3.14)
84
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
3.2 Tests für Kovarianzmatrizen Viele multivariate Verfahren beruhen, neben Unabhängigkeits- und Normalverteilungsannahmen, auf besonderen Voraussetzungen über die Kovarianzmatrizen der beteiligten Variablen. Wir wollen in knapper Form einige Tests, mit denen derartige Voraussetzungen geprüft werden können, angeben. Sie beruhen alle auf der Normalverteilungsannahme. Wie für ρ = 1 reagiert insbesondere der Test auf Gleichheit von Kovarianzmatrizen sensibel auf eine Verletzung dieser Annahme. Weitere Test und Hinweise auf robuste Varianten finden sich bei Timm (1975, S.250ff), Mardia u.a. (1979, S. 133ff), Huber (1981), Hampel u.a. (1986).
Test auf Gleichheit von Kovarianzmatrizen Wie in 1.2 sei X partitioniert in Teilmatrizen X 1 ; . . . , X g , g ^ 2, Stichproben aus N p (/i l 5 Σ χ ) , . . . , N p (/i g ,L g ). Testproblem: H 0 : = ... = ! : Η ο falsch. Teststatistik: Die Likelihood-Quotienten-Statistik (siehe 4.1) — 2\ηλ = Ν 1 η | Σ | — £ N k l n | £ k | = £ Ν , Ι η Ι Σ ^ Σ Ι k= 1
unabhängiger
(3.15)
k= 1
ist unter H 0 asymptotisch x 2 -verteilt mit ^ p ( p + 1) (g — 1) Freiheitsgraden (vergleiche Beispiel 4.2c). Dabei sind mit den Bezeichnungen von 1.2 1 . 1 Σ = — W der ML-Schätzer von Σ unter H 0 , und Σ·. = — W k die ML-Schätzer Ν Nk für L k , k = l , . . . , g . Durch die Teststatistik M = ( l - C ) Σ [(N k — l ) l n | S k * S | ] k=1
mit 2p 2 + 3p — 1 / « _ J 6(P + 1) (g — 1) \k = i N k — 1
1_\ Ν — gy
wird die ^-Verteilung mit p(p + 1) (g — l)/2 Freiheitsgraden besser approximiert. Faustregel: N k > 20, g < 6, ρ < 6. H 0 wird abgelehnt, falls das entsprechende (1 — a)-Quantil überschritten wird. Für ρ ^ 6 existiert eine genauere F-Approximation (Timm 1975, S. 252; Box 1949).
Unabhängigkeitshypothesen a) Sei X aus Ν ρ (/ι, Σ), μ unbekannt. Testproblem: H 0 : Σ = y
1
° 2 J bzw. äquivalent H 0 : Ρ = I
4. Testprinzipien
85
Teststatistik: Die LQ-Statistik — 21ηλ = — Nln|R|
(3.16)
ist asymptotisch ^-verteilt mit p(p - l)/2 Freiheitsgraden (Beispiel 4.2d). Eine bessere Approximation der ^-Verteilung liefert — N'ln|R|,
Ν' = Ν — 1 — (2p + 5)/6
für ρ < 6. Für ρ 2; 6 kann wieder eine F-Approximation (Box 1949) verwendet werden. b) In a) wird geprüft, ob die Komponenten von χ unabhängig sind. Eine schwächere Hypothese ist, daß jeweils g Gruppen von pk, k = 1,..., g, Variablen unabhängig sind. Testproblem: H 0 : Σ =
® ^.
Für die Teststatistik siehe Timm (1975, S. 256).
4. Testprinzipien Während zu vielen Testproblemen für eindimensionale Parameter Tests existieren, die bereits für endlichen Stichprobenumfang wünschenswerte Optimalitätseigenschaften besitzen (z.B. Witting 1966, Cox/Hinkley 1974), existiert zu den meisten multivariaten Testproblemen kein solcher optimaler, insbesondere kein gleichmäßig bester Test. Die für die multivariate Statistik wichtigste Klasse von Tests sind Likelihood-Quotienten-Tests. Diese besitzen einige asymptotische Optimalitätseigenschaften (Konsistenz, Ähnlichkeit, Invarianz), auf die wir aber in diesem Rahmen nicht näher eingehen (siehe ζ. B. Cox/Hinkley 1974, ch.9). Ein weiterer in der multivariaten Statistik vielverbreiteter Ansatz ist das heuristisch motivierte UnionIntersection-Prinzip, das zur Konstruktion von Tests und von simultanen Konfidenzintervallen dienen kann (Roy 1957, Mardia u.a. 1979). 4.1 Likelihood-Quotienten-Test, Score-Test und Wald-Test Wie in Abschnitt 2.1 sei 0 = (0 l 5 ..., OJ' der unbekannte Parametervektor. Wir betrachten den Fall zweier einfacher Hypothesen H O :0 = 0O, H 1 : 0 = 0 1 . Sei (41) der Likelihood-Quotient aus dem Wert der Likelihood-Funktion unter H 0 dividiert durch den Wert der Likelihood-Funktion unter H^ Man wird H 0 ablehnen, falls λ zu klein ist. Das Lemma von Neyman-Pearson zeigt, daß durch die Testvorschrift
86
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
„Ho ablehnen, falls λ < /l 0 ", wobei λ0 durch P(2 < λ0) = α bestimmt wird, ein bester Test (d. h. mit minimalem Fehler 2. Art) zum Niveau α gegeben ist (im diskreten Fall müßte man noch randomisieren, um das Signifikanzniveau α voll auszuschöpfen). Für zusammengesetzte Hypothesen existieren zwar in einigen einfachen Fällen gleichmäßig beste Tests, für viele multivariate Testprobleme jedoch nicht. Die wichtigste von (4.1) ausgehende Klasse von Tests für zusammengesetzte Hypothesen sind Likelihood-Quotienten-Tests (LQ-Tests) und die damit eng verwandten Scoreund Wald-Tests. Im folgenden bezeichne dazu Θ0 einen Teilraum des gesamten zulässigen Parameterraums Θ o
(4.2)
gegen die Alternative Η^βεΘχΘοSeien θ der ML-Schätzer für θ ε Θ, also L(0;X) = supL(0;X),
(4.3)
060
und S0 der ML-Schätzer unter H 0 : θ e Θ0 c: Θ, also L(0o;X)= supL(0;X). 0e0„
(4.4)
In Verallgemeinerung von (4.1) verwendet man dann den Likelihood-Quotienten A = A ( X ) =
Tm
(4 5)
·
als Teststatistik. Äquivalent zu (4.5) ist der log-Likelihood-Quotient — 2\τιλ = 2 {1(£; X) — 1($0; X)} .
(4.6)
Wegen Θ0 ' ·
Nj + Ν 2 Nach Satz 1.2c) ist unter H 0 Β ~ W P (E, 1) und damit Λ~Λ(ρ,Ν-2,1).
(4.13)
Wie im Einstichprobenfall läßt sich Λ in die Form 2
Λ = l + [T /(N 11+ N 2 - 2 ) ] ' mit T 2 nach (3.11) bringen. Wegen Kap. 2, (4.11) ist dann
Ν, + N 2 - p - l
—
— ρ
1 -Λ
7~= Λ
Ν, + N2 — ρ — 1 ,
™ ^ T2~F(p,N1 (Nj + N 2 — 2)p
+
N
2
-p-l)
in Übereinstimmung mit (3.12). c) Testsfiir Kovarianzmatrizen: Für das Testproblem H 0 : Σ[ = ... = Σ β ist x t ML-Schätzer für /ik, unabhängig von der Gültigkeit der Nullhypothese. ML-Schätzer für Σ = Σ, = ...
» 1
1
= Σ. unter H 0 ist Σ = — W, falls H 0 nicht gilt ist £ k = — W t ML-Schätzer für Σ ι . Damit Ν Nk ergibt sich nach kurzer Rechnung (3.15). (3.16) erhält man, wenn man beachtet, daß £ 0 = d i a g ( i f , . . . , σ 2 ) ist.
4.2 Der Union-Intersection-Test und simultane Konfidenzintervalle Das Union-Intersection-Prinzip geht auf Roy (1957) zurück. Wir wollen es am Beispiel des Erwartungswerttests μ = μ0 bei bekannter Kovarianzmatrix einführen. Sei χ ~ Ν ρ (μ, Σ) und a φ 0 ein beliebiger, konstanter p-Vektor. Für jedes solche a ist dann a'x ~ N j (a>, a'La) = N j (μ3, Falls H 0 : μ = μ0 richtig ist, so ist auch H 0 a : μΛ = = λ' μ0 für jedes a richtig, und falls umgekehrt für jedes a φ 0 H 0a gilt, so ist wegen der Charakterisierung Satz 3.3, Kap. 2, auch H 0 richtig. Die multivariate Hypothese H 0 kann also als Durchschnitt (Intersection) von univariaten Hypothesen geschrieben werden:
H0= ΠΗο»·
(4-14)
a+0
(Das Durchschnittszeichen ist also ein logisches „und" über alle a φ 0). H 0a heißt Komponente von H0Sei nun X eine Stichprobe aus Ν (μ, Σ). Dann ist Xa e R N eine Stichprobe aus N(/i a , und die Teststatistik für Η 0 „:μ» = μο» wäre Za = N ( y a - μ ο ^ / σ ΐ = Na' (χ - /ι 0 ) (χ - μ0)' a/a' Σα mit dem kritischen Bereich
(4.15)
4. Testprinzipien
C a = {za: za > c}.
91
(4.16)
Da H 0 genau dann richtig ist, wenn jede Komponente H 0a richtig ist, erscheint es vernünftig, H 0 dann nicht abzulehnen, falls keine der Komponenten H 0a abgelehnt wird. H 0 wird also abgelehnt, falls wenigstens ein H 0 a abgelehnt wird. Dies führt für H 0 zum Ablehnungsbereich C=
c
U
a
(4-17)
«eR'
a+0
als Vereinigung (Union) der Ablehnungsbereiche C a . Wir sprechen allgemein von einem Union-Intersection-Test (UI-Test), falls die Hypothese H 0 als Durchschnitt von Hypothesen H 0a wie (4.14) und der Ablehnungsbereich C als Vereinigung der kritischen Bereiche C a , die zu H 0a gehören, geschrieben werden kann. Im Beispiel wird nach diesem Prinzip H 0 genau dann nicht abgelehnt wenn za^c
für alle za
bzw.
maxza^c
(4.18)
a+0
gilt. Wegen (A.15.11) ist max z\ = Ν (χ - μ0)' Σ " 1 (χ - μ0) a+0 und diese Teststatistik ist äquivalent zu (3.2) und zur Likelihood-Quotienten-Statistik. Im allgemeinen sind UI- und LQ-Tests nicht äquivalent. Der Vorteil von UI-Tests ist darin zu sehen, daß bei einer Ablehnung von H 0 geprüft werden kann, durch welche Ablehnungsbereiche C a dies verursacht wurde. Im Beispiel bedeutet dies also, daß die Linearkombinationen a'x gesucht werden, deren Werte zur Ablehnung führten. Insbesondere kann durch die Wahl a = e; geprüft werden, welche Komponenten von χ zur Ablehnung führen. Bei LQ-Tests ist dies nicht möglich. Der Vorteil von LQ-Tests liegt jedoch in der gut ausgearbeiteten asymptotischen Theorie. Die Anwendung des Ul-Prinzips auf Erwartungswerttests im Ein- und Zwei-Stichprobenfall führt wieder auf die Teststatistiken von 3.1, während für die LQ-Tests für Kovarianzmatrizen in 3.2 keine Ul-Varianten existieren. Weitere Testprobleme, bei denen beide Prinzipien auf unterschiedliche Teststatistiken führen, werden z.B. in der multivariaten Regressions- und Varianzanalyse (Kap. 4, 2.3 und Kap. 5, 4) behandelt. Die Bedeutung des Union-Intersection-Prinzips liegt nicht zuletzt darin, daß es zur Konstruktion von simultanen Konfidenzintervallen herangezogen werden kann. Wir wollen dies für das simultane Konfidenzintervall (3.8) für μ zeigen. Die Teststatistik für H 0 a : μ» = μο„ wäre bei unbekannter Kovarianzmatrix statt ζ\ in (4.15) 11 = Na' (χ - μ0) (χ - μ0)' a/a' Sa,
92
Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme
und max t j = N ( x - ftO'S"1 (χ - μ0) = Τ 2
(vgl. 3.5).
3Φ0
Wegen (3.6) gilt also für μ = μ0
[(N-l)p
maxta2^F(p,N-p;l-«)[ = J a+ o
= p! N ~ P t , ^ F ( p , Ν — ρ; 1 — α) (.(Ν ~ 1)P
für alle a * o i = 1 - α J
(4.19)
und damit (3.8) und (3.9). Durch den Zusammenhang von Konfidenzintervallen und Tests wird nochmals klar, daß bei Ablehnung von H 0 : μ = μ0 mindestens eine Linearkombination a' μ0 nicht im entsprechenden simultanen Konfidenzintervall (3.8) liegt. Weitere Anwendungen des UI-Prinzips zur Konstruktion von simultanen Konfidenzintervallen finden sich in der Regressions- und Varianzanalyse. Durch (4.19) bzw. (3.8) werden (1 — α)-Vertrauensintervalle für Λ'Μ angegeben, die simultan für alle a e R p gelten. Interessiert man sich nur für einige wenige Vertrauensintervalle für Linearkombinationen &\μ,..., a' k /j oder speziell für einige der Komponenten, etwa μι,..., /zk, k ^ p, so ist es einfacher und günstiger simultane Vertrauensintervalle nach der Bonferroni-Methode zu konstruieren. Sei dazu allgemein E i ; i = 1 , . . . , k das Ereignis, daß das i-te Vertrauensintervall den unbekannten Parameter überdeckt und seien otj = 1 — P(Ej) die individuellen Signifikanzniveaus. Wenn wir mit E; das Komplementärereignis bezeichnen, dann gilt k
Ρ(Π EJ = 1 -P(Ü Ed* 1 - i =Σl Ρ (Ei) = 1 i-- 1 Σ «i, i=l i=l
(4.20)
so daß 1 — Σ a i e i n e untere Schranke für die tatsächliche Sicherheitswahrscheinlichkeit
1 - 3 = Ρ(Π EJ ist. Wählt man
= α/k, so ergibt sich
P(i=l Π Ε;) ^ 1 — a.
(4.21)
Diese untere Schranke ist keineswegs so schlecht, falls k nicht zu groß und α/k klein genug ist (Miller 1966, S. 6). Dann liefert die Bonferroni-Methode kürzere Vertrauensintervalle als die auf dem UI-Prinzip (oder der damit verwandten S-Methode von Scheffe) basierende Konstruktion simultaner Vertrauensintervalle für die Komponenten μ·„ i = 1 , . . . , ρ des Erwartungswerts μ in Abschnitt 3.1 an, so ergibt sich (3.7). Es sei hier nur noch bemerkt, daß das Bonferroni-Prinzip auch zur Konstruktion simultaner Testverfahren verwendet werden kann (Holm 1979, Sonnemann 1981).
Kapitel 4 Regressionsanalyse Ludwig Fahrmeir, Heinz Kaufmann und Christian Kredler
Die in diesem Kapitel behandelte lineare und nichtlineare Regressionsanalyse mit einer (oder mehreren) metrischen abhängigen Variablen gehört zu den bekanntesten Verfahren der multivariaten Statistik. Dies trifft in besonderem Maß auf die univariate lineare Regressionsanalyse zu, die außer in einer umfangreichen Spezialliteratur auch - in ihren Grundzügen - in einigen einführenden Lehrbüchern behandelt wird. Wir beschränken uns deshalb auf eine relativ knappe Darstellung. So wurden etwa Beweise weggelassen oder verkürzt und lineare Modelle mit vollem Rang vorausgesetzt, um auf verallgemeinerte Inversen verzichten zu können. Dagegen wurden andere Aspekte betont, insbesondere Variablenselektion und nichtparametrishe Regression. Für ausführliche Darstellungen der univariaten linearen Regressionsanalyse sei etwa auf Draper/Smith (1966), Schach/Schäfer (1978), Searle (1971), Seber (1977, mit einer ausführlichen Behandlung algorithmischer und numerischer Probleme), Krämer/Sonnberger (1986, unter besonderer Berücksichtigung modelldiagnostischer Verfahren) und Toutenburg (1992) verwiesen, sowie auf Lehrbücher der Ökonometrie, etwa Schönfeld (1969, 1971), Schneeweiß (1990) und Judge/Griffiths/Hill/Lütkepohl/Lee (1985). Die multivariate lineare Regression ist in den jeweiligen Kapiteln bei Anderson (1958), Mardia/Bibby/Kent (1979), Press (1972, mit Bayes-Verfahren), Timm (1975), Seber (1984), Johnson/Wichern (1992) und Jobson (1992) dargestellt. Für die nichtlineare Regression sei insbesondere auf Seber/Wild (1989), Bates/Watts (1988) und Gallant (1987) verwiesen, für nichtparametrische Regressionsmethoden auf Härdle (1990, 1991), Hastie/Tibshirani (1990) und Green/Silverman (1994).
1. Univariate lineare Regression Wir nehmen an, daß zwischen einer Variablen y und ρ weiteren Variablen x l 5 . . . , x p eine lineare Beziehung der Form y = ß0 + ßi*i + ... + βρχρ + ε,
Ε(ε) = 0
besteht. Dabei ist ε eine Fehlervariable (auch Störvariable), deren Wert nicht gemessen (beobachtet) werden kann. Die ßj, j = 0 , . . . , ρ sind unbekannte Modellparameter. Die Variable y wird oft als abhängige Variable (auch Zielvariable, endogene Variable, Regressand) bezeichnet, x , , . . . , x p als unabhängige Variablen (auch ex-
94
Kapitel 4 Regressionsanalyse
ogene Variablen, Regressoren). Für ρ = 1 spricht man von linearer Einfachregression, für ρ > 1 von multipler linearer Regression. Für die abhängige Variable y wird, wie im ganzen Kapitel 4, vorausgesetzt, daß sie metrisch ist. Regressionsmodelle mit kategorialen abhängigen Variablen werden im Kapitel 6 behandelt. Die Regressoren können dagegen metrisch oder kategorial sein. Bei metrischen Regressoren wird es in praktischen Anwendungen oft nötig sein, eine ursprüngliche erhobene Variable, etwa z, geeignet in χ = f(z), ζ. Β. χ = ζ 2 , log ζ, usw., zu transformieren, so daß dann nicht ζ sondern die transformierte Variable χ linear in den Regressionsansatz eingeht. Kategoriale Regressoren mit k geordneten oder ungeordneten Kategorien 1,..., k werden durch einen Vektor von m = k-1 „Dummy· Variablen" x ( 1 ) ,..., x(m) kodiert. Benützt man 0-1 Dummy-Variablen, so spricht man auch kurz von Dummy-Kodierung. Dabei ist x(l) durch
i
l
,
falls Kategorie i beobachtet wird
i = l,...,m 0 , sonst definiert. Falls die k-te Kategorie, die Referenzkategorie, beobachtet wird, so haben die m Dummy-Variablen den Wert 0. Ein gebräuchliches alternatives Kodierungsschema ist die Effekt-Kodierung, die in der Varianzanalyse (Kap. 5) bevorzugt wird. Dann ist x(1) durch l , falls Kategorie i vorliegt — 1 , falls Kategorie k vorliegt i = 1 , . . . , m 0 definiert. Die Referenzkategorie k ist dann durch den Vektor (— 1,..., — 1) kodiert. Andere Kodierungsarten können für Interpretationszwecke nützlich sein, werden aber hier nicht betrachtet. Zu beachten ist auch, daß nichtlineare Beziehungen zwischen der abhängigen Variablen und den Regressoren etwa y = exp(ß 0 + β,χ)ε durch geeignete Transformationen in die Form eines linearen Modells, etwa lny = ß0 + + In ε, gebracht werden können. Ausführliche Darstellungen zu Transformationen in der Regression finden sich bei Atkinson (1985) und Carroll/Ruppert (1988). Im weiteren gehen wir davon aus, daß eventuell notwendige Kodierungen und Transformationen bereits so erfolgt sind, daß ein linearer Regressionsansatz eine geeignete Modellierung der Datensituation darstellt. Werden die Werte xj5 j = 1,..., p, N-mal variiert, dann ergeben sich die Werte
i
y„ = 0o + 0 i X „ i + 0 2 X n 2 + •·• +βΡΚΡ
+ εη,
η = 1, . . . , Ν .
(1.1)
Dabei sind x nj , yn die n-ten beobachteten Werte von Xj, y und εη die dazugehörigen nicht beobachteten Fehler mit Ε(ε„) = 0. Führt man eine Scheinvariable x 0 mit x n0 = 1 ein, so läßt sich (1.1) mit
1. Univariate lineare Regression
95
in Matrixschreibweise formulieren: y = Xß + ε,
(1.2)
Ε (ε) = 0.
Folgende Problemstellungen sind - neben anderen - von Interesse: - Wie groß ist der Einfluß der berücksichtigten unabhängigen Variablen? Dazu muß β aus den Daten geschätzt werden. - Besitzen diese Variablen überhaupt einen signifikanten Einfluß, d. h. tragen sie zur Erklärung der Variation der Zielvariablen bei? Dazu müssen die Fehlervarianz geschätzt und Tests durchgeführt werden. - Welche Variablen aus einer Menge von potentiellen unabhängigen Variablen sollen berücksichtigt werden (Variablenselektion). - Prognose von y für neue Werte χ = ( x t , . . . , xp)'. 1.1 M o d e l l e d e r l i n e a r e n R e g r e s s i o n s a n a l y s e Je nach den Annahmen über y, Χ, β, ε erhält man verschiedene Modelle. Klassisches und allgemeines lineares Modell y: beobachtbare Zufallsvariable, metrisch. X: beobachtbare deterministische Variablen, d. h. Variablen, die systematisch oder „kontrolliert" variiert werden können. Insbesondere ist - zumindest gedanklich - die zur Häufigkeitsinterpretation notwendige Wiederholung des Zufallsvorgangs möglich, da die Regressoren konstant gehalten werden können. ß: fester, unbekannter Parametervektor. ε: nicht beobachtbare Zufallsvariable mit Ε (ε) = 0 und cov(ε) = σ2Ι,
d.h.
var(e n ) = σ 2 ,
cov(em, εη) = 0,
m + η,
(1.3)
für das klassische lineare Modell, cov (ε) = σ 2 Σ
(1.4)
für das allgemeine lineare Modell, σ 2 ist dabei ein weiterer, i.a. unbekannter Modellparameter, Σ wird manchmal als bekannt vorausgesetzt, kann aber auch unbekannte Modellparameter enthalten. Die Eigenschaft gleicher Varianz σ2 der Fehlervariablen εη in (1.3) wird auch als Homoskedastizität bezeichnet. Σ in (1.4) besitzt oft eine spezielle Struktur. Ist ζ. Β. Σ diagonal, aber φ I, so spricht man von Heteroskedastizität. Im Fall von Zeitreihendaten, bei denen also n = l , . . . , N aufeinander folgende Zeitpunkte sind, kann oft die Annahme cov(em, en) = 0 der Unkorreliertheit der Fehlervariablen verletzt sein. Läßt sich die Folge der (korrelierten) Fehlervariablen durch einen stochastischen Prozeß bestimmten Typs, etwa durch einen autoregressiven Prozeß, modellieren, so führt dies zu einer speziell strukturierten Fehlerkovarianzmatrix Σ. Für Tests und Vertrauensbereiche treffen wir die zusätzliche Annahme ε ist normalverteilt.
(1.5)
96
Kapitel 4 Regressionsanalyse
Aus (1.3), (1.4), (1.5) folgt Ε (y) = X/?, γ~~Ν(Χβ,σ2ΐ)
cov (y) = co ν (ε) = σ 2 1 bzw.
bzw.
= σ2 Σ,
y ~Ν(Χ/},σ2Σ).
(1.6) (1.7)
Die Annahme, daß X deterministisch ist, trifft für geplante Experimente zu, bei denen die Variablen Meßstellen oder Versuchsbedingungen repräsentieren. X heißt dann oft Design-Matrix. X ist ebenfalls deterministisch, wenn die Regressoren Zeitfunktionen sind, die einen Trend und/oder saisonale Schwankungen der abhängigen Variablen beschreiben sollen, wie das in einigen Zeitreihenmodellen der Fall ist (z.B. Fahrmeir/Kaufmann/Ost 1981, Kap. 8). In vielen anderen Situationen, vor allem im wirtschafts- und sozialwissenschaftlichen Bereich, muß jedoch davon ausgegangen werden, daß neben y auch die Regressoren x 1 , . . . , x p Zufallsvariablen sind.
Lineares Modell mit stochastischen Regressoren Man geht nun von der Vorstellung aus, daß X eine Zufallsmatrix ist und etwa aus Ν Beobachtungen des Zufallsvektors χ = (x 1; ...,x p )' resultiert. Die Verteilung von y läßt sich dann prinzipiell aus der gemeinsamen Verteilung von X und ε über die Modellannahme (1.2) bestimmen. Die größte Vereinfachung bringt die Annahme (1.8)
ε und X sind stochastisch unabhängig.
Die Bedingung (1.8) ist etwa erfüllt, falls (y, x x , . . . , x p ) gemeinsam normalverteilt sind: Ist β der Vektor der theoretischen Regressionskoeffizienten von Kap. 2, dann prüft man leicht nach, daß für Ν unabhängige Beobachtungen von y und χ mit ε = y — Xß die Annahme (1.8) erfüllt ist. Äquivalent zu (1.8) ist die Forderung, daß die bedingte Verteilung von ε nicht von X abhängt. Daraus folgen die schwächeren Annahmen Ε(ε|Χ) = 0,
cov (ε | X) = σ 2 1
bzw.
=σ2Σ.
(1.9)
Die Ergebnisse dieses Kapitels für das klassische lineare Modell gelten auch bedingt, d.h. bei gegebenem X, falls man die Annahmen (1.9) trifft. Eine diesen Annahmen und daraus resultierenden „bedingten" Ergebnissen entsprechende Stichprobensituation ist ζ. B. gegeben, falls der Wertebereich der Regressoren so in Schichten zerlegt werden kann, daß eine Zeile von X eine derartige Schicht repräsentiert, und falls die Anzahl der Versuche pro Schicht geeignet gesteuert und wiederholt werden kann. Diese Voraussetzung ist in der Praxis seltener erfüllt. Meist werden nämlich (y n , x n ) simultan an den „gezogenen" Objekten beobachtet (vgl. auch die verschiedenen Stichprobensituationen in der Diskriminanzanalyse, Kap. 8). Dann gelten Ergebnisse, die Verteilungsaussagen beinhalten, nicht ohne weiteres für die (unbedingte) gemeinsame Verteilung von (y n , x n ), η = 1 , . . . , N. Eine ausführlichere Beschreibung der zugehörigen Theorie findet sich bei Schönfeld (1971, Kap. 8) und Goldberger (1964, ch. 6). Wir wollen hier nur an geeigneten Stellen, wie bei den Sätzen
1. Univariate lineare Regression
97
1.1, 1.2, 1.3 und im Zusammenhang mit Tests und Vertrauensintervallen, auf Gemeinsamkeiten oder Besonderheiten im Vergleich zum klassischen linearen Modell hinweisen. Modelle mit Fehlern in den Variablen Ist nicht nur die Messung der abhängigen Größe, sondern auch der Regressoren mit Meßfehlern behaftet, so gelangt man zum folgenden Modell: Es soll y = Xß gelten, jedoch können nur y* = y + ν, X* = X + W beobachtet werden, wobei v, W unbeobachtbare Fehler sind. Dadurch verkomplizieren sich die Verhältnisse ganz erheblich, siehe z.B. Schach/Schäfer (1978), Schneeweiß (1971, Kap.7), Schneeweiß/Mittag (1986), Fuller (1987), Carroll/Rupert/Stefanski (1995). Es sei auf den Zusammenhang mit der Methode der „orthogonalen" kleinsten Quadrate hingewiesen (Schach/Schäfer 1978, S. 161, für ρ = 1, Golub/van Loan 1979, für ρ > 1). Modelle mit stochastischen Parametern Das klassische Modell wird dahingehend verallgemeinert, daß β stochastisch, aber unabhängig von ε ist. Dabei geht man von der Vorstellung aus, daß zu jeder Realisierung yn eine Realisierung ßn gehört, wie es etwa in einer bezüglich β heterogenen Population der Fall sein wird, wenn yn der Wert der abhängigen Variablen für die n-te Person ist. Solche Modelle mit zufälligen Effekten werden von Swamy (1971), Hsiao (1986), Rao/Kleffe (1988), Dielman (1989), Jones (1993), Lindsey (1993) behandelt. Bei Zeitreihendaten liegt es eher nahe, daß β zeitlich stochastisch variiert. Eine geeignete Modellklasse sind die Zustandsraummodelle aus der linearen Kalman'schen Filtertheorie (siehe z.B. Sage/Melsa 1971 oder Fahrmeir u.a. 1981, Kap. 8 und die dort aufgeführte Literatur, Fahrmeir 1981).
1.2 Schätzen im klassischen und allgemeinen linearen Modell Gewöhnliche Kleinst-Quadrat-Schätzung Gesucht sind Schätzwerte für die Parameter β, σ 2 unter den Annahmen (1.3) des klassischen linearen Modells. Für manche Aussagen wird zusätzlich ε - und damit y - als normalverteilt angenommen. Zur Schätzung von β verwenden wir die K(leinst)-Q(uadrat)-Methode. Sie besteht darin, einen KQ-Schätzer β für β so zu bestimmen, daß die Summe der Fehlerquadrate minimal wird: Ν Σ e2„=E'8 = η= 1
{y-XßY(y-Xß) -> min. ß
(1.10)
Jeder minimierende Wert β erfüllt die Normalgleichungen (X'X)ß = X'y.
(1.11)
98
Kapitel 4 Regressionsanalyse
Beweis. Differenzieren und Nullsetzen der Ableitungen. Falls X vollen Rang hat, geht es auch so: β genüge (1.11). Dann ist (y - Xß)' (y - X ß ) = (y-Xß+X(ß-ß))'
(y-Xß+X(ß-
= (y - Xß)'(y - X ß ) +
ß)) =
(ß-ß)'X'X(ß-ß),
da 2(ß— ß)'X'(y - X/f) = 0 wegen (1.11). Die rechte Seite wird wegen X'X > 0 minimal für β = β. u Wir treffen nun für dieses Kapitel die Vereinbarung. Die Regressormatrix X soll vollen Rang haben, d. h. rg(X) = ρ + 1. Nur dann sprechen wir von Regressionsanalyse. Notwendigerweise muß also Ν ϊ ; ρ + 1 sein. (Der Fall r g ( X ) < p + l im linearen Modell (1.2) wird ζ.T. in der Varianz- und Kovarianzanalyse auftreten.) Mit dieser Vereinbarung ist auch rg(X'X) = ρ + 1 und damit können die Normalgleichungen (1.11) eindeutig aufgelöst werden. Dies ergibt den KQ-Schätzer β = (X'X)_1X'y
(1.12)
für den unbekannten Parametervektor ß. Die Abweichungen zwischen den tatsächlichen Werten y = (y l t . . . , yN)' und den geschätzten Werten y= X
ß
,
n
)
=
(Xi£...,Xn^)
bezeichnet man als Residuen, den Vektor e = (ei,...,eN)' = y - y
(1.13)
als Residuenvektor. Die Residuenquadratsumme Qe = Σ en = e'e = (y - y)'(y - y) n=l
(1.14)
ist das für β = β angenommene Minimum in (1.10) und ist ein Maß dafür, wie gut die Variabilität der y-Werte durch die Regressoren erklärt wird. Sie wird oft mit RSS (residual sum of squares) bezeichnet und mit der idempotenten Matrix Ρ = I-XtX'X)"^' gilt Qe = y'Py· Als Schätzer für σ2 verwendet man die gemittelte Residuenquadratsumme P
=
N - p - l
(y
~ *X(y ~
= Qe/(N
~
P
~
1}
'
(1 15)
·
1. Univariate lineare Regression
99
Die Eigenschaften der Schätzfunktionen β und σ2 fassen wir zusammen in
Satz 1.1. Gauß-Markov-Theorem. Es gelte das klassische lineare Modell γ = Χβ + ε mit
E(y) = \ß,
cov(y) = a 2 I .
Dann folgt a) E(ß) = ß, d.h. der KQ-Schätzer ist unverzerrt, b) co\(ß) = σ 2 (Χ'Χ) _ 1 , c) β ist bester linearer unverzerrter Schätzer (BLUE), d.h. unter allen linearen unverzerrten Schätzern der Form β = Ay mit E(/f) = β besitzt β minimale Varianz: Var(ft) ^ Var(ß),
i = 0,...,p,
(1.16) p
bzw. allgemeiner gilt für jede Linearkombination c' ß,ceR var(c'/J) 2
2
+1
,
var(c'/T),
(1.17)
2
d) Ε (σ ) = σ , d. h. σ ist unverzerrt. Bemerkung. Im Fall stochastischer Regressoren gelten a) und d) weiterhin, b) muß zu cov (β) = σ2 Ε {(Χ' X)" 1 } modifiziert werden. Da β bei stochastischen Regressoren nicht mehr linear in den Zufallsvariablen ist, geht die BLUE-Eigenschaft von c) verloren. Beweis, a) E(ß) = E K X ' X ^ X ' y ] = Ε[(Χ'Χ)" 1 Χ'(Χ/Ϊ + «)] = β + (Χ'Χ) _ 1 ΧΈ(ε) = β. b) co\(ß) = (Χ'Χ" 1 )Χ'(σ 2 Ι)Χ(Χ'Χ)- 1 = σ 2 ( Χ ' Χ Γ ' nach (1.12) wegen cov(y) = σ 2 Ι. c) Wir zeigen gleich (1.17), da sich (1.16) daraus durch die Wahl c' = (0,..., 1,..., 0) mit 1 an der i-ten Stelle ergibt. Wegen E(ß) = AE(y) = AXß muß ΑΧ = I gelten, damit E(ß) = ß, d.h. die geforderte Unverzerrtheit, gilt. Weiter ist var(c'/T) = var(c'Ay) = var(c'Ae) = ff2c'AA'c', und \ai(c'ß) = a 2 c ' ( \ ' X ) _ 1 c nach b). Es genügt also zu zeigen, daß AA' — (Χ' X ) - 1 positiv semidefinit ist. Dies folgt aus AA' - (X'X)- 1 = [A - (X'X)" 1 X'] [A - (X'X)" 1 X']' (beachte ΑΧ = I). d) Ε (Qe) = Ε [y' (I - Χ (Χ' X)" 1 X') y] nach (1.14). Wegen Kap. 2, (2.15) mit. A = I - X ( X ' X ) ' 1 Χ', Σ = σ 2 Ι, μ = Xß ergibt sich nach kurzer Rechnung Ε (Qe) = tr (σ 2 (I - Χ (Χ' X)" 1 X')) = {tr (I) - tr (Χ (Χ' X)" 1 Χ')} σ 2 . Da I eine Ν χ N-Einheitsmatrix ist, erhalten wir tr(I) = N. Wegen tr(X(X'X)~ 1 X') = tr (X'X (X'X)" 1 ) = tr(I p + 1 ) = ρ + 1 erhalten wir schließlich E(Qe) = (Ν — ρ — 1)σ
2
und
Ε(σ 2 ) = σ 2 .
•
Zum Teil c) des Satzes ist folgendes zu bemerken: Zur „Konkurrenz" sind nur andere in y lineare und unverzerrte Schätzer zugelassen (Ist y allerdings normalver-
100
Kapitel 4 Regressionsanalyse
teilt, so ist /J besser als alle anderen (linearen und nichtlinearen) unverzerrten Schätzer). Es ist also sowohl sinnvoll nach verzerrten Schätzern zu suchen, die bezüglich des erwarteten quadratischen Fehlers (2.20, Kap. 3) besser sind, als auch nach sogenannten robusten Schätzern, die nichtlinear sind und unempfindlich auf Verletzungen der Normalverteilungsannahme reagieren. Wir gehen weiter unten auf derartige Schätzer kurz ein. In Satz 1.1 wurden keine Verteilungsannahmen benötigt. Unter der Normalverteilungsannahme (1.5) gilt eine Reihe weiterer Aussagen. Zunächst bemerken wir, daß der KQ-Schätzer β dann auch ML-Schätzer ist. Wegen y ~ Ν(Χ/ί, σ 2 Ι) ergibt sich sofort, daß die log-Likelihood-Funktion maximiert wird, wenn (y — Xß)'(y — Xß) minimiert wird. Weiter gilt:
Satz 1.2. Verteilungseigenschaften der Schätzer. Es gelte ε ~ N(0, σ 2 Ι). Dann folgt: a)
y = Xß + ε
mit
N p + 1 (/J, σ^Χ'Χ)" 1 ),
b)(ß-ß)'X'X(ß-ß)/a2~x2(p+l), c) β ist unabhängig von 0, j = 0 , . . . , p. Es existieren also S _ 1 und X+ = V S _ 1 U ' .
(1.27)
Schließlich erhalten wir
ß
=x+y
Qe = y ' ( I - X X + ) y
(1.28)
(Χ'Χ)" 1 = V S " 2 V ' .
(1.29)
und
Verzerrte Schätzer Das Gauß-Markov-Theorem besagt, daß innerhalb der Klasse der unverzerrten Schätzer der KQ-Schätzer β bester linearer bzw. bei Normalverteilungsannahme überhaupt bester Schätzer ist. Daraus folgt, daß die Varianz der Komponenten minimal oder anders geschrieben Ε {(β — β)'(β — β)} minimal ist. Wie schon oben bemerkt, ist es aber durchaus sinnvoll, nach verzerrten Schätzern β zu suchen, die einen kleineren erwarteten quadratischen Fehler besitzen, bzw. für die etwas allgemeiner mit einer festen, positiv definiten Matrix D gilt: E{(ß-
ß)'D(ß -ß)}^E
{(ß - ß)'D(ß -
ß)}.
Am bekanntesten und ältesten dürften Schätzer vom Ridge- und vom Stein-Typ sein. Ridge-Schätzer ßk sind definiert durch ßk = (X'X + kl)~1X'y
(0gk 0 gibt, für die ßk im obigen Sinn besser als β ist. Außerdem liegt ein weiterer Vorteil darin, daß durch geeignete Wahl von k numerische Probleme, die bei schlecht konditionierten, „fast" singulären Matrizen X'X auftreten, vermieden werden können. Für Einzelheiten, ζ. B. zur Wahl von k, und für zahlreiche Literaturhinweise zur Ridge-Regression sei auf Vinod (1978) und Trenkler (1981) verwiesen. Einfache Stein-Schätzer oder geschrumpfte Schätzer sind vom Typ βλ = λβ
(0 t(N — p — 1; 1 — α/2). F = t 2 wird im Gegensatz zum Overall-F-Wert (1.38) als partieller F-Wert bezeichnet und in den meisten Programmpaketen, etwa in SPSS oder BMDP, zusammen mit ßj und ffj/a^ ausgedruckt. Die allgemeine lineare Hypothese Die linearen Hypothesen (1.37), (1.39) und eine Vielzahl anderer linearer Hypothesen über die Parameter lassen sich alle als Spezialfall folgender allgemeinen linearen Hypothese auffassen: H o : C 0 = £,
H j : C / f φ ξ.
(1.41)
1. Univariate lineare Regression
111
Dabei ist C eine s χ (ρ + 1)-Matrix mit rg(C) = s, ξ ein s-Vektor. Die Annahme rg(C) = s bedeutet nur, daß die Hypothese durch linear unabhängige Funktionen von β beschrieben wird, stellt also keine weiter einschränkende Annahme dar. Es gelte das klassische lineare Modell unter der Normalverteilungsannahme und β sei der übliche KQ-Schätzer, Q e = e'e = (Ν — ρ — 1)σ 2 die Residuenquadratsumme. Wir bestimmen zunächst die Lösung ß0 von (y-Xß)'(y-Xß)
-
min ß
unter der Nebenbedingung Cß = ξ der Nullhypothese. Nach der Methode der Lagrange-Multiplikatoren ist dies äquivalent zur Minimumbestimmung von
bezüglich β und λ. Partielle Differentiation und Nullsetzen liefert 2 ist ein derartiges Ellipsoid jedoch unpraktikabel. Günstiger ist dann die Angabe von simultanen Vertrauensintervallen. Diese können wie bei der Konstruktion simultaner Vertrauensintervalle für den Erwartungswert einer Multinormalverteilung nach der Bonferroni-Methode oder nach der auf dem Union-Intersection-Prinzip beruhenden S-Methode von Scheffe konstruiert werden (Schach/Schäfer 1978 S. 84ff., Seber 1977 S. 128ff.)· Für den Fall, daß man nur simultane Vertrauensintervalle für die Regressionsparameter und nicht für eine große Zahl von Linearkombinationen a' β sucht, liefert die Bonferroni-Methode kürzere Intervalle. Wir zeigen noch, wie simultane Konfidenzintervalle nach dem UI-Prinzip gewonnen werden können. Es gilt max »*o a (XX)
= (β-β)'Χ'Χ(β-β)
(A.15.11)
a
und damit simultan für alle a 'l*'(ß-ß)V\ / / ( p + l)Qe\ (ß-ß)'X'X(ß-ß) _1 —p — l y — Qe va'(X'X) ay /
N - p - 1 p+ 1
=
Nach Satz 1.2 ist F ~ F(p + 1, Ν - ρ - 1). Damit ergibt sich P{a'/? — c a
a'/J
a'/? + c a
für alle a} = 1 - α
(1.51)
mit
1/2 c
« = [N -M p - 1
a
' ( x ' x ) " l a F ( P + 1, Ν - ρ - 1; 1 - α)
Bemerkung: Im Fall stochastischer Regressoren gilt unter der bedingten Normalverteilungsannahme ε | Χ ~ Ν ( 0 , σ 2 Ι) (1.50) zunächst bedingt: P(A|X) := P ( | f t -
^ σ / ^ t (Ν - ρ - 1; 1 -
|X) = 1 - α.
Ist F (X) die Randverteilung von X, so ergibt sich nach dem Satz von der totalen Wahrscheinlichkeit P(A)
f P ( A | X ) d F ( X ) = f ( l - a ) d F ( X ) = 1 - α.
Damit folgt, daß die Konfidenzniveaus (und Signifikanzniveaus der entsprechenden Tests) auch unbedingt eingehalten werden. Punkt- und Bereichsprognose Ist x 0 ein weiterer Beobachtungswert, so kann die geschätzte Regressionsgleichung zur Prognose von y0 =
x'0ß + ε 0
116
Kapitel 4 Regressionsanalyse
benutzt werden. Als Schätz- oder Prognosewert
für y 0 wählt man
y0 = x'oß> so daß für den gilt:
Prognosefehler
e 0 = y 0 - y 0 = e 0 + A i ß - ß) Ε (e 0 ) = 0,
var (e 0 ) = σ 2 (1 + x'0 (Χ' X ) " 1 x 0 ) ,
und unter Normalverteilungsannahme ist e 0 normalverteilt und unabhängig von σ 2 . Dann ergibt sich in der üblichen Weise (y 0 - y 0 )/ffi/l+x'o(X'X) _ 1 Xo ~ t(N - ρ - 1) und das (1 —
a)-Prognoseintervall
p |y 0 - *|Λ + x ' o ( X ' X ) ^ x 0 t ( N - p - 1; 1 g^o + V 1 + * , o ( X ' X r 1 * o t ( N - p - l ; l - | ) J = 1 - a .
(1.52)
Modellüberprüfung (diagnostic checks) Für die sorgfältige Beantwortung der Frage nach der Adäquatheit eines gewählten Modells ist die Ermittlung des Bestimmtheitsmaßes oder der Wert der F-Statistik des Overall-Tests allein nicht ausreichend. Sind für wenigstens einen Beobachtungsvektor mindestens zwei y-Werte beobachtet worden, so kann der Linearitätstest von Fisher (Heinhold/Gaede 1979) durchgeführt werden, um die Grundannahme der Linearität des Ansatzes zu überprüfen. Eine andere Möglichkeit besteht darin, für kleinere Gruppen von Beobachtungen, für die die Linearität gewährleistet scheint, getrennte lineare Regressionsansätze aufzustellen und dann auf Gleichheit der Regressionsansätze zu testen. Mit Hilfe einer Residuenanalyse können schlecht gefittete y-Werte und insbesondere Verletzungen der Annahmen bezüglich der Störvariablen e gefunden werden, ζ. B. Verletzung der Homoskedastizität, und es kann die Konstanz des Regressionsansatzes (genauer: die Konstanz der Parameter) für die ganze Stichprobe überprüft werden. Viele dieser Verfahren sind graphisch, beruhen also auf einer visuellen Inspektion der Residuen (oder daraus abgeleiteter modifizierter Residuen). Die Grundidee besteht darin, daß Verletzungen der Annahmen bezüglich ε sich im Verhalten von e widerspiegeln müssen. So läßt sich unter den Voraussetzungen des klassischen linearen Modells mit
Ε (e) = 0,
cov (e) = σ 2 Ρ,
cov (y, e) = 0
Ρ = I - Η = I - X(X'X)- l X',
p nn Diagonalelemente von P,
(1.53)
und unter Normalverteilungsannahme en ~ N(0, σ 2 ρ η η ) zeigen (e = Py selbst ist singulär normalverteilt, da rg(P) = Ν — ρ — 1).
1. Univariate lineare Regression
117
Neben den Residuen en werden auch modifizierte Versionen verwendet, ζ. B. standardisierte Residuen e* = e n / j / p ^ . Mittels der Residuen lassen sich mögliche Abweichungen zwischen Modell und Daten aufdecken. Dabei geben graphische Verfahren oft mehr Information als formelle Testverfahren. Übliche Residuenplots sind etwa: Häufigkeitsverteilung der Residuen, normale Wahrscheinlichkeitsplots („normal probability plot"), Plots der Residuen gegen die gefitteten Werte yn = \'nß und gegen die Regressoren. Einen Überblick zu derartigen graphischen Verfahren geben Draper/Smith (1966), Seber (1977), Cook/Weisberg (1982) und Chatterjee/Hadi (1988). Neben den graphischen Verfahren existieren Tests, die auf (modifizierten) Residuen aufbauen, siehe dazu etwa Brown/Durbin/Evans (1975), Hackl (1980), Krämer/Sonnberger (1986) Ploberger/Krämer (1992). Eine andere Möglichkeit, Verletzungen der Annahmen zu überprüfen, besteht darin, den Einfluß der n-ten Beobachtung (y„, xn) auf die Schätzung zu messen. Sei ß(n) der KQ-Schätzer bei Weglassen der n-ten Beobachtung. Es gilt ß — ß(n) = (Χ' X ) ~ 1 X n e n/Pnn ·
(1-54)
Der Beitrag der n-ten Beobachtung zur Residuenquadratsumme ist durch Qe-Qe(„) = en2/pnn
(1.55)
gegeben. Als Indikator für den Einfluß der n-ten Beobachtung auf die Schätzung β dient z.B. die Cook-Distanz ( ß - ß(niy(X'X)(ß - ßlni) (ρ + 1)σ 2
=
(y - y (n) )'(y - y(n)) 2 (Ρ + Ι)σ '
wobei y(n) = X/J(n) der Vektor gefitteter Werte nach Weglassen der n-ten Beobachtung ist. Je größer c ; ausfällt, desto stärker ist der Einfluß der n-ten Beobachtung auf die KQ-Schätzung. Eine zentrale Rolle zur Beurteilung des Einflusses der Beobachtungen xn auf Schätzung und Fit spielt die Hatmatrix Η = X(X'X)" 1 X' = I - P. Es gilt y = Hy und damit für die n-te Komponente yn = h„„y„ + Σ h nm y m . mΨη
Damit bestimmt das Diagonalelement h nn von Η den Einfluß der Beobachtung yn auf y n . Beobachtungen mit großem hnn heißen high leverage points. Als Faustregel wird vorgeschlagen: Ist h nn > 2(p + 1)/N, dann übt der n-te Beobachtungsvektor xn extremen Einfluß auf Schätzung und Fit aus. Für eine ausführliche Diskussion der hier nur skizzierten Ansätze sei u.a. auf Andrews (1971), Gentleman/Wilk (1975), Belsley/Kuh/Welsch (1980), Cook/Weisberg (1982), Chatterjee/Hadi (1988) und Toutenburg (1992, Kap. 7) verwiesen. Über die erwähnten modelldiagnostischen Verfahren hinaus gibt es noch eine Reihe von formalen Tests, mit denen überprüft werden kann, ob bestimmte Mo-
118
Kapitel 4 Regressionsanalyse
dellannahmen verletzt sind. Dazu gehören etwa: der Breusch-Pagan-Test auf Heteroskedastizität, der Durbin-Watson-Test zum Test auf Autokorrelation. Daneben existieren allgemeine Misspezifikationstests, bei denen keine spezifische Alternative gegeben ist. Dazu zählen der Hausman-Test und der Informationsmatrix-Test von White. Wir verweisen etwa auf Krämer/Sonnberger (1986), Judge u.a. (1985).
1.4 Variablenselektion Am verhältnismäßig einfachen Fall der linearen Regressionsanalyse soll dieses Problem etwas ausführlicher erläutert werden, um ähnliche Fragestellungen im Zusammenhang mit der Diskriminanzanalyse, loglinearen Modellen, verallgemeinerten linearen Modellen usw. etwas straffer behandeln zu können. Im Regressionsansatz (1.1) wird der Zusammenhang zwischen einer abhängigen Variablen y und unabhängigen Variablen x 1; x 2 , . . . beschrieben. Da die unabhängigen Variablen bei vielen Beispielen von vornherein nicht bekannt sind, erhebt man zunächst so viele Einflußgrößen wie möglich und hofft, daß unter diesen diejenigen sind, durch die y möglichst gut erklärt wird. Es leuchtet ein, daß man nicht zu wenige erklärende Variablen verwenden soll, da sonst wesentliche Information unberücksichtigt bleibt. Mit wachsender Zahl der Einflußgrößen läßt sich die Residuenquadratsumme als Maß für die Anpassung immer mehr verkleinern. Deswegen ist es auf den ersten Blick nicht klar, daß zu viele Variable nicht wünschenswert sind. Gegen eine Vielzahl von Variablen sprechen jedoch Schwierigkeiten bei der Datenerhebung (eine Testperson wird eher bereit sein, 5 anstatt 50 Fragen zu beantworten), Kostengründe (falls die Datenerhebung langwierig ist oder falls das Versuchsobjekt bei der Bestimmung des Merkmals zerstört wird, wie etwa bei der Ermittlung der Bruchfestigkeit von Beton oder der Elastizität von Stahl). Gegen zu viele Variablen sprechen aber vor allem statistische Gründe, auf die nun näher eingegangen wird. Zunächst betrachten wir den Modellansatz y = ßo + *ißi+
·•• + xpßp + ... + x k Ä + £
(1.56)
der gegenüber (1.1) k — ρ Einflußgrößen mehr enthält. Im folgenden werden verschiedene Modellansätze durch die Indexmengen der enthaltenen unabhängigen Variablen charakterisiert. Κ = {1,..., k} entspricht dem vollen Modell (1.56), J = { l , . . . , p } d e m i n ( l . l ) beschriebenen Modell. Entsprechend dieser Wahl erhält man folgende Partitionierung der Designmatrix: X(K) = (X(J)i Χ)· ß(D = (X
Ie{J,K}
(1.57)
seien die entsprechenden KQ-Schätzer. X(J) und ß (l) entsprechen X und β der vorangegangenen Abschnitte. Angenommen, das in (1.1) beschriebene kleinere Modell zur Indexmenge J gelte exakt, dann erhält man
1. Univariate lineare Regression
119
cov[^ ( J ) ] = a 2 (X; j ) X ( J ) )- 1 . Nun betrachtet man ßiK) bzgl. der k > ρ Einflußgrößen (Modellansatz (1.56) zur Indexmenge Κ). ß(Kj seien die ersten ρ + 1 Komponenten von ß(K]. Gemäß Seber (1977, ch. 3.7) gibt es Matrizen A, B, C: cov[ß K ) ] = cov
ßjK)
(X^X^+A,
Äk)/j
Β'
Β , C
wobei Α positiv definit ist, falls nicht X(J) und X orthogonal sind. Verglichen mit ß(1) haben also die ersten ρ + 1 Komponenten von ß(K) eine größere Varianz als ß(l), der KQ-Schätzer zum exakt angenommenen Modell. Damit ist ß(K), der Schätzer zum größeren Modell, als schlechter anzusehen, zumindest falls die Schätzer unverzerrt sind. Zur Auswahl eines brauchbaren Satzes von Regressoren sind viele Ansätze denkbar. Wir gehen auf zwei Möglichkeiten ein.
Vollständige Suche nach dem besten Modell Nimmt man an, daß ß0 immer im Ansatz enthalten ist, so hat man aus 2k möglichen Regressionen i = 1 , . . . , k, kann im Ansatz sein oder nicht) die beste auszuwählen. Verfahren zum Erzeugen aller Regressionen, ζ. B. das numerisch effiziente Verfahren von Furnival/Wilson (1974), sind etwa in Seber (1977, p. 349) beschrieben. Da dort eine andere Numerierung der Parameter verwendet wird, hat man beim Vergleich von Formeln ρ + 1 bzw. k + 1 durch ρ bzw. k zu ersetzen. Nun werden Kriterien zum Vergleich verschiedener Regressionsansätze untersucht. Obwohl es kein universelles Kriterium gibt, das für alle Problemstellungen gleichgut geeignet wäre, soll doch auf die wichtigsten Hilfsmittel hingewiesen werden. Umfassende Darstellungen findet man in Hocking (1976) und Seber (1977, ch. 12). Sei I eine weitere Teilmenge von K. ßa) sei der analog zu (1.57) gebildete KQSchätzer bzgl. der Indexmenge I. RSS(I) = Q e(I) bzw. RSS(J) = Q e(J) seien die zugehörigen Residuenquadratsummen. In vielen Fällen wird unter Regressionsgleichungen mit der gleichen Anzahl von Variablen diejenige mit der kleineren Residuenquadratsumme vorgezogen, d. h. man erachtet den Ansatz bzgl. der Indexmenge I als besser, falls RSS ( I ) '»7 ) '
Σ
gilt, soll also a'E.vb e(a,b)=/^ Jl (a'L^ab'Lyyb) 1
a + 0,
b + 0,
maximiert werden. Äquivalent dazu ist a'L x y b -> max a, b
unter den Nebenbedingungen a'L x x a = b'L yy b = 1. Ebenso wie man vom theoretischen zum empirischen multiplen Korrelationskoeffizienten übergehen kann, indem man von Σ χ χ , σ χγ , σ 2 zu den empirischen Werten S xx , sxy, σ 2 übergeht mit der Lösung a' = S xx 1 s xy ( = ßz, siehe 1.22), so wollen wir die Problemstellung für die empirischen Kovarianzmatrizen S xx , S xy , Syy formulieren und noch folgendermaßen erweitern:
3. Nichtlineare Regression
145
Gesucht sind Linearkombinationen u
i
= a x
'i >
v
u s = a^x,
i = b'iy
vs = b^y
mit der Eigenschaft, daß der empirische Korrelationskoeffizient zwischen Uj und v t maximal wird, der empirische Korrelationskoeffizient zwischen u 2 und v 2 maximal wird unter der Nebenbedingung, daß die Linearkombinationen mit Uj und unkorreliert sind, usw., für alle s = min(p, q) möglichen Paare u;, vi5 i = 1,..., s. Das heißt, daß a r , br, r = 1,..., s, Lösung von a'Svvb j / a ' S x x a j/b'Syyb
max ^φο
(2.31)
unter den Nebenbedingungen a;S xx a = b;S yy b = 0,i = l , . . . , r - l ,
(2.32)
sind. Es läßt sich folgendes zeigen (Anderson 1958, S. 288ff., Mardia u. a. 1979, S. 282ff.): Die gesuchten Vektoren a r , br, r = 1,..., s, sind Lösung von (SxySyVS;y-^rSxx)ar = 0
bzw.
(S^S", 1 S x y - A r S yy )b r = 0 ,
wobei Ar > 0, r = 1,..., s, die r-te Wurzel (der Größe nach) von l^xySyy^xy — /l r S M | = 0
Und
| S ^ S ^ 1 S x y — ArSyy | = 0
ist. Die Vektoren a r , br heißen r-te kanonische Korrelationsvektoren, die Zufallsvariablen u r = a'rx und vr = bj-y r-te kanonische Korrelationsvariablen. or = A'/2 heißt r-ter kanonischer Korrelationskoeffizient. Er ist gleich dem Maximum der Zielfunktion in (2.31) unter den jeweiligen Nebenbedingungen (2.32): a' r S xy b r Qr =
,
r
j/a;S x x a r i/b;S y y b r Weiter kann gezeigt werden, daß neben auch
a'iSxxaj = b;S yy bj = 0, a;S xy b j = 0,
i+j, i + j,
gilt. Faßt man die kanonischen Korrelationsvariablen zu u = ( u 1 ; . . . , us)', ν = (v„ ..., vs)' zusammen, so besitzen diese daher die empirische Korrelationsmatrix
146
Kapitel 4 Regressionsanalyse
Durch den Übergang von den ursprünglichen Variablen zu den kanonischen Variablen hat man also erreicht, daß nur noch sehr wenige, nämlich s, von Null verschiedene Korrelationen auftreten. Die kanonische Korrelationsanalyse kann in folgendem Sinn als Methode zur Datenreduktion verstanden werden: Ausgehend von einer großen Anzahl von Variablen mit schwer überblickbaren Korrelationen, kann man zu einigen wenigen Linearkombinationen, nämlich den kanonischen Variablen mit den größten kanonischen Korrelationskoeffizienten, übergehen. Diese Linearkombinationen ajx, b-y sind für i = j miteinander hoch korreliert und für i φ j unkorreliert. Wenn die Linearkombonationen gut interpretiert werden können, so kann dies zu einer erheblichen Vereinfachung ansonsten komplexer Zusammenhänge führen. Zur Entscheidung, welche kanonischen Korrelationskoeffizienten signifikant sind und welche kanonischen Variablen für die Datenreduktion in Frage kommen, können auch Tests herangezogen werden (Timm 1975, S. 350fF.). Eine weitere Anwendung der kanonischen Korrelationsanalyse findet sich in der kanonischen Faktorenanalyse (Kap. 11, 6.5), bei der man die Faktoren so bestimmt, daß die Korrelation zwischen der Gruppe der Meßvariablen und der Gruppe der Faktoren maximiert wird.
3. Nichtlineare Regression In den beiden vorhergehenden Abschnitten haben wir Modelle betrachtet, die linear in den Parametern waren. Viele Anwendungen führen auf Regressionsansätze, bei denen die Parameter nichtlinear eingehen. Das gesamte Gebiet der nichtlinearen Regression, einschließlich der numerischen Aspekte, wird in Seber/Wild (1989) erschöpfend behandelt. Wir geben hier einen kurzen Überblick für eindimensionale abhängige Variable. Nichtlineare Regressionsmodelle und deren statistische Eigenschaften spielen ζ. B. bei der Analyse neuronaler Netze eine zentrale Rolle; vgl. u.a. Rojas (1993).
3.1 Modellgleichung, Kleinst-Quadrat-Schätzung Für den Einfluß unabhängiger Variablen χ e R p auf eine abhängige Variable y e R nehmen wir ein Modell der folgenden Form an: y = g(x,0) + e,
Ε (ε) = 0 .
(3.1)
3. Nichtlineare Regression
147
θ ist ein unbekannter Parameter aus einer Teilmenge Θ eines m-dimensionalen reellen Raumes. Um vernünftig schätzen zu können, nehmen wir im folgenden stets an, daß g wenigstens einmal stetig differenzierbar nach θ ist. Für eine Stichprobe vom Umfang Ν erhalten wir y„ = g(x n , 0) + β0,
Ε(ε η ) = 0,
n = l,...,N,
(3.2)
oder in Vektorform y = g(X,0) + e,
Ε(ε)=0,
(3.3)
mit y = (y„ ..., yN)', g(X, 0) = (g(x l 5 θ),..., g(x N , θ))', ε = ( ε χ , . . . , εΝ)'. Χ nehmen wir als fest gegeben an. Den Parameter 0 wollen wir nach der Methode der kleinsten Quadrate schätzen. Eine KQ-Schätzung θ ist also Lösung des Minimumproblems Q(0)= Σ (y„-g(xn,0))2 η=1
min. β
(3.4)
Machen wir zusätzlich zu (3.3) die Annahme cov (ε) = σ 2 1,
(3.5)
so erhalten wir in Analogie zur klassischen linearen Regression Schätzer für σ2: P = -J—Q(ff) Ν—m
bzw.
$* = 1 Q ( 0 ) . Ν
(3.6)
Ist ε normalverteilt mit Ε («) = 0, cov (e) = σ21, so ist, wie man sich leicht überlegt, die Minimierung von Q (0) zur Maximierung der Likelihood-Funktion äquivalent. § ist also in diesem Fall ML-Schätzer für 0 und (ebenfalls leicht zu sehen) σ2 MLSchätzer für σ2. Ist der Parameterraum kompakt, so gibt es für jedes y wenigstens ein 0, welches (3.4) zum Minimum macht. Jennrich (1969) hat gezeigt, daß man θ so auswählen kann, daß es tatsächlich eine Zufallsvariable darstellt (d. h. die zugehörige Abbildung ist meßbar). Als notwendige Bedingung für ein Minimum von Q (θ) erhalten wir die Normalgleichungen ( y - g ( X , 0 ) ) = O.
(3.7)
Bevor auf spezielle Verfahren zur Minimierung der Zielfunktion (3.4) eingegangen wird, wiederum einige Bemerkungen zur Gewichtung der Residuen. Gewichtung
Wie schon im linearen Fall ist auch hier das Modell gegen Fehlspezifikationen abzusichern. Natürlich spielt die Wahl einer adäquaten Funktion g(x n , 0) die zentrale Rolle. Daneben müssen aber auch die Varianzen der Fehler bei der Parameterschätzung berücksichtigt werden. In Seber/Wild (1989, sec. 2.8) sind neben
148
Kapitel 4 Regressionsanalyse
der sog. Box-Cox-Transformation eine Reihe weiterer Techniken zum Umgang mit Varianzheterogenität besprochen. Wir wollen hier nur auf zwei dieser Aspekte eingehen. Gewisse Transformationen der Komponenten von x n und der yn seien zu einem Vektor wn — ( w n l , . . . , w nq )' zusammengefaßt; ζ. B. w n l = w n2 = yn etc. Zur Modellierung der Varianzen der n-ten Beobachtung führen wir die Funktion s 2 (w n ,y) ein, wobei die Vektoren wn als bekannt vorausgesetzt werden. Die Wahl der geeigneten Varianzfunktion s 2 ergibt sich manchmal aus der Fragestellung. Sonst wird man die aus der linearen Regression bekannten Techniken übertragen. U. a. kann man Plots der Residuen gegen einzelne Komponenten von χ inspizieren und daraus Anhaltspunkte für die Homoskedastie oder für einen funktionalen Verlauf der Varianzfunktion gewinnen. Auch der in Beispiel 2 von Abschnitt 1.5 beschriebene zweistufige Ansatz ist zur Bestimmung von s 2 (w n ,y) denkbar. Die unbekannten Parameter θ und y sind nach gängigen Optimalitätskriterien zu wählen. Dies soll an zwei Beispielen erläutert werden. a) Gewichtete KQ-Methode Seien s 2 == s 2 (w n , y) > 0 bekannte, fest gewählte Gewichte. Man löst dann £ (yn-g(xn,0))2 Σ , η=1 Sn
-»• min . θ
Für s 2 = 1 ergibt sich der übliche, ungewichtete KQ-Schätzer. b) Simultane Schätzung mit modellierter Varianz In vielen Anwendungen kann von einer approximativen Normalverteilung ausgegangen werden. Wenn diese Annahme nicht zu rechtfertigen ist, spricht man beim folgenden Vorgehen von einer sog. „Quasi-Likelihood"-Methode; vgl. auch Carroll/Ruppert (1988) und Seber/Wild (1989, ch.2.2 and 2.8). Für gegebenes g und s 2 lautet die negative Normalverteilungs-Loglikelihoodfunktion: F(0,y) = ^L ( Σ lns 2 ( W n ,y) + nln(2Tr)+ Σ ^ \n=l n=l
~ gW( x n , g ) ) 2 \ t n>W /
S
(3 §)
Zur Minimierung von F (θ, γ) benötigt man leistungsfähige nichtlineare Optimierungs-Software aus den üblichen Programmbibliotheken; ζ. B. IMSL oder NAG. Neuerdings stehen auch eine Reihe von benutzerfreundlichen PC-Programmen zur Lösung solcher Probleme zur Verfügung. Wir werden diese simultane Schätzung auch im Beispiel 3.5 anwenden und dabei auf eine geeignete Konstruktion der Funktion s 2 anhand einfacher Residualanalysen eingehen. Nun wenden wir uns wieder dem ungewichteten Fall zu. Dort gibt es zur numerischen Berechnung der KQ-Schätzer leistungsfähige Standardmethoden. Der oben erwähnte Ansatz mit festen Gewichten s 2 läßt sich wie bei der linearen Regression durch eine Transformation in den ungewichteten Fall überführen.
3. Nichtlineare Regression
149
3.2 Die Gauß-Newton-Methode zur numerischen Berechnung der KQ-Schätzer Numerische Methoden zur Minimierung von Q in (3.4) sind in Seber/Wild (1989) und noch ausführlicher in Dennis/Schnabel (1983) diskutiert. Generell werden ausgehend von einem Startwert 0(O) iterativ Näherungen 0 (k + 1> = 0 (k) + ;i k s k konstruiert, wobei die Suchrichtung s k und die Schrittweite Ak so gewählt sind, daß Q(0 ( k + 1 ) ) < Q(0 (k) ). In den meisten Anwendungen ist der Parameterraum Θ selbst nicht kompakt. Die Konvergenz der numerischen Methoden ist aber i.a. gesichert, falls die Niveaumenge N 0 = {0 e IR m |Q(0) < Q(0 (O) )} kompakt ist. Diese Bedingung ist dann erfüllt, wenn Q wirklich ein striktes Minimum besitzt und 0) Einsetzen dieser Näherung in (3.4) liefert ein lineares Ersatzproblem, dessen Lösung 0 (k + I) eindeutig bestimmt ist, falls Z k vollen Rang hat. Wir identifizieren in (1.10) y mit y — g(X, 0°°) und erhalten so die Gauß-Newton-Suchrichtung s k = ( Z ^ Z J - ' Z U y - g(X,0 (k) )) = (0 ( k + 1 ) - 0 (k, )M k
(3.9)
s k ist eine Abstiegsrichtung, entlang der die Zielfunktion sicher fallt. Konvergiert die Folge der 0 < k ) ,ke N, mit Schrittweite /.k = 1 etwa gegen 0, so stellt 9 einen Fixpunkt der aus (3.9) abgeleiteten Gleichung
g = Ö + (2'2)- 1 2'(y-g(X,Ö)) dar, wobei I i = — g(X,Ö). Β ist also Lösung von (3.7). δθ
Die meisten Optimierungsprogramme sehen im rangdefizitären Fall Abhilfe vor. Hier sei nur auf das Levenberg-Marquardt-Verfahren hingewiesen. Ist 9 Lösung von (3.7) und zusätzlich die Hessematrix
150
Kapitel 4 Regressionsanalyse
positiv definit, so konvergiert das Newton-Verfahren lokal quadratisch. Wie erwähnt lohnt es sich in den meisten Fällen nicht, die zweiten Ableitungen von g zu programmieren, weil das Gauß-Newton-Verfahren in der Praxis oft zufriedenstellende Ergebnisse liefert. Konvergenzprobleme treten u.a. bei schlechten Startwerten auf. Hier ist die Verwendung der exakten Hessematrix im Iterationspunkt 0 2 schlägt Beale ein numerisches Nichtlinearitätsmaß vor. Bedingungen f ü r die asymptotische Gültigkeit von (3.17) werden nicht angegeben, u n d f ü r m = 2 erhält m a n damit in vielen Fällen unübersichtliche Bereiche, so d a ß simultane Konfidenzintervalle vorzuziehen sind. (Steht anstelle v o n
Exakte Konfidenzbereiche Verschiedene A u t o r e n haben für normalverteilte Störgrößen, ε ~ N ( 0 , σ 2 Ι ) , M e t h o d e n zur K o n s t r u k t i o n exakter Konfidenzbereiche vorgeschlagen. Hartley (1964) beschreibt allgemein den Ansatz: Die Quadratformen
a-VUiU'U)-1!^ und
σ^εχί-υαΤυ^υΟε sind für eine beliebige Matrix U e R N , m v o n vollem R a n g unabhängig ^ - v e r t e i l t mit m bzw. Ν — m Freiheitsgraden. Setzen wir ε = y — g ( X , 0) ein und bilden den Quotienten, so gilt mit der Wahrscheinlichkeit 1 — a:
3. Nichtlineare Regression (y-g(X,ö))'U(U'U)-U'(y-g(X,ö))
„
m
155
p ( m j Ν — m; 1—α). (3.18)
(y-g(X,ff))'a-U(U'U)- 1 U')(y-g(X,e)) ~ Ν - m Bei gegebenem y kann man dies als einen Konfidenzbereich für θ zum Niveau α lesen. Auf der linken Seite steht eine i.a. unübersichtliche Funktion von 0, und ohne eine „zweckmäßige" Wahl von U wird (3.18) als Konfidenzbereich nutzlos sein. Im linearen Fall wählt man U = X. Dies legt im nichtlinearen Fall die „linearisierte" Wahl V = Ϊ. (siehe (3.9)) nahe (Williams 1962). Hartley (1964) schlägt eine Wahl von U vor, die nicht von S abhängt. In der Praxis hat sich der Vorschlag bislang nicht durchgesetzt.
3.5 Beispiel Einwirkung von Kunstdünger auf den Weizenertrag Das folgende Beispiel wurde von Hartley (1961) diskutiert. Es seien die Werte aus der folgenden Tabelle gegeben, wobei die xn die Menge des gestreuten Kunstdüngers und die yn den zugehörigen Weizenertrag darstellen (jeweils in geeigneten Einheiten; xn auf χ = 0 normiert): η 1 2 3 4 5 6
χ„ -5 -3 -1 1 3 5
y„ 127 151 379 421 460 426
Die Aufgabe besteht nun darin, diesen Werten die Regel vom abnehmenden Grenznutzen g(x,0) = 0 o + 0 1 e x p ( - 0 2 x ) anzugleichen. Dabei haben die zu bestimmenden Parameter 0O, ö,, θ 2 folgende Bedeutung: θ 0 steht für den Grenzertrag, 02 für die exponentielle Rate der Ertragsminderung und Θ1 ist die Differenz zwischen Durchschnittsertrag (x = 0) und Grenzertrag. Ausgehend von den Startwerten 0(OO) = 500,
θ«!0» = - 140,
ö'20) = 0.18
erhält man nach 4 Gauß-Newton-Iterationen mit einer speziellen Schrittweitenstrategie die folgende Näherungslösung der Normalgleichungen: θ 0 = 523.3,
= - 156.9,
Ü2 = 0.1997.
Als Residuenquadratsumme ergibt sich Q(fi) = 13390.1 und als Schätzer für die Standardabweichung 1 \1/2 Q(ö) =66.8. Ν—m J
156
Kapitel 4 Regressionsanalyse
Für ί erhält man
2 -
2.71
2.13 · 10
1.82
8.57- 10
1.22
1.92· 10:
0.82
- 1 . 2 9 · 10
0.55
- 2 . 5 6 · 10:
0.37
- 2 . 8 9 · 10:
Ί
Verwendet man ί anstelle von X, so lassen sich alle Fragestellungen untersuchen, die man aus der linearen Regressionsanalyse sinnvoll übertragen kann. Beispielsweise ergibt sich /2.450 10 4 σ2(2J'Z,)~1
=
I
- 2 . 7 3 3 -10 4 3.168 · 10
\
4
2.486-10 -2.930
10
2.811 · 10"
als Näherung für die Kovarianzmatrix der Schätzer Θ. Wegen der speziellen Funktion g(x, θ) ist ein einzelner Test Ho:0!=O
gegen
Η,: θ , + 0
nicht sinnvoll, da aus Θ1 = 0 folgt, daß θ2 nicht mehr identifizierbar ist. Dieselbe Bemerkung gilt für Ho:02 = O
gegen
Hi:02*O,
Abb. 3.1: Regressionskurve für Ertrag y bei χ Einheiten Kunstdünger (auf χ = 0 zentriert)
3. Nichtlineare Regression
da dann nurmehr die Summe θ 0 + also H0: = 0 2 = 0 gegen
157
identifizierbar ist. M a n sollte sinnvollerweise Η,^ΦΟ,
θ2 Φ 0
testen. Dies läßt sich als Overall-Test interpretieren, da ein konstanter Term θ0 im Modellansatz vorliegt. Den Test kann man durch Linearisieren (siehe (3.14)) oder als LQ-Test durchführen. Wir wollen die zweite Variante wählen. Unter H 0 ergibt sich als Quadratsumme Qo = Σ ( y „ - y ) ' ( y „ - y ) = n π—1
io4,
also ist — 21nA = N ( l n Q 0 — lnQ(Ö)) = 12.64. Wegen χ 2 (2,0.95) = 5.991 ist dieser Wert auf dem 0.05-Niveau signifikant. Da die Verteilungsaussagen der Abschnitte 3.3, 3.4 nur asymptotisch gelten, sollte man wegen des kleinen Stichprobenumfangs diese Aussage nur als Anhaltspunkt werten.
Simultane Schätzung mit modellierter Varianz Wir wollen noch kurz die Modellierung einer Varianzfunktion illustrieren. Aus der Grafik kann man entnehmen, daß im Schnitt die Residuen mit betragsmäßig größeren x-Werten zunehmen. Ein einfacher Ansatz der Varianzfunktion könnte also lauten w = w1=x,
r = r1,
s 2 (x,y) = 1 + γ2χ2 .
Gemäß (3.8) ist das Kriterium 1 /
F(Ö,y)=-
Ν
Ν /
Σ lns 2 (x n ,y) + nln(2Tr)+ I
\ η =1
n=l
_
/
J'1
n\\2
2
S (X„,y)
zu minimieren. Wir starten mit 8 = (523.3, - 156.9, 0.1997)', γ = 0 F(0,y) = 6702, II FF(0,y ( O ) ) || = 0 ,
und
also an einem Sattelpunkt von F. Von diesem gelangt man mit Hilfe zweiter Ableitungen und mit einem Optimierungsalgorithmus, der Richtungen negativer Krümmung benützt, in 11 Iterationen zu einem Wert von - In L(0,f) = F(0,y) = 31.94, wobei 0 = (498.2, - 99.0, 0.2984)',
γ = 16.972 .
Im ungewichteten Modell lautet für alle x die Schätzung der Standardabweichung σ = 66.8. Mit der Varianzfunktion s 2 erhalten wir: s ( + l , f ) = 16.98,
s ( + 3 , y ) = 50.85,
s ( ± 5,γ) = 84.75 .
158
Kapitel 4 Regressionsanalyse
Ohne Gewichtung findet man — I n L ( θ , σ 2 ) = 33.24. Durch den Ansatz (3.8) mit nachfolgender nichtlinearer Optimierung steigt die Normalverteilungs-Loglikelihood also noch einmal um 3.9%.
4. Nichtparametrische Regression Dieser Abschnitt gibt einen kurzen Überblick zu nichtparametrischen Methoden der Regressionsanalyse für univariate stetige Zielvariablen y. Diese Methoden kommen ohne die strengen Strukturannahmen der parametrischen Modelle der Abschnitte 1 - 3 aus und bieten sich somit als Ergänzung und Alternative zu den herkömmlichen Ansätzen an. Wir gehen nur auf zwei Konzepte zur Schätzung von Regressionskurven oder -Oberflächen näher ein: Glättung durch Kernschätzer und durch Spline-Funktionen. Ausführlichere Darstellungen finden sich in Härdle (1990, 1991), Eubank (1988), Hastie/Tibshirani (1990) und Green/Silverman (1994).
4.1 Nichtparametrische Einfachregression: Scatterplot-Smoother Wir betrachten zunächst den Fall bivariater Daten (y n ,x n ), η = 1, . . . , N , wobei sowohl die Ziel variable y als auch der Regressor χ stetige Variablen sind. Obwohl nicht immer nötig, gehen wir davon aus, d a ß die Paare (y n ,x n ), η = Ι , . , . , Ν , unabhängig und identisch wie (y,x) verteilt sind. In Erweiterung der linearen Einfachregression y n = α + ßxn + εη soll das Grundmodell
y„ = m ( x „ ) + £n, gelten. Dabei ist m(x) = Ε ( y | x ) der bedingte Erwartungswert, d.h. die unbekannte Regressionsfunktion, von der nur verlangt wird, daß sie hinreichend glatt, d.h. stetig und differenzierbar ist. Für die Fehlervariablen εη werden die gleichen Annahmen wie im klassischen linearen Modell ((1.3) bzw. (1.9)) getroffen. Das Ziel besteht in der Schätzung der Funktion m(x).
Kernschätzer Anstelle einer Dichte f(x) wie in Kap. 3, Abschnitt 2.5 ist die Erwartungswertfunktion • \ , s fyf(x,y)dy m(x) = E ( y | x ) = — — f(x) zu schätzen. Mit dem Produkt-Kernschätzer
fh(x,y) = ^ Σ K h ( x - x n ) K h ( y - y n ) JN i = i
für die gemeinsame Dichte f(x, y), dem univariaten Kern-Dichteschätzer f h (x) für f(x) und
4. Nichtparametrische Regression
159
J Ν Jyf h (x,y)dy = - Σ ( x - x „ ) y „ 1N
π=1
erhält man den „Nadaraya-Watson"-Schätzer \
^
Ν Σ Kh(x-xn)yn
Ah(x) =
·
(4.1)
- Σ Kh(x-xn) IN n = l Als Kernfunktionen können dabei die in Kap. 3, Abschnitt 2.5 angegebenen Möglichkeiten gewählt werden. Allgemeiner kann die Schätzung (4.1) auch durch mh(x)=
Ν Σ s h (x,x n )y n n= 1
(4.2)
beschrieben werden, wobei die Gewichtsfunktionen s h (x,x n ) durch Ν Σ s h (x,x n ) = 1 normalisiert sind. Für den Nadaraya-Watson-Schätzer sind die n= 1 Gewichte durch
Kh(x-xn)/N S h ( x
'
x j
-
rh(x)
h -
Κ
(~ΪΓί)
/ Ν
fh(x)
gegeben, wobei Κ einer der in Kap. 3, Abschnitt 2.5 aufgeführten Kerne ist. Die Gewichte hängen damit über den Kern-Dichteschätzer f h (x) von den Regressorwerten X j , . . . , x N ab. Die Beobachtungen yn der Zielvariablen werden in Bereichen mit kleinem f h (x), wo also weniger Regressorwerte liegen, stärker gewichtet. Für den Extremfall ?h (χ) = 0 wird auch der Zähler gleich Null; man setzt dann definitorisch m h (x) = 0. Die Bandweite h spielt eine analoge Rolle wie bei der Dichteschätzung: Für h 0 gilt s h (x,x n ) - » 1 für χ = x n , 0 sonst. Somit konvergiert m h ( x n ) gegen y n , d.h. die Daten werden interpoliert. Für h -> oo gilt s h (x,x n ) -> 1 für alle x. Somit konvergiert m h (x) gegen die konstante Funktion y. Also bestimmt die Wahl der Bandweite entscheidend die Glattheit der geschätzten Regressionskurve. Alternative Gewichtsfunktionen finden sich bei Gasser/Müller (1979,1984), Gasser/Müller/Mammitzsch (1985), Priestley/Chao (1972), Benedetti (1977).
Nächste-Nachbarn-Schätzer In Analogie zur Dichteschätzung benützt man zur lokalen Schätzung von m (x) die k zu χ nächsten Nachbarn x n . Im einfachsten Fall verwendet man lokale arithmetische Mittel, d.h. Ν m k ( x ) = Σ s k (x,x n )y n η=1 mit
160
Kapitel 4 Regressionsanalyse
—, falls x n einer der k-nächsten Punkte ist sk(x,xn) = < k 0 sonst. Andere einfache Nächste-Nachbarn-Glätter sind lokale „running-line" Glätter mk(x) = a + ß x , wobei α, β die Kleinst-Quadrat-Schätzer f ü r die k nächsten Datenpunkte sind, sowie „running-median" Glätter. Die Rolle der Bandweite h wird von k, der Anzahl der Daten in der Nachbarschaft von x, übernommen: Je größer k, desto glatter verläuft die Schätzung. Allgemein führen Nächste-Nachbarn-Schätzer jedoch zu rauheren Regressionskurven als Kernschätzer und die im folgenden beschriebenen Spline-Funktionen. Spline-Regression
Wir beschränken uns auf die hauptsächlich verwendeten kubischen Spline-Funktionen. Seien a. < ξ1 < ... < ξs
y 2 ~ N ( / i 2 , σ2), Hi-Vi+ßz-
yu y 2 u n a b h ä n g i g ;
170
Kapitel 5 Varianz- und Kovarianzanalyse
Diese Situation ergibt sich, wenn ein Faktor lediglich in zwei Stufen vorliegt. Im allgemeinen wird die Anzahl I der Faktorstufen größer als 2 sein.
Modell Wir nehmen an, daß für jede Faktorstufe bzw. jede Population jeweils J Beobachtungen vorliegen und daß y-.i ~ Ν (μ„ σ2),
i = 1 , . . . , I; j = l , . . . , J ,
gilt, wobei die y^ alle unabhängig sind. Um die Analogie zur Regressionsanalyse zu verdeutlichen, wird das Modell der einfaktoriellen Varianzanalyse etwas anders formuliert, nämlich =
+
i = l,-..,I;
j =
1 , J ,
(1.1)
wobei die Fehlervariablen ε^ unabhängig und identisch verteilt sind nach Ν (0, σ2). In Matrixnotation erhält man für das Modell (1.1) 0\ 0 (1.2) 1
;/ also ein Regressionsmodell y = Χμ + ε
(1.3)
mit μ = ( μ 1 ; . . . , μ,)' und ε ~ N,j(0, σ 2 Ι). Da die Spalten der Designmatrix X linear unabhängig sind, also rg(X) = I gilt, ist (1.1) ein Spezialfall des allgemeinen linearen Regressionsmodells (1.2) von Abschnitt 1 in Kap. 4 mit I = p + 1 , N = IJ und β = μ, wobei der konstante Term ß0 fehlt. Bemerkung. Wegen der Darstellung als lineares Modell mit vollem Rang gilt dann auch Satz 1.3 aus Kap. 4 über die asymptotischen Eigenschaften bei Nichtnormalität. Falls die Voraussetzungen dieses Satzes erfüllt werden, was bei geeigneter Versuchsanordnung möglich ist, halten die folgenden Tests und Konfidenzintervalle asymptotisch ihr Signifikanzniveau ein. Dies gilt auch für weitere Modelle der Varianz- und Kovarianzanalyse, die - eventuell nach geeigneter Reparametrisierung - sich als lineares Modell mit vollem Rang darstellen lassen.
1. U n i v a r i a t e V a r i a n z a n a l y s e m i t f e s t e n E f f e k t e n
171
Nullhypothese der einfaktoriellen Varianzanalyse
Sie geht aus von der Gleichheit der I Erwartungswerte, H
o : Mi = μι = • • • = Η1:μί + μ} für mindestens ein Paar i, j.
(1.4)
Zur Überprüfung dieser Nullhypothese ist in der herkömmlichen Varianzanalyse die folgende Vorgehensweise üblich: Die Gesamtvariation (total sum of squares) s s
=
T
ς
Σ ( Υ υ - γ
+ +
)
2
,
y++
=
i7
1=1 j = 1
Σ
1J
Σ
y.j
i= 1 j= 1
(Gesamtmittel) wird zerlegt in zwei Summanden, nämlich in die Variation zwischen den Gruppen (sum of squares between the groups) SSB =
J Σ ( y i= 1
i +
- y
)
+ +
2
,
y
i +
= 7
Σ y j=1
J
u
(Gruppenmittel) und die Variation innerhalb der Gruppen (sum of squares within the groups) s s
= i i=l
w
Σ (yij j=l
- y
i +
)
2
.
Es gilt die Beziehung: SS T =*SS B + SSW
(1.5)
Beweis von (1.5). Σ i
Σ (yäj - y + + ) j
2
=
Σ Σ (y,j i j
=
Σ
• Σj
y
[(yu -
i +
+ y
y
)
i +
2
i +
-
y
+
+
+ 2(yij -
)
2
y
=
i +
) (y,+ -
y
+
+
)
+
+ (yi+-y++)2] Wegen Σ
• Σj
(Yu -
y,+) (y,+ - y + + )
=
Σ
•
(yi+ - y + + )
jΣ
(yu -
y,+) =
,
ο
= ο folgt (1.5).
•
Unter H 0 besitzt \ SSB eine ^2-Verteilung mit I — 1 Freiheitsgraden, während σ 1 2 —rSS w unabhängig von der Gültigkeit von H 0 eine / -Verteilung mit I (J — 1) fT
172
Kapitel 5 Varianz- und Kovarianzanalyse
Freiheitsgraden besitzt. Darüber hinaus sind die beiden Statistiken voneinander unabhängig. G r o ß e Werte für SS B indizieren eher die Gültigkeit v o n H l t während kleine Werte v o n SS B die N u l l h y p o t h e s e stützen. Als Teststatistik zur Prüfung der N u l l h y p o t h e s e (1.4) wird F =
S S b / ( I -1} SSW/I(J-1)
(1.6)
verwendet. U n t e r H 0 ist F ~ F ( I — 1,1(J — 1)) und H 0 ist abzulehnen, falls F > F ( I - 1,1(J - 1); 1 - α) ausfällt. D i e zu berechnenden G r ö ß e n der einfaktoriellen Varianzanalyse werden in der Regel in einer A N O V A - T a b e l l e zusammengefaßt. Tab. 1.1: Tabelle der einfaktoriellen Varianzanalyse Summe der Abweichungsquadrate
Freiheitsgrade
Zwischen den Gruppen (SSB)
J Σ (y,+ - y + + ) 2 i =1
1-1
Residualstreuung (SS W )
Σ Σ (y,j-yi+)2 i=l j =1
I(J-l)
Gesamtvariation (SST)
Σ Σ (y,j-y++)2 i = l j =1
IJ-1
F-Statistik SS B /(I - 1 ) SSW/I(J-1)
Beispiel 1.1. Es sollen 4 verschiedene Unterrichtsmethoden für einen Lehrgang verglichen werden. 32 Lehrgangsteilnehmer werden per Zufall auf 4 Gruppen aufgeteilt, so daß jede Gruppe 8 Personen enthält. Jede Gruppe wird nach einer anderen Methode unterrichtet. Nach Beendigung des Lehrgangs unterziehen sich alle Teilnehmer demselben Abschlußtest. Die erzielten Punktwerte sind der folgenden Tabelle zu entnehmen. Unterrichtsmethode II III IV 16 18 20 15 20 15 23 19
16 12 10 14 18 15 12 13
2 10 9 10 11 9 10 9
5 8 8 11 1 9 5 9
Für die Summen der Abweichungsquadrate erhält man (I = 4, J = 8): 4
SSB = 8 Σ (yi+ - y + + ) i= 1 SSW= Σ i=l
= 621.4
Σ ( y u - y l + ) 2 = 226.5 j = l
1. Univariate Varianzanalyse mit festen Effekten
173
und für die Prüfgröße zur Prüfung der Nullhypothese (1.4) resultiert
F=
SS„/3
— = 25.6.
SS w /4 · 7
Wegen F(3; 28; 0.95) = 2.95 wird H 0 abgelehnt, d.h. die Unterrichtsmethoden sind unterschiedlich effektiv.
Im folgenden wird gezeigt, daß sich die Nullhypothese (1.4) und der eben vorgestellte F-Test als Spezialfall des Tests der allgemeinen linearen Hypothese H 0 : C/i = £
H i : C/i φ ξ
(1.7)
(vgl. (1.41), Kap. 4) im linearen Regressionsmodell (1.3) ergeben, wobei C hier eine (I - 1) χ I-Matrix mit rg(C) = I - 1, £ = 0 und μ = (μ1,..., μ])' ist. Die Hypothese H0: μι = μ2 = • · · =
= μ
kann in Matrixnotation beispielsweise als
(1.8) 0
...
1
geschrieben werden, wobei die Matrix C I — 1 Zeilen besitzt. Auch andere Darstellungsweisen sind möglich. Als Teststatistik wird im Abschnitt über die allgemeine lineare Hypothese in Kap. 4 (vgl. (1.46)) (Qo-Qe)/(I-l) Q e /(IJ - I)
=
(RSSp - RSS)/(I - 1) RSS/(IJ - I)
vorgeschlagen. Wir verwenden in diesem Kapitel, vor allem in den Tabellen, statt Q e oder SS W die Bezeichnung RSS (residual sum of squares). Dabei sind, jetzt ausgehend vom Modell (1.3) y = Χμ + ε, I J - RSS = Q e das Minimum von ε'ε = (y - Χμ)' (y - Χμ) = Σ Σ (y.j - μ-f i=l j = ι (Residuenquadratsumme), - RSS 0 = Q 0 das Minimum von ε'ε unter der Nebenbedingung C/i = 0 gemäß (1.8). Unter H 0 ist F ~ F(I - 1; IJ - I). Bildet man in «'«= Σ Σ (Yij-^i)2 i=lj=l
174
Kapitel 5 Varianz- und Kovarianzanalyse
die partiellen Ableitungen nach μ{, erhält man nach Nullsetzen - 2 Σ (y>j - Α) = ο j=l bzw. 1 J k = τ Σ y.j = y,+ J j=l und für die Residuenquadratsumme resultiert Σ Σ (yij-yi+)2· i=lj=l
Rss=
(i-io)
RSS stimmt also mit der Variation innerhalb der Gruppen (SS W ) überein. RSS 0 berechnet man entweder aus (1.42), Kap. 4, oder man verwendet die hier vorliegende Nullhypothese, um die Zahl der freien Parameter von vornherein zu reduzieren, nämlich auf einen, etwa μ. Die Minimierung von Σ
Σ
ton-μ)
ί=ι j=ι bezüglich μ liefert sofort 1 Σ1 ΣJ yij = y+ + • μ = AJ 77 i=1 j=1 Unter Berücksichtigung von (1.5) mit RSS = SS W erhält man RSSo - RSS = s s B = J Σ (y i + - y+ + ) 2 i=1 und für die Teststatistik (1.9) ergibt sich exakt (1.6). Im Abschnitt über die allgemeine lineare Hypothese in Kapitel 4 wurde darüber hinaus noch gezeigt, daß der durch die Teststatistik (1.9) festgelegte F-Test ein Likelihood-Quotienten-Test ist. Bemerkung. Man beachte, daß die Matrix C in (1.8) zur Prüfung von H 0 auch anders gewählt werden kann, ζ. B. 1
-1
0
0
1
-1
Allgemein entspricht dies einer Transformation AC mit einer nichtsingulären (I - 1) χ (I — 1)-Matrix A. Die Teststatistik (1.9) bleibt unverändert, wenn die Hypothese AC/i = 0
1. Univariate Varianzanalyse mit festen Effekten
175
geprüft wird, denn nach (1.44), Kap. 4, gilt für H 0 : ϋ μ = 0 RSS 0 - RSS = (Cfi)' [C (Χ' X)" 1 C'] " 1 (Cft). Für H*: AC/ι = 0 gilt dann RSS* - RSS = μ'C'A' [AC (Χ' X) ~ 1 C'A'] ~ 1 AC μ = = / i ' C ' A ' A ' - 1 [ C ( X ' X ) _ 1 C ' ] _ 1 A ^ 1 AC/i = = RSS 0 - RSS. Reparametrisierung des Modells (Effektdarstellung)
Man definiert μ 0 = Ε ( γ + + ) = 1 Σ Σ Ε ( ϊ ϋ ) = | Σ ft 1J i=l j = l I i=1 und mit μ; = μ0 + (μ; - μ 0 ) = μ0 + erhält man die zu (1.1) äquivalente Modelldarstellung der einfaktoriellen Varianzanalyse y.j = μ 0 + i 2)·
i1·35)
Summation über j liefert
j
Σ (/iiij — j=i
= J -
i2)
und es ist
J-ttzi
bzw.
=
^ 1+ " ^ 2 +
^j-Miit =μ,2ί-μ,2+
für alle
i1;i2.
Der letzten Gleichung entnimmt man sofort, daß die Differenzen abhängen, daß also
μ α - μ ί + = v(j) gilt. Wegen
I Σ i= 1
= Ιψ(ί)
μη — μ ί +
nicht von i
1. Univariate Varianzanalyse mit festen Effekten
185
ist dann
bzw.
- μ + j + ^o = 0.
(1.36)
Die linke Seite von (1.36) stimmt genau mit der Festlegung von (aß),j in (1.31) überein, und die Hypothese, daß keine Interaktion zwischen den Faktoren Α und Β vorliegt, ist gegeben durch
(a/?)ij = 0, i = 1,..., I; j = 1
J-
(1.37)
Schließlich wollen wir noch eine graphische Veranschaulichung der Interaktion anhand des Beispiels geben. Allerdings sind die in die Abbildungen eingetragenen Werte μ^ hypothetisch, da sie ja in der Realität nicht bekannt sind und allenfalls durch die y^ + geschätzt werden können. Liegt keine Interaktion vor, sind gemäß (1.35) und der Symmetrie des Modells bezüglich der beiden Faktoren die Differenzen der Mittelwerte der abhängigen
186
Kapitel 5 Varianz- und Kovarianzanalyse
Variablen (Absatz) zwischen den beiden Kommunikationsstrategien gleich für die drei Stufen des Faktors Preisstrategie. Die in das Koordinatensystem eingezeichneten Verbindungslinien sind in einem solchen Fall parallel. Anders verhält es sich, wenn die Interaktion nicht verschwindet. Hypothesentests Demnach wird in einem zweifaktoriellen Versuchsplan zuerst stets die Hypothese H«,:(a/Q u = 0,
i = l,...,I;
j = 1 , J ,
(1.38)
überprüft. Interagieren die beiden Faktoren Α und Β in ihrem Einfluß auf die abhängige Variable y nicht, so können die Einflüsse der beiden Faktoren getrennt untersucht werden und die zu überprüfenden Hypothesen lauten Ha:ai = 0
für alle i
(Faktor Α unwirksam)
(1-39)
H„: ßj = 0
für alle j
(Faktor Β unwirksam).
(1.40)
bzw. Zur Ableitung geeigneter Teststatistiken zur Prüfung der Hypothesen (1.38) bis (1.40) wird in der varianzanalytischen Literatur gewöhnlich eine Varianzzerlegung durchgeführt. Hier gehen wir etwas anders vor und betrachten das zweifaktorielle Modell (1.32) wieder im regressionsanalytischen Kontext. Die Hypothesen sind dann von der Form C/ι = 0 mit geeigneten Matrizen C. Wegen der Nebenbedingungen (1.33) ist ι-1 Σ Υυκ) > μ = (μ 0 , α1,...,αι_1,β1,...,β}_1, (aß)lu ...,
(α>?),_J
und der Designmatrix Kombination Ill
μ0 /l
/?! 1
0
o\
11Κ
1
1
0
1
0
1
1J1
1
1
0
-1
-1
-1
0
-1
- 1
- 1
-1
1JK IJ1
1
-1
IJK
\ 1
1
(«A-1.J-1
A - l («/Oil,·
0 ...
0
- 1
-1 - 1
1
...
1 /
läßt sich (1.41) als lineares Modell y = Χμ + ε
(1.43)
schreiben. Dabei ist der Zufallsvektor ε verteilt nach Ν (0, σ 2 1). Die Designmatrix X des Modells (1.43) besitzt eine besondere Eigenschaft. Teilt man X auf in IJK-zeilige Teilmatrizen Χμ , X„ Xß und X , ^ , wobei Χμ die 1. Spalte von X ist, X a aus den I — 1 Spalten feesteht, die zu den Haupteffekten des Faktors Α gehören, etc., dann sind jeweils die Spalten aus verschiedenen Teilmatrizen orthogonal, d. h. es gilt beispielsweise x«.x«. = 0 Das lineare Modell ist dann
188
Kapitel 5 Varianz- und Kovarianzanalyse
y
_
( χ μο'
^ß'
+
ε
(1.44)
und man erhält für die KQ-Schätzungen \
£ =
ι
J
( X ^ - ^ y
(a/ö =
κ
(1.45)
(X^X^X^y.
Beweis. Wir wollen hier die Ableitung für den Fall geben, daß die Designmatrix X in zwei Teilmatrizen aufgespalten wird, d.h. daß X = (X1,X2) gilt sowie das Modell
wobei für den Parametervektor μ eine entsprechende Aufteilung gelte. Der Nachweis für eine Aufspaltung in mehr als zwei Teilmatrizen ist völlig analog, er erfordert nur mehr Schreibaufwand. Es ergeben sich die Normalgleichungen
(1.45) ist insbesondere zu entnehmen, daß die Schätzungen für eine Parametergruppe - etwa die Haupteffekte des Faktors A - stets dieselben sind, gleichgültig, ob die anderen Parameter im Modell enthalten sind oder nicht. Dies impliziert eine relativ einfache Berechenbarkeit der Parameter. Zum Beispiel kann man zur Berechnung von μ 0 alle anderen Parameter gleich 0 setzen und die Minimierung von ι J κ Σ Σ Σ (y iJk - Mo)2 i=l j= 1 k = 1 in Bezug auf μ0 liefert die Schätzung
189
1. Univariate Varianzanalyse mit festen Effekten
μ0 = y +
++
j ι j κ = — Σ Σ Σ Yijk1JJS. i= 1 j = 1 k=l
Auf analoge Weise erhält man ^ _ _ α, = y i + + - y + + +,
1 J Ϋί++ = π τ Σ
K
Σ Yijk
JJS. j = 1 k= 1 = 1
J^j = y + j + —y+ + +,
1
K
Σ y ijk
(1-46)
iiv i = 1 k = 1 (afrij = y,j+ - y , + + - y + j + + y+ + + · Für den Test der Hypothese H^:(aj8) i= 1 u = 0,
1— 1;
j = l,...,J-l
ist die Matrix C gegeben durch /0 0
... ...
0 0
1 0
0 1
... ...
0\ 0 .
\0
...
0
0
0
...
1t
1+J- 1
mit rg(C) = (I — 1) (J — 1).
(1.47)
(I - 1) (J - 1)
Da die Schätzungen der übrigen Modellparameter sich nicht ändern, wenn (aß)ij = 0 sind, ist das Minimum der Residuenquadratsumme unter der Nebenbedingung Cμ = 0, das hier mit RSSa/J bezeichnet wird, gegeben durch RSS a „= Σ Σ Σ (y.jk - μ 0 - «i - ßi)2 = i=l j = 1 k=l I J Κ = Σ Σ Σ ( y , j k - y i + + - y + j + + y + + +) 2 . i=l j = l k = 1
(1.48)
Daraus ergibt sich R S S a i = i Σ Σ (yijk-yij+)2+ Σ Σ Σ ( y i j + - y i + + - y + j + + y + i=l j=l k=l i=l j = l k=l (wegen ς Σ Σ (y ikj - y i j + ) (yij+ - y i + + - y + j + + y + i j k Also ist
+ +)
2
= 0).
R S S I ( ( - R S S = K Σ Σ ( y i j + - y i + + - y + j + + y+ + +)2 i=l j = 1 und die Teststatistik zur Prüfung von H t ß ist
+ +)
(=ssa„),
190
Kapitel 5 Varianz- und Kovarianzanalyse
(RSS„-RSS)/(I-1)(J-1) _ RSS/IJ(K — 1) Σ (Ϋυ+ -Ϋί++ - y + j + + y+ + + ) 2 / ( i - i ) ( J - i )
Κ Σ =
1=1
J'1
,
(1.49)
2
Σ Σ Σ (yijk-yij+) /U(K-l) i=lj=lk=l die bei Gültigkeit von F-verteilt ist mit (I — 1) (J — 1) und I J ( K - l ) Freiheitsgraden. In ähnlicher Weise findet man die Teststatistiken zur Prüfung der Hypothesen H a : a ; = 0,
i = l,...,I-l
bzw. Η , : 0 , = Ο, j = 1
J— 1 -
Es sind R S S a = Σ Σ Σ ( y i j k - y i j + ) 2 + JK Σ ( y i + + - y + i= 1 j = l k = l i= 1
+ +)
2
R S S , = Σ Σ Σ ( y i j k - y i j + ) 2 + iK Σ ( y + j + - y + i=1 j=1 k=1 j=1
+ +)
und 2
und für die Teststatistiken F a bzw. F„ gilt unter Η α bzw. H^ JK Σ ( y ; + + - y + + + ) 2 / ( i - i ) =1 F„ = RSS/IJ(K — 1)
F(I-1;IJ(K-1))
(1.50)
bzw. IK Σ (y+j+ - y + + + ) 2 / ( J - i ) j=i F« = • F(J — 1; IJ(K — 1)). RSS/IJ(K — 1)
(1.51)
Für eine übersichtliche Darstellung werden die zu berechnenden Größen in der folgenden Tabelle zusammengestellt. Tab. 1.2: Tabelle der zweifaktoriellen Varianzanalyse Summe der Abweichungsquadrate (yi++-y+++)2
Haupteffekt des Faktors A (SSJ
JK Σ
Haupteffekt des Faktors Β (SS„)
IK Σ (y+j+-y+++)2
Interaktionseffekt ( S S „ )
κ Σ
Residualstreuung (RSS)
Σ Σ Σ (y jk — yij+)2 i = l j =1 k = lä
i=l
Teststatistik
Freiheitsgrade
SS./0-1)
1-1
RSS/IJ(K — 1) SS,/(J-1)
J-l
j=l
RSS/IJ(K — 1) Σ (y
i = l j —1ä j +
- yi++ - y+j+ + y+++)2
(I-1)(J-
1}
SS aP /(I — 1)(J — 1) RSS/IJ(K — 1)
IJ(K-l)
1. Univariate Varianzanalyse mit festen Effekten
191
Fortsetzung von Beispiel 1.2. Für das zu Beginn dieses Abschnitts vorgestellte Beispiel ergeben sich die folgenden Werte: Haupteffekte des Faktors A (Preisstrategie) Haupteffekte des Faktors Β (Kommunikationsstrategie) Interaktion Α χ Β Residuenquadratsumme Daraus berechnen sich die Teststatistiken
s s a = 3297.9
bei 2 Frhgr.
SS, =
52.3
bei 1 Frhgr.
SS„,= = 803.0 RSS == 396.4
bei 2 Frhgr. bei 54 Frhgr.
= 224.6 Ff = 7.12 54.7. —
Fa
Sie sind alle signifikant bei einem Signifikanzniveau von α = 0,05 (F(2; 54; 0.95) » 3.17, F ( l ; 54; 0.95) = 4.02).
Bemerkung. Gewöhnlich wird bei der statistischen Auswertung eines zweifaktoriellen Versuchsplans zuerst die Hypothese Yiaß der Interaktion zwischen beiden Faktoren überprüft. Von besonderem Interesse ist der Fall, daß die Interaktionseffekte Null sind. Dann wirken die Faktoren „unabhängig" bzw. „additiv" auf die abhängige Variable y. Der zweifaktorielle Versuchsplan kann dann auch durch zwei einfaktorielle Versuchspläne ausgewertet werden, wobei sich dieselben Resultate ergeben. Liegt eine signifikante Interaktion zwischen den beiden Faktoren vor, ist die Interpretation der Haupteffekte der Faktoren schwieriger (wie im Beispiel). Der Effekt des einen Faktors läßt sich dann nur adäquat beschreiben, wenn zugleich Bezug auf die Stufe des anderen Faktors genommen wird. Zur Interpretation des Beispiels 1.2. Da eine signifikante Wechselwirkung zwischen den Faktoren „Kommunikationsstrategie" und „Preisstrategie" vorliegt, können die Haupteffekte der Faktoren nicht ohne weitere Überlegungen interpretiert werden. Beispielsweise sind 0!=O.93
und
A-i
02 = - 0 . 9 3 .
A2
A3
Abb. 1.3
192
Kapitel 5 Varianz- und Kovarianzanalyse
Daraus jedoch zu schließen, daß sich Postwurfsendungen prinzipiell günstiger auf die Verkaufszahlen auswirken, wäre mit großer Wahrscheinlichkeit falsch. Denn die Schätzungen yjj + zeigen an, daß dies wahrscheinlich nur für Niedrig- und Normalpreispolitik gilt, während im Falle einer Hochpreispolitik eine Anzeigenwerbung günstiger erscheint.
Simultane Konfidenzintervalle und multiple Mittelwertvergleiche Wie bei einfaktoriellen Versuchsplänen sind auch hier simultane Konfidenzintervalle für beliebige Kontraste-etwa für Faktor Α in der Form Σ CjOt; mit £ c ; = 0 i=1 — möglich. I-l Für eine Linearkombination Σ h;«; gilt: i=1 I-l
I-l
I-l
Σ hifX; = Σ hi(/i i+ -μ0) i=1 i=1
I-l
= Σ h ; // i + i= 1
1 I
Σ hi7 Σ i=l i i=l
=
I-l \ I- 1 I-l = Σ hi/i i + - - Σ (hi Σ μ\+ + μ\+) = i= 1 ι i= 1 i=1 I-l = Σ (hi i=l I = Σ ciai i=1
J I γ Σ hi) 1 i= 1 mit
Λ I-l \ - ( - Σ hi U,+ = \ i i=l /
Σ ^ = 0, I-l
I-l
und umgekehrt ist wegen α, = — Σ jeder Kontrast in der Form Σ h ^ i=1 i=1 darstellbar (vgl. auch Seber (1977), S. 258). Dies bedeutet, daß die Menge aller I- 1
I
Linearkombinationen Σ hjOtj gleich der Menge aller Kontraste Σ i=1 ist. I Ein Kontrast Σ c i a i wird geschätzt durch i=1 I I Σ CjKj = Σ CiYi+ + i= 1 i= 1
c
i «i ( Σ c i = 0)
mit der Varianz
] Σ c? v a r ^ a O = σ 2 i=l
Die Hypothese H a : a j = a 2 = ... = a,_! = 0 wird nach der Methode von Scheffe genau dann abgelehnt, wenn mindestens eines der simultanen Konfidenzintervalle ι Σ είΫί+ + ±
D
CO
Σ ε 1/2 Γ 1) J JKΠ (1.52)
(I — 1)F(I — 1; IJ(Κ — 1)I J ( K - 1)
1/2
1. Univariate Varianzanalyse mit festen Effekten
193
den Wert 0 nicht enthält. Auf diese Weise läßt sich feststellen, welche Kontraste für die Ablehnung von H a verantwortlich sind. (1.52) kann als Spezialfall des simultanen Konfidenzintervalls (1.51) von Kap. 4 hergeleitet werden, wenn man dort die ι-1 j Linearkombinationen Σ hi α; verwendet und sie durch Kontraste Σ c i a i ersetzt. i=1 i= 1 I c In analoger Weise ist eine Prüfung von Kontrasten der Form Σ j ß j möglich, falls j=i
H^ abgelehnt wird. Die Untersuchung von Kontrasten in den Interaktionswirkungen (aß)jj ist ebenfalls möglich. Interessiert man sich lediglich für Effekt- bzw. Mittelwertdifferenzen =
bzw.
ßm-ßn
= μ+π)-μ+η,
kann wieder das Verfahren von Tukey angewendet werden. Verschiedene Beobachtungszahlen pro Zelle des Versuchsplans In dem eben beschriebenen zweifaktoriellen Versuchsplan sind die in Tab. 1.2 aufgeführten Quadratsummen additiv und bilden eine orthogonale Zerlegung von Σ Σ Σ (Yijk — Ϋ+ + +) 2 · Solche Versuchspläne mit gleich vielen Beobachtungen i j k pro Zelle heißen üblicherweise balanzierte Designs. Für eine exakte mathematische Definition vergleiche man Searle (1988). Liegen unterschiedliche Beobachtungszahlen in den Zellen des Versuchsplans vor, geht die Orthogonalitätseigenschaft verloren. Die in (1.44) bzw. (1.45) beschriebene Orthogonalitätseigenschaft gilt ebenfalls nicht mehr. Dies impliziert insbesondere, daß die Prüfgröße zur Prüfung von H a (oder H^) davon abhängt, ob H a (oder H^) gegen das volle Modell getestet wird oder die Gültigkeit von Η xP vorausgesetzt wird. Eine weitere Schwierigkeit besteht darin, daß bei nicht orthogonalen unabhängigen Merkmalen die Reihenfolge, in der sie in den Versuchsplan aufgenommen werden, für die Varianzerklärung eine Rolle spielt. Für die Behandlung derartiger „nicht-orthogonaler" bzw. „unbalanzierten" Designs vergleiche man beispielsweise Scheffe (1959), Kap. 4.4, Overall/Spiegel (1969), Winer (1971), Graybill (1961) und insbesondere Searle (1987).
Zweifaktorieller Versuchsplan mit einer Beobachtung pro Zelle Ein wichtiger Spezialfall eines zweifaktoriellen Versuchsplans liegt vor, wenn für jede Zelle des Versuchsplans, d. h. für jede Versuchsbedingung, nur eine Beobachtung zur Verfügung steht. Dies kommt der praktischen Anwendung entgegen, da bei vielen Experimenten nur eine beschränkte Anzahl von Personen oder Objekten untersucht werden können. Das Modell ist yM = μ 0 + oti + ßj + 6;j,
i = Ι,.,.,Ι; j = 1,...,J,
(1.53)
wobei diefijjunabhängig und Ν (0, a 2 )-verteilt sind, α; ist der Effekt der i-ten Stufe
194
Kapitel 5 Varianz- und Kovarianzanalyse
des Faktors A, ß, der Effekt der j-ten Stufe des Faktors Β und y^ ist wie immer der Meßwert der abhängigen Variablen y, wenn Faktor Α in der Stufe i und Faktor Β in der Stufe j wirken. Für die Effekte α{ und ß, gelten die üblichen Restriktionen Σ « ι = Σ Α = ο. i j Im Modell (1.53) wird vorausgesetzt, daß die beiden Faktoren nicht interagieren. Da nur eine Beobachtung pro Zelle verfügbar ist, ist bei Hinzunahme von Interaktionen eine Schätzung der Residualstreuung nicht mehr möglich. Ein Test für eine spezielle Art von Wechselwirkung, der auf Tukey zurückgeht, wird am Ende dieses Abschnitts behandelt. Beispiel 1.3. (vgl. Rohatgi 1976, S. 522). Vier Düngemittel A, B, C und D werden an drei Weizensorten erprobt. Jedes Düngemittel wird mit einer Weizensorte kombiniert, so daß für jede Versuchsbedingung eine Beobachtung vorliegt. Die abhängige Variable ist der Ertrag der Parzelle. Die Daten sind in der folgenden Tabelle wiedergegeben. Weizensorte I II 8 3 10 4 6 5 4 8
A Β C D
Düngemittel
III 7 8 6 7
Zu minimieren ist die Residuenquadratsumme Σ Σ (Yij - μ 0 - α, - ßj)2 i=l j= 1
(1.54)
in Abhängigkeit von μ 0 , α; und ßj unter Berücksichtigung der Restriktionen Σ a i i=1 J
= 0 und Σ ßj = 0. Partielles Ableiten und Nullsetzen der Ableitungen liefert die j=i Resultate £o = y++, «i = y ; + - y + + . ßi = y+j - y+ +
und für RSS ergibt sich R S S = Σ Σ (y.j - £o - δ, - ßi)2 = Σ Σ (y u - y i + - y + j + y + + ) 2 · i=l j = l i =1 j =1
0-55)
Folgende Hypothesen sind von Interesse: Η β : « 1 = «2 = ... = α Ι _ 1 = 0
(1.56)
H
(1.57)
r
: ß
l
= ß
2
= ... = ß].1=0.
Zur Prüfung von H a ist (1.54) unter der Nebenbedingung (1.56) zu minimieren.
1. Univariate Varianzanalyse mit festen Effekten
195
Man erhält Rssa = Σ Σ (y.j-y+j)2 i=l j = 1 und ssa = R S S , - R S S = Σ Σ ( y i j - y + j ) 2 - Σ Σ ( y u - y i + - y + j + y++)2 = i=l j = 1 i=1 j=1 = Σ Σ (y i+ - y + + ) 2 = J Σ (y i+ - y + + ) 2 · i=l j = 1 i=1 Unter
(1.58)
gilt: F. = -i
j
J Σ (y i+ - y + + ) 2 / ( i - l) ^
Σ Σ (yu-yi+-y+J-y++)2/(i-i)(J-i) i=l j = 1 ~F(I-1;(I-1)(J-1)). In analoger Weise berechnet man
ss, = Rssß - RSS = Ι Σ (Y+J - Y+ +)2 j=i
und bei Gültigkeit von H^ gilt Ι Σ (y+j - y + + ) 2 / ( J - 1 ) "RSS/(I-1)(J-1)
F(J-l;(I-l)(J-l)).
Anwendung auf Beispiel 1.3. SS„ = 3 [ ( - 0.33) 2 + 1 2 + ( - 0.66) 2 + 0 2 ] = 4.67 SS^ = 4[(1.67) 2 + (2.33) 2 + (0.67) 2 ] = 34.67, RSS = 7.33 Damit erhält man Fα =
4.67/3 — = 1.28 < F(3; 6; 0.95) = 4.76 7.33/6
F ß. =
34.67/2 — = 14.2 > F(2; 6; 0.95) = 5.14 7.33/6
und
Dies deutet darauf hin, daß zwar die Düngemittel alle gleich effektiv sind, die einzelnen Weizensorten jedoch unterschiedliche Erträge bringen.
Die Konstruktion von simultanen Konfidenzintervallen für beliebige Kontraste in den Haupteffekten der beiden Faktoren, falls Η α bzw. H^ abgelehnt wird, ist ebenfalls möglich. Für Details vergleiche man etwa Scheffe (1959), Kap. 4.2.
196
Kapitel 5 Varianz- und Kovarianzanalyse
Die Überprüfung von Interaktionswirkungen ist i.a. nicht möglich, da jede Zelle des Versuchsplans nur eine Beobachtung enthält. Somit kann keine Quadratsumme für die „Streuung innerhalb der Zellen" ermittelt werden und der F-Test in (2.22) kann nicht angewendet werden. Aus diesem Grund schlug Tukey (1949) einen Test vor, bei dem für die Interaktion eine spezielle multiplikative Form angenommen wird, nämlich (afl^Gcqft,
(1.59)
wobei G eine Konstante ist. Tukey schlug folgende Teststatistik vor: SS G aß
(RSS - SS G )/(IJ - I - J)
mit
[ Σ Σ (yi+-y++)(y+j-y++)yij]2 ssG = - ^ μ ζ ΐ Σ (yi+ -y++)2 j=l Σ (y +j -y ++ ) 2 i=l
(i .60)
und RSS gemäß (1.55). Die Teststatistik ist bei Gültigkeit von Hxß: (aß)·^ = Gajij = 0 für alle i, j F ( l ; IJ — I — J)-verteilt. Eine ausführliche Ableitung der Teststatistik (1.60) findet man beispielsweise bei Tukey (1949), Scheffe (1959), Kap. 4.8 oder Seber (1977), Kap. 9.4.2. Anwendung auf das Beispiel. Hier ergibt sich für die Teststatistik der Wert 6.69. Das Quantil F (1; 5; 0.95) ist 6.61. Dieses Resultat indiziert eine Interaktion zwischen den beiden Faktoren, so daß bei der Interpretation der oben berechneten Ergebnisse für die Haupteffekte Vorsicht geboten ist. Eine erneute Untersuchung mit mehr als einer Beobachtung pro Zelle erscheint angezeigt.
2. Kovarianzanalyse Die Kovarianzanalyse ist ein statistisches Auswertungsverfahren für Versuchspläne, bei denen sowohl qualitative als auch quantitative Faktoren auftreten. Damit stellt sie eine Verbindung zwischen den Methoden der Varianz- und der Regressionsanalyse dar. Bezeichnet X die (Ν χ p)-Designmatrix eines varianzanalytischen Versuchsplans und Ζ die (Ν χ q)-Matrix der Meßwerte von q „begleitenden" Variablen (Kovariablen\ concomitant variables), die neben der abhängigen Variablen y erhoben werden, und seien μ, y und ε die Parameter- bzw. Fehlervektoren, so erhält man die Modellgleichung y = Χμ + Zy + ε,
(2.1)
wobei ε ~ N(0, σ 2 Ι) ist. Ferner wird vorausgesetzt, daß die Spalten von X linear unabhängig von den Spalten von Ζ sind und daß rg(X) = p, rg(Z) = q gilt.
2. Κ οvarianzanalyse
197
Als einfacher Spezialfall ergibt sich das Modell eines einfaktoriellen Versuchsplans mit einer Kovariablen ζ und J Beobachtungen pro Faktorstufe y ij = /ii + yz ij + £ij,
i = 1, .·., I; j = l , . . . , J .
(2.2)
Beispiel 2.1. (vgl. Winer 1971, S. 775). Es sollen drei Trainingsmethoden im Hinblick auf eine Kriteriumsvariable y verglichen werden. Jeder Gruppe werden per Zufall J = 7 Teilnehmer zugewiesen. Vor dem Training unterziehen sich die Teilnehmer einem allgemeinen Eignungstest, dessen Meßwerte die Kovariablenwerte definieren. Es ergab sich folgende Ergebnistabelle:
Methode II
I
ζ 3
1 3
1 2
1 4
y 6 4 5 3 4 3 6
ζ 4 5 5 4 3
1 2
y 8 3 7 9 8 5 7
III
ζ 3 2 2 3 4
1 4
y 6 7 7 7 8 5 7
In den Modellen (2.1) bzw. (2.2) der Kovarianzanalyse sollen die Kovariablen nicht von den „Treatments" beeinflußt werden. Aus diesem Grunde war es im Beispiel wichtig, die Kovariable vor dem Experiment zu erheben. Für weitere Details, insbesondere auch über die Verwendung stochastischer Regressoren, vergleiche man Schelfe (1959), Kap. 6. Die Kovarianzanalyse kann sowohl unter regressions- als auch unter varianzanalytischen Gesichtspunkten behandelt werden. Der regressionsanalytische Aspekt besteht in der Regel im Vergleich mehrerer Regressionsansätze (Homogenität bzw. Parallelität von Regressionen) und wurde bereits in Abschnitt 1.3, Kap. 4, kurz dargestellt. Man vergleiche dazu den Test in 2.2. Hier wird vorwiegend die varianzanalytische Fragestellung betrachtet. Dabei geht es wieder darum, Unterschiede in den Treatment-Effekten herauszufinden, wobei jetzt versucht wird, die Präzision der Versuchsanordnung durch Einbeziehung von Kovariablen zu erhöhen und damit die „Fehlervarianz" zu reduzieren. Im allgemeinen ist eine Versuchsanordnung umso effizienter, je mehr man die Wirkung der Variablen, die außer der oder den interessierenden unabhängigen Variablen einen Einfluß auf die abhängige Variable haben, zu reduzieren vermag. Das Ziel der Kovarianzanalyse in der varianzanalytischen Fragestellung ist also, durch die „Bereinigung" der Einflüsse der Kovariablen auf die abhängige Variable die reinen Treatmentwirkungen besser zu isolieren. Die Kovarianzanalyse ist vor allem für die Auswertung von Versuchen mit vorgegebenen Gruppen, z.B. Schulklassen, Trainingsgruppen, Altersgruppen, etc., die nicht beliebig ausgewählt oder homogenisiert werden können, von großem Nutzen (Kirk 1968, S. 455if.). Selbstverständlich könnte das Modell (2.1) als ein globales Regressionsmodell mit der Designmatrix (X, Z) angesehen und mit den Methoden aus Kapitel 4 behandelt
198
Kapitel 5 Varianz- und Kovarianzanalyse
werden. In der Kovarianzanalyse wird jedoch gewöhnlich eine andere Vorgehensweise bevorzugt. Man berücksichtigt die Resultate des varianzanalytischen Teils E(y) = Χμ von Modell (2.1) - etwa gemäß den in den letzten Abschnitten dieses Kapitels behandelten Verfahren - und benützt eine zweistufige Kleinst-Quadrate-Schätzung. Dieses Konzept ist für die Kovarianzanalyse günstiger, da man die in den verschiedenen Teststatistiken benötigten Größen in der Regel auf einfachere Weise erhält als mit dem globalen Regressionsmodell. Die einzelnen Schritte, die bei dieser zweistufigen Vorgehensweise durchzuführen sind, werden im folgenden kurz dargestellt und erörtert. Für die exakten Ableitungen vergleiche man ζ. B. Scheffe (1959), Kap. 6, Seber (1977), See. 3.7.3 bzw. 10.1 oder Schach/Schäfer (1978), Kap. 3.3. Im Anschluß daran werden die durchzuführenden Schätzungen und Hypothesentests anhand des Modells (2.2) eines einfaktoriellen Versuchsplans mit einer Kovariablen erläutert. Genaugenommen ist im Modell (2.1) die Annahme rg(X) = ρ nicht notwendig. Die Ableitungen erfordern dann gewisse Modifikationen, etwa die Einführung einer verallgemeinerten Inversen, die Aussagen bleiben jedoch im wesentlichen gültig, insbesondere sind die Residuenquadratsummen RSS, RSS 0 , etc. und damit die F-Tests unverändert. Da die hier behandelten Versuchspläne stets Parametrisierungen zulassen, bei denen die Designmatrix X vollen Rang besitzt (vgl. Abschnitt 1), gehen wir immer von rg(X) = ρ aus.
2.1 Allgemeine zweistufige Vorgehensweise Die stufenweise Berechnung der Parameterschätzungen und der Residuenquadratsummen ist folgendermaßen vorzunehmen (vgl. Seber 1977, Theorem 3.7 bzw. See. 3.7.3): a) Zuerst ist die gewöhnliche KQ-Schätzung μ = (X'X)~ 1 X'y des varianzanalytischen Modells E(y) = Χμ ohne Kovariablen sowie die Residuenquadratsumme RSS = (y — Χμ)' (y — Χμ) = y' Py
mit
P = I-X(X'X)"1
(2.3)
zu berechnen. b) Zur Schätzung von y im Gesamtmodell (2.1) ist in RSS der Vektor y durch y — Zy zu ersetzen und in Abhängigkeit von γ zu minimieren. Man erhält Q = (y - Zy)'Ρ(y - Zy)
mit Ρ aus (2.3)
= y'Py — 2y'Z'Py + y'Z'PZy bzw.
(2.4)
SQ = — 2Z'Py + 2Z'PZy. dy Nullsetzen liefert y* = ( Z ' P Z ) " 1 Z ' P y
(2.5)
2. Kovarianzanalyse
199
(Da es sich um eine Schätzung von y im Gesamtmodell (2.1) handelt, wurde sie im Unterschied zu y = (Z'Z)~ 1 Z'y, der KQ-Schätzung im Teilmodell E(y) = Zy, mit y* bezeichnet). (2.5) und der Definition von Ρ ist zu entnehmen, daß y* eine beste lineare unverzerrte Schätzung im Modell y = PZy + ε ist. c) Die Schätzung ß* im Gesamtmodell (2.1) ergibt sich, indem man in β y durch y — Zy* ersetzt, also eine um Zy* bereinigte Regression von y auf χ durchführt. Man erhält ß* = (X'X) _ 1 X'(y — Zy*).
(2.6)
d) Die Residuenquadratsumme im Gesamtmodell ist gegeben durch das Minimum von (2.4) RSS g = Q min = (y - Zy*)'P(y - Zy*) ~ X 2 (N - ρ - q).
(2.7)
e) Bei der Berechnung von RSS 0 zur Überprüfung einer linearen Hypothese C/ι = 0 geht man analog vor.
2.2 Einfaktorieller Versuchsplan mit einer Kovariablen Gemäß (2.2) ist die Modellgleichung eines einfaktoriellen Versuchsplans mit einer Kovariablen und J Beobachtungen pro Faktorstufe Yij = μ> + yz.j +
i = l,...,I;
j = 1
J,
(2.8)
2
wobei die gy unabhängig und nach N(0, σ ) verteilt sind. Gelegentlich wird statt (2.8) die reparametrisierte Version yij = Ä + y ( Z i j - z + + ) + Eij
(2.9)
mit z + + = T7Σ ΣZjj, J.J i
j
i = 1 , . . . , I; j = 1 , . . . , J,
verwendet. Dadurch wird u. a. sichergestellt, daß analog zum einfaktoriellen varianzanalytischen Modell (1.1) Ε (y^) = μ ; gilt. Da jedoch die Resultate, insbesondere die Teststatistiken zur Überprüfung der interessierenden Hypothese Η0:μ1 = ... = μ1 in (2.8) bzw. /ij = ... = /i, in (2.9) identisch sind, beschränken wir uns auf das Modell (2.8). Zuerst berechnet man für den varianzanalytischen Teil des Modells (2.8) die üblichen Schätzungen nach Abschnitt 1 Ai = y i + ,
i = i,...,i,
und daraus die Residuenquadratsumme (vgl. 1.10))
200
Kapitel 5 Varianz- und Kovarianzanalyse
RSS= Σ Σ ( y i j - y i + ) 2 . i=l j = 1
(2.10)
Dann ersetzt man in (2.10) y ;j durch y^ — yzit und erhält Q = Σ> Σj (Υϋ - rzij - J7 Σj (y« - v^)) 2 = = ΣΣ^-^ i j
+
-Ηζ
υ
-ζ
ί +
))
2
(mitz i + = τ Σ z i j ) · J j
(2.11)
Mit czz
2
(IJ-I-l).
204
Kapitel 5 Varianz- und Kovarianzanalyse
Bei Gültigkeit von H 0 : γ = 0 erhält man das übliche Modell der einfaktoriellen Varianzanalyse ohne Einbeziehung einer Kovariablen, nämlich (vgl. z.B. (1.10)) i
j
Als Teststatistik resultiert F = ^
_QA/Qzz
•
(2.29)
Sie ist unter H 0 F-verteilt mit 1 und (IJ — I — 1) Freiheitsgraden. Anwendung auf Beispiel 2.1. Es ergibt sich für (2.29) F = 27.34, während F ( l , 17; 0.95) = 4.45 ist.
Simultane Konfidenzintervalle Wird die Hypothese H 0 : = 0, i = 1,..., I, daß keine Treatmenteffekte vorliegen, abgelehnt, lassen sich auch für das kovarianzanalytische Modell simultane Vertrauensbereiche für beliebige Kontraste konstruieren, um herauszufinden, welche Kontraste für die Ablehnung von H 0 verantwortlich sind. H 0 wird genau dann abgelehnt, wenn mindestens eines der simultanen Konfidenzintervalle (vom Scheffe-Typ) 1/2
Σ ci®i i [(I — 1)F(I — 1; IJ — I — 1; 1 «)] i
RSS„ IJ - I - 1
•Zc?
( Σ ο , ζ ί + ) \ Ί 1/2 (2.30)
J
mit RSS = Qyy - Qy
und
Σ Cj = 0
den Wert 0 nicht enthält. Eine detaillierte Ableitung von (2.30) findet man bei Scheffe (1959), Kap. 6.3, Seber (1977), S. 286/287, oder Timm (1975), S. 478. Abschließende Bemerkungen, a) Die Modelle der zwei- und mehrfachen Kovarianzanalyse mit mehreren Faktoren bzw. mit mehreren Kovariablen können nach dem allgemeinen Modell (2.1) aufgebaut werden und die erforderlichen Teststatistiken leiten sich stets nach dem zu Beginn dieses Abschnitt dargestellten allgemeinen zweistufigen Schema ab. b) In einigen Fällen ist es nicht möglich, die Kovariable vor dem Experiment zu erheben, sondern sie wird gleichzeitig mit der abhängigen Variablen gemessen. Dann sind die Modelle der Kovarianzanalyse wie die Regressionsanalyse mit stochastischen Regressoren aufzufassen. Es ist darauf zu achten, daß die Kovariablen
3. Versuchspläne mit zufälligen Effekten, genestete Designs
205
nicht durch die Treatments beeinflußt werden. Dies ist jedoch in einigen Fällen nicht einfach zu entscheiden. c) Liegen in den einzelnen Gruppen bzw. für die einzelnen Faktorstufen unterschiedliche Beobachtungsanzahlen vor, bleiben die Methoden der einfaktoriellen Kovarianzanalyse gültig, wenn in den Quadratsummen bzw. Teststatistiken analog zu Abschnitt 1.1 die erforderlichen einfachen Modifikationen vorgenommen werden.
3. Versuchspläne mit zufälligen Effekten, genestete Designs und Meßwiederholungspläne 3.1 Grundbegriffe und Kennzeichnung des Designs Die in den vorangegangenen Abschnitten beschriebenen Versuchspläne waren dadurch gekennzeichnet, daß die Stufen der Faktoren fest vorgegeben sind und die statistischen Inferenzen nur diese vorher festgelegten Faktorstufen betreffen. In solchen Fällen spricht man von Modellen mit festen Effekten. Repräsentieren hingegen die Faktorstufen lediglich eine Zufallsauswahl aus einer Gesamtheit von möglichen Faktorstufen, spricht man von einem Modell mit zufälligen Effekten. Beispiel 3.1. In Beispiel 1.1 wurden vier verschiedenen Unterrichtsmethoden für einen Lehrgang verglichen. Neben den Unterrichtsmethoden könnte aber auch die jeweilige Lehrperson die erzielten Resultate der Lehrgangsteilnehmer beeinflussen. Da man aber nicht alle in Frage kommenden Lehrpersonen in eine experimentelle Untersuchung aufnehmen kann, sondern nur eine Auswahl, handelt es sich bei dem Faktor „Lehrperson" um einen zufälligen Faktor, d.h. einen Faktor mit zufällig ausgewählten Stufen. Bei Einbeziehung der Faktoren „Unterrichtsmethode" und „Lehrperson" in den Versuchsplan erhält man ein sog. „gemischtes" zweifaktorielles Modell, bei dem ein Faktor fest und ein Faktor zufällig ist.
Da die Auswahl der Stufen die Auswahl bestimmter Effekte impliziert, ist der Terminus „Modell mit zufälligen Effekten" gerechtfertigt. In der Regel sind die einzelnen Stufeneffekte von untergeordnetem Interesse, da die Schlußfolgerungen der statischen Analyse für die gesamte Population gelten sollen. Man interessiert sich statt dessen für die Variabilität aller Stufen, die durch die Varianz operationalisiert wird. Klassische Beispiele für häufig vorkommende stochastische Faktoren sind der Personenfaktor, der Interviewer- oder Forscherfaktor (vgl. Bsp. 3.1) oder ein Feld(Plot-)Faktor in landwirtschaftlichen Experimenten. Im allgemeinen interessiert man sich bei derartigen Untersuchungseinheiten-Faktoren nicht für die Effekte der einzelnen Stufen. Im Gegensatz dazu sind bei fixen Faktoren die Effekte der einzelnen Stufen stets bedeutsam. Ferner ist zu beachten, daß Interaktionen zwischen fixen und stochastischen Faktoren jeweils wieder stochastisch sind. Genestete Designs Ein weiteres Charakteristikum der Versuchsplanung betrifft das Kreuzen und „Nesten" von Faktoren. Bisher wurde davon ausgegangen, daß bei einem zwei-
Kapitel 5 Varianz- und Kovarianzanalyse
206
faktoriellen Design für jede Stufe des Faktors Α in allen Stufen des Faktors Β Untersuchungseinheiten vorhanden sind. In einem solchen Fall heißen die beiden Faktoren Α und Β vollständig gekreuzt. Entsprechendes gilt, falls mehr als zwei Faktoren beteiligt sind. Die Zellen des Versuchsplans repräsentieren dann alle Kombinationen der Stufen der beteiligten Faktoren. Bei manchen Designs ist es aber nicht möglich, sämtliche Stufen der Faktoren miteinander zu kombinieren.
Beispiel 3.2. Neben den Faktoren „Unterrichtsmethode" und „Lehrperson" soll noch der Faktor „Schule" einbezogen werden. Da eine Lehrperson im Normalfall nicht an verschiedenen Schulen unterrichten kann, ist hier ein vollständiges Kreuzen der drei Faktoren ausgeschlossen.
Es kann auch vorkommen, daß ein derartiges Durchkombinieren gar nicht notwendig ist, etwa weil theoretische Gründe eine Interaktion zwischen den Faktoren ausschließen. Ein weiterer Grund für eine nur teilweise Kreuzung der Faktoren besteht darin, daß die notwendige Anzahl von Untersuchungseinheiten bei zunehmender Zahl der einbezogenen Faktoren sehr rasch ansteigt. Eine ganz spezielle Art von nur teilweise gekreuzten Faktoren ist das Nesting·. Bei jeder Stufe des Faktors Α sind nur ganz bestimmte Stufen des Faktors Β besetzt bzw. jede Stufe von Β hat nur in einer einzigen Stufe von Α Untersuchungseinheiten. Dann heißt Faktor Β in Faktor Α genestet. Dies wird formal meist durch B(A) ausgedrückt.
Beispiel 3.3. Man vergleiche Beispiel 3.2. Werden in die Untersuchung zwei Unterrichtsmethoden (M), zwei Schulen (S) und sechs Lehrpersonen (L) einbezogen, ergibt sich für den Versuchsplan folgende Kreuztabelle: Schule 1 LI
L2
Ml
•
•
M2
•
L3
L4
Schule 2 L5
L6
LI
L2
L3
L4
L5
L6
•
•
Bei einem vollständig gekreuzten Versuchsplan Μ χ L x S müssen für alle 24 Zellen Meßwerte vorliegen. Unterrichten hingegen die Lehrpersonen LI bis L3 an Schule 1 und die Lehrpersonen L4 bis L6 an Schule 2, wobei jede Lehrperson alternativ beide Unterrichtsmethoden einsetzt, ergibt sich ein genestetes Design Μ χ L(S). Dabei ist der Faktor „Lehrperson" in den Stufen des Faktors „Schule" genestet und nur die m i t ' gekennzeichneten Zellen enthalten Meßwerte für die abhängige Variable.
Das Nesting kann sich auch auf mehrere Ebenen erstrecken. So kann beispielsweise ein Faktor Β in den Stufen des Faktors Α genestet sein, während gleichzeitig ein weiterer Faktor C im Faktor Β genestet ist.
3. Versuchspläne mit zufälligen Effekten, genestete Designs
207
Beispiel 3.4. Für einen Versuchsplan liege folgende Kreuztabelle vor:
A
Hier ist Faktor C in Faktor Β und Faktor Β in Faktor Α genestet, formal ausgedrückt durch C(B(A)).
Darüber hinaus sind beliebig viele weitere Strukturen mit genesteten Faktoren möglich. Beispielsweise kann ein Faktor auch in den Kombinationen der Stufen von zwei oder mehr Faktoren genestet sein, etwa C(A x B). Verallgemeinerungen sind ohne Schwierigkeiten möglich. Ein Nesting etwa der Form B(A) hat für die Modellierung und die Vergleiche der Stufen der involvierten Faktoren bezüglich der abhängigen Variablen verschiedene Konsequenzen (vgl. Nagl (1992), S.204): 1. Haupteffekte können sowohl für Α als auch für Β in das Modell aufgenommen werden. 2. Es ist nicht möglich, eine Interaktion zwischen Α und Β zu definieren. 3. Vergleiche zwischen den Stufen der Faktoren selbst sind nur eingeschränkt möglich. Einerseits können innerhalb einer bestimmten Stufe von Α nur einige Stufen von Β miteinander verglichen werden, keineswegs aber alle. Andererseits ist aufgrund der genesteten Struktur ein Vergleich verschiedener Stufen von A implizit ein Vergleich bestimmter B-Stufen mit anderen B-Stufen. Split-Plot-Designs
Die Bezeichnung ,Split-Plot-Desgin' stammt aus landwirtschaftlichen Versuchen (Plot heißt Feld). Jedes Feld (Plot) erhält eine spezielle Behandlungsart ( = Stufe) eines Faktors A. Jedes Feld wird dann aufgeteilt in Teilfelder (Subplots), die jeweils die verschiedenen Behandlungsarten eines zweiten Faktors Β enthalten. Die Subplots werden in der Regel als homogener angesehen. Dementsprechend sollte das statistische Modell für einen Split-Plot-Plan für die Beobachtungen der Responsevariablen eines Feldes stochastische Abhängigkeiten erlauben. In anderen Disziplinen werden statt der Plots sog. Blöcke von Untersuchungseinheiten gebildet. Dabei werden die Untersuchungseinheiten vor dem Experiment nach einem oder mehreren Kontrollmerkmalen (bei Personen z.B. Geschlecht, Alter, Intelligenz, soziale Schichtzugehörigkeit, etc.) homogenisiert. Die Objekte innerhalb eines Blocks entsprechen den Subplots und ihre Anzahl ist gleich der Zahl der Stufen des Faktors B. Durch die Blockbildung wird versucht, aufgrund der Homogenisierung die Variation innerhalb der Blöcke (die nicht auf die unterschiedlichen Stufen von Faktor Β zurückzuführen ist) zu verringern und auf diese Weise die Aufdeckung von eventuell vorhandenen Behandlungseffekten zu erleichtern. Dem-
208
Kapitel 5 Varianz- und Kovarianzanalyse
entsprechend ist bei einem Split-Plot-Design der „Within-Block"-Faktor Β von vorrangigem Interesse. Ein Extremfall einer Blockbildung ergibt sich, wenn jeder Block nur aus einer Person (bzw. Objekt) besteht. Diese wird dann nacheinander allen Versuchsbedingungen von Faktor Β ausgesetzt, wobei jeweils eine Messung vorgenommen wird. Auf diese Weise entsteht ein Versuchsplan mit Meßwiederholungen. Die varianzanalytische Modellierung von Meßwiederholungsdesigns wird im nächsten Abschnitt behandelt. Gemeinsam haben Split-Plot-Designs mit Blockbildung bzw. Meßwiederholung, daß die Objekte eines Blocks bzw. eine Person nur einer Stufe des einen Faktors (A), aber allen Stufen des anderen Faktors (B) ausgesetzt sind. Es handelt sich also um ein genestetes Design.
Zufällige Blockpläne
Ein zufälliger Blockplan ist ein Spezialfall eines Split-Plot-Plans, bei dem der Faktor Α fehlt. Es wird lediglich der „Within-Block"- bzw. „Repeated-Measurements"-Faktor berücksichtigt und eine Stichprobe von Blöcken (mit jeweils so vielen Objekten wie Stufen des Faktors untersucht werden) bzw. Personen ausgewählt. Sowohl bei einem Design mit zufälligen Blöcken als auch beim allgemeineren Split-Plot-Plan repräsentieren die Blöcke eine Stichprobe aus einer übergeordneten Population und der zugehörige Block- bzw. Personenfaktor besitzt zufällige Effekte. Das eigentliche Untersuchungsziel gilt jedoch dem oder den Faktoren mit festen Effekten. Nun werden anhand eines Beispiels Split-Plot-Design, zufälliger Blockplan und vollständig gekreuztes Design miteinander verglichen. Beispiel 3.5. Es werden zwei feste Faktoren Α und Β mit 2 bzw. 3 Stufen betrachtet, a) Vollständig gekreuztes Design (balanced Design) Β b[
b2
b3
i
Sn
S12
S13
a2
s21
s22
^23
a
A
Dabei repräsentieren S;j jeweils Stichproben von Κ Untersuchungseinheiten. Es werden insgesamt 2 • 3 · Κ Untersuchungseinheiten benötigt. b) Zufälliger Blockplan Man kann die sechs Kombinationen der Faktoren Α und Β als einen Treatment-Faktor auffassen und erhält die Kreuztabelle: aA s,
atb2 Si
a
lt>3 S
1
a2t>i
a2b2
a2b3
S,
s,
s,
3. Versuchspläne mit zufälligen Effekten, genestete Designs
209
N u n repräsentiert S, eine Stichprobe von Κ Blöcken mit jeweils 6 Objekten (bei Blockbildung) bzw. von Κ Personen (bei Meßwiederholung). Die 6 Objekte eines Blocks werden zufällig auf die Versuchsbedingungen a , ^ aufgeteilt, beim Meßwiederholungsplan wird - falls möglich - die Reihenfolge der Versuchsbedingungen randomisiert. Für jede Versuchsbedingung erhält man Κ Meßwerte der abhängigen Variablen. c)
Split-Plot-Plan Faktor Α sei der „Between-Block"- bzw. „Non-Repeated-Measurements-Faktor", Faktor Β sei der „Within-Block"- bzw. „Repeated-Measurements-Faktor". Man erhält folgende Tabelle:
b,
b2
b3
i
s,
s,
Si
2
S2
s2
s2
a a
S, und S 2 repräsentieren jetzt Stichproben von Κ Blöcken mit je 3 Objekten bzw. Personen. Jede Zelle enthält wieder Κ Meßwerte. Betrachten wir einen Meßwiederholungsplan, so wird deutlich, daß z.B. eine Person aus Sj nur Stufe a, von A, aber allen drei Stufen von Β ausgesetzt ist. Personen aus S 2 hingegen sind nur Stufe a 2 von Α (und allen Stufen von B) ausgesetzt.
3.2 Einige Modelle Blockbildung und Meßwiederholung haben als gemeinsames Ziel die Verringerung der Heterogenität der Messungen. Meßwiederholungsdesigns sind vor allem in den Sozialwissenschaften populär. In diesen Disziplinen sind die Untersuchungseinheiten in der Regel Personen. Erfahrungsgemäß sind die Messungen an verschiedenen Personen sehr heterogen, so daß vorhandene Treatment-Effekte überlagert bzw. verdeckt werden können. In vielen experimentellen Fragestellungen, etwa in der Psychologie, steht nur eine begrenzte Anzahl von Versuchspersonen zur Verfügung. In solchen Fällen liefert ein Meßwiederholungsdesign eine deutliche Ersparnis, da jede Person einen Block repräsentiert. Außerdem wird die Variabilität verringert, da jede Person auch als „Kontrolle" agiert, wobei sich die auf die Treatments zurückgehende Variation der Messungen in der Variabilität der Messungen um den Mittelwert für diese Person manifestiert. Allerdings ist darauf zu achten, daß keine systematischen Lern- bzw. Transfereffekte aus der Reihenfolge der Treatments resultieren. Häufig wird vorgeschlagen, die Reihenfolge der Applikationen bei den verschiedenen Personen zufällig zu wählen. In manchen Situationen ist jedoch die Zahl der möglichen Meßwiederholungen begrenzt oder Meßwiederholungen sind sogar gänzlich ausgeschlossen. Betrachten wir der Einfachheit halber ein Design mit nur einem Faktor mit G Stufen (Versuchsbedingungen). Block-, Meßwiederholungs- und Split-Plot-Plan (bei Erweiterung auf zwei Faktoren) haben gemeinsam, daß jeder Messung unter einer Versuchsbedingung in allen anderen Versuchsbedingungen jeweils eine in möglichst vielen Aspekten gleiche oder zumindest ähnliche Messung entspricht. Dies bedeutet, die Messungen eines Blocks bzw. einer Person bzw. innerhalb eines Plots können als G-Tupel
210
Kapitel 5 Varianz- und Kovarianzanalyse
(yii,yi2»---.yiG) dargestellt werden, wobei i die Nummer des Blocks bzw. der Person bzw. des Plots bezeichnet. Gruppen von Messungen, für die eine solche Zuordnungsregel existiert, heißen verbundene Gruppen bzw. Stichproben. Die Beobachtungswerte bei verbundenen Gruppen bzw. Stichproben sind im statistischen Sinne abhängig. Wegen dieser Konsequenz ist auch die Bezeichnung abhängige Stichproben gebräuchlich. Je besser parallelisiert wurde (die Tupel sollten in möglichst vielen Aspekten übereinstimmen, außer in den Versuchsbedingungen des zu untersuchenden Faktors), desto höher wird auch die Abhängigkeit der Meßwerte sein. Sie ist bei der Modellierung auf jeden Fall zu berücksichtigen. Mittelwertunterschiede zwischen verbundenen Stichproben sind im allgemeinen aussagekräftiger. Hier kann der Unterschied eher dem Treatment-Faktor zugeschrieben werden als bei unverbundenen Stichproben, bei denen andere mögliche Aspekte bei der Zusammenstellung der Stichproben unberücksichtigt bleiben und für die Mittelwertunterschiede ebenfalls verantwortlich sein können. Die Betrachtung von Meßwertetupeln liefert ein übergeordnetes Konzept für die Analyse von Block- und Meßwiederholungsdesigns mit demselben statistischen Instrumentarium. Es bleibt nun die Frage zu klären, was in diesem allgemeinen Konzept die eigentlichen Untersuchungseinheiten sind. Sind es die einzelnen Messungen oder sind es die Einheiten, die parallelisiert wurden? In der Literatur zum Design von Experimenten werden meist die parallelisierten Einheiten (Blöcke oder Plots) als Untersuchungseinheiten aufgefaßt, die dann als „wiederholt gemessen" gelten. Man könnte jedoch die Messungen selbst ebenso als Untersuchungseinheiten ansehen, wenn bei den Modellen zur Auswertung die Verbundenheit bzw. Abhängigkeit angemessen berücksichtigt wird.
3.2.1 Modell mit einem Wiederholungsfaktor (zufälliger Blockplan) Das Hauptinteresse gilt hier der Wirkung eines festen Faktors Α mit J Stufen, der auch Wiederholungsfaktor heißt. Daneben enthält der Versuchsplan noch den Untersuchungseinheitenfaktor Π der aus I Blöcken bzw. Personen besteht. Das Modell ist gegeben durch: yi} = μ + π, + α.·} + ε^
(3.1)
Dabei gilt: α· sind fixe Effektgrößen (j = 1 , . . . , J) des Wiederholungsfaktors, £ otj = 0 j
7tj sind zufallige Personen- oder Blockeffekte. Annahmegemäß sind die n i unabhängige und identisch N(0; ff^)-verteilte Zufallsvariablen. sind unabhängige und identisch N(0; σ^)-verteilte Störgrößen. Außerdem wird cov^i.ejj) = 0 angenommen, i = 1 , . . . , I ; j = 1,..., J. Mit diesen Annahmen erhält man unmittelbar: E(yij) = /J + oij var(y ; j ) = σξ + σε2
(3.2)
3. Versuchspläne mit zufälligen Effekten, genestete Designs
211
Im Unterschied zum Modell mit ausschließlich festen Effekten ist hier Var(yjj) aus zwei Varianzkomponenten zusammengesetzt. Außerdem sind die gemessenen Werte nicht mehr alle stochastisch unabhängig, vielmehr ergibt sich eine spezielle Form der Kovarianz bzw. Korrelation zwischen den verschiedenen Messungen eines Blocks bzw. einer Person auf den Stufen des Wiederholungsfaktors (Compound Symmetry), (3-3) bzw. für die Korrelation
ρ heißt Intra-Klassen-Korrelationskoeffizient und ist nicht negativ. Faßt man die Meßwerte der i-ten Untersuchungseinheit im Vektor y ; zusammen, resultiert die Kovarianzmatrix cov
( y i ) = σπ i i ' + σ ε ι
(3.5)
Dabei ist 1 ein J-dimensionaler Vektor mit lauter Einsen und I ist die (J χ J)Einheitsmatrix. Da die Messungen verschiedener Untersuchungseinheiten unabhängig sind, ergibt sich für die Kovarianzmatrix des gesamten Beobachtungsvektors y eine (IJ χ IJ)Blockdiagonalmatrix mit Blöcken gemäß (3.5). Daraus wird ersichtlich, daß nicht wie im Modell mit festen Effekten cov(y) = σ 2 Ι gilt. Die Bezeichnung ,Compound Symmetry' für die Kovarianzstruktur (3.3) kommt daher, daß die Messungen sowohl gleiche Varianzen als auch identische (positive) Kovarianzen besitzen. Das Vorliegen dieser Kovarianzstruktur ist eine hinreichende Bedingung für die Durchführbarkeit der üblichen univariaten F-Tests zur Überprüfung der Behandlungseffekte. Als Test zur Überprüfung der Compound-Symmetry-Struktur kann der Sphärizitätstest (Mauchly, 1940) in einer speziellen Variante eingesetzt werden. In manchen Fällen kann diese Struktur nicht mehr gültig sein, beispielsweise kann in einem Meßwiederholungsdesign die Unabhängigkeitsannahme für die J Störgrößen einer Person verletzt sein. In solchen Fällen kann man entweder multivariate Mittelwerttests durchführen (dann wird die gesamte Kovarianzmatrix geschätzt, vgl. Abschnitt 4) oder in der Regel konservative Tests der Hypothese verwenden (nach Greenhouse und Geisser, 1959). Huynh und Feldt (1976) haben die strengen Greenhouse-Geisser-Bedingungen etwas gelockert und konnten so einen etwas weniger konservativen Test formulieren. Die hauptsächlich interessierende Hypothese betrifft die Effekte des Wiederholungsfaktors A H 0 : a 1 = a 2 = ... = (Xj = 0
(3.6)
Der Wiederholungsfaktor wird auch als Within-Faktor bezeichnet, da die Stufen innerhalb eines Blocks bzw. einer Person gemessen werden. Die zu berechnenden Größen sind in der folgenden Anova-Tabelle zusammengefaßt.
212
Kapitel 5 Varianz- und Kovarianzanalyse
Tab. 3.1: Tabelle des Modells mit einem Wiederholungsfaktor Summe der Abweichungsquadrate
Freiheitsgrade
Faktor Α SS, = l £ ( y + J - y + + ) 2 (feste Effekte) J
J-l
Blöcke
SS„ = j £ ( y i + - y + + ) 2
1-1
Residual
SSE = l £ £ ( y u " *·+ " Ϊ+J +
+>2
E(MQ) σ£ε2 + — V a Jf
(I-1)(J-1)
Aus Tabelle 3.1 wird ersichtlich, daß zur Überprüfung der Nullhypothese (3.6) die Teststatistik SS./(J-1)
=
SS,/(I-1)(J-1) verwendet werden kann. Sie besitzt bei Gültigkeit von H 0 eine (zentrale) F-Verteilung mit J — 1 und (I — 1)(J — 1) Freiheitsgraden. Liegen keine Meßwiederholungen vor, wird das Modell des zufalligen Blockplans gelegentlich auch ausschließlich mit festen Effekten formuliert (vgl. etwa Jobson, 1991, S. 431). Es ergeben sich dabei dieselben zu berechnenden Quadratsummen und Prüfgrößen.
3.2.2 Modell mit zwei Wiederholungsfaktoren Dieses Modell ist eine Erweiterung des Modells im letzten Abschnitt und enthält zwei Wiederholungsfaktoren Α und Β mit J bzw. Κ Stufen. Außerdem wird wie beim zufälligen Blockplan mit einem Wiederholungsfaktor von einem Untersuchungseinheiten-Faktor Π ausgegangen, der aus I Blöcken bzw. Personen bestehen kann. Die zur Kombination Aj B k gehörenden Mittelwerte /xjk der festen Faktoren können wie beim zweifaktoriellen Modell mit ausschließlich festen Effekten (vgl. Abschnitt 1.2) in Effektdarstellung zerlegt werden in Haupt- und Interaktionseffekte: j"jk = «j + ßk + ()jk=0. j k j k Das gesamte Modell ist gegeben durch Yijk = i = ι
μ
+ π, + ocj + (Tta)ij + ßk + (nß)ik i; j = ι J; k = ι , . , . , κ
+ (Λβ\
+
eijk (3
8)
Neben den fixen Haupt- und Interaktionseffekten der Wiederholungsfaktoren sind nur noch stochastische Effekte enthalten, da Interaktionseffekte zwischen Untersuchungseinheitenfaktor und festen Faktoren stets als stochastisch vorausgesetzt werden. Die Annahmen sind:
3. Versuchspläne mit zufälligen Effekten, genestete Designs
213
(a) Jtj ~ N(0; ( π α )\ί ~ N(0; ( n ß)ik ~ N(0; σίβ) £ ijk ~ N(0; oo für i = 1 , . . . , I und festes I erhalten werden oder für Ν oo, ohne daß die Teilstichprobenumfänge N; gegen oo gehen müssen. Der letztere, beweistechnisch schwierigere Fall ist für ungruppierte D a t e n oder gruppierte Daten mit kleinen N; zutreffend.
1.2 Definition generalisierter linearer Modelle D a s klassische lineare Modell für ungruppierte normalverteilte Zielvariablen und deterministische Regressoren ist durch die Beziehung yn = ß0+
ßlxnl
+ ··· + i V n p + £ n = Kß + ^n ,
(1-1)
η = 1 , . . . , Ν , definiert. D i e Fehler e n werden als unabhängig und identisch normalverteilt mit εη~Ν(0,σ2) angenommen. Wir schreiben das Modell in einer Form, die in natürlicher Weise zu generalisierten linearen Modellen führt: D i e Beobachtungen y n sind unabhängig
244
Kapitel 6 Kategoriale und generalisierte lineare Regression
und normalverteilt, Υη ~ Ν(μ η ,σ 2 ),
(1.2)
η = 1,..., Ν ,
mit μ η = E(y n ). Der Erwartungswert (1.3)
= Kß 2
stellt die systematische Komponente des Modells dar, σ = var(y n ) zusammen mit der Normalverteilungsannahme bildet die stochastische Komponente. Falls die Kovariablen stochastisch sind, nehmen wir an, daß die Paare (y n ,x n ) unabhängig und identisch wie das typische Paar (y,x) verteilt sind. Das Modell (1.1) bzw. (1.2) ist dann bedingt zu verstehen, d.h. (1.2) ist die bedingte Dichte von yn gegeben x n , μη ist der bedingte Erwartungswert E(y n |x n ), und die yn sind bedingt unabhängig. Dies gilt in analoger Weise für die folgende Definition univariater generalisierter linearer Modelle. Die Annahmen für das klassische lineare Modell werden dabei so abgeschwächt, daß eine deutliche umfangreichere und flexiblere Modellklasse entsteht. D e f i n i t i o n 1.4. Wir sprechen von einem univariaten generalisierten linearen Modell, kurz GLM, wenn gilt: a)
Verteilungsannahme: Die Dichte von yn gehört einer einparametrigen, einfachen Exponentialfamilie mit natürlichem Parameter 0 n , sowie zusätzlichem Skalen- oder Dispersionsparameter φ und Gewicht wn an (vgl. Kap. 2.5.2, Def. 5.4): (1.4) Dabei ist der Dispersionsparameter φ von η unabhängig und im allgemeinen unbekannt. Für ungruppierte Daten sind die Gewichte wn = 1. Für gruppierte Daten sind in (1.4) die Indizes η gegen i zu tauschen und es ist Wj = Nj, i = 1 , . . . , I, falls als Zielvariable der Durchschnitt yi genommen wird bzw. Wj = 1 /N; falls die Summe statt des Durchschnitts verwendet wird. Die Funktionen b(.) und c(.) spezifizieren die jeweilige Exponentialfamilie.
b)
Strukturannahme: Der Erwartungswert μ η ist mit dem linearen Prädiktor ^n = ßo + ßl X nl + •·· + ßpXnp = Xnß über die Beziehung Mn = MO
= h(x'J)
bzw.
g(ßn) = ηη
verknüpft. Dabei ist h eine eindeutige und hinreichend oft differenzierbare Responsefunktion\ die inverse Funktion g = h _ 1 heißt Linkfunktion.
1. Univariate generalisierte lineare Modelle
245
Bemerkung 1.5 Ein spezifisches generalisiertes lineares Modell ist somit durch den Typ der Exponentialfamilie, die Wahl der Link- oder Responsefunktion und die Definition und Auswahl der Regressoren vollständig charakterisiert. a) Wichtige Verteilungen, die zur Exponentialfamilie gehören, sind die Normal-, Binomial-, Poisson-, und Gammaverteilung, (vgl. Kap. 2.5.1 und 2.5.2). Wegen des zusätzlichen Dispersionsparameters φ und der Gewichte W; gelten gegenüber Kap. 2.5.2 etwas allgemeinere Beziehungen zwischen dem natürlichen Parameter und den Momenten. Der natürliche Parameter θη ist mit dem Erwartungswert μ η durch die Beziehung μη = ν ( θ η )
bzw.
θπ = ψ(μη)
verbunden. Für die Varianz von yn gilt var(y„) = σ2(μη) = φυ(μη)Ι\να
(1.5)
mit der Varianzfunktion υ (μη) = ta"(ÖJ = b"(tp(/0) • Für φ = 1, wn = 1 ist var(y n ) = υ(μη) wie in Kap. 2.5.2. Für normalverteilte yn ~ Ν(μ η ,σ 2 ) erhält man mit e,
,
1
2n
ί/*ηΥ„ ] 2
1/2πσ
l
μΐ 1 Λ2I
σ
ί 2y2 ^ 1 2
2σ 2 J
[
σ2
die Beziehungen μη = θη,
φ = σ2,
b(0 n ) = b(/zn) = /zn2/2,
sowie die Varianzfunktion υ(μ η ) = b"(/i n ) = 1 und die Varianz σ 2 (μ η ) = σ2. Für ungruppierte binäre yn ~ Β(1,π η ) erhält man wie in Kap. 2.5.2 eXP(fln)
1 + exp (ö n )'
„
, n
π
η
1 — πη '
ο(μΒ) = υ(π η ) = π η (1 - π η ) , und φ = l,w n = 1. Binomialverteilte Zielvariablen fassen wir als gruppierte binäre Zielvariablen auf mit yt~B(N„ni),
1= 1
1,
wobei N, der Umfang der Gruppe i ist und y; die absolute Häufigkeit bedeutet. Wie in Kap. 2.5.2 oder einfacher direkt verifiziert man, daß φ = 1,W; = 1 /N ä gilt. Verwendet man statt der absoluten Häufigkeiten die relativen Häufigkeiten y;, so sind diese skaliert binomialverteilt, d.h. der Wertebereich ist {0,1 /Nj, 2/Nj,..., 1}. Die Dichte läßt sich in der Form
246
Kapitel 6 Kategoriale und generalisierte lineare Regression
f (y, I π,) =
J exp j(y, In
+ In (1 - πί))Νί J
schreiben. Also ist
der natürliche Parameter und es gilt φ = 1, Wj = Nj. Den Spezialfall von binären Zielvariablen, d.h. yj ~ B ( l , e r h ä l t man für Nj = 1. Für Poisson-verteilte Zielvariablen yn ~ Ρ(/ n ) ist nach Kap. 2.5.2 0n = logA n , φ = l,w n = 1 und E(y n ) = var(y n ) = λη. Geht man nach Gruppierung zu Durchschnitten y; über, so gilt weiter E(y;) = λί7 aber var(ys) = α ; /Ν;, also w, = N , b) Die Wahl einer geeigneten Response- oder Linkfunktion hängt vom Typ der jeweiligen Zielvariablen und von der spezifischen Anwendung ab. Zu jeder bestimmten Exponentialfamilie gibt es eine sogenannte kanonische oder natürliche Linkfunktion. Solche natürlichen Linkfunktionen sind dadurch definiert, daß der natürliche Parameter gleich dem linearen Prädiktor ist, also θπ = θ(μα) = ηα = χ'J und damit g(pn) = θ(μη) gilt. Man erhält ηη = μη = x'nß, d.h. g = id, für die Normalverteilung, die Logitfunktion ln
1 -πη
—
= X
'nß
für die (skalierte) Binomialverteilung, und Κ — Xnß für die Poissonverteilung. Im folgenden werden einige spezielle generalisierte Modelle beschrieben. Dabei wird der Index η bzw. i unterdrückt. 1.3 M o d e l l e für stetige Z i e l v a r i a b l e n Normalverteilung Für normalverteilte Zielvariablen und die zugehörige natürliche Linkfunktion g(ß) = μ erhält man das klassische lineare Modell μ = η = \'β. In manchen Anwendungen kann aber eine nichtlineare Beziehung μ = h(η), ζ. Β. Υι(η) = f/ 2 ,h(f/) = log η = exp (η) sinnvoller sein. Solche nichtlinearen Regressionsansätze lassen sich ebenfalls im Rahmen generalisierter linearer Modelle behandeln.
1. Univariate generalisierte lineare Modelle
247
Gammaverteilung Die Gammaverteilung ist besonders für Regressionsanalysen mit nichtnegativen Zielvariablen, wie Lebensdauern oder monetäre Größen, geeignet. Die natürliche Responsefunktion ist durch μ = η
xß
gegeben. Da μ > 0 gilt, impliziert dies x'ß > 0 und somit Beschränkungen für ß. Als andere Linkfunktionen kommen zum Beispiel die Identität g(/i) = μ = η und g(ß) — log (μ) = η, also ein log-lineares Modell, in Betracht.
Inverse Gauß-Verteilung Diese Verteilung eignet sich ebenfalls für Regressionsanalysen mit nicht-symmetrischen und nichtnegativen Zielvariablen, man vergleiche dazu Folks/Chhikara (1978) und Jorgensen (1982).
1.4 M o d e l l e für b i n ä r e u n d b i n o m i a l e Z i e l v a r i a b l e n Durch 0 und 1 kodierte, binäre Zielvariablen sind durch die Auftretenswahrscheinlichkeit E(y|x) = P(y = l | x ) = π vollständig charakterisiert. Für die Varianz gilt dann var(y|x) = π(1 — π). Falls binäre Daten wie in Abschnitt 1.1 gruppiert werden, bezeichne y die relative Häufigkeit von Einsen aus m unabhängigen binären Beobachtungen zum gleichen Kovariablenvektor x. Die absoluten Häufigkeiten my sind binomialverteilt mit E(my|x) = m7r,
var(my|x) = ηιπ(1 — π ) .
Die relativen Häufigkeiten y sind skaliert binomial, d. h. sie nehmen die Werte 0, 1 / m , 2 / m , . . . , 1 mit den gleichen binomialen Wahrscheinlichkeiten wie my die Werte 0 , 1 , . . . , m an und es gilt Ε(γ|χ) = π ,
var(y|x) = π(1 — π)Iva..
Gruppierte binomiale Beobachtungen y ~ Β (m, π) können wie m unabhängige binäre ungruppierte Beobachtungen behandelt werden. Wir verwenden auch hier in der Regel die relative Häufigkeit als Zielvariable. Modelle für binäre und binomiale Zielvariablen werden durch die jeweilige Response- oder Linkfunktion spezifiziert. Die folgenden Modelle sind am üblichsten.
Lineares Wahrscheinlichkeitsmodell Wie bei linearen Modellen wird π direkt linear, also mit g = h = id, durch π = η = x'ß
248
Kapitel 6 Kategoriale und generalisierte lineare Regression
mit dem linearen Prädiktor verknüpft. Dieses Modell ist zwar leicht zu interpretieren, hat jedoch den Nachteil, daß x'ß e [0,1] für alle χ gelten muß. Dies impliziert Ungleichungsrestriktionen für ß. Dieser Nachteil wird durch die folgenden Modelle vermieden. Sie verknüpfen π mit η über die Beziehung π = Έ(η),
(1.6)
wobei F eine auf R streng monotone Verteilungsfunktion ist. Probit-Modell Für F wird die Verteilungsfunktion Φ der Standardnormalverteilung angenommen, d.h. π = φ(η) = φ(χ'β). Ein - geringfügiger - Nachteil ist die notwendig werdende numerische Auswertung von Φ bei der Likelihood-Schätzung. Logit-Modell Das Logit-Modell ergibt sich durch die Wahl der natürlichen Logit-Link-Funktion g(7t) = logit (π) = In
π
= η,
1 —π
bzw. der logistischen Responsefunktion π = h(0) =
1 expO/) + expfa)'
Im Vergleich zur Standardnormalverteilung geht die logistische Verteilungsfunktion für η — oo bzw. η + oo etwas langsamer gegen 0 bzw. 1. Abgesehen von entsprechenden π-Werten nahe 0 oder 1 sind geschätzte Probit- oder Logit-Modelle sehr ähnlich. Komplementäres log-log-Modell Dieses Modell besitzt die Link-Funktion g(jr) = ln(— ln(l — π)) und die Extremwert-Verteilungsfunktion hfa) = 1 — exp (— exp (η)) als Responsefunktion. Im Vergleich zur logistischen Verteilungsfunktion ist sie asymmetrisch, hat für kleine π einen ähnlichen Verlauf und geht für η -* + oo deutlich schneller gegen 1. Bei einem Vergleich der vier Modelle ist folgendes zu beachten: Wählt man in (1.6) statt F die transformierte Verteilungsfunktion F (u) = F ((u — μ)/σ), dann
1. Univariate generalisierte lineare Modelle
249
sind wegen der Linearität des Prädiktors, etwa η = ß0 + xßj, die Modelle π
=
¥(β0
+
χβ1)
und
π = Ρ(β0
+
χβ1)
äquivalent, wenn ß0 + σβ0 + μ und ß1 = σ/3, gesetzt wird. Beim Schätzvorgang wird eine solche Skalierung von η automatisch vorgenommen, so daß Parameterschätzungen für die vier Modelle erst nach Adjustierung von Erwartungswert und Varianz zu vergleichen sind. Die Tabelle 1.3 gibt diese, mit π = 3.14159 ... als Kreiszahl, wieder.
Tab. 1.3: Adjustierung von Responsefunktionen Response-Funktion
Ε
var
Linear Probit Logistisch Extremwert
0.5 0 0 -0.5772
1/12 1 π 2 /3 π 2 /6
Adjustiert man alle Response-Funktionen auf den Erwartungswert 0 und die Varianz π 2 /3 der logistischen Funktion, so erhält man Abbildung 1.1. Dort wird die starke Ähnlichkeit von Probit- und Logit-Modell offensichtlich, während das lineare Modell und das komplementäre log-log-Modell doch deutlich davon abweichen.
Abb. 1.1: Gegenüber der logistischen Funktion adjustierte Responsefunktionen
250
Kapitel 6 Kategoriale und generalisierte lineare Regression
Binäre Modelle als Schwellenwertmodelle latenter linearer Modelle Binäre Regressionsmodelle lassen sich auch erklären durch die Annahme einer latenten (unbeobachteten) Zielvariablen, die mit der beobachtbaren binären Zielvariablen durch einen Schwellenwertmechanismus verbunden ist. Sei y eine latente stetige Variable, für die ein lineares Modell y = oc0 + w'a + σε gelte. Die Fehlervariable e besitze die Verteilungsfunktion F und σ ist ein Skalierungsparameter. Die beobachtbare binäre Variable y sei mit y über den Schwellenwertmechanismus 1, y < τ 0, y > τ verbunden, wobei τ der Schwellenwert ist. Damit ergibt sich P(y = 1) = P(a 0 + w'a + σε < τ) = F 1
T _ a
o~
w a
und mit
erhält man das allgemeine Modell (1.6). Die Kovariableneffekte α des latenten Modells können also nur bis auf den Faktor 1 ja identifiziert werden, und a0 kann bei unbekanntem τ überhaupt nicht identifiziert werden.
Parameter-Interpretation Legt man wie oben ein latentes lineares Modell zugrunde, lassen sich die Kovariableneffekte ß 1 ,ß 2 ,... bis auf einen Faktor als die Effekte a 1 , a 2 , . . . des latenten Modells interpretieren. Eine direkte Interpretation ist im Logit-Modell folgendermaßen möglich: Für einen linearen Prädiktor η = ß0 + ß1x1 + ... + ßpxp gilt — = 1—π
exp(/? 0 )exp(ß 1 x 1 )...exp(ß p x p ),
so daß die Kovariableneffekte in exponentiell-multiplikativer Form auf das relative Risiko („odds ratio") π/( 1 — π) wirken. Allgemein denkt man am besten in zwei Stufen: Für den linearen Prädiktor η = χ'β interpretiert man die Effekte wie im linearen Modell. Anschließend wird der für η lineare Effekt durch die Responsefunktion h in einen nichtlinearen Effekt für π = h(?/) transformiert. Beispiel 1.4. Präferenz für Frauenzeitschriften In Beispiel 1.1 ist die Zielvariable Y die Präferenz für die Zeitschrift Z, mit Υ = 1 für „ja" und Y = 0 für „nein". Einflußgrößen sind die kategorialen Variablen Berufstätigkeit (B), Alter (A), und Schulbildung (S), die wir in Dummy-Kodierung darstellen:
1. Univariate generalisierte lineare Modelle
251
Β Berufstätigkeit, mit Β = 1 für „berufstätig" und Referenzkategorie Β = 0 „nicht berufstätig". Α Alter, mit den Dummy-Variablen A l für „ 1 8 - 2 9 Jahre", A2 für „ 3 0 - 3 9 Jahre" und der Referenzkategorie „ 4 0 - 4 9 Jahre" ( A j = 0 und A 2 = 0). S Schulbildung, mit den Dummy-Variablen S, „Volksschule ohne Lehre", S 2 „Volksschule mit Lehre", S 3 „Realschule" und der Referenzkategorie „Abitur/Universität" (S, = S 2 = S 3 = 0). Wir modellieren die Wahrscheinlichkeit für die Präferenz von Ζ in Abhängigkeit von den Regressoren A, B, S durch ein lineares Wahrscheinlichkeitsmodell, ein Logit-Modell, ein Probit-Modell und ein komplementäres log-log-Modell. Der lineare Prädiktor ist jeweils identisch und enthält neben den Haupteffekten auch alle Zweifach-Interaktionen zwischen Α, Β und A, S. Die resultierenden Werte der Dummy-Variablen, etwa BAI, erhält man durch Multiplizieren der Werte entsprechender Haupteffekte, etwa Β χ A l . Damit lautet der lineare Prädiktor η = β0 + βιΒ + ß2A\ + ß3A2 + )S4S1 + ß5S2 + ß6S3 + β-,ΒΑΙ + ßaBA2 + ßgAlSl
4- / ? 1 0 A 1 S 2 + / ? M A 1 S 3 + 0 1 2 A 2 S 1 + ß13A2S2
+ 014A2S3 .
Die Tabelle 1.4 gibt die Parameterschätzwerte für die vier Modelle gemäß der in Abschnitt 2 beschriebenen ML-Methode an (vgl. Beispiel 2.1). Zum Logit-Modell sind zusätzlich die zugehörigen odds-ratio-Werte exp(ß0),exp(ßl), etc. angegeben. Tab. 1.4: Maximum Likelihood Schätzungen für binäre Modelle Effekt
Linear
Logit
Odds ratio
Probit
log-log
1 Β Al A2 S1 S2 S3 BAI BA2 A1S1 A1S2 A1S3 A2S1 A2S2 A2S3
0.221 - 0.086 0.345 0.081 -0.081 0.027 0.149 0.131 0.267 -0.399 - 0.295 -0.321 -0.183 -0.171 - 0.246
-1.332 - 0.437 1.576 0.383 -0.514 0.151 0.810 0.697 1.362 - 2.080 - 1.271 - 1.532 - 0.827 -0.807 - 1.288
0.264 0.646 4.838 1.468 0.598 1.164 2.249 2.009 3.905 0.125 0.280 0.216 0.437 0.446 0.276
- 0.802 - 0.262 0.957 0.230 - 0.292 0.088 0.477 0.419 0.818 - 1.227 -0.785 - 0.926 -0.519 - 0.491 - 0.762
-1.461 -0.375 1.261 0.290 - 0.464 0.134 0.698 0.585 1.156 - 1.718 -0.981 - 1.240 -0.637 - 0.639 -1.076
Am einfachsten zu interpretieren ist das lineare Wahrscheinlichkeitsmodell, da hier - analog wie im klassischen linearen Modell - die Parameter direkt den Einfluß auf die Wahrscheinlichkeit P(Y = 1|A,B,S) wiedergeben. So liegt beispielsweise mit 0.35 ein stark positiver Effekt der Kategorie A l (18-29 Jahre) vor. Jedoch darf wegen der Interaktionseffekte BA bzw. AS dieser Haupteffekt nicht für sich allein interpretiert werden. Vielmehr hängt der Einfluß noch stark von der Schulbildung der Frauen ab. So wird der positive Einfluß der Altersklasse A l bei Frauen mit niederer Schulbildung durch den Effekt — 0.399 von A1S1 mehr als aufgehoben. Da auch die Effekte A1S2 und A1S3 negativ sind, ist die Leserate für Frauen dieser Altersstufe in der Referenzkategorie „Abitur/Universität" deutlich am höchsten. In der Gruppe der 30-39jährigen Frauen spielt die Interaktion zwischen „Beruf" und „Alter" mit einem Effekt von 0.27 eine stärkere Rolle. Die Interaktionseffekte mit der Schulbildung weisen in die gleiche Richtung wie in der ersten Altersgruppe, sind jedoch weniger deutlich ausgeprägt.
252
Kapitel 6 Kategoriale und generalisierte lineare Regression
Für das Logit-Modell bezieht sich die Interpretation der jeweiligen Effekte in analoger Weise auf den logarithmierten odds-ratio In P ( Y = 1)/(P(Y = 0) = η. Eine Interpretation, die sich direkt auf den odds-ratio bezieht, erhält man durch die Umformung p(y
~
= exp()S 0 )exp(y? 1 B)...exp(^ 1 4 A2S3).
Die Werte exp(^ 0 ),exp(y?!),.. . ,exp(/? 14 ) sind in der „Odds ratio"-Spalte der Tabelle angegeben. So erhöht sich etwa in der Altersgruppe A l , ohne Berücksichtigung der Schulbildung, das Verhältnis P ( Y = 1)/P(Y = 0) gegenüber der Referenz-Altersgruppe der 40-49jährigen um den Faktor 4.83. Dieser Haupteffekt wird aber wie im linearen Modell durch Interaktionseffekte relativiert, etwa durch den Faktor 0.125 für die Interaktion A1S1. Vergleicht man die (geschätzten) Parameter ß l bis /?14 beider Modelle so stellt man fest, daß sich zwar die absoluten Werte deutlich unterscheiden, jedoch die Verhältnisse ß i l ß 2 etc. recht ähnlich sind. Dies gilt auch für den Vergleich mit den Parameterwerten für das Probitund log-log-Modell. Besonders beim Probit-Modell zeigt sich, daß die Parameterschätzwerte dem des Logit-Modells bis auf einen konstanten Faktor (in etwa dem Wert |/π2/3 der Tabelle 1.3 recht nahekommen. Welches Modell der konkreten Datensituation am besten angepaßt ist, muß durch Goodnessof-fit-Statistiken oder verfeinerte modelldiagnostische Instrumente entschieden werden, man vgl. Beispiel 2.1.
Beispiel 1.5. Kredit-Scoring Wir modellieren die Wahrscheinlichkeit, daß ein Kunde „nicht kreditwürdig" ( Y = 1) ist, durch ein Logit-Modell n = P ( Y = l|x) =
exp (x'fi) 1 +exp(x'/J)
mit dem Designvektor X ' = ( 1 , X 1 [ 1 ] , X 1 [ 2 ] , X 3 , X 4 , X 5 , X 6 , X 7 , X 8 ) . Dabei steht X I [ 1 ] für „kein laufendes Konto", X l [ 2 ] für „gutes laufendes Konto". Alle kategorialen Regressoren sind 0-1-kodiert mit den in Beispiel 1.2 angegebenen Referenzkategorien. Die in Abschnitt 2 beschriebene ML-Schätzung ergibt folgende (gerundete) Punktschätzwerte für die Parameter: 1 -0.19
X l [ l ] xl[2] 0.63
X3
- 1.32 0.035
X4
X5
X6
0.32 · 1 0 " 4 - 0 . 9 9 - 0 . 4 7
X7
X8
0.22
-0.38
Obwohl die Daten aus einer nach Y geschichteten Stichprobe stammen, können die zu X l [ l ] bis X 8 gehörigen Parameter konsistent geschätzt werden, vgl. Anderson (1972) und Kap. 8, Abschnitt 4.2. Statt des zu 1 gehörigen Parameters ß 0 schätzt man jedoch ß 0 + l n { p ( l ) / N ( l ) } - ln{p(0)/N(0)}. Dabei sind N ( l ) = 300, N ( 0 ) = 700 als den vorgegebenen Stichprobenumfängen in den beiden Schichten, während ρ (1), p(0) die entsprechenden priori-Wahrscheinlichkeiten in der Population sind. Nimmt man die Erfahrungswerte p ( l ) « 0.05, p(2) ss 0.95 an, so kann der Schätzwert — 0.19 entsprechend korrigiert werden. Von den beiden metrischen Variablen weist X 3 „Laufzeit" einen positiven Effekt auf, d.h. höhere Laufzeiten erhöhen das Risiko, daß der Kredit nicht ordnungsgemäß zurückgezahlt wird. Dagegen scheint die Darlehenshöhe keinen signifikanten Effekt für dieses Risiko zu besitzen, man vergleiche dazu jedoch Beispiel 5.1. Der Effekt der 0-1-kodierten qualitativen Regressoren läßt sich jeweils im Bezug auf die gewählten Referenzkategorien interpretieren. So erhöht sich das Risiko für Kunden ohne laufendes Konto ( X [ l ] = 1) gegenüber jenen mit „mittlerem" laufenden Konto. Entsprechend erniedrigt sich das Risiko für Kunden mit
1. Univariate generalisierte lineare Modelle
253
gutem laufenden Konto (XI [ 2 ] = 1). Eine gute frühere Zahlungsmoral (X5 = 1) mindert bei einem Effekt von — 0.99 das Risiko deutlich. Ähnlich lassen sich die restlichen Effekte interpretieren.
Überdispersion (overdispersion) In Anwendungen ist die empirische Varianz (gruppierter) binärer Daten oft deutlich größer als die durch ein binomiales Modell erklärte Varianz. Man spricht dann von Uberdispersion. Zwei Hauptursachen dafür sind: Unbeobachtete Heterogenität, die nicht durch Kovariablen erklärt wird, und positive Korrelation zwischen individuellen binären Beobachtungen der Zielvariablen y, etwa wenn die individuellen Einheiten einem Klumpen (cluster), wie ζ. B. dem gleichen Haushalt, angehören. Die einfachste Möglichkeit eine solche vergrößerte Variabilität zu berücksichtigen ist die Einführung eines multiplikativen Überdispersionsparameters φ > 1 in der üblichen Varianzformel var(yi|Xi) = φ
. i
Da für die Schätzung von β und φ nur π; = Ε ( γ ; | Χ ; ) , und v a r ( y j | X j ) benötigt werden (siehe Abschnitt 2), können β und φ formal genauso geschätzt werden wie im Fall einer Exponentialfamilie mit Skalierungsparameter φ, etwa bei Normal- oder Gammaverteilung. Tatsächlich führt die Einführung einer Überdispersion jedoch zur einfachsten Form einer sogenannten Quasi-Likelihood-Schätzung: Zwar existieren Verteilungen mit Varianz φπ{ (1 — π ; )/Ν ; , etwa die Beta-Binomialverteilung, aber für die Schätzung wird die tatsächliche Likelihood nicht verwendet. Andere Ansätze zur Modellierung von Überdispersion sind z.B. Modelle mit zufalligen Effekten oder mit korrelierten Ziel variablen. Eine gute Darstellung zum Problem der Überdispersion findet man in Collett (1991).
1.5 Modelle für Zähldaten Zähldaten treten auf, wenn ζ. B. die Anzahl bestimmter Ereignisse in einem Zeitraum oder Häufigkeiten in Kontingenztabellen analysiert werden sollen. In manchen Fällen reicht zur Analyse eine Normalverteilungsapproximation aus. Falls nur wenige kleine Werte als Anzahlen auftreten, kommen auch Modelle für mehrkategoriale Zielvariablen in Frage. In der Regel ist jedoch die Poisson-Verteilung oder eine geeignete Modifikation eine sinnvollere Wahl. Loglineares Poisson-Modell Der Erwartungswert μ ist die Rate λ der Poisson-Verteilung und ist mit dem Prädiktor η durch die natürliche Linkfunktion ln(A) = η = x'ß ,
λ = βχρ(η)
verbunden. Der Effekt von Kovariablen auf die Rate λ ist also exponentiellmultiplikativ, ähnlich wie für das relative Risiko π/(1 — π) im Logit-Modell. Falls
254
Kapitel 6 Kategoriale und generalisierte lineare Regression
alle Kovariablen kategorial sind und entsprechende Interaktionsvariablen in χ enthalten sind, führt der Ansatz auf loglineare Modelle für Kontingenztafeln, siehe Kapitel 10.
Lineares Poisson-Modell Die direkte Verknüpfung λ= η =
x'ß
ist dann nützlich, wenn die Kovariablen additiv auf die Rate wirken. D a x'ß nicht-negativ sein muß, impliziert dies im allgemeinen Restriktionen für ß.
Überdispersion Falls eine Poisson-Verteilung angenommen wird, impliziert dies A = E(y|x) = v a r ( y | x ) . Aus ähnlichen Gründen wie für binomiale Daten wird in Anwendungen oft eine signifikant größere empirische Varianz beobachtet. Deshalb ist es in der Regel zweckmäßig einen Überdispersions-Parameter φ durch die Annahme var(y|x) = φλ einzuführen. Wie für binomiale Daten gibt es komplexere Ansätze, die zusätzliche Variabilität von Zähldaten berücksichtigen. Beispiel 1.6. Zellveränderungen durch Wirkstoffe
Eine wichtige Fragestellung in Beispiel 1.3 ist, ob die beiden Wirkstoffe die Anzahl von Zellteilungen unabhängig oder interaktiv beeinflussen. Wählt man für die erwartete Anzahl E ( Y | T N F , I F N ) von Zellteilungen ein loglineares Poisson-Modell λ = E ( y | T N F , I F N ) = exp(/? 0 + ^ T N F + / ? 2 I F N + ß 3 T N F * I F N ) ,
so wird der interaktive Einfluß durch die Interaktion T N F * I F N modelliert. Als ML-Schätzwerte erhält man 0O = 3 . 4 3 6 ,
0.016,
ß2 = 0.009,
£,=
-0.001.
Danach erscheint die interaktive Wirkung zweifelhaft, man vergleiche dazu die Beispiele 2.3 und 4.1.
2. Statistische Inferenz in univariaten generalisierten linearen Modellen Regressionsanalysen mit generalisierten linearen Modellen basieren auf dem Likelihood-Prinzip. Dieser Abschnitt enthält die wichtigsten Verfahren zum Schätzen und Testen und zur Modellüberprüfung. Dabei beschränken wir uns im wesentlichen auf die übliche Likelihood-Inferenz. Quasi-Likelihood-Ansätze, mit denen man den Rahmen von Exponentialfamilien verlassen kann, sind Gegenstand von Abschnitt 4.1.
2. Statistische Inferenz in univariaten generalisierten linearen Modellen
255
2.1 Maximum-Likelihood-Schätzung Um den Fall ungruppierter Daten (y n , x n ), η = 1 , . . . , N, und gruppierter Daten (yi5 X;, N;), i = 1 , . . . , I, gemeinsam zu behandeln, verwenden wir einheitlich η als Laufindex und unterdrücken Ν bzw. I als oberen Wert der Summation notationeil. Gewichte wn sind gleich 1 für ungruppierte Daten und gleich N n für gruppierte Daten, da dann yn als arithmetisches Mittel der individuellen y-Werte zum Kovariablenwert xn aufzufassen ist. Zunächst nehmen wir auch an, daß der Skalierungsfaktor φ bekannt ist. Da φ als konstanter Faktor in der Likelihood auftritt, kann man dann φ = 1 setzen, wenn nur β geschätzt werden soll. Man braucht jedoch φ bzw. einen konsistenten Schätzer φ, wenn man (asymptotische) Varianzen oder Konfidenzintervalle zum ML-Schätzer β angeben will. Ein auf der Momentenmethode beruhender Schätzer φ ist am Ende des Abschnitts angegeben. Der Parameter φ kann auch als Überdispersionsparameter aufgefaßt werden. In diesem Fall bleiben alle Überlegungen gültig, wenn man statt mit der log-Likelihood 1 (ß) in (2.1) mit der Scorefunktion s(ß) in (2.2) startet. Wir nehmen außerdem an, daß die Designmatrix X = ( x , , . . . , x n ,...)', bzw. äquivalent dazu X'X, vollen Rang ρ + 1 besitzt.
Log-Likelihood, Score-Funktion und Informationsmatrix Gemäß (1.4) ist die log-Likelihood der Beobachtungen yn bis auf eine additive Konstante durch l n (0) = l n f ( y n i e n , 0 , W n ) =
y
"e"~b(g")Wn Φ
gegeben. Setzt man die Beziehung θη = θ (μη) zwischen natürlichem Parameter und Erwartungswert ein, so erhält man die log-Likelihood als Funktion von μ η . Für binäre Zielvariablen ergibt sich mit π η = μη beispielsweise die bekannte Form 1„ O U = y„ In π η + (1 - y n ) In (1 - π η ) . Für (skaliert) binomiale Zielvariablen erhält man 1„(πη) = N n (y n In π η + (1 - y n )ln(l - π η )), wobei yn die relativen Häufigkeiten sind. Für Poisson-verteilte yn ist mit λη = μη 1„ oo geht. Asymptotische Aussagen für natürliche LinkFunktionen finden sich bei Anderson (1980), Haberman (1974, 1977) McFadden (1974, für multinomialverteilte y) und Nordberg (1980). Allgemeine Link-Funktionen behandeln Fahrmeir/Kaufmann (1985), wobei im Fall natürlicher LinkFunktionen die Annahmen erheblich abgeschwächt sind. Bei Regressoren mit kompaktem Wertebereich reicht bei natürlichen Link-Funktionen ( X ' X ) - 1 ->0 für die schwache Konsistenz und asymptotische Normalität aus, bei nicht-natürlichen Link-Funktionen muß X ' X noch etwas strengere Wachstumsbedingungen erfüllen. Sind im Fall stochastischer Regressoren die Beobachtungen (yn, x n ) unabhängig und identisch wie (y,x) verteilt, während die y„|x n die Annahmen eines
258
Kapitel 6 Kategoriale und generalisierte lineare Regression
verallgemeinerten linearen Modells erfüllen, so gilt unter schwachen Zusatzannahmen über die Randverteilung von χ Satz 2.1 ebenfalls. Deutlichkeitshalber schreiben wir für den ML-Schätzer zum Stichprobenumfang N. Satz 2.1 Unter den oben diskutierten Annahmen existiert
asymptotisch, d.h.
lim P(^ N existiert) = 1, OD
ist schwach (bei stochastischen Regressoren sogar stark) konsistent und asymptotisch normalverteilt: 4>(/*)(^n ~ß)—*
N(0,I),
FM)(ß)
=
X N W N (/J)X N
bzw. in approximativer Form geschrieben ß N z N(/},F (N ; m • Dieses Ergebnis bleibt richtig, wenn man F (N) (ß) durch den Schätzer F (N) ($ N ) ersetzt. Haberman (1977) beweist asymptotische Aussagen unter gewissen Annahmen auch für den Fall, daß die Dimension ρ + 1 des Parametervektors β nicht konstant bleibt, sondern mit Ν gegen oo geht. In Kaufmann (1987) werden die asymptotischen Eigenschaften des ML-Schätzers für den Fall untersucht, daß die Regressoren x n von vergangenen Werten der Beobachtungen yn abhängen. Schätzung des Skalierungs- oder Überdispersionsparameters Falls der Skalierungs- oder Überdispersionsparameter φ unbekannt ist, kann er durch φ=
1
(Υί Σ
ΓΑί)2
(2-6)
konsistent geschätzt werden. Dabei sind fc = h (x· ß) und ν(/ί;) der geschätzte Erwartungswert und die geschätzte Varianzfunktion, und die Daten sind so weit wie möglich zu gruppieren. In allen Ausdrücken, in denen φ vorkommt, etwa in F(/J), ist φ durch φ zu ersetzen.
2.2 Hypothesentests und „Goodness of fit" Testen linearer Hypothesen Zum Testen linearer Hypothesen der Form H 0 : Cß = ζ gegen
H, : Cß / ζ ,
(2.7)
2. Statistische Inferenz in univariaten generalisierten linearen Modellen
259
wobei C vollen Zeilenrang r < ρ + 1 hat, können die Likelihood-Quotienten-, die Score- und die Wald-Statistik verwendet werden. Die Likelihood-Quotienten-Statistik lq=
-2{\φ)-1(β)}
mißt die Devianz zwischen dem unrestringierten Maximum 1(/?) und dem unter H 0 restringierten Maximum \(ß), wobei β ML-Schätzer unter der Gleichungsrestriktion Cß = ζ ist. Für den Spezialfall Ho:ßT = 0
gegen
Η^.β,ΦΟ,
(2.8)
wobei ßt ein Teilvektor von β ist, testet man auf Signifikanz der zu ßT gehörigen Effekte. Berechnung von β erfordert dann die ML-Schätzung des entsprechenden Teilmodells. Für allgemeinere lineare Gleichungsrestriktionen ist der numerische Aufwand deutlich größer. Im Fall eines zusätzlichen Überdispersionsparameters, etwa bei binomialen Daten oder Zähldaten, ist die Likelihood-Quotienten-Statistik wegen fehlender Verteilungsannahmen eigentlich nicht definiert. Es ist in Anwendungen trotzdem üblich mit der Likelihood von binomialen und Poisson-Modellen zu arbeiten, indem man sie zusätzlich durch den mittels (2.6) geschätzten Parameter φ dividiert. Die Wald-Statistik w = (C^ - 0 ' [CF "
C'] " 1 (C^ - ζ)
mißt die durch die asymptotische Kovarianzmatrix CF'(ß)C Distanz zwischen Cß und ζ = Cß. Die Score-Statistik u = s'(ß)F'\ßMß)
(2.9) von Cß gewichtete
(2-10)
mißt die gewichtete Distanz zwischen dem Wert 0 = s(ß) der Score-Funktion, ausgewertet an der Stelle ß, und dem Wert s(ß), ausgewertet für den restringierten ML-Schätzer ß. Beide Statistiken sind auch im Fall zusätzlicher Überdispersionsparameter wohldefiniert. Für die spezielle Hypothese (2.8) reduzieren sich die Wald- und Score-Statistik zu w ^ Ä r ' / t und u = §;Ä r § r , wobei A r die den Elementen von ßT entsprechende Teilmatrix von A = F~ 1 ist, s r der entsprechende Teilvektor der Score-Funktion s(ß) und „ " ' bzw. „~" bedeutet den jeweiligen Wert an der Stelle β bzw. ß. Falls ßr nur ein Element von β ist, ist die Wald-Statistik gleich dem quadrierten „t-Wert"
wobei ä„ das r-te Diagonalelement der asymptotischen Kovarianzmatrix A(ß) = F l (ß) ist. Unter Verwendung von Satz 2.1 läßt sich folgendes Ergebnis zeigen (vgl. z.B. Fahrmeir, 1987):
260
Kapitel 6 Kategoriale und generalisierte lineare Regression
Satz 2.2 Unter ähnlichen Annahmen wie für Satz 2.1 sind die drei Teststatistiken asymptotisch äquivalent und ^-verteilt mit r Freiheitsgraden lq,w,u ~ χ2 (r). Kritische Werte oder p-Werte werden über diese asymptotische Verteilung berechnet. Für mittleren Stichprobenumfang ist die Approximation durch die x 2 -Grenzverteilung in der Regel ausreichend. Für kleinere Stichprobenumfänge, etwa ab Ν < 50, können sich die Werte der Teststatistiken jedoch deutlich unterscheiden.
Variablenselektion Ähnlich wie im linearen Regressionsmodell sind verschiedene Methoden der Variablenselektion möglich. Lawless/Singhal (1987) erweitern das Verfahren von Furnival/Wilson (1974) zur vollständigen Suche nach dem besten Modell auf generalisierte lineare Modelle. Schrittweise Rückwärts- und Vorwärtseliminationen können mit Wald- und Score-Tests in numerisch effizienter Weise durchgeführt werden (Fahrmeir/Frost, 1992). Bei der Rückwärtselimination werden mit WaldStatistiken jeweils interessierende Submodelle des aktuellen Modells getestet. In Vorwärtsschritten wird mit Score-Tests überprüft, welche noch nicht im aktuellen Modell enthaltene Kovariable als nächste aufgenommen wird.
Goodness of fit-Statistiken Die zwei gebräuchlichsten globalen Statistiken, um die Güte eines Modells zu prüfen, sind die Pearson-Statistik '
χ 2 =
(yj-A)2
i = 1 v(A)Wj und die Devianz d = - 2φ i { i , ( A ) - i . ( y . ) } · i= 1 Dabei sind h und v(/t i ) die geschätzten Erwartungswert- und Varianzfunktionen, und lj(y;) ist der i-te log-Likelihoodbeitrag, wobei durch y; ersetzt wird. (Damit erhält man den maximal erreichbaren Wert der log-Likelihood lj.) Für beide Goodness-of-fit-Statistiken sollten die Daten so weit wie möglich gruppiert sein. Falls Nj, i = 1,..., I, in allen Gruppen hinreichend groß ist, so sind beide Statistiken approximativ (bzw. für Ν -»· oo asymptotisch) φχ2(I — ρ — l)-verteilt, wobei ρ + 1 die Anzahl zu schätzender Parameter ist. In diesem Fall können beide Statistiken für formale Goodness-of-fit-Tests benützt werden. Für kleine Nj, insbesondere für N; = 1, ist die Anwendung auch bei großem Gesamtumfang Ν problematisch (McCullagh/Nelder, 1989, S. 118-119). Große Werte von χ2 oder D indizieren dann nicht notwendig ein schlecht fittendes Modell.
2. Statistische Inferenz in univariaten generalisierten linearen Modellen
261
Beispiel 2.1. Präferenz für Frauenzeitschriften Für das in Beispiel 1.4 gewählte lineare Wahrscheinlichkeitsmodell erhält man die Devianz D = 11.74 und die Pearson-Statistik χ 2 = 11.55 bei 24 — 15 = 9 Freiheitsgraden. Die p-Werte der χ 2 (9)-Verteilung zu diesen Werten sind 0.228 und 0.229, so daß man das Modell akzeptieren kann. Für das Logit-Modell mit gleichem Prädiktor ergibt sich D = 16.36 und χ 2 = 15.23 mit den p-Werten 0.059 und 0.08. Somit wird man in diesem Beispiel das lineare Wahrscheinlichkeitsmodell bevorzugen. Dies entspricht nicht der gängigen Erwartung, daß Logit- oder Probit-Modelle grundsätzlich „besser" sind. In der Tabelle 2.1 sind neben den ML-Schätzwerten ßj auch zugehörige Standardfehler |/var(/?j) und p-Werte für das lineare Wahrscheinlichkeitsmodell angegeben. Tab. 2.1: ML-Schätzer für das Beispiel Frauenzeitschriften ß
1 Β Al A2 S1 S2 S3 BAI BA2 A1S1 A1S2 A l S3 A2S1 A2S2 A2S3
0.221 - 0.086 0.345 0.081 -0.081 0.027 0.149 0.131 0.267 -0.399 - 0.297 -0.321 -0.183 -0.171 - 0.246
p-Wert 0.108 0.042 0.136 0.149 0.108 0.110 0.129 0.066 0.060 0.142 0.143 0.161 0.151 0.152 0.169
0.042 0.039 0.011 0.586 0.451 0.803 0.248 0.048 0.000 0.005 0.038 0.045 0.224 0.260 0.146
Beispiel 2.2. Kredit-Scoring Die Tabelle 2.2 gibt nochmals die ML-Schätzwerte zusammen mit zugehörigen p-Werten an, die für den in Beispiel 1.5 gewählten Logit-Ansatz erhalten wurden. Die p-Werte geben Hinweise darauf, daß die Regressoren X4 „Laufzeit" und X8 „Geschlecht" nicht signifikant sind. Eine komplette Suche nach dem besten Modell als auch schrittweise Vorwärts- und Rückwärtsselektionen bestätigen dies: In allen Fällen werden X4 und X8 eliminiert. Tabelle 2.3 gibt für das Logit-Modell, aus dem X4 und X8 eliminiert wurden, die zugehörigen ML-Schätzer fiT, die Standardabweichungen ]/var(ß r ), die t-Werte j§ r /)/var(/? r ) und die p-Werte zu jeder Komponente ßr des Parametervektors β an. Tab. 2.2: ML-Schätzungen für das Logit-Modell im Kreditdatenbeispiel Variable Grand mean Xl[l] XI [2] X3 X4 X5[l] X6[l] X7[l] X8[l]
ML-Schätzer
p-Wert
-0.188121 + 0.634647 - 1.317027 + 0.035027 + 0.000032 -0.988369 - 0.474398 + 0.223511 - 0.385423
0.614225 0.000321 0.000000 0.000008 0.330905 0.000093 0.003113 0.311471 0.078926
262
Kapitel 6 Kategoriale und generalisierte lineare Regression Tab. 2.3: ML-Schätzungen für reduzierte Variablen (Kreditdaten) ß 1 xim Χ1Γ21 X3 X5 X6 X7
t
Ϋ^β
0.026 0.617 - 1.320 0.039 - 0.988 - 0.470 -0.533
0.316 0.176 0.202 0.006 0.253 0.160 0.160
0.082 3.513 - 6.527 6.174 -3.910 - 2.940 - 3.347
p-Wert 0.933 0.0 0.0 0.0 0.0 0.003 0.001
Als Goodness-of-fit Statistiken erhält man (mit φ = 1) D = 1017.35 und χ2 = 1006.53, bei 991 Freiheitsgraden. Die p-Werte der zugehörigen χ 2 (991)-Verteilung sind 0.387 und 0.277, so daß nichts gegen das Modell zu sprechen scheint. Trotzdem ist Vorsicht geboten, da im hier vorliegenden Fall ungruppierter Daten die Approximation durch die χ 2 (991)-Verteilung zweifelhaft ist. Beispiel 2.3. Zellteilung durch Wirkstoffe Tabelle 2.4 enthält die ML-Schätzwerte, zusammen mit p-Werten, für die Effekte der Wirkstoffe für ein loglineares Poisson-Modell ohne Überdispersionsparameter (d.h. φ = 1 wie in Beispiel 1.6) und mit zusätzlich geschätztem Überdispersionsparameter. Für ψ = 1 indiziert der p-Wert hohe Signifikanz für die Interaktion zwischen T N F und IFN. Die Werte D = 142.4 und χ2 = 140.8 bei 12 Freiheitsgraden geben jedoch deutliche Hinweise auf Überdispersion. Tab. 2.4: Geschätzte loglineare Modelle Poisson, ιφ = 1 1 TNF IFN TNF x IFN
3.436 .016 .009 -.001
(.0) (.0) (.0) (.0)
Poisson, 4i = 11.734 3.436 .016 .009 -.001
(.0) (.0) (.0) (.22)
Modelliert man diese Überdispersion durch Einführung eines zusätzlichen Parameters φ, so erhält man aus (2.6) den Schätzwert φ = 11.734 v Die ML-Schätzwerte bleiben unverändert, jedoch sind die asymptotischen Varianzen mit φ zu multiplizieren und entsprechend die p-Werte zu modifizieren. Gemäß dem modifizierten p-Wert 0.22 ist die Interaktion T N F * I F N nun nicht mehr signifikant. Dieses Ergebnis wird auch durch einen QuasiLikelihood-Ansatz (Beispiel 4.1) unterstützt.
3. Mehrkategoriale Regressionsmodelle In Abschnitt 1.4 wurden Modelle für binäre Zielvariablen als spezielle univariate generalisierte Modelle dargestellt. In diesem Abschnitt wird das Konzept a u f mehrkategoriale abhängige Variablen erweitert, die Modellansätze lassen sich als spezielle multivariate generalisierte Modelle verstehen. Zur Einführung wird mit einigen Beispielen begonnen.
3. Mehrkategoriale Regressionsmodelle
263
3.1 Daten und Beispiele Beispiel 3.1. Absatz von Tankstellen (Vgl. Braun 1978). Zur Beurteilung und Entscheidung netzpolitischer Maßnahmen, insbesondere nach absatzrelevanten Kriterien, wurden über das Tankstellennetz der A R A L A G in der Bundesrepublik Deutschland im Rahmen einer Stichprobenerhebung (N = 700 Anlagen) Informationen über Lage, Umgebung, Besitzverhältnisse, Ausstattung, Serviceangebot, erwirtschaftete Ergebnisse, etc., erhoben. Hier wird für eine Teilauswertung mit Hilfe des kategorialen Regressionsansatzes als Zielvariable das Merkmal „Absatz" mit den drei Kategorien „hoch", „mittel" und „niedrig" gewählt (siehe Tabelle 3.1). Als unabhängige Variablen dienen die Merkmale 1) Ortsgröße
über 100.000 unter 100.000 2) Angebotsform Selbstbedienung Bedienungstankstelle 3) Straßenart Autobahnen und Bundesstraßen Landstraßen und Nebenstrecken Hauptdurchgangsstraßen
Tab. 3.1: Absatz von Tankstellen Ortsgröße (G)
Groß ( > 100.000)
Angebotsform (A)
Selbstbedienung
Bedienung
Klein ( < 100.000)
Selbstbedienung
Bedienung
Straßenart (S)
BAB, Bundesstr. Landstraßen Hauptdurchgangsstraßen BAB, Bundesstr. Landstraßen Hauptdurchgangsstraßen BAB, Bundesstr. Landstraßen Hauptdurchgangsstraßen BAB, Bundesstr. Landstraßen HauptdurchgangsStraßen
Absatz niedrig
mittel
hoch
2 2 3
3 0 4
0 0 1
65 63 48
32 24 12
20 4 6
4 2 5
4 0 12
7 1 4
38 16 179
19 7 55
27 2 29
Beispiel 3.2. Lungenfunktion In einer Studie zur Beeinträchtigung der Lungenfunktion wurden als Einflußgrößen das Alter und das Rauchverhalten texanischer Industriearbeiter erhoben (siehe Forthofer/ Lehnen, 1981). Als abhängige Variable werden die Ergebnisse eines Atmungstests mit den Kategorien „normal", „grenzwertig" und „abnormal" betrachtet. Man erhielt die Kontingenztabelle 3.2.
Die hier betrachtete abhängige Variable ist jeweils kategorial mit R = q + 1 Kategorien. Im folgenden bezeichne Y n die abhängige Variable zum Einflußgrößenvektor xj, = ( x n 0 , . . x n p ) , wobei Y n e {1,..., R} gilt. Kategoriale Regression zielt darauf ab, zu modellieren wie die Einflußgrößen die
264
Kapitel 6 Kategoriale und generalisierte lineare Regression Tab. 3.2: Lungenfunktionstest Alter
Rauchverhalten normal
< 40
40-59
kein Raucher früher Raucher derzeitiger Raucher kein Raucher früher Raucher derzeitiger Raucher
Testergebnis grenzwertig abnormal
577 192 682 164 145 245
27
20 46 4 15 47
7 3
11 0 7 27
abhängige Variable, genauer den Vektor der Auftretenswahrscheinlichkeiten < = (π„ι,···,π η Ι ι ),
"
(110)
Dieses Verhältnis hängt nicht von der Kategorie r ab, d. h. die kumulierten Chancen sind proportional über alle Kategorien hinweg. Wählt man für F die Minimum-Extremwertverteilung F(x) = 1 — exp(— exp(x)), erhält man das kumulierte Extremwert- oder gruppierte Cox-Modell P(Y n < r|x n ) = 1 - e x p ( - e x p ( 0 r + x;y))
(3.11)
bzw. l n ( - l n P ( Y n > r | x n ) ) = 0r + x' n y. Die Bezeichnung ,gruppiertes Cox-' oder .proportional Hazards-Modell' leitet sich von einer zu (3.10) analogen Eigenschaft eines zugrundeliegenden Modells ab. Durch die Umparametrisierung θτ = In (exp (θτ) — exp(0 r _,)), r = 1,..., q, läßt sich (3.9) auch darstellen durch P(Y = r | Y > r, x n ) = 1 - e x p ( - exp(0~r + x^y)) = F(0 r + x' n y). (3.12) Auf der linken Seite findet sich hier die Wahrscheinlichkeit für einen Response in Kategorie r, gegeben es tritt zumindest Kategorie r auf. In der Verweilsdaueranalyse (wenn Y für die diskrete Zeit steht) wird diese bedingte Wahrscheinlichkeit als diskrete Hazardfunktion bezeichnet. Das Modell (3.12) ist nun die diskrete Variante des stetigen Cox-Modells der Verweildaueranalyse. Dieses stetige Modell besitzt proportionale Hazardfunktionen (siehe Kapitel 7).
274
Kapitel 6 Kategoriale und generalisierte lineare Regression
D i e Modelle des kumulativen Typs sind wiederum multivariate generalisierte M o delle von der Form g(jr n ) = Xnß bzw. π η = h(Xnß). Letztere Form ergibt sich unmittelbar aus (3.8) mit π
„Γ = F ( 0 r + x'ny) - F ( 0 r _ , + χ'αγ),
r = l
q,
d.h. π
ηΓ = h r (i? n l ) · · ·, ^ n q ) = F(fj n r) - F ( f j n , r _ i ) ,
r = 1,..., q.
Die Designmatrix der linearen K o m p o n e n t e n ist gegeben durch Im
/l
0
o
'··
...
je^
x'n
In
" f t
VI«
1χ'
wobei der Parametervektor durch β' = (θι,..., θ , γ') gegeben ist. Eine Erweiterung des Modells dahingehend, d a ß die Schwellen selbst von (kategorienspezifischen) Variablen abhängen können, findet sich in Fahrmeir/Tutz (1994). Beispiel 3.4. Absatz von Tankstellen (Fortführung von Beispiel 3.1) In Tabelle 3.6 sind die Schätzungen für das kumulative Logit- und das kumulative Extremwertmodell zusammen mit den p-Werten gegeben. Dabei steht Ο wiederum für die Ortsgröße, Α für die Angebotsform, und S für die Straßenart jeweils in Effekt-Kodierung. In großen Orten scheint der Absatz in Richtung niedrigerer Absatzchancen verschoben zu sein (y 0 = 0.202). Bei gleichbleibenden anderen Kovariablen sind P(Y = 1)/P(Y > 1) und P ( Y < 2)/P(Y = 3) um den Faktor exp(0.202) = 1.224 erhöht. Entsprechend erhält man für Selbstbedienung eine Verschiebung in Richtung höherer Absätze (ßA = — 0.483), was für die kumulativen Chancen einen Faktor exp (— 0.483) = 0.617 ergibt. Bei den Straßenarten erhält man für die Bundesstraße eine Erhöhung, für die Landstraße eine Erniedrigung des Absatzes. Tab. 3.6: ML-Schätzer für kumulative Modelle Logistisches Modell ML-Schätzer p-Wert 01 Ö2 To JA
Vs(i) ?S(2>
0.053 1.460 0.202 - 0.483 -0.575 0.238
0.712 0.000 0.021 0.000 0.000 0.110
Cox-Modell ML-Schätzer p-Wert - 0.248 0.513 0.121 -0.231 -0.355 0.173
0.008 0.000 0.013 0.007 0.000 0.028
Das sequentielle Modell Eine Alternative zum kumulativen Modell, die ebenso das ordinale Niveau der Responsekategorien explizit benutzt, ist das sequentielle Modell. Es ist aufgrund seiner Konstruktion dann geeignet, wenn die Kategorien der abhängigen Variablen nur sukzessive erreichbar sind. Geht m a n in Beispiel 3.2 davon aus, daß die Lungenfunktion ursprünglich normal ist, so wird (bei gegebenem Rauchverhalten
3. Mehrkategoriale Regressionsmodelle
275
und Alter) die Kategorie abnormal nur erreicht, wenn (zumindest kurzzeitig und unbeobachtet) ein Grenzzustand vorlag. Ein anderes Beispiel ist die Dauer der Arbeitslosigkeit in Jahren (und damit in Kategorien). M a n k a n n nur zwei Jahre arbeitslos sein, wenn man zuvor mindestens ein Jahr arbeitslos war. Die der Modellbildung zugrundeliegende A n n a h m e sind also sukzessive bzw. schrittweise erreichbare Kategorien der Variable Y e { 1 , . . . , R}. Die schrittweise Erreichbarkeit wird explizit durch eine Abfolge von dichotomen Übergängen modelliert. Der Prozeß startet in Y n = 1 und der Übergang zu Y n > 1 wird durch ein dichotomes Modell aus Abschnitt 1 modelliert mit P(Yn = l|xn) = F ( / ? 0 1 + x i y ) . Erfolgt der Response in Kategorie 1 stoppt der Prozeß, ansonsten wird der Übergang von Y n = 2 nach Y n > 2 dichotom modelliert mit P ( Y n = 2 | Y n ^ 2 , xn) = F(ß02
+ x'ny).
Entsprechend ist der r-te Schritt (potentieller Übergang von r nach r + 1) bestimmt durch P ( Y n = r | Y n > r, x n ) = F(ß0l + x'ay).
(3.13)
Der Prozeß stoppt, sobald ein Übergang nicht erfolgt. M a n erhält als Gesamtmodell P ( Y n = r | Y n ^ r , x n ) = F(/? 0 r + x ; y ) ,
r = l,...,q.
(3.14)
Es ist zu beachten, daß nicht einzelne Übergänge beobachtet werden, sondern immer nur die tatsächliche Responsekategorie. Der sequentielle Mechanismus ist eine Annahme, die der Modellbildung dient. Die Modellformulierung (3.14) spiegelt unmittelbar dieses Konstruktionsprinzip wieder. Alternativ läßt sich (3.14) in unbedingten Wahrscheinlichkeiten ausdrücken durch P ( Y n = r | x n ) = F(ß0l + χ'ηγ) J ] (1 - F(/J 0 i + x'ny)),
r = 1,..., q . (3.14)
Durch Spezifikation der Verteilungsfunktion F erhält man wiederum das logistische sequentielle Modell (für logistische Funktion F) oder das sequentielle Extremwertmodell (für F(x) = 1 — exp(—exp(x))). Ebenso sind natürlich mit den anderen dichotomen Modellen aus Abschnitt 1 sequentielle lineare oder Probit-Modelle möglich. Einen Spezialfall stellt das sequentielle Extremwertmodell dar. Mit Modell (3.12) wurde bereits im Abschnitt über kumulative Modelle ein sequentielles Modell betrachtet. Dieses Modell läßt sich durch Umparametrisieren sowohl als kumulatives als auch als sequentielles Modell darstellen. Dies gilt allerdings nicht f ü r die anderen Modelle, wie beispielsweise das Logit-Modell. Hier sind kumulatives und sequentielles Modell unterschiedlich (vgl. auch Tutz, 1991a). Der Unterschied zwischen kumulativem und sequentiellem Modell liegt in der Interpretation der Parameter. Während der Koeffizient y beispielsweise im kumulativen Logit-Modell die kumulativen Chancen bestimmt, ist y im sequentiellen
276
Kapitel 6 Kategoriale und generalisierte lineare Regression
Modell entsprechend (3.13) wie für dichotome Modelle zu interpretieren, wobei die Dichotomie hier den Übergang zur nächsthöheren Kategorie meint. Wie man unmittelbar sieht, läßt sich das sequentielle Logit-Modell darstellen durch die bedingten Chancen des Übergangs 1 , n
P(Yn = r | Y n > r , * n ) i-P(Yn = r|Yn^r,x
n
η ^ )=^ +
X
, ^·
Eine Erweiterung des sequentiellen Modells, die bei wenigen Responsekategorien sinnvoll ist, erhält man, wenn die Koeffizienten als spezifisch für den Übergang zugelassen werden. Anstatt des linearen Terms x„y setzt man in (3.13) den kategorienspezifischen Term x' n y r . Der Spezialfall yi = ... = yq = y ergibt dann das einfache Modell (3.13). In manchen Programmpaketen (ζ. B. G L A M O U R ) kann man wählen, ob Variablen mit kategorienspezifischen Gewichten eingehen sollen oder mit kategorienunspezifischen (globalen) Gewichten. Man erhält dann den allgemeineren linearen Term xj,y r + x'ny, wobei x n , z n die beiden Variablengruppen darstellen. Das Modell ist gegeben durch P ( Y n = r| Y n > r, x n , z n ) = F(ß0T + x'nyt + z'ny)
(3.15)
bzw. P ( Y n = r| x n , z n ) = F(ß0l + x' n y r + z'ny) Π (1 - F ( / J 0 i + x^y, + ζ'ηγ)), (3.16) Beispiel 3.5. Lungenfunktionstest (Fortsetzung von Beispiel 3.2)
Der Einfluß von Alter (A) und Rauchverhalten ( R ) auf das Testergebnis wird durch das sequentielle Modell spezifiziert. Die Einflußvariablen liegen in Effektkodierung vor. Zusätzlich zu den Haupteffekten ist es notwendig, Interaktionseffekte zwischen Alter und Rauchverhalten zu berücksichtigen. In Tabelle 3.7 sind Schätzungen für zwei Modellvarianten gegeben. In beiden Modellen geht das Alter mit globalen Koeffizienten in der F o r m \AßA ein. Für das Rauchverhalten wird einmal global modelliert mit xJjS R(1) + x r /?r ( 2 ) und einem kategorienspezifisch mit Tab. 3.7: Schätzungen für sequentielle Modelle Sequentielles Logit-Modell mit kategorienspezifischem Einfluß von R
Sequentielles Logit-Modell mit globalen Effekten
ßol ß02 ßA ßR(1)1 ßR(1)2
0.000 0.000 0.385 0.000 0.108
ß01 ß02 ßA
2.379 1.516 0.094
0.000 0.000 0.368
ßm)
0.882
0.000
~ °·375
0
Äi(2)
- °·356
0
"°·561 - 0 894 0·015
0
/?A-R(i)
-0.601
0.001
/? A . R(2)
0.092
0.492
ßwn
ßR(2)1
/ W u /W,,2 / W u
/? A . R ( 2 ) , 2
2.379 1.510 0.092 0.915 0.675 -0.163
0.532
008
0.609 0 0 0 3 047
°·912
0.161
008
3. Mehrkategoriale Regressionsmodelle
277
X
R^R(1),1 + XRI R(2),l für den ersten Übergang von normal zu grenzwertig und mit r^r(d.2 + xrÄi(2),2 für den zweiten Übergang von grenzwertig zu abnormal. Entsprechend gehen die Interaktionen global oder kategorienspezifisch ein. Wie man deutlich sieht, setzt sich bei der Vereinfachung zu globalen Effekten jeweils der Effekt für den ersten Übergang stärker durch. Das ist dadurch begründet, daß für den ersten Übergang wesentlich mehr Daten zur Verfügung stehen als für den zweiten Übergang. Der Interaktionseffekt zeigt deutlich, daß der starke Einfluß des Rauchens (0.882 für Nichtraucher) vor allem in Verbindung mit dem Alter wirksam wird (/?A.R(1) = — 0.601 relativiert den Nichtrauchereffekt von 0.882). a
Die Einbettung in die multivariaten generalisierten Modelle erfolgt analog zu den Ausführungen zum kumulativen Modell. Für die Form g(n n ) = Xnß benutzt man (3.15), wobei sich die Linkfunktion aus P(Y n = r| Yn > r, x n , z n ) = π ηι7(πηΓ + ·· · + t n R ) = πητΙ(1 — π η1 — ... — πηΓ) ergibt. Für π η = h(X„ß) benutzt man die Form (3.16). Die Designmatrix für das generelle Modell (3.15) bzw. (3.16) ergibt sich aus
In =
Μ w >/n2
'ßo Vi
0
lxl
ζή ßo„
lx:
z
"l
Vq V
m i t ß = ( / J 0 1 , / i , · · · .00,
3.4 Schätzen und Testen in multivariaten generalisierten linearen Modellen Maximum-Likelihood-Schätzung Im Kontext generalisierter linearer Modelle stellt das Likelihood-Prinzip das dominante Schätzkonzept dar. Im folgenden wird daher die Maximum LikelihoodSchätzung für den multivariaten Fall behandelt. Für den Spezialfall einer multinomialverteilten abhängigen Variablen in Verbindung mit ausschließlich kategorialen Einflußgrößen sind allerdings alternative Schätzer möglich. Insbesondere der gewichtete Kleinst-Quadrat-Schätzer wurde von Grizzle/Starmer/Koch (1969) propagiert und vielfach im Bereich der kategorialen Regression angewandt (vgl. Williams/Grizzle, 1972, Kritzer, 1978, 1979, Fahrmeir/Hamerle, 1981, Hamerle/Kemeny/Tutz, 1984 Kap. 6 der 1. Auflage). Der nach diesen Autoren bezeichnete Grizzle-Starmer-Koch-Ansatz bezieht sich auf dieses Schätzprinzip, nicht auf das Konzept der kategorialen Regression selbst. Der Vorteil des ML-Schätzers liegt darin, daß er sich für kategoriale Regressionsprobleme einsetzen läßt, unabhängig davon, ob die Einflußgrößen stetig oder kategorial sind. Wie in Abschnitt 2.1 werden gruppierte und ungruppierte Daten gemeinsam behandelt. Als Laufindex wird η verwendet, wobei die Gewichte wn den Wert N n (gruppierte Daten, arithmetisches Mittel als abhängige Variable) bzw. 1 (ungruppierte Daten) annehmen. Das zugrundeliegende Modell besitzt die Form
278
Kapitel 6 Kategoriale und generalisierte lineare Regression
/in = h ( X J )
bzw.
g(ßJ
= \ J .
Aus der Dichte et \a Μ \ / ι ·. f ( y J 0 „ , Φ, w n ) = c ( y n , Φ, w n ) exp
„ - b ( 0 n ) ) w n / 0 und die Score-Funktion *η(β) =
Χ'ηΌη(β)Σ;\β)(γη-μη(β)),
wobei Όα(β) = δ^η^Ιδη die Matrix der partiellen Ableitungen an der Stelle ηη = Χηβ bezeichnet. Die Matrix Σ ~ 1 (ß) ist die Kovarianzmatrix f ü r μπ(β) = h(Xnß). F ü r die Multinomialverteilung mit μ η = π η hat Σ η ( / ί ) die F o r m 'πη1(1-πη1)
- π η 1 π η 2 ...
-πη1π
Σπ(β) = (Diag(» n ) - « η π ' η ) / Ν η = π
nq nl Mit W n (/J) = Όη(β)Σ;1(β)Ό'η(β) Funktion darstellen durch sn(ß) = X ; W
n
ηαΟ
" Ο /
läßt sich wegen ög/δμ = ( d h / δ ι / Γ 1 die Score-
dziu ) ( / f ) ( y δμ
n
-
μη(β)).
Die Fisher-Matrix bzw. erwartete Information zur n-ten Beobachtung hat die einfache F o r m f„(/j) = x ; w n ( / ? ) x n . F a ß t m a n die (gruppierten) Beobachtungen zusammen zu y' = ( y ' i , . . . , y i )
bzw.
μ (/})'
= (M/0',·.·,*(«')
und bildet die Design-Matrix sämtlicher Beobachtungen /Xi\ W ,i erhält m a n mit den Block-Diagonal-Matrizen Σ ( β ) = Diag(L n (/J)), W(/J) = Diag(W n (/J)), D(/f) = D i a g ( D n ( f l ) die (totale) Score-Funktion »(«=
Σ sn(ß) = Χ'Ό(β)Σ~ι(β)(γ
-
μ(β))
3. Mehrkategoriale Regressionsmodelle
279
und die (totale) Matrix der erwarteten Information (Fisher-Matrix) F(/0 = X'W(/J)X.
Numerische Bestimmung des ML-Schätzers Zur iterativen Bestimmung läßt sich wiederum das in Abschnitt 2 bereits betrachtete Fisher-Scoring-Verfahren einsetzen, für das die (k + l)te Iteration gegeben ist durch
In der Darstellung als iterativ gewichtete KQ-Schätzung erhält man ^(k+1) = (X' W
X) ~ 1 X'W ($(k)) y(k)
wobei der „Arbeitsvektor" y(k) = (yi(/^ k) ), · - · , Ϋ ι ( ^ ) ) ) bestimmt ist durch die Komponenten y„(Ak)) = X A > + D n _1 (JooXy. - V n(Ak>)) · Asymptotische Eigenschaften Die asymptotischen Eigenschaften des ML-Schätzers sind analog zum univariaten Fall (Satz 2.1). Unter relativ schwachen Regularitätsbedingungen betrachtet man wiederum für wachsenden Gesamtstichprobenumfang Ν oo den zugehörigen ML-Schätzer und erhält asymptotische Existenz, schwache bzw. starke Konsistenz und die asymptotische Normalverteilung ).t e ( 0 , 1 ) für Ν - * oo asymptotisch eine ^-Verteilung, d.h. *2,D~x2(gq-p) wobei gq — ρ die Anzahl der Freiheitsgrade wiedergibt. Allerdings ist zu berücksichtigen, daß der lokale Stichprobenumfang N; hinreichend groß sein muß. Für stetige Einflußgrößen mit lokalen Stichprobenumfangen von N j = 1 sind die Bedingungen für eine Approximation nicht gegeben.
Generalisierte Hat-Matrix In der linearen metrischen Regression (Kapitel 4) spielt die sog. Hat-Matrix Η = X ( X ' X ) _ 1 X ' eine wichtige Rolle als diagnostisches Hilfsmittel. D a sich der
3. Mehrkategoriale Regressionsmodelle
281
gefittete Wert y aus y = Hy ergibt, spiegelt Η den Einfluß der Beobachtungen y auf y wieder. Für das generalisierte lineare Modell μ, = h(Xn/J) läßt sich eine generalisierte Hat-Matrix aus dem iterativen Schätzverfahren ableiten. Wenn der Fisher-ScoringAlgorithmus eine Nullstelle der Scorefunktion identifiziert hat, gilt β = (X'W(ß)X)~1X''W(ß)y(ß)
(3.19)
1
( ß ) ( y - μ ( β ) ) . Der Schätzer β ist auch
mit dem „Arbeitsvektor" y ( ß ) = X ß + Ό ' als KQ-Schätzer des linearen Problems
y 0 ( ß ) = ™ τ ' 2 ( β ) Π β ) = W T ' 2 (^)X/J + e interpretierbar. Dabei bezeichnet W T/2 eine rechte und W 1 / 2 eine linke Wurzel von W (vgl. Anhang A). Die zugehörige Hat-Matrix hat mit X 0 = W T / 2 ($)X die Form Η = X0(X^X0)-1X0 = WT/2(β)XF~1(ß)X'W1/2(ß). Die Form X 0 ß = H y 0 ( ß ) zeigt, daß Η den Einfluß des Vektors y 0 ( ß ) auf den „gefitteten" Wert X 0 ß wiederspiegelt in Analogie zur Form y = Hy im Falle der linearen Regression. Die Matrix Η ist eine (Iq χ Iq)-Matrix, die sich mit Η = (H^) 1 < i < I, 1 < j < I, in Blöcke H^ aufteilen läßt, die jeweils den Einfluß der j-ten „Beobachtung" auf den Fit der i-ten Komponente wiedergeben. Im Falle eines eindimensionalen Responses (q = 1) ist Hjj = hjj ein Skalar. Ist hH sehr groß spricht das für einen starken Einfluß der i-ten Beobachtung. Im Falle q > 1 ist H^ eine (q χ q)-Matrix. Als Indikator für den Einfluß der i-ten Beobachtung läßt sich die Determinante |Hjj| oder die Spur sp(Hü) betrachten. Die Matrix Η ist als idempotente und symmetrische Matrix eine Projektionsmatrix. Die Hat-Matrix spielt eine weitere Rolle in der Residualanalyse bei der Normierung der PeaAon-Residuen (3.18). Man erhält asymptotisch (N ; oo) die Approximation cov(r; P) = φ(I — H ü )' und damit die standardisierten Pearson-Residuen
Cook-Distanz Eine alternative Form, den Einfluß einer Beobachtung (yi5 x j zu quantifizieren, besteht darin, die Veränderung in der Parameterschätzung zu betrachten, wenn eben diese Beobachtung weggelassen wird. Um die Wirkung sämtlicher Komponenten von β simultan zu erfassen, betrachtet man in Analogie zu den Betrachtungen von Cook (1977) für das lineare Regressionsmodell die ,Cook-Distanz'
c ^ i ß u - ß y c o H ß r H ß u - ß ) , wobei ß ( i ) den Schätzer ohne die i-te Beobachtung bezeichnet. Ersetzt man ß ( i ) durch eine Ein-Schritt-Approximation /?(i)1, für die ausgehend vom ML-Schätzer β nur eine Iteration für die reduzierten Daten bestimmt wird, erhält man die Approximation
282
Kapitel 6 Kategoriale und generalisierte lineare Regression c
= r P,i
u
-
H
») "1
H
ü
H
-
ü ) " 1 rp.i'
die unmittelbar von den Pearson Residuen und der entsprechenden Komponente der Hat-Matrix abhängt (vgl. Hennevogl/Kranert, 1988). Große Residuen sowie die Nähe von H ü zur Einheitsmatrix bewirken ein Anwachsen von c u . Beispiel 3.6. Absatz an Tankstellen (Fortsetzung von Beispiel 3.3, 3.4) In Beispiel 3.3 wurden die ML-Schätzungen für das multinomiale Logit-Modell angegeben, in Beispiel 3.4 wurden das kumulative Logit-Modell und das gruppierte Cox-Modell betrachtet. Als Einflußgrößen wurden jeweils die Hauptefekte von Ortsgröße (O), Angebotsform (A) und Straßenart (S) einbezogen. Die Anpassungsteststatistiken in Tabelle 3.8 zeigen eine gute Anpassung des multinomialen Modells, die Anpassung der ordinalen Modelle ist weniger gut aber noch vertretbar. Für die letzten beiden Modelle, die sich hinsichtlich der Anpassungsgüte kaum unterscheiden, spricht die einfachere Interpretation der Parameter. Als Interaktionen zwischen den Einflußgrößen lassen sich nur die Interaktionen zwischen Ort und Angebotsform (Ο* A) und Ort und Straßenart ( 0 * S ) modellieren. Die Interaktion zwischen Angebotsform und Straßenart ist nicht schätzbar. Tabelle 3.9 gibt die Anpassung der Modelle mit Haupteffekten und den Interaktionen Ο * Α, Ο * S wieder, zusammen mit der Differenz der Devianzen zum jeweiligen Haupteffektmodell. Wie man sieht, sind die Interaktionen durchaus vernachlässigbar. observed values
0.75
-
0.68
-
0.61
-
0.55
-
0.48
category 1 6j 5/
category 2
category 3
/
/
/
1
T2 1/1
9 -
0.34
-
ι
/
/
,4 ;
1
J
2
/
1
f
ί
t /
/
/
/
-
0.41
/
/ 3
i
ι
8
1
/
1 8
/ 1
i1
2
0.28
/
-
0.14
-
/ 9
2
i
I 0.0
I 0.3
I 0.7
I 1.0
I 0.0
/
3i
4 4
ί
0.08
/io
1
Is /
/e
3
ii
i7
0.21
91
1»/
I 0.3
Abb. 3.2: Gelittete gegen beobachtete Werte
I 0.7
I 1.0
1 0.0
1 0.3
1 0.7
1 1.0
3. Mehrkategoriale Regressionsmodelle Tab. 3.8: Anpassungsstatistiken für Haupteffektmodelle der Tankstellen-Daten (p-Werte sind in Klammern gegeben) Devianz
Pearson Freiheitsgrade
Multinomiales Logit-Modell
15.582 (0.561)
12.559 (0.339)
14
Kumulatives Logit-Modell
28.038 (0.061)
25.151 (0.120)
18
Kumulatives Extremwert-Modell
27.195 (0.075)
25.932 (0.101)
18
index
1.0
3.0
5.0
Abb. 3.3: Quadrierte Devianz-Residuen
7.0
9.0
11.0
283
284
Kapitel 6 Kategoriale und generalisierte lineare Regression Tab. 3.9: Devianz und Devianzdifferenzen zwischen Haupteffektmodellen und Modellen mit zusätzlichen Interaktionen Ο* A, 0 * S Doppelte Devianzdifferenz
Devianz
Freiheitsgrade der Devianzdifferenz
Multinomiales Logit-Modell
11.683
7.838
6
Kumulatives Logit-Modell
22.568
10.940
5
Kumulatives Extremwert-Modell
22.596
9.198
5
index
1.0
5.0
9.0
1.0
5.0
9.0
1.0
5.0
9.0
Abb. 3.4: Pearson-Residuen für die ersten beiden Kategorien und die Norm der PearsonResiduen
3. Mehrkategoriale Regressionsmodelle
285
Im weiteren werden diagnostische Hilfsmittel für das kumulative Logit-Modell betrachtet. Die Nummern für die gruppierten Beobachtungen entsprechen dem Aufbau in Tabelle 3.1. Beispielsweise entspricht die zweite Gruppierung der Einflußgrößenkombination Großer Ort/Selbstbedienung/Landstraße. In Abbildung 3.2 werden die gelitteten Werte (Abszisse) den beobachteten relativen Häufigkeiten für die 3 Responsekategorien gegenübergestellt. Offensichtlich wird hier, daß die Beobachtungsgruppen 2 und 8 für die ersten beiden Kategorien und die Beobachtung 1 für die letzten beiden Kategorien eine erhebliche Diskrepanz aufweisen. Der Beitrag einzelner Beobachtungen zur Anpassungsgüte wird in den Abbildungen 3.3 und 3.4 sichtbar. Die Devianzresiduen sind besonders groß für die Beobachtungen 1, 5, 9, 10 die Norm der Pearsonresiduen erreicht hohe Werte für die Beobachtungen 1,2,5,9,10 und 12. Die Abweichungen für einzelne Kategorien ergeben sich aus den ersten beiden Bildern in Abbildung 3.4. Man beachte, daß
index
Abb. 3.5: Determinante des Beobachtungs-Blocks der Hat-Matrix
286
Kapitel 6 Kategoriale und generalisierte lineare Regression
hohe Werte der (standardisierten) Pearson-Residuen (wie für Beobachtung 12) auch auftreten können, wenn die Diskrepanz zwischen relativer Häufigkeit und gefittetem Wert sehr klein ist. Der Grund liegt darin, daß beispielsweise für Beobachtung 12 der lokale Stichprobenumfang sehr groß ist, was eine kleine Standardabweichung zur Folge hat. Der Einfluß der Beobachtungen auf den Fit, gemessen durch die Determinante bzw. die Spur der Matrix H ü , ist in den Abbildungen 3.5 und 3.6 wiedergegeben. Hier ist in den Beobachtungen 4, 5,10 und 12 der große lokale Stichprobenumfang wirksam. Die Sensitivität des Schätzers wird aus der Cook-Distanz in Abbildung 3.7 deutlich. Die Beobachtung 10, insbesondere aber die Beobachtung 12 bestimmen wesentlich die Schätzung des Parametervektors.
index
1.0
3.0
5.0
7.0
Abb. 3.6: Spur des Beobachtungs-Blocks der Hat-Matrix
9.0
11.0
4. Parametrische Erweiterungen
287
index
Abb. 3.7: Cook-Distanz
4. Parametrische Erweiterungen Dieser Abschnitt beschreibt generalisierte Regressionsansätze, die den üblichen, durch Exponentialfamilien und lineare Prädiktoren abgesteckten Rahmen verlassen.
4.1 Quasi-Likelihood-Modelle und generalisierte Schätzgleichungen Für generalisierte lineare Modelle impliziert die Annahme einer bestimmten Verteilung vom Exponentialfamilientyp und einer bestimmten Erwartungswertstruktur eine spezifische Varianz- oder Kovarianzstruktur. Quasi-Likelihood-Modelle und generalisierte Schätzgleichungen erlauben die separate Spezifikation von Erwartungswert- und Varianz-Kovarianzstruktur. Dabei verläßt man im allgemeinen den Rahmen einfacher Exponentialfamilien.
288
Kapitel 6 Kategoriale und generalisierte lineare Regression
Wedderburn (1974), McCullagh (1983) und McCullagh/Nelder (1989) nehmen an, daß E(y|x) = μ = h(x'/f) und var(y|x) = φ\{μ) separat, ohne Bezugnahme auf eine bestimmte Verteilung, und korrekt spezifiziert sind, d.h. es gibt ein β und ein φ, so daß durch h(x'/?) und φν(μ) Erwartungswert und Varianz richtig modelliert sind. Dazu wird eine Quasi-Likelihood (^(β,φ) definiert, deren Ableitung die übliche Form (2.2) der Score-Funktion ergibt. Gourieroux/Monfort/Trognon (1984) verlangen nur, daß der Erwartungswert korrekt spezifiziert ist, während für die Schätzung eine Pseudo-Likelihood verwendet wird, die weder die wahre Likelihood noch die wahre Varianz umfassen muß. Noch allgemeiner sind Ansätze mit generalisierten Schätzgleichungen („generalized estimating equations", GEE). Dabei startet man direkt von einer generalisierten Schätzfunktion s(ß) = Ix„D n (jS) σ~2(β)(yn η
- μη(β)),
(4.1)
wobei μη(β) = E(y n |x n ) = h(\'nß) der korrekte Erwartungswert von yn ist, während a~l(ß) nicht notwendig die wahre Varianz σ$α(β) = var(y n |x n ) sein muß. Man bezeichnet σΙ(β) auch als „Arbeitsvarianz". Eine spezifische Form von Arbeitsvarianzen erhält man ζ. B. indem man die Varianzfunktion durch einen weiteren Parameter θ parametrisiert und var(y |x) = φν{μ\ θ) annimmt. Ein wichtiger Fall ist ν{μ·θ) = μ°.
(4.2)
Dieser Ansatz liefert für θ = 0 , 1 , 2 , 3 die Varianzfunktion der Gauß-, der Poisson-, der Gamma- und der inversen Gauß-Verteilung. Die (4.1) entsprechende Erweiterung für multivariate Zielvariablen y„ mit korrektem Erwartungswert E(y n ) = h(X n /i) = μ(β) führt zur generalisierten Schätzfunktion s(ß)= Σ X;D n (/J) ς ; 1 (/ö(y n -/!„(/?)). η
(4.3)
Dabei ist Σ η (β) eine positiv definite Arbeitskovarianzmatrix, die nicht notwendig mit der wahren Kovarianzmatrix E 0n (/J) = cov(y n |x n ) von yn identisch sein muß. Quasi-ML-Schätzer β werden als (lokale) Nullstelle der generalisierten Schätzgleichung (GEE) s(ß) = 0 durch ein iteratives Verfahren bestimmt. Es läßt sich zeigen, daß β unter Regularitätsannahmen konsistent und asymptotisch bzw. approximativ normalverteilt ist mit
4. Parametrische Erweiterungen β ~ ~N(ß,A) .
289 (4.4)
Die geschätzte asymptotische Kovarianzmatrix Ä hat die Form einer „Sandwich"Matrix Ä = f-itF"1,
(4.5)
mit η als „Quasi^-Fisher-Matrix und V = ΣX'„ D n t η
1
(y n - μη)(yn - ß„)' £ n - 1 0 ; X n .
(4.6)
Dabei bedeutet „"" die Auswertung von Dn(ß), Σ η (/}) und μ„(β) an der Stelle ß. Falls cov(y n |x n ) durch Σ η (/?) korrekt spezifiziert ist, sind F und Ϋ asymptotisch äquivalent, so daß Ä ~ F 0 1 gilt, d.h. man erhält die aus der ML-Schätzung bekannte asymptotische Kovarianzmatrix. Für eine effiziente Schätzung $ ist es also günstig, daß die Arbeitsvarianz nicht zu weit von der wahren Varianz entfernt ist. Beispiel 4.1. Zellteilung In Beispiel 2.3 wurde versucht, die Überdispersion mittels eines multiplikativen Parameters φ durch σ2 = var(y|TNF, IFN) = φμ zu berücksichtigen. Eine genauere Inspektion der Daten zeigt jedoch, daß die Proportionalität σ2 = φμ die mit μ anwachsende Variabilität zu wenig berücksichtigt. Die folgende Tabelle 4.1 gibt die Ergebnisse von Quasi-LikelihoodSchätzungen mit den alternativen Varianzstrukturen σ2 = φ μ, σ 2 = φ μ2 und σ2 — μ + θ μ2 wieder. Obwohl sich die Schätzwerte für Haupt- und InteraktionsefTekte kaum unterscheiden, ergeben die p-Werte 0.099 statt 0.22 doch leichte Hinweise für eine Interaktion zwischen TNF und IFN. Tab. 4.1: Quasi-Likelihood-Schätzung für verschiedene Varianzstrukturen σ2 (μ) = φ μ 1 TNF IFN TFN*IFN φ έ
3.436 (0.0) 0.016 (0.0) 0.009 (0.0) - 0 . 0 0 1 (0.22) 11.734
σ2 (μ) = φ μ2 3.394 (0.) 0.016 (0.) 0.009 (0.003) - 0 . 0 0 1 (0.099) 0.243 -
σ2(μ) = μ + θ μ2 3.395 0.016 0.009 -0.001
(0.0) (0.0) (0.003) (0.099)
0.215
4.2 Regressionsmodelle für multivariate korrelierte Zielvariablen Die Erweiterung der regressionsanalytischen Problemstellung auf einen Vektor abhängiger Variablen y n = ( y n i , . . . , y nq )', die einer Normalverteilung folgen, wurde bereits in Kapitel 4 behandelt. Im folgenden liegt der Schwerpunkt auf binären abhängigen Variablen.
290
Kapitel 6 Kategoriale und generalisierte lineare Regression
Es werden an einer statistischen Einheit mehrere binäre Variablen erhoben, dabei kann es sich um Meßwiederholungen yn t , . . . , y nq handeln oder um Messungen unterschiedlicher Variablen, die sich möglicherweise nur durch den Ort der Messung unterscheiden (siehe Beispiel 4.2). Sind neben den abhängigen Größen auch die unabhängigen Größen kategorial, kommen loglineare Modelle (Kapitel 10) zur Modellierung der Zusammenhangsstruktur in Frage. Die hier betrachteten Ansätze sind auch für metrische Einflußgrößen geeignet und sind direkt auf die regressionsanalytische Fragestellung ausgerichtet. Der Schwerpunkt der Darstellung liegt auf den marginalen Modellen, Alternativen werden im Anschluß daran kurz skizziert. Marginale Modelle Marginale Modelle wurden insbesondere von Liang/Zeger (1986), Zeger/Liang (1986) entwickelt. Von der inzwischen umfangreichen Literatur seien insbesondere der Artikel von Liang/Zeger/Qaqish (1992) und die Bücher von Diggle/Liang/ Zeger (1994) und Fahrmeir/Tutz (1994) erwähnt. Der Grundgedanke dieses Ansatzes besteht darin, die marginale Abhängigkeit der einzelnen Komponenten zu modellieren und die Assoziationsstruktur zwischen den Komponenten als nachgeordnet zu betrachten. Seien y n = ( y n l , . . . , y n q )' der Responsevektor zur n-ten Einheit und x n = (x^i, · . . , x'nq)' ein Vektor von Einflußgrößen. Die Einflußgrößen können dabei spezifisch sein für die einzelnen Komponenten des abhängigen Vektors. Handelt es sich beispielsweise bei y n l , . . . , y nq um q Meßstellen an einer Einheit, können x n l , . . . , x n q Charakteristika der einzelnen Meßstellen beinhalten. Die Modellkomponenten sind bestimmt durch: (1) Spezifikation der marginalen Wahrscheinlichkeiten
in der Form
tjiXnj) = P(ynj = 1 |xnj) = h j K j ß ) ,
(4.7)
wobei hj eine für die j-te Komponente spezifische Linkfunktion ist. (2) Die Varianz der Komponenten ergibt sich aus den marginalen Wahrscheinlichkeiten 7tnj = 7tj(x n j) in Form der Varianzfunktion var (y n j | xnj) = ν (jt nj ) = 7tnj (1 - 7t nj ).
(4.8)
(3) Die Kovarianz zwischen den Komponenten ist eine Funktion der marginalen Wahrscheinlichkeiten und gegebenenfalls eines Assoziationsparameters a, so daß für eine spezifizierte Funktion c gilt cov(y n j ,y n k ) = c(7t n j ,7i n k ;a),
j / k .
(4.9)
Die wesentliche Komponente ist die richtige Spezifikation der marginalen Wahrscheinlichkeiten. Die Parameter ß t lassen sich unter dieser Bedingung auch dann konsistent schätzen, wenn die Kovarianzstruktur falsch spezifiziert ist. Die durch (4.9) bestimmte Kovarianz spielt daher die Rolle einer „Arbeitsvarianz", die wenn falsch - nur die Effizienz der Schätzung beeinträchtigt.
4. Parametrische Erweiterungen
291
F ü r binäre Responsevariablen wurden insbesondere zwei Methoden vorgeschlagen, diese Arbeitsvarianz festzulegen. Die erste Methode ( L i a n g / Z e g e r , 1986, Prentice, 1 9 8 8 ) besteht darin, die durch (4.8) bestimmte Varianz durch eine v o m Assoziationsparameter α abhängende Arbeits-Korrelationsmatrix zu ergänzen. M a n setzt als Kovarianzmatrix a) = A i ' 2 ( / } ) R ( a ) A l J 2 ( ß )
Ση(β, fest, wobei An(ß)
= Diag(7t n j (l — 7t nj )) die Varianzen enthält und R ( a ) die zusätz-
liche Korrelationsstruktur. W ä h l t m a n mit R ( a ) = I die Einheitsmatrix, entspricht das der Unabhängigkeitsannahme. Die Wahl R ( a ) = (α) entspricht einer Äquikorrelation; d . h . je zwei Komponenten besitzen die Korrelation α. Die zweite Methode, die Arbeitsvarianz festzulegen, geht von dem für kategoriale Variablen geeigneten Assoziationsmaß des Kreuzproduktverhältnisses aus (vgl. L i p s i t z / L a i r d / H a r r i n g t o n 1991). D a s Kreuzproduktverhältnis oder Verhältnis der Chancen ist für die Variablen y ; und y k bestimmt durch = yjk
P ( y j = l , y k = l ) P ( y j = 0, y k = 0 ) P(yj = l,yk = 0)P(yj = 0,yk = l)
(vgl. Kapitel 10, Abschnitt 2). Die Kovarianz von yj und y k , bestimmt durch c o v ( y j , y k ) = E ( y j y k ) — EyjEy k , läßt sich als F u n k t i o n von y j k ausdrücken, d a für y jk φ 1 gilt E ( y j y k ) = 1 - (TCj + t k ) ( l - y j k ) - [ { 1 " (Jtj + π , ) ( 1 -
yjk)}2
-4(7Jk-l)7JknJnk]1/2 und für y jk = 1 gilt E ( y j y k ) = πϋ·π1ι. D u r c h Parametrisieren y jk = -/(α), im einfachsten Fall durch y j k = a , j φ k, wird damit die Kovarianz festgelegt.
S c h ä t z u n g für m a r g i n a l e
Modelle
W i e in der Quasi-Likelihood-Schätzung geht m a n von einer generalisierten Schätzfunktion aus, die (für vorerst festes α) gegeben ist durch s(ß, α) = ΣΚ η
D n ( / Ö Σ η " 1 (β, « ) ( y n - π
wobei Χ ; = ( χ η 1 , . . . , x n q ) , Όη(β) ...,
η
(0),
(4.10)
= Diag(3hj(x^jßj)/(öi/nj) u n d π η ( β ) = (πη1(χη1),
K n q (x n q ). F ü r festes α entspricht ( 4 . 1 0 ) der generalisierten Schätzfunktion
(4.3). Durch Nullsetzen
s(ß,a) = 0
erhält m a n unter Regularitätsbedingungen
einen konsistenten Schätzer ß, der numerisch ζ. B. durch Fisher-Scoring bestimmt wird. Die Konsistenz von β bleibt auch erhalten, wenn α durch einen Schätzer a ersetzt wird, der gegen einen festen Wert konvergiert. Als asymptotische Verteilung erhält m a n /}, ~ N ( / J , Ä), wobei Ä durch ( 4 . 5 ) und (4.6) gegeben ist. Die einzige Modifikation besteht darin, daß
" die Auswertung der Matrizen an der Stelle
β, ά (und nicht nur bei ß) bezeichnet. Z u r Schätzung von α und alternativen simultanen Schätzern für β und α vgl. L i a n g / Z e g e r (1986), Prentice ( 1 9 8 8 ) , Diggl e / L i a n g / Z e g e r (1994).
292
Kapitel 6 Kategoriale und generalisierte lineare Regression
Alternative Ansätze Während der marginale Modellierungsansatz die Abhängigkeit der Randverteilungen von exogenen Variablen in den Vordergrund stellt, wird in konditionalen Modellen auch die Abhängigkeit von anderen Komponenten modelliert. Ein symmetrischer Modellansatz wird z.B. von Qu u.a. (1987) vorgeschlagen, der mit π
·υ = P(y n j = 1 ly„k> k * j. x nj) = h(a(w n j ; Θ) + x ^ )
die übrigen Responsevariablen y nk , k φ j, in die Bedingung aufnimmt und α als Funktion eines Parameters θ und der Summe w n j = Σ yk spezifiziert. Werden die Zielvariablen sukzessive in der Reihenfolge y n l , . . . , y n q erfaßt (beispielsweise zu verschiedenen Zeitpunkten), ist es häufig sinnvoll, asymmetrische Modelle zu betrachten, bei denen in der Bedingung nur y nk , k < j, x n j enthält. Man vgl. Qu u.a. (1987), Conolly/Liang (1988), Rosner (1984, 1992). Eine weitere Alternative, die Korrelationsstruktur zwischen den einzelnen Komponenten zu berücksichtigen, besteht darin, diese auf zufallige Effekte zurückzuführen. Modelle mit zufälligen Effekten (random effects) sind im einfachsten Fall vom Typ π-j = P(y„j = l l x n r a n) = h ( a „ + x „ / ) , wobei a n ~ Ν (0, σ2) eine Zufallsvariable darstellt. Der zufallige Effekt a n ist spezifisch für die Beobachtungen an der n-ten Einheit. Stellen beispielsweise y n l , . . . , y n q Messungen an einer Person dar, reflektiert a n das individuelle Grundlevel dieser Person. Die Spezifikation der Reaktionswahrscheinlichkeiten erfolgt für gegebenes individuelles a n . Ansätze dieser Art werden daher auch als subjektspezifisch bezeichnet. Für metrische Zielvariablen werden Schätzverfahren in Kapitel 4 behandelt. Für verallgemeinerte Ansätze, die kategoriale Zielvariablen zulassen, sei auf den Überblick in Kapitel 7 von Fahrmeir/Tutz (1994) verwiesen. Beispiel 4.2. Sehfunktion In einer Studie zur Beeinträchtigung der Sehfunktion werden Beeinträchtigungen des linken und des rechten Auges als separate abhängige Variablen y n l , y n2 betrachtet, (vgl. Liang/Zeger/ Qaqish, 1992). Tabelle 4.2 gibt die komprimierten Daten wieder, wobei y n i , y n 2 dichotome Ausprägungen mit den Ausprägungen „Beeinträchtigung"/„keine Beeinträchtigung" dar-
Tab.4.2: Beeinträchtigung der Sehfunktion (Liang et al, 1992). Beeinträchtigung
Weiße Population Alter 4 0 - 5 0 5 1 - 6 0 61 - 7 0 70 +
Schwarze Population Alter 40-50 51-60 61-70 70 + Gesamt
Linkes Auge Ja Nein
15 617
24 557
42 789
139 673
29 750
28 574
50 473
85 344
422 4777
Rechtes Auge Ja Nein
19 613
25 556
48 783
146 666
31 748
37 575
49 474
93 226
448 4751
5. Nicht- und semiparametrische generalisierte Regression
293
stellen. Zusätzlich wurden folgende Variablen erhoben x A : „Alter - 6 0 Jahre" (Zentrierung um 60), xR: Rasse (weiß/farbig), x AB : „Ausbildungsjahre - 9 Jahre" (zentriert um 9). Liang et al (1992) schlagen das marginale logistische Modell l o g - ^ = 1 - πη1
l o g - ^ 1 - π„ 2
= 00 + ßA, 1 XA„ + 0A,2
+ 0RXr„ + ßA X RXAnXRn + 0A* χ R x R n + ßB XB„
vor. Die Abhängigkeitsstruktur wurde durch ein lineares Modell für das Kreuzproduktverhältnis modelliert in der Form logy 1 2 = oc0 + a 1 x R . In Tabelle 4.3 sind die Schätzer für zwei Modelle gegeben, einmal das naive Modell, das von Unabhängigkeit der Beobachtungen ausgeht und einmal das eben spezifizierte marginale Modell. Die Schätzwerte für beide Modelle unterscheiden sich wenig. Hier wird deutlich, daß für die marginale Struktur dasselbe Modell spezifiziert wird. Die geschätzten Standardabweichungen für das naive Modell sind nicht ernstzunehmen und sind daher auch nicht angegeben. Das Verhältnis von Schätzern zu Standardabweichungen signalisiert einen deutlichen Effekt von Alter und Rasse, aber keine Interaktionswirkung. Tab. 4.3: Schätzungen für die Beeinträchtigung der Sehfunktion (in der Klammer ist das Verhältnis Schätzwert/Standardabweichung angegeben) ß A,l
/?A,2
ßn
-2.82
0.049
0.0018
0.33
0.0011
- 0 . 0 0 1 1 - 0.059
Marginales - 2 . 8 3 (-37) Modell
0.049 (7.1)
0.0018 (5.3)
0.33 (3.2)
0.0006 (0.07)
- 0.0006 - 0.060 2.3 (0.07) ( - 0 . 3 5 ) (8.7)
ßo
Naives Modell
ß \
xR
0a: xR
A.
«0
-
«1 -
0.54 (1.3)
5. Nicht- und semiparametrische generalisierte Regression Dieser Abschnitt gibt einen kurzen Überblick zu nicht- und semiparametrischen Erweiterungen generalisierter linearer Modelle. Generalisierte additive Modelle sind die den additiven Modellen (Kapitel 4, Abschnitt 4) entsprechende Modifikation. Eine ausführliche Darstellung geben Hastie/Tibshirani (1990). Im Anschluß daran werden diskrete Kernregressionsschätzer behandelt, die als Übertragung der metrischen geglätteten Regression (Kapitel 3, Abschnitt 4) auf den Fall kategorialer Zielvariablen zu verstehen sind.
5.1 Generalisierte additive Modelle Wir beschränken uns im folgenden auf univariate Zielvariablen y mit Verteilungen, die einer Exponentialfamilie angehören. Die prinzipielle Vorgehensweise läßt sich jedoch auf andere generalisierte Regressionsansätze erweitern. Im Vergleich zu generalisierten linearen Modellen wird für generalisierte additive Modelle (GAM) der lineare Prädiktor η = ß0 + ßix1 + ... + ßpxp durch einen additiven Prädiktor
294
Kapitel 6 Kategoriale und generalisierte lineare Regression
η = oc + m 1 (x 1 ) + ... + m p (x p )
(5.1)
oder zum Beispiel η = α+ m1 (Xj) + ß2 x 2 + ... + ßPp x,P
(5.2)
ersetzt, wobei die glatten Funktionen m ^ x j , . . . , m p (x p ) wie bei additiven Modellen nichtparametrisch modelliert und geschätzt werden. Modelle der Form (5.2) heißen auch semiparametrisch und sind zum Beispiel dann sinnvoll, wenn man annehmen kann, daß ein Teil der Kovariablen linear auf den Prädiktor wirkt. Zur Modellierung und Schätzung der glatten Funktionen m^Xj) können Kernschätzer, Nächste-Nachbarn-Schätzer, penalisierte Likelihood-Ansätze und andere Varianten der nichtparametrischen Regression in iterativer Form, meist verbunden mit einer inneren „Backfitting"-Iteration, eingesetzt werden, vgl. Hastie/Tibshirani (1990, Kap. 5, 6). Wir skizzieren die Vorgehensweise wie in Kapitel 4, Abschnitt 4.2 wiederum für den Fall, daß die Funktionen rrij (χ ; ) durch natürliche kubische Glättungssplines modelliert werden. Dazu wird das Kriterium (4.15) von Kapitel 4 verallgemeinert zu (5.3) Dabei ist l(y n ; ηη) der log-Likelihoodbeitrag von y n , t)n = α + m, (χ η1 ) Η— + m p (x n p ) der zugehörige additive Prädiktor, rechts stehen für jede Funktion die Strafterme für mangelnde Glattheit. Für normalverteilte y n ergibt sich bis auf den Faktor 1/2 und das Vorzeichen das Kriterium (4.15) von Kapitel 4 als Spezialfall. Die linke Seite von (5.3) kann auch aufgefaßt werden als (negative) KullbackLeibler-Distanz zwischen den Daten und den gelitteten Werten. Entsprechend ist (5.3) nun bezüglich aller zweimal stetig differenzierbaren Funktionen zu maximieren. Es läßt sich wiederum zeigen, daß die maximierenden Funktionen natürliche kubische Splines sind. Führt man die Vektoren inj = (π^(χ^), ...,mj(x N j ))' der an den Beobachtungen ausgewerteten Funktionen mj(), j = 1 , p , ein, so wird die Maximierung von (5.3) äquivalent zur Maximierung der penalisierten log-Likelihood
bezüglich m „ ..., m p . Dabei ist l ( m j , . . . , m p ) die log-Likelihood und rechts stehen die gleichen quadratischen Straffunktionen wie in (4.16), Kapitel 4. Die Maximierung von (5.4) erfolgt iterativ, in der Regel mit Fisher-Scoring. In jedem FisherScoring-Schritt ist eine innere Backfitting-Iteration mit „Arbeitsbeobachtungen" zu durchlaufen. Für algorithmische Details sei auf Hastie/Tibshirani (1990), Green/Silverman (1994) und Fahrmeir/Tutz (1994) verwiesen. Beispiel 5.1. Kredit-Scoring In den Beispielen 1.5 und 2.2 wurde der Einfluß der metrischen Regressoren X3 „Laufzeit" und X4 „Darlehenshöhe" in linearer Form, also durch ß 3 X3 und /?4X4, im Prädiktor des Logit-Modells berücksichtigt. Modelliert und schätzt man den Einfluß von X3 und X4 nonparametrisch, so führt dies auf einen additiven Prädiktor der Form
295
5. Nicht- und semiparametrische generalisierte Regression η = β0 + βι X l [ l ] + 0 2 X I [ 2 ] + m 3 ( X 3 ) + m 4 ( X 4 ) + ß5XS
+ ß6X6
+ ß8X%
,
wenn man die nichtsignifikante Variable X7 wegläßt. Werden m 3 () und m 4 () durch kubische Spline-Funktionen wie oben skizziert geschätzt, so erhält man die in den Abbildungen 5.1 a und 5.1b wiedergegebenen Kurven. Während der Einfluß von X3 über weite Bereiche in etwa linear ist, ergibt sich für die Kredithöhe X4 ein deutlich nichtlinearer Effekt: Es zeigt sich, daß sowohl kleine als auch größere Kredithöhen das Risiko erhöhen, während es sich
o 1
0
4000
8000
12000
H o e h e d e s K r e d i t s in DM
Abb. 5.1 a und 5.1 b: Geschätzter Effekt der Kredithöhe
16000
20000
296
Kapitel 6 Kategoriale und generalisierte lineare Regression
im mittleren Bereich verringert. Setzt man wie in Beispiel 2.2 den Einfluß der Darlehenshöhe linear durch ß4X4 an, so vermischen sich positive und negative Effekte so, daß βΛ fast gleich Null geschätzt und X 4 als nichtsignifikant eingestuft wird. Das Beispiel zeigt somit deutlich die Bedeutung der richtigen Modellierung von Einflußgrößen. Als Schätzwerte für die restlichen Parameter erhält man noch: 1
Xl[l]
XI [2]
X5
X6
X8
0.77
0.65
- 1.19
-0.91
-0.49
-0.59
Ein Vergleich mit Beispiel 2.2 zeigt, daß diese Effekte sehr stabil bleiben.
5.2 Kernschätzung zur geglätteten Regression bei diskreter abhängiger Variable Die in Kapitel 4, Abschnitt 4 behandelten Verfahren zielen darauf ab, den Erwartungswert m(x) = E(Y|x) zu schätzen. Für den Spezialfall dichotomer Zielvariable Y mit Y e {0,1} erhält man wegen E(Y|x) = P(Y = 1 |x) einen sinnvollen Erwartungswert. Die Verfahren für metrische Zielvariable Y sind daher (mit möglichen Modifikationen auf Grund der Heteroskedastizität) im Prinzip anwendbar. Liegt Y jedoch in mehreren nominalen oder ordinalen Kategorien vor, ist die Erwartungswertbildung nicht mehr sinnvoll. Im folgenden wird mit der diskreten Kernglättung ein Verfahren behandelt, das für mehrkategorialen Response anwendbar ist. Diskrete Kernregressionsschätzer Als Ausgangspunkt sei zuerst der Fall ohne Kovariablen betrachtet. Seien Y n ,n = 1, . . . , N , die beobachteten (iid) Zielvariablen mit Y n e {1,..., R}. Zu schätzen sind demnach die Responsekategorien πΓ = P(Y n = r), r = , . . . , R. In Analogie zur Kerndichteschätzung für metrische Variablen läßt sich ein diskreter Kerndichteschätzer anwenden, der gegeben ist durch P(Y = r) = i
Σ K A (r|Y n ), n= 1
(5.5)
wobei K ; (r| Y n ) ein diskreter Kern ist. Ein Kern, der nur Nominalskalenniveau voraussetzt, ist der Aitchison & Aitken-Kern Κλ(γ|Υ)ΗΛ
Ι / , ,
(5-6)
wobei >ie[l/R, 1] den Glättungsparameter darstellt. Ein Kern, der Ordinalskalenniveau voraussetzt (und benutzt), ist beispielsweise der geometrische Kern mit K A (r|Y)cc = | ^ ( i _ / l ) | Y _ r | Y = ;
5. Nicht- und semiparametrische generalisierte Regression
297
Der Kerndichteschätzer (5.5) liefert eine geglättete, für λ φ 1 von den relativen Häufigkeiten abweichende Schätzung der Auftretenswahrscheinlichkeiten. Für den dichotomen Fall vergleiche man Abschnitt 3.4, Kapitel 8. Bei der Wahl der Kernfunktion ist die wesentliche Entscheidung die zwischen nominalem oder ordinalem Kern. Welchen der ordinalen Kerne man wählt (Alternativen finden sich bei Habbema/Hermans/Remme, 1978, Wong/Van Ryzin, 1981, Aitken, 1983) ist von sekundärer Bedeutung. Für den Regressionsfall seien die Beobachtungen gruppiert gegeben mit (Y- j) , x j j = l , . . . , N j , i = 1 , . . . , I. Analog zur Gruppierung in Abschnitt 3.2 liegen χ ! , . . . , x, verschiedene Ko Variablenausprägungen vor mit unterschiedlichen lokalen Stichprobenumfängen Ν Ρ Die Anwendung des Kerndichteschätzer (5.5) auf die bedingten Wahrscheinlichkeiten liefert πΓ(χ,) = Ρ(Y = r | X i U ) = 1
ξ Κ Λ (r| yj»). j=l
(5.7)
Der wesentliche Nachteil dieser Schätzung liegt darin, daß die Nachbarschaftsverhältnisse der Kovariablen nicht berücksichtigt sind. Im Extremfall gilt Nj = 1 und die Schätzung beruht auf nur einer Beobachtung. Eine Glättung über die Kovariablen erhält man im direkten Kernregressionsschätzer Ar(x) = f>(Y = r|x,; λ, μ) = Σ s„(x, Xj) ? ( Y = r|Xj, λ) = Σ s , ( x , x s ) ^ Σ KA(r|yP), i= 1 i j=1
(5.8)
wobei β μ (χ, X;) eine Gewichtsfunktion über die Kovariablen mit Glättungsparameter μ ist, die Σ s„(x,xj) = 1 i= 1 erfüllt. Die Schätzung (5.8) ist zweifach geglättet, einmal über den Response mit Glättungsparameter λ und einmal über die Kovariablen mit Glättungsparameter μ. Der Einfluß dieser Glättungen hängt von der Situation ab. Für dichtotomen Response y ist eine Glättung über y meist vernachlässigbar, während für großes R mit wenig Kovariablenausprägungen (I klein) die Glättung durch λ an Einfluß gewinnt. Die Gewichtsfunktion sM (x, Xj) läßt sich wählen wie in der metrischen Regression (Abschnitt 4, Kapitel 3). Beispielsweise erhält man das NadarayaWatson Gewicht (unter Berücksichtigung der gruppierten Daten) durch
Σ NjK^xlXj) j=i Analog lassen sich auf Kernen basierende Gewichte nach Gasser/Müller (1979) oder Priestley/Chao (1972) verwenden.
298
Kapitel 6 Kategoriale und generalisierte lineare Regression
Punktezahl
Punktzahl
Abb. 5.2: Geschätzte Wahrscheinlichkeit für Abschlußnoten 1, 2, 3 und 4
Die Wahl der Glättungsparameter läßt sich wiederum am Kreuzvalidierungskriterium festmachen. Will man ζ. B. die quadratische Abweichung minimieren, wählt man λ und μ so, daß CV(A,m)=4i ^
Σ
Σ (ir(y!j,)-Ar-j(Xi))2
i= 1 j= 1 r= 1
(5.9)
minimal wird, wobei π ~ j (Xj) die direkte Kernschätzung ohne die Beobachtung y|j) darstellt, und I r (y) für die Indikatorfunktion steht, die bestimmt ist durch I r ( y ) = 1 wenn Y = r und I r ( y ) = 0 wenn Y / r. Die quadratische Abweichung in (5.9) bezieht sich auf die Schätzung der bedingten Dichte Y|x. Allgemeinere Schadensfunktionen dieses zuordnungsspezifischen Typs finden sich bei Tutz (1990 a, b). Beispiel 5.2. Abschlußnote Green (1989) betrachtet einen Datensatz, in dem bei 596 Kandidaten der Zusammenhang untersucht wird zwischen einem Eingangstest ( 6 - 1 5 Punkte) zu Beginn der universitären Ausbildung und dem Resultat (Abschlußnoten 1 - 4 ) . Tabelle 5.1 gibt die Daten wieder. Angewandt wurde der direkte Kernregressionsschätzer mit diskretem geometrischen Kern
5. Nicht- und semiparametrische generalisierte Regression
299
zur Glättung über die Responsewahrscheinlichkeiten und Habbema-Kern (Κμ(Γ|γ) oc (1 — μ)'1"-1,12) für die Glättung im Nadaraya-Watson Gewicht. In der Kreuzvalidierung mit quadratischer Schadensfunktion ergab sich λ = 1.0 und μ = 0.6. Abbildung 5.2 gibt die geschätzten Verläufe wieder. Die Wahrscheinlichkeit für die Abschlußnote 1 steigt kontinuierlich mit den Punkten des Eingangstests, eine ähnliche Tendenz gilt auch für die Abschlußnote 2. Für schlechtere Noten hingegen ist die Trendenz eindeutig anders gerichtet, mit höheren Wahrscheinlichkeiten für niedrigere Eingangswerte und niedriger Wahrscheinlichkeit für hohe Eingangspunktezahl.
Tab. 5.1: Eingangspunkte versus Abschlußnote Eingangspunkte 6 7 8 9 10 11 12 13 14 15
1
: 1 3 3 7 13 20 22
Abschlußnote 2 3 2 3 6 19 42 47 56 74 52 23
1 6 12 15 20 32 18 16 9 3
4 1 6 11 12 8 5 10 2 -
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern Ludwig Fahrmeir, Alfred Hamerle und Gerhard Tutz
Die statistische Analyse von Verweildauern untersucht die Länge der Zeitintervalle zwischen aufeinanderfolgenden Zustandswechseln bzw. Ereignissen. Sie informiert für jede Untersuchungseinheit über die Zeitpunkte der Zustandswechsel bzw. des Eintreffens bestimmter Ereignisse und über die Abfolge dieser Ereignisse. Beispiele hierfür sind die Lebens- oder Überlebenszeiten in medizinischen Studien, die Dauer der Arbeitslosigkeit in möglicherweise mehreren aufeinanderfolgenden Perioden, die Lebensdauer von politischen oder gesellschaftlichen Organisationen, die Zeitdauer zwischen der Markteinführung eines Produkts und dem Kauf durch die Konsumenten, die aufeinanderfolgenden Perioden, in denen ein technisches Gerät nach jeweiliger Reparatur störungsfrei arbeitet, die Dauer von Lernprozessen, die Zeitdauer bis zum Umzug in eine andere Region bei Wanderungs- und Mobilitätsanalysen, die Zeitdauer bis zur Rückfälligkeit von Straftätern, etc. Zusätzlich zu den Verweildauern bzw. Lebenszeiten werden für jede Untersuchungseinheit eine Reihe von weiteren Kovariablen erhoben, von denen einige ebenfalls zeitabhängig sein können und die einzeln und/oder in Kombination die Verweildauern bzw. Lebenszeiten beeinflussen. Ein wichtiges Ziel der statistischen Analyse besteht in der quantitativen Ermittlung des Ausmaßes des Einflusses dieser exogenen Variablen. Aufgrund der Entwicklung und Anwendung der Verfahren in verschiedenen Bereichen wie z.B. Medizin, Demographie, Sozialwissenschaften, Psychologie, Wirtschaftswissenschaften und Technik ist die Terminologie sehr uneinheitlich. So wird - j e nach Anwendungsbereich - die in einem Zustand verbrachte Zeit als Verweilbzw. Aufenthaltsdauer, Lebens- bzw. Überlebenszeit, Ankunftszeit, Wartezeit oder Dauer der Episode bezeichnet. Zur Modellierung derartiger zeitabhängiger Prozesse - ohne Berücksichtigung von Kovariablen und mit stetig gemessener Zeit wurden lange Zeit homogene Markov-Prozesse, Semi-Markov-Prozesse sowie Erneuerungsprozesse eingesetzt, oder die exakten Verweildauern wurden vernachlässigt und lediglich die Übergänge mit Markov-Ketten, vorwiegend 1. Ordnung, untersucht. In den siebziger Jahren (z.B. Cox, 1972) wurden in der Biostatistik für den Spezialfall von Überlebenszeiten (nur eine Zeitdauer; ein absorbierender Endzustand) Regressionsansätze vorgestellt, für die dann auch geeignete Methoden der Parameterschätzung entwickelt wurden (Kalbfleisch/Prentice 1973, Cox 1975). Mittlerweile existieren eine Reihe von Lehrbüchern und Monographien über Survival-Analysis, z.B. Kalbfleisch/Prentice (1980), Elandt-Johnson/Johnson (1980), Lee (1980), Miller (1981), Lawless (1982), Cox/Oakes (1984). In den Sozialwissenschaften wurde die Analyse von Verweildauern und Zeitver-
302
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern
läufen unter der Bezeichnung Event-History-Analyse bzw. Ereignisanalyse untersucht. Auch hier existieren mittlerweile einige Lehrbücher und Monographien, z.B. Tuma/Hannan (1984), Andress(1985), Blossfeld/Hamerle/Mayer(1986,1989) oder Yamaguchi (1991). In der Ökonomie wurden die Regressionsmodelle zur Analyse von Verweildauern zunächst vorwiegend in der Arbeitsmarktforschung eingesetzt, vor allem zur Analyse der Determinanten der Dauer der Arbeitslosigkeit. Dort werden die Ansätze meist als Duration-Modelle bezeichnet. Für Überblicke vergleiche man Heckman/Singer (1986), Kiefer (1988) oder Lancaster (1990). In jüngerer Zeit findet man jedoch immer mehr Anwendungen in anderen Bereichen, beispielsweise zur Analyse der Kaufzeitpunkte und der Markenwahl im Marketing (vgl. z.B. Vilcassim/Jain, 1991) oder zur Untersuchung der Lebensdauer neu gegründeter Unternehmen (vgl. Brüderl/Preisendörfer/Ziegler, 1995). Im einfachsten Fall wird die Zeitdauer von einem Anfangszustand bis zum Erreichen eines bestimmten (absorbierenden) Zielzustands untersucht. Man spricht dann von Ein-Episoden-Modellen mit einem Zielzustand. Die Survival-Analysen der Medizinstatistik sind dafür typische Beispiele. In diesem Kapitel wird mit Ausnahme der Überblicksdarstellung in Abschnitt 6 ausschließlich dieser einfache Fall betrachtet. Viele der dazu entwickelten statistischen Konzepte können auf komplexere Situationen wie mehrere aufeinanderfolgende Episoden oder mehrere mögliche Zielzustände (competing risks) übertragen werden. Ferner wird vorausgesetzt, daß der Zeitpunkt, an dem das Zielereignis eintritt, exakt angegeben werden kann. Die Verweildauer ist dann eine stetige nicht-negative Zufallsvariable. In einigen Fällen können lediglich Zeitintervalle angegeben werden, in denen die Ereignisse eingetreten sind. Dann ist es zweckmäßig, zeitdiskrete Modelle einzusetzen. Für eine ausführliche Darstellung zeitdiskreter Modelle zur Analyse von Verweildauern und Lebenszeiten vergleiche man Hamerle/Tutz (1989), Abschnitt 6.3 dieses Kapitels enthält eine kurze Einführung. Zur theoretischen Fundierung der Verweildauer-Modelle ist es zweckmäßig (aber nicht unbedingt notwendig), sie in den allgemeinen Rahmen multivariater Zählprozeß-Modelle einzubetten. In diesem mathematischen Teilbereich ist in den letzten zwanzig Jahren eine umfangreiche Theorie entwickelt worden, vor allem basierend auf der Martingal-Theorie. In der vorliegenden anwendungsorientierten Einführung wird dieser Zugang nicht gewählt, um die mathematischen Voraussetzungen möglichst gering zu halten. Für Darstellungen der Survival- und Verweildauer-Analyse im Rahmen der Zählprozesse vergleiche man beispielsweise Fleming/Harrington (1991) und insbesondere das umfassende Werk von Andersen/Borgan/Gill/Keiding (1993).
1. Grundlegende Begriffe und Modelle 1.1 Zensierte Daten Ein zusätzliches Problem, das bei der Analyse von Verlaufsdaten auftritt, ist die Zensierung. Da das Ende des gesamten Beobachtungszeitraums in der Regel vorgegeben ist, ist die Verweildauer bzw. Lebenszeit eines Individuums unter Um-
1. Grundlegende Begriffe und Modelle
303
ständen nicht abgeschlossen. In einem solchen Fall spricht man von rechts zensierten Daten. Beispielsweise treten die Untersuchungsobjekte zu bestimmten Zeitpunkten in die Untersuchung ein, etwa am Tag der Diagnosestellung oder der Operation, und danach wird ihre Verweildauer oder Lebenszeit über einen Zeitraum hinweg bis zu einem Stichtag verfolgt. In einem solchen Fall kann es sein, daß die Verweildauer oder Lebenszeit am Stichtag noch andauert. Ferner kann ebenfalls keine exakte Lebenszeit oder Verweildauer ermittelt werden, wenn die Personen während der Studie aus anderen Gründen ausscheiden, z.B. wegen eines Umzugs oder Wechsels in eine andere Klinik und daher zur Weiterbeobachtung nicht mehr zur Verfügung stehen. Für die verschiedenen Möglichkeiten der Entstehung von zensierten Daten vergleiche man z.B. Nelson (1972). Bei der Parameterschätzung können rechts zensierte Beobachtungen berücksichtigt werden. Zu diesem Zweck ist der Zensierungsmechanismus, der den Daten zugrundeliegt, genau zu analysieren und in ein statistisches Modell zu fassen. Im folgenden werden drei Modelle kurz skizziert, die für Anwendungen von besonderem Interesse sind.
Zensierungsmodell I In Modell I ist für jedes Individuum η, η = 1 , . . . ,N, ein fester Beobachtungszeitraum c n vorgegeben. Die Verweildauer des Individuums η sei repräsentiert durch die Zufallsvariable T n . Beobachtbar ist in diesem Modell lediglich min(T n , c n ) und ein Zensierungsindikator 0 macht die Hazardrate von der Intervallänge unabhängig. Man beachte, daß die Werte der Hazardrate selbst keine (bedingten) Wahrscheinlichkeiten sind. Sie sind zwar stets nicht-negativ, können aber größer als Eins sein. Für kleines Δί kann l(t)At als Approximation der bedingten Wahrscheinlichkeit P ( t < T < t + z ) t | T > t ) aufgefaßt werden. Andere Bezeichnungen für die Hazardrate sind Intensitäts- oder Risikofunktion, Ubergangsrate
oder
Mortalitätsrate.
Die Hazardrate stellt ein zentrales Konzept bei der Analyse von Verlaufsdaten dar. Überlebt ein Individuum den Zeitpunkt t, so informiert die Hazardrate über den weiteren Verlauf. Häufig besitzt man bei praktischen Anwendungen zumindest qualitative Vorinformationen über die Hazardrate. Dies soll an dem Beispiel des Sterberisikos einer Population verdeutlicht werden. Die Hazardrate hat hier typischerweise einen „badewannenförmigen" Verlauf (vgl. Abbildung 2).
Abb. 1.2: Hazardrate mit „badewannenförmigem" Verlauf
Zu Beginn des Prozesses ist das Sterberisiko wegen der Kindersterblichkeit relativ hoch, es fallt dann und bleibt über einen bestimmten Zeitraum konstant auf niedrigem Niveau, bis es mit zunehmendem Alter wieder anwächst. Ähnlich verhält sich die Hazardrate bei vielen technischen Geräten. Aufgrund von .Kinderkrankheiten' und ,Defekten beim ersten Einschalten' ist das Ausfallrisiko zunächst relativ hoch, fallt dann ab und wächst wieder, wenn Alterungsprozesse und Materialermüdungserscheinungenauftreten. Daneben sind natürlich auch andere Formen der Hazardrate denkbar, zum Beispiel ständig zunehmende oder abnehmende Hazardraten. Das Integral Λ{ϊ) = |A(u)du ο
(1.4)
306
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern
wird als kumulative Hazardrate bezeichnet. Sie entspricht dem über die Zeit (bis t) kumulierten Risiko. Aus Definition (1.3) folgt unmittelbar die Beziehung zwischen Hazardrate und Survivorfunktion
und da Τ als stetig vorausgesetzt wurde, gilt auch A ( t )
(1 6)
=r^ö)·
·
Umgekehrt ergibt sich die Survivorfunktion in Abhängigkeit von der Hazardrate, wenn man /.(t) integriert und die Beziehungen (1.5) und (1.6) verwendet. ' ' p(u)du = f 0 0
f(u) V'
' du-ln(l-F(ii))| 0
(1.7)
= — ln(l — F(t)) = - l n S ( t ) . Dies führt zu der wichtigen Beziehung t S(t) = exp(— J/l(u)du). ο
(1.8)
Die Dichtefunktion f(t) ergibt sich aus (1.5) und (1.8) in Abhängigkeit von der Hazardrate durch t f(t) = A(t) · S(t) = A(t) · exp(— p ( u ) d u ) . (1.9) ο Aus den Beziehungen (1.1) bis (1.9) wird ersichtlich, daß jede der drei Größen f(t), S(t) und /i(t) zur Beschreibung der Verteilung der Episodendauer herangezogen werden kann. Ist eine der Größen festgelegt, so sind die beiden anderen eindeutig daraus ableitbar. Da in der Ereignisanalyse die Hazard- bzw. Übergangsrate das mathematisch einfacher zu handhabende Konzept ist, wird diese in der Regel zur Modellierung herangezogen. Für jede Spezifikation der Hazardrate existiert jedoch eine äquivalente Spezifikation der Wahrscheinlichkeitsverteilung von T. Beide Spezifikationen enthalten dieselben Parameter und liefern insbesondere dieselbe Likelihoodfunktion zur Parameterschätzung. Der Hazardratenansatz ist keine völlig neue Modellierung und gestattet auch nicht, zusätzliche Parameter zu identifizieren. Er ist aber gelegentlich einfacher und trägt dem Umstand Rechnung, daß das Untersuchungsmerkmal eine Zeitdauer ist. Beispiel 1.1. Exponentialverteilung Eine der am häufigsten verwendeten Verteilungen für Verweildauern und Lebenszeiten ist die Exponentialverteilung. Sie ist charakterisiert durch eine im Zeitablauf konstante Hazardrate A(t) = λ,
t > 0, λ > 0
1. Grundlegende Begriffe und Modelle
307
f(t)t
*-
t
λ-·
> t
Abb. 1.3: Dichtefunktion, Survivorfunktion und Hazardrate der Exponentialverteilung
308
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern
Für Dichte- und Survivorfunktion folgen S(t) = exp(— At) f (t) = Aexp(— /U). Für die zu erwartende Verweildauer erhält man
Das läßt sich einfach interpretieren. Je größer das „Risiko" λ des Eintreffens eines Ereignisses ist, desto kürzer ist die erwartete Verweildauer. Für die Varianz ergibt sich var(T) =
l ,
d.h. die Streuung um den Erwartungswert wächst mit zunehmender zu erwartender Verweildauer. Beispiel 1.2. Weibull-Verteilung Die Weibull-Verteilung stellt eine Verallgemeinerung der Exponentialverteilung dar und wurde bislang häufig bei der Untersuchung der Lebenszeit technischer Geräte verwendet. Die Hazardrate ist gegeben durch A(t) = λα(λ t)'
(t>0)
mit den Parametern λ > 0 und α > 0. Für den Spezialfall α = 1 erhält man wieder die Exponentialverteilung. Die Hazard- bzw. Übergangsrate der Weibull-Verteilung ist monoton steigend für α > 1, abnehmend für α < 1 und konstant für α = 1. Das Weibull-Modell ist sehr flexibel und daher für eine Vielzahl von Modellen für Verweildauern und Lebenszeiten angemessen. Die Survivorfunktion ergibt sich durch S(t) = exp(-(At)«) und die Dichtefunktion zu f(t) = λα(λί)"~ι exp(— (At)"). Für den Erwartungswert E(T) der Verweildauer erhält man
wobei Γ(·) die Gamma-Funktion ist. Die Varianz ist
Für eine Beschreibung weiterer wichtiger Verteilungen für Verweildauern und Lebenszeiten vergleiche man beispielsweise Kalbfleisch und Prentice (1980) oder Blossfeld, Hamerle/Mayer (1986, 1989).
1. Grundlegende Begriffe und Modelle
309
Abb. 1.4: Dichtefunktion, Survivorfunktion und Hazardrate der Weibuliverteilung (jeweils für α = 0,5, α = 1 und α = 3.)
310
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern
1.3 Zwei Modellklassen In diesem Abschnitt werden die wichtigsten Regressionsmodelle zur Analyse des Einflusses von Kovariablen und prognostischen Faktoren auf die Verweildauern bzw. Lebenszeit vorgestellt. Dabei bezeichnen Τ die Verweildauer und χ den Vektor der Kovariablen.
Transformationsmodelle
Die Klasse der Transformationsmodelle orientiert sich unmittelbar an der herkömmlichen Regressionsanalyse. Allerdings ist zu berücksichtigen, daß die Verweildauer Τ als abhängige Variable nur nicht-negative Werte annehmen kann. Wird ein lineares Modell in Τ selbst formuliert, folgen bei uneingeschränkter Variationsbreite der Einflußgrößen χ komplizierte (und unerwünschte) Restriktionen für die Regressionsparameter. Aus diesem Grunde wird die Verweildauer Τ einer (streng) monotonen, stetigen Transformation y = g(T) unterworfen. Ein Modell der Form g ( T ) = h(x;/J) + σε ,
(1.10)
wobei im Fall von stochastischen Regressoren χ und ε als unabhängig angenommen werden, heißt Transformationsmodell, σ ist ein Skalenparameter. Im Rahmen dieser Einführung wird nur der Spezialfall eines linearen Modells für g(T) betrachtet, d.h. h(\;ß) = x'ß bzw. g(T) = x'ß + σ • ε. Ein besonders wichtiger Spezialfall, der in der Praxis bisher nahezu ausschließlich angewendet wurde, ist gegeben durch g(T) =lnT. Man erhält dann ein lineares Modell in den logarithmierten Verweildauern, y = In Τ = x'ß + σ • ε .
(1.11)
In der Modellklasse (1.11) wirken die Kovariablen auf die Verweildauern Τ multiplikativ in der Form Τ = exp (ß 0 ) · exp (χ! β J · . . . · exp (xp/?p) exp ( σ ε ) . Diese wichtige Modellklasse wird auch die Klasse der Accelerated-Failure-TimeModelle genannt, weil mit exp(x i /i i ) abhängig von der Kovariablen x ; die individuelle Zeit beschleunigt bzw. verlangsamt wird. In der Regel wird von einer bekannten Fehlerverteilung für ε ausgegangen. Je nach Annahme über die Fehlerverteilung ergeben sich unterschiedliche Accelerated-Failure-Time-Modelle.
Weibull- und E x p o n e n t i a l - M o d e l l
Unterstellt man für die Fehlerverteilung in (1.11) die (Standard-) Minimum-Extremwertverteilung mit der Verteilungsfunktion Ρ(ε) = 1 — exp(— exp (ε)) bzw. der Survivorfunktion
1. Grundlegende Begriffe und Modelle S (ε) = exp ( - e x p (ε)),
311 (1.12)
ergibt sich das Log-Weibull-Modell für y = In T. Hazardrate und Survivorfunktion f ü r die Zufallsvariable y sind gegeben durch (Θ = x'ß) A(y) = - U x p ( ^ )
S(y) = exp
— exp
(1.13)
/y - θ
Die Dichtefunktion erhält m a n gemäß (1.9) durch f(y) = A(y) · S(y). F ü r die Verweildauer Τ selbst ergibt sich unter Berücksichtigung der Beziehungen d A T (t) = - ( - l n S T ( t ) ) dt
S T (t) = S y (lnt),
(1.14)
f ü r die Survivorfunktion und Hazardrate: S T (t) = exp(— 0*t(1/ 1 ist die Hazardrate in Τ durchwegs monoton fallend. Lognormal-Modell N u n wird angenommen, daß ε standardnormalverteilt ist. Bezeichnen φ(ζ) bzw. Φ(ζ) Dichte- bzw. Verteilungsfunktion der Standardnormalverteilung, so resultieren: 1 A(y)=
σ
1
(yV ^ - ( l n t / a + ln0*) Mt) =
σ
1 - Φ ( 1 η Ι / σ + 1η0*)
S T (t) = 1 — Φ(1ηί/σ + Ιηθ*) mit θ* = e x p ( - θ/σ). Für das Lognormal-Modell gilt ebenfalls, daß die Hazardrate in t zunächst bis zum Erreichen eines Maximums ansteigt und danach wieder fallt und für wachsendes t gegen Null geht. Liegen keine zensierten Beobachtungen vor, entspricht das Lognormal-Modell genau einem linearen Regressionsmodell für In Τ und ist besonders einfach anzuwenden. Die Parameterschätzungen ergeben sich aus der gewöhnlichen Kleinst-Quadrate-Methode und besitzen die bekannte einfache Form. Bei zensierten Beobachtungen hingegen werden die Berechnungen aufwendiger. Deshalb wird in der Verweildauer-Analyse meist dem log-logistischen Modell, das dem Lognormal-Modell sehr ähnlich ist, der Vorzug gegeben.
Generalisiertes Gamma-Modell Viele Verteilungen, die im Rahmen der Analyse von Verweildauern Anwendung finden, lassen sich als Spezialfälle der generalisierten Gammaverteilung interpretieren. Beispielsweise erhält man mit entsprechenden Parameterkonstellationen
1. Grundlegende Begriffe und Modelle
313
die Weibull-, Exponential-, gewöhnliche Gamma- und Log-Normalverteilung (vgl. z.B. Schäfer, 1984). Da verschiedene Parameterkonstellationen der Dichte der generalisierten Gammaverteilung bzw. auch der entsprechenden Log-Gammaverteilung zum Teil sehr ähnliche Werte für die Dichtefunktion ergeben, können im Rahmen der Maximum-Likelihood-Schätzung Identifikationsprobleme auftreten (Prentice, 1974, 1975). Prentice schlug deshalb eine reparametrisierte logarithmische Gammaverteilung vor. Man geht aus von einer Gammadichte für die Verweildauer Τ gemäß f(t)
=
t d _ 1 e x p ( — t) r(d) '
d > 0
·
CO wobei Γ ( d ) = J x d ~ 1 exp(— x)dx die Gamma-Funktion ist. ο Mit der Transformation t = e x p ^ j + log(d) und der Reparametrisierung d = λ~2 erhält man die logarithmische Gammadichte für die Fehlervariable ε (die der Einfachheit halber wieder mit f bezeichnet wird) f(ε) =
λ _ (A' 2 ) 1 M 2 exp[A~ 2 (A£ - exp(1ε))] . r(F2)'
Daraus resultiert die Survivorfunktion / S(M) -
exp(le)\ r(A
_2)
mit Γ(λ~2)
= J x A ~ 2 _ 1 exp(— x ) d x , ο e x p (Ae)
als vollständiger bzw. unvollständiger Gammafunktion. Für die Dichte von y = 0 + σ • e ergibt sich schließlich:
σ 1 (λ
)
l ^ y - θ (, y-θ τλ ι / I — - e x p ( Α-
Die vorgestellten Accelerated-Failure-Time-Modelle mit vollspezifiziertem Verteilungstyp der Fehlervariablen stellen eine wichtige Modellklasse zur Analyse von Verweildauern dar. Sie werden vor allem in der empirischen Wirtschafts- und Sozialforschung eingesetzt, wobei das Weibull-Modell am häufigsten verwendet wird. Sieht man von der Zensierungsproblematik ab, entsprechen die Modelle den bekannten linearen Regressionsmodellen, die in der empirischen Wirtschafts- und
314
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern
Sozialforschung von zentraler Bedeutung sind und theoretisch gründlich untersucht sind. Die Modelle sind in verschiedenen Programmsystemen, etwa SAS oder LIMDEP, implementiert. Eine Beschreibung weiterer Accelerated-Failure-Time-Modelle, auch unter Einbeziehung „unbeobachteter Heterogenität" (man vergleiche dazu die Ausführungen in Abschnitt 5), findet man in Moller (1994).
Das Proportional-Hazards-Regressionsmodell von Cox Das Proportional-Hazards-Modell (PH-Modell) wurde von Cox (1972) vorgeschlagen. Während die Ansätze der Transformationsmodelle in der Regel davon ausgehen, daß die Verteilung der Verweildauer bzw. Lebenszeit bis auf einige Parameter bekannt ist, handelt es sich beim Cox-Modell um einen semiparametrischen Ansatz. Dabei wird für die Hazardrate eine multiplikative Verknüpfung der Form A(t|x) = A 0 (t)exp(x'/1)
(1.20)
angenommen. λ0 (t) ist eine beliebige, nicht spezifizierte Grundhazardrate (Baseline Hazardrate, /. 0 (t) > 0), und die Linearkombination xß enthält keine Konstante. Durch (1.20) wird mehr Flexibilität in der Modellierung erreicht. Der Verlauf der Grundhazardrate unterliegt keinen Einschränkungen, ist allerdings für alle Untersuchungseinheiten gleich. Die Kovariablen wirken multiplikativ auf die Hazardrate. Die Proportionalität ergibt sich aus der Betrachtung des Quotienten —
-„pax,-«,)«
für zwei Untersuchungseinheiten mit den Kovariablen \ 1 und x 2 . Dieser Quotient hängt nicht von der Zeit t ab. Man vergleiche Abbildung 1.5. Die Proportionalität der Hazardraten basiert im wesentlichen auf der Zeitunabhängigkeit der Kovariablen, ihrer multiplikativen Einwirkung auf die Grundha-
Abb. 1.5: Verlauf von zwei proportionalen Hazardraten
1. Grundlegende Begriffe und Modelle
315
zardrate sowie der Faktorisierung der Hazardrate in einen Term, der nur von der Zeit, und in einen Term, der nur von den Kovariablen abhängt. Etwas allgemeiner kann man A(t|x) = A 0 (t)g(x;/J),
g( ) > 0 .
(1.21)
wählen. Im Cox-Modell wird g(x,ß) = exp (x'ß) gesetzt. Die A n n a h m e proportionaler Hazardraten bedeutet auch eine Einschränkung der Anwendungsmöglichkeiten des Modells. So darf beispielsweise unter dieser Annahme bei Einbeziehung der Kovariablen ,Geschlecht' das Verhältnis der Hazardraten von Männern und Frauen nicht mit der Zeit variieren. Die Voraussetzung proportionaler Hazardraten kann etwas gelockert werden, indem man schichtspezifische Hazardraten einführt. Besitzen eine oder mehrere (kategoriale oder kategorisierte) Kovariablen keinen multiplikativen Effekt auf die Hazardrate, so können die Kategorien dieser Kovariablen zur Bildung von Schichten bzw. Teilpopulationen herangezogen werden. Entstehen auf diese Weise J Schichten, so wird f ü r jede Schicht der Ansatz λ^\χ)
= λ0ί(ί)εχρ(χ'β),
j = 1 , . . . ,J,
(1.22)
mit einer schichtspezifischen Grundhazardrate A 0j (t) formuliert. Im Vektor χ sind dann nur noch die verbleibenden Kovariablen enthalten. Darüber hinaus können auch die Parametervektoren schichtspezifisch modelliert werden. Es besteht die Möglichkeit, mit Hilfe von speziell konstruierten zeitabhängigen Kovariablen einen statistischen Test zur Ü b e r p r ü f u n g der Proportionalität durchzuführen. Dies wird in Abschnitt 4.2 ausführlich beschrieben. F ü r die Survivorfunktion des Cox-Modells resultiert nach Anwendung von (1.8) S ( t | x ) = exp ( — | A ( u | x ) d u
= exp
— J λ ο (u) exp (x'ß) du /
t
\ ~|exp(x'/i)
expi-p0(u)duj = s0(trp(x'i)· F ü r die Dichtefunktion der Verweildauern bzw. Lebenszeit ergibt sich f ( t | x ) = A ( t | * ) S ( t | x ) = λ0 (t) exp (x'ß) S 0 (t) exp ( x ß ) .
(1.23)
Cox (1972, 1975) hat auch eine Methode zur Schätzung von β und λ0(1) vorgeschlagen, ohne d a ß über die Grundhazardrate besondere Annahmen (außer natürlich /. 0 (t) > 0) getroffen werden müssen. Mittlerweile sind eine Vielzahl von Literaturbeiträgen zum Cox-Modell erschienen, und es ist das am meisten angewendete Modell, vor allem im biometrischen Kontext. Eine ausführliche Darstellung des PH-Modells findet m a n beispielsweise bei Kalbfleisch/Prentice (1980), Lawless (1982), Cox/Oakes (1984), Biossfeld/ Hamerle/ Mayer (1986, 1989), Lancaster (1990), Fleming/Harrington (1991) oder Andersen et al. (1993).
316
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern
Schließlich ist noch der Zusammenhang mit der vorher behandelten Klasse der Transformationsmodelle zu diskutieren. Es zeigt sich, daß das PH-Modell in diese Klasse eingeordnet werden kann, allerdings mit unbekannter Transformation g (T). Sei im Transformationsmodell g(T) = x'/J + ff"8 für die Fehlerverteilung die Extremwertverteilung mit der Survivorfunktion (vgl. 1.12) S (ε) = exp (— exp (ε)) angenommen. Dann ergibt sich zunächst S T (t|x) = S y (g(t)) = e x p ( - e x p ( g ( t ) ~ x 7 t J ) = exp ( - exp (g (ί)/σ) exp ( - χ'β/σ) mit y = g(t). Unter Berücksichtigung der Beziehung (1.14) erhält man Mt|x) = ^(-lnST(t|x)) = - g'(t)exp(g(t)/ m k ) = (f>k + f> k -i)/2 = P k _ 1 ( l + p k ) / 2 .
(2.6)
Die geschätzte Ereigniswahrscheinlichkeit im k-ten Intervall ergibt sich unmittelbar durch P(Te[ak_1,ak)) = ? k _ 1 - P k ,
(2.7)
und für die Sterbewahrscheinlichkeit im k-ten Intervall, bezogen auf eine Zeiteinheit, erhält man die Dichte f
_
6 k— 1 _ &k
_
P I
k - 1
k
g)
k
hk hk wobei h k = a k — a k _ ! die Länge des k-ten Intervalls bezeichnet. Gleichung (2.8) läßt sich auf die Schätzung einer zugrundeliegenden stetigen Verweildauer beziehen. Während die Hazardrate des k-ten Intervalls darstellt, läßt sich in der stetigen Betrachtungsweise eine „mittlere Hazardfunktion" im k-ten Intervall schätzen durch -». N A(mk) =
ft P(T > m k )
22t h k (l + p k )
Beispiel 2.1. Aus den ersten sechs Wellen des Sozioökonomischen Panels wurden für den Zeitraum 1983 bis 1988 Ν = 1669 Arbeitslosigkeitsdauern ermittelt. Die Dauern sind in Monaten gemessen. Die ,Sterbetafel'-Schätzungen sind in der folgenden Tabelle wiedergegeben.
320
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern
Tab. 2.1: ,Sterbetafel' zu den Arbeitslosigkeitsdauern der ersten sechs Wellen des Sozioökonomischen Panels k
[ak-!,ak] nt in Monaten
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
[0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15) [15,16) [16,17) [17,18) [18,19) [19,20) [20,21) [21,22) [22,23) [23,24) [24,25) [25,26) [26,27) [27,28) [28,29) [29,30) [30,31) [31,32) [32,33) [33,34) [34,35) [35,36) [36,oo)
1669 1669 1341 1156 985 893 798 711 654 591 539 519 490 281 249 224 196 179 162 142 132 121 103 96 92 68 65 62 58 53 53 48 43 42 38 35 35
w
k
q 131 7 12 3 9 6 4 5 7 0 4 21 2 3 2 1 2 2 3 3 6 1 0 8 0 1 1 1 0 2 2 0 2 0 0 0
n k - w k /2
dk
k
1669.0 1603.5 1337.5 1150.0 983.5 888.5 795.0 709.0 651.5 587.5 539.0 517.0 479.5 280.0 247.5 223.0 195.5 178.0 161.0 140.5 130.5 118.0 102.5 96.0 88.0 68.0 64.5 61.5 57.5 53.0 52.0 47,0 43.0 41.0 38.0 35.0 35.0
0 197 178 159 89 86 81 53 58 45 20 25 188 30 22 26 16 15 18 7 8 12 6 4 16 3 2 3 4 0 3 3 1 2 3 0 35
0 .1229 .1331 .1383 .0905 .0968 .1019 .0748 .0890 .0766 .0371 .0484 .3921 .1071 .0889 .1166 .0818 .0843 .1118 .0498 .0613 .1017 .0585 .0417 .1818 .0441 .0310 .0488 .0696 0 .0577 .0638 .0233 .0488 .0789 0 1.0000
1.0000 .8771 .7604 .6553 .5960 .5383 .4834 .4473 .4075 .3763 .3623 .3448 .2096 .1871 .1705 .1506 .1383 .1267 .1125 .1069 .1003 .0901 .0849 .0813 .0665 .0636 .0616 .0586 .0545 .0545 .0514 .0481 .0470 .0447 .0412 .0412 0
Κ
i(m k )
0 .1229 .1167 .1051 .0593 .0577 .0548 .0361 .0398 .0312 .0140 .0175 .1352 .0225 .0166 .0199 .0123 .0117 .0142 .0056 .0066 .0102 .0053 .0035 .0148 .0029 .0020 .0030 .0041 0 .0032 .0033 .0011 .0023 .0035 0
0 .1309 .1426 .1485 .0948 .1017 .1074 .0777 .0932 .0796 .0378 .0496 .4877 .1132 .0930 .1238 .0853 .0880 .1184 .0511 .0632 .1071 .0603 .0426 .2000 .0451 .0315 .0500 .0721 0 .0594 .0659 .0235 .0500 .0822 0
Zur Ermittlung geeigneter Varianzschätzer für die mit Hilfe der Sterbetafel-Methode erhaltenen Schätzungen sind in einigen Fällen A n n a h m e n über die Verteilung der Verweildauern notwendig. A u f eine ausführliche Darstellung wird hier verzichtet. M a n vergleiche dazu beispielsweise Lawless (1982), Kap. 2, Lee (1992), S. 89fT. oder Hamerle/Tutz (1989), Kap. 2.2.
2. S c h ä t z v e r f a h r e n
321
2.2 Nichtparametrische Schätzung der Survivorfunktion (KaplanMeier-Schätzer) Liegen keine näheren Informationen über die Gestalt der Verteilungsfunktion der Verweildauer vor, so können die Werte der Verteilungs- bzw. Survivorfunktion für die vorliegenden Verweildauern nichtparametrisch geschätzt werden. Der bekannteste nichtparametrische Schätzer der Survivorfunktion von Verweildauern, der auch zensierte Beobachtungen mitberücksichtigt, ist der Produkt-Limit-Schätzer, der von Kaplan/Meier (1958) eingeführt wurde. Im Unterschied zur Sterbetafel-Methode, bei der die Intervallgrenzen der diskretisierten Zeitachse willkürlich festgelegt werden, wählt man jetzt die beobachteten Ereigniszeitpunkte als Intervallgrenzen. Seien t (1) < t (2) < ... < t(M) die geordneten Ereigniszeitpunkte (M < N) und sei zunächst angenommen, daß keine Ties bzw. Bindungen vorliegen. Daraus werden die Zeitintervalle [0,t (1) ), [ t a ) , t ( 2 ) ),..., [t (M) , oo) gebildet. Es gilt
wobei | R k | der Umfang der Risikomenge R k zum Zeitpunkt t (k) ist. Dabei versteht man unter der Risikomenge R(t) die Menge derjenigen Individuen, die bis unmittelbar vor diesem Zeitpunkt noch „unter Risiko" stehen, d.h. noch kein Ereignis hatten und auch nicht bis dahin durch Zensierung aus der Untersuchung ausgeschieden sind. Als Schätzung der Survivorfunktion ergibt sich 1
für t < t, (2.9)
Falls Ties, das heißt mehrere Ereignisse zum gleichen Zeitpunkt, auftreten, ist 1 d 1 — ——- in (2.9) durch 1 — zu ersetzen, wobei d k die Anzahl der Ereignisse lRkl
lRkl
an der Stelle t (k) ist. Treten zensierte Beobachtungen zum gleichen Zeitpunkt wie Ereignisse auf, so wird die Annahme getroffen, daß die Ereigniszeitpunkte etwas vor den Zensierungszeitpunkten liegen. Ist die letzte Beobachtung zensiert, so ist S(t) > 0 für t oo. Man wird in diesem Fall § (t) nur für die Zeitspanne bis zum größten Ereigniszeitpunkt als definiert betrachten. Der Produkt-Limit-Schätzer kann auch als Maximum-Likelihood-Schätzer abgeleitet werden. Man vergleiche dazu Kalbfleisch/Prentice (1980, S. 10ff.), Lawless (1982, S. 74fT.) oder Johnson (1978). Darüber hinaus läßt sich zeigen, daß der Produkt-Limit-Schätzer aus der mit Hilfe der Sterbetafel gewonnenen Schätzung für die Survivorfunktion hervorgeht, wenn q oo und gleichzeitig
322
Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern
max| a k — a k _ j | —• 0 gilt. Für einen Zufallszensierungsmechanismus, der durch die Unabhängigkeit von Ereignis- und Zensierungszeiten charakterisiert ist, haben Breslow/Crowley (1974) die asymptotische Verteilung des Produkt-Limit-Schätzers ermittelt. Es zeigt sich, daß j/N(S(t) — S(t)) gegen einen Gauss-Prozeß mit Mittelwert null und einer bestimmten Kovarianzfunktion konvergiert. Für Details siehe Breslow/Crowley (1974). Zur Schätzung der (asymptotischen) Varianz von S(t) schlagen Kaplan/Meier vor: Vai(S(t)) = §(t) 2 Σ _ , p d " . , · t(k)