239 71 28MB
German Pages 571 [576] Year 2009
ULI Μ
km
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Lieferbare Titel: Degen • Lorscheid, Statistik-Lehrbuch, 2. Auflage Degen • Lorscheid, Statistik-Aufgabensammlung, 5. Auflage Pflaumer • Heine • Härtung, Statistik für Wirtschaft- und Sozialwissenschaften: Deskriptive Statistik, 3.Auflage Pflaumer • Heine • Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Rasch • Herrendörfer u.a., Verfahrensbibliothek, 2. Auflage Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I
Rüger, Test- und Schätztheorie, Band II: Statistische Tests Schendera, Datenmanagement und Datenanalyse mit dem SAS-System Schlittgen, Einführung in die Statistik, n. Auflage Schlittgen, Multivariate Statistik Schlittgen, Angewandte Zeitreihenanalyse Schlittgen, Statistische Auswertungen mit R Schlittgen • Streitberg, Zeitreihenanalyse, 9. Auflage Tutz, Die Analyse kategorialer Daten
Fachgebiet Biometrie Herausgegeben von Dr. Rolf Lorenz Lieferbare Titel:
Bock, Bestimmung des Stichprobenumfangs
Multivariate Statistik von
Univ.-Prof. Dr. Rainer Schlittgen
Oldenbourg Verlag München
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
© 2009 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Wirtschafts- und Sozialwissenschaften, [email protected] Herstellung: Anna Grosser Coverentwurf: Kochan & Partner, München Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 978-3-486-58595-7
Vorwort In diesem Buch werden die relevantesten Gebiete der multivariaten Statistik dargestellt. Dabei werden nicht nur die klassischen Methoden behandelt, sondern auch neuere Verfahren. Hierzu gehören robuste Verfahren, explorative Ansätze wie das Projection Pursuit sowie Ansätze zur Behandlung von fehlenden Werten. Ebenfalls berücksichtigt wird die Auswertung kategorialer Daten, die in den meisten Texten zur multivariaten Statistik immer noch eine zu geringe Beachtung erfährt. Der Hintergrund ist darin zu sehen, dass weite Bereiche der multivariaten Statistik für metrisch skalierte, stetige Variablen entwickelt wurden. Erst relativ spät wurden diese Methoden dann auf andere Situationen übertragen, zumindest wurde auf die bereits vorhandenen Ideen zurückgegriffen. Heute stehen entsprechend zahlreiche Modelle, Verfahren und Auswertungsprogramme für kategoriale Daten zur Verfügung. Es ist das Ziel dieses Textes, die Leserin bzw. den Leser in die wichtigsten Teile der multivariaten Statistik einzuführen, und zwar soweit, dass sie bzw. er schließlich dreierlei vermag. Als erstes sollte es am Ende möglich sein, zu angewandten Problemstellungen die geeigneten Auswertungsmethoden zu identifizieren. Dann sollten zweitens Standardauswertungen ohne Schwierigkeiten selbst durchgeführt werden können. Zur weiteren Hilfestellung gibt es am Ende eines jeden Kapitels einen Abschnitt mit Tipps zur Anwendung. Schließlich sollte sich jeder über die Voraussetzungen und Einschränkungen bez. der Anwendung der Methoden bewusst sein. Entsprechende Aspekte werden im Text deutlich gemacht. Nicht alle Facetten der verschiedenen Methoden werden jeweils besprochen, sondern nur die relevantesten. Die Schwerpunktsetzungen sowie die Bewertungen bei der Vorstellung der Methoden resultiert dabei aus der Anwendungserfahrung des Autors. Aus solchen Anwendungserfahrungen ergeben sich gewisse Präferenzen bez. konkurrierender Methoden. Alle zu präsentieren ist auch kaum machbar, gibt es doch praktisch zu jedem Teilgebiet eigene Monographien. Um weitergehende Beschäftigungen mit den einzelnen Themengebieten zu ermöglichen, werden am Ende eines jeden Kapitels Literaturhinweise gegeben. Dabei stehen nicht die Originalarbeiten im Vordergrund, sondern vorzugsweise Texte in etwa des gleichen Niveaus, wie es der vorliegende anstrebt. Es gibt eine Vielzahl von Lehrbüchern zu multivariaten statistischen Verfahren. Dies gilt für den deutschsprachigen Raum und erst recht für den englischsprachigen. Warum also ein weiteres? Hier gibt es drei Aspekte, die diesen Text von anderen unterscheiden. Einmal sind die vorhandenen Darstellungen entweder sehr theoretisch oder sie sind auf der anderen Seite angesiedelt, d.h. sehr praktisch orientiert. Texte der zweiten Kategorie präsentieren die Methoden häufig in Form von Kochrezepten. Die Berücksichtigung von ausreichendem theoretischem Hintergrund ist aber wichtig, da bei der Anwendung statistischer Methoden auf eine theoretische Absicherung zu achten ist. Die theoretischen Ausführungen gehen dabei nicht in die letzte formale Tiefe. Auf Beweise wird weitgehend verzichtet, nur die für das Verständnis wichtigen Aspekte von Beweisen werden ausgeführt. Die Ausführungen sollten ausreichen, Interessierten eine Vorstellung von der Grundlage der jeweiligen Methode
VI
Vorwort
zu vermitteln. Das Augenmerk wurde vor allem auf die Verständlichkeit gerichtet. Hierzu dienen die Ausführung geometrischer Konzepte und zahlreiche Beispiele. Insgesamt zielt der vorliegende Text darauf ab, eine Mittlerrolle zwischen Theorie und Anwendung einzunehmen. Zum Zweiten finden in den Darstellungen zu multivariaten statistischen Verfahren die datenanalytisch relevanten neueren Entwicklungen erstaunlicherweise in kaum einem Lehrbuch eine gebührende Erwähnung. Dies wird hier, wie bereits gesagt, anders gehandhabt. Das Gleiche gilt für die Behandlung kategorialer Daten; dies ist das dritte Argument für das vorliegende Buch. Mit multivariate Methoden steigt man nicht in die Statistik ein. Dementsprechend werden Basiskenntnisse in Statistik vorausgesetzt, wie sie etwa in einem Grundkurs an wirtschaftswissenschaftlichen Fakultäten vermittelt werden. An einigen Stellen wird auf meine einschlägige .Einführung in die Statistik' (EinfStat) verwiesen. Der Text wurde soweit möglich geschlossen aufgebaut und abgesehen von der genannten Voraussetzung werden Begriffe eingeführt, bevor sie verwendet werden. Ganz ließ sich die Konsequenz des Aufbaus nicht durchhalten. Die Bereiche der multivariaten Methoden sind zu sehr verzahnt, als dass eine rein lineare Präsentation möglich wäre. Daher wird an einigen Stellen darauf hingewiesen, dass der eine oder andere weiter hinten positionierte Abschnitt Voraussetzung für den aktuellen ist. Neben den Hinweisen zur Durchführung der in den Kapiteln angegebenen Verfahren werden auch Hinweise zur Software gegeben. Dabei gibt es eine Vielzahl von Statistik-Paketen. Alle größeren bieten Routinen zur Analyse von multivariaten Daten an; zu den bekanntesten zählen SAS, SPSS, Stata und Statistica. Der Methodenvorrat ist dabei recht groß. Eine zweite Gruppe bilden Pakete, die für ein spezielles Methodenspektrum entwickelt wurden. Eine dritte Software-Gruppe bilden Programmierumgebungen, die Matrizen-orientiert sind. Da die multivariaten Verfahren geradezu von der Matrizenrechnung leben, ist es nicht verwunderlich, dass diese dann auch über viele fertige Programme zur Analyse multivariater Verfahren verfügen. Von dieser Gruppe seien vor allem GAUSS, MATLAB, R und S-PLUS genannt. R, das die gleiche Kommandosprache wie S-PLUS hat, ist kostenfrei. Da es offensichtlich unmöglich ist, ausführlichere Hinweise zu allen Paketen zu geben, werden in diesem Text Anmerkungen nur zu SAS und R gemacht und auf spezialisierte Programme hingewiesen. Viele der verwendeten Datensätze und R- bzw. SAS-Auswertungsprogramme sowie Datensätze können Sie aus dem Internet herunterladen. Die Web-Adresse ist „http://www.olden bourg-wissenschaftsverlag.de"; dort geben Sie „Schlittgen" in das Suchfeld ein. Bei der Seite des Buches finden Sie diese dann unter dem Reiter Zusatzmaterial. Das Buch hat eine lange Entstehungsgeschichte. Häufig habe ich Vorlesungen zur multivariaten Statistik gehalten und dies jeweils genutzt, das Manuskript weiter zu bearbeiten. Ich habe viele Freunde und Bekannte nach geeigneten Datensätzen gefragt und viel Unterstützung erfahren. Bei allen, die das Projekt in der einen oder andern Weise gefördert haben, möchte ich mich herzlich bedanken. Berlin, 2009
Rainer Schlittgen
Inhaltsverzeichnis I Daten und ihre Beschreibung
1
1
Einführung
3
1.1
Fragestellungen
3
1.2
Datensituation
8
1.3
Literatur und Software
9
2
Kontinuierliche Variablen
11
2.1 2.1.1 2.1.2 2.1.3 2.1.4
Der p-dimensionale Beobachtungsraum Univariate Daten Bivariate Daten Multivariate empirische Verteilungen Kompositionsdaten
11 11 17 22 34
2.2
Spaltenorientierte Aspekte
35
2.3
Literatur und Software
37
3
Kategoriale Variablen
39
3.1
Erhebungsaspekte
39
3.2
Univariate Randverteilungen
40
3.3 3.3.1 3.3.2 3.3.3
Bivariate Verteilungen Vergleich von Anteilen Assoziationsmaße Maßzahlen für ordinale Merkmale
43 44 46 50
3.4
Höherdimensionale Kontingenztafeln
54
3.5
Kodierung nicht metrischer Variablen
56
3.6
Weitere Aspekte, Literatur und Software
58
4
Abstände und Disparitäten
61
4.1
Abstände bei metrischen Variablen
61
4.2
Ähnlichkeits- und Disparitätsmaße
64
VIII 4.3
Inhaltsverzeichnis Literatur
II Verteilungen
73
75
5
Verteilungsmodelle
77
5.1
Univariate Verteilungen
77
5.2
Theoretische Momente
79
5.3
Erhebungsmodelle für kategoriale Variablen
83
5.4 5.4.1
Verteilungsmodelle für stetige Variablen Die multivariate Normalverteilung
87 87
5.4.2
Elliptisch symmetrische Verteilungen
91
5.5
Ein Verteilungsmodell für gemischte Variablen
94
5.6
Weitere Aspekte und Literatur
95
6
Inferenz für Verteilungen und ihre Parameter
97
6.1
Schätzen der Lage und Dispersion
97
6.2 6.2.1
Parametertests bei Normalverteilung Ein-und Zweistichprobenprobleme
108 108
6.2.2
Multivariate Varianzanalyse, MANOVA
113
6.3
Überprüfung der multivariaten Normalverteilung
116
6.4
Likelihood-Quotienten-und Wald-Tests
119
6.5 6.5.1 6.5.2 6.5.3 6.6
Zwei- und dreidimensionale Kontingenztafeln Inferenz in zweidimensionalen Tafeln Approximative Konfidenzintervalle für Risikomaße Dreidimensionale Tafeln Fehlende Werte
119 120 127 130 136
6.7
Weitere Aspekte, Literatur und Software
144
III Abhängigkeiten
149
7
Regression
151
7.1 7.1.1 7.1.2 7.1.3 7.1.4
Lineare Regression Lineare Regression mit deterministischen Regressoren Robuste Regression Lineare Regression mit stochastischen Regressoren Zur Durchführung einer linearen Regression
151 151 168 173 175
7.2
Multivariate multiple Regression
175
Inhaltsverzeichnis
IX
7.3 7.3.1 7.3.2 7.3.3
Hauptkomponenten- und PLS-Regression Hauptkomponentenregression Partial Least Squares-Regression Beziehung zwischen Hauptkomponenten- und PLS-Regression
180 180 183 190
7.4
Weitere Aspekte, Literatur und Software
192
8
Kategoriale Responsevariablen
195
8.1
Gewichtete Kleinste Quadrate-Methode
195
8.2 8.2.1 8.2.2
Logistische Regression Binomialverteilte Zielgrößen Logitmodelle bei mehrkategoriellen Zielgrößen
203 203 217
8.3
Weitere Aspekte, Literatur und Software
224
9
Conjoint-Analyse
227
9.1 9.1.1 9.1.2 9.1.3 9.1.4
Traditionelle Conjoint-Analyse Erfassung der Präferenzen Das metrische Modell Nichtmetrische Präferenzwerte Aggregation von Individualanalysen
227 227 229 235 238
9.2 9.2.1 9.2.2
Auswahlbasierte Conjoint-Analyse Das multinomiale Logitmodell Erweiterungen des multinomialen Logitmodells
240 241 247
9.3
Zur praktischen Durchführung einer Conjoint-Analyse
252
9.4
Weiteren Aspekte, Literatur und Software
255
IV Zusammenhänge
259
10
Hauptkomponentenanalyse
261
10.1
Zweidimensionale Datensätze
261
10.2
p-dimensionale Datensätze
265
10.3
Hauptkomponentenanalyse von Korrelationsmatrizen
270
10.4
Ausreißer und robuste Hauptkomponentenanalyse
273
10.5
Theoretische Hauptkomponenten
276
10.6
Zur Durchführung einer Hauptkomponentenanalyse
277
10.7
Weitere Aspekte, Literatur und Software
278
11
Grafische Darstellungen
279
11.1
Biplots
279
X
Inhaltsverzeichnis
11.2 11.2.1 11.2.2
Korrespondenzanalyse Zweidimensionale Kontingenztafeln Multiple Korrespondenzanalyse
284 284 289
11.3
Projection Pursuit
291
11.4 11.4.1 11.4.2 11.4.3
Multidimensionale Skalierung Metrische Multidimensionale Skalierung Nicht-Metrische Multidimensionale Skalierung Zur Durchführung einer MDS
295 296 306 311
11.5
Weitere Aspekte, Literatur und Software
311
12
Kanonische Korrelation
315
12.1
Kanonische Korrelation und kanonische Variablen
315
12.2
Tests auf Unabhängigkeit
322
12.3
Weitere Aspekte, Literatur und Software
326
13
Loglineare Modelle
327
13.1
Loglineare Modelle für zweidimensionale Tafeln
327
13.2
Loglineare Modelle für dreidimensionale Tafeln
332
13.3
Höherdimensionale Tafeln
335
13.4
Literatur und Software
338
V Gruppierungen
339
14
Diskriminanzanalyse
341
14.1 14.1.1 14.1.2 14.1.3
Lineare Diskriminanzanalyse Zwei Gruppen Mehrere Gruppen Variablenselektion und Trennmaße
343 344 350 353
14.2 14.2.1 14.2.2 14.2.3 14.2.4
Maximum-Likelihood-Diskrimination Modelle auf der Basis von Multinomialverteilungen Normalverteilungen Logistische Diskrimination Dichteschätzung
356 357 358 360 362
14.3 14.3.1 14.3.2 14.3.3 14.3.4 14.3.5
Klassifikation Zwei Gruppen Mehrere Gruppen Fehlerraten Eigenschaften der linearen Klassifikation Logistische Klassifikation
363 363 366 367 370 371
Inhaltsverzeichnis
XI
14.3.6
Klassifikationsbäume
373
14.4
Zur Durchführung einer Diskriminanzanalyse
385
14.5
Weitere Aspekte, Literatur und Software
385
15
Clusteranalyse
391
15.1 15.1.1 15.1.2 15.1.3
Finden von Clustern Umordnen von Daten- und Distanzmatrizen Hierarchische Verfahren Simultane Verfahren
392 392 397 405
15.2 15.2.1 15.2.2 15.2.3
Modellbasierte Clusterbildung Grundlagen Normalverteilte Beobachtungen Das Modell latenter Klassen
413 413 414 419
15.3
Clusterweise Regression
422
15.4
Zur Durchführung einer Clusteranalyse
425
15.5
Weitere Aspekte, Literatur und Software
426
VI Strukturgleichungsmodelle
431
16
Pfadanalyse
435
17
Faktorenanalyse
447
17.1 17.1.1 17.1.2 17.1.3 17.1.4 17.1.5
Explorative Faktorenanalyse Das orthogonale Faktorenmodell Schätzmethoden Bestimmung der Anzahl der Faktoren Faktor-Rotation Faktor-Scores
448 448 454 462 464 470
17.2
Konfirmatorische Faktorenanalyse
472
17.3
Zur Durchführung einer Faktorenanalyse
481
17.4
Weitere Aspekte, Literatur und Software
483
18
LISREL
485
18.1
Das Modell
485
18.2 18.2.1 18.2.2 18.2.3 18.2.4
Anpassung eines Modells Parameterschätzung Überprüfung der Modellanpassung mittels Tests Deskriptive Anpassungsmaße Modifikationsindizes und Maße der Parametrisierung
490 490 494 497 498
XII
Inhaltsverzeichnis
18.3
Zur Durchführung von LISREL-Analysen
504
18.4
Literatur und Software
506
19
Partial Least Squares
509
19.1
Das PLS-Pfadmodell
509
19.2
DerPartial-Least-Squares-Algorithmus
515
19.3
Validierung des Modells
517
19.4
Vergleich von PLS und LISREL
526
19.5
Zur Durchführung einer PLS-Analyse
526
19.6
Literatur und Software
527
VII Anhang
529
20
Vektoren
531
20.1
Grundlagen
531
20.2
Geometrische Aspekte
532
21
Matrizen
535
21.1
Grundbegriffe
535
21.2
Eigenwerte und Eigenvektoren
543
Index
549
Teil I
Daten und ihre Beschreibung
1
1
Einführung
1.1
Fragestellungen
In den Beobachtungswissenschaften wie Psychologie, Sozial- und Wirtschaftswissenschaften ist es eher die Regel, dass Daten in multivariater Form anfallen. Nur ausnahmsweise werden Untersuchungen mit lediglich einer Variablen durchgeführt. Der bei Benninghaus (1991) auszugsweise angegebene Fragebogen zu .Merkmale und Auswirkung beruflicher Tätigkeit 1993' hat zum Beispiel 175 einzelne Fragen, die zu entsprechend vielen Variablen führen. Auch in den Naturwissenschaften werden bei großen Untersuchungen meist die Werte von mehr als einer Variablen gemessen bzw. erfasst. Die statistischen Methoden zur Analyse solcher Daten werden unter dem Sammelbegriff multivariate statistische Methoden geführt. Es ist einsichtig, dass die Fragestellungen bei so vielen Variablen sehr verschieden sein können. Dementsprechend ist die multivariate Statistik kein einheitliches, gut zu strukturierendes Gebiet. Um dies zu verdeuüichen, seien einige charakteristische Fragestellungen betrachtet.
Beispiel 1.1.1
Seekrankheit
In einer Untersuchung zur Seekrankheit wurde auf 22 Überfahrten einer Fähre die durchschnittliche Schiffsbewegung sowie die Befindlichkeit der Passagiere ermittelt, vgl. Lawther & Griffin (1986). Die Bewegungsvariablen sind in der Abbildung 1.1.1 illustriert. Die Befindlichkeitsvariablen wurden einmal mittels einer so genannten Rating-Skala erhoben und dann wurde der Anteil der Passagiere festgehalten, die sich erbrechen mussten. Zudem wurde die Fahrtdauer notiert. Genauer wurden folgende Variablen erhoben:
Abb. 1.1: Achsen der Schiffsbewegung
4
1 Einführung Χι X2 X3 X4 X5
= Beschleunigung in Längsrichtung = Beschleunigung in Querrichtung = Beschleunigung in Höhenrichtung = Rollen — Stampfen
X6 X7 X8 X9 X10
= = = =
Gieren (Schwanken) Anzahl der Passagiere Dauer Krankheitsrating Erbrechen ( % )
Die Daten sind in der folgenden Übersicht zusammengefasst. Χι 0.024 0.122 0.027 0.117 0.107 0.143 0.226 0.112 0.287 0.217 0.058 0.101 0.102 0.081 0.045 0.199 0.058 0.120 0.109 0.073 0.070 0.069
X2
X3
0.121 0.376 0.145 0.276 0.223 0.280 0.356 0.272 0.448 0.274 0.341 0.587 0.359 0.306 0.190 0.494 0.269 0.481 0.309 0.195 0.250 0.177
0.061 0.477 0.092 0.493 0.308 0.450 0.689 0.408 0.751 0.559 0.331 0.567 0.503 0.391 0.223 0.557 0.302 0.449 0.515 0.227 0.366 0.257
x,
0.0031 0.0091 0.0022 0.0067 0.0083 0.0090 0.0112 0.0080 0.0125 0.0091 0.0095 0.0144 0.0100 0.0081 0.0042 0.0126 0.0075
0.0111 0.0096 0.0067 0.0069 0.0040
X5
0.0020 0.0134 0.0027 0.0145 0.0114 0.0155 0.0236 0.0122 0.0296 0.0247 0.0068 0.0118 0.0119 0.0101 0.0053 0.0213 0.0080 0.0131 0.0161 0.0105 0.0114 0.0073
Χβ X7 Xi Xs -Χίο
0.0013 144 0.0051 110 0.0016 251 0.0043 229 0.0036 115 0.0044 112 0.0058 172 0.0044 70 0.0074 63 0.0057 120 0.0044 72 0.0061 49 0.0046 94 0.0042 89 0.0025 83 0.0080 46 0.0038 0.0054 0.0047 0.0032 0.0037 0.0024
125 132 141 171 106 143
0.010 0.525 0.085 0.687 0.378 0.332 0.945 0.420 0.150 0.977 0.458 0.482 0.510 0.563 0.477 1.199 0.369 0.789
0.00
14.00 0.50 13.90 7.90 5.80 26.90 3.30 37.50 24.20 7.00 6.50 12.80 7.60 5.60 37.10 7.50 19.70 1.000 24.90 0.586 15.30 0.707 12.10 0.485 8.25
Hier interessiert natürlich, wie stark die beiden Befindlichkeitsvariablen von den einzelnen Bewegungsvariablen und von der Fahrtdauer abhängen. Dies ist eine Frage der multivariaten multiplen Regression. Weiter wird man wissen wollen, wie die verschiedenen Bewegungsrichtungen zusammenhängen. Das legt zunächst einmal eine Exploration der gemeinsamen Verteilungen der Bewegungskomponenten nahe. Weitergehend kann man untersuchen, ob es Gruppen von Bewegungsvariablen gibt, die weitgehend das Gleiche messen. Dazu bietet sich eine Faktorenanalyse an.
Beispiel 1.1.2
Cheddar-Käse
Während ein Käse reift, finden verschiedene chemische Prozesse statt, die den Geschmack des abschließenden Produktes bestimmen. Dieser Datensatz enthält Konzentrationen der verschiedenen Chemikalien in 30 Proben gereiften Cheddar-Käse sowie Geschmack, ein subjektives Maß des Geschmacks für jede Probe. Letzteres wurde über eine Kombination der Scores einiger Verkoster bestimmt. Die Variablen Essig und H2S sind logarithmisch transformierte Werte der Konzentration der Essigsäure beziehungsweise des Wasserstoffsulfids. Die Variable Lactat ist nicht transformiert worden. Die Daten stamen aus Moore & McCabe (1993).
1.1 Fragestellungen Geschmack 12.3 20.9 39 47.9 5.6 25.9 37.3 21.9 18.1 21
Essig 4.543 5.159 5.366 5.759 4.663 5.697 5.892 6.078 4.898 5.242
H2S Lactat 3.135 0.86 5.043 1.53 5.438 1.57 7.496 1.81 3.807 0.99 7.601 1.09 8.726 1.29 7.966 1.78 3.85 1.29 4.174 1.58
5 Geschmack 34.9 57.2 0.7 25.9 54.9 40.9 15.9 6.4 18 38.9
Essig 5.74 6.446 4.477 5.236 6.151 6.365 4.787 5.412 5.247 5.438
H2S Lactat 6.142 1.68 7.908 1.9 2.996 1.06 4.942 1.3 6.752 1.52 9.588 1.74 3.912 1.16 4.7 1.49 6.174 1.63 9.064 1.99
Geschmack 14 15.2 32 56.7 16.8 11.6 26.5 0.7 13.4 5.5
Essig 4.564 5.298 5.455 5.855 5.366 6.043 6.458 5.328 5.802 6.176
H2S Lactat 4.949 1.15 5.22 1.33 9.242 1.44 10.199 2.01 3.664 1.31 3.219 1.46 6.962 1.72 3.912 1.25 6.685 1.08 4.787 1.25
Von Interesse ist hier, wieweit die Variablen Essig, H2S und Lactat den Geschmack bestimmen. Diese Fragestellung gehört in das Gebiet der Regression. Beispiel 1.1.3
Kriminalität in den USA
Die Justizbehörde der USA legt recht regelmäßig Berichte zur Kriminalität vor. Aufgeschlüsselt nach den 50 Staaten der USA werden für das Jahr 2002 die Raten (Häufigkeit pro 100 000 Personen) verschiedenartiger Verbrechen angegeben: Χι — Mord X2 — Vergewaltigung X3 = Raub X 4 = Körperverletzung X 5 = Einbruch X6 — Diebstahl X 7 = Autodiebstahl Staat Xi X2 X 3 * 4 Xl 7 37 133 268 949 2762 310 Alabama Alaska 5 79 76 403 607 2755 384 Arizona 7 30 147 370 1083 3694 1057 Arkansas 5 28 93 298 857 2625 251 Califom 7 29 185 373 679 2038 633 Colorado 4 46 79 223 703 2778 514 Connecti 2 21 117 170 494 1858 334 Delaware 3 44 143 409 663 2298 379 Columbia 46 46 672 869 906 3802 1681 Florida 6 40 195 529 1061 3060 530 Georgia 7 25 157 270 864 2740 444 Hawaii 2 30 97 133 1022 3964 796 Idaho 3 37 18 197 555 2167 196 Illinois 8 34 201 379 644 2396 356 Indiana 6 30 107 214 692 2372 329 Iowa 2 27 40 217 635 2330 198 Kansas 3 38 80 256 725 2720 266 Kentucky 5 27 75 173 681 1729 214 Louisian 13 34 159 456 1012 2974 450 Maine 1 29 21 57 538 1900 110 Maryland 9 25 246 490 729 2626 623 Massachu 3 28 112 343 517 1679 414 Michigan 7 53 118 362 706 2133 495 Minnesot 2 45 78 142 559 2433 276 Mississi 9 39 117 178 1031 2454 332 Missouri 6 26 124 383 753 2819 492
Staat Xi Xz Xs Xs Xy 2 26 31 293 362 2604 196 Montana Nebraska 3 27 79 206 597 2975 371 Nevada 8 43 236 351 872 2184 805 NeHampsh 1 35 32 93 379 1527 153 Nejersey 4 16 162 193 511 1723 416 NeMexico 8 55 119 557 1058 2879 401 NewYork 5 20 191 280 400 1660 247 7 26 147 291 1196 2756 299 NCarolina NDakota 1 26 9 43 354 1814 161 Ohio 5 42 157 148 868 2513 375 Oklahoma 5 45 85 369 1007 2868 366 Oregon 2 35 78 177 730 3377 469 Pennsylv 5 30 139 228 451 1722 266 Rhodelsl 4 37 86 159 600 2248 456 SCaroiina 7 48 141 627 1065 3000 411 SDakota 1 47 15 113 399 1595 108 Tennessee 7 40 162 508 1057 2788 458 Texas 6 39 173 361 976 3163 471 Utah 2 41 49 145 653 3229 333 Vermont 2 20 13 72 566 1733 125 Virginia 5 25 95 166 435 2160 253 Washingt 3 45 96 202 905 3189 667 WVirgini 3 18 37 176 537 1528 216 Wiscons 3 23 87 113 513 2267 247 Wyoming 3 30 19 222 491 2668 149
Eine Frage lautet, ob sich die Staaten bez. der Kriminalität in einige wenige homogene Gruppen einteilen lassen. Die Methoden, mit denen diese Fragestellung zu bearbeiten ist, fallen in das Gebiet der Clusteranalyse.
1 Einführung
6
Die Aufteilung der Angaben in die Rubriken .Vergehen gegen Personen' (die ersten vier der genannten Verbrechen) und .Vergehen gegen Sachen' (die drei letztgenannten) legt weiter die Frage nahe, ob es sich tatsächlich im wesentlichen um zwei Arten von Delikten handelt. Dies kann mit einer Faktorenanalyse beantwortet werden. Beispiel 1 · 1.4
Unterernährung
Die Daten in der Tabelle zeigen zwei biochemische Level, nämlich den Wert des Albuminserums Xj und den der alkalischen Phosphatase X2 (beide in g/Z). Zudem ist Y ein Indikator für Unterernährung mit 1 für .unterernährt' und 0 für .nicht unterernährt', siehe Bhattacharjee & Dunsmore (1991). Mit den Daten sollte geklärt werden, welche relative Bedeutung die beiden Seren für die Einstufung weiterer Personen als unterernährt haben. ΧΙ χ2 Y
χ,
χ2 Υ
Xi
χ2 υ
Χ\ ΧΪ Υ
χ\ x2
27 32 26 18
25 52 1 27 41 1 25 269 1 20 75 1 27 52 1 23 47 1
41
64 1
24 123 1 29 132 1 34 62 1 32 69 1 31 118 1 27 87 1
4 83 1 8 163 1 29 73 1 32 54 1 34 43 0 40 55 0
44 83 35 95
1 1 1 1
28 80 1 21 76 1
28 164 1 25 109 1 29 51 1 29 79 1 30 75 1
Υ
ΧΙ χ2 Υ
χ\ χ2 Υ
40 44 48 50 40 40
40 41 43 54 43 61 38 145 45 42 43 61
49 45 57 38 83 81
0 0 0 0 0 0
0 0 0 0 0 0
Χ\Χ2Υ 41 42 41 41
64 69 97 59
0 0 0 0
Bei der Frage der Unterscheidung der beiden Personengruppen handelt es sich um ein Problem der Diskrimination. Die Fragen der Zuordnung neuer Personen zu der einen oder der anderen Gruppe gehört dann in den Komplex der Klassifikation. Beispiel 1.1.5
Kongressabgeordnete
Für 15 Kongressabgeordnete des US-Bundesstaates New Jersey wurde erhoben, wie oft sie bei insgesamt 19 Abstimmungen über Umweltfragen jeweils unterschiedlich votierten, siehe Romesburg (1984).
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R R D D R R R D D D D R R D D
1
2
3
4
0 8 15 15 10 9 7 15 16 14 15 16 7 11 13
8 0 17 12 13 13 12 16 17 15 16 17 13 12 16
15 17 0 9 16 12 15 5 5 6 5 4 11 10 7
15 12 9 0 14 12 13 10 8 8 8 6 15 10 7
5 10 13 16 14 0 8 9 13 14 12 12 12 10 11 11
6
7
8
9 13 12 12 8 0 7 12 11 10 9 10 6 6 10
7 12 15 13 9 7 0 17 16 15 14 15 10 11 13
15 16 5 10 13 12 17 0 4 5 5 3 12 7 6
9 10 11 12 13 14 14 15 16 7 11 15 16 17 13 12 6 5 4 11 10 8 8 6 15 10 12 12 12 10 11 10 9 10 6 6 15 14 15 10 11 5 5 3 12 7 3 2 1 13 7 0 1 2 11 4 1 0 1 12 5 2 1 0 12 6 11 12 12 0 9 4 5 6 9 0 6 5 4 13 9
16 17 5 8 14 11 16 4 0 3 2 1 13 7 5
15 13 16 7 7 11 10 13 6 5 6 5 4 13 9 0
In der Tabelle sind zudem die Zugehörigkeiten zu den beiden Parteien der USA, den Demokraten (D) und den Republikanern (R) angegeben. Eine ganz simple Aufgabe besteht
7
1.1 Fragestellungen
hier erst einmal darin, eine grafische Darstellung anzufertigen, bei der die Abgeordneten umso näher beieinander dargestellt werden, je ähnlicher ihr Abstimmverhalten war. Einen Ansatz dazu bietet die Multidimensionale Skalierung.
Beispiel 1.1.6
Heiratsverhalten im Zeichen der Astrologie
Um das Heiratsverhalten im Zeichen der Astrologie zu studieren, wurde von 4219 verheirateten Paaren die Sternzeichen der Ehegatten ermittelt. Diese Erhebung führt auf eine 1 2 x 1 2 Matrix von Häufigkeiten:
Männer
Sternzeichen von 4219 Paaren Frauen Widder Stier Zwill Krebs Loewe Jungfr Waage Skorp Schuetz Steinb Wasser Fischen
Widder Stier Zwill Krebs Loewe Jungfr Waage Skorp Schuetz Steinb Wasser Fische
Σ
41 32 34 29 31 40 25 33 26 31 30 29
34
17
42 28 28 18 32 37 26 25 21 34 22 38
35 31 33 25 27 28 36 24 22 38 22 26
31 26 36 26 29 27 30 32 32 25 30 45
27 32 31 34 19 37 30 32 33 19 18 30
33 21 22 20 23 23 29 14
28 23 27 39
41 31 22 30 27 23 28 35 19 24 29 40
35 46 26 43 39 27 33 28 37 36 39
35 31 25 40 40 23 34
381
423
29 22 31 30 20 45 13 24 32 30 30 34
30 27 25 35 32 36 29
11 32 27 27
27 34 24 25 25 26 23 18 19 28 34 25
362
349
351
347
369
342
282
308
340
365
16 20 36 40 39
J2 387 354 363 323 348 401 319 320 291 357 345 411 4219
Naheliegend ist es natürlich zu fragen, wie weit sich die Paare nach Sternzeichen gefunden haben, oder ob das gar keine Rolle spielt. Weitergehend wäre zu untersuchen, ob sich bez. der Partnerwahl nach Sternzeichen Aufschlüsse ergeben. Hierzu kann eine Korrespondenzanalyse eingesetzt werden.
Beispiel 1.1.7
Verkauf von Rosen
Eine Reisegewerblerin für das Feilbieten von Blumen und kunstgewerblichen Gegenständen will anhand ihrer bisherigen Erfahrungen ihre weitere Tätigkeit planen. Verkauft hatte sie bisher ausschließlich Baccara-Rosen in vier Speiserestaurants an drei Wochentagen. Sie besuchte die Lokale jeweils zweimal. Festgehalten wurde außerdem, wie die Wetterbedingungen gewesen waren und ob der Verkauf in den einzelnen Restaurants zufriedenstellend verlaufen war, d.h. ob mehr als zwei Rosen pro Besuch verkauft worden waren. Die Datenmatrix umfasst 192 Abende, siehe Recke (1979). Von Interesse ist hier erstens, die Daten in übersichtlicher Form darzustellen. Dies geschieht mittels einer geeigneten Kontingenztafel. Dann stellt sich die Frage nach dem Zusammenhang der verschiedenen Einflüsse. Dies kann mit im Rahmen der loglinearen Modelle untersucht werden. Die Verfahren, auf die in den Beispielen hingewiesen wird, lassen sich danach einteilen, ob Zusammenhänge oder Abhängigkeiten untersucht werden. Mit Abhängigkeiten oder Dependenzen ist gemeint, dass eine (einige) ausgewählte Variable(n) durch die anderen erklärt
1 Einführung
8
werden soll(en). Den Kern dieser Verfahren bildet die lineare Regressionsanalyse. Es gibt verschiedene Erweiterungen und Modifikationen. Eine spezielle Anwendung führt auf eine für die Marktforschung wichtige Klasse von Methoden, die unter dem Begriff Conjointanalyse zusammengefasst werden. Die Hauptkomponentenanalyse, die Faktorenanalyse, die multidimensionale Skalierung und auch die kanonische Korrelation loglineare Modelle zählen zu den Methoden der Analyse von Interdependenzen, also von Zusammenhängen. Weiterhin gehören die loglinearen Modelle hierzu. Die Verfahren der Clusteranalyse und der Diskriminanzanalyse (mit der Klassifikation] haben zum Ziel Objekte in Gruppen einzuteilen bzw. die Gruppenzugehörigkeit zu bestimmen. Sie werden in dem Teil Gruppierungen behandelt.
1.2
Datensituation
Wie in dem Beispiel 1.1.1 wird in diesem Text stets von einem Datensatz ausgegangen, der als X Datenmatrix gegeben mit zugehörigen Bezeichnungen der Variablen und ggf. der Beobachtungen. Deren Spalten sind durch die Variablen X\,...,Xp gegeben, und die Zeilen durch die Beobachtungswiederholungen, Objekte bzw. Subjekteoi,...,o„: · .
Xj
.
Oi o2
Xl /Xu X21
X2 Xl2 X22
Oi
Xu
Xj2
Xi}
Xip
Xn2
Xnj
Xnp)
On
Xi j X2j
..
*lp\ X2 ρ
Variablen wie etwa .Geschlecht' und .Familienstand' sind offensichtlich von anderer Qualität als die im Beispiel 1.1.1 angegebenen Variablen, insbesondere die die verschiedenen Beschleunigungen. Um derartige Unterschiede zu fassen, werden Variablen X nach zwei Kriterien eingeteilt. Zum einen werden Variablen nach ihrem Messniveau oder ihrer Skala unterschieden: • Bei kardinalen oder metrischen Variablen sind Abstände quantifizierbar. Solche Quantifiziert» arkeit liegt etwa bei Messungen vor. Die Differenz von einem Meter ist halb so groß wie die von zwei Metern, egal ob man sich bei 10 oder 100 Metern als Ausgangspunkt bewegt. Auch Variablen, die Anzahlen repräsentieren, sind metrisch. Ein Beispiel sind die Anzahlen von Kunden pro Tag in einem Supermarkt. • Ordinal heißt eine Variable dann, wenn die Anordnung der verschiedenen Realisationsmöglichkeiten relevant ist, aber die Abstände nicht interpretierbar sind. Als Relationen stehen also zur Verfügung. Solche Skalen sind häufig bei subjektiven Einstellungsskalen anzutreffen. Weiter zählen dazu Boniturskala oder Benotungsskala, bei der den Objekten (Bonitur-) Noten zugeordnet werden. Dabei ist die Menge der
1.3 Literatur und Software
9
verschiedenen möglichen Noten unabhängig von der Anzahl der Objekte vorgegeben. In diese Rubrik fallt auch eine .Skala', die durch Präferenzbeziehungen etwa bei sensorischen Prüfungen (Wein-, Kaffeeverkostung) entsteht. Die Objekte werden durch den Prüfer (der hier als .Messinstrument' fungiert) in eine Reihenfolge gebracht. Eine solche Skalierung wird als Rangordnung bezeichnet. • Bei nominalen Variablen wie dem Familienstand, der Religionszugehörigkeit etc., ist die Anordnung der verschiedenen Realisationsmöglichkeiten irrelevant. Nur noch die Unterschiedlichkeit (oder Gleichheit) von Ausprägungen ist interpretierbar, also die Relation = , / . Neben dieser Einteilung ist die Feinabstufigkeit der möglichen Werte relevant: • Bei stetigen Variablen kann man sich vorstellen, dass mit je zwei Beobachtungen auch jeder Zwischenwert als Realisation möglich ist. Der Wertebereich wird dann als (eventuell unendliches) Intervall angegeben. Diese Vorstellung ist eher eine formale Abstraktion. In den Anwendungen werden die entsprechenden Modelle und zugehörigen Methoden schon dann eingesetzt, wenn sich die tatsächlichen Beobachtungen dadurch auszeichnen, dass sie überwiegend unterschiedlich sind, und gleiche Werte eher die Ausnahme bilden. • Diskrete Variablen haben dagegen vorab genau spezifizierbare Realisationsmöglichkeiten, die auch abgezählt werden können. • Kategoriale Variablen sind spezielle diskrete Variablen, und zwar solche, die nur wenige unterschiedliche Realisationsmöglichkeiten aufweisen. Die Situation, dass einige Variablen nominal und andere metrisch skaliert sind, führt einmal zu speziellen Modellen und zum anderen zu Transformationen, womit die Situation gleichartiger Variablen wieder hergestellt wird. Einfache Möglichkeiten bestehen darin, dass die metrischen Variablen diskretisiert werden oder die nominal skalierten in sogenannte Dummy-Variablen, cVariable!Dummy- d. h. 0-1 Variablen, transformiert werden. Aufwändigere Ansätze gehen davon aus, dass ordinal skalierte Variablen eigentlich schlecht gemessene normalverteilte Variablen repräsentieren. Dann versucht man, die Werte dieser Hintergrundvariablen zu rekonstruieren.
1.3
Literatur und Software
Literaturhinweise Wie im Vorwort erwähnt, lassen sich die vorhandenen Lehrbücher grob in die theoretisch orientierten und die praktisch orientieren einteilen. Letztere haben dabei oft einen Kochbuch Charakter. Zu den empfehlenswerten der eher theoretisch ausgerichteten Texten gehören Fahrmeir, Hamerle und Tutz (1996), Flury (1997), Johnson and Wichern (2002), Mardia, Bibby & Kent
10
1 Einführung
(1979) und Timm (2002). Einige nicht Kochbuch-artige, praktisch orientierte Texte sind Gnanadesikan (1997) Jambu (1992), Jobson (1992) und Schnell (1994). Das Buch von Gnanadesikan ist der explorativen Analyse von multivariaten Daten gewidmet. Bei Erscheinen der ersten Auflage 1977 war es revolutionär. Der Text von Jambu ist recht eigen; die französische Schule der multivariaten Statistik hat eine durchaus eigene Form entwickelt. Jobson ist ein sehr umfassendes Lehrbuch, das auf einem mittleren Niveau angesiedelt ist. Schnell betont die grafischen Aspekte.
Hinweise zur Software Die unter der URL http://cran.r-project.org/web/views/ zu findenden R-Task-Views geben eine nach Gebieten strukturierte Übersicht zu vorhandenen Funktionen in R. Für SAS sei auf die SAS-Hilfe und Dokumentation verwiesen. Hier findet man zahlreiche Beispiele, Erklärungen zu dem Code und umfassende Hintergrundinformationen. Diese ist auch unter der URL http://support.sas.com/documentation/onlinedoc/91pdf/index.html erreichbar.
Literaturverzeichnis Benninghaus, (1991): Sozialwissenschaftliche Datenanalyse, 2te Auflage, München: Oldenbourg Bhattacharjee, S.K. and Dunsmore, LR. (1991): The influence of variables in a logistic model; Biometrika 78, 851-6. Computing R development Core Team. R Foundation for Statistical Analysis: R: A language and environment for statistical computing. URL http://www.R-project.org Fahrmeir, L., Hamerle, A. undTutz, G. (1996): Multivariate statistische Verfahren; Berlin: Walter de Gruyter. Gnanadesikan, R. (1997): Methods for Statistical Data Analysis of Multivariate Obserations, 2nd edn.; New York: Wiley. Jambu, M. (1992): Explorative Datenanalyse; Stuttgart: Gustav Fischer. Jobson, J.D. (1992): Applied Multivariate Data Analysis, Volume II: Categorial and Multivariate Methods; Berlin: Springer. Johnson, R.A. and Wichern, D.W. (2002): Applied Multivariate Statistical Analysis, 5th ed.; New Jersey: Prentice Hall. Mardia, Κ. V, Kent, J. T. and Bibby, J. M. (1979): Multivariate Analysis; London: Academic Press. Moore, D. S., andMcCabe, G. P. (1993): Introduction to the Practice of Statistics 2nd ed., Freeman and Company: New York. Recke, C. (1979): Zum Einsatz Log-linearer Modelle in der Marktforschung, unveröff. Diplomarbeit an der Freien Universität Berlin. Roth, E. (1984): Sozialwissenschaftliche Methoden; München: Oldenbourg Schnell, R. (1994): Graphisch gestützte Datenanalyse; München: Oldenbourg Timm, N.H. (2002): Applied Multivariate Analysis; Berlin: Springer.
2
Kontinuierliche Variablen
In diesem Kapitel werden metrisch skalierte Variablen betrachtet. Zudem wird unterstellt, dass sie stetig sind.
2.1
Der p-dimensionale Beobachtungsraum
2.1.1
Univariate Daten
Obwohl die multivariaten statistischen Methoden auf die Analyse von Abhängigkeiten und Zusammenhängen abzielen, ist es oft nützlich, sich zunächst einmal die univariaten Randverteilungen anzusehen. So ist bei größeren Datensätzen die Betrachtung der univariaten Randverteilungen schon zur Plausibilitätskontrolle bez. Eingabe-Fehlern relevant. Die üblichen deskriptiven Maßzahlen zur Beschreibung der univariaten Charakteristika eines Datensatzes können für jede Variable getrennt betrachtet werden. Die klassischen Maßzahlen zur Beschreibung von Lage und Streuung der Werte einer Variablen X sind das arithmetische Mittel und die Varianz bzw. die Standardabweichung·. 1 " η i=i
Bemerkung 2.1.1
A
1 " n - \ ^;=i
f— VA
Freiheitsgrade
Die Verwendung des Nenners η — 1 bei der Varianz hängt mit dem Begriff der Freiheitsgrade, df (für degrees of freedom), zusammen. Da der Begriff im Folgenden noch häufig vorkommen wird, soll auf das wichtige zu Grunde liegende Konzept schon hier kurz eingegangen werden. Die Freiheitsgrade repräsentieren das Ausmaß an Unabhängigkeit in den Beobachtungen, die zur Berechnung der interessierenden Größen zur Verfügung stehen. Bei der Varianz ist die Summe der zentrierten Beobachtungen jc, — χ gleich Null. Das heißt, man kann einen von η zentrierten Werten aus den restiichen η — 1 rekonstruieren. Die η Summanden sind nicht voneinander unabhängig, nur noch jeweils η — 1 Werte sind es. Die Anzahl der Freiheitsgrade beträgt dementsprechend df= η — 1.
Äquivarianz Bei vielen Variablen gibt es keine natürliche, eindeutige Messskala. Dann verwendet man eine der verschiedenen möglichen. Dies ist etwa bei der Temperatur so, deren Angabe in
12
2 Kontinuierliche Variablen
Grad Kelvin, Celsius, Fahrenheit oder Reaumier erfolgen kann. Die Willkür bei der Auswahl der Skala soll nun das statistische Ergebnis nicht beeinflussen. Daher sollte es gleich sein, ob die Maßzahlen transformiert werden oder ob sie aus den transformierten Daten berechnet werden. Die wichtigsten Transformationen sind dabei die linearen. Man nennt Maßzahlen der Lage m(x) und Streuung S(JC) läge- und skalenäquivariant oder kurz äquivariant, wenn für alle reellen Zahlen a, b gilt: m{a • X\ + b,..., a • x„ + b) — a • m[x) + b s{a •xi + b,...,a-x„
+ b) — \a\·s(x).
Zum Beispiel sind das arithmetische Mittel und der Median äquivariante Lagemaße. Die Standardabweichung ist eine äquivariante Maßzahl der Streuung. Da häufig schon die Varianz als Streuungsmaß verwendet wird, spricht man bei Streuungsmaßen auch von Äquivarianz, wenn s(a · jti + &,..., a • xn + b) = a2s(x) gilt.
Robustheitsanforderungen Bei der explorativen Analyse der Daten möchte man mit Maßzahlen der Lage und Streuung arbeiten, die speziell von einzelnen extremen Werten, sogenannten Ausreißern, nicht zu stark beeinflusst werden. Eine Möglichkeit zur Bestimmung des Einflusses, den die einzelnen Beobachtungen jeweils auf eine Maßzahl m haben, bietet die Sensitivitätskurve. Sie basiert auf der Idee, die Werte der Maßzahl zu vergleichen, die sich aus der Berechnung aus dem vollen Datensatz und aus dem um eine einzelne Beobachtung reduzierten ergibt. Die Differenz wird auf den Anteil bezogen, den die eine Beobachtung an dem ganzen Datensatz hat: S C
[ X i
, m ) J
- ^ . 1/n
m n
(2.1)
Dabei bezeichnet m„ die aus dem vollen Datensatz bestimmte Maßzahl und m„(,·) die aus dem um x,· verringerten. Ausreißer werden sich durch einen übermäßig großen Wert der Sensitivitätskurve bemerkbar machen. Beispiel 2.1.2
Sensitivitätskurve des arithmetischen Mittels
Für 20 standardnormalverteilte Zufallszahlen wurden die zugehörigen Werte der Sensitivitätskurve des arithmetischen Mittels ermittelt und in der Abbildung 2.1 dargestellt. Man sieht, dass der Einfluss einer Beobachtung umso größer ist, je weiter die Beobachtung vom Zentrum weg liegt. (Hier ist χ — 0.160.) Zudem zeigt sich, dass auch bei .gutartigen' Daten einzelne etwas extremere Beobachtungen vorkommen können. Maßzahlen, bei denen auch extreme Beobachtungen nur einen geringen Einfluss besitzen, werden als resistent oder robust bezeichnet.1 Zu solchen robusten Maßzahlen der Lage ge' I m folgenden werden die beiden Begriffe als Synonyme verwendet, auch wenn resistent eher meint, dass die Maßzahl durch extreme Beobachtungen nicht beeinflusst wird und mit robust das gutartige Verhalten von Schätzern bei geringfügigen Abweichungen von unterstellten Verteilungsmodellen beschrieben wird. Für die Praxis haben sich die beiden Konzepte als gleichwertig herausgestellt.
2.1 Der p-dimensionale Beobachtungsraum
13
2.5 2.0
1.5 1.0
-
ι
0.5 0.0 -2.5
-2.0
-1.5
-0.5
-1.0
. - .•• Ii I II 0.5
0.0
1.0
1.5
Abb. 2.1: Sensitivitätskurve für das arithmetische Mittel
hören der Median x, und das getrimmte Mittel xa. Trimmen bedeutet dabei, dass die extremsten Werte aus dem Datensatz entfernt werden. Bei der Berechnung von xa werden dementsprechend 100 · a% der kleinsten und der größten Beobachtungen weggelassen. Der Quartilsabstand sq, der MAD, der Median der absoluten Abweichungen vom Median, und die getrimmte Varianz sind robuste Maßzahlen der Streuung. Zusätzlich wurde als sehr robuste Maßzahl für die Streuung noch die Länge der kürzesten Hälfte sSh vorgeschlagen und als zugehörige Maßzahl für die Lage der Mittelpunkt mSh der beiden geordneten Werte, welche die kürzeste Hälfte festlegen. Wenn X\n < . . . < xn-n der geordnete univariate Datensatz ist, und χ J die größte ganze Zahl bezeichnet, welche noch kleiner ist als χ (Gaußsche Klammer), so sind diese Maßzahlen, die alle äquivariant sind: Median:
χ -
-{x +Χ I.J 2 |>+1)/2 \·.η [(η+2)Ι2 J:n l
getrimmtes Mittel:
Quartilsabstand: MAD:
Χα
—
η —2[anJ
L ci-«)« J
(2.2c)
MAD = m e d i a n } — x\: i — 1
s2
=
(2.2d)
(2.2e)
η-2\_ an J
Ssh—
η}
Ld-«)"]-1
=
kürzeste Hälfte:
(2.2b)
Σ *0,
i=
l,...,D, i=l
2.2 Spaltenorientierte Aspekte
35
Dass sich die Werte eines Beobachtungsvektors zu eins addieren, hat als Konsequenz, dass nicht mehr beliebige D-dimensionale Punkte betrachtet werden, sondern nur noch Punkte, die auf einem Simplex liegen. Dies führt zu speziellen Darstellungen und Methoden. Hierzu sei auf Aitchison (1986) verwiesen.
2.2
Spaltenorientierte Aspekte
Darstellung mittels Vektoren Die Darstellung der Datenmatrix mittels ρ Vektoren im rc-dimensionalen Objektraum kann die geometrischen Eigenschaften der Vektoren ausnutzen. Diese werden in Kapitel 20 dargestellt. Ein Vektor entspricht in diesem Fall den η Beobachtungen einer Variablen. Diese Darstellungsform erlaubt Einblicke in Strukturen und Zusammenhänge. Darüber lässt sich beispielsweise der Zusammenhang von Variablen über den Winkel zwischen Vektoren veranschaulichen. Auch andere der im ersten Abschnitt vorgestellten Konzepte erhalten mit dieser Darstellungsweise eine geometrische Interpretation. Die Zentrierung eines Datenvektors χ lässt sich schreiben gemäß e = x;· — Jcl; dabei ist 1 der Einservektor, 1 = (1 1)'. Die Länge des Differenzenvektors e ist bis auf den Faktor 1/Vn — 1 gleich der Standardabweichung des Ausgangsvektors:
e = Sofern zwei Vektoren χ und y zentriert sind, entspricht der Kosinus des Winkels zwischen χ und y dem Korrelationskoeffizienten:
cos φ ••
x'y
•llyll η
Σi=i iyj x
— Τχγ· Wie in der nebenstehenden Grafik angedeutet ist, steht der Vektor e = χ—χ 1 senkrecht auf dem Vektor 1; damit ist xl die Projektion von x,· auf 1. Dies ist leicht zu sehen; dazu ist es nur nötig, die Konstante c zu bestimmen, so dass der Vektor x - c l und 1 zueinander senkrecht stehen: (x— c l ) ' l = — c) = 0.
X ^
1
e χ l
Dies ist gerade für c = Je erfüllt. Zum einen steht also der zentrierte Vektor χ — χ 1 senkrecht
2 Kontinuierliche Variablen
36 auf dem Vektor 1. Zum anderen ist die Länge der Projektion •Jn
Verallgemeinerte Varianz Für multivariate Datensätze stellt sich die Frage, ob man ähnlich der Varianz im eindimensionalen Fall ein Maß für die Streuung des gesamten Datensatzes angeben kann. Wie sich oben ergeben hat, lässt sich die empirische Varianz einer univariaten statistischen Variablen X schreiben als: ;=i dabei ist e = χ - χ 1, wenn χ der zur Variablen X gehörige Spaltenvektor im n-dimensionalen Objektraum ist. Die Varianz ist proportional zur Länge des zum zentrierten Datensatz gehörigen Vektors. Hat man zwei Variablen X\ und X2, so kann man den (zentrierten) Datensatz wiederum durch zwei Vektoren ei und e 2 darstellen. Eine naheliegende Verallgemeinerung der Varianz ist dann einfach (bis auf einen Faktor) die Summe der Länge der Vektoren. Dies führt zu der Spur der Kovarianzmatrix, vgl. Kapitel 21: ρ
spurCS,) = ^ s,·,·. 1=1
(2.17)
Bei dieser Totalvariation wird die Kovarianz nicht berücksichtigt. Diese ist mit der Korrelation verbunden und also mit dem Kosinus des von den beiden Vektoren eingeschlossenen Winkels.
Die Grafik legt nahe, in Analogie zur Länge im eindimensionalen Fall eine verallgemeinerte Stichprobenvarianz von der Fläche des von den Vektoren ei und e 2 , e, = χ, — χ,Ι, aufgespannten Parallelogramms abhängig zu machen. Nun gilt: Flächeninhalt = I LEI 11 • Ita1 1 Λ / i -
COS 2
φ = \ / ( n - L ) s i i · \f{n-l)s22
und S11S22U - ri2) = S11S22 - S212 = det (
2 ) .
·
rf2
37
2.3 Literatur und Software
Daher ist also Fläche2 = (η — l) 2 det(S), wobei S die empirische Kovarianzmatrix bezeichnet. Allgemein gilt ("Volumen des von xi,... ,x p aufgespannten Kubus")2 = {n — l) p det(S), so dass folgende Definition sinnvoll erscheint: Verallgemeinerte empirische Varianz = det(S).
(2.18)
Trotz der angenehmen geometrischen Interpretationsmöglichkeiten, siehe auch den Abschnitt 4.1, hat es doch Nachteile, die Informationen aus der empirischen Kovarianzmatrix in einer einzigen Maßzahl zusammenzufassen, wie dies durch die verallgemeinerte Stichprobenvarianz geschieht. Die verallgemeinerte Stichprobenvarianz kann unterschiedliche Korrelationsstrukturen nicht offen legen. Es ist deshalb oft wünschenswert, mehr als nur eine Zahl, welche den Informationsgehalt von S zusammenfasst, zur Verfügung zu haben. Beispiel 2.2.1
Kovarianzmatrizen
mit gleicher verallgemeinerte empirischer
Varianz
Es werden drei Kovarianzmatrizen betrachtet:
-Ο4.), -(.ίΐ)· -(«)· Obwohl sich für alle drei unterschiedliche Korrelationskoeffizienten ergeben, r\ = 0.8, r2 = - 0 . 8 und r3 = -0.0, ist det(S) = 9 in allen Fällen identisch.
2.3
Literatur und Software
Weitere Aspekte Der kritische Punkt bei der Kerndichteschätzung ist die Wahl der Bandbreite h. Hier gibt Silverman (1986, S.43ff) eine gute Diskussion.
Literaturhinweise Ein umfassender Text zur multivariaten Dichteschätzung ist Scott (1992). Kockelkorn (2000) enthält eine gute Darstellung der geometrischen Aspekte multivariater Daten. Diesbezüglich sei auch auf Johnson & Wichern (2002) hingewiesen.
Software Die Berechnung der klassischen Größen wie Mittelwerte, Varianzen, Kovarianzmatrizen sind in allen Auswertungspaketen enthalten. SAS bietet bei der Prozedur UNIVARIATE etliche robuste Maßzahlen. R verfügt in den verschiedenen Paketen ein weites Spektrum an robusten Maßzahlen.
38
2 Kontinuierliche Variablen
In dem R-Paket MASS und einigen anderen Paketen, wie etwa r o b u s t , sind robuste Maßzahlen implementiert. In R gibt es auch für die Chernoff-Gesichter eine Routine, siehe Wolf (2004).
Literaturverzeichnis Aitchison, J. (1986): The Statistical Analysis of Compositional Data, London: Chapman & Hall. Andrews, D.F. (1973): Plots of high dimensional data. Biometrics, 28,125-136. Chernoff, Η. (1973): The use of faces to represent statistical assoziation, J. Am. Stat. Assoc., 68, 361-368. Daniel, C. and Wood, F.S. (1971): Fitting Equations toData; New York: Wiley. Devlin, S.J., Gnanadesikan, R. and Kettenring, J.R. (1981): Robust estimation of dispersion matrices and principial components; J. Am. Stat. Assoc., 76,354-362. Fahrmeir, L., Hamerle, A. und G. Tutz, G. (1996): Multivariate statistische Verfahren, 2. Auflage, Walter de Gruyter, Berlin. Gnanadesikan, R. and Kettenring, J.R. (1972): Robust estimates, residuals, and outlier detection with multiresponse data; Biometrics 28,81-124. Johnson, R.A. and Wichern, D.W. (2002): Applied Multivariate Statistical Analysis 5th ed.-, Englewood Cliffs: Prentice-Hall. King, G., Honaker, J. Joseph, Α., and Scheve, K. (1998): Listwise deletion is evil: What do do about missing data in political science·, Paper prepared for presentation at the annual meetings of the American Political Science Association, Boston. Kockelkorn, U. (2000): Lineare Statistische Methoden; München: Oldenbourg. Lawther, A. and Griffin, M. J. (1986): The motion of a ship at sea and the consequent motion sickness amongst passengers; Ergonomics, 29,535-552. Mendenhall, W. and Sincich, T. (1992): Statistics for Engineering and the Sciences (3rd ed.); New York: Dellen Publishing. Milasevic, P. and Ducharme, G. R. (1987): Uniqueness of the spatial median; Annals of Statistics, 15 1332-1333. Scott, D.W. (1992): Multivariate Density Estimation. New York: Wiley. Silverman, B.W. (1984): Density Estimation for Statistics and Data Analysis, Chapman and Hall, London. Wolf, H. P. (2004): Chernoff Faces and Spline Interpolation. URL http://www.wiwi.uni-bielefeld.de/~wolf/Homepage.html.
3
Kategoriale Variablen
3.1
Erhebungsaspekte
In den Sozialwissenschaften werden Daten vielfach über spezielle Formen von Befragungen erhoben. Hierzu gehören die Ratingverfahren mit ihren Sonderformen; auch Rangordnungverfahren sind üblich.
Ratingverfahren Bei Ratingverfahren haben die zu befragenden Personen Einschätzungen oder Urteile anhand vorgegebener Skalen abzugeben. Hier gibt es zahlreiche Varianten, die Skala zu gestalten. Üblich sind Bereiche von 1 bis 5 oder 0 bis 9. Auch eine Einteilung von -2 bis 2 kann verwendet werden, insbesondere wenn eine Zustimmung/Ablehnung erfragt wird. Die so erhobenen Variablen sind offensichtlich ordinal skaliert. -2 -1 stimme über- stimme haupt nicht zu nicht zu
•
Beispiel 3.1.1
Beurteilung einer
•
0 unentschieden
•
1 stimme zu
•
2 stimme voll zu
•
Lehrveranstaltung
Zur Evaluation eines Grundkurses in Statistik wurde den Studierenden gegen Ende ein Fragebogen vorgelegt. Die ersten 11 Fragen waren jeweils auf einer 5er Skala mit .trifft vollkommen zu' bis .trifft überhaupt nicht zu' im Sinne von Schulnoten zu bewerten, vgl. die Abbildung 3.1.
Rangordnungsverfahren Bei Rangordnungsverfahren haben die Probanden vorzulegende Objekte nach einem bestimmten Kriterium in eine Rangfolge zu bringen. Resultat ist immer eine Anordnung der Form Objekt ,A dominiert Objekt B' (oder umgekehrt). Bei dieser Erhebungstechnik wird eine Abhängigkeit der Daten induziert. Anstatt einer Versuchsperson alle Objekte vorzulegen und in eine Rangfolge bringen zu lassen, kann man sie auch bitten je zwei Objekte zu vergleichen. Hier wächst die Anzahl der anzustellenden Vergleiche schnell mit der Anzahl der Objekte: Bei η Objekten oder Stimuli sind es n(n —1)/2 Paarvergleiche.
3 Kategoriale Variablen
40
1 Der Dozent hat die Studierenden durch interessante Stoffvermittlung • motiviert. Die Veranstaltung war gut strukturiert und klar gegliedert. • Medien (z.B. Tafel, Folien, Beamer) wurden sinnvoll eingesetzt. • Der Dozent regte zum eigenständigen Denken bzw. Selbststudium an. • Der Dozent ging auf Zwischenfragen ein und war diskussionsbereit. • Der Dozent konnte auch schwierige Sachverhalte verständlich darstel- • len. Der Dozent gab anschauliche, aktuelle und praxisnahe Beispiele. • Der Dozent war auch außerhalb der Veranstaltung ansprechbar. • Der Zeitplan der Lehrveranstaltung wurde eingehalten. • Der Dozent stellte gutes Begleitmaterial zur Verfügung. • Der Bezug zu anderen Fachgebieten war erkennbar. • Die Lehrveranstaltung war insgesamt ,sehr gut'... .nicht ausreichend'. •
2
3
4
5
• • • • • • • • •
• • • • •
• • • • •
• • • • •
• • • • • •
• • • • • •
• • • • • •
• • • • • •
Abb. 3.1: Fragebogen zur Beurteilung einer Lehrveranstaltung
3.2
Univariate Randverteilungen
Bei nominal skalierten Variablen sind die Randverteilungen einfach diskrete Häufigkeitsverteilungen. Mit den Realisationsmöglichkeiten ι = 1 1 der diskreten Variablen sind die absoluten und relativen Häufigkeiten bei beobachteten Wertenxi,...,x n für i — 1 ,.,.,η gegeben durch ni = \{Xj\Xi = i, j— l,...,n}\
und
«/ hi — — . η
Grafisch können diese Randverteilungen in Form von Blockdiagrammen dargestellt werden. Eine eigentliche Lagemaßzahl steht für nominal skalierte Variablen nicht zur Verfügung. Bisweilen braucht man einen Repräsentanten für eine solche Variable. Dann wird meist die Realisation mit der größten Häufigkeit verwendet, die modale Kategorie. Natürlich gibt es Schwierigkeiten, wenn diese Realisation nicht eindeutig ist. Beispiel 3.2.1
Teilzeitstudium
Im Rahmen einer Untersuchung zum,Teilzeitstudium' in Deutschland wurden 6705 Fragebögen verschickt, 3600 kamen ausgefüllt zurück, siehe Berning, Schindler, und Kunkel (1996). Es wurde auch nach den Auswirkungen der Tätigkeiten und Verpflichtungen neben dem Studium gefragt. Die Verteilung ist in der Abbildung 3.2 als Blockdiagramm dargestellt. Hier ist die Gruppe derjenigen, die ,kaum Auswirkungen' verspüren, mit 40% aller Befragten am stärksten. Dementsprechend würde diese Gruppe als Repräsentant dienen, sollte nur eine Gruppe als »Durchschnitt' verwendet werden. Mit Streuung verbindet man bei kategorialen Variablen auch die Ungewissheit, mit der eine Beobachtung zu einer Kategorie gehören mag. Hat eine Kategorie eine sehr große relative
41
3.2 Univariate Randverteilungen Anteile in 10
I
20
I
I
30 L_
I
40
I
keine Tätigkeiten neben dem Studium keine Auswirkungen kaum Auswirkungen starke Auswirkungen
Abb. 3.2: Auswirkungen der Tätigkeiten und Verpflichungen neben dem Studium
Häufigkeit, so ist es recht sicher, dass eine beliebige der Beobachtungen ebenfalls dazu gehört. Am unsichersten wird man bez. einer Zuordnung sein, wenn alle Kategorien mit gleicher Häufigkeit aufgetreten sind. Als Streuungsmaß für eine nominal skalierte Variable X mit den Realisationsmöglichkeiten X\,.,.,χι dient häufig die Entropie ι Hx = - ^ h , l o g 2 ( h , · ) ;
(3.1)
1= 1
dabei sind die hi die relativen Häufigkeiten der x, ; log2 ist der Logarithmus zur Basis 2. Die Relation des Logarithmus zur Basis Zwei zum natürlichen Logarithmus ist gegeben durch log 2 (a) = ln(a)/ln(2). Somit gilt auch Hx = - ]T' = 1 fc, ln(fc,)/ln(2). Hx misst die relative Größe der Häufigkeiten zueinander, d. h. es nimmt große Werte an, wenn die Streuung (oder Ungewissheit) groß ist und kleine Werte, wenn die Streuung (oder Ungewissheit) klein ist. Dass die Entropie als Streuungsmaß für nominale Variablen geeignet ist, zeigen weiter folgende Eigenschaften: 0 < H X < log 2 (/). Hx = 0 falls hi = 1 für ein i und hj = 0 sonst. Hx = log 2 (/) falls hi = 1/7 für alle i = 1,..., I. Weil die Obergrenze der Entropie von der Anzahl der Realisationsmöglichkeiten abhängt, ist es oft zweckmäßig, die Entropie zu normieren. Man erhält das Entropiemaß: Hx = log2 (/)
Beispiel 3.2.2
(3 2)
·
Teilzeitstudium - Fortsetzung von Seite 40
In der im letzten Beispiel angeführten Untersuchung zur Auswirkung der Tätigkeiten neben dem Studium wurden die Ergebnisse auch nach Studententypen aufgegliedert, d.h.
42
3 Kategoriale Variablen ob die Studierenden sich als Vollzeit-, Teilzeit- oder als Nebenherstudenten bezeichneten. Werden diese Gruppen getrennt betrachtet, so ergibt sich die folgende Übersicht über die Verteilungen in den Gruppen und die zugehörigen Werte des Entropie-Maßes RxStudententyp Auswirkungen Vollzeit Teilzeit Nebenher Gesamt keine Tätigkeit nebenher 0.34 0.01 0.02 0.23 keine Auswirkungen 0.16 0.03 0.12 0.06 0.43 kaum Auswirkungen 0.35 0.17 0.40 0.07 0.61 0.25 starke Auswirkungen 0.75 Entropie-Maß Rx 0.87 0.59 0.94 0.55 Der Vergleich der Werte von Rx für die verschiedenen Gruppen zeigt, dass die geringste Streuung bei den Nebenherstudenten zu beobachten ist. Hier ist die Konzentration auf die Kategorie .starke Auswirkungen' mit 75% ja auch recht groß. In der letzten Spalte ist die Verteilung der Gesamtheit angegeben. Sie weist die größte Streuung auf, sie ist am nächsten an der Gleichverteilung.
Ein anderes Streuungsmaß haben Vogel & Kiesl (2000) vorgeschlagen. Sie messen den Abstand jeweils von den beiden extremen Verteilungen - der Gleichverteilung und der Einpunktverteilung - und fügen diese Abstände zu einer Maßzahl zusammen. Dabei wird die Ein-Punkt-Verteilung h* mit h*a = 1 und h* = 0 für i — i0 zum Vergleich herangezogen, bei der die relative Häufigkeit der Variablen X exakt an der Stelle am größten ist, > hi, ζ ^ i0: ft-
,
Σ ί
· " " ^
; Ι
.
(3.3,
Die Interpretation von Ρχ hängt mit der Anzahl der Beobachtungen zusammen, die zu verändern wären, um eine Gleichverteilung der relativen Häufigkeiten zu erhalten. Die Tatsache, dass 0 < Ρχ < 1 mit Ρχ = 0 für eine empirische Einpunkt-Verteilung (Streuung minimal) und Ρχ = 1 für eine empirische Gleichverteilung (Streuung maximal), zeigt jedenfalls, dass es ein vernünftiges Streuungsmaß ist.
Beispiel 3.2.3
Teilzeitstudium - Fortsetzung von Seite 40
Das Maß P x gibt für die Daten des letzten Beispiels qualitativ gesehen das gleiche Bild wie das Entropie-Maß: Studententyp Vollzeit Teilzeit Nebenher Gesamt Positions-Maß Px 0.68 0.46 0.33 0.80
Ordinal skalierte kategoriale Variablen werden i.d.R. genauso aufbereitet wie nominal skalierte. Als Maßzahl der Lage kann allerdings auch der Median herangezogen werden. Spezielle Streuungsmaßzahlen für ordinal skalierte Variablen gibt es nicht.
43
3.3 Bivariate Verteilungen
3.3
Bivariate Verteilungen
Das Auszählen der Häufigkeiten der in einer Datenmatrix vorliegenden Realisationen zweier kategorialer Variablen führt auf die /*/-Felder-Tafel oder Kontingenztafel νon absoluten Häufigkeiten: F 1 2 ... J Ε X 1 nu nl2 ... nu nu 2 η2ί η22 ... n2J n2. I Σ
njι n,2 ... nu η.ι η.2 ... η.,
nIt η~
Die «,·. und n.j sind die univariaten Randverteilungen der Variablen X und F: ii. = "iH
1-n iJt
n.j = nlj-1
Ι-η/;·.
Eine einfache Möglichkeit, derartige Kontingenztafeln zu veranschaulichen, bieten MosaikDisplays. Hier werden die Häufigkeiten durch Flächen dargestellt. In Verallgemeinerung der Blockdiagramme für univariate Daten bekommen Breite und Länge eine mit den beiden Variablen zusammenhängende Bedeutung.
Beispiel 3.3.1
Teilzeitstudium - Fortsetzung von Seite 40
In der bereits angesprochenen Untersuchung zum Studierverhalten wurden die Studierenden auch befragt, wie zufrieden sie mit ihrer finanziellen Situation seien. Die Antwortalternativen waren: F : 1 = gut, 2 = einigermaßen, 3 = eingeschränkt, 4 = knapp, 5 = kaum. Der Zusammenhang mit der Studierweise ergibt bei 2118 auswertbaren Antworten die folgende Kontingenztafel: Studiertyp voll teilzeit nebenher Summe
F gut einigerm eingeschr knapp kaum Summe 404 609 92 12 35 1152 311 278 106 82 49 826 75 37 11 13 4 140 995 719 209 107 88 2118
Diese Kontingenztafel führt zu dem Mosaik-Display 3.3, an dem speziell das große Gewicht der gut zurechtkommenden, sich ganz dem Studium widmenden Studierenden zu erkennen ist. Die bivariaten relativen Häufigkeiten h t j resultieren daraus, dass alle durch den Stichprobenumfang η dividiert werden. Wichtiger als diese unbedingten relativen Häufigkeiten
44
3 Kategoriale Variablen
eingeschr knapp kaum
Zufriedenheit
Abb. 3.3: Mosaik-Display für Zufriedenheit von Studierenden verschiedenen Studiertyps
sind i.d.R. die bedingten relativen Häufigkeiten. Sie dienen zum Vergleich der durch die Werte der einen Variablen festgelegten Gruppen. So sind die bedingten relativen Häufigkeiten von Y bei gegebenem Wert von X: Äy=yur=i = — η (·
(» = 1
i;j
= i
/)·
Für h Y= i\x = i wird auch einfach hj\ x= j geschrieben. Analog sind die bedingten relativen Häufigkeiten von X bei gegebenem Wert von Y durch hi\ Y= j = hx = i\ Y= j = mj/n.j definiert. Beispiel 3.3.2
Teilzeitstudium - Fortsetzung von Seite 40
Die im Beispiel 3.2.2 angegebenen Verteilungen für die einzelnen Studierendengruppen sind gerade die bedingten Verteilungen der Variablen Auswirkungen' bei gegebenen Werten der Variablen .Studierendentyp'.
3.3.1
Vergleich von Anteilen
Es werden zuerst zwei Variablen X und Y mit nur jeweils zwei möglichen Ausprägungen betrachtet; solche Variablen werden binär genannt. Die Realisationsmöglichkeiten seien einfach die Werte 1,2. (Oft werden die Werte binärer Variablen mit 0 und 1 kodiert.) Die zugehörige bivariate Verteilung ergibt sich dann als 2 χ 2 Kontingenztafel. Ein wichtiges Ziel ist der Vergleich der bez. der beiden Werte von X festgelegten Gruppen. Speziell gilt hier hi\X=i + h2\x=i — 1 für i = 1,2. Die Messung des Unterschiedes kann auf verschiedene Weise vorgenommen werden. Drei Maßzahlen sind gebräuchlich: Risikodifferenz:
RD = hi\x=i — hnx=2,
Relatives Risiko:
RR =
>
η \\χ=2
(3.4) (3.5)
45
3.3 Bivariate Verteilungen
Odds-Ratio:
(3 6)
«lpr=2"2|X=l
Die Odds-Ratio basiert dabei auf den Wettquotienten, den Odds. Dies ist das Verhältnis der günstigen zu den ungünstigen Fällen. So ist die Chance für eine 6 beim Würfeln gleich 1/6. Die Odds entsprechen dem Verhältnis der Wetteinsätze, also 1:5. Die Odds-Ratio misst dann das Chancenverhältnis in den beiden Gruppen. In der Epidemiologie, wo diese Maße intensiv verwendet werden, ist i.d.R. die Kategorie mit der kleineren Häufigkeit von Interesse. Diese gehört i.d.R. zu einer Gruppe, die einer Krankheit oder einem anderen Unbill ausgesetzt ist. Das erklärt die Verwendung des Begriffs .Risiko'. Die bedingten Verteilungen von Y sind genau dann gleich, wenn RD = 0 bzw. RR = 1 oder xp = \. Beispiel 3.3.3
Therapieerfolg
In der Tabelle sind drei Situationen angegeben, bei denen der Therapie-Erfolg in Abhängigkeit von der Form einer Behandlung angegeben ist. (a) (b) (c) Sterbe- Überlebens- Sterbe- Überlebens- Sterbe- Überlebensrate rate rate rate rate rate 0.94 Kontrolle 0.06 0.55 0.45 0.60 0.40 Behandlung 0.01 0.99 0.50 0.90 0.50 0.10 RD RR ψ
0.06-0.01 =0.05 0.06 ÖÖ1 ~ 0.06 0.99 0.94 0.01
6.0 = 6.32
0.55-0.50 =0.05 0.55 Ö5Ö_ 0.55-0.50 0.45 0.50
1.1 = 1.22
0.60-0.10 =0.50 0.60 ÖIÖ" 0.60 0.90 0.40 0.10
6.0 = 13.5
Man sieht, dass ganz unterschiedliche Situationen bei der Risikodifferenz zu gleichen Werten führen können. Auch das relative Risiko hängt an der Konvention, dass die Kategorie mit den kleinen Häufigkeiten betrachtet wird. Nur die Odds-Ratio ergibt als Maßzahl gleichermaßen plausible Werte. Beispiel 3.3.4
Verlust von Briefen
Über lange Zeit hatte die Deutsche Bundespost sich gerühmt, dass nur Promilleanteile der Briefe verloren gingen. Dies scheint vorbei zu sein. Anfang der 2000er Jahre berichtete die Tageszeitung ,Die Welt' am 21.12.04 von einem Experiment mit Geldscheinen in Briefen. Bei dem Test verschickte die Redaktion einer Fernsehsendung zunächst Briefe mit standardisierten Adressaufklebern und legte jeweils einen 20-Euro-Schein in eine blickdichte Glückwunschkarte. Dabei kamen von 100 Briefen 4 nicht an. Im Anschluss
46
3 Kategoriale Variablen wurde das Geld in individuell gestalteten Briefen geschickt, teilweise schimmerten die Banknoten auch durch den Umschlag. Nun erreichten 11 von 96 Briefen nicht die Adressaten. Dies ist in der folgenden 2 χ 2-Tafel zusammengefasst: nicht anangBriefart gekommen gekommen n,. nicht blickdicht Π 85 96 blickdicht 4 96 100 n.j 15 181 196 Die Risikodifferenz beträgt: hm - h n 21 = 1
11
4
96
100
= 0.0746.
Die Differenz zeigt eine ca. 7.5 prozentige Erhöhung des Risikos bei nicht blickdichten gegenüber den blickdichten Briefen. Abgesehen davon, dass es schon bei blickdichten ein nicht akzeptabler Anteil ist, bedeutet dies eine beträchtliche Erhöhung.
3.3.2
Assoziationsmaße
Nur die Situation eines gänzlich fehlenden Zusammenhanges ist bei nominalen Variablen eindeutig zu konstatieren. Sie liegt vor, wenn alle bedingten Verteilungen hy=j\x = i gleich sind: hY=j\x=i = h.j (i = 1 1-,j = 1,..., /). Eine Richtung der Abhängigkeit, wie sie die Korrelation bei stetigen Variablen als Grad des linearen Zusammenhanges misst, gibt es bei nominalen Variablen nicht. Hier spricht man von Assoziation oder Kontingenz; die beiden Begriffe werden als äquivalent verwendet. Damit wird jede Form des Zusammenhanges kategorialer Variablen bezeichnet. Assoziationsmaße sind dann Kennwerte, die der zusammenfassenden Beschreibung der Beziehung zwischen Variablen dienen. Naheliegende Anforderungen an Maßzahlen der Assoziation sind dabei: 1. Der Wertebereich reicht von 0 (keine Assoziation) bis 1 (perfekte Assoziation). Falls die Richtung relevant ist, sollten die Werte bei -1 und 1 liegen. 2. Sie sollen klar interpretierbar sein. 3. Sie sollen mit dem Grad der Assoziation variieren. 4. Sie sollen invariant bzgl. der absoluten Anzahl der Beobachtungen sein. 5. Sie sollen möglichst invariant gegen unterschiedliche Anzahl von Kategorien sein. Es gibt zwei Konzepte zur Messung der Assoziation. Maßzahlen des Typs I erfassen die Abweichung von der Situation eines vollständig fehlenden Zusammenhanges. Maßzahlen des Typs II bauen auf der Vorhersagbarkeit der einen Variablen auf der Basis der anderen auf.
47
3.3 Bivariate Verteilungen
Maßzahlen des Typs I Betrachtet werden I Gesamtheiten, die durch X = i, i = 1,..., I, charakterisiert sind. In den Gesamtheiten werden jeweils Stichproben vom Umfang η,·. erhoben. Dann hat die Variable Y in allen Gesamtheiten die gleichen empirischen Verteilungen, wenn hY=j\x=i = h.j
(j = 1,..., / , i = 1,...,
/).
Das ist gerade erfüllt, wenn — hi,h.j = 0. Dabei ist ht. = rii./n der Anteil, den die ite Stichprobe am Gesamtumfang aller Stichproben hat. Somit misst der Phi-Koeffizient I Φ=
\
J
ι
(u
,=1 j=\
, \2
(37)
n'ini'
die Gleichheit der Verteilungen in den Zeilen der Kontingenztafel. Analoge Überlegungen zeigen, dass dies ebenso gilt, wenn man sich die Spalten als Gesamtheiten gegeben denkt. Φ2 ist stets > 0; Φ2 = 0 gilt genau dann, wenn alle bedingten Häufigkeitsverteilungen von Y bei gegebenen Werten von X = 1 bis X = / gleich sind. Für 2 χ 2-Felder Tafeln mit 0-1Variablen ist Φ2 gleich dem quadrierten Korrelationskoeffizienten. Für 0-1-Variablen ist Φ2 gleich dem quadrierten Korrelationskoeffizienten: λΐι.
ηii ϊχγ =
xy—xy
Diese Interpretation ist für größere Tafeln allerdings nicht mehr richtig. Die obere Grenze von Φ beträgt ^/minj/-1, / - 1{. Damit verfehlt Φ einen wesentlichen Punkt der Anforderungen an Maßzahlen der Assoziation. Es wurden verschiedene Vorschläge gemacht, um eine Normierung zu erreichen: Cramers Koeffizient
V oder normierter
V
Pearsons Kontingenzkoeffizient
Phi-Koeffizient:
= *'=Vmin{/-*i,/-ir
C: / Φ c=vW
(3-8b)
2
bzw. der korrigierte Pearsonsche
(3 " 8a)
Kontingenzkoeffizient Ckorr =
C
Cko ·
(3.8C)
48
3 Kategoriale Variablen
Die Korrektur beim Pearsonschen Kontingenzkoeffizient ist dadurch zu erklären, dass für quadratische 7x/-Tafeln generell C < Cmax = \J~γ~
g^t. So ist etwa im Fall einer 2 x 2 -
Kontingenztafel mit Eintragungen nur auf einer Diagonalen Φ gleich 1; folglich gilt C = 7 1 / ( 1 + 1) = 0.707. Zusammenfassend lässt sich von den auf Φ beruhenden Assoziationsmaßen sagen, dass sie im Fall eines fehlenden Zusammenhanges den Wert Null haben und dass sie vor allem für nominale Variablen berechenbare Kennwerte sind. Beispiel 3.3.5
Teilzeitstudium - Fortsetzung von Seite 40
In der im Beispiel 3.2.1 bereits angesprochenen Erhebung zum Teilzeitstudium wird auch angegeben, wie zufrieden die Studierenden mit ihrer wirtschaftlichen Lage waren. In der Tabelle sind die bedingten Verteilungen der Spalten angegeben sowie die Anzahl der Antworten pro Gruppe. Studentengruppe Vollzeit Teilzeit Nebenher komme gut zurecht 0.529 0.377 0.536 komme einigermaßen zurecht 0.350 0.337 0.264 komme unter Einschränkungen zurecht 0.080 0.128 0.079 bin sehr knapp; muss Studium schleifen lassen 0.010 0.099 0.093 muss Schulden machen, um Studium zu finanzieren 0.030 0.059 0.029 Anzahl der Antworten 1154 826 140 Mit der letzten Zeile kann die Ausgangstafel wieder hergestellt werden. Damit erhält man die Maßzahlen: Φ = 0.247,
V = Φ' = 0.175,
C = 0.240.
Der Zusammenhang zwischen der Selbsteinschätzung bez. der Intensität des Studiums und der Zufriedenheit mit der finanziellen Lage erscheint nicht sehr groß. Andererseits ist die Anzahl derer, die auf die Befragung geantwortet haben, doch recht groß. Somit bleibt die bei einer reinen Deskription unvermeidbare Unsicherheit bez. der Bewertung eines zusammenfassenden Ergebnisses.
Maßzahlen des Typs II Um die Vorhersagbarkeit der einen Variablen auf der Basis der anderen zu beurteilen, wird zuerst die Vorhersagbarkeit der Variablen aufgrund ihrer Randverteilung beurteilt. Die beste Vorhersage ist dann sicher die modale Kategorie, die Kategorie mit der größten Häufigkeit. Gehört die Beobachtung aber zu einer anderen Kategorie, so macht man einen Fehler bei der Vorhersage. Etwas günstiger ist es, wenn man die bedingten Verteilungen kennt; dann wird man die modale Kategorie der jeweiligen bedingten Verteilung verwenden. Allerdings führt auch hier jede andere Kategorie zu einem Vorhersagefehler; es ist aber einsichtig, dass die Chance für eine richtige Vorhersage besser ist.
49
3.3 Bivariate Verteilungen Definition 3.3.6
Maße der proportionalen Fehlerreduktion
Als Maße der proportionalen Fehlerreduktion (PRE-Maße) werden drei gemäß Anzahl Fehler bei Randverteilung - Anzahl Fehler bei jew. bedingter Verteilung Anzahl Fehler bei Randverteilung gebildete Maßzahlen bezeichnet: • λΓ: Die Zeilen (row)-Variable ist abhängig; • Xc: Die Spalten (column)-Variable ist abhängig, • Xs\ Aus Zeilen und Spalten gebildetes symmetrisches Maß.
Sei zur formelmäßigen Angabe von A r die Anzahl der Fehler bei Verwendung der Modalkategorie der Randverteilung mit E\ bezeichnet und mit E2 die Anzahl der Fehler bei Verwendung der Modalkategorie der jeweiligen bedingten Verteilungen: max « , . = « ( 1 - max hi. I, ΐ=1,...,/ V ί=1,···,ί /
Ei = n-
J
Σ
E2 = ^ 2 ( n . j - max η,·7·) - η h.j - max^ j=1 7=1 Dann ist: ρ ρ Σ ί - 1 m a x hij - max Ar = - i — ^ = Ει 1 — max hi. 1=1,...,/
hi' .
(3.9)
Analog wird λ 0 gebildet: y \ '—i. ,·_1 max τft,·,·J — ; —max h.,· '—Ί ι τ K = — ^ { 1 — max h.; i=ι / 1
(3.10)
Das symmetrische Lambda ist Anzahl der Fehler bei Verwendung von Randverteilungen — Anzahl der Fehler aller bedingter Verteilungen Anzahl der Fehler bei Verwendung von Randverteilungen formal: λ5 =
^
max h„+T' maxft.-,·- max hi. - max h.i 1 7=1,...,/ 1 i=l / 1 i=l / ;=1 / J J r —r r · 2— max hi.— max h.i ί=ι / y=i ι
(3.11)
50
3 Kategoriale Variablen
Beispiel 3.3.7
Gebrauch von Marihuana
Die folgende Kontingenztafel gibt für 445 College-Studenten der USA an, wie weit ihr Gebrauch von Marihuana reichte (nie probiert, gelegentlich, regelmäßig) und wie es diesbezüglich bei ihren Eltern aussah (kein Elternteil hat, einer hat, beide haben Marihuana probiert). (Die Daten stammen aus Youth and Society (1979).)
Student Nie Gelegentlich Regelmäßig Summe
Kein 141 54 40 235
Eltern Ein Beide 68 17 44 11 51 19 163 47
Summe 226 109 110 445
Wie gut lässt sich der Marihuana-Konsum der Studenten vorhersagen? Kennt man nur die Randverteilung, so wird man auf ,Nie' tippen; dies ist ja die modale Kategorie. In 445-226=219 Fällen würde man einen Vorhersagefehler machen. Kennt man nun noch die jeweiligen durch das Verhalten der Eltern vorgegebenen bedingten Verteilungen, so macht man in (54 + 40) + (44 + 51) + (17 +11)=217 Fällen einen Vorhersagefehler. Das Maß Är wird nun herangezogen, um zu beurteilen, wie stark die Studierenden bez. des Marihuana-Konsums von ihren Eltern beeinflusst sind. Das PRE-Maß ist λΓ =
219-217 =0.009. 219
Man erreicht eine Fehlerreduktion von knapp einem Prozent, also recht wenig. Das deutet darauf hin, dass die Frage, ob kein, ein oder beide Eltern schon Erfahrung mit Marihuana hatten, nicht bedeutsam für das Verhalten der Studierenden ist.
3.3.3
Maßzahlen für ordinale Merkmale
Auch für ordinale Merkmale sind die im letzten Abschnitt behandelten Maßzahlen verwendbar. Sie nutzen dann aber nicht alle Information; daher wurden weitere Assoziationsmaße entwickelt. Ausgegangen wird zwei Beobachtungspaaren (x^y,·,) und (x,-2,y,2) der beiden ordinal skalierten Variablen X und Y. Die Beobachtungen ein konkordantes Paar, wenn bei beiden die gleiche Ordnungsrichtung gilt, x,·, < jc,2 und j,·, < y,-2 oder x,-, > xi2 und y,·, > y i2 . Sie bilden ein diskordantes Paar, wenn xtl < xi2 und > y l2 oder Xt1 < x,2 und y,, > y,2. Seien beispielsweise bei drei Studenten die Noten in allgemeiner BWL und in Statistik gegeben: Student 0\
02 03
Note in allgem. BWL Note in Statistik X Y 2 1 3 2 1 3
51
3.3 Bivariate Verteilungen Hier sind 0\ und o2 konkordant; ο ι und o3 bilden ein diskordantes Paar.
Kendalls Tau setzt die Differenz der Anzahl Nc der konkordanten Paare und der Anzahl Nd der diskordanten Paare ins Verhältnis zu allen möglichen Paaren:
Dieses Maß wurde ursprünglich für Variablen konstruiert, die keine gleichen Werte ^Bindungen) haben. Bei kategorialen Variablen sind aber Paare, die bez. mindestens einer Kategorie gleich sind, die Regel. Es sind die folgenden Situationen zu unterscheiden:
1. 2. 3. 4. 5.
Rangordnung Bezeichnung Symbol Bzgl. X und Y gleich konkordant Nc Bzgl. X und Y unterschiedlich diskordant Nd Bzgl. X verbunden, bez. Y verschieden Tx Bzgl. X verschieden, bez. Y verbunden TY Bzgl. X und Y verbunden TXY.
Tabelle 3.1: Maßzahlen der ordinalen Assoziation
KENDALL
τα = -
KENDALL
zb =
KENDALL*'
τ,
GOODMAN und KRUSKAL γ SOMERS
Nc~Nd n{n — 1) Nc-Nd
2
y/(Nc + Nd + TX)(NC + Nd + TY) Nc-Nd 1
, f m - l
2 \ m Ng-N d Nc + Nd Nc-Nd
dXY
Nc + Nd + TY
SOMERS
dYX =
SOMERS
ds = -
Nc-Nd Nc + Nd + Tx
Nc+Nd
Nc-Nd + ^TX
+ Tr)
*) Hierbei ist η die Gesamtzahl der Untersuchungseinheiten und m das Minimum der Dimension der Ix/-Tabelle, m = m i n ) / , / } .
52
3 Kategoriale Variablen
Die verschiedenen, in der Tabelle 3.1 zusammengestellten Maßzahlen der ordinalen Assoziation haben alle denselben Zählerausdruck wie τα, nämlich Nc- Na - Diese Differenz reflektiert das numerische Übergewicht der konkordanten oder diskordanten Paare. In den unterschiedlichen Nennerausdrücken schlägt sich die unterschiedliche Behandlung der Bindungen nieder. Beispiel 3.3.8
2 χ 3 - Tafel
Die Konkordanz und Diskordanz soll anhand einer einfachen Kontingenztafel illustriert werden. Es sei Y x yi yi ys X\ a b c Χι d e f Dann sind: Paartyp konkordant diskordant nur in Υ verbunden nur in X verbunden in X und Υ verbunden
Beispiel 3.3.9
Symbol Nc Nd TY Τχ Txy
Anzahl der Paare a-(e + f ) + b-f c-{d + e) + b-d ad + be + c- f a-{b + c) + b-c + d-{e + f ) + e-f \[a{a-l) + b{b-l) + c(c-l) +d{d-l) + e{e-l) + f{f-l)}
Gebrauch von Marihuana - Fortsetzung von Seite 50
Die Kontingenztafel des Beispiels 3.3.7, deren Variablen ja als ordinal skaliert angesehen werden können, führt zu den folgenden Werten für die Maßzahlen: τa = 0.121, Tb = 0.201, zc = 0.08, γ = 0.325, dXY = 0.194, dYX = 0.209, ds = 0.201. Wie schon die PRE-Maße signalisieren die hier betrachteten Assoziatiosmaße eine eher geringe Assoziation. Auch der Rangkorrelationskoeffizient von Spearman ist als Zusammenhangsmaß für ordinale Variablen geeignet. Er ist, vgl. (2.6): rs ——ι
Σ"=ι (*(*„)-äöö)
ι—
(R{yv)-Wy))
yE"=i ( * ( * . ) ( R ( y
v
) - W ) )
(3.13) 2
Bei Bindungen, die im Zusammenhang mit kardinalen Variablen vielfach auftreten, werden mittlere Ränge vergeben.
53
3.3 Bivariate Verteilungen Beispiel 3.3.10
Gebrauch von Marihuana - Fortsetzung von Seite 50
Im bereits betrachteten Beispiel zum Gebrauch von Marihuana werden die Ausprägungen mit 1 bis 3 kodiert. Eltern Student 1 (=Kein) 2 (=Ein) 3 (=Beide) Summe 141 1 (=Nie) 68 17 226 54 44 11 109 2 (=Gelegentlich) 40 19 110 3 (=Regelmäßig) 51 235 163 47 445 Summe Die mittleren Ränge von X sind: Anzahl des Wert Vorkommens 1
226
2
109
3
110
Mittlerer Rangwert 1 226 fc=1 226 ^ 109 — ι in
227 = 113.5 2 110 = 227 + = 282 2 ' 111 (335+1) = 335 + = 390.5. ΊΓ
Somit ist R{x) =
445
(113.5 · 226 + 282 · 109 + 390.5 -110) = 223.45.
Für Y ergeben sich die mittieren Ränge 117.5, 316.5 und 421.5. Insgesamt ist rs = 0.219. Wie schon beim PRE zeigt der Rangkorrelationskoeffizient nur einen geringen monotonen Zusammenhang an. Die auf Seite 57 angesprochene Vorstellung normalverteilter Hintergrundvariablen führt zu dem polychorischen Korrelationskoeffizienten. Definiert ist der polychorische Korrelationskoeffizient als Produkt-Momenten-Korrelationskoeffizient der normalverteilten Hintergrundvariablen. Ist eine Variable metrisch und die andere ordinal, so wird man durch entsprechende Überlegungen zum polyserialen Korrelationskoeffizienten geführt. Ein einfacher Ansatz zur Bestimmung dieser beiden Koeffizienten geht von (3.17) aus und berechnet für die ordinal skalierten Variablen einfach gemäß (3.18) die .Klassenrepräsentanten' und bestimmt mit deren Hilfe den Korrelationskoeffizienten. Adäquatere Methoden werden im folgenden Kapitel vorgestellt. Beispiel 3.3.11
Politische Indikatoren
Mitarbeiter des in New York ansässigen, unabhängigen Freedom House-Instituts beurteilen auf einer subjektiven Skala Länder bez. verschiedener politischer Indikatoren. So
54
3 Kategoriale Variablen werden die .politischen Rechte' anhand einer 7 Stufen umfassenden Rating-Skala bewertet. Der Wert 1 bedeutet dabei, dass die politische Macht zentralisiert ist und die Bürger praktisch keinen Einfluss auf die politische Willensbildung haben. Der Wert 7 steht am anderen Ende für eine starke Dezentralisierung der politischen Macht und einen großen Einfluss der Bürger auf die politische Willensbildung. Die Einstufung umfasst auch die Indikatoren,Parteienwettbewerb' und »bürgerliche Freiheiten'. Erstere wird auf einer Dreier-, letztere auf einer Siebenerskala ermittelt. Für diese drei Indikatoren erhält man die folgende Matrix der über die einfache Methode der Klassenrepräsentanten bestimmten polychorischen Korrelationskoeffizienten. PW PR BF PW 1.000 0.661 0.629 PR 0.661 1.000 0.795 BF 0.629 0.795 1.000
Ignoriert man die ordinale Skala und bestimmt für die Daten einfach den Produkt-Momenten-Korrelationskoeffizienten, so ergeben sich folgende Korrelationen: Zwischen PW und PR und zwischen PW und BF sind sie mit 0.568 bzw. 0.540 etwas geringer; zwischen PR und BF ist der Wert mit 0.800 sogar etwas größer.
3.4
Höherdimensionale Kontingenztafeln
Höherdimensionale Vektoren {Xi,...,X p ) führen zu entsprechend mehr Indizes in den zugehörigen Tafeln. Beispiel 3.4.1
Verkauf von Rosen - Fortsetzung von Seite 7
Die im Beispiel 1.1.7 erwähnte, 192 Abende umfassende Datenmatrix führte zu der folgenden Kontingenztafel. Hier sind die Häufigkeiten mit fünf Indizes zu versehen: n^jt/m · Aus der Tabelle ist insbesondere zu erkennen: • Nur im Restaurant Nummer 4 wurde überwiegend gut verkauft. • In der ersten Runde erfolgte häufig ein guter Verkauf, in der zweiten hingegen vielfach ein schlechter. • Bei nassem Wetter wurden überproportional viele gute Ergebnisse erzielt. Diese und weitere Aspekte können zu einer Verbesserung der Reisegewerbstätigkeit genutzt werden. Auch wenn es für solche hochdimensionalen Tafeln keine einfachen Maßzahlen mehr gibt, ist ein Wort der Warnung vor der Vereinfachung in der Weise angebracht, sich einfach auf niedriger dimensionale Teiltafeln zu beschränken und nur marginale Tafeln unter Vernachlässigung gewisser Dimensionen zu betrachteten. Damit können entscheidende Zusammenhangsstrukturen verloren gehen. Die Notwendigkeit mehrdimensionaler Tafeln wird anhand des folgenden Beispiels deutlich, das eine Anwendung von Simpsons Paradox wiedergibt.
55
3.4 Höherdimensionale Kontingenztafeln
Tabelle 3.2: Fünfdimensionale Kontingenztabelle:Verkauf von Rosen
Verk. Res. 1 gut 2 3 4 Σ 1 schl. 2 3 4 Σ
Beispiel 3.4.2
Wetter trocken naß Tag Tag Do Fr Sa Σ Do Fr Sa Runde Runde Runde Runde Runde Runde 1 2 1 2 1 2 1 2 1 2 1 2 11 10 13 16 12 19 81 14 16 14 15 12 22 18 5 16 15 14 13 81 11 9 21 13 18 6 15 6 21 9 23 5 79 14 6 19 7 21 7 18 12 26 22 28 20 126 15 11 18 10 14 8 62 33 76 62 77 57 54 42 72 45 65 43 20 21 29 26 27 20 143 7 5 18 17 15 5 13 26 26 27 25 26 143 10 12 11 19 9 21 16 25 21 33 16 34 145 7 15 13 26 6 20 13 19 16 20 11 19 98 6 10 14 22 13 19 62 91 92 106 79 99 30 42 56 83 43 65
Σ
93 78 74 76 67 82 86 84
Simpsons Paradox
Es wird das Zusammenwirken von zwei Medikationen und dem Geschlecht auf einen Therapieerfolg betrachtet.
Geschlecht Männlich Weiblich Erfolg Mißerfolg Erfolg Mißerfolg Medikation 1 60 20 40 80 2 100 50 10 30
Bei den Männern betragen die Erfolgsquoten 0.75 (=60/(60+20)) bei der Medikation 1 bzw. 0.66 (=100/(100+50)) bei der Medikation 2. Bei den Frauen sind diese Werte 0.33 (=40/(40+80)) und 0.25 (=10/(10+30)). Somit ergibt die getrennte Betrachtung jeweils, dass die Medikation 1 besser als Medikation 2. Zusammengenommen kehrt sich das Verhältnis um. Bei Medikation 1 ist die Erfolgsquote (60+40)/(60+20+40+80) = 0.5, bei Medikation 2 beträgt sie (100+10)/(100+ 5 0 + 1 0 + 30) = 0.579. Dieser Widerspruch wird als Simpsons Paradoxon bezeichnet. Er tritt auf, wenn das Zusammenlegen von Tafeln zu unangemessenen Gewichtungen führt. Um dies hier zu bewirken, musste allerdings die Medikation einmal zu einer Erhöhung und zum anderen zu einer Verringerung der Erfolgsquote führen.
56
3 Kategoriale Variablen
3.5
Kodierung nicht metrischer Variablen
Dummy-, Effekt- und Helmert-Kodierung Bei nicht metrischen Variablen ist der Abstand bzw. sogar die Anordnung der Merkmalsausprägungen nicht sinnvoll interpretierbar. Um sie über Kontingentafelanalysen hinaus statistischer Auswertung zugänglich zu machen, sind sie geeignet zu kodieren. Das bedeutet, dass zu einer Variablen Α mit den Realisationsmöglichkeiten oder Ausprägungen 1,..., I neue Dummy-Variablen definiert werden. Es werden nur / — 1 Dummy-Variablen benötigt, um die ursprüngliche Ausprägung zu rekonstruieren. Bei der Wahl der Werte der Dummy-Variablen gibt es verschiedene Möglichkeiten. Die Dummyoder 0-1-Kodierung erklärt die Variablen gemäß f l A=i Xi = 1.
(4.5)
Neben der L2-Distanz, die gerade die euklidische ist, wird vor allem die Li-Distanz angewandt. Diese wird auch als City-Block-Metrik oder Manhattan-Abstand bezeichnet, da die Menge {x\dq{x,y) = c} für zweidimensionale Daten ein Quadrat mit dem Mittelpunkt y bildet. Wenn der Exponent der Minkowski-Metriken gegen oo geht, erhält man den TschebychevAbstand zweier Punkte x,y. Er ist die maximale Differenz der Koordinaten: d{x,y) = max I*,-y;|·
(4.6)
ί=1,...,ρ
Ein weiteres Abstandsmaß ist die Canberra-Metrik. Hier wird eine Skalierung vorgenommen, die nicht von der gesamten Spannweite der Variablen abhängt:
i=χ
4.2
x
'+yi
Ähnlichkeits- und Disparitätsmaße
An Ähnlichkeits- bzw. Disparitätsmaße werden nicht so starke formale Anforderungen gestellt wie an Distanzen. Man fordert jeweils die Symmetrie der Relation und verzichtet auf die Dreiecksungleichung, die klassische Metriken und Normen auszeichnet. Definition 4.2.1
Disparitäten und Ähnlichkeiten
Eine η χ η-Matrix D heißt Disparitätsmatrix, falls dij = dji
und
d i j > d a = 0 für alle/,;'.
Eine η χ η-Matrix C heißt Ähnlichkeitsmatrix, falls c i j = cji
und
Ca>Cij>0
für aller, j .
Metrische Variablen Ähnlichkeitsmaße vom Korrelationstyp basieren auf dem Kosinus des Winkels zwischen zwei Beobachtungsvektoren Σ ; = 1 Xjyj
^ Σ , Μ Σ Μ ' Für zentrierte Vektoren stimmt er formal mit dem Korrelationskoeffizienten überein. Es ist aber zu beachten, dass hier zwei Beobachtungsvektoren mit den zu verschiedenen Variablen gehörigen Komponenten betrachtet werden und nicht die paarweisen Beobachtungen
65
4.2 Ähnlichkeits- und Disparitätsmaße
zweier Variablen. Für eine Datenmatrix X ist XX' die η χ η -Matrix der Summen der Quadrate und Kreuzprodukte. Daher ergibt dieses Produkt die Matrix der Kosinus-Koeffizienten, wenn anstelle der Ausgangsmatrix die zeilenweise standardisierte Matrix X* verwendet wird:
(
Xl2
*11
1/2
χ21
Χ22
Χ2 ρ 1/2
T =
(Σ·=14·)1/2 Xnl
(Σ;=Ι4 Χη2
1/2
(Σ;=Ιp+\,..., U(.P)C + μ. Es sollen konkret 100 Zufallsvektoren aus einer
Abb. 5.2: Bivariate Normalverteilungsdichte
Σ)-νεΓΐεί1υ^ erzeugt werden mit
(links) und Kerndichteschätzung
(rechts)
Für die Vektoren {.χη,χίΐ) = (W(;-i) 2+i> m;-2)C + (2,5) ist in der Abbildung 5.2 eine zweidimensionale Kerndichteschätzung der theoretischen Dichtefunktion gegenübergestellt. Insgesamt muss festgestellt werden, dass bei stetigen multivariaten Daten nur die multivariate Normalverteilung eine gewisse Plausibilität aufweist. Andere multivariate Verteilungen liegen höchstens in Sonderfallen zur Modellierung von Daten nahe; vielmehr sind sie oft zur Untersuchung von Eigenschaften von Methoden von Interesse. Dementsprechend werden in den Anwendungen die Daten sehr oft zunächst so transformiert, dass ihre Randverteilungen näherungsweise einer Normalverteilung entsprechen. Dann hofft man, auch für die multivariate Verteilung eine gemeinsame Normalverteilung erhalten zu haben.
91
5.4 Verteilungsmodelle für stetige Variablen
5.4.2
Elliptisch symmetrische Verteilungen
Die Verteilung eines Zufallsvektors mit χ ~ Jip{0,σ2Ι) ändert sich nicht, wenn die Achsen rotiert werden, formal, wenn χ transformiert wird gemäß jcT mit einer orthogonalen Matrix T. Das ist leicht zu sehen, da ΣχΤ = σ2ΤΐΤ
=
σ2Ι.
(5.32)
Diese Eigenschaft ist nicht nur bei der Normalverteilung gegeben. Vielmehr hat man eine Vielzahl von Verteilungen über diese Eigenschaft eingeführt. Dazu startet man - wie bei der Normalverteilung - von einer univariaten Verteilung und stellt sicher, dass die Kovarianzstruktur der multivariaten Verallgemeinerung ebenfalls gegenüber orthogonalen Transformationen invariant ist, also die Gleichung (5.32) erfüllt.
Definition 5.4.3
sphärisch symmetrische
Verteilung
Ein p-dimensionaler Zufallsvektor χ mit der Dichte f{x) verteilt, wenn f(x)
von χ nur über xx' =
heißt sphärisch
symmetrisch
xj abhängt.
Die Definition sagt, dass die Konturlinien, die Kurven konstanter Dichte, von sphärisch symmetrisch verteilten Zufallsvektoren Kreise bzw. für ρ > 2 Kugeln oder .Sphären' sind, die ihr Zentrum im Ursprung haben.
Beispiel 5.4.4
Laplace-Verteilung
Die Laplace-Verteilung mit der univariaten Dichte f [ x ) = 0.5exp(—|jc|) ist symmetrisch um den Nullpunkt und kann als Ausgangspunk für eine multivariate Verallgemeinerung dienen. Dazu wird der Exponent |x| durch V x x ' ersetzt. Dies führt für bivariate Zufallsvektoren auf (5.33) Die so definierte Verteilung ist sphärisch, da für y = x T mit orthogonaler Transformati-
Abb. 5.3: Zwei bivariate Laplace-Dichten (links: (5.33), rechts: (5.34))
92
5 Verteilungsmodelle
onsmatrix yy' = χΊΎ'χ'
= χ χ' gilt.
Eine andere bivariate Verallgemeinerung der Laplace-Verteilung, die nicht mehr sphärisch symmetrisch ist, lautet: /(x)=Jexp[-(|xi| + |x2|)].
(5.34)
Während die beiden Komponenten eines Zufallsvektors χ mit dieser Dichte unabhängig sind, gilt dies für die erste Form nicht. Die beiden Dichten sind in der Abbildung 5.3 dargestellt. Beispiel 5.4.5
Cauchy-Verteilung
Eine sphärisch symmetrische bivariate Verallgemeinerung der Cauchy-Verteilung der symmetrischen univariaten Dichte f(x) — (π · (1 +
n
'
χ2))
1
mit
ist
2π (1 + xx')3/2 '
Auch hier sind die beiden Komponenten eines Zufallsvektors χ mit dieser Verteilung stochastisch abhängig. Wie die Abbildung 5.4 verdeutlicht, ist das Zentrum der bivariaten Cauchy-Verteilung enger als das der Normalverteilung. Dafür geht die Dichte am Rand langsamer gegen Null als die Normalverteilungsdichte.
Abb. 5.4: Die bivariate Normalverteilungsdichte
Beispiel 5.4.6
kontaminierte
(links) und die bivariate Cauchy-Dichte (rechts)
Normalverteilung
Um empirische Verteilungen mit einigen extremen Beobachtungen zu modellieren, wurde die kontaminierte Normalverteilung vorgeschlagen. Sie hat die univariate Dichte 1 0 eine geeignete Konstante ist: Ε[χ]=μ,
Var[x] = c · B'B.
Die Dichten dieser Verteilungen haben mit V = B'B die Gestalt f(x) =
/ _ 1 — h((x - μ)ν~\χ - μ)'). γ/ det(V)
(5.36)
Dabei ist hizz') eine sphärisch symmetrische Dichte. Die Matrix V ist nicht selbst die Kovarianzmatrix, entspricht dieser aber bis auf einen Proportionalitätsfaktor. Sie wird daher auch als Skalierungsmatrix bezeichnet.
Beispiel 5.4.8
sphärisch symmetrische
Laplace-Dichte
Die folgende Dichte von χ ergibt sich, wenn der Ausgangsvektor ζ die im Beispiel 5.4.4 betrachtete sphärisch symmetrische Laplace-Dichte hat und der Zusammenhang durch die Transformation χ = zB + μ.gegeben ist: fix) -
J — — exp [ - ν ^ - μ Χ Β ' Β ^ - μ ) ' " L J 2TrVdet(B'B)
94
5 Verteilungsmodelle
Beispiel 5.4.9
multivariate ?ΐ -Verteilung
Die multivariate ^-Verteilung mit Erwartungswertvektor μ, Skalierungsmatrix V und Anzahl der Freiheitsgrade Ν ist durch folgende Dichte von JC gegeben: r
/
v +
P
dabei ist Δ(JE, μ, V) = (χ - μ)Υ~ι{χ - μ)' von der Form her der quadrierte MahalanobisAbstand. (V ist allerdings nicht die Kovarianzmatrix.) Die multivariate -Verteilung bringt umso mehr extreme Werte hervor, je kleiner die Anzahl ihrer Freiheitsgrade ist. Dementsprechend wird sie oft als Alternative zur kontaminierten Normalverteilung herangezogen.
5.5
Ein Verteilungsmodell für gemischte Variablen
Vielfach erhält man bei empirischen Erhebungen Datensätze, die diskrete und stetige Variablen zugleich enthalten. Für solche Daten sind eigene Modelle notwendig, soll diese gemischte Struktur angemessen berücksichtigt werden. Allerdings wird auf solche Modelle in der statistischen Literatur selten eingegangen. Hier sei nur das allgemeine Lokalisationsmodell von Olkin und Täte (1961) angeführt, siehe auch Shafer (1997). Zur Beschreibung dieses Modells wird der Zufallsvektor JC partitioniert, x = (j,z) = {Yi,...,Yp,Zi,...,Zq). Dabei seien die Y, jeweils multinomialverteilt und ζ sei multivariat normalverteilt. Die Verbindung der diskreten mit den stetigen Variablen geschieht so, dass die bedingte Verteilung von ζ bei gegebenem y eine jeweils unterschiedliche Normalverteilung haben darf. Dazu werden die möglichen Kombinationen der diskreten Werte in einer Kontingenztafel mit D Feldern zusammengefasst. Die resultierenden Zellhäufigkeiten w = (Wi,...,WD) sind dann insgesamt multinomialverteilt mit den Wahrscheinlichkeiten πι πο· In Verallgemeinerung der Binomialverteilung kann w als Summe von Η unabhängigen Zufallsvektoren i = {II,...,ID) ~ angesehen werden, die an einer Stelle den Wert 1 und an allen anderen Stellen den Wert 0 haben. Die bedingte Verteilung von ζ bei gegebenem I d sei dann ^Κ(μ^,Σ). Für die gemeinsame Dichte einer Stichprobe vom Umfang η folgt dann, wenn Bd die Menge aller Indizes von Beobachtungen ist, deren multionomialer Teil zur Zelle d gehört:
f{w,z)ocexp
D d=1
D d=1 isBä
Die spezielle Gestalt der Dichte weist die gemeinsame Verteilung von (w,z) als Exponentialfamilie aus.
95
5.6 Weitere Aspekte und Literatur
5.6
Weitere Asp ekte und Literatur
Weitere Aspekte Simulationen werden intensiv genutzt, um statistische Verfahren zu analysieren, die einer analytischen Behandlung nicht zugängig sind. Im Rahmen multivariater Verfahren ist dabei naturgemäß die Erzeugung nicht unabhängiger multivariater Verteilungen von besonderer Bedeutung. Hier zeigt sich aber, dass dies nicht einfach ist. Einige Arbeiten dazu sind Fleishman (1978), Headrick & Sawilowsky (1999), Mattson (1997), Reinartz, Echambadi & Chin (2002) sowie Vale & Maurelli (1983). Eine Methode, multivariate Verteilungen aus univariaten Verteilungsfunktionen zu konstruieren, ist die Verwendung von Copulae. Eine Copula ist eine Funktion des k-dimensionalen Einheitswürfels [0,1] χ [0,1] χ · · · χ [0,1] in das Intervall [0,1]. Ein Beispiel ist etwa die ClaytonCopula Ce{u1,...,uk) = {u-e+---+uf-k + lT1/e. (5.38) Der Vorteil der Copulae besteht darin, dass sie die Abhängigkeitsstruktur erfassen und die (univariaten) Randverteilungen getrennt spezifizierbar sind. So kann man eine multivariate Verteilung mit der Abhängigkeitsstruktur einer multivariaten Normalverteilung konstruieren. Mit der Verteilungsfunktion Φk der k-dimensionalen Normalverteilung ist die Copula: *~kliHui)
F(uk)).
Literaturhinweise Weitergehende Informationen zu den Kovarianzen und damit zusammenhängenden Konzepten sind in den klassischen Lehrbüchern zur multivariaten Statistik zu finden; besonders erwähnt seien Anderson (1984) und Morrison (1967). Standardreferenz zu Verteilungen ist das mehrbändige Werk von Johnson & Kotz über Verteilungen in der Statistik. In der zweiten, wesenüich erweiterten Auflage kommt bei jedem Band jeweils ein weiterer Autor hinzu. Ein gut lesbarer einführender Abschnitt zu sphärisch symmetrischen und elliptischen Verteilungen ist in Flury (1997) zu finden; siehe auch Muirhead (1982). Fang & Zhang (1980) betrachten diese Verteilungen umfassend. Eine Erweiterung der elliptisch symmetrischen Verteilungen sind die schiefen elliptischen Verteilungen. Hier sei auf Azzalini (2006) sowie auf Genton (2004) verwiesen. Copulae werden bei Mari & Kotz (2001) und bei Nelsen (2006) ausführlich dargestellt.
Literaturverzeichnis Andersen, E.B. (1980): Discrete Statistical Models; Amsterdam: North Holland. Anderson, T. (1984): An Introduction to Multivariate Statistical Analysis. New York: Wiley. Azzalini, Α. (2006): Skew-normal families of distributions. Ecyclopedia of Statistical Sciences New York: Wiley (Online-Artikel.) Fang, K-T. and Zhang, Y-T. (1980): Generalized Multivariate Analysis·, Berlin: Springer.
96
5 Verteilungsmodelle
Fahrmeir, L., A. Hamerle und G. Tutz (1996): Multivariate statistische Verfahren, 2. Auflage, Walter de Gruyter, Berlin. Fleishman, A. I. (1978): A method for simulating non-normalvdistributions; Psychometrika, 43, 521-532. Fluiy, B. (1997): A First Course in Multivariate Statistics·, Berlin: Springer. Genton, M.G. (2004): Skew-Elliptical Distributions and their Applications: A Journey Beyond Normality. London: CRC Press. Headrick, T.C. and Sawilowsky, S.S. (1999): Simulating correlated multivariate nonnormal distributions: Extending the Fleishman method. Psychometrika, 64, 25-35. Johnson, N. L„ Kotz, S. and Balakrishnan, N. (1997): Discrete Multivariate Distributions; New York: Wiley. Johnson, RA. and Wichern, D.W. (2002): Applied Multivariate ANalysis, 5th ed.; Englewood Cliffs: Prentice-Hall. Kotz, S., Balakrishnan, N. and Johnson, N. L. (2000): Continuous Multivariate Distributions Vol 1: Models and Applications; New York: Wiley. Mardia, K.V. Kent, J.T. and Bibby, J.M. (1979): Multivariate Analysis, London: Academic Press. Mari, D.D. andKotz, S. (2001): Correlation and Dependence·, London: Imperial College Press. Mattson, S. (1997): How to generate non-normal data for simulation of structural equation models. Multivariate Behavioral Research, 32, 355-373. Morrison, D.F. (1967): Multivariate Statistical Methods, New York: McGrawHill. Muirhead, R.J. (19982): Aspects of Multivariate Statistical Theory; New York: Wiley. Nelsen, R. B. (2006): An introduction to copulas, 2nd. ed.; New York: Springer. Olkin, I. and Tate, R.F. (1961): Multivariate correlation models with mixed discrete and continuous variable; Annals of Mathematical Statistics; 32,448-465. Reinartz, W.J., Echambadi, R. and Chin, W.W. (2002): Generating non-normal data for simulation of structural equation models using Mattson's method. Multivariate Behavioral Research, 37, 227-244. Rencher, A.C. (1995): Methods of Multivariate Analysis; New York: Wiley. Shafer, J.L. (1997): Analysis of Incomplete Multivariate Data; London: Chapman & Hall. Vale, C.D. and Maurelli, V. (1983): Simulating multivariate nonnormal distributions. Psychometrika, 48, 465-471.
6
Inferenz für Verteilungen und ihre Parameter
6.1
Schätzen der Lage und Dispersion
Der multivariate Datensatz X wird hier als wiederholte, unabhängige Beobachtung eines Zufallsvektors χ aufgefasst. Wird dann für χ ein spezielles Verteilungsmodell unterstellt, so stellt sich das Problem der Schätzung der Parameter. Bei der multivariaten Normalverteilung und den anderen elliptischen Verteilungen sind diese Parameter speziell Lage- und Streuungsparameter der Verteilungen. Daher ist es naheliegend, die im zweiten Kapitel besprochenen empirischen Parameter, speziell χ und S, als natürliche Plug-In-Schätzer für die theoretischen Größen zu verwenden, also einfach in den Verteilungen die theoretischen Größen durch die empirischen zu ersetzen. Dies berücksichtigt nicht die spezifischen Eigenschaften der Verteilungen. Daher gibt die Maximum-Likelihood-Methode Schätzungen, die in der Regel zufriedenstellender sind als die Plug-In-Schätzer.
Maximum Likelihood Schätzer Das Likelihood-Prinzip sagt zunächst, dass alle Informationen über den unbekannten einoder mehrdimensionalen Parameter θ einer Verteilung mit der Dichte /{χ',θ) in der Likelihood-Funktion η 1{Θ·,Χ) = Υ[ΠΧΓ,Θ) (6.1) 1=1
enthalten sind. Dabei wird die Datenmatrix X mit den Zeilen x , als fest angesetzt und / als Funktion des Parameters betrachtet. Der Maximum-Likelihood-Ansatz fordert nun, für θ den Vektor von Werten als Schätzung zu wählen, der am ,plausibelsten' ist. Das ist gerade dasjenige θ, bei dem die beobachteten Daten mit der größten Wahrscheinlichkeit hervorgebracht werden, m.a.W. bei dem die Likelihood-Funktion ihr Maximum annimmt. Die Maximum-Likelihood-Schätzfunktion oder der Maximum-Likelihood-Schätzer, bzw. kurz der ML-Schätzer, ist die Stichprobenfunktion, die jeder Stichprobe den Maximum-Likelihood-Schätzwert zuordnet. Um ML-Schätzwerte numerisch zu bestimmen, wird i.d.R. zur Loglikelihood-Funktion gegangen:
über-
Κβ;30 = 1ηΖ(β;Χ3 = 1 η ( / ( χ ι ; ί ) · . . . · / ( χ „ ; β ) ) = Σΐη/ί*,;#).
(6·2)
ί=1
L nimmt wegen der Monotonie des Logarithmus sein Maximum an der gleichen Stelle an wie l. Diese Stelle wird im Fall eines eindimensionalen Parameters durch Nullsetzen der
98
6 Inferenz für Verteilungen und ihre Parameter
ersten Ableitung von L nach θ gefunden. Der ML-Schätzer θ ist dann Lösung der LikelihoodGleichung
Die Likelihood-Gleichung bildet die Basis für die Bestimmung der ML-Schätzer, auch wenn das Verschwinden der ersten Ableitungen nur eine notwendige Bedingung für Extrema von differenzierbaren Funktionen ist. Ist der Parameter θ mehrdimensional, so bleibt die Definition der ML-Schätzfunktion natürlich die gleiche. Zur Bestimmung von (θι,..., 9k) sind dann die partiellen Ableitungen der Loglikelihoodfunktion zu berechnen und das aus dem Nullsetzen resultierende System der Likelihood-Gleichungen
zu lösen. Beispiel 6.1.1
ML-Schätzer bei univariater
Seien Χγ Xn unabhängige, Die Loglikelihoodfunktion lautet L{(ß, σ 2 );χ) =
η
Normalverteilung
2
a )-verteilte Zufallsvariablen. Hier ist θ — (μ,σ 2 ).
η 1 1η(2π) - 11η(σ 2 ) - —
"
- μ)2.
i=1 Nullsetzen der partiellen Ableitungen führt zu den Likelihoodgleichungen: ΣΓ=ι(*ί-Α) = 0, α) 2 =Ο· Als ML-Schätzer ergeben sich in diesem Fall μ — X und σ 2 = ^(X,· — X)2/n. Bei der multivariaten Normalverteilung führt der Maximum-Likelihood-Ansatz wieder zum Mittelwertvektor und zur empirischen Kovarianzmatrix als Schätzfunktionen für μ, und Σ . Dies ergibt sich als Spezialfall des weiter unten stehenden Satzes 6.1.3. Nicht nur bei der Normalverteilung sind der Mittelwertvektor und die empirische Kovarianzmatrix unverfälscht und konsistent. Bei der Normalverteilung sind diese Schätzfunktionen aber auch effizient. Das bedeutet, dass es keine anderen erwartungstreuen Schätzer gibt, die einen kleineren mittleren quadratischen Fehler MSE haben. Bei einer Schätzfunktion t für einen vektoriellen Parameter θ ist der MSE die folgende Matrix: MS£(i;0) = E[(i - 0)(f - Θ)'].
99
6.1 Schätzen der Lage und Dispersion
Dieser Ausdruck kann mit der Maßzahl für die Verzerrung oder den Bias, bias( f; 0) = E[ ί ] —θ, umgeformt werden zu MSE(f; 0) = spur(Var[ f ]) + bias( t; 0)bias(f;0)'.
(6.5)
Ein großer Vorteil von ML-Schätzern 0 liegt darin, dass sie unter recht allgemeinen Bedingungen asymptotisch normalverteilt sind. Da sie konsistent sind, gilt E[0] = 0, d.h. E[0] —> 0 für η —»oo. Zudem ist Var[0]:
^m/(*;0))
(Amf[x,e)
(6.6)
wobei
Der in (6.6) rechts stehende Erwartungswert wird als Fisher-Information bezeichnet. Sie lässt sich durch das arithmetische Mittel (6.7) schätzen, wenn die Summe an der Stelle des ML-Schätzers berechnet wird. Somit ist diese theoretische Beziehung auch praktisch verwertbar. Speziell lassen sich asymptotische Konfidenzintervalle bestimmen, die es ermöglichen, die Genauigkeit der Schätzer zu beurteilen. In einfacheren Fällen kann die Fisher-Information theoretisch bestimmt werden. Dann können die Schätzwerte in den entsprechenden Ausdruck eingesetzt werden, um die Schätzung der Informationsmatrix zu erhalten. Bei der Bestimmung der Lösung von (6.4) mittels eines iterativen numerischen Verfahrens ergibt sich die Informationsmatrix als Nebenprodukt, sofern das Verfahren ableitungsbasiert ist. Beispiel 6.1.2
ML-Schätzer bei univariater Normalverteilung - Fortsetzung von Seite 98
Wenn von einer Beobachtung ausgegangen wird, gilt: δ In fix-,μ,σ2) ομ 9\η ηχ;μ,σ2) d*
1 σζ 1 =
Damit ergibt sich für (6.6) konkret:
\
2σ2
2σ4
μ>
)
+
1
6 Inferenz für Verteilungen und ihre Parameter
100
Ausmultiplizieren und Bilden des Erwartungswertes ergibt, da bei der Normalverteilung alle ungeraden Momente Null sind und E[X — μ]4 = 3σ 4 gilt:
'Λ σ
ο 1
Ν
Als asymptotische Kovarianzmatrix ergibt sich die mit 1/n multiplizierte Inverse. Das zeigt, dass asymptotisch die beiden Schätzer μ und σ 2 unabhängig sind und die Varianzen σ 2 /η und 2 σ Α / η haben. Tatsächlich gilt in diesem Fall Var[/1] = σζ/η und wegen ησ21σ2 ~ χ2_χ auch Var[ d0
1 Campbell Maronna
d 0 exp
u,(d2)/ß für d < d0
)2'
(d-d0
2ß2
für d> d0
"ι [d) = {m + p)/{m + d)
Uy{d2) "ι (d2)
Abb. 6.1: Robuste Gewichtsfunktionen Dabei sind d0, β jeweils positive Konstanten, β wird so gewählt, dass der Kovarianzschätzer im Fall der Normalverteilung konsistent ist. Das erste Paar von Gewichtsfunktionen wird als Huber-Gewichtsfunktionen bezeichnet; siehe auch Huber (1981). Die Dichte, für die dieser M-Schätzer gerade der ML-Schätzer ist, setzt
104
6 Inferenz für Verteilungen und ihre Parameter
sich aus der Normalverteilung in der Mitte und der Laplace-Verteilung an den Rändern zusammen. Der zweite Vorschlag geht auf Campbell (1980) zurück. Diese Gewichte konvergieren schneller gegen 0 als die Huber-Gewichte. Der Einfluss von krassen Ausreißern wird stärker reduziert. Bei dem dritten, von Maronna (1976) gemachten Vorschlag handelt es sich um die MLGewichtsfunktionen der m-variaten ^"-Verteilung mit ρ Freiheitsgraden. Da die ^-Verteilung mehr Wahrscheinlichkeitsmasse auf die Randbereiche des Stichprobenraums legt als die Normalverteilung, bringt sie mehr extreme Werte hervor als die Normalverteilung. Hierbei wird nicht streng zwischen,guten' Beobachtungen (d < d0) und herabzugewichtenden Ausreißern (d > d0) unterschieden. Eine der Beziehung (4.4) zwischen dem Volumen des durch die Daten bestimmten Ellipsoides und der Determinante der Stichprobenkovarianzmatrix entsprechende Relation zwischen Ellipsoid-Volumen und Determinante der Dispersionsmatrix gilt nur mehr mit einem nun unbekannten Faktor. Zudem kann das mit V bestimmte Ellipsoid eine andere Orientierung haben als das durch die Stichprobenkovarianzmatrix bestimmte. Beispiel 6.1.5
Körper- und Hirngewicht bei Säugetieren
Die folgende Tabelle präsentiert die Hirngewichte (in Gramm) und die Körpergewichte (in Kilogramm) von 28 Säugetierarten. Die Daten sind in Rousseeuw & Leroy (1987) entnommen. Hier soll betrachtet werden, ob ein größeres Hirngewicht in einer eindeutigen Tendenz mit einem größeren Körpergewicht einhergeht. Wie das Streudiagramm der logarithmierten Werte zeigt, gibt es drei nicht in der allgemeinen Tendenz liegende Punkte. Diese gehören zu Dinosauriern; sie sind durch ein hohes Körpergewicht und relativ geringes Hirngewicht charakterisiert.
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14
KörperHirngewicht gewicht Xi y> 1.350 8.1 465.000 423.0 36.330 119.5 27.660 115.0 1.040 5.5 11700.000 50.0 2547.000 4603.0 187.100 419.0 655.0 521.000 10.000 115.0 25.6 3.300 680.0 529.000 207.000 406.0 62.000 1320.0
Info) 0.3001 6.1420 3.5926 3.3199 0.0392 9.3673 7.8426 5.2316 6.2557 2.3025 1.1939 6.2709 5.3327 4.1271
lniy;) 2.0918 6.0473 4.7833 4.7449 1.7047 3.9120 8.4344 6.0378 6.4846 4.7449 3.2425 6.5220 6.0063 7.1853
i 15 16 17 18 19 20 21 22 23 24 25 26 27 28
KörperHirngewicht gewicht Xi y· 6654.000 5712.0 9400.000 70.0 179.0 6.800 35.000 56.0 1.0 0.120 0.4 0.023 12.1 2.500 55.500 175.0 157.0 100.000 52.160 440.0 87000.000 154.5 1.9 0.280 0.122 3.0 180.0 192.000
Info) 8.8029 9.1484 1.9169 3.5553 -2.1202 -3.7722 0.9162 4.0163 4.6051 3.9543 11.373 -1.2729 -2.1037 5.2574
in(y,·) 8.6503 4.2484 5.1873 4.0253 0.0000 -0.9162 2.4932 5.1647 5.0562 6.0867 5.0401 0.6418 1.0986 5.1929
6.1 Schätzen der Lage und Dispersion
105
10 -
8
-
6
-
*
*
* *
4 2
-
*
0-
*
*
*
-5
0
5
Abb. 6.2: Hirn und Körpergewicht (logarithmierte
10
Werte) o=(ln(.x),ln(y)). •=(ln(x),ln(j')),
0=0nix) ,ln(y) ),Δ=(ίι·ί 2 ) Die Ausreißer haben starke Auswirkungen auf die Schätzungen der Lage und Dispersionsmatrizen. Verschiedene Lage-Parameter sind: Körper- Hirngewicht gewicht (lnM,ln(y))
3.771
4.425
(ln(x),ln(y))
3.985
4.912
(ln(xj'My)')
3.028
4.428
(iuh)
3.585
4.615
Dabei sind (ln(x) ,ln(y) ) die arithmetischen Mittel des um die drei Beobachtungspaare Nr. 6,16 und 25 reduzierten Datensatzes. Für die zweite Koordinate liegen die arithmetischen Mittel aus dem vollen Datensatz und aus dem reduzierten recht dicht beieinander. Dies resultiert daraus, dass die drei Punkte in der Gesamtkonstellation Ausreißer sind, nicht jedoch bez. der zweiten Komponente. Anders ist dies bei der ersten Komponente. Hier liegen diese drei Punkte alle am oberen Rand der Daten. Die in der letzten Zeile angegebene M-Schätzung mit Hubers Gewichtsfunktion stellt eine Art Kompromiss zischen den beiden Mittelwerten dar. Der paarweise Median reflektiert die größere Dichte der Punkte im oberen Bereich der Verteilung. Die einfache Kovarianzmatrix und die sich aus der M-Schätzung ergebende Skalierungsmatrix sind: _ / 14.218 7.052 λ ~ / 2.570 1.851 λ x x ~ ^ 7.052 5.757 J ' \ 1.851 1.431 J ' Da die Skalierungsmatrix die richtige Interpretation als Streuungsschätzer hat, erhält man auf die übliche Weise die zugehörige Korrelationsmatrix:
6 Inferenz für Verteilungen und ihre Parameter
106
R
- ( 1 —
1
y 0.779
°·779^ 1 )·
R - ( 1 °·965^ ^0.965 1 ) '
Die resultierenden Korrelationen von 0.779 bzw. 0.965 zeigen, dass die robuste Schätzung den Einfluss der drei außerhalb der allgemeinen Tendenz liegenden Punkte wesentlich gemildert hat. Ohne sie ist ja ein linearer Zusammenhang sehr deutlich. Auch wenn die M-Schätzer resistenter sind als χ und S, können sie wenige, sehr extreme Beobachtungen weit von den eigentlichen Parameterwerten ablenken. Deshalb wurden von Rousseeuw (1983) auf ganz anderen Überlegungen beruhende multivariate Lage- und Streuungsschätzer vorgeschlagen. Diese Verallgemeinerung der kürzesten Hälfte geht zurück auf den Zusammenhang (4.4) zwischen Streuellipsoid und Kovarianzmatrix. Gesucht wird dann die Kovarianzmatrix, zu welcher ein entsprechend kleines Streuellipsoid gehört. Dies verallgemeinert die Idee der kürzesten Hälfte auf höhere Dimensionen. Dazu muss auch wieder ein Teil der Daten 'ausgeschlossen' werden. Formal sind die Minimum Volume Ellipsoid-Schätzer, kurz MVE-Schätzer, als Lösungen einer Minimierungsaufgabe definiert: Minimiere det(S)
(6.11a)
unter den Nebenbedingungen: η !· Σ l[0,c] ((*< - tys-'iXi -t))>h i=1 2. S ist positiv definit.
(6.11b) (6.11c)
Dabei ist h = [{n + p +1)/2] und c ist eine feste, vorherbestimmte Konstante. Durch die Indikatorfunktion l[o,C]( die 1 ist für d2 < 1 und 0 sonst, werden weiter vom Zentrum weg liegende Punkt aus der Bestimmung von S ausgeschlossen. Dies führt dazu, dass der MVE-Schätzer einen hohen Bruchpunkt hat, d.h. einen großen Anteil von extremen Werten verträgt, bevor die Schätzung vollkommen unbrauchbar wird. Die Konstante c hat keinen Einfluss auf t, bestimmt aber die Größenordnung von S. Sie kann also so gewählt werden, dass man einen konsistenten Schätzer der Pseudokovarianzmatrix der zu Grunde liegenden elliptisch symmetrischen Modellverteilung erhält. MVE-Schätzer sind affin äquivariant und unter geeigneten Bedingungen auch konsistent. Zur praktischen Bestimmung des MVE-Schätzers haben Rousseeuw & van Zomeren (1990) ein Verfahren vorgeschlagen, das auf einem Resampling-Verfahren basiert. Eine Verallgemeinerung der MVE-Schätzer stellen die S-Schätzer dar. Sie entstehen dadurch, dass in (6.11b) die Indikatorfunktion durch eine glatte Funktion ersetzt wird. Die Eigenschaften er MVE-Schätzer bleiben erhalten; siehe dazu Davies (1987). Die S-Schätzer sind aber stabiler, d.h. es treten nicht mehr so große Unterschiede aufgrund der Bestimmung mittels des Resampling-Verfahrens auf wie bei den MVE-Schätzern. Einen schnellen Algorithmus zu ihrer Berechnung hat Ruppert (1992) vorgeschlagen.
107
6.1 Schätzen der Lage und Dispersion
Schätzen des polychorischen Korrelationskoeffizienten Der polychorische Korrelationskoeffizient wurde im Kapitel 3 als der Produkt-Momenten Korrelationskoeffizient zweier kardinal skalierter Zufallsvariablen eingeführt, welche nur als ordinale Variablen beobachtet werden. Bei unterstellter Normalverteilung der Hintergrundvariablen lässt sich ein voller ML-Ansatz zu seiner Schätzung formulieren. Das folgende zweistufige Verfahren ist jedoch einfacher und, wie Simulationsstudien ergeben haben, fast genauso effizient, vgl. Olsson (1979). Zunächst werden für die beiden ordinalen Variablen die Schwellenwerte (3.17) bestimmt. Diese seien mit f ; i = 1,..., s — 1 und τj j = 1,..., t — 1 bezeichnet. Im zweistufigen Verfahren werden die so bestimmten Schwellenwerte als fest unterstellt. Dann ist nur noch der Korrelationskoeffizient ρ der bivariaten Normalverteilung, für die ja μι = μ2 = 0 und σ\ — σ\ = 1 gilt, zu ermitteln. Gemäß den Annahmen lautet die Likelihoodfunktion
hierbei sind η,-y die absoluten Häufigkeiten der beobachteten Wertekombinationen i und j, und die Wahrscheinlichkeiten pij mit der bivariaten Normalverteilungsdichte {x,y,p) sind gegeben durch
Der ML-Schätzer ρ wird über eine numerische Optimierungsroutine berechnet. Die dafür benötigte erste Ableitung der Loglikelihoodfunktion l {p) nach ρ lautet:
Die ML-Schätzung kann zu höheren aber auch zu kleineren Werten des polychorischen Korrelationskoeffizienten führen als die einfache Repräsentantenmethode, vgl. S. 57. Jedenfalls stellt letztere eine sinnvolle Startschätzung für die iterativ zu ermittelnde ML-Schätzung dar. Beispiel 6.1.6
Politische Indikatoren
- Fortsetzung von Seite 58
Im Beispiel 3.3.11 wurden die polychorischen Korrelationskoeffizienten für die politischen Indikatoren 'Parteienwettbewerb' (PW), 'politische Rechte' (PR) und 'bürgerliche Freiheiten' (BF) mit der einfachen Repräsentantenmethode bestimmt. Die ML-Schätzung führt zu der folgenden Korrelationsmatrix: PW
PR
BF
Die ML-Schätzung ergibt hier höhere Werte als die einfache Repräsentanten-Methode. Die zweistufige ML-Schätzung des polyserialen Korrelationskoeffizienten wird etwa bei Drasgow (2004) beschrieben.
6 Inferenz für Verteilungen und ihre Parameter
108
6.2
Parametertests bei Normalverteilung
Angaben über Parameter θ von Verteilungen werden als Hypothesen bezeichnet und z.B. durch H0 : θ = θ0 angegeben. Als Alternative wird dann Ηχ : θ φ θ0 in Erwägung gezogen. Statistische Tests dienen nun zur Entscheidung bei solchen Testproblemen. Dazu bildet man als Testfunktion oder Prüfgröße eine Stichprobenfunktion Τ(Χι,...,Χη,θ0), die den Unterschied zwischen hypothetischem Parameterwert und entsprechendem Stichprobenergebnis quantifiziert. Ist der Unterschied zu groß, so wird die Angabe H0 : θ = θ0 verworfen; die Entscheidung wird für Hi getroffen. ,Ein zu großer Unterschied' bedeutet in der Regel, dass ein Wert Τ{Χι ,...,Χη,θ0) im Randbereich der Verteilung der möglichen Werte dieser Stichprobenfunktion beobachtet wird. Begrenzt wird der Rand jeweils in der Weise, dass im Fall der Gültigkeit der Angabe die Wahrscheinlichkeit für einen Wert im festgelegten Ablehnbereich höchstens gleich einer vorgegebenen kleinen Irrtumswahrscheinlichkeit α ist. Nimmt die Teststatistik Τ unter der Alternative tendenziell große Werte an, so wird die Nullhypothese abgelehnt, wenn die einen Wert T* annimmt, der größer ist als der kritische Wert, d.h. das (1 — a)-Quantil der zugehörigen Verteilung unter H0. α ist dabei das vorgegebene Niveau des Tests, etwa 0.05 oder 0.01. Statt den Wert der Teststatistik mit den kritischen Werten aus dieser Verteilung zu vergleichen, wird gerne der P-Wert Ρ(Γ > Τ*) betrachtet. Dieser gibt an, wie groß die Wahrscheinlichkeit ist, einen noch extremeren Wert der Teststatistik zu beobachten als den aktuell erhaltenen. Ist die Wahrscheinlichkeit sehr klein, so gilt dies als Indikator dafür, dass die Nullhypothese systematisch verletzt und somit nicht gültig ist. Ein naheliegender Zugang, Hypothesen über multivariate Erwartungswerte zu testen, ist natürlich, die Komponenten einzeln zu überprüfen. Dieses Vorgehen würde aber zuerst einmal das Niveau des Tests beeinflussen. Neben diesem Problem, das sich mit dem BonferroniAnsatz beheben ließe, spricht vor allem die geringe Testgüte gegen einen komponentenweisen Zugang. Beim multivariaten Zugang wird insbesondere die Korrelation der Komponenten berücksichtigt. Das führt i.d.R. zu Tests mit größerer Güte, d.h. mit einer größeren Wahrscheinlichkeit die Nullhypothese abzulehnen, wenn sie nicht richtig ist. In diesem Abschnitt werden ausschließlich Lagetests betrachtet, also Tests, die den Erwartungswertvektor betreffen. Es wurden zwar auch auf der Normalverteilung basierende Tests auf Gleichheit von Kovarianzmatrizen entwickelt. Sie sind aber so sensitiv gegen Abweichungen von der Normalverteilung, dass sie als wertlos eingestuft werden. Sie decken eher Abweichungen von der Normalverteilung auf als Unterschiede in den Kovarianzmatrizen. Daher ist eine Inspektion eher angeraten als ein formaler Test.
6.2.1
Ein- und Zweistichprobenprobleme
Einstichprobentsts auf μ Sei zunächst ρ = 1 und sei die Varianz der normalverteilten Stichprobe als bekannt vorausgesetzt. Dann kann als Teststatistik des Gauß-Test für H0: μ=μο gegen Ηχ:μφμ0 die Stichprobenfunktion (Χ-μ 0 ) 2 σ2/η '
109
6.2 Parametertests bei Normalverteilung
verwendet werden. Sie ist unter H0 χ2—verteilt mit einem Freiheitsgrad. Abgelehnt wird die Nullhypothese, wenn die Teststatistik einen Wert T* annimmt, der größer ist als das zugehörige 1 - α-Quantil der /^-Verteilung, T* > Die multivariate Verallgemeinerung der Teststatistik für H0 : bei bekannter KovarianzmatrixΣ = diag(a^, ...,σ2): ^
gegen H\ : μφμ^ lautet
(Xj-ßoj)2
Die einzelnen normierten Komponenten werden einfach additiv zusammengefasst. Da sie als unkorreliert vorausgesetzt werden, ist der quadrierte statistische Abstand sinnvoll. Die Teststatistik kann umgeschrieben werden zu
(1/ai V
\ i/^/
Bei korrelierten Variablen wird nun der statistische durch den Mahalanobis-Abstand ersetzt. Dieser mit η multiplizierte quadratische Mahalanobis-Abstand bleibt unter der Nullhypothese sogar eine /^-verteilte Statistik. Wie man im univariaten Fall vom Gauß-Test zum r-Test gelangt, indem für die unbekannte Varianz die Schätzung eingesetzt wird, so gelangt man nun bei unbekanntem Σ unter Verwendung der empirischen Kovarianzmatrix zu der T2- Teststatistik von Hotelling: T2 = n ( x - K ) S - \ x - t o ) ' . Unter Ho: hat T 2 eine Hotelling--Verteilung. ^-Verteilung von Fisher zusammen: 9
n — p +1 n p
(6.12)
Diese ST2-Verteilung hängt mit der 9 _ T2~Pp,„-p+l.
(6.13)
Die modifizierte Teststatistik hat dann also eine «^-Verteilung mit ρ und η — ρ + 1 df. Da die Modifikation lediglich darin besteht, dass T z mit einem positiven Faktor multipliziert wird, führen auch große Werte der modifizierten Teststatistik zur Ablehnung der Nullhypothese. Beispiel 6.2.1
Freitag der 13.
Um zu untersuchen, ob der Aberglaube in der Bevölkerung so stark ist, dass Auswirkungen im Alltag davon nachweisbar sind, haben britische Soziologen das Verkehrsaufkommen an zwei Straßenabschnitten sowie die Noteinlieferungen aufgrund von Verkehrsunfällen für Paare von Freitagen erhoben, siehe Scanion, Lüben, Scanion & Singleton (1993). Die Daten geben die Differenzen der Werte für fünf solcher Paare an, jeweils Freitag den 6. minus Freitag den 13.
6 Inferenz für Verteilungen und ihre Parameter
110
Χι 698 1037 1911 2761 1839
Xz X3 1104 60 1889 159 2416 21 4382 -33 321 -123
Zu überprüfen ist die Hypothese, dass die Menschen sich am Freitag den 13. nicht anders verhalten als an einem anderen Freitag. Für die Differenzen bedeutet dies, dass sie im Mittel bei Null zentriert sind, formal: H 0 : μ^Ο. Um den Test durchzuführen, werden der Mittelwertvektor und die Kovarianzmatrix sowie ihre Inverse bestimmt: x = (1649.2,2022.4,16.8), / 655058.2 839692.9 -52237.2 \ S„ = 839692.9 2369662.3 15839.1 , \-52237.2 15839.1 11032.2/ 0.00001952 -0.00000761 0.00010336 -0.00000761 0.00000339 -0.00004090 0.00010336 -0.00004090 0.00063876 Dies ergibt für Hotellings T2-Statistik: T2 = 5 · x S ^ x ' = 96.7. Um die Relation zur ^"-Verteilung auszunutzen, wird (5 — 3 + l)/(5 · 3)T 2 = 19.34 berechnet. Dies ergibt den P-Wert: P((5 - 3 +1)/(5 -3)T 2 > 19.34)=0.018. Damit deutet das Ergebnis auf einen Unterschied hin, ohne dass er zu deutlich wäre. Bei dem üblichen Signifikanzniveau von a=0.05 würde der Test zur Ablehnung führen, bei a=0.01 nicht mehr. Die Originalwerte zeigen aber, dass eher das niedrigere Verkehrsaufkommen an den Unglücks-Freitagen relevant ist als die tatsächlichen Unglücke in Gestalt der Notaufnahmen im Krankenhaus. (Für eine genauere Analyse sind jedoch die Unfallzahlen auf das Verkehrsaufkommen zu beziehen.)
Test auf Unkorreliertheit zweier Variablen Bei der Normalverteilung ist die Korrelation äquivalent zur Unabhängigkeit. Somit ist ein Test auf H0 : ρ — 0 bei bivariaten normalverteilten Zufallsvektoren (X, Y) zugleich ein Test auf ihre Unabhängigkeit. Da die Verteilung einer Teststatistik unter der Nullhypothese bekannt sein muss, damit der Ablehnbereich bestimmt werden kann, wird der Stichprobenkorrelationskoeffizient rXY nicht benutzt, sondern eine Transformation. Unter H0 ist 2 /XY (6.14) 1 r λ/ - XY -verteilt. Somit wird die Nullhypothese bei der zweiseitigen Alternative Ηχ: ρ φ 0 zum Niveau α abgelehnt, wenn |Γ| > Γη-2;ΐ-α/2 beobachtet wird. T=y/n-
Soll die Hypothese H0: ρ—p0 mit ροφΟ überprüft werden, so ist die Fisher-Transformation Transformation'.Fisher(6.15)
111
6.2 Parametertests bei Normalverteilung
zu verwenden. Ζ ist approximativ normalverteilt mit
2
Vi-P
Folglich lautet bei Gültigkeit der Hypothese H0:p=p0 T=\/n-3
Var [Z] = •
2{n — 1)'
2
J
η - 3
die Teststatistik
Vl-Po/
2(n — 1)
Ein näherungsweises (1 - a)-Konfidenzintervall ergibt sich daraus mit dem (1 — a/2)-Quantil der Standardnormalverteilung zu t a n h [ Z - 4 ^ ) V VTT-iJ
; t a n h ( z + 4 ^ V
Zweistichprobentests für die Lage, "Σι = Σ 2 = Σ Der Vergleich zweier Stichproben bez. der Lage wird durch das Hypothesenpaar
formalisiert. Unter der Nullhypothese sind also für alle Komponenten die Erwartungswerte paarweise gleich, H 0 : ( μ π . μ ΐ 2 , . . . . μ ΐ ρ ) = (μ2ΐ,μ22..··,μ2ρ). Es wird von multivariat normalverteilten Beobachtungen ausgegangen, ~ , Σ), bzw. *2 ~ ί ^ . Σ ) . Dabei werden die zu Grunde liegenden Kovarianzmatrizen als gleich unterstellt. In Verallgemeinerung des univariaten Falles wird man sehr geradlinig zum Zweistichproben- T 2 -Test geführt. Zuerst sind die beiden empirischen Kovarianzmatrizen 1 Sj = ——.
Σ(Χα-Χί)'(Χα-Xj)
(j = 1 , 2 )
1=1
7
zu einer Gesamtschätzung zu verschmelzen oder zu ,poolen': Sp/ = •
1
n\ + n2 — 2
[(n1-l)S1+(«2-l)S2],
Nur dann ist S p ; eine sinnvolle Größe, wenn - wie vorausgesetzt - die zu Grunde liegenden Kovarianzmatrizen gleich sind. Mit dieser Voraussetzung hat die Teststatistik r2 = (*i-X2)S-/1(*i-X2y
(6.16)
unter H0 eine , +Π2 -2 -Verteilung. Somit können die Quantile dieser /7 2 -Verteilung verwendet werden, um die kritischen Werte zu bestimmen. Abgelehnt wird die Nullhypothese, wenn der Stichprobenwert größer als der kritische Wert ist.
6 Inferenz für Verteilungen und ihre Parameter
112
Zweistichprobentests für die Lage, Σχ φ Σ 2 Sind die theoretischen Kovarianzmatrizen der beiden bez. der Lage zu vergleichenden Stichproben nicht als gleich zu unterstellen, so liegt ein multivariates Behrens-Fisher-Problem vor. In diesem Fall macht die Bestimmung einer gepoolten Kovarianzmatrix keinen rechten Sinn mehr. Dementsprechend ist die Teststatistik (6.16) nicht mehr -verteilt. Vielmehr ist eine intuitiv naheliegende Teststatistik zur Überprüfung von dieser Situation 1* = {χι-ΧΜ~
η ι + n 2-
(6.17)
(X1-X2)'.
Für die Verteilung der Teststatistik T2 unter H0 gibt es verschiedene Approximationen. Nel & van der Merwe (1986) bestimmte den approximativen Ablehnbereich gemäß f 2 >
^ p f f — p — l Ρ·ίΛ- ' n s Verhältnis gesetzt wird zu Π; Π; ( ~ J • Dieser Nenner ergibt sich als ML-Schätzung unter dem saturierten Modell, bei dem keine zusätzlichen Parameterrestriktionen spezifiziert sind. Mit fhij = ni%n.j /n für i — 1,..., I, j = 1,..., / erhält man die Teststatistik:
-•2 _ - 2 In V G2 hat asymptotisch die gleiche Verteilung wie die entsprechende X2-Statistik, also eine χ2Verteilung mit (/ - 1)(/ - 1) Freiheitsgraden. Beispiel 6.5.5
Heiratsverhalten... - Fortsetzung von Seite 121
Für die Überprüfung der Unabhängigkeit der Sternzeichen von Ehepartnern mit dem LQ-Test ergibt sich der Wert der Teststatistik G2 = 158.09. Er ist etwas größer als X2 und damit ebenfalls signifikant.
Partitionierung der LQ-Statistik auf Unabhängigkeit Die χ2-Verteilung besitzt eine Reproduktionseigenschaft: Sind Xf,X%,...,X2k unabhängig, chi-quadrat-verteilt mit Vj Freiheitsgraden, so ist X2 + X%-\ l· X\ chi-quadrat-verteilt mit
6.5 Zwei- und dreidimensionale Kontingenztafeln
123
ν,· Freiheitsgraden. Diese Eigenschaft kann ausgenutzt werden, um auch bei der Likelihood-Quotienten-Statistik mittels einer geeigneter Zerlegung der Teststatistik detailliertere Aufschlüsse der Verletzung der Unabhängigkeit zu bekommen. Die Betrachtung der PWerte dieser unabhängigen Summanden zeigt die Unterfr age Stellungen, bei denen Signifikanz vorliegt. Allerdings ergeben nur spezielle Zerlegungen unabhängige G2-Statistiken. Eine solche Zerlegung ist andererseits bei der Pearson-Teststatistik X2 gar nicht möglich. Die einfachste Situation ist die einer 2 χ /-Tafel. Die Ausgangstafel sei: "11 η i2 . . η ι, «21 «22 · • n2J Dann können für die folgenden Teiltafeln jeweils die zugehörigen LQ-Tests durchgeführt werden: η ii «12 «21 «22
Beispiel 6.5.6
2
·
«11+ «12 «13 3. «11 + « 12+ «13 «14 «21 +«22 «23 «21 +«22+ «23 «24
Studierende und Kultur - Fortsetzung von Seite 68
Eine der Fragen der bereits angesprochenen BoSKop-Untersuchung betraf die Motivation an der Teilnahme von Kursen und ihre Hintergründe. Für die Frage .Teilnahme, um Leute kennen zu lernen' gab es die Antwortmöglichkeiten 1 = ja, 2 = eher ja, 3 = eher nein, 4 = nein. Von Interesse ist beispielsweise Zusammenhang dieser Variablen Y mit der Partnersituation X, wobei nur zwei Ausprägungen betrachtet werden: 0=,ohne feste Beziehung' und l=,mit fester Beziehung'. Die Kontingenztafel lautet: Beziehung 0 1
1 31 7
Y= Motivation 2 3 40 22 26 15
4 4 8
Insgesamt ist der Likelihoodquotiententest signifikant zum Niveau a = 0.05 Die Prüfgröße hat den Wert 10.934 bei 3 Freiheitsgraden; der P-Wert ist 0.0121. Um zu untersuchen, woher die Abhängigkeit resultiert, werden folgende Teil-Tafeln betrachtet:
Beziehung 0 1
1 31 7
2 40 26
1. 3 -
4 -
Y= Motivation 2. 1+2 3 4 3 1 + 4 0 22 7 + 26 15 -
Für die einzelnen LQ-Teststatistiken erhält man:
3. 1 + 2+3 3 1 + 4 0 + 22 7 + 26 + 15
4 4 8
124
6 Inferenz für Verteilungen und ihre Parameter G
i U m t = 10 · 9 342 Gj =5.1536 Gf G|
df=3 d/=l
= 0.9277 = 4.8529
df=l df=l
P(G§ esflmt > 10.9342) = 0.0121, P(Gj > 5.1536) = 0.0232, P(G|> 0.9277) = 0.3355, P(G|> 4.8529) = 0.0276.
Offensichtlich ist G2gesamt = G^+G|+G|. Nur die zweite Teiltafel ist nicht signifikant; hier wird die Abhängigkeit der Befürwortenden zusammen (ja und eher ja) gegen die eher Verneinenden von der Partnersituation überprüft. Es fallen dabei gerade die heraus, die diese Motivation klar verneinen. Eine Analyse der Beiträge der einzelnen Zellen zur gesamten Teststatistik zeigt in der Tat einen sehr erhöhten Wert für die Zelle der Personen, welche die Frage deutlich verneinen und gleichzeitig eine feste Beziehung angeben. Bei I χ /-Tafeln gibt es mehrere Möglichkeiten, Sequenzen von Teiltafeln zu testen. Drei davon sind: 1. Jeweils spaltenweise (wie oben); 2. Jeweils zeilenweise;
ΣΣ
a bis M ( 6 ) strukturell gleichwertig. Daher werden ML-Schätzer und Tests nur für M ( 4 ) formuliert. Die ML-Schätzer für die Wahrscheinlichkeiten und die erwarteten Häufigkeiten sind: flj'k n»jk (4) _Pi.kP.jk Pi it — — :
_ —
n
n
γη.
—
_rn.kn.jk
(b.bOa)
η -(4) .(4) ni.icii.jk m\jk = »Pijk = —~— · "••it
(6-50b)
Die beiden Teststatistiken zur Überprüfung des Modells M t 4 ) lauten: Pearson- χ 2 - Statistik:
'
J
*
χ2= ΣΣΣ (=1 j=l k=l
(nuk-m^X
V ijk
(6"51a)
; ;
Likelihood-Quotienten-Test: ^
Σ
Σ Σ ^ Ι ; = 1 J = 1 k= 1
η
(
^
) · \mijk)
(6.51b)
Die Teststatistiken können so interpretiert werden, dass sie Κ separate Tests auf Unabhängigkeit in 7 χ /-Tafeln zusammenfassen. Beide haben bei Gültigkeit des Modells M ( 4 ) asymptotisch eine / 2 -Verteilung mit (/ — 1)(/ — 1 )K Freiheitsgraden. Beispiel 6.5.16
Scheidung
- Fortsetzung
von Seite 131
M(4'
Das Modell beinhaltet, dass die Merkmale Familienstand und außerehelicher Sex unabhängig sind, wenn man sie für die beiden möglichen Werte von X 3 , .vorehelicher Geschlechtsverkehr' getrennt betrachtet. Der Test dieses Modells ist allerdings ein simultaner Test, ob Unabhängigkeit in jeder der beiden Teiltafeln gilt.
0 x2 0 1 Summe Xi
0 130 68 198
1 1 10 11 21
Summe 140 79 219
0 42 60 102
1 11 28 39
Summe 53 88 141
136
6 Inferenz für Verteilungen und ihre Parameter
Für die Pearson-Teststatistik erhält man X2 = 4.702; der zugehörige P-Wert bei 2 Freiheitsgraden beträgt 0.095. Daher sprechen die Daten nicht gegen dieses Modell der bedingten Unabhängigkeit.
6.6
Fehlende Werte
Im zweiten Kapitel, siehe Seite 33, wurde angesprochen, dass bei fehlenden Werten Behelfsmethoden wie die Reduzierung der Analyse auf die vollständigen Beobachtungen oder die paarweise Berechnung der Kovarianzen unbefriedigend sind. Ein besseres einfaches Verfahren, um die fehlenden Worte zu ersetzen, ist die Regressionsmethode. Dieses Verfahren ist etwa im Statistikpaket SPSS implementiert. Hierbei werden jene Beobachtungen, bei denen keine der Variablen fehlt, verwendet, um alle Variablen wechselseitig aufeinander zu regressieren. Die fehlenden Beobachtungen werden dann mittels der jeweiligen Regressionsbeziehung prognostiziert. Bei der Prognose der fehlenden Werte ist aber zu beachten, dass keine zu starke Korrelation vorgetäuscht wird. Dies wäre der Fall, wenn die fehlenden Werte durch die mittels Regressionsfunktion prognostizierten Werte yi ersetzt werden. Es ist daher ein Störterm zu ergänzen, i.d.R. wird eine normalverteilte Zufallszahl zu y, addiert. Die Varianz der Normalverteilung wird dabei mit Hilfe des vollständigen Datensatzes geschätzt. Eine adäquate Behandlung des Schätzproblems auch bei fehlenden Werten ermöglicht die Maximum-Likelihood-Methode. Dazu muss allerdings die gemeinsame Verteilung der Beobachtungen bekannt sein. Dies wird im Folgenden ausgeführt.
Ausfallmechanismen Neben der Verteilungsannahme sind auch Annahmen über den Ausfallmechanismus nötig. Um diesen zu beschreiben, werden folgende Bezeichnungen eingeführt, χ ist wie üblich der ρ-dimensionale Zufallsvektor mit der Dichte f[x; Θ). Mit r wird der zugehörige Fehlwertindikator bezeichnet; für eine spezielle Realisation des Paares (χ, r) bestehen die Komponenten von r aus 1 und 0, je nachdem ob die Beobachtung vorliegt oder nicht. Zudem wird χ schreibtechnisch in den beobachteten und den fehlenden Teil zerlegt: (xbeob>Xfehi)· Nach Rubin (1976) spricht man von Missing at random, MAR, wenn die Verteilung des Fehlwertindikators nicht von dem fehlenden Teil des Beobachtungsvektors abhängt: P(r = r\xbeob,xfehi) = P(r = r\xbeob).
(6.52)
Damit darf von den beobachteten Werten abhängen, welche Beobachtungen fehlen, aber nicht von den fehlenden Beobachtungen selbst. Zum Beispiel dürfen Werte einer Variablen nicht deswegen fehlen, weil sie einen gewissen Schwellenwert übersteigen. Andererseits ist erlaubt, dass Werte von X2 fehlen, wenn jeweils Χχ einen Wert in einem vorgegebenen Bereich annimmt. Die MAR-Bedingung ist weniger als die Annahme, dass die fehlenden Werte eine reine Zufallsstichprobe aus allen Beobachtungen darstellen. Dies wird als Missing completely at Random (MCAR) bezeichnet. Die dadurch nicht erfassten Fälle sind Situationen des Missing not at Random (MNAR).
6.6 Fehlende Werte
137
Um in einem Anwendungsfall zu entscheiden, welche Situation vorliegt, hat man zu überlegen, ob der Ausfall abhängig von den vorhandenen Daten ist. Falls das verneint werden kann, wird man mit der Hypothese MCAR arbeiten. Falls nein, ist es ohne externe Daten nicht möglich, eine Unterscheidung zwischen MAR und MNAR zu treffen. Daher hat man hier aufgrund theoretischer Überlegungen eine Entscheidung zu treffen. Im Weiteren wird unterstellt, dass die MAR-Voraussetzung erfüllt ist.
Der EM-Algorithmus Seien nun X, ,,..., Xiq die Zufallsvariablen, die beobachtet wurden, und /(x, , , . . . , xiq; θ) die zugehörige Randdichte. Dann ist / ( x ; g ) = / ( x 1 , . . . , J C p ; g ) = ff*1 f(Xil,...,Xill;tr) = f{*fehl\xbeob't 0 )f{Xbeob, 0 ) • Das Produkt über alle η entsprechend aufgeteilten Beobachtungsvektoren ist also in abgekürzter Schreibweise, bei der die Daten X in einen beobachteten Xbeob und einen nicht beobachteten Teil Xfehi aufgespalten sind: /(Χ; θ ) = f{Xfehl\Xbeob', 0 )f (Xbeob'· β ).
(6.53)
Als Funktion von θ stellt die rechte Seite von (6.53) die Likelihoodfunktion dar. Logarithmieren ergibt mit £{θ ;X) = ln/(X; Θ): 1{β·Χ) = 1{θ; Xbeob) + In f{Xfehi\Xbeob, θ).
(6.54)
Da Xfehi unbekannt ist, kann der zweite Term auf der rechten Seite von (6.54) nicht bestimmt werden. Als Ausweg wird zu den Erwartungswerten übergegangen; diese werden für Näherungswerte θ ' gebildet. Die Erwartungswertbildung führt zu: Q(0 |0 (O ) = ί(β; Xbeob) + H(0 |0 (O ) + c;
(6.55)
dabei sind, wenn eine stetige multivariate Verteilung unterstellt wird: (Bei diskreten Verteilungen sind die Integrale durch Summen zu ersetzen.) q(ö|0 ( t ») - Je(e-,x)f(xfehl\xbeob·,
ew)dxfehl
und Η(θ\θWW·,Xbeob). (6.56) Damit ergibt sich der EM-Algorithmus von Dempster, Laird & Rubin (1977); er wird üblicherweise als zweistufiges Verfahren angegeben:
138
6 Inferenz für Verteilungen und ihre Parameter
1. Der Erwartungswert- oder Ε-Schritt besteht in der Berechnung der Funktion Q{0 |0(t)). 2. Im Maximierungs- oder M-Schritt wird 0 ( t + 1 ) mittels Maximierung von Η(θ |0 ( t ) ) bestimmt. Diese alternative Berechnung wird iteriert, bis sich die Parameterschätzung nicht mehr wesentlich unterscheidet. In gut strukturierten Problemen konvergieren die ö ( i ) gegen einen stationären Punkt, der das globale Maximum darstellt und der EM-Algorithmus ergibt den eindeutig bestimmten ML-Schätzer. In einigen Problemen besteht der Ε-Schritt einfach darin, die fehlenden Werte durch die Mittelwerte oder die Erwartungswerte unter der Verwendung des Parameters θ (ι> zu ersetzen. Dies ist aber nicht die generelle Strategie; wenn dem so ist, ergibt es sich aus dem konkreten Modell.
Beispiel 6.6.1
binäre Zufallsvariablen
Χ, Y seien zwei binäre Zufallsvariablen mit der gemeinsamen Verteilung P ( X = i, Y = j) — pij
(i, 7=0,1);
dabei sind p (J > 0, p0o + Poi + Pio + Pn = 1. Im Fall vollständiger Daten führt die Datenmatrix X = (x,y) zu der Loglikelihoodfunktion £{p-,X) = nOQlnpoo + n0\\np0i + niolnpio +
nu\npn.
Die Hij geben die Anzahlen der Beobachtungsvektoren mit den zugehörigen Wertepaaren ( i , j ) an. Nun seien drei Gruppen von Beobachtungen unterschieden. Die erste, A, bestehe aus den vollständigen Beobachtungen, die zweite, Β aus denen, bei denen nur X beobachtet wurde und die Gruppe C aus denen, bei denen der Wert von X fehlt und nur der von Y vorliegt. Die Loglikelihoodfunktion wird entsprechend aufgespalten: t{p;X) =«p 0 In p00 + « o i l n Poi +
ln
P"> +
n
π l n Pn
+ n£0 ln poo + ηξλ ln ρΟΪ + η f 0 ln pl0 + η ® In pn
(6.57)
n^0lnpio + n^y lnpn. Da^(p;X) linear in den Werten ist und nur diese Häufigkeiten benötigt werden, reicht es, anstelle von E[l{p;X)\Xbeob. Θ] die bedingten Erwartungswerte der Statistiken N t j zu ermitteln und in (6.57) einzusetzen. Während in der Gruppe Α alle Häufigkeiten η ij vorliegen, ist die Information in der zweiten auf die Summen nf+ = nf0+nfv i = 0,1 beschränkt. Ähnlich sieht es für die Gruppe C aus. Die bedingten Erwartungswerte der zugehörigen Zufallsvariablen N i ; in der zweiten
6.6 Fehlende Werte
139
bzw. dritten Gruppe erhält man leicht daraus, dass diese Anzahlen gemeinsam multinomialverteilt sind. Für Β ergibt sich: E t i V o o K + N * = n0+] = n0+
Ε[Ν01|ΛΓοβο + N* = n(h.] = n0+
Po° Poo + Ρ οι Pio
Ε[Νη\Ν*+Ν*=ηι+]
E[JVio| N^0 + N^ = n1+] = n1+ P10 + P11
=
ηι+
Ροι Poo + Poi Pu Pio + Pu
Die Ausdrücke für C sind von entsprechender Gestalt. Das Einsetzen in die Loglikelihoodfunktion (6.57) stellt den Ε-Schritt des EM-Algorithmus dar. Dieser führt auf
Σ < l n ij=0
Σ nf+^lnPlJ i,j=0
+
+ £ „c £ü. i,j=0 "+'
1ηρ;
Im M-Schritt wird diese Likelihoodfunktion maximiert. In diesem Fall lassen sich die beiden Schritte zu einer einfachen Iteration kombinieren, vgl. Shafer (1997): 1 * r = ·
Beispiel 6.6.2
bivariate
ηΛ + nB
>j ^
pV pity t2L· + c '+ „(t) ^ n+j (r) Pi+ P+j
(i,j
= 0,1).
Normalverteilung
Gegeben sei ein bivariat normalverteilter Zufallsvektor (Χ, Γ). Nach (5.31) lautet die Dichte lautet mit Cov(X, Υ) = ai2 = ρσ\σ2:
f(x,y)=
ι 2πσισ2\/ΐ - ρ
= exp
1
f (χ — μι)2
2(1 — ρ 2 ) \
σ\
-
2ρ
χ-μλγ-μ2 σι
σ2
\-
(y - μ2)2
Damit ist die Loglikelihoodfunktion ί{μ, Σ ) = - η • 1η(σ γ σ2 V 1 ~ Ρ2 1
γ^
I Xi-μι
y
^ j ^ X j - μ ι yj-p2
2(1-ρ2)
i=1
= -η • 1 η ( σ ι σ 1
2
^
-ρ
2
|
^
^
fy,-p2x ^ ν
)
π
η vi
2(1-Ρ2
Ί
2ρ σχσ2
ι=1
^Xiyi-μι
Y^yi-PiY^Xi 1=1 ί=1 2
2 ί=1
2
1=1
+
ημλμ2
2
140
6 Inferenz für Verteilungen und ihre Parameter
Nun gibt es drei Möglichkeiten: (i) Es liegen Werte für beide Beobachtungsvariablen X, und Yi vor; (ii) Xj wurde beobachtet, aber Yi nicht; (iii) umgekehrt wurde Yi beobachtet, aber nicht X,. Die Darstellung der Loglikelihoodfunktion zeigt, dass die Statistiken η Α!=ΣΧί>
1=1
η Α2
η
= ΣΥί> 1=1
Β
η β 22
Π=Σ ί' ι=1 Χ
η
= Σ*?> 1=1
Bl2 =
Y,XiYi 1=1
entsprechend der jeweiligen Struktur der fehlenden Daten aufdatiert werden müssen. Dazu sind die einzelnen Summanden zu betrachten. Zur Vereinfachung wird dabei die Datenmatrix wieder mit X bezeichnet. (i) Hier werden einfach die beobachteten Werte χ; und y, verwendet. (ii) In diesem Fall hat man die bedingte Verteilung von Yt bei gegebenem Wert von Xt zu verwenden. Dies ist eine Normalverteilung mit Erwartungswert α — μ2 — β μι, wobei β = σγι!σ\ ist, und Varianz σ\\λ —σ\- σ\2/σ\. Auf der Basis der aktuellen Schätzwerte 0 f t ) ersetzt der Ε-Schritt den fehlenden Wert y, durch E[Yi\Xbeob,e^]
= a^ +
ßit)xi.
Der Wert xiyi im zugehörigen Summand von B22 wird E[Xt YiWbeob, 0(()] = xi («(t) +
ß{t)Xil
Für yf in B22 ergibt sich: E[if |Xfceofc> 0 ( t ) ] = (a^r
+ ia^ +
ß^Xif.
(iii) Dies geschieht analog zum Fall (ii). Beispiel 6.6.3
Temperaturmaxima
und -minima - Fortsetzung von Seite 117
Die vollständigen, der Quelle entnommenen Daten sind in der Tabelle am Ende des Beispiels angegeben. Wie man sieht, sind einige Maxima kleiner als die zugehörigen Minima. Da dies offensichtlich Datenfehler sind, werden die zugehörigen Maxima alle als fehlend angesetzt. Dies sind der 23., 24., 34., 36. und 37. Wert, die Gegenüberstellung der Schätzungen einmal unter Verwendung nur der vollständigen Daten und dann unter Verwendung des EM-Algorithmus ist wie folgt:
~ß
Mit EM-Algorithmus vollständige Fälle geschätzt MaxT MinT MaxT MinT 11.161 6.256 11.127 6.216
- MaxT 13.297 Σ MinT 8.338
8.338
13.136
8.230
9.676
8.230
9.551
6.6 Fehlende Werte
141
Wie diese Gegenüberstellung zeigt, gibt es im Resultat Unterschiede bei den Schätzungen. Dass sie nicht so groß sind, resultiert daraus, dass nur wenige Daten fehlen. MaxT MinT MaxT MinT MaxT MinT MaxT MinT MaxT MinT MaxT MinT MaxT MinT MaxT MinT 7.0 3.0 4.5 10 4.5 5.0 16.5 11.5 5.5 9.0 13.5 8.5 11.5 8.5 11.5 11.0 14 8.0 6.0 6.0 4.0 11.5 5.5 13 6.0 10 4.0 8.5 7.5 4.0 11.5 10.5 13 6.0 7.5 9.0 7.5 6.5 14 7.0 16.5 12 15 8.0 2.0 12.5 5.0 4.0 18 14.0 4.0 7.5 4.0 13.0 9.0 8.5 11.5 5.5 20 12 11.5 6.0 2.5 8.0 11 8.0 16.5 10.5 3.5 2.0 8.0 1.0 12 3.0 9.5 4.0 20.5 13.5 6.5 3.0 11.5 10.5 7.5 11 6.5 5.0 1.5 5.0 4.5 9.5 4.5 8 3.0 8.0 10 7.5 17.5 10.0 10 4.0 10.5 5.5 8.0 6.0 12 5.0 11 6.0 12 6.0 5.5 2.0 5 4.0 10.5 6.5 15.5 7.5 10.5 3.0 12.5 4.0 12 8.5 8.5 5.5 12.0 5.5 18.5 14.5 12.5 7.0 4.0 9.0 7.5 10.5 2.0 8 6.5 10.5 2.0 16 8.5 8.5 14 5.0 8.0 2.0 4.5 9 5.0 11.5 4.0 10 7.5 15 9.0 7.5 4.0 16.0 15.5 6.5 12 5.0 7.0 3.0 -0.5 1.0 3.5 2.0 11 5.0 12.5 4.5 19 16.5 13.5 8.5 7.5 8.5 8.5 9.0 10 5.0 11.5 7.0 14 2.5 10.5 9.0
Multiple Imputation Bei der multiplen Imputation werden die fehlenden Daten wiederholt durch geeignet erzeugte ersetzt. Dann wird jeder der vervollständigten Datensätze mit dem Standardverfahren für vollständige Daten analysiert. Die Variabilität der unterschiedlichen Analysen gibt dann ein Maß für die Unsicherheit aufgrund der fehlenden Daten. Sind θ t, t = l,...,m die resultierenden Schätzungen für einen vektoriellen Parameter θ aus den m vervollständigten Datensätzen, so werden diese gemäß ι
m
zusammengefasst. Die Kovarianzmatrix von θ setzt sich zusammen aus der mittleren Kovarianzmatrix der einzelnen θ t und der, die die Streuung zwischen den Punktschätzern erfasst. Werden die erstgenannten mit Σ, bezeichnet, so ist m
j
m ^ t=i
m
^ "
m t=ι
'
Für die Vervollständigung eines Datensatzes ist zuallererst ein Verteilungsmodell zu unterstellen. Für stetige Daten wird üblicherweise eine multivariate Normalverteilung vorausgesetzt. Die Generierung geschieht dann gemäß der bedingten Verteilung, wobei die beobachteten Daten und die Parameter als gegeben eingehen. Es gibt zwei Möglichkeiten, die Daten zu erzeugen. Einmal können die mit dem EM-Algorithmus bestimmten Parameter genommen werden und die fehlenden Beobachtungen mit der bedingten Verteilung unter Verwendung dieser Schätzwerte generiert werden. Als zweites kann ein Bayesianischer Ansatz gewählt werden. Im Bayesianischen Ansatz werden die Parameter als Zufallsvariablen aufgefasst. Dafür wird eine sogenannte Prior-Verteilung unterstellt. Dann wird die Imputation mittels einer Markov-Ketten-Monte-Carlo-Methode, kurz MCMC durchgeführt. Hierbei werden zwei einfache Schritte abwechselnd iterierend durchgeführt:
142
6 Inferenz für Verteilungen und ihre Parameter • Imputations-Schritt: Ziehung (Imputation) der fehlenden Werte, gegeben die beobachteten Daten und die Modellparameter ~ P{Yfehit\Ybeob,e(^), wobei Ρ die entsprechende (bedingte) Verteilung ist. • Posterior-Schritt: Ziehung der Modellparameter, gegeben beobachtete und imputierte Daten 0 ( t + 1 ) ~ P(e\Ybeob,rflhlt). Hier ist Ρ{θ Yfoeob, Y/i^/r die bedingte Verteilung der Parameter bei gegebenen und eingesetzten fehlenden Beobachtungen.
Für Details sei auf Schafer (1997) verwiesen. Beispiel 6.6.4
Telecom - Statistik
In dem Bericht des Jahres 2001 .International Telecom Statistics' der Fa. Siemens sind für eine Vielzahl von Ländern weltweit Daten aus den verschiedenen Bereichen der Telekommunikation zusammengestellt. Um die Jahrhundertwende herrschte eine im Nachhinein etwas irrational erscheinende Euphorie bez. des Wachstums auf dem Telekommunikationsmarkt. Daher waren solche Überblicke von großem Interesse. Allerdings sind diese Daten teilweise recht unvollständig. Um eine multivariate Auswertung vornehmen zu können, soll zunächst die Kovarianzmatrix unter Verwendung des EM-Algorithmus geschätzt werden. Betrachtet werden hier die Variablen 1. X\ = Zellulartechnik-Subskriptionen, Zuwachs in Prozent Hierbei handelt es sich um den prozentualen Zuwachs der Mobilfunk-Subskriptionen im Jahr 2000 im Vergleich zum Vorjahr. Als Label für diese Variable wird CMRSZ verwendet. (CMRS = Cellular Mobile Radio Subscriptions). 2. X 2 = Verhältnis Hauptanschlüsse zu BIP Gibt über den Versorgungsfaktor an, ,...um wieviel ein Land eine höhere (> 1 )oder eine geringere Versorgung (