193 90 31MB
German Pages 247 [252] Year 2000
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Böhning, Allgemeine Epidemiologie Caspary · Wichmann, Lineare Modelle Chatterjee · Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen · Lorscheid, Statistik-Aufgabensammlung, 3. Auflage Härtung, Modellkatalog Varianzanalyse Harvey (Übers. Untiedt), Ökonometrische Analyse von Zeitreihen, 2. Auflage Harvey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler · Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller (Übers. Schlittgen), Grundlagen der Angewandten Statistik Naeve, Stochastik für Informatik Oerthel · Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer · Heine · Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Deskriptive Statistik Pflaumer · Heine · Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse Rasch · Herrendörfer u.a., Verfahrensbibliothek, Band I und Band 2 Rinne, Wirtschafts- und Bevölkerungsstatistik, 2. Auflage Rinne, Statistische Analyse multivariater Daten - Einfuhrung Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I: Grundlagen Schlittgen, Statistik, 8. Auflage Schlittgen, Statistische Inferenz Schlittgen · Streitberg, Zeitreihenanalyse, 8. Auflage Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten
Fachgebiet
Biometrie
Herausgegeben von Dr. Rolf Lorenz Bisher erschienen: Bock, Bestimmung des Stichprobenumfangs Brunner · Langer, Nichtparametrische Analyse longitudinaler Daten
Statistische Analyse multivariater Daten Einführung
Von
Prof. Dr. Horst Rinne Universität Gießen
R.01denbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Rinne, Horst: Statistische Analyse multivariater Daten : Einführung / Horst Rinne. - München; Wien: Oldenbourg, 2000 (Lehr- und Handbücher der Statistik) ISBN 3-486-25403-0
© 2000 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-25403-0
Inhaltsverzeichnis Vorwort 1
2
IV
Grundlagen und Überblick
1
1.1
Datenmatrix und Variablenskalierung
1
1.2
Zielsetzungen multivariater Datenanalyse
3
1.3
Charakterisierung multivariater Verfahren
4
1.4
Systematisierungsansätze multivariater Verfahren
6
1.5
Statistische Maßzahlen für die Datenmatrix
7
1.6
Betrachtungsweisen der Datenmatrix
12
1.7
Distanzmessung zwischen Elementen
16
Plots multivariater Datensätze
21
2.1
Graphiken zum Vergleich der Merkmale
23
2.2
Graphiken zum Vergleich der Merkmalsträger
28
2.3
Vergleich von Merkmalen und Merkmalsträgern
36
3 Lineare Modelle und Normalverteilung 3.1
Lineare Modelle im Überblick
42
3.2
Multinormale Verteilung und Inferenz ihrer Parameter
45
3.3
Regressionsanalyse
56
3.3.1
Einführung
56
3.3.2
Univariate lineare Regression
57
3.3.3
Multivariate lineare Regression
64
3.3.4
Kanonische Korrelationsanalyse
69
3.4
3.5 4
42
Varianzanalyse
78
3.4.1
Univariate Varianzanalyse
79
3.4.2
Multivariate Varianzanalyse
83
Kovarianzanalyse
87
Hauptkomponentenanalyse
97
4.1
Definition und Berechnung der Hauptkomponenten
97
4.2
Interpretation, Anzahl und Anwendungen von Hauptkomponenten . 104
4.3
Probleme und weitere Ergebnisse der Hauptkomponentenanalyse . . 120
II
Inhaltsverzeichnis
5 Faktorenanalyse
β
5.1 Das faktorenanalytische Modell
129
5.2
Faktorenlösung
133
5.3 Faktorrotation
136
5.4 Kritische Bemerkungen
142
Diskriminanzanalyse
144
6.1 Diskriminanzanalyse bei Normalverteilung
144
6.2
7
8
9
129
Der verteilungsfreie Ansatz von FISHER
156
6.2.1
Der Zwei-Gruppen-Fall
156
6.2.2
Der Mehr-Gruppen-Fall
157
6.3 Trennmaße und Variablenselektion
160
Clusteranalyse
165
7.1
Zielsetzung
165
7.2
Typus der angestrebten Klassiiikation
165
7.3
Bewertungskriterien einer Klassifikation
169
7.4
Hierarchische Klassiiikation
173
7.5
Nicht-hierarchische Clusterung
178
7.5.1
Varianzkriterium
179
7.5.2
Determinantenkriterium
182
—1
7.5.3
Spur(W
B)-Kriterium
183
7.5.4
Zielfunktion bei L r -Clusterung
183
7.5.5
Kritische Bemerkungen
184
Multidimensionale Skalierung
186
8.1 Motivation und Einteilung der Verfahren
186
8.2
Metrische MDS mit der Haupt-Koordinaten-Methode
190
8.3 Nicht-metrische MDS mit der Methode von KRUSKAL
191
Grundlagen der Matrizenrechnung
196
9.1 Definition und einige Typen von Matrizen
196
9.2
198
Matrixverknüpfungen
9.3 Determinanten
200
9.4 Matrixinversion
200
9.5 Lineare Abhängigkeit von Vektoren und Hang einer Matrix
202
Inhaltsverzeichnis
III
9.6
Lineare Gleichungssysteme
203
9.7
Spur einer Matrix
204
9.8
Eigenwerte und Eigenvektoren
204
9.9
Diagonalisierung symmetrischer Matrizen
205
9.10 Quadratische Formen und Hauptachsenrotation
206
9.11 Vektor- und Matrixdifferentiation
207
9.12 Extremwerte ohne Nebenbedingungen
210
9.13 Extremwerte mit Nebenbedingungen
210
Verteilungstabellen
212
Literaturverzeichnis
224
Stichwortverzeichnis
230
Namensverzeichnis
236
Symbolverzeichnis
238
Vorwort In der statistischen Grundausbildung dominieren univariate Verfahren. Auf der Modellebene wird mit eindimensionalen Verteilungen gearbeitet, auf der empirischen Ebene mit Stichproben, bei denen je Merkmalsträger (= Element) nur ein Merkmal ausgewertet wird. Entsprechend geht es bei bivariaten Verfahren um zweidimensionale Verteilungen von Zufallsvariablen bzw. um die simultane Betrachtung zweier Merkmale je Merkmalsträger. Als bivariate Verfahren sind im Grundstudium die Korrelation — nach BRAVAIS-PEARSON oder nach SPEARMAN —, die lineare Einfachregression und die einfache Varianzanalyse vorgestellt worden. Die meisten empirischen Untersuchungen basieren auf Mehrzweckstichproben, d.h. es werden mehr als zwei Merkmale je Element erhoben. Die Auswertung solcher Datensätze verlangt den Einsatz multivariater Verfahren, hinter denen i.d.R. mehrdimensionale Verteilungsmodelle stehen. Im Unterschied zu univariaten und bivariaten Verfahren, bei denen jeweils nur eine oder zwei Variablen betrachtet werden und deren mehrfache Anwendung auf denselben Datensatz — etwa durch Analyse aller Paare von Merkmalen — zu schwer abschätzbaren Fehlern führen kann, werden in einem multivariaten Verfahren mehrere Variablen simultan untersucht. Es geht also um die gemeinsame Betrachtung von m > 2 Variablen an η > 2 Elementen. Die Ursprünge der multivariaten Analysetechniken lassen sich zwar sehr weit zurückverfolgen, ihr Ausbau und vor allem ihr Einsatz auf breiter Front erfolgten aber erst in den letzten Jahrzehnten. Dabei spielte die Verfügbarkeit leistungsfähiger — und preiswerter — Rechner mit hoher Rechengeschwindigkeit und großen Speichern eine entscheidende Rolle. Die Entwicklungen in den einzelnen Zweigen der multivariaten Statistik sind kaum noch zu übersehen. Daher kann diese Lehrveranstaltung nicht mehr als eine Einführung sein. Sie beschränkt sich auf die Vorstellung der grundsätzlichen Verfahren und zeigt die typischen Fragestellungen. Nachfolgend findet sich eine Auswahl von Büchern zur multivariaten Statistik, deren Schwerpunkt nicht bei der Darstellung einer einzigen Methode liegt, sondern die vielmehr die gesamte Breite abzudecken versuchen.1 Auf einem nicht zu hohen Niveau liegen die folgenden Werke: BACKHAUS, E . u . a . ( 1 9 9 6 )
Multivariate Analysemethoden — Eine anwendungsorientierte Einführung; 8. Aufl., Springer, Berlin BOLCH, B . L . / HUANG, C . J . (1974)
Multivariate Statistical Methods for Business and Economics; Prentice Hall, Englewood Cliffs C O O L E Y , W . C . / LOHNES, P . R . ( 1 9 7 1 )
Multivariate Data Analysis; Wiley, New York etc.
1
Spezielle Literatur zu den einzelnen Problemkreieen wird in den folgenden Kapiteln angegeben.
Vorwort
V
FLURY, Β . / RIEDWYL, Η . ( 1 9 8 3 )
Angewandte multivariate Statistik; G. Fischer, Stuttgart/New York, 1983 MARINELL, G . (1995)
Multivariate Verfahren; 4. Aufl., Oldenbourg, München/Wien Auf einem mittleren Anspruchsniveau liegen: HÄRTUNG, J . / ELPELT, B . ( 1 9 9 5 )
Multivariate Statistik; 5. Aufl., Oldenbourg, München/Wien KENDALL, M . G . (1975)
Multivariate Analysis; Griffin, London, 1975 Anspruchsvoller und eher formal sind: ANDERSON, T . W . (1958)
An Introduction to Multivariate Statistical Analysis; Wiley, New York etc. FAHRMEIR, L . / HAMERLE, A . / Τ Υ Τ Ζ , G . ( 1 9 9 6 )
Multivariate statistische Verfahren; 2. Aufl., De Gruyter, Berlin/New York KSHIRSAGAR,Analysis; A . M . (1972) Multivariate M. Dekker, New York/Basel
Da die multivariate Statistik nicht ohne Matrizenalgebra auskommt, sind im Kap. 9 die relevanten Formeln — ohne Beweise und Beispiele — zusammengestellt. Bücher brauchen nicht nur einen Autor, sondern auch eine Reihe weiterer Personen, um die Ideen des Autors umzusetzen und auch unter diversen Aspekten zu prüfen. In diesem Sinne möchte ich mich ganz herzlich bedanken bei • meiner Sekretärin Frau Inge Bojara, die das Manuskript zu diesem Buch unter Einsatz von WinEdit in ein Dl^X-File übertragen hat, • meiner Mitarbeiterin Frau Dr. Dorothea Reimer, die in allen Fragen des Arbeitens mit TfeX, M ^ X , Winedit, GhostView und PostScript-Dateien wertvolle Tips gegeben hat, • meiner Mitarbeiterin Dipl.-Volkswirtin Gabriele Spieker für die gewissenhafte Revision und Korrektur und last but not least • den Studierenden für die Anregungen und interessierten Fragen, als ich mit ihnen in den letzten Semestern das Konzept zu diesem Buch getestet habe.
1 Grundlagen und Uberblick ··
1.1
Datenmatrix und Variablenskalierung
Ausgangspunkt nahezu aller multivariaten Verfahren1 mit umgruppierten Daten — und nur diese sollen hier betrachtet werden2 — ist eine η χ τη Datenmatrix (Beobachtungs- oder Designmatrix) X . In ihr werden die an η Elementen (Objekten, Merkmalsträgern) registrierten Beobachtungswerte von je m Variablen (Merkmalen) zusammengestellt:3
/
Xn
Xl2
121 222
Xln
\
X2 m
ei Ϊ2
j = 1,.. . , m \ Xnl
t
Χι
(1.1)
Xn2
t
X2
t Xm
Es ist Xij der Beobachtungswert der j-ten Variablen am i-ten Element. Die t-te Zeile*
®(«.) : = («il. x«"2. · · · 1 xim)i t = 1 , . . . , n;
(1.2)
enthält den Beobachtungsvektor für Element e,·, die j-te Spalte
fm-i;»-n;i-e·
ab, wenn (3.28 b)
62
3 Lineare Modelle und Normalverteilung
Mit (3.28a-b) wird der lineare Einfluß aller Regressoren X 2 , · · · ,Xm auf Χχ getestet. Möchte man prüfen, ob ein einziger Regressor Xj, j > 1, einen signifikanten EinfluS auf Χχ hat, so lautet für H 0 : ßji = 0
gegen
H i : ßjx φ 0; j > 1;
die Prüfgröße Τ :=
mit
T~in_m,
(3.29 a)
wobei cjj das j - t e Diagonalelement der geschätzten Kovarianzmatrix C von ßx ist C :=
= ^ γ
Ho : ßji = 0 ist zugunsten von Hi : ßji verwerfen, wenn
(3.29 b)
φ 0 auf dem Signifikanzniveau α zu
\T\ > i „ _ m ; i _ a / 2 .
(3.29 c)
Beispiel 3 / 2 : Univariate lineare Regression Die folgende Matrix zeigt für die 15 EU-Staaten je vier bevölkerungsstatistische Kennzahlen des Jahres 1996:14 X\
-
Gestorbene je 1000 Einwohner
X-i
-
Bevölkerungswachstum i.v.H.
Xz
-
Lebenserwartung neugeborener Frauen (in Jahren)
X4
-
Anteil der 45- bis 65-jährigen an der Bevölkerung i.v.H. 10,8 10,4 11,6 9,6 9,2 9,6 10,9 8,7 9,7 9,4 8,9 10,0 10,8 10,6 8,6
14
0,2 0,3 0,5 0,3 0,4 0,2 0,3 0,8 0,2 1,3 0,4 0,2 0,1 0,1 0,1
79,7 80,2 78,0 80,5 81,9 80,3 79,3 78,5 81,3 80,0 80,3 80,2 78,5 81,5 81,6
25,0 23,0 24,3 24,3 21,8 24,2 22,5 19,0 24,8 23,1 22,7 22,6 22,7 23,6 22,0
\ m, rg(X) = m und o.B.d.A. τηχ < m 2 . Die zu X gehörenden m x m Kovarianz- und Korrelationsmatrizen lauten in ihrer Partition S= i^11 \S21 S22J'
R=
(*» \Ä2i R 2 2 / '
mit S i j und R i j vom Typ τη,· Xm, und t, j = 1, 2. Bezeichnen x i = ... ,Xmi)' und X2 = (Xmi+i,. • • ,Xm)' die Vektoren der Originalvariablen (keine Variablenwerte!), so sind die k a n o n i s c h e n V a r i a b l e n als UHt)
:=
o' 1(l) ®i; i = 1 , . . . , mi;
U2(j)
:=
a2(j)
(3.38 a)
®2! j = 1 , . . . , m 3 ;
(3.38 b)
zu schreiben, wobei die in a ^ bzw. a ^ j stehenden τη χ bzw. m 2 Linearfaktoren als k a n o n i s c h e K o e f f i z i e n t e n bezeichnet werden. Die η Werte jeder kanonischen Variablen ergeben sich als Μ u
ι(ί)
2(j)
:
=
X i ai(o'> * = Ii · · · . "»1;
(3.39 a)
:=
X 2 a2(j)i i = 1 , . . . , m 2 .
(3.39 b)
Die Werte der kanonischen Koeffizienten sind aus den Daten in X unter Einhaltung der Restriktionen Cov(U1(t),i7lW) =α'1(,·)511α1(/)
=
j *
= a2(i) 5 22 aa(e)
=
I J ^
Cov(t/ 1 { t ) ,^2(o) = e i ( , - ) 5 w ° a ü )
=
I J'
Cov (U2{ο, Um)
* ~ ' | i,£ = 1 , . . . ,
Jür
3.
=
]J
mi
(3.40 a)
I j, l = 1 , . . . , m 2 (3.40 b) =
1
(3.40c)
zu bestimmen. Mit Sn = 1 für i — l wird verlangt, daß jede kanonische Variable Efy,·) die Varianz Eins hat, während a ^ S n a ^ j = 0 für t φ l bedeutet, daß die zur ersten Variablenmenge gehörenden kanonischen Variablen eine Kovarianz von Null haben und mithin nicht korrelieren. Entsprechend ist (3.40b)
71
3.3 Regressionsanalyse
für die kanonischen Variablen tfyj) der zweiten Variablenmenge zu lesen. Wegen α ί(.) S n a i ( . ) = a2(j)S^am) = 1 i s t i n ( 3 - 4 0 c ) d i e Größe r,· =: r (Z7 ), Efyo) = 1(i a 'i(i) ^12 a2(«) e i R Korrelationskoeffizient, nämlich der kanonische Korrelationskoeffizient zwischen dem »-ten Paar (t = 1 , . . . , mi) von kanonischen Variablen.17 Die kanonischen Korrelationskoeffizienten sollen der Bedingung 1 > η > r2 > . . . > r m i > 0 genügen. Die numerische Bestimmung der kanonischen Variablen und der kanonischen Korrelationskoeffizienten ist auf verschiedenen Wegen möglich. Die ersten beiden der drei nachfolgend beschriebenen Methoden sind mathematisch eleganter als die dritte Methode. Methode 1: Zerlegung von S Das Verfahren startet mit einer Choleski— Zerlegung von S u und S 2 2 : 5,·,· = Δ,·Δ{; » = 1,2;
(3.41a)
wobei Ai eine m,· X m,· untere Dreiecksmatrix mit vollem Rang ist. Dann bildet man äJj^A^ShAJ1'
(3.41b)
und wendet auf die (mj X m2)-Matrix ÄJ 2 eine Singularwert—Zerlegung 18 an: (3.41C)
R*12 = Gl(D:0)G'2.
Eis ist Gi eine orthogonale Matrix vom Typ m; X m;. Gi (G2) enthält die mi (m2) linken (rechten) Singularvektoren von R*2. D ist eine (toi X mx)-Diagonalmatrix, die die gesuchten kanonischen Korrelationskoeffizienten aufweist: ri = du.
(3.41 d)
0 ist eine Nullmatrix vom Typ πΐι χ (m 2 —mj), die nur benötigt wird, wenn τη\ < m2. Die kanonischen Koeffizienten ergeben sich wie folgt: α ι(») —
a2
(j)
-
»" te Spalte von Δ^"1 G1; t = 1 , . . . , j-te Spalte von Δ ^ 1 G2\j = l , . . . , m 2 .
toi;
(3.41 e) (3.41 f)
17
Der zweite Teil von (3.40c) — Su = 0 für 1 / j — drückt die Forderung nach Unkorreliertheit der zu verschiedenen Variablenmengen gehörenden kanonischen Variablen aus.
ls
Die Singularwerte einer reellen (ρ χ g)-Matrix Α sind die nicht-negativen Quadratwurzeln der Eigenwerte von Α Α', falls ρ < q, und von A' A, falls ρ > q. Zur Durchführung sowohl der Singularwert- als auch der Choleski-Zerlegung stehen in den einschlägigen Software-Paketen geeignete Routinen zur Verfügung.
72
3 Lineare Modelle und Normalverteilung
Exkurs: A r b e i t e n m i t zentrierten u n d standardisierten Variablen 1. Geht man nicht von den Original variablen Xj, sondern von den zentrierten Variablen Aj = Xj — xj aus, deren Kovarianzmatrix mit jener der Xj übereinstimmt, so bleiben die Resultate (3.41a-f) erhalten, insbesondere verändern sich die kanonischen Korrelationskoeffizienten nicht. Die Anwendung der kanonischen Koeffizienten «i(0 und a 2 (j) auf die zentrierten Daten liefert jedoch andere kanonische Variablen. Statt «i(o und «2(j) gemäß (3.39a-b) ergeben sich standardisierte kanonische Variablen: «1(0 : = A1 °ι(0 = ( * i "2U)
a
1
*ί) α ΐ(·) = «1(0 - 1
2(j) = (-^2 - ι * 2 ) °2(j) = «2(j) -
°i(0>
1
a
2(j)·
(3.42 a) (3.42 b)
2. Verwendet man statt der Xj die standardisierten Variablen Zj, deren Kovarianzmatrix die Korrelationsmatrix R ist, und führt die Choleski-Zerlegung für iZn und R22 durch, so erhält man zwar andere Dreiecksmatrizen: R„ = rAi rA'i-, Δ , Φ ΓΔ,·; » = 1,2;
(3.43 a)
jedoch bleibt R\2 erhalten: R'u = r A ^ R u
Γ
Δ ί 1 ' = Δ ι SiaAJ1',
(3.43b)
und mithin auch die Singularwert-Zerlegung nebst der kanonischen Korrelationskoeffizienten. Die kanonischen Koeffizienten r · · · > (ma)) · Die statistische Inferenz der kanonischen Korrelation ist noch nicht sehr weit entwickelt. Unterstellt man für χ = (Χι,... ,Xmi:Xmi+i,... ,Xm)' eine Multinormalverteilung mit der (unbekannten) Kovarianzmatrix Σ = ΓΣΐ1 Σ ι Λ \Σ2ΐ Σ 2 2 ; ' so ist die Anzahl der kanonischen Korrelationskoeffizienten p,· in dieser Verteilung gleich dem Rang von Σ12 und mithin ebenso unbekannt wie Σχ2· Die Hypothese, daß nur κ der τηχ möglichen kanonischen Korrelationskoeffizienten p, von Null verschieden sind, also Hq: pi = 0 für t = κ + 1 , . . . , τηχ,
75
3.3 Regressionsanalyse
prüft man mit dem BARTLETT-Test auf Dimensionalität unter Verwendung der aus Σ = S errechneten empirischen kanonischen Korrelationskoeffizienten r,. Als Prüfgröße dient mi (3.48 a) Π c-f?) die unter Ho asymptotisch x 2 -verteilt ist: niveau α ist Hq zu verwerfen, wenn
χ 2 ~ x f m i - K ) (m 2 -«)· Auf dem Signifikanz-
Π I1-^) j=*+i
^ ^ ( » l - * ) (mj-«);1— -0,0254 0,0397 0,0165 0,0365 0,0841 0,2321 j und die Koeffizienten t»2(j) für «2(j) i n der j'-ten Spalte von
(
g2
=
( —0,0723 -2,2240 0,2196 V 0,1325
0,1959 -0,4408 —1,1105 ^ 1,7831 1,3705 3,8010 0,6529 0,4486 -0,5104 0,4719 -0,6089 -0,0542 )
Man sieht, daß die ersten beiden kanonischen Variablen tfyi) und ί/ι( 2 ) zur ersten Variablenmenge sehr stark von der Variablen X\ (= Wachstum des BIP) geprägt werden und die dritte kanonische Variable Ui(a) von X3 (= Arbeitslosenquote). Die vier kanonischen Variablen 1/2(1) bis t72(4) zur zweiten Variablenmenge werden alle entscheidend von der Variablen Xs (= Bevölkerungswachstum) bestimmt. Wie die Originalvariablen und die kanonischen Variablen korrelieren, zeigen die Korrelationsmatrizen -0,7251 -0,6031 0,3324 ^ J R ( x i , « i ) = I -0,6386 0,7502 0,1714 0,4382 -0,0915 0,8942 ) ( -0,8721 -0,9307 2, «2) = 0,5439 0,5212
0,0177 -0,1342 -0,4702 ^ 0,3473 0,0578 0,0989 0,5807 0,5830 -0,1644 0,4895 -0,6302 0,3025 )
3.3 Regressionsanalyse
77
Abb. 3/4a: Streuungsdiagramm des ersten Paares kanonischer Variablen (Kanonischer Korrelationskoeffizient τ\ = 0,9465)
.CB
α
« Β .FIN
•
16.5
17.0
17.5
18.0
18.5
Demographische
19.0
19.5
20.0
20.5
Variable
Abb. 3/4b: Streuungsdiagramm des zweiten Paares kanonischer Variablen (Kanonischer KorrelationskoefHzient r j = 0,7787)
i "> 3 c
V,RL 64.5
65.0
65.5
66.0
66.5
67.0
Demographische
67.5
6B.0
6B.5
69.0
Variable
Abb. 3/4c: Streuungsdiagramm des dritten Paares kanonischer Variablen (Kanonischer Korrelationskoeffizient F3 = 0,5620)
C#L
Demographische
Variable
78
3 Lineare Modelle und Normalverteilung
Die Abbildungen 3/4abis 3/4c zeigen die Streuungsdiagramme für die drei Paare kanonischer Variablen. Auf der Ordinate ist jeweils die als ökonomische Variable bezeichnete kanonische Variable Uiy) aufgetragen, auf der Abszisse die als demographische Variable angesprochene kanonische Variable [fyj)· In Abb. 3/4a ist mit Fi = 0,9465 ein sehr strammer linearer Zusammenhang zwischen ökonomischer und demographischer Variable zu erkennen, der sehr stark von den Ländern Luxemburg und Irland (Ausreißer?) geprägt ist. In Abb. 3/4b mit F2 = 0,7787 ist der lineare Zusammenhang Schacher, und er wäre noch schwächer, wenn man die drei Länder Luxemburg, Portugal und Irland ausließe. Die Abb. 3/4c mit r 3 = 0,5620 zeigt einen schwachen Zusammenhang, wobei Spanien und Dänemark als prägend für den Zuammenhang auszumachen sind. Ein Test auf von Null verschiedene kanonische KorrelationskoefBzienten mit (3.48a,b) liefert für • κ = 0 die Prüfgröße χ 2 = 35,7371 mit einem empirischen Signifikanzniveau üiemp = 0,0004, so daß die Hypothese der linearen Unabhängigkeit zwischen den beiden Var riablenmengen (Ho: pi = p2 = p3 = 0) verworfen werden kann; • κ = 1 die Prüfgröße χ 2 = 13,1189 mit a e m p = 0,0412, so daß H 0 : p2 = fe = 0 bei α = 0,05 zu verwerfen wäre, • κ = 2 die Prüfgröße χ2 = 3,7950 mit a e mp = 0,1499, so daß H 0 : £>3 = 0 bei jedem vernünftigen Signifikanzniveau zu verwerfen ist. Als Fazit bleibt festzuhalten, daß es offenbar zwei gesicherte Paare kanonischer Variablen für diesen Datensatz gibt.
3.4
Varianzanalyse
Die Varianzanalyse ist eng mit der statistischen Versuchsplanung verbunden. Sie ist die Auswertungstechnik für die gewonnenen Versuchsdaten, wenn die Einflußfaktoren nominales Skalenniveau aufweisen und die Zielvariablen (beeinflußte Variablen) kardinal sind. Es kann nicht Gegenstand einer Einführung in die multivariaten statistischen Analysetechniken sein, eine umfassende Darstellung der Varianzanalyse und der Versuchsplanung zu geben. Für den interessierten Leser möge ein Hinweis auf weiterführende Literatur genügen. 20 In einem geplanten Experiment werden Meßwerte an Versuchseinheiten gewonnen, wobei der Versuchsplan die Bedingungen enthält, nach denen die Versuchseinheiten ausgewählt und bestimmten Einilußfaktoren ausgesetzt werden. Bei der univariatenVarianzanalyse hat man es mit Meßwerten nur einer Response- oder Zielvariablen zu tun, deren Summe der Abweichungsquadrate um den Gesamtmittelwert — als 55(Total) bezeichnet — in Summen von Quadraten zerlegt wird, die einem Einflußfaktor (—¥ einfache Varianzanalyse) oder mehreren Einflußgrößen (—• mehrfache oder multiple Varianzanalyse) und einem zufälligen Resteinfluß zuzuordnen sind. Bei der m-dimensionalen multivariatenVarianzanalyse hat man es mit einem Vektor von m Responsevariablen zu tun. Statt einer Summe 5 5 (Total) treten hier m solcher Summen auf sowie weitere m(m — l ) / 2 Summen 20
Eine elementare Einführung in die Versuchsplanung ist Box, G.E.P/HUNTER, W.G./HUNTER, J.S. (1978): Statistics for Experiments, Wiley, New York. Einen AbriB der Varianzanalyse liefert z.B. AHRENS, H. (1967): Varianzanalyse, Akademie-Verlag, Berlin.
3.4 Varianzanalyse
79
von Produkten der Abweichungen je eines Paares von Response variablen, zusammengestellt in der symmetrischen τη X m Matrix SSPM(Total). Es wird diese Matrix in eine Summe von Matrizen aufgespaltet, die — wie im univariaten Fall — einem oder mehreren Einllußfaktoren und einem zufälligen ResteinfluS zugeordnet werden können.
3.4.1
Univariate Varianzanalyse
Als ein Modell der univariaten Varianzanalyse wird die zweifache Varianzanalyse vorgestellt, mit der die in einem B l o c k p l a n gewonnenen Meßwerte analysiert werden können. Mit Vorteil verwendet man einen Blockplan, wenn der Einfluß eines P r i m ä r f a k t o r s Α zu erfassen ist und ein S t ö r f a k t o r Β vorliegt, dessen Einfluß man durch die Versuchsanordnung ausschließen möchte. Dazu faßt man die Versuchseinheiten zu Blöcken zusammen, die bezüglich des Störfaktors Β möglichst homogen sein sollen. Bei einem v o l l s t ä n d i g e n B l o c k p l a n , den wir nachfolgend vorstellen, ist die Anzahl der Versuchseinheiten in einem Block für alle Blöcke gleich groß, und innerhalb eines Blocks kommt jede Faktorstufe ( = Ausprägung des Primärfaktors Ä) genau einmal vor. Beispiel 3/5: Reifenabrieb (Design und Meßwerte) Es ist zu untersuchen, ob sich die Reifen eines bestimmten Typs (205/55 R16), die von vier Herstellern Αι, Ai, A3 und A4 angeboten werden, im Abrieb unterscheiden. Der Primärfaktor Α liegt in ρ = 4 Stufen (Ausprägungen) vor. Die Reifen, die an einem Wagen montiert werden, bilden einen Block, da für sie bei den Versuchsfahrten der Wagen, sein Fahrer, die Strecken- und Witterungsbedingungen u.v.m. gleich sind. Der Faktor Β (Wagen) wird auf g = 5 Stufen eingesetzt, d.h. es wird mit 5 Wagen getestet. Um den Störfaktor „Wagen" auszuschalten, weist man die ρ = 4 Faktorstufen jeweils einem Block (Wagen) zu, innerhalb des Blocks ordnet man sie aber zufällig an, d.h. die vier verschiedenen Reifen werden zufällig auf die vier Positionen (VL, VR, HL und HR) verteilt. W i e d e r h o l u n g e n , d.h. mehrfache Versuchsdurchführungen mit jeweils derselben Stufenkombination von Α und Β gibt es nicht. Da jede Stufe von Α mit jeder Stufe von Β nur einmal kombiniert und beobachtet wird, spricht man von einer Kreuzklassifikation m i t einfacher Besetzung. Die ρ • q — 20 Meßwerte z,j, gemessen in [mm]/10, stehen in Tabelle 3/3: Tab. 3/3: Reifenabrieb H j im vollständigen Blockplan
Hersteller
Wagen Bj —• BI
B3
B4
Bb
5 Ε XH I=1
AI 4AI A2
17 14
14 14
13 13
13 8
15 13
72 62
A3
12
12
10
9
10
53
A4
13
11
11
9
11
55
56
51
47
39
49
242
4
.=1
80
3 Lineare Modelle und Normalverteilung
Für die Zielgröße (oben: der Reifenabrieb) wird das folgende lineare Modell Ω mit Block- und HerstellerefFekten angesetzt: 21 i = 1,...
,p
Ω : Xij = μ + α,· + ßj + e,j mit - j = l,...,q Σ ( 9 ^ « ) og 2
= 2 { R
-
X I ) g 2
-
K g i
±
0
(4.4g)
zu fordern. Prämultiplikation von (4.4g) mit g\ liefert unter Beachtung von und g'i g1 = 1 die Gleichung