Statistische Analyse multivariater Daten: Einführung [Reprint 2015 ed.] 9783486803860, 9783486254037

Die multivarianten Analysemethoden, bei denen mehrere Variablen simultan untersucht werden, wurden in den letzten Jahrze

201 90 31MB

German Pages 247 [252] Year 2000

Table of contents :
Vorwort
1 Grundlagen und Überblick
1.1 Datenmatrix und Variablenskalierung
1.2 Zielsetzungen multivariater Datenanalyse
1.3 Charakterisierung multivariater Verfahren
1.4 Systematisierungsansätze multivariater Verfahren
1.5 Statistische Maßzahlen für die Datenmatrix
1.6 Betrachtungsweisen der Datenmatrix
1.7 Distanzmessung zwischen Elementen
2 Plots multivariater Datensätze
2.1 Graphiken zum Vergleich der Merkmale
2.2 Graphiken zum Vergleich der Merkmalsträger
2.3 Vergleich von Merkmalen und Merkmalsträgern
3 Lineare Modelle und Normalverteilung
3.1 Lineare Modelle im Überblick
3.2 Multinormale Verteilung und Inferenz ihrer Parameter
3.3 Regressionsanalyse
3.3.1 Einführung
3.3.2 Univariate lineare Regression
3.3.3 Multivariate lineare Regression
3.3.4 Kanonische Korrelationsanalyse
3.4 Varianzanalyse
3.4.1 Univariate Varianzanalyse
3.4.2 Multivariate Varianzanalyse
3.5 Kovarianzanalyse
4 Hauptkomponentenanalyse
4.1 Definition und Berechnung der Hauptkomponenten
4.2 Interpretation, Anzahl und Anwendungen von Hauptkomponenten
4.3 Probleme und weitere Ergebnisse der Hauptkomponentenanalyse
5 Faktorenanalyse
5.1 Das faktorenanalytische Modell
5.2 Faktorenlösung
5.3 Faktorrotation
5.4 Kritische Bemerkungen
6 Diskriminanzanalyse
6.1 Diskriminanzanalyse bei Normalverteilung
6.2 Der verteilungsfreie Ansatz von FISHER
6.2.1 Der Zwei-Gruppen-Fall
6.2.2 Der Mehr-Gruppen-Fall
6.3 Trennmaße und Variablenselektion
7 Clusteranalyse
7.1 Zielsetzung
7.2 Typus der angestrebten Klassifikation
7.3 Bewertungskriterien einer Klassifikation
7.4 Hierarchische Klassifikation
7.5 Nicht-hierarchische Clusterung
7.5.1 Varianzkriterium
7.5.2 Determinantenkriterium
7.5.3 Spur(W-1 B)-Kriterium
7.5.4 Zielfunktion bei Lr-Clusterung
7.5.5 Kritische Bemerkungen
8 Multidimensionale Skalierung
8.1 Motivation und Einteilung der Verfahren
8.2 Metrische MDS mit der Haupt-Koordinaten-Methode
8.3 Nicht-metrische MDS mit der Methode von KRUSKAL
9 Grundlagen der Matrizenrechnung
9.1 Definition und einige Typen von Matrizen
9.2 Matrixverknüpfungen
9.3 Determinanten
9.4 Matrixinversion
9.5 Lineare Abhängigkeit von Vektoren und Rang einer Matrix
9.6 Lineare Gleichungssysteme
9.7 Spur einer Matrix
9.8 Eigenwerte und Eigenvektoren
9.9 Diagonalisierung symmetrischer Matrizen
9.10 Quadratische Formen und Hauptachsenrotation
9.11 Vektor- und Matrixdifferentiation
9.12 Extremwerte ohne Nebenbedingungen
9.13 Extremwerte mit Nebenbedingungen
Verteilungstabellen
Literaturverzeichnis
Stichwortverzeichnis
Namensverzeichnis
Symbolverzeichnis

Recommend Papers

Nichtparametrische Analyse longitudinaler Daten [Reprint 2014 ed.] 9783486798944, 9783486249156

Das Buch richtet sich sowohl an Statistiker und Biometriker in der Praxis als auch an die Anwender, die sich mit den Aus

143 58 7MB Read more

Statistik-Trainer: Aufgaben zur Analyse und Modellierung von Daten [Reprint 2018 ed.] 9783486810660, 9783486259094

Das Buch richtet sich an alle, die ein aktives Verständnis grundlegender statistischer Methoden anstreben, etwa um selbs

180 8 11MB Read more

Geometrische Modelle zur Analyse empirischer Daten [Reprint 2022 ed.] 9783112651667

154 112 60MB Read more

Logit-Analyse: Statistische Verfahren zur Analyse von Modellen mit qualitativen Response-Variablen 9783110510041, 9783828243064

142 17 14MB Read more

Einführung in statistische Analysen: Fragen beantworten mit Hilfe von Daten (Springer-Lehrbuch) (German Edition) 3540339302, 9783540339304

Das Buch führt schrittweise in die faszinierende Welt statistischer Analysen ein. Es erfordert weder Vorwissen in Statis

114 111 4MB Read more

Statistische Methoden der Modellbildung, III: Statistische Inferenz für Kovarianzparameter [Reprint 2021 ed.] 9783112484524, 9783112484517

150 20 89MB Read more

Qualität bei zusammengeführten Daten: Befragungsdaten, administrative Daten, neue digitale Daten: miteinander besser? [1. Aufl.] 9783658310080, 9783658310097

Die Zusammenführung von Daten aus verschiedenen Quellen eröffnet der akademischen Sozialforschung, der Marktforschung wi

433 91 15MB Read more

Statistische Inferenz [Reprint 2018 ed.] 9783486789225

Maßgebliches Lehrwerk der Statistik im Hauptstudium.

137 100 31MB Read more

Statistische Thermodynamik des Nichtgleichgewichts [Reprint 2021 ed.] 9783112576984, 9783112576977

131 72 111MB Read more

Einfhrung in die Metaethik 9783150191378, 9783159603759

119 36 Read more

Statistische Analyse multivariater Daten: Einführung [Reprint 2015 ed.]
9783486803860, 9783486254037

Author / Uploaded
Horst Rinne

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Böhning, Allgemeine Epidemiologie Caspary · Wichmann, Lineare Modelle Chatterjee · Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen · Lorscheid, Statistik-Aufgabensammlung, 3. Auflage Härtung, Modellkatalog Varianzanalyse Harvey (Übers. Untiedt), Ökonometrische Analyse von Zeitreihen, 2. Auflage Harvey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler · Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller (Übers. Schlittgen), Grundlagen der Angewandten Statistik Naeve, Stochastik für Informatik Oerthel · Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer · Heine · Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Deskriptive Statistik Pflaumer · Heine · Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse Rasch · Herrendörfer u.a., Verfahrensbibliothek, Band I und Band 2 Rinne, Wirtschafts- und Bevölkerungsstatistik, 2. Auflage Rinne, Statistische Analyse multivariater Daten - Einfuhrung Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I: Grundlagen Schlittgen, Statistik, 8. Auflage Schlittgen, Statistische Inferenz Schlittgen · Streitberg, Zeitreihenanalyse, 8. Auflage Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten

Fachgebiet

Biometrie

Herausgegeben von Dr. Rolf Lorenz Bisher erschienen: Bock, Bestimmung des Stichprobenumfangs Brunner · Langer, Nichtparametrische Analyse longitudinaler Daten

Statistische Analyse multivariater Daten Einführung

Von

Prof. Dr. Horst Rinne Universität Gießen

R.01denbourg Verlag München Wien

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Rinne, Horst: Statistische Analyse multivariater Daten : Einführung / Horst Rinne. - München; Wien: Oldenbourg, 2000 (Lehr- und Handbücher der Statistik) ISBN 3-486-25403-0

© 2000 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-25403-0

Inhaltsverzeichnis Vorwort 1

2

IV

Grundlagen und Überblick

1

1.1

Datenmatrix und Variablenskalierung

1

1.2

Zielsetzungen multivariater Datenanalyse

3

1.3

Charakterisierung multivariater Verfahren

4

1.4

Systematisierungsansätze multivariater Verfahren

6

1.5

Statistische Maßzahlen für die Datenmatrix

7

1.6

Betrachtungsweisen der Datenmatrix

12

1.7

Distanzmessung zwischen Elementen

16

Plots multivariater Datensätze

21

2.1

Graphiken zum Vergleich der Merkmale

23

2.2

Graphiken zum Vergleich der Merkmalsträger

28

2.3

Vergleich von Merkmalen und Merkmalsträgern

36

3 Lineare Modelle und Normalverteilung 3.1

Lineare Modelle im Überblick

42

3.2

Multinormale Verteilung und Inferenz ihrer Parameter

45

3.3

Regressionsanalyse

56

3.3.1

Einführung

56

3.3.2

Univariate lineare Regression

57

3.3.3

Multivariate lineare Regression

64

3.3.4

Kanonische Korrelationsanalyse

69

3.4

3.5 4

42

Varianzanalyse

78

3.4.1

Univariate Varianzanalyse

79

3.4.2

Multivariate Varianzanalyse

83

Kovarianzanalyse

87

Hauptkomponentenanalyse

97

4.1

Definition und Berechnung der Hauptkomponenten

97

4.2

Interpretation, Anzahl und Anwendungen von Hauptkomponenten . 104

4.3

Probleme und weitere Ergebnisse der Hauptkomponentenanalyse . . 120

II

Inhaltsverzeichnis

5 Faktorenanalyse

β

5.1 Das faktorenanalytische Modell

129

5.2

Faktorenlösung

133

5.3 Faktorrotation

136

5.4 Kritische Bemerkungen

142

Diskriminanzanalyse

144

6.1 Diskriminanzanalyse bei Normalverteilung

144

6.2

7

8

9

129

Der verteilungsfreie Ansatz von FISHER

156

6.2.1

Der Zwei-Gruppen-Fall

156

6.2.2

Der Mehr-Gruppen-Fall

157

6.3 Trennmaße und Variablenselektion

160

Clusteranalyse

165

7.1

Zielsetzung

165

7.2

Typus der angestrebten Klassiiikation

165

7.3

Bewertungskriterien einer Klassifikation

169

7.4

Hierarchische Klassiiikation

173

7.5

Nicht-hierarchische Clusterung

178

7.5.1

Varianzkriterium

179

7.5.2

Determinantenkriterium

182

—1

7.5.3

Spur(W

B)-Kriterium

183

7.5.4

Zielfunktion bei L r -Clusterung

183

7.5.5

Kritische Bemerkungen

184

Multidimensionale Skalierung

186

8.1 Motivation und Einteilung der Verfahren

186

8.2

Metrische MDS mit der Haupt-Koordinaten-Methode

190

8.3 Nicht-metrische MDS mit der Methode von KRUSKAL

191

Grundlagen der Matrizenrechnung

196

9.1 Definition und einige Typen von Matrizen

196

9.2

198

Matrixverknüpfungen

9.3 Determinanten

200

9.4 Matrixinversion

200

9.5 Lineare Abhängigkeit von Vektoren und Hang einer Matrix

202

Inhaltsverzeichnis

III

9.6

Lineare Gleichungssysteme

203

9.7

Spur einer Matrix

204

9.8

Eigenwerte und Eigenvektoren

204

9.9

Diagonalisierung symmetrischer Matrizen

205

9.10 Quadratische Formen und Hauptachsenrotation

206

9.11 Vektor- und Matrixdifferentiation

207

9.12 Extremwerte ohne Nebenbedingungen

210

9.13 Extremwerte mit Nebenbedingungen

210

Verteilungstabellen

212

Literaturverzeichnis

224

Stichwortverzeichnis

230

Namensverzeichnis

236

Symbolverzeichnis

238

Vorwort In der statistischen Grundausbildung dominieren univariate Verfahren. Auf der Modellebene wird mit eindimensionalen Verteilungen gearbeitet, auf der empirischen Ebene mit Stichproben, bei denen je Merkmalsträger (= Element) nur ein Merkmal ausgewertet wird. Entsprechend geht es bei bivariaten Verfahren um zweidimensionale Verteilungen von Zufallsvariablen bzw. um die simultane Betrachtung zweier Merkmale je Merkmalsträger. Als bivariate Verfahren sind im Grundstudium die Korrelation — nach BRAVAIS-PEARSON oder nach SPEARMAN —, die lineare Einfachregression und die einfache Varianzanalyse vorgestellt worden. Die meisten empirischen Untersuchungen basieren auf Mehrzweckstichproben, d.h. es werden mehr als zwei Merkmale je Element erhoben. Die Auswertung solcher Datensätze verlangt den Einsatz multivariater Verfahren, hinter denen i.d.R. mehrdimensionale Verteilungsmodelle stehen. Im Unterschied zu univariaten und bivariaten Verfahren, bei denen jeweils nur eine oder zwei Variablen betrachtet werden und deren mehrfache Anwendung auf denselben Datensatz — etwa durch Analyse aller Paare von Merkmalen — zu schwer abschätzbaren Fehlern führen kann, werden in einem multivariaten Verfahren mehrere Variablen simultan untersucht. Es geht also um die gemeinsame Betrachtung von m > 2 Variablen an η > 2 Elementen. Die Ursprünge der multivariaten Analysetechniken lassen sich zwar sehr weit zurückverfolgen, ihr Ausbau und vor allem ihr Einsatz auf breiter Front erfolgten aber erst in den letzten Jahrzehnten. Dabei spielte die Verfügbarkeit leistungsfähiger — und preiswerter — Rechner mit hoher Rechengeschwindigkeit und großen Speichern eine entscheidende Rolle. Die Entwicklungen in den einzelnen Zweigen der multivariaten Statistik sind kaum noch zu übersehen. Daher kann diese Lehrveranstaltung nicht mehr als eine Einführung sein. Sie beschränkt sich auf die Vorstellung der grundsätzlichen Verfahren und zeigt die typischen Fragestellungen. Nachfolgend findet sich eine Auswahl von Büchern zur multivariaten Statistik, deren Schwerpunkt nicht bei der Darstellung einer einzigen Methode liegt, sondern die vielmehr die gesamte Breite abzudecken versuchen.1 Auf einem nicht zu hohen Niveau liegen die folgenden Werke: BACKHAUS, E . u . a . ( 1 9 9 6 )

Multivariate Analysemethoden — Eine anwendungsorientierte Einführung; 8. Aufl., Springer, Berlin BOLCH, B . L . / HUANG, C . J . (1974)

Multivariate Statistical Methods for Business and Economics; Prentice Hall, Englewood Cliffs C O O L E Y , W . C . / LOHNES, P . R . ( 1 9 7 1 )

Multivariate Data Analysis; Wiley, New York etc.

1

Spezielle Literatur zu den einzelnen Problemkreieen wird in den folgenden Kapiteln angegeben.

Vorwort

V

FLURY, Β . / RIEDWYL, Η . ( 1 9 8 3 )

Angewandte multivariate Statistik; G. Fischer, Stuttgart/New York, 1983 MARINELL, G . (1995)

Multivariate Verfahren; 4. Aufl., Oldenbourg, München/Wien Auf einem mittleren Anspruchsniveau liegen: HÄRTUNG, J . / ELPELT, B . ( 1 9 9 5 )

Multivariate Statistik; 5. Aufl., Oldenbourg, München/Wien KENDALL, M . G . (1975)

Multivariate Analysis; Griffin, London, 1975 Anspruchsvoller und eher formal sind: ANDERSON, T . W . (1958)

An Introduction to Multivariate Statistical Analysis; Wiley, New York etc. FAHRMEIR, L . / HAMERLE, A . / Τ Υ Τ Ζ , G . ( 1 9 9 6 )

Multivariate statistische Verfahren; 2. Aufl., De Gruyter, Berlin/New York KSHIRSAGAR,Analysis; A . M . (1972) Multivariate M. Dekker, New York/Basel

Da die multivariate Statistik nicht ohne Matrizenalgebra auskommt, sind im Kap. 9 die relevanten Formeln — ohne Beweise und Beispiele — zusammengestellt. Bücher brauchen nicht nur einen Autor, sondern auch eine Reihe weiterer Personen, um die Ideen des Autors umzusetzen und auch unter diversen Aspekten zu prüfen. In diesem Sinne möchte ich mich ganz herzlich bedanken bei • meiner Sekretärin Frau Inge Bojara, die das Manuskript zu diesem Buch unter Einsatz von WinEdit in ein Dl^X-File übertragen hat, • meiner Mitarbeiterin Frau Dr. Dorothea Reimer, die in allen Fragen des Arbeitens mit TfeX, M ^ X , Winedit, GhostView und PostScript-Dateien wertvolle Tips gegeben hat, • meiner Mitarbeiterin Dipl.-Volkswirtin Gabriele Spieker für die gewissenhafte Revision und Korrektur und last but not least • den Studierenden für die Anregungen und interessierten Fragen, als ich mit ihnen in den letzten Semestern das Konzept zu diesem Buch getestet habe.

1 Grundlagen und Uberblick ··

1.1

Datenmatrix und Variablenskalierung

Ausgangspunkt nahezu aller multivariaten Verfahren1 mit umgruppierten Daten — und nur diese sollen hier betrachtet werden2 — ist eine η χ τη Datenmatrix (Beobachtungs- oder Designmatrix) X . In ihr werden die an η Elementen (Objekten, Merkmalsträgern) registrierten Beobachtungswerte von je m Variablen (Merkmalen) zusammengestellt:3

/

Xn

Xl2

121 222

Xln

\

X2 m

ei Ϊ2

j = 1,.. . , m \ Xnl

t

Χι

(1.1)

Xn2

t

X2

t Xm

Es ist Xij der Beobachtungswert der j-ten Variablen am i-ten Element. Die t-te Zeile*

®(«.) : = («il. x«"2. · · · 1 xim)i t = 1 , . . . , n;

(1.2)

enthält den Beobachtungsvektor für Element e,·, die j-te Spalte

fm-i;»-n;i-e·

ab, wenn (3.28 b)

62

3 Lineare Modelle und Normalverteilung

Mit (3.28a-b) wird der lineare Einfluß aller Regressoren X 2 , · · · ,Xm auf Χχ getestet. Möchte man prüfen, ob ein einziger Regressor Xj, j > 1, einen signifikanten EinfluS auf Χχ hat, so lautet für H 0 : ßji = 0

gegen

H i : ßjx φ 0; j > 1;

die Prüfgröße Τ :=

mit

T~in_m,

(3.29 a)

wobei cjj das j - t e Diagonalelement der geschätzten Kovarianzmatrix C von ßx ist C :=

= ^ γ

Ho : ßji = 0 ist zugunsten von Hi : ßji verwerfen, wenn

(3.29 b)

φ 0 auf dem Signifikanzniveau α zu

\T\ > i „ _ m ; i _ a / 2 .

(3.29 c)

Beispiel 3 / 2 : Univariate lineare Regression Die folgende Matrix zeigt für die 15 EU-Staaten je vier bevölkerungsstatistische Kennzahlen des Jahres 1996:14 X\

-

Gestorbene je 1000 Einwohner

X-i

-

Bevölkerungswachstum i.v.H.

Xz

-

Lebenserwartung neugeborener Frauen (in Jahren)

X4

-

Anteil der 45- bis 65-jährigen an der Bevölkerung i.v.H. 10,8 10,4 11,6 9,6 9,2 9,6 10,9 8,7 9,7 9,4 8,9 10,0 10,8 10,6 8,6

14

0,2 0,3 0,5 0,3 0,4 0,2 0,3 0,8 0,2 1,3 0,4 0,2 0,1 0,1 0,1

79,7 80,2 78,0 80,5 81,9 80,3 79,3 78,5 81,3 80,0 80,3 80,2 78,5 81,5 81,6

25,0 23,0 24,3 24,3 21,8 24,2 22,5 19,0 24,8 23,1 22,7 22,6 22,7 23,6 22,0

\ m, rg(X) = m und o.B.d.A. τηχ < m 2 . Die zu X gehörenden m x m Kovarianz- und Korrelationsmatrizen lauten in ihrer Partition S= i^11 \S21 S22J'

R=

(*» \Ä2i R 2 2 / '

mit S i j und R i j vom Typ τη,· Xm, und t, j = 1, 2. Bezeichnen x i = ... ,Xmi)' und X2 = (Xmi+i,. • • ,Xm)' die Vektoren der Originalvariablen (keine Variablenwerte!), so sind die k a n o n i s c h e n V a r i a b l e n als UHt)

:=

o' 1(l) ®i; i = 1 , . . . , mi;

U2(j)

:=

a2(j)

(3.38 a)

®2! j = 1 , . . . , m 3 ;

(3.38 b)

zu schreiben, wobei die in a ^ bzw. a ^ j stehenden τη χ bzw. m 2 Linearfaktoren als k a n o n i s c h e K o e f f i z i e n t e n bezeichnet werden. Die η Werte jeder kanonischen Variablen ergeben sich als Μ u

ι(ί)

2(j)

:

=

X i ai(o'> * = Ii · · · . "»1;

(3.39 a)

:=

X 2 a2(j)i i = 1 , . . . , m 2 .

(3.39 b)

Die Werte der kanonischen Koeffizienten sind aus den Daten in X unter Einhaltung der Restriktionen Cov(U1(t),i7lW) =α'1(,·)511α1(/)

=

j *

= a2(i) 5 22 aa(e)

=

I J ^

Cov(t/ 1 { t ) ,^2(o) = e i ( , - ) 5 w ° a ü )

=

I J'

Cov (U2{ο, Um)

* ~ ' | i,£ = 1 , . . . ,

Jür

3.

=

]J

mi

(3.40 a)

I j, l = 1 , . . . , m 2 (3.40 b) =

1

(3.40c)

zu bestimmen. Mit Sn = 1 für i — l wird verlangt, daß jede kanonische Variable Efy,·) die Varianz Eins hat, während a ^ S n a ^ j = 0 für t φ l bedeutet, daß die zur ersten Variablenmenge gehörenden kanonischen Variablen eine Kovarianz von Null haben und mithin nicht korrelieren. Entsprechend ist (3.40b)

71

3.3 Regressionsanalyse

für die kanonischen Variablen tfyj) der zweiten Variablenmenge zu lesen. Wegen α ί(.) S n a i ( . ) = a2(j)S^am) = 1 i s t i n ( 3 - 4 0 c ) d i e Größe r,· =: r (Z7 ), Efyo) = 1(i a 'i(i) ^12 a2(«) e i R Korrelationskoeffizient, nämlich der kanonische Korrelationskoeffizient zwischen dem »-ten Paar (t = 1 , . . . , mi) von kanonischen Variablen.17 Die kanonischen Korrelationskoeffizienten sollen der Bedingung 1 > η > r2 > . . . > r m i > 0 genügen. Die numerische Bestimmung der kanonischen Variablen und der kanonischen Korrelationskoeffizienten ist auf verschiedenen Wegen möglich. Die ersten beiden der drei nachfolgend beschriebenen Methoden sind mathematisch eleganter als die dritte Methode. Methode 1: Zerlegung von S Das Verfahren startet mit einer Choleski— Zerlegung von S u und S 2 2 : 5,·,· = Δ,·Δ{; » = 1,2;

(3.41a)

wobei Ai eine m,· X m,· untere Dreiecksmatrix mit vollem Rang ist. Dann bildet man äJj^A^ShAJ1'

(3.41b)

und wendet auf die (mj X m2)-Matrix ÄJ 2 eine Singularwert—Zerlegung 18 an: (3.41C)

R*12 = Gl(D:0)G'2.

Eis ist Gi eine orthogonale Matrix vom Typ m; X m;. Gi (G2) enthält die mi (m2) linken (rechten) Singularvektoren von R*2. D ist eine (toi X mx)-Diagonalmatrix, die die gesuchten kanonischen Korrelationskoeffizienten aufweist: ri = du.

(3.41 d)

0 ist eine Nullmatrix vom Typ πΐι χ (m 2 —mj), die nur benötigt wird, wenn τη\ < m2. Die kanonischen Koeffizienten ergeben sich wie folgt: α ι(») —

a2

(j)

-

»" te Spalte von Δ^"1 G1; t = 1 , . . . , j-te Spalte von Δ ^ 1 G2\j = l , . . . , m 2 .

toi;

(3.41 e) (3.41 f)

17

Der zweite Teil von (3.40c) — Su = 0 für 1 / j — drückt die Forderung nach Unkorreliertheit der zu verschiedenen Variablenmengen gehörenden kanonischen Variablen aus.

ls

Die Singularwerte einer reellen (ρ χ g)-Matrix Α sind die nicht-negativen Quadratwurzeln der Eigenwerte von Α Α', falls ρ < q, und von A' A, falls ρ > q. Zur Durchführung sowohl der Singularwert- als auch der Choleski-Zerlegung stehen in den einschlägigen Software-Paketen geeignete Routinen zur Verfügung.

72

3 Lineare Modelle und Normalverteilung

Exkurs: A r b e i t e n m i t zentrierten u n d standardisierten Variablen 1. Geht man nicht von den Original variablen Xj, sondern von den zentrierten Variablen Aj = Xj — xj aus, deren Kovarianzmatrix mit jener der Xj übereinstimmt, so bleiben die Resultate (3.41a-f) erhalten, insbesondere verändern sich die kanonischen Korrelationskoeffizienten nicht. Die Anwendung der kanonischen Koeffizienten «i(0 und a 2 (j) auf die zentrierten Daten liefert jedoch andere kanonische Variablen. Statt «i(o und «2(j) gemäß (3.39a-b) ergeben sich standardisierte kanonische Variablen: «1(0 : = A1 °ι(0 = ( * i "2U)

a

1

*ί) α ΐ(·) = «1(0 - 1

2(j) = (-^2 - ι * 2 ) °2(j) = «2(j) -

°i(0>

1

a

2(j)·

(3.42 a) (3.42 b)

2. Verwendet man statt der Xj die standardisierten Variablen Zj, deren Kovarianzmatrix die Korrelationsmatrix R ist, und führt die Choleski-Zerlegung für iZn und R22 durch, so erhält man zwar andere Dreiecksmatrizen: R„ = rAi rA'i-, Δ , Φ ΓΔ,·; » = 1,2;

(3.43 a)

jedoch bleibt R\2 erhalten: R'u = r A ^ R u

Γ

Δ ί 1 ' = Δ ι SiaAJ1',

(3.43b)

und mithin auch die Singularwert-Zerlegung nebst der kanonischen Korrelationskoeffizienten. Die kanonischen Koeffizienten r · · · > (ma)) · Die statistische Inferenz der kanonischen Korrelation ist noch nicht sehr weit entwickelt. Unterstellt man für χ = (Χι,... ,Xmi:Xmi+i,... ,Xm)' eine Multinormalverteilung mit der (unbekannten) Kovarianzmatrix Σ = ΓΣΐ1 Σ ι Λ \Σ2ΐ Σ 2 2 ; ' so ist die Anzahl der kanonischen Korrelationskoeffizienten p,· in dieser Verteilung gleich dem Rang von Σ12 und mithin ebenso unbekannt wie Σχ2· Die Hypothese, daß nur κ der τηχ möglichen kanonischen Korrelationskoeffizienten p, von Null verschieden sind, also Hq: pi = 0 für t = κ + 1 , . . . , τηχ,

75

3.3 Regressionsanalyse

prüft man mit dem BARTLETT-Test auf Dimensionalität unter Verwendung der aus Σ = S errechneten empirischen kanonischen Korrelationskoeffizienten r,. Als Prüfgröße dient mi (3.48 a) Π c-f?) die unter Ho asymptotisch x 2 -verteilt ist: niveau α ist Hq zu verwerfen, wenn

χ 2 ~ x f m i - K ) (m 2 -«)· Auf dem Signifikanz-

Π I1-^) j=*+i

^ ^ ( » l - * ) (mj-«);1— -0,0254 0,0397 0,0165 0,0365 0,0841 0,2321 j und die Koeffizienten t»2(j) für «2(j) i n der j'-ten Spalte von

(

g2

=

( —0,0723 -2,2240 0,2196 V 0,1325

0,1959 -0,4408 —1,1105 ^ 1,7831 1,3705 3,8010 0,6529 0,4486 -0,5104 0,4719 -0,6089 -0,0542 )

Man sieht, daß die ersten beiden kanonischen Variablen tfyi) und ί/ι( 2 ) zur ersten Variablenmenge sehr stark von der Variablen X\ (= Wachstum des BIP) geprägt werden und die dritte kanonische Variable Ui(a) von X3 (= Arbeitslosenquote). Die vier kanonischen Variablen 1/2(1) bis t72(4) zur zweiten Variablenmenge werden alle entscheidend von der Variablen Xs (= Bevölkerungswachstum) bestimmt. Wie die Originalvariablen und die kanonischen Variablen korrelieren, zeigen die Korrelationsmatrizen -0,7251 -0,6031 0,3324 ^ J R ( x i , « i ) = I -0,6386 0,7502 0,1714 0,4382 -0,0915 0,8942 ) ( -0,8721 -0,9307 2, «2) = 0,5439 0,5212

0,0177 -0,1342 -0,4702 ^ 0,3473 0,0578 0,0989 0,5807 0,5830 -0,1644 0,4895 -0,6302 0,3025 )

3.3 Regressionsanalyse

77

Abb. 3/4a: Streuungsdiagramm des ersten Paares kanonischer Variablen (Kanonischer Korrelationskoeffizient τ\ = 0,9465)

.CB

α

« Β .FIN

•

16.5

17.0

17.5

18.0

18.5

Demographische

19.0

19.5

20.0

20.5

Variable

Abb. 3/4b: Streuungsdiagramm des zweiten Paares kanonischer Variablen (Kanonischer KorrelationskoefHzient r j = 0,7787)

i "> 3 c

V,RL 64.5

65.0

65.5

66.0

66.5

67.0

Demographische

67.5

6B.0

6B.5

69.0

Variable

Abb. 3/4c: Streuungsdiagramm des dritten Paares kanonischer Variablen (Kanonischer Korrelationskoeffizient F3 = 0,5620)

C#L

Demographische

Variable

78

3 Lineare Modelle und Normalverteilung

Die Abbildungen 3/4abis 3/4c zeigen die Streuungsdiagramme für die drei Paare kanonischer Variablen. Auf der Ordinate ist jeweils die als ökonomische Variable bezeichnete kanonische Variable Uiy) aufgetragen, auf der Abszisse die als demographische Variable angesprochene kanonische Variable [fyj)· In Abb. 3/4a ist mit Fi = 0,9465 ein sehr strammer linearer Zusammenhang zwischen ökonomischer und demographischer Variable zu erkennen, der sehr stark von den Ländern Luxemburg und Irland (Ausreißer?) geprägt ist. In Abb. 3/4b mit F2 = 0,7787 ist der lineare Zusammenhang Schacher, und er wäre noch schwächer, wenn man die drei Länder Luxemburg, Portugal und Irland ausließe. Die Abb. 3/4c mit r 3 = 0,5620 zeigt einen schwachen Zusammenhang, wobei Spanien und Dänemark als prägend für den Zuammenhang auszumachen sind. Ein Test auf von Null verschiedene kanonische KorrelationskoefBzienten mit (3.48a,b) liefert für • κ = 0 die Prüfgröße χ 2 = 35,7371 mit einem empirischen Signifikanzniveau üiemp = 0,0004, so daß die Hypothese der linearen Unabhängigkeit zwischen den beiden Var riablenmengen (Ho: pi = p2 = p3 = 0) verworfen werden kann; • κ = 1 die Prüfgröße χ 2 = 13,1189 mit a e m p = 0,0412, so daß H 0 : p2 = fe = 0 bei α = 0,05 zu verwerfen wäre, • κ = 2 die Prüfgröße χ2 = 3,7950 mit a e mp = 0,1499, so daß H 0 : £>3 = 0 bei jedem vernünftigen Signifikanzniveau zu verwerfen ist. Als Fazit bleibt festzuhalten, daß es offenbar zwei gesicherte Paare kanonischer Variablen für diesen Datensatz gibt.

3.4

Varianzanalyse

Die Varianzanalyse ist eng mit der statistischen Versuchsplanung verbunden. Sie ist die Auswertungstechnik für die gewonnenen Versuchsdaten, wenn die Einflußfaktoren nominales Skalenniveau aufweisen und die Zielvariablen (beeinflußte Variablen) kardinal sind. Es kann nicht Gegenstand einer Einführung in die multivariaten statistischen Analysetechniken sein, eine umfassende Darstellung der Varianzanalyse und der Versuchsplanung zu geben. Für den interessierten Leser möge ein Hinweis auf weiterführende Literatur genügen. 20 In einem geplanten Experiment werden Meßwerte an Versuchseinheiten gewonnen, wobei der Versuchsplan die Bedingungen enthält, nach denen die Versuchseinheiten ausgewählt und bestimmten Einilußfaktoren ausgesetzt werden. Bei der univariatenVarianzanalyse hat man es mit Meßwerten nur einer Response- oder Zielvariablen zu tun, deren Summe der Abweichungsquadrate um den Gesamtmittelwert — als 55(Total) bezeichnet — in Summen von Quadraten zerlegt wird, die einem Einflußfaktor (—¥ einfache Varianzanalyse) oder mehreren Einflußgrößen (—• mehrfache oder multiple Varianzanalyse) und einem zufälligen Resteinfluß zuzuordnen sind. Bei der m-dimensionalen multivariatenVarianzanalyse hat man es mit einem Vektor von m Responsevariablen zu tun. Statt einer Summe 5 5 (Total) treten hier m solcher Summen auf sowie weitere m(m — l ) / 2 Summen 20

Eine elementare Einführung in die Versuchsplanung ist Box, G.E.P/HUNTER, W.G./HUNTER, J.S. (1978): Statistics for Experiments, Wiley, New York. Einen AbriB der Varianzanalyse liefert z.B. AHRENS, H. (1967): Varianzanalyse, Akademie-Verlag, Berlin.

3.4 Varianzanalyse

79

von Produkten der Abweichungen je eines Paares von Response variablen, zusammengestellt in der symmetrischen τη X m Matrix SSPM(Total). Es wird diese Matrix in eine Summe von Matrizen aufgespaltet, die — wie im univariaten Fall — einem oder mehreren Einllußfaktoren und einem zufälligen ResteinfluS zugeordnet werden können.

3.4.1

Univariate Varianzanalyse

Als ein Modell der univariaten Varianzanalyse wird die zweifache Varianzanalyse vorgestellt, mit der die in einem B l o c k p l a n gewonnenen Meßwerte analysiert werden können. Mit Vorteil verwendet man einen Blockplan, wenn der Einfluß eines P r i m ä r f a k t o r s Α zu erfassen ist und ein S t ö r f a k t o r Β vorliegt, dessen Einfluß man durch die Versuchsanordnung ausschließen möchte. Dazu faßt man die Versuchseinheiten zu Blöcken zusammen, die bezüglich des Störfaktors Β möglichst homogen sein sollen. Bei einem v o l l s t ä n d i g e n B l o c k p l a n , den wir nachfolgend vorstellen, ist die Anzahl der Versuchseinheiten in einem Block für alle Blöcke gleich groß, und innerhalb eines Blocks kommt jede Faktorstufe ( = Ausprägung des Primärfaktors Ä) genau einmal vor. Beispiel 3/5: Reifenabrieb (Design und Meßwerte) Es ist zu untersuchen, ob sich die Reifen eines bestimmten Typs (205/55 R16), die von vier Herstellern Αι, Ai, A3 und A4 angeboten werden, im Abrieb unterscheiden. Der Primärfaktor Α liegt in ρ = 4 Stufen (Ausprägungen) vor. Die Reifen, die an einem Wagen montiert werden, bilden einen Block, da für sie bei den Versuchsfahrten der Wagen, sein Fahrer, die Strecken- und Witterungsbedingungen u.v.m. gleich sind. Der Faktor Β (Wagen) wird auf g = 5 Stufen eingesetzt, d.h. es wird mit 5 Wagen getestet. Um den Störfaktor „Wagen" auszuschalten, weist man die ρ = 4 Faktorstufen jeweils einem Block (Wagen) zu, innerhalb des Blocks ordnet man sie aber zufällig an, d.h. die vier verschiedenen Reifen werden zufällig auf die vier Positionen (VL, VR, HL und HR) verteilt. W i e d e r h o l u n g e n , d.h. mehrfache Versuchsdurchführungen mit jeweils derselben Stufenkombination von Α und Β gibt es nicht. Da jede Stufe von Α mit jeder Stufe von Β nur einmal kombiniert und beobachtet wird, spricht man von einer Kreuzklassifikation m i t einfacher Besetzung. Die ρ • q — 20 Meßwerte z,j, gemessen in [mm]/10, stehen in Tabelle 3/3: Tab. 3/3: Reifenabrieb H j im vollständigen Blockplan

Hersteller

Wagen Bj —• BI

B3

B4

Bb

5 Ε XH I=1

AI 4AI A2

17 14

14 14

13 13

13 8

15 13

72 62

A3

12

12

10

9

10

53

A4

13

11

11

9

11

55

56

51

47

39

49

242

4

.=1

80

3 Lineare Modelle und Normalverteilung

Für die Zielgröße (oben: der Reifenabrieb) wird das folgende lineare Modell Ω mit Block- und HerstellerefFekten angesetzt: 21 i = 1,...

,p

Ω : Xij = μ + α,· + ßj + e,j mit - j = l,...,q Σ ( 9 ^ « ) og 2

= 2 { R

-

X I ) g 2

-

K g i

±

0

(4.4g)

zu fordern. Prämultiplikation von (4.4g) mit g\ liefert unter Beachtung von und g'i g1 = 1 die Gleichung