155 12 53MB
German Pages 468 [472] Year 1993
BioStatistik^ Hypothesentests - Varianzanalyse - Nichtparametrische Statistik - Analyse von Kontingenztafeln Korrelationsanalyse - Regressionsanalyse - Zeitreihenanalyse - Programmbeispiele in MINITAB, STATA, N, StatXact und TESTIMATE von Professor Dr. Manfred Precht und Dr. agr. Roland Kraft Technische Universität München-Weihenstephan Abteilung Mathematik und Statistik 5., völlig überarbeitete Auflage mit 42 Abbildungen, 57 Tabellen und 108 Beispielen
R. Oldenbourg Verlag München Wien 1993
Die Deutsche Bibliothek — CIP-Eiiiheitsaufnahme Precht, Manfred:
Bio-Statistik / von Manfred Precht und Roland Kraft. München ; Wien : Oldenbourg. NE: Kraft, Roland: 2. Hypothesentests — Varianzanalyse — Nichtparametrische Statistik - Analyse von Kontingenztafeln Korrelationsanalyse - Regressionsanalyse - Zeitreihenanalyse Programmbeispiele in MINITAB, STATA, N, StatXact und TESTIMATE : mit 57 Tabellen und 108 Beispielen. - 5., völlig Überarb. Aufl. - 1993 ISBN 3-486-22044-6
© 1993 R. Oldenbourg Verlag GmbH, München Das Werk außerhalb lässig und filmungen
einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzustrafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverund die Einspeicherung und Bearbeitung in elektronischen Systemen.
Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München
ISBN 3-486-22044-6
Inhalt Vorwort
1
8
Test v o n statistischen H y p o t h e s e n
3
8.1
Grundbegriffe der Testtheorie
4
8.2
Test von Erwartungswerten
8.3
9
11
8.2.1
Der i-Test für den Erwartungswert (er unbekannt)
...
11
8.2.2
Der z-Test für den Erwartungswert (er bekannt)
15
8.2.3
Vertrauensintervalle für den Erwartungswert
17
8.2.4
Vergleich zweier Erwartungswerte
19
8.2.5
Unabhängige oder verbundene Stichproben?
30
8.2.6
Einseitige oder zweiseitige Alternativhypothesen? . . . .
32
8.2.7
Bekanntes oder unbekanntes er?
33
Test der Varianz
35
8.3.1
Test der Hypothese a = ao
35
8.3.2
Der F-Test zum Vergleich zweier Varianzen
37
8.3.3
Der Pfanzagl-Test zum Vergleich zweier Varianzen . . .
41
8.4
Vergleich von zwei Bemoulli-Wahrscheinlichkeiten
43
8.5
Test auf Ausreißer
47
8.6
Versuchsplanung und Stichprobenumfang
51
Varianzanalyse
63
9.1
Ein einführendes Beispiel
65
9.2
Die einfaktorielle Varianzanalyse
70
9.3
Die zweifaktorielle Varianzanalyse
76
9.4
Drei- und mehrfaktorielle Varianzanalysen
82
9.5
Versuchsanlagen
87
9.5.1
Grundlagen und Prinzipien der Versuchsplanung . . . .
87
9.5.2
Varianzanalytische Modelle
89
9.5.3
Prüfung der Voraussetzungen der Varianzanalyse . . . .
95
9.5.4
Die vollständig randomisierte einfaktorielle Versuchsanlage 99
VI
Inhalt 9.5.5
Die vollständig randomisierte zweifaktorielle Versuchsanlage
101
Die vollständig randomisierte dreifaktorielle Versuchsanlage
107
9.5.7
Die vollständige einfaktorielle Blockanlage
108
9.5.8
Die vollständige zweifaktorielle Blockanlage
113
9.5.9
Das einfaktorielle Lateinische Quadrat
117
9.5.6
9.6
9.5.10 Zwei- und mehrfaktorielle Lateinische Quadrate
120
9.5.11 Die zweifaktorielle Spaltanlage
122
9.5.12 Die dreifaktorielle Spaltanlage
127
9.5.13 Die zweifaktorielle Streifenanlage
134
Multiple Mittelwertsvergleiche
139
9.6.1
Globaltest und multiple Tests
139
9.6.2
Simultane Irrtumswahrscheinlichkeit bei multiplen Testproblemen
141
9.6.3
Einschrittverfahren für multiple Mittelwertsvergleiche
142
9.6.4
Many-One-Vergleiche
151
9.6.5
Mehrschrittverfahren für multiple Mittelwertsvergleiche
154
9.6.6
Multiple Mittelwertsvergleiche bei zweifaktoriellen Varianzanalysen
158
Multiple Mittelwertsvergleiche bei dreifaktoriellen Varianzanalysen
165
9.6.7
10 N i c h t p a r a m e t r i s c h e S t a t i s t i k
167
10.1 Die Effizienz eines Tests
168
10.2 Der Vorzeichentest für den Median
169
10.3 Der Wilcoxon-Rangsummentest
173
10.3.1 Verteilung der Wilcoxon- und Mann-Whitney-Statistiken
173
10.3.2 Die asymptotische Verteilung der Wilcoxon-Statistik . .
178
10.3.3 Bindungen
180
10.3.4 Die Effizienz des Wilcoxon-Tests zum ¿-Test
185
10.4 Die Rangvarianzanalyse nach Kruskal und Wallis 10.4.1 Der H-Test
187 187
Inhalt
VII
10.5 Der Friedman-Test
192
10.6 Der Mood-Test
195
10.7 Nichtparametrische multiple Vergleiche
198
10.7.1 Multiple Rangsummentests bei einfaktoriellen Varianzanalysen
198
10.7.2 Multiple Rangsummentests bei einfaktoriellen Blockanlagen
199
10.7.3 Multiple Median-Tests
200
10.7.4 Multipler Vorzeichentest von Steel
203
10.8 Der Wilcoxon-Vorzeichenrangtest 10.8.1 Der Vorzeichenrangtest für abhängige Stichproben
204 . . .
204
10.8.2 Test des Medians
208
10.8.3 Die Effizienz des Vorzeichenrangtests
209
10.9 Der Kolmogorov-Smirnov-Anpassungstest
211
11 x 2 - T e s t s u n d A n a l y s e v o n K o n t i n g e n z t a f e l n
215
2
215
2
219
2
222
2
225
11.1 Der x -Test als Test für Verteilungsfunktionen 11.2 Der x -Test zum Prüfen von Häufigkeiten 11.3 Der x -Test zum Prüfen auf Unabhängigkeit 11.4 Der x -Test bei einer einfachen Zweiwegklassifikation 12 E x a k t e statistische Tests 12.1 Prüfung der Unabhängigkeit zweier nominaler Merkmale . . . . 12.1.1 Fishers exakter Test 2
12.1.2 Der exakte x -Test 12.2 Unabhängigkeit ordinaler Merkmale von nominalen Merkmalen
227 228 229 233 235
12.2.1 Der exakte Kruskal-Wallis-Test
235
12.2.2 Der Wilcoxon-Rangsummentest
238
12.3 Überblick über exakte Tests mit StatXact
242
12.3.1 Lineare Rangtests
242
12.3.2 k x /-Kontingenztafeln
243
12.3.3 Geschichtete 2 x 2-Kontingenztafeln
244
12.3.4 Ein-Stichproben-Tests
245
VIII
Inhalt
12.4 Überblick über exakte Tests mit TESTIMATE
246
12.4.1 Standardtests für Zwischengruppenvergleiche
246
12.4.2 Standardtests für Innerhalbgruppenvergleiche
247
12.4.3 Komplexe Test-Modelle
247
12.5 Wann soll man exakt testen? 13 Korrelationsanalyse
248 249
13.1 Der Pearsonsche Korrelationskoeffizient
251
13.2 Test des Korrelationskoeffizienten
257
13.2.1 Test der Nullhypothese H0 : p = 0
257
13.2.2 Test der Nullhypothese H0 : p = p0 mit p0 ± 0
259
13.2.3 Vergleich zweier Korrelationskoeffizienten
260
13.2.4 Vertrauensintervall für den Korrelationskoeffizienten . .
261
13.3 Korrelation in Untergruppen
263
13.4 Zur Interpretation von Korrelationen
265
13.5 Der partielle Korrelationskoeffizient
266
13.6 Der Spearmansche Rangkorrelationskoeffizient
268
14 Regressionsanalyse 14.1 Die eindimensionale lineare Regression
273 273
14.1.1 Das Modell
273
14.1.2 Die Bestimmung der Regressionsgeraden
274
14.1.3 Das Bestimmtheitsmaß
279
14.1.4 Hypothesentests und Vertrauensintervalle
284
14.1.5 Eindimensionale Regression mit STATA und MINITAB
293
14.2 Analyse von Residuen
299
14.2.1 Graphische Residuenanalyse
300
14.2.2 Test der Normalverteilung
303
14.2.3 Durbin-Watson-Test der Autokorrelation
305
14.2.4 Der Runs-Test auf Zufälligkeit
307
14.2.5 Residuenanalyse in STATA und MINITAB
307
14.3 Die zweidimensionale lineare Regression
312
Inhalt
IX 14.3.1 Das Modell
312
14.3.2 Bestimmung der Regressionsebene
313
14.3.3 Das multiple Bestimmtheitsmaß
314
14.3.4 Hypothesentests
316
14.3.5 Residuenanalyse
319
14.3.6 Zweidimensionale Regression in MINITAB
319
14.4 Multiple Regression in Matrizenschreibweise
324
14.4.1 Die eindimensionale Regression in Matrizenschreibweise
324
14.4.2 Die multiple Regression in Matrizenschreibweise
330
....
14.5 Spezielle Methoden der multiplen Regression
340
14.5.1 Standardisierte partielle Regressionskoeffizienten . . . .
340
14.5.2 Sequentielle SQ-Werte und partielle Tests
340
14.5.3 Tests in der multiplen Regression
341
14.5.4 Schrittweise Regression
344
14.6 Regression mit Dummy-Variablen 14.7 Lineare Regression für nichtlineare Meßdaten
354 361
14.7.1 Polynome
361
14.7.2 Exponentialfunktionen
364
14.7.3 Potenzfunktionen
367
14.8 Die eigentliche nichtlineare Regression 15 Zeitreihenanalyse 15.1 Darstellung und Analyse empirischer Zeitreihen 15.1.1 Der Zeitreihenplot
370 371 371 372
15.1.2 Empirische Momente
375
15.1.3 Klassische Zerlegung von Zeitreihen
380
15.1.4 Residuenanalyse beim Zeitreihenmodell
387
15.1.5 Transformation durch Filter
389
15.1.6 Zyklische Schwankungen
390
15.2 Stochastische Prozesse
392
15.2.1 Stationarität
392
15.2.2 Weißes Rauschen
393
15.2.3 Random-walk-Prozeß
394
15.2.4 Allgemeine lineare Prozesse
399
Inhalt
X Anhang
401
Funktionswerte und Fraktilen der Standardnormalverteilung 2
401
Fraktilen der \ ~Verteilung
406
Fraktilen der t-Verteilung
409
Fraktilen der F-Verteilung
411
Fraktilen der studentisierten Spannweitenverteilung
415
Kritische Werte für den Dunnett-Test
419
Verteilung der Mann-Whitney-Statistik
421
p-Werte für den if-Test nach Kruskal und Wallis
426
Verteilung der Wilcoxon-Vorzeichenrangteststatistik
427
Signifikanzschwellen für den Friedman-Test
429
Kritische Werte beim Kolmogorov-Smirnov-Test
431
Zufallshöchstwerte des Pearsonschen Korrelationskoeffizienten . . . .
432
Zufallshöchstwerte des Spearmanschen Korrelationskoeffizienten . . .
433
Kritische Werte beim Shapiro-Wilk-Test
434
Signifikanzgrenzen beim Durbin-Watson-Test
435
Ozondaten
437
Düngungsversuch
438
Betriebsdaten
439
Dow-Jones-Indizes
441
Literatur
442
Tafeln u n d Tabellen
443
Handbücher u n d Manuals
443
Sachregister
445
M I N I T A B - u n d STATA-Befehle
452
XI
Inhalt Welchen Test soll man verwenden?
453
Merkmals- bzw. Datentypen
453
Ein-Stichprobentests
453
Zwei-Stichprobentests oder Zwischengruppenvergleiche
454
Verbundene Stichprobentests oder Innerhalbgruppenvergleiche
. . .
454
Mehr-Stichprobentests
455
Multiple Vergleiche
455
Test auf Verteilung
456
Test von Varianzen
456
Test von Korrelationskoeffizienten
456
Tests in der linearen Regression
457
Vorwort zur 5. Auflage Der Titel Biostatistik ist historisch bedingt, da die früheren Auflagen aus Vorlesungen für Studenten der Agrar- und Gartenbauwissenschaften sowie der Okotrophologie entstanden. Die grundlegenden statistischen Methoden sind jedoch für alle Zweige der Wissenschaft und Technik identisch. Das Buch will deshalb neben Anwendern aus den biologischen Wissenschaften auch Vertreter anderer Bereiche wie z.B. Sozial- und Wirtschaftswissenschaftler ansprechen. Die 5. Auflage erscheint in zwei Bänden. Band 2 behandelt für die Praxis wichtige statistische Verfahren wie das Testen von Mittelwerten und Varianzen sowie Ausreißertests. Im Rahmen der Varianzanalyse werden häufig verwendete Typen von Versuchsanlagen vorgestellt und ein Überblick über moderne multiple Mittelwertsvergleiche gegeben. Auch die nichtparametrische Statistik, die Analyse von Kontingenztafeln, die Korrelationsanalyse und die Regressionsanalyse wurde erweitert und durch viele Beispiele ergänzt. Neu ist die Zeitreihenanalyse. Darüberhinaus enthalten alle Kapitel ausführliche Programmbeispiele mit den einfach zu erlernenden Statistikpaketen MINITAB und STATA. Daneben wurden auch die Statistikprogramme StatXact und TESTIMATE verwendet. Einerseits dient ein Beispiel häufig als Hilfe bei der Analyse eigener Daten, zum anderen muß heute ein Statistikanwender in der Lage sein, Computerausdrucke eines Statistikprogramms zu interpretieren. Die Bezeichnungen statistischer Kennzahlen der 5. Auflage wurde an die DIN-Norm 13303 angeglichen. Insbesondere bei der Varianzanalyse wurde versucht, eine schlüssige Notation für die Anlagetypen und Variablen einzuhalten. In diesem Kapitel sind auch sehr viele Formeln bei der Zerlegung der Summe der Abweichungsquadrate enthalten, was zunächst etwas abschreckt. Die Formeln dienen jedoch zur Offenbarung der Systematik bei der Streuungszerlegung. Die B i o s t a t i s t i k 2 wurde mit dem wissenschaftlichen Textverarbeitungsprogramm M g X in druckreifer Form vollständig neu erstellt. Infolgedessen sind Fehler trotz sorgfältiger Korrekturlesung des Manuskripts nicht auszuschließen. Wir sind für jeden Hinweis dankbar. Die Autoren danken besonders Herrn Dr. Christian Holzer für seine Beiträge zu den multiplen Hypothesentests, zur Versuchsplanung und notwendigem Stichprobenumfang, zu den speziellen Verfahren bei der Regressionsanalyse sowie zur Zeitreihenanalyse. Herrn Diplom-Statistiker Martin Bachmaier danken wir für seinen Beitrag zur exakten Analyse von Kontingenztafeln. Außerdem gilt unser Dank Herrn Manfred John vom Oldenbourg Verlag für die gute Zusammenarbeit und die Möglichkeit, das Buch in attraktiver Satzgestaltung herauszugeben. Freising-Weihenstephan im März 1993
Manfred Precht Roland Kraft
Kapitel 8 Test von statistischen Hypothesen Empirische Wissenschaften arbeiten experimentell und stellen aufgrund Beobachtungen Hypothesen und Theorien auf. Diese Hypothesen sind einfachte Modelle der Wirklichkeit. Die Methoden zur Erlangung neuer kenntnisse sind induktiv. Man versucht, durch endlich viele Experimente Beobachtungen auf eine allgemeine Regel oder Aussage zu schließen.
von verErund
Die aufgestellten Hypothesen sind häufig sog. statistische Hypothesen. Sie sagen etwas über die Verteilung einer Zufallsvariablen voraus. Die Zufallsvariable wird nun im Experiment mehrmals realisiert. Man erhält dann eine Stichprobe, aufgrund derer man entscheiden (testen) will, ob man an der aufgestellten Hypothese festhält oder sie verwirft. Grundsätzlich ist eine statistische Hypothese weder verifizierbar noch falsifizierbar. Das Ergebnis einer Entscheidung oder eines Tests muß in Bezug auf die gemachten Beobachtungen gesehen werden und ist prinzipiell etwas Provisorisches. Verwirft man eine Hypothese, so ist dies nicht endgültig, d.h. ein Beweis für die Falschheit der Hypothese. Man hält vielmehr an der Verwerfung der Hypothese bzw. an der sog. Alternativhypothese solange fest, bis evtl. neuere und umfassendere Beobachtungen und Daten zu einer Revision der getroffenen Entscheidung Anlaß geben. Die einzelnen Schritte bei der Erkenntnisbildung eines empirischen Wissenschaftlers sind im wesentlichen: 1. Aufstellen von statistischen Hypothesen aufgrund von Vermutungen, Vorwissen oder auch mit Hilfe explorativer Methoden 2. Gewinnung von empirischen Beobachtungen 3. Durchführung statistischer Tests 4. Beibehaltung oder Verwerfung der aufgestellten Hypothese 5. evtl. zurück zu Punkt 1 Gewinnt man mit Hilfe explorativer Methoden anhand einer Stichprobe eine Hypothese, so darf man die Hypothese natürlich nicht an der gleichen Stichprobe, sondern muß sie an einer neuen Stichprobe überprüfen.
4
8
8.1
Test von statistischen
Hypothesen
Grundbegriffe der Testtheorie
Der Statistiker stellt vor Durchführung eines Versuchs eine statistische Hypothese auf, d.h. er trifft eine Annahme über die Verteilung einer Zufallsvariablen X , z.B. über den Mittelwert // oder die Standardabweichung u einer normalverteilten Zufallsgröße oder die Verteilungsfunktion F(x) einer Zufallsvariablen. Liegt beispielsweise eine Vermutung vor, daß der Mittelwert fi der normalverteilten Zufallsvariablen "Ertrag" einen Wert von hq hat, dann stellt man die Hypothese fi = fio auf. Diese Hypothese heißt N u l l h y p o t h e s e und wird allgemein so formuliert: H 0 : ß = ßo
(8.1)
Mit Hilfe einer Stichprobe vom Umfang n will man nun prüfen, ob das Ergebnis der Stichprobe mit der Nullhypothese HQ im Widerspruch steht. Man führt also einen statistischen Test durch und überprüft, ob die Nullhypothese abgelehnt werden muß, oder ob eine solche Ablehnung nicht gerechtfertigt ist. Beispiel: Das Füllgewicht einer Abfüllmaschine sei eine (p, Ho
(8.2)
Kommt es dagegen darauf an, nicht zu wenig abzufüllen, so ist die Alternativhypothese: (8.3)
Hi : H < Ho
Die Alternativhypothesen (8.2) und (8.3) werden auch einseitige Alternat i v h y p o t h e s e n genannt. Soll das Abfüllgewicht schließlich nicht zu klein und nicht zu groß sein, dann lautet die zweiseitige Alternativhypothese: (8.4)
Hi : H ^ fi 0
Die Nullhypothese könnte im Fall einseitiger Alternativhypothesen auch in analoger einseitiger Form formuliert werden: H'0 : f i < Ho
gegen
Hi : y, > fi 0
H'0-.fi>fi0
gegen
Hi : ¡i < fi 0
Es ist jedoch üblich, die Nullhypothese in der zweiseitigen Form H0
: FI = PO
zu formulieren, unabhängig von der Alternativhypothese. Auf die praktische Durchführung des Tests selbst hat die Formulierung keinen Einfluß. Es treten lediglich kleine Verschiebungen bzgl. der Sicherheitswahrscheinlichkeit auf. Wie bekommt man nun aufgrund einer Stichprobe Grenzen, die einen sog. Ablehnungsbereich und einen sog. Nichtablehnungsbereich festlegen? Beim einseitigen Test Ho :
= po
mit der Alternative
H\ : (i > /¿o
interessiert die kritische Größe c auf der x-Achse in Bild 8.1. Liegt der Stichprobenmittelwert x links von c, so wird die Nullhypothese Hq nicht abgelehnt, liegt er rechts davon, so wird Hq verworfen. Den Abstand
6
8
Test
Nichtablehnungsbereich Ho wird nicht abgelehnt
von
statistischen
Hypothesen
Ablehnungsbereich Ho wird abgelehnt
ß0
c
Bild 8.1: Ablehnungs- und Nichtablehnungsbereich beim einseitigen Test zwischen /io und c läßt man als Spielraum für kleinere zufällige Schwankungen von x zu. Die Abweichung von po wird jedoch signifikant, wenn x in den dick gezeichneten Bereich fällt. Beim zweiseitigen Test Ho : n = ßo
mit der Alternative
H\ : fi ^ fio
muß man zwei Grenzen ci und c-i bestimmen (Bild 8.2). Ablehnungsbereich Ho wird abgelehnt
Nichtablehnungsbereich
cl
Ablehnungsbereich Ho wird abgelehnt
c2
Bild 8.2: Ablehnungs- und Nichtablehnungsbereich beim zweiseitigen Test Bei der praktischen Durchführung eines Tests berechnet man eine geeignete Testgröße, in die der zu testende Parameter (z.B. x) eingeht. Diese Testgröße wird mit einem entsprechenden Schwellenwert oder einer Testschranke verglichen. Schwellenwerte bzw. Testschranken sind Fraktilen oder Grenzen der Verteilung der Testgröße. Der Vergleich der Testgröße mit dem Schwellenwert führt zu einer Entscheidung zwischen Ablehnung von Ho oder Nichtablehnung von H0. Das Prinzip eines statistischen Tests kann auch folgendermaßen erklärt werden. Man berechnet unter der Annahme der Nullhypothese die Wahrscheinlichkeit dafür, daß das festgestellte Ergebnis (z.B. x) oder ein "extremeres" beobachtet werden kann. Diese Wahrscheinlichkeit nennt man Überschreitungswahrscheinlichkeit, erreichtes Signifikanzniveau oder auch p-Wert (p-value). Wenn diese Wahrscheinlichkeit "klein" ist, verwirft man Ho und erklärt H\ für signifikant. Nach üblichen Konventionen bedeutet "klein", daß p kleiner als 5%, 1% oder 0.1% ist. Ansonsten wird Ho nicht abgelehnt. Man spricht häufig bei 5%-igem Signifikanzniveau von "signifikant", bei 1%-igem Signifikanzniveau
8.1
Grundbegriffe
der
Testtheorie
7
von "hoch signifikant" und bei 0.1%-igem Signifikanzniveau von "höchst signifikant". Es sei jedoch darauf hingewiesen, daß ein geringer p-Wert ein kleines Signifikanzniveau bedeutet. Bei einem statistischen Test können zwei Fehlentscheidungen vorkommen. Ein Fehler 1. A r t tritt auf, wenn man die Nullhypothese Ho verwirft, obwohl sie richtig ist. Die Wahrscheinlichkeit, einen solchen Fehler zu begehen, ist das Risiko 1. Art und heißt Irrtumswahrscheinlichkeit oder Signifikanzniv e a u a des Tests. Die Größe 1 — a ist die entsprechende Sicherheitswahrscheinlichkeit. Bei einem einseitigen Test, z.B. Ho : p = fio gegen H\ : fi > fio ist die Irrtumswahrscheinlichkeit durch die Beziehung P(X > c|/i = fio) = a gegeben, wenn c die Grenze zwischen Ablehnungs- und Nichtablehnungsbereich ist (vgl. Bild 8.3). Ein Fehler 2. Art tritt auf, wenn die Nullhypothese HQ nicht abgelehnt wird, obwohl sie falsch ist. Die Wahrscheinlichkeit dafür wird mit ß bezeichnet und heißt Risiko 2. Art. Die Größe 1 — ß gibt die Wahrscheinlichkeit an, einen Fehler 2. Art zu vermeiden und heißt Macht oder G ü t e des Tests (vgl. Tab. 8.1).
Ausfall des Tests Nichtablehnung von Ho
Ablehnung von Ho
wahrer (unbekannter) V DATA> DATA> MTB > SUBC>
Test von statistischen Hypothesen
set cl 114 128 130 118 123 end ttest 120 cl; alternative 1.
TEST 0F MU = 120.000 VS MU G.T. 120.000
Cl
N 5
MEAN 122.600
STDEV 6.693
SE MEAN 2.993
T 0.87
P VALUE 0.22
MINITAB gibt zunächst die Hypothesen H0 : MU = 120.000 und Hx : von engl, greater than) aus. Die Testgröße ist to = 0.87. Anstatt ein Signißkanzniveau vorzugeben, berechnen die meisten Statistikprogramme die erreichte Irrtumswahrscheinlichkeit, die in Computerprogrammen meist mit P VALUE, d.h. p-Wert, bezeichnet wird. Der pWert ist ja gerade das aufgrund der Daten bzw. der Testgröße erreichte Signifikanzniveau, also die Wahrscheinlichkeit, unter Annahme von Ho einen ebenso großen oder extremeren Wert der Testgröße zu erhalten. Im vorliegenden Fall könnte die Nullhypothese allenfalls auf einem Signißkanzniveau von a = 22% abgelehnt werden. Bei a = 5% kann man Ho nicht verwerfen. Mit anderen Worten: Man kann nicht behaupten, daß der mittlere Ozongehalt signißkant (auf dem 5%-Mveau) größer als der Grenzwert von 120 fig/m3 ist. MU G.T. 1 2 0 . 0 0 0 ('G.T.
3. Eine Maschine zur Abfüllung von Mehl in Papiertüten ist auf ein Füllgewicht von 500 g eingestellt. Es wird vorausgesetzt, daß das Abfüllgewicht normalverteilt und die Streuung unbekannt ist. Auf dem 10%Signißkanzniveau, d.h. bei maximal 10% Irrtumswahrscheinlichkeit, soll durch eine Stichprobe vom Umfang n = 6 überprüft werden, ob das mittlere Gewicht von 500 g eingehalten wird. Stichprobe 1 2 Füllgewicht [g] 490 496
3 4 5 6 506 492 502 499
Der Test Hq : ß = 500 g gegen H\ : fi ^ 500 g erfolgt mit dem Statistikpaket STATA. Durch den input-Befehl werden die Meßwerte in die Variable gew eingelesen. Das Kommando ttest gew=500 führt den zweiseitigen t-Test mit fio = 500 g durch.
8.2
Test von Erwartungswerten
15
. input gew gew 1. 2. 3. 4. 5. 6. 7.
490 496 506 492 502 499 end
. ttest gew=500 Variable |
Obs
Mean
gew I
6
497.5
Std. Dev.
Hin
Max
6.058052
490
506
Test: mean of gew = 500 t-statistic = -1.01 with 5 d.i. Prob > |t| = 0.3585 Die Prüfgröße ist to = —1.01 bei 5 Freiheitsgraden. Dies ist der negative Wert cfer t5;i_0.3585/2 — ts-0.820&-Fra.ktilen, d.h. auf einem Signifikanzniveau von a ss 36% oder höher könnte Ho abgelehnt werden, was allerdings unvernünftig wäre. Bei a = 10% ist eine Ablehnung von H0 jedoch nicht möglich. 8.2.2
Der z-Test für den Erwartungswert ( "l-a/2 =
> ui-o
(Tab. A.2)
Tabelle 8.3: z-Test für den Erwartungswert bei bekanntem er Es sei noch angemerkt, daß er2 in den meisten Fällen nicht bekannt ist. Die praktische Bedeutung des z-Tests ist deshalb sehr gering. Beispiel: Ein Voltmeter zur Messung der elektrischen Spannung über einem Widerstand hat laut Herstellerangabe eine Standardabweichung von 0.5 V bei der Spannung 50 V. Das Gerät sollte neu justiert werden, wenn auf 5%-Signißkanzniveau die mittlere Spannung von diesem Wert abweicht. Es wird eine Spannung von 50 V angelegt und 10 mal gemessen. Messung 1 2 3 4 5 6 7 8 9 10 Spannung [V] 49.8 50.1 48.9 49.4 51.0 48.8 49.3 49.4 49.9 50.0 Die Nullhypothese HQ : ßU = 50 V wird gegen die zweiseitige Alternative Hi : ßu / 50 V getestet, da Abweichungen weder nach oben noch nach unten erwünscht sind. Der Mittelwert ist U = 49.66 V. Damit lautet die Testgröße: = I ^ L = 49-66 V — 50.00 V = D j e 9 7 . 5 % . F r a M e b w . 95%_ (ru/y/n 0.5 V/VlÖ Grenze der Standardnormalverteilung wird in Tab. A.2 im Anhang abgelesen: U0.975 = ^0.95 = 1-96 20
Es gilt: \ZQ | = 2.15 > 1.96 = u0.975 = A0.95 Die Nullhypothese wird zugunsten der Alternativhypothese abgelehnt. Zum Signifikanzniveau von 5% ist also statistisch gesichert, daß der mittlere Meßwert des Geräts bei einer anliegenden Spannung von 50 V vom Sollwert abweicht.
8.2
Test von
Erwartungswerten
17
In MINTAB dient der Befehl z t e s t ohne Subkommando a l t e r n a t i v e zur Durchführung des zweiseitigen z-Tests. Einseitige Tests können mit den Optionen a l t e r n a t i v e 1 bzw. a l t e r n a t i v e - 1 vorgenommen werden. MTB > DATA> DATA> MTB >
set cl 49.8 50.1 48.9 49.4 51.0 48.8 49.3 49.4 49.9 50.0 end ztest 50 0.5 cl
TEST OF MU = 50.000 VS MU N.E. 50.000 THE ASSUMED SIGMA = 0.500
Cl
N 10
MEAN 49.660
STDEV 0.647
SE MEAN 0.158
Z -2.15
Der p-Wert ist hier 3.2%. Die Nullhypothese Ho kann also auf veaus, die größer als 0.032 sind, abgelehnt werden. 8.2.3
P VALUE 0.032 Signifikanzni-
Vertrauensintervalle für den Erwartungswert
Anstelle des t- und z-Tests kann man auch ein K% = 1 — a-Vertrauensintervall für den unbekannten Mittelwert bestimmen und prüfen, ob der Sollwert in diesem Intervall liegt. Ist dies nicht der Fall, so kann die Nullhypothese Hq : ß = fio abgelehnt werden. Die Vertrauensintervalle bei unbekannter Varianz lauten:
1 —a
(einseitig)
(8.10)
(einseitig)
(8.11)
V.lJ X -*n-l;l_o/2 • A= < H < * + fn-l;l-a/2 " "7= \ y/ri I V" VnJl-a
(zweis.)
(8.12)
Bei bekannter Varianz sind die Vertrauensintervalle: (einseitig)
(8.13)
8
18
V.l. < x - u i _ „ • l
fi y und /j x ^ ß y in Frage. Mittelwertvergleich bei unabhängigen Stichproben Die Testgröße lautet: t0
=
nx • ny • (n x +ny — 2) x-y n x + Tly y/(nx - 1) • sl + K
(8.19) - 1)
8.2
Test von
21
Erwartungswerten
Für gleiche Stichprobenumfänge nx = ny = n vereinfacht sich die Testgröße zu: t0=yfii-
(8.20) \J l + y s
s
Der Test der Nullhypothese Ho : \ix — ßy erfolgt beim vorgewählten Signifikanzniveau a nach dem Testschema in Tab. 8.4. Vor.: Test große:
Normalverteilung, crx = cry unbekannt ^ _
nx • ny • (nx + ny - 2) V
n
«
+
n
_ x —y to — y/n • —. y/sl+sl H0:
»
x - y
^/(nx-i)-«2 +
K - i ) - « v
für nx — ny — n
ßx = Ablehnung von Ho, wenn: —
ßx < ßy
to
ßy
to > t „ I + n y _ 2 ; i - t t
fix £ ßy
M
tnx+ny-2;l-a
(Tab. A.4)
> 'n.+n,-2;1-Q/2
Tabelle 8.4: t-Test für den Vergleich zweier Erwartungswerte bei unbekanntem er für unabhängige Stichproben Mittelwertvergleich bei verbundenen Stichproben Aus den beiden Stichproben z,- und y,- werden die Differenzen d,- = x,- — y,gebildet. Man testet nun die Hypothese, daß die Grundgesamtheit, aus der diese Differenzen-Stichprobe stammt, den Mittelwert ßd = 0 hat, also Ho • ßx — ßy = 0 bzw. Ho : m = 0. 1 " 1 " Die Testgröße berechnet sich mit d = — • ^ ^ d{ = — • ^^(x,- — y,) und n
=
«=l
n
i'=i
i^r t « -'5>! = ^ r ' (£'* ~:' ( t * ) ' )
22
8
Test von statistischen
Hypothesen
Die Zahl der Freiheitsgrade ist jetzt nur noch n — 1. Der Test verläuft wie beim einfachen i-Test für den Erwartungswert (vgl. Kap. 8.2.1).
Das Testschema in Kurzform zeigt Tab. 8.5. Voraussetzung:
Normalverteilung, ax = ßN
Die t-Fraktile bei 99% mit nji + n^ — 2 = 14 Freiheitsgraden wird in der Anhangstabelle A.4 nachgeschlagen. Es folgt: tD = 3.24 > 2.624 = |t| = 0.0001
Die Testgröße ist to = 5.85 mit 89 Freiheitsgraden. Der p-Wert beträgt p = 0.0001 = 0.01%. Man kann also die Nullhypothese auf einem sehr kleinen Signifikanzniveau ablehnen. 3.
GÖSSET bzw. STUDENT hat 1908 den gepaarten oder verbundenen t-Test eingeführt, indem er die Wirkung zweier Schlafmittel miteinander verglichen hat. Es wurde die schlafverlängernde Wirkung (in Stunden) zweier Schlafmittel A und B an jeweils 10 Patienten in zwei aufeinanderfolgenden Nächten festgestellt2.
Patient i 1 2 3 4 5 6 7 8 9 10
E E/10
Ai 1.9 0.8 1.1 0.1 -0.1 4.4 5.5 1.6 4.6 3.4 23.3
1 = 2.33 B = 0.75
Die Nullhypothese lautet: 2
Bi 0.7 -1.6 -0.2 -1.2 -0.1 3.4 3.7 0.8 0.0 2.0 7.5
di
=
Ai - Bi dì 1.2 1.44 2.4 5.76 1.3 1.69 1.3 1.69 0.0 0.00 1.0 1.00 1.8 3.24 0.8 0.64 4.6 21.16 1.4 1.96 15.8 38.58 5 = 1.58
Die Erwartungswerte der Schlafverlängerung
CUSHNY U. PEEPLES 1905, Journal of Physiology
8
28
Test von statistischen
Hypothesen
durch das Mittel A und das Mittel B sind gleich, oder wie GÖSSET formulierte: Der Erwartungswert der Differenz der Erwartungswerte ist Null. H0 HI
HA : HA
=
HB
I
HB
bzw. bzw.
ßD HD
= 0 ^ 0
Es ist d — 1.58. Die Anzahl der Freiheitsgrade ist FG = 10 — 1 = 9. Die Standardabweichung der Differenzen lautet: • 1 5 . 8 2 ^ = 1.513
s\ = I • ^ 3 8 . 5 8 -
sd « 1.23
Die Testgröße ist dann: d
1.58
VTÖ
Wenn a = 0.01 = 1% gefordert wird, dann erhält man MTB > DATA> DATA> MTB > DATA> DATA> MTB >
name cl 'Auster' c2 'Braun' set 'Auster' 4 7.6 6.5 5.9 8.6 7.3 5.2 4.8 6.1 6.1 end set 'Braun' 4.7 5.7 5.7 5 4.7 4.6 5.5 5.2 5.5 5.5 5.4 5.2 end twosample 95 cl c2
TWOSAMPLE T FÜR Auster VS Braun N MEAN STDEV Auster 10 6.21 1.37 Braun 12 5.225 0.393
SE MEAN 0.43 0.11
95 PCT Cl FOR MU Auster - MU Braun: (-0.01, 1.98) TTEST MU Auster = MU Braun (VS NE): T= 2.20 P=0.053 Der p-Wert ist 5.3%. Ein Ertragsunterschied Signißkanzniveau nicht festgestellt werden.
DF=
10
kann demnach auf dem 5%-
Der MINITAB-Output zeigt auch, daß die empirische Standardabweichung der Austernpilze ca. dreimal so groß ist wie die der Braunkappen. Führt man den t-Test mit den gepoolten Varianzen durch, so resultiert folgendes Testergebnis: MTB > twosample 95 cl c2; SUBC> pooled. TWOSAMPLE T FOR Auster VS Braun N MEAN STDEV Auster 10 6.21 1.37 Braun 12 5.225 0.393
SE MEAN 0.43 0.11
95 PCT Cl FOR MU Auster - MU Braun: (0.12, 1.85) TTEST MU Auster = MU Braun (VS NE): T= 2.38 P=0.027 POOLED STDEV = 0.965
DF=
20
Der p-Wert beträgt nun 2.7%, d.h. die Erträge wären signifikant verschieden. Das Beispiel zeigt, daß beim Testen mit gepoolten Varianzen Vorsicht
30
8
Test von statistischen
Hypothesen
geboten ist, da bei Verletzung der Voraussetzung der Homogenität der Varianzen Fehlentscheidungen auftreten können. 8.2.5
Unabhängige oder v e r b u n d e n e Stichproben?
Wenn man die Wahl hat, ein Experiment mit unabhängigen oder verbundenen Stichproben durchzuführen, empfiehlt sich eine Versuchsplanung mit verbundenen Stichproben. In diesem Fall bekommt man meist genauere Ergebnisse, weil durch die Differenzbildung aus den zusammengehörigen Stichprobenwerten eine kleinere Varianz resultiert (s^ < s^ + Sy). Die Testgröße wird dadurch größer und überschreitet deshalb eher einen Schwellenwert, so daß Unterschiede besser aufgedeckt werden können. Es gehen allerdings Freiheitsgrade verloren: Bei zwei unabhängigen gleich großen Stichproben sind es 2n — 2, bei zwei verbundenen Stichproben nur n — 1 Freiheitsgrade. Dadurch wird der zum Vergleich herangezogene Schwellenwert größer. Beispiel: Es soll geprüft werden, ob sich die Benzinqualität der Marken Eral und Asso unterscheiden. Für beide Marken wurde der Verbrauch in 1/100 km von fünf Autotypen gemessen. Die Daten wurden in eine Datei BENZIN.DAT eingegeben: "VW Passat Kombi" "Opel Astra" "Mazda 323 Kombi" "BMW 525" "Fiat Uno"
11.9 7.7 8.2 13.4
12.3 7.7 8.5 14.0
8.0
8.3
Die Stichproben sind in diesem Fall natürlich verbunden, da der Verbrauch eines Autotyps mit beiden Benzinmarken in der gleichen Größenordnung liegt. Die Daten werden in STATA eingelesen. Da die erste Spalte ein alphanumerischer Variablentyp ist, stehen die Autonamen in Anführungszeichen. Mit der Anweisung str20 muß STATA mitgeteilt werden, daß die Variable t y p eine Buchstabenfolge mit maximal 20 Zeichen ist. . infile str20 typ eral asso using auto.dat (5 observations read)
Nach der Dateneingabe wird der t-Test . ttest eral=asso
durchgeführt.
8.2
Test von
Erwartungswerten
31
Variable I +
Obs
Mean
Std. Dev.
Hin
Max
eral I asso I
5 5
9.84 10.16
2.625452 2.810338
7.7 7.7
13.4 14
Test: means of eral and asso are equal (assuming equal variances) Difference = -.32000027 t-statistic = -0.19 with 8 d.f. Prob > |t| = 0.8570 Es wurde der zweiseitige von identischen Varianzen terschied besteht, könnte abgesichert werden. Dies
t-Test für unverbundene Stichproben bei Annahme durchgeführt. Die Hypothese, daß ein Qualitätsunnur auf Signißkanzniveaus, die größer als 85.7% sind würde kein vernünftiger Statistiker tun.
Der richtige Test für verbundene
Stichproben
erfolgt mit der Option paired.
. ttest eral=asso, paired Variable I
Obs
Mean
Std. Dev.
Min
Max
eral I asso I
5 5
9.84 10.16
2.625452 2.810338
7.7 7.7
13.4 14
Test: means of eral and asso are equal (paired observations) Difference = -.32000027 t-statistic = -3.30 with 4 d.f. Prob > Iti = 0.0299 Nun beträgt der p-Wert gerade noch ca. 3%. Ein Qualitätsunterschied also auf dem 5%-JViveau signifikant gesichert werden.
kann
Der krasse Unterschied in den Testergebnissen des Beispiels ist durch die Variabilität im Verbrauch der einzelnen Autotypen bedingt. Beim Test für unabhängige Stichproben wird diese Typenvariabilität der jeweiligen Stichprobe angelastet, während sie im anderen Fall dem jeweils zusammengehörigen Wertepaar zugerechnet und deshalb teilweise eliminiert wird. Es ist auch offensichtlich, daß der Verbrauch mit der Marke Asso in allen Fällen höher oder gleich war.
32 8.2.6
8
Test von statistischen
Hypothesen
Einseitige oder zweiseitige A l t e m a t i v h y p o t h e s e n ?
Bei einem Mittelwertvergleich will man z.B. einen Unterschied zwischen zwei Methoden oder Sorten feststellen. Uber die Richtung eines möglichen Unterschieds in der Wirkung oder im Ertrag liegen in der Regel jedoch vor der Stichprobenerhebung keine Informationen vor. In diesem häufigsten Fall lautet die Alternativhypothese: Die beiden Stichprobenmittel entstammen unterschiedlichen Grundgesamtheiten, sie sind also lediglich verschieden (H\ : fii ^ ¡12)Ist jedoch aus sachlichen Gründen die Richtung des zu erwartenden Unterschieds bekannt oder sind Abweichungen in einer Richtung uninteressant, dann ist die einseitige Alternativhypothese (H1 : pi < /¿2 bzw. H\ \ ¡i\ > ¿¿2) vorzuziehen. Eine Ablehnung der Nullhypothese und damit eine Annahme der Alternativhypothese ist bei der einseitigen Fragestellung eher möglich als bei der zweiseitigen, denn beim einseitigen Test wird die Testgröße mit der (1 — a)Fraktilen und beim zweiseitigen Test mit der (1 — a/2)-Fraktilen verglichen. Die (1 — a/2)-Fraktile ist aber immer größer als die (1 — a)-Fraktile. Der einseitige Test deckt Differenzen in den Mittelwerten früher auf als der zweiseitige. Die Macht des Tests oder die Teststärke des einseitigen Tests ist also größer als beim zweiseitigen Test. Beispiel: Auf dem Münchner Oktoberfest prüft ein Stadtbeamter die Füllmenge der Maßkrüge in einem Bierzelt. Der Wiesenwirt erhält eine Verwarnung, wenn der Inhalt auf maximal 5% Signifikanzniveau kleiner als 0.90 1 ist. Der Kontrolleur kauft 10 Maß Bier, mißt den Inhalt und wertet die Daten mit MINITAB aus. MTB > DATA> DATA> MTB >
set cl 0.88 0.85 0.91 0.90 0.82 0.86 0.89 0.90 0.89 0.90 end ttest 0.9 cl
TEST 0F MU = 0.90000 VS MU N.E. 0.90000
Cl
N 10
MEAN 0.88000
STDEV 0.02828
SE MEAN 0.00894
T -2.24
P VALUE 0.052
Aufgrund des zweiseitigen t-Tests kann die Alternativhypothese, daß die mittlere Biermenge verschieden von 0.9 1 ist, auf dem 5%-iViveau nicht angenommen werden. Interessant ist allerdings ausschließlich eine Abweichung nach unten. Es ist also sinvoller, folgende Hypothesen aufzustellen:
8.2
Test von
Erwartungswerten
Ho : fi = 0.9 1 gegen
33
: fi < 0.9 1
In MINITAB erfolgt dieser Test mit dem Subkommando
a l t e r n a t i v e -1.
MTB > ttest 0.9 cl; S U B O alternative -1. TEST OF MU = 0.90000 VS MU L.T. 0.90000 N 10
Cl
MEAN 0.88000
STDEV 0.02828
SE MEAN 0.00894
T -2.24
P VALUE 0.026
Der p-Wert beträgt jetzt 2.6%, also die Hälfte von vorher. Die Nullhypothese ist in diesem Fall auf dem 5%-Niveau abzulehnen. Der Wirt erhält eine Verwarnung. 8.2.7
Bekanntes oder unbekanntes tr?
Ist die Größenordnung der Streuung einer Grundgesamtheit (z.B. aus früheren Messungen) bekannt, so wird man diese beim Mittelwertvergleich als bekannt voraussetzen. Eine Ablehnung der Nullhypothese ist in diesem Fall eher möglich, weil dann als Testschwelle eine Fraktile der Normalverteilung dient. Diese Fraktile ist immer kleiner als die entsprechende Fraktile der t-Verteilung. Besonders bei kleinen Stichprobenumfangen oder wenn extrem hohe bzw. niedrige Werte auftreten ist es möglich, daß die geschätzte Varianz stark von der tatsächlichen Varianz abweicht. Aus diesem Grund kann es zu krassen Fehlentscheidungen kommen. Generell ist der z-Test sicherlich sehr selten anzuwenden, da man die Streuung p2
z0 > Ui_a
Pi i P2
1*01 >
al
+ 0-2 n
(Tab. A.2) = U1_0/2
Tabelle 8.11: z-Test für den Vergleich zweier Bernoulli-Wahrscheinlichkeiten Vertrauensintervall f ü r Da die Größe —
— pa
— — — — m i t der Abkürzung für die StandardabSAh
weichung s^h = \Jh • (1 — /i) • ( l / " i + 1/^2) approximativ normalverteilt ist, erhält man für das 1 — a-Vertrauensintervall: V.I.{/ii — h2 — Ai_ a • SAh < Pi - P2 < hi — h2 + Ai_ a • saä}i-q
(8.45)
Man beachte, daß in s^h die beiden beobachteten Häufigkeiten hi und h2 eingehen, während beim Test von Ho • Pi = p2 aufgrund der Annahme von Hq ein gepoolter Schätzer verwendet wird. Das Vertrauensintervall soll alle Vertrauenswerte p\ — p2 einschließen, nicht nur den Wert pi — p2 = 0.
8.4
Vergleich von zwei
Bernoulli-Wahrscheinlichkeiten
45
Beispiele: 1. Bei der Toxizitätsprüfung zweier chemischer Substanzen wurden Ratten im Labor kontaminiert. Die Anzahl der überlebenden und verendeten Ratten zeigt folgende Tabelle.
Uberlebende Tote gesamt
Wirkstoff 1 2 48 34 81 53 129 87
gesamt 82 134 216
Die beiden unbekannten Überlebenswahrscheinlichkeiten pi und p2 werden durch die empirischen Häufigkeiten h\ = y ^ = 0.37 und h2 = — = 0.39 48 34 geschätzt, der gepoolte Schätzwert für p ist h = — — = 0.38. Ais 216 Testgröße berechnet man: hi - h2 0.37-0.39 z0 = =
y/h • (1 - h) • ( 1 / n i + 1 / n 2 ) -0.30
x/0.38 • 0.62 • (1/129 + 1/87)
Es gilt: \zo\ = 0.30 1.645 = A0.90 = «0.95- Die unterschiedliche Toxizität der beiden Substanzen kann also auf dem 10%-Signifikanzniveau nicht statistisch gesichert werden. Für das 90%-Vertrauensintervall benötigt man s*h = y/h-(l-h).
,:
(\/ni + 1 /n 2 ) = ^0.38 • 0.62 . ( ^ L +
= 0.067
Damit lautet das Vertrauensintervall mit der zweiseitigen 90%-Fraktilen A0.9 = 1.645 der Standardnormalverteilung aus Anhangstab. A.2: V.I.{Ai - h2 - A0.9 • SA/i < Pi - P2 < hi - h2 + A0.9 • «aä}o.9 = V.l.{—0.02 - 1.645 • 0.067 < pi - p2 < - 0 . 0 2 + 1.645 • 0.067} o . 9 = V . l . { — 0 . 1 3 < pi — p2 < 0.09}O.9
Ein Toxizitätsunterschied wäre nur dann abzusichern, wenn der Wert 0 außerhalb des Vertrauensintervalls liegen würde. Dies ist jedoch nicht der Fall.
46
8
Test von statistischen
Hypothesen
2. Die Wirksamkeit zweier Fungizide A und B wird in zwei vergleichbaren Weizenbeständen geprüft. Die Anteile der befallenen und nicht befallenen Pflanzen nach Behandlung mit den beiden Fungiziden zeigt folgende Tabelle.
nicht befallen befallen
Fungizid A B 76% 64% 36% 24%
Auf dem 1%-Signifikanzniveau soll überprüft werden, ob die von Fungizid B besser ist als die von A:
Wirksamkeit
Es ist HA = ÜB = n = 200. Die empirischen Befallshäufigkeiten liegen bereits als Prozentanteile vor. Ob ein Vergleich der BERNOULLI-Wahrscheinlichkeiten für das Ereignis "nicht befallen" oder "befallen" erfolgt, ist egzd, da ein Ereignis selbst das Komplementärereignis des Komplementärereignisses ist. Es wird hier der Anteil befallener Pflanzen getestet mit h,A = 0.36 und hg = 0.24. Dann ergibt sich für die gepoolte Häußgkeit 0.36 + 0.24 ,. , „ , , . ,. h = = 0.30. Die Formulierung der Hypothesen lautet in diesem Fall: H0-Pa=PB HI -PA> PB Die Prüfgröße ist:
a = 0.01
hA~hB _ 0 - 3 6 - 0.24 _ 0 fin ° y/h-(l-h)-(l/n+l/n) \/0.30 • 0.70 • 0.01 Es folgt: z0 = 2.62 > 2.326 = u0.99 (vgl. Anhangstab. A.2). Zum Signißkanzniveau von 1% ist damit statistisch gesichert, daß Fungizid B wirksamer ist als Fungizid A. Z
8.5
Test auf Ausreißer
8.5
Test auf Ausreißer
47
Manchmal treten in einer Reihe von Beobachtungen einzelne Werte auf, die extrem hoch oder niedrig im Vergleich zu den übrigen Werten sind. Solche Werte sind u.U. durch Fehler des Meßgeräts oder fehlerhaftes Ablesen bzw. Notieren der Meßwerte verursacht. Man bezeichnet sie als Ausreißer, denn es besteht Grund zur Annahme, daß sie aus einer anderen Grundgesamtheit stammen. Ausreißer werden gewöhnlich vor einer weiteren statistischen Analyse aus dem Datensatz eliminiert. Wie erkennt man jedoch Ausreißer? In der explorativen Statistik existieren für ausreißerverdächtige Werte die Begriffe "außen" und "weit außen". Um inferenzstatistisch vorzugehen, muß vorausgesetzt werden, daß die Grundgesamtheit, aus der die Stichprobe stammt, normalverteilt ist. In erster Näherung kann man als Faustregel festhalten, daß bei mindestens 10 Beobachtungswerten ein Wert einen Ausreißer darstellt, wenn er nicht in das Intervall x ± 4s fällt, wobei x und s ohne den fraglichen Ausreißerwert berechnet werden müssen. Bei Annahme einer Normalverteilung umfaßt der 4 x 2 > . . . > x „ _ i > xn
oder
xt < x 2 < . . . < x n _ i < x„
Man bildet nun die absolute Differenz des fraglichen Ausreißers xi (also des größten oder kleinsten Werts) je nach Stichprobenumfang mit seinen Nachbarwerten X2 oder X3 und bezieht diese Differenz auf die Spannweite |xi —x„| bzw. auf |xi — x „ _ i | oder [xi — x„_2|. Tab. 8.124 zeigt die je nach Stichprobenumfang n zu verwendende Testgröße. Uberschreitet der Wert der Testgröße die angegebenen Testschranken, so wird der fragliche Wert auf dem entsprechenden Signifikanzniveau als Ausreißer angesehen.
DIXON W . J . 1953: Processing data for outliers, Biometrics 9, 74-89
4
8
48
n
3 4 5 6 7
a = 0.10 a = 0.05
0.886 0.679 0.557 0.482 0.434
0.941 0.765 0.642 0.560 0.477
Test von statistischen
a = 0.01
Hypothesen
Testgröße Xi -
X2
Xl -
X„
0.988 0.889 0.780 0.698 0.597 X\ — X2 I i -
8 9 10
0.497 0.441 0.409
0.554 0.512 0.477
I
n
.
0.683 0.635 0.597 X i — X3 Xi -
11 12 13
0.517 0.490 0.467
0.576 0.546 0.521
X„_
0.679 0.642 0.615 XI — X3 XI -
14 15 16 17 18 19 20 21 22 23 24 25
0.492 0.472 0.454 0.438 0.424 0.412 0.401 0.391 0.382 0.374 0.367 0.360
0.546 0.525 0.507 0.490 0.475 0.462 0.450 0.440 0.430 0.421 0.413 0.406
Xfi — 2
0.641 0.616 0.595 0.577 0.561 0.547 0.535 0.524 0.514 0.505 0.497 0.489
Tabelle 8.12: Signifikanzschranken beim DIXON-Ausreißertest
8.5
49
Test auf Ausreißer
Für Stichprobenumfänge mit n > 20 kann man ein Verfahren anwenden, das auf DAVID, HARTLEY und PEARSON zurückgeht. Es benutzt als Testgröße sie sog. studentisierte Spannweite: 2q =
\x1-xs\
(g
46)
Man vergleicht zo mit den Schwellenwerten z der Tab. 8.135. Überschreitet die Testgröße zq den entsprechenden Schwellenwert z, dann berechnet man zusätzlich |ri — x\ und \x — xn\. Falls |ari — x\ größer ist als |x — x„|, so betrachtet man xi als Ausreißer, wenn jedoch |a?i — x\ kleiner ist als |x — xn\, dann wird x „ als Ausreißer klassifiziert. Anschließend kann der Test erneut auf die restlichen n — 1 Beobachtungen angewandt werden.
Test große: zo = Tl
a = 0.100
20 30 40 50 60 80 100 150 200 500 1000
4.32 4.70 4.96 5.15 5.29 5.51 5.68 5.96 6.15 6.72 7.11
—
oc = 0.050 a = 0.025 4.49 4.89 5.15 5.35 5.50 5.73 5.90 6.18 6.38 6.94 7.33
Xn\
s a
4.63 5.06 5.34 5.54 5.70 5.93 6.11 6.39 6.59 7.15 7.54
0.010
-
a = 0.005 4.91 5.39 5.69 5.91 6.09 6.35 6.54 6.84 7.03 7.60 7.99
4.79 5.25 5.54 5.77 5.93 6.18 6.36 6.64 6.85 7.42 7.80
Tabelle 8.13: Signifikanzschranken beim PEARSON-Ausreißertest Beispiel: Es wurde der Nitratgehalt N von 23 Grundwasserproben tratgehalte [ppm] sind der Größe nach geordnet: 39 50
43 50
45 50
47 50
47 51
Die empirische Häufigkeitsverteilung S DAVID
48 51
48 51
48 52
48 53
des Nitratgehalts
49 54
untersucht.
49 56
Die
Ni-
49
zeigt Bild 8.5.
H . A . , HARTLEY H . O . , PEARSON E . S . 1954, T h e distribution o f t h e r a t i o i n a single
normal sample of range to standard deviation, Biometrika 41, 482
50
8
•
3a
40
42
Test von statistischen
44 46 4B 50 Nitratgehalt [ppm]
52
54
Hypothesen
56
Bild 8.5: Häufigkeitsverteilung des Nitratgehalts im Grundwasser Bis auf den Wert 39 ppm scheinen die Nitratgehalte annähernd normalverteilt zu sein. Möglicherweise liegt ein Meßfehler bei der KJELDAHL-Ana7yse vor. Es soll deshalb überprüft werden, ob der kleinste Wert als Ausreißer klassifiziert werden kann. Mittelwert und Standardabweichung der Stichprobe sind N = 49.04 ppm und SN = 3.56 ppm. Mittelwert und Standardabweichung der Stichprobe ohne den Ausreißerwert sind N = 49.50 ppm und SN< = 2.87 ppm. Das Intervall n' ± 4sN< ist [38.02,60.98]. Darin ist der Wert 39 enthalten und gilt demnach nicht als Ausreißer. Der schärfere Test nach
hat als Testgröße bei einem Stichprobenumfang 39 - 4 5 von n = 23 die Testgröße ~,r3 = ^ ^ = 0.429. Dieser Wert 39 - 5 3 N1-N21. überschreitet die Signifikanzschranke 0.421 bei a = Ö.05 und n = 23 in Tab. 8.12 und gilt deshalb auf dem 5%-Signifikanzniveau als Ausreißer. Der Test nach
DIXON
— = ^ = sn 3.56 4.78. Der Schwellenwert bei n = 23 und a = 0.05 muß aus Tab. 8.13 durch 4.89 — 4.49 Interpolation geschätzt werden. Er ergibt sich zu 4.49 + 3 • — — ' — = 4.61. PEARSON
hat die Testgröße z0 = —
Die Testgröße ist größer als dieser Wert, deshalb liegt entweder ein Ausreißer von 39 ppm oder von 56 ppm vor. Dies überprüft man durch den Vergleich von |JVi - ~N\ = 10.04 mit \N - Nn \ = 6.96. Die erste Differenz ist größer als die zweite. Der Ausreißer ist also der Wert 39 ppm. Die Anwendung des Tests auf die restlichen Stichprobenwerte liefert keinen weiteren Ausreißer.
8.6
Versuchsplanung und
Stichprobenumfang
8.6
Versuchsplanung und Stichprobenumfang
51
Vor der Durchführung eines Experiments muß sich der Versuchsansteller die Versuchsfrage und das statistische Ziel überlegen. Die Versuchsfrage wird in Form der Nullhypothese Ho und der Alternativhypothese H\ formuliert. Formal will man in der Regel die Nullhypothese ablehnen und die Alternativhypothese annehmen. Dies geschieht vor allem aus Gründen der Interpretation eines statistischen Tests. Die Ablehnung der Nullhypothese ist statistisch aussagekräftiger als ihre Nichtablehnung. Meistens wird also der angestrebte Test als Test auf Unterschied formuliert. Das bedeutet, die Nullhypothese Ho lautet z.B. auf Gleichheit von zwei Methoden oder zwei Mitteln. Die Alternative H\ behauptet, daß sich die beiden Methoden oder Mittel unterscheiden. Grundsätzlich ist auch ein Test möglich, bei dem man die Rollen von Ho und Hi vertauscht und einen Test auf Gleichheit oder Äquivalenz von zwei Methoden durchführt. Ein solcher Test wird Aquivalenztest genannt. In diesem Fall wird man die Nullhypothese so formulieren: Die beiden Methoden oder Behandlungsmittel unterscheiden sich mindestens um einen bestimmten Betrag A. Die entsprechende Alternative H\ ist dazu komplementär und lautet: Die beiden Methoden oder Behandlungsmittel unterscheiden sich um weniger als A voneinander, sind also aus sachlogischer Beurteilung des Problems heraus als äquivalent oder bioäquivalent anzusehen. Beim statistischen Test auf Unterschied, der bisher behandelt wurde, lauten die Testhypothesen also: Ho H2 bzw. H\ \ ßI ^ H2 bzw.
Behandlungsmittel 1 = Behandlungsmittel 2 Behandlungsmittel 1 ^ Behandlungsmittel 2
. ^ '
. '
Der Wert für die Irrtumswahrscheinlichkeit oder das Niveau a wird z.B. auf 5% festgelegt. Nichtablehnung von HQ bedeutet nicht, daß HQ mit Wahrscheinlichkeit 1 — a statistisch gesichert ist. Man kann lediglich festhalten, daß die Stichprobendaten der Nullhypothese nicht widersprechen. Ablehnung der Nullhypothese Ho stellt eine Art Umkehrschluß dar, nämlich daß das beobachtete Ergebnis unter der Annahme von HQ SO unwahrscheinlich ist, genau mit Wahrscheinlichkeit A, daß HO falsch sein muß und die Alternative H\ angenommen wird. Eine Ablehnung von HQ auf dem Niveau A besagt, daß H\ mit einer Irrtumswahrscheinlichkeit von a angenommen wird, und daß mit der Erfolgswahrscheinlichkeit 1 — ß, auch Macht oder Power des Tests genannt, ein tatsächlich vorhandener Unterschied bei diesem Testverfahren auch entdeckt wird. Der Fehler zweiter Art ß hängt dabei von der wahren, unbekannten Differenz D — FI\ — ß2 ab.
8
52
Test von statistischen
Hypothesen
Führt man einen Äquivalenztest durch, werden die Testhypothesen folgendermaßen formuliert: Ho : > A Hi : \ ß i - f i 2 } < A
(8.48)
A ist eine fest gewählte Grenze. Es soll hier nicht näher auf die praktische Durchführung eines solchen Äquivalenztests eingegangen, denn man benötigt für die Berechnung einer entsprechenden Testgröße eine nichtzentrale Verteilung, d.h. der Mittelwert der Testgröße ist ungleich Null. Dies erschwert die numerische Berechnung. Mit entsprechenden Computerprogrammen stellt diese umgekehrte Form des Testens aber prinzipiell keine Schwierigkeit dar. Es wird beispielsweise auf das Programm TESTIMATE der Firma IDV verwiesen 6 . Um z.B. einen statistischen Test auf Unterschied durchzuführen, ist es sinnvoll, eine Art Versuchsplan aufzustellen, in dem neben dem Niveau a festgelegt wird, welcher Unterschied mit welcher Wahrscheinlichkeit bzw. Macht 1 — ß entdeckt werden soll und welcher Stichprobenumfang dazu notwendig ist. In der Regel wird man folgendermaßen vorgehen: Man formuliert zunächst die Testhypothesen HQ sowie H\ und legt den biologisch oder ökonomisch relevanten Unterschied 6 bzw. den Aquivalenzbetrag A fest. Anschließend wählt man das Signifikanzniveau a sowie die Macht des statistischen Tests l—ß, mit der eine Differenz S nachgewiesen werden soll oder mit der eine Äquivalenz innerhalb der Grenze A bewiesen werden soll. Mit diesen Vorgaben erfolgt die Berechnung des dazu notwendigen Stichprobenumfangs n. Beim einfachen ¿-Test beispielsweise sind die Größen Stichprobenumfang n, Fehler 1. und 2. Art a bzw. ß sowie der relevante Unterschied S = pi — fi2 und die Varianz a2 bzw. ein Schätzwert s2 durch die Beziehungen (8.6) und (8.7) festgelegt, je nachdem, ob es sich um eine ein- oder zweiseitige Fragestellung handelt. Im Prinzip kann man daraus eine gesuchte Größe, z.B. den notwendigen Mindeststichprobenumfang n, ausrechnen, wenn man die anderen Größen festlegt. Die Gleichungen (8.6) und (8.7) kann man zwar nicht explizit nach n auflösen, aber mit einem entsprechenden iterativen Verfahren lassen sich die Lösungen bestimmen. Es gibt Computerprogramme, z.B. die Programme N 7 , STPLAN 8 oder PLANUNG 9 , welche etwa den notwendigen Stichprobenumfang für viele Versuchssituationen (Meßdaten, Ereignisdaten, verbundene oder unabhängige Stichproben, Test auf Unterschied oder Äquivalenztest) ausrechnen. 6
T E S T I M A T E . IDV Datenanalyse und Versuchsplanung, Gauting 1990 N . IDV Datenanalyse und Versuchsplanung, Gauting 1987 8 STPLAN. Fortran-Programm der University of Texas Systems Cancer Center, Houston, Texas 1980 9 P L A N U N G . APL-Programm des Deutschen Krebsforschungszentrums, Heidelberg 1985 7
8.6
Versuchsplanung
und
53
Stichprobenumfang
Nachfolgend werden mögliche Versuchsplanungen mit Hilfe des Programms N anhand dreier Beispiele durchgeführt. Nach dem Aufruf von N und der Eingabe des Versuchsnamens (in diesem Fall Milchfett), -merkmals, -datums usw. gelangt man in folgendes Menü: Studie : ili I c h f e t t
Da tun: 18/95/1992
Ereignisdaten (binonial-verteilt)
(norma1-werteilt)
1 Gruppe egen f e s t e n Uert
liBiHIÜ»
Z Gruppen unuerbunden
Z Gruppen verbunden
Äquiualenz
BBÜÍíerscíueTTH
• S S í T í T *
zweiseitig
¡ f f l g j
Zeit: 1 3 : «
! 1 H 3
Hier legt man die Art des Versuchs und die Form der Hypothesen fest. Möglich ist ein Versuch mit normalverteilten Meßdaten (z.B. Milchfettgehalt, Gewicht) oder binomialverteilten Ergebnisdaten, d.h. Binärdaten mit zwei Ausprägungen (z.B. Münzwurf oder Trefferergebnis). Man gibt an, ob man eine Gruppe gegen einen festen Wert testen möchte oder ob man zwei Gruppen gegeneinander testet, wobei man dann zwischen verbundenem und unverbundenem Test wählen kann. Schließlich legt man die Form des gewünschten Tests und der Hypothesen, Test auf Unterschied oder Aquivalenztest, zweiseitig oder einseitig, fest. Will man z.B. den Milchfettgehalt von Kühen mit einem einseitigen Test auf Unterschied einer Gruppe (Test) gegen einen festen Wert (Standard) testen und geht außerdem von normal verteilten Meßdaten aus, so stellt man im folgenden Menü die gewünschte Parameterkonstellation ein. Der Test soll z.B. gegen einen festen Wert, nämlich gegen S t a n d a r d = 3 . 6 7 [%] durchgeführt werden. Es soll bei dem Test bereits eine sehr kleine Abweichung ( D i f f ) nach unten um wenigstens 6 = 0.02% Milchfettgehalt mit vernünftiger Erfolgswahrscheinlichkeit 1 — ß und Irrtumswahrscheinlichkeit a erkannt werden, z.B. a = 5% und ß = 10%. Man gibt in das Menü folgende Werte ein: S t a n d a r d = 3 . 6 7 und die praktische relevante Differenz D i f f = - 0.02. Der Wert für Test (Test = 3.65) wird daraus automatisch berechnet. Ebensogut könnte man den Standardwert und den Testwert vorgeben, dann ergibt sich die zu erkennende Differenz von selbst. Es kommt letztlich nur auf den Wert der Differenz
54
8
Test von statistischen
Hypothesen
D i i f an. Das Vorzeichen der Differenz gibt die Richtung des einseitigen Tests an. Man gibt weiter die Standardabweichung (Sigma) bzw. einen entsprechenden Schätzer an und wählt das gewünschte Signifikanzniveau bzw. den F e h l e r l . A r t , z.B. a = 0.05, sowie die gewünschte Macht 1 — ß des Tests bzw. den F e h l e r 2.Art, z.B. ß = 0.1. Die Stichprobengröße N wird als Zielgröße festgelegt (Funktionstaste F3). Startet man die Berechnungen (F4-Taste), dann erscheint im Feld N nach kurzer Zeit die Stichprobengröße n = 175. Es müssen in diesem Beispiel also mindestens 175 Gemelke untersucht werden, um auf dem 5%-Niveau mit 90%-iger Erfolgswahrscheinlichkeit eine Abweichung nach unten von mindestens 0.02% Milchfettgehalt zu erkennen.
Meßdaten
iBintn
1 Gruppe
isacuGH m
Unterschied
¡sEBBa S E S S I
einseitig
OEEBBB ¡¡EHMS
Mit der Funktionstaste F5 kann man sich die berechneten Ergebnisse etwas detaillierter auf eine Datei (mit F6 auf einen Drucker) ausgeben lassen. Der Ergebnisausdruck ist weitgehend selbstbeschreibend. Zusätzlich zu dem berechneten notwendigen Stichprobenumfang n wird der kritische Wert für den ¿-Test und eine Tabelle zur Operationscharakteristik ausgegeben. KRITISCHE UERTE TESTENTSCHEIDUNG t - U e r t e n t h a l t e n in I n t e r v a l l ( -1.654, n m e n d l . ) ? |
ja
kein Unterschied
1
nein
1 Unterschied
8.6
Versuchsplanung und
Stichprobenumfang
55
OPERATIOHS-CHARAXTER IST IX Die OC-Kurue beschreibt den Zusamenhang zuisehen den wahren Unterschied D und der Wahrscheinlichkeit, diesen Unterschiel zu Ubersehen. Wahres D *
o.ooo -0.802 -0.004 -0.006 -0.008 -o.oio -0.012 -e.en -0.016 -o.ois
-0.020 -0.022
-6.024
-0.026
-0.628 -0.939 -0.032 -0.O34 -0.036 -0.038 -0.040
V. uon Diff 0V. 10z
20* 30"/ 40* 50•/. 60* 70* BO* 90X 100* 110* 120* 130* 140* 150* 160* 170* 180* 190* 200*
OC
0.950 0.912 0.855 0.778 0.682 0.572 0.455 0.343 0.Z43 0.161 0.100 0.057 0.031 0.015 0.007 0.003 0.001 0.000 0.000 0.000 0.000
Der kritische Wert besagt: Wenn die Testgröße größer als < —1.654 ist, so kann man schließen, daß ein Unterschied von (mindestens) —0.02% Fettgehalt vorhanden ist. Der Testwert weicht also um mindestens 0.02% nach unten vom Standardwert 3.67% ab. Außerdem wird die sogenannte Operationscharakteristik bzw. die OC-Kurve ausgegeben. Die OC-Kurve beschreibt den Zusammenhang zwischen der wahren Differenz D von Test und Standard und der Wahrscheinlichkeit, diesen Unterschied zu übersehen, also dem /?-Fehler. OC entspricht diesem Fehler 2. Art ß. Aus dem Zusammenhang von D und ß läßt sich folgern, daß je größer die wahre Differenz zwischen dem Mittelwert und dem Testwert ist, desto kleiner ist die Wahrscheinlichkeit, diesen Unterschied zu übersehen. Eine Differenz von 0.034 und größer wird praktisch immer, also mit 100%-iger Erfolgswahrscheinlichkeit, aufgedeckt. Umgekehrt ist die Wahrscheinlichkeit, eine kleine Differenz zu übersehen, entsprechend hoch. Gemäß dem Bildschirmergebnis wird ein Unterschied von 0.02 bzw. —0.02 mit 90%-iger Wahrscheinlichkeit erkannt, d.h. ß — 0.1. Es wird nun davon ausgegangen, daß eine Stichprobengröße von n = 55 vorgegeben ist. Um den Fehler 2. Art bei dieser Stichprobengröße zu errechnen, wird das Feld F e h l e r 2.Art als Ziel markiert (F3), die Stichprobengröße N = 55 eingetragen und der Programmablauf neu gestartet (F4).
8
56 Meßdaten
Diff -0.O2
Test von statistischen
1 Gruppe
n
H
Unterschied
3.67
:
3.65
:
Standard
Signa : 6.090
Fehler Z.Art 0.507
O.050
SBBBl
einseitig
Test
Fehler l.firt
lisuua
Hypothesen
jéMBM
3) verschiedene Futterrationen für Mastschweine getestet werden sollen. Man sagt auch, daß a verschiedene Prüfglieder vorliegen. Die gesamten n Versuchstiere werden zufällig auf a Gruppen verteilt. Jede Gruppe bestehe aus r Tieren. Die Tiere sollten dabei relativ homogen sein, also die gleiche Rasse, ähnliches Anfangsgewicht u.a. haben. Die gesamte Anzahl n der Versuchstiere ist dann gleich der Anzahl a der zu testenden Futterrationen mal der Anzahl r der Tiere pro Gruppe. Man bezeichnet eine solche Versuchsanlage als v o l l k o m m e n randomisierte Versuchsanlage. Eine zweifaktorielle Varianzanalyse kommt zur Anwendung, wenn der Einfluß zweier Prüffaktoren auf eine Zielvariable getestet werden soll. So ist beispiel-
64
9
Varianzanalyse
weise interessant, ob die Sorte und die Behandlung mit verschiedenen Pflanzenschutzmitteln Einfluß auf den Weizenertrag haben. Als Versuchsanlage kann man ebenfalls eine vollkommen randomisierte Versuchsanlage wählen. Die Anzahl v der Prüfglieder ist dann das Produkt aus der Anzahl a der zu testenden Sorten mal der Anzahl b der zu testenden Pflanzenschutzmittel, also gleich der Anzahl v = a • b der möglichen Faktorkombinationen aus den beiden Faktoren. Jede Faktorkombination wird im günstigsten Fall gleich oft (r mal) wiederholt. Die Gesamtzahl n der Versuchsparzellen berechnet sich dann als Produkt n = a b • r = v • r. Zusätzlich zu den Faktoren "Sorte" und " M i t t e l " kommt bei der zweifaktoriellen Varianzanalyse in der Regel ein weiterer Faktor "Wechselwirkung" hinzu. Eine Wechselwirkung kann auftreten, wenn eine Sorte spezifisch auf ein spezielles Mittel reagiert. Mit der Varianzanalyse ist es möglich, solche Wechselwirkungen statistisch zu erfassen. Entsprechend gibt es mehrfaktorielle Varianzanalysen für die Prüfung mehrerer Faktoren und deren Wechselwirkungen. Außerdem existieren verschiedene Typen von Versuchsanlagen wie z.B. die r a n d o m i s i e r t e B l o c k a n l a g e , das L a t e i n i s c h e Q u a d r a t , die S p a l t a n l a g e oder die S t r e i f e n a n l a g e . Diese Anlagentypen haben ihren Ursprung im landwirtschaftlichen Versuchswesen, lassen sich jedoch für zahlreiche andere Problemstellungen verwenden. An dieser Stelle soll bereits kurz auf die Voraussetzungen zur Durchführung einer Varianzanalyse eingegangen werden: 1. Die Varianzen in den zu untersuchenden Gruppen (Prüfglieder) oder Faktorkombinationen sollen gleich groß sein. Z.B. muß die Streuung der Meßwerte und entsprechend auch der Fehler bei einer Sorte mit hohem Ertragsniveau genauso groß sein wie bei einer Sorte mit niedrigem bzw. mittlerem Ertragsniveau. 2. Die Fehler in den einzelnen Gruppen bzw. Faktorkombinationen sollen unabhängig voneinander normalverteilt sein (vgl. Abschnitt 9.5.2 S. 90).
9.1
9.1
Ein einführendes
Beispiel
65
Ein einführendes Beispiel
Die grundlegenden Überlegungen und Berechnungen für die einfache Varianzanalyse sollen am Beispiel eines Versuchs zur Prüfung des Behandlungserfolgs von Fungiziden gegen den pflanzenpathogenen Pilz Septoria nodorum durchgeführt werden. Der zu prüfende Faktor "Behandlung" besteht aus folgenden Stufen: Stufe 1 2 3
Behandlung keine Fungizid A Fungizid B
Die folgende Tabelle zeigt die durchschnittliche Anzahl der Sporenlager pro cm 2 Blattfläche (Pyknidiendichte) von jeweils 5 Versuchsparzellen. Man hat also 3 Prüfglieder miteinander zu vergleichen.
Wiederholung
Summe Mittelwert
Behandlung (Gruppe) 2 1 3 1 5.2 2.2 3.9 2 5.2 3.4 2.6 3.4 3 2.5 2.5 4 4.4 4.4 2.0 3.4 5 6.2 1.2 2/1. = 23.5 Vi. = 13.0 2/3. = 16.0 2/3. = 3.2 Vi = 4.7 1/2 = 2.6
V.. = 52.5 y.. = 3-5
Die Mittelwerte der drei Stichproben sind = 4.7, y2. = 2.6 und y 3 = 3.2, das Gesamtmittel ist y = 3.5. Die Gesamtvariation der 15 Werte wird nun in zwei Komponenten zerlegt: Die Variation zwischen den Gruppen und die Variation innerhalb der Gruppen. Die Gesamtvariation wird durch die Summe der quadrierten Abweichungen aller 15 Beobachtungen vom Gesamtmittel y erfaßt und mit SQ t o t a i oder S Q g e s a m t bezeichnet. Die ausführliche Berechnung der Summe der Abweichungsquadrate gesamt bzw. total lautet:
9
66
Varianzanalyse
12 22 32 (5.2- 3.5) = 2.89 (3.9- 3.5) = 0.16 (2.2- 3.5) = 1.69 (5.2- 3.5)22 = 2.89 (3.4- 3.5)22 = 0.01 (2.6- 3.5)22 = 0.81 (2.5- 3.5)2 = 1.00 (2.5- 3.5)2 = 1.00 (3.4- 3.5)2 = 0.01 (4.4- 3.5)2 = 0.81 (2.0 — 3.5) = 2.25 (4.4- 3.5) = 0.81 (6.2- 3.5) = 7.29 (1.2- 3.5)2 = 5.29 (3.4- 3.5)2 = 0.01 8.71 3.33 14.88 E SQtotai = SQgesamt = 14-88 + 8.71 + 3.33 = 26.92 Die Berechnung der Variation innerhalb der Gruppen wird durch die Summe der quadrierten Abweichungen vom Gruppenmittel erfaßt und mit SQj nnerha i b oder SQ R e s t bezeichnet: 1 (5.2-4.7)2 (5.2 - 4 . 7 ) 2 (2.5-4.7)2 (4.4_4.7)2 (6.2-4.7)2 £
= 0.25 = 0.25 =4.84 = O.09 = 2.25 7.68
2 (3.9-2.6)2 (3.4-2.6)2 (2.5-2.6)2 (2.0-2.6)2 (1.2-2.6)2
3 = 1.69 ( 2 . 2 - 3 . 2 ) 2 = 0.64 ( 2 . 6 - 3 . 2 ) 2 = 0.01 ( 3 . 4 - 3 . 2 ) 2 = 0.36 ( 4 . 4 - 3 . 2 ) 2 = 1.96 ( 3 . 4 - 3 . 2 ) 2 4.66
= = = = =
1.00 0.36 0.04 1.44 0.04 2.88
SQinnerhalb = SQRest = 7.68 + 4.66 + 2.88 = 15.22 Die quadrierten Abweichungen der Gruppenmittel vom Gesamtmittel sind: 2 2 2
(4.7 - 3.5) + (2.6 - 3.5) + (3.2 - 3.5) = 1.44 + 0.81 + 0.09 = 2.34
Der Wert 2.34 entspricht der Variation der Gruppenmittelwerte. Diese fällt natürlich kleiner aus als die Variation der Einzelwerte innerhalb der Gruppen, da ein Stichprobenmittel y eine um den Faktor r kleinere Varianz hat als die Varianz der Einzelwerte. Es sei daran erinnert, daß eine Zufallsvariable Y die Varianz — hat, wenn die Einzelwerte die Varianz er2 haben. Aus diesem Grund n wird der Wert 2.34 mit der Beobachtungszahl bzw. Anzahl der Wiederholungen in den Gruppen (r = 5) multipliziert. Man erhält dann die Variation zwischen den Gruppen SQ zwischen oder SQ B e h a n d l u n g :
SQzwischen = SQßehandlung = 2-34 • 5 = 11.70
Die Gesamtvariation ist damit die Summe aus der Variation innerhalb der Gruppen und der Variation zwischen den Gruppen:
SQtotai = SQinnerhalb + SQzwischen = 15.22+ 11.70 = 26.92
9.1
Ein einführendes
Beispiel
67
Die Variation zwischen den Gruppen SQ z w i s c h e n wurde aus den Abweichungen der drei Gruppenmittelwerte berechnet. SQ z w i s c h e n besitzt deshalb 3 — 1 = 2 Freiheitsgrade, denn bei festem y können zwei Mittelwerte variieren. Der dritte Mittelwert liegt dann fest aufgrund der Beziehung: -
M F i . + Pa. + Pa.) " 15 Mit den SQ-Werten kann man nun die Stichprobenvarianzen, d.h. Schätzwerte für die entsprechenden Varianzen innerhalb und zwischen den Gruppen berechnen. V
Der Schätzwert s 2 für die Varianz zwischen den Gruppen ergibt sich nach Division von SQ z w j s c h e n durch die Anzahl FG der Freiheitsgrade. Er wird auch als mittlere Abweichungsquadratsumme zwischen den G r u p p e n M Q z w i s c h e n bezeichnet: M Q
z w i s c h
e n
=
=
SQz
;gchen = ^
= 5-85
SQmnerhaib setzt sich aus drei SQ-Werten zusammen. Jeder einzelne SQ-Wert wurde aus 5 Abweichungsquadraten berechnet. Aus diesem Grund hat jeder SQ-Wert 5—1 = 4 Freiheitsgrade. SQj n n e r h a l b hat dann 3-4 = 12 Freiheitsgrade. Die Einzelschätzwerte für die Varianzen in den drei Gruppen sind also: 2 7.68 , Aft s?1 = —— 4 = 1.92
4.66 , 2 sl2 - —— : 1.17 4
, 2.88 n „„ sl3 = —— 4 = 0.72
Unter der Annahme, daß die drei Verteilungen die gleiche Varianz haben, ist der gemeinsame Schätzwert sf innerhalb der Gruppen: 2
sf =
1.92+ 1.17 + 0.72
3.81 , „ = — = 1.27
, bzw.
7.68 + 4.66 + 2.88 15.22 = 12 ~\2~ = Nun können sf und s^, die die Varianzen innerhalb und zwischen den Gruppen schätzen, miteinander verglichen werden. Anstelle von s2 bezeichnet man diese Schätzwerte auch als mittlere Abweichungsquadrate MQ. Das Verhältnis s2 FQ = -§• kann als Realisation einer F-verteilten Zufallsgröße angesehen werden, 2 Sf =
unter der Voraussetzung, daß die Stichproben der Gruppen aus normalverteilten Grundgesamtheiten mit gleicher Varianz stammen. p _ f|_ _ MQ zw ; gchen 5.85 _ ° sf MQ i n n e r h a l b ~~ 127 Die Varianz s\ bzw. MQ z w i s c h e n zwischen den Gruppen ist also 4.61 mal so groß wie die Varianz sf bzw. MQ i n n e r h a l b innerhalb der Gruppen und damit deutlich größer.
9
68
Varianzanalyse
Eine statistische Beurteilung dieses Resultats gewinnt man aufgrund der Tatsache, daß das Verhältnis der Stichprobenvarianzen F-verteilt ist. Ein Vergleich mit der F-Fraktile i2,i2;0.95 = 3.89 zeigt, daß das berechnete Verhältnis der Varianzen FQ = 4.61 beim Signifikanzniveau a = 5% verschieden von 1 ist. Der entsprechende p-Wert beträgt 3.27%. Daraus kann man etwas genauer schließen: Auf dem 3.27%.Signifikanzniveau gibt es signifikante Unterschiede zwischen den (unbekannten) Mittelwerten fii, ¿¿2 und /13 der Gruppen. Welche Mittelwerte sich signifikant unterscheiden, weiß man aufgrund dieses F-Tests jedoch noch nicht. Die Signifikanz des F-Tests sagt lediglich aus, daß mindestens eine Differenz von zwei Mittelwerten signifikant verschieden von 0 ist. Für welche Differenzen dies zutrifft, zeigt ein sog. multipler Vergleich. Solche multiple Vergleiche sind in Kap. 9.6 vorgestellt. Die Ergebnisse einer Varianzanalyse werden in einer sog. Tafel der Varianzanalyse zusammengefaßt: Variationsursache zwischen den Gruppen innerhalb der Gruppen gesamt
SQ 11.70 15.22 26.92
FG 2 12 14
MQ F 5.85 4.61 1.27
P 0.0327
Der F-Wert in der vorletzten Spalte ist die Testgröße für den Test der Nullhypothese, daß die drei Grundgesamtheiten gleich sind, insbesondere daß die drei Mittelwerte gleich sind, also: H0 :
= (¿2 - Hz
Der p-Wert in der letzten Spalte gibt das kleinste Niveau an, auf dem man die Nullhypothese Ho ablehnen kann. Voraussetzung ist, daß die Varianzen in den drei Grundgesamtheiten gleich sind, also — o\ — trf = er2. Wenn die Nullhypothese zutrifft, dann ist = S e n MQZwischen 1 i Schätzer für er2, wenn H0 nicht zutrifft, wird MQ z w i s c h e n das unbekannte 2.76 = F 4 , 2 5 ; o . 9 5 . Die Nullhypothese kann also auf dem 5%-Signißkanzniveau verworfen werden. Es ist demnach mit weniger als 5% Irrtumswahrscheinlichkeit statistisch gesichert, daß mindestens eine Futterration eine höhere Gewichtszunahme liefert als die anderen. Um eine einfache Varianzanalyse mit dem MINITAB-Kommando aovoneway (aov: engl.: analysis of variance, oneway; engl.: einfach) durchzuführen, werden die Meßwerte der verschiedenen Faktorstufen jeweils in eine eigene Spalte eingelesen. MTB > read cl-c5 DATA> 9 8 15 10 13 DATA> 9 14 15 11 16 DATA> 11 15 16 13 16 DATA> 12 16 16 13 17 DATA> 13 16 19 15 17 DATA> 14 17 22 17 22 DATA> end 6 ROWS READ
Anschließend
wird die Varianzanalyse
durchgeführt.
MTB > aovoneway cl-c5 ANALYSIS OF VARIANCE SOURCE
DF
SS
MS
F
FACTOR
4
146,.20
36 .55
4.83
7..57
ERROR
25
189 .17
TOTAL
29
335 .37
P 0.005
MINITAB gibt die Variationsursache (engl.: source) mit den zugehörigen Freiheitsgraden DF (engl.: degrees of freedom), den Summen der Abweichungsquadrate SS (engl.: sum of squares) und den mittleren Abweichungsquadratsummen MS (engl.: mean squares) aus. Neben dem F-Wert wird auch der p-Wert,
9.2
Die einfaktorielle
Varianzanalyse
75
also die Wahrscheinlichkeit, eine wahre Nullhypothese irrtümlich berechnet. Diese beträgt im vorliegenden Fall 0.5%.
abzulehnen,
STATA enthält den Befehl oneway zur Durchführung einfaktorieller Varianzanalysen. Es muß eine Spalte für die Faktorstufen und eine Spalte für die Meßwerte vorhanden sein. Eine ASCII-Datei FUTTER.DAT muß also 3 0 Zeilen und in etwa folgende Gestalt haben: 1 1
9 9
5 5
17 22
Nach dem Einlesen der Daten wird die Tafel der Varianzanalyse berechnet. . infile Futter Zunahme using futter.dat (30 observations read) . oneway Zunahme Futter
Source Betveen groups Within groups Total
Analysis of Variance SS df MS
F
146.20 189.17
4 25
36..55 7..57
335.37
29
11..56
4.83
Prob > F 0.0050
Auch in MINITAB existiert ein oneway-Kommando, für das die angeführte Datenstruktur mit einer Spalte für die Meßwerte und einer Spalte für die Faktorstufen vorgeschrieben ist.
76
9
9.3
Varianzanalyse
Die zweifaktorielle Varianzanalyse
Bei der einfaktoriellen Varianzanalyse wurde die Wirkung eines Prüffaktors A getestet. Die gleichzeitige Untersuchung von zwei Prüffaktoren A und B führt zur zweifaktoriellen Varianzanalyse. Im Folgenden soll der Faktor A in a Stufen, der Faktor B in b Stufen und für jede Faktorkombination r Wiederholungen vorliegen. Als zusätzlicher Faktor kommt die Wechselwirkung Ax B zwischen den Behandlungen A und B hinzu. Es ist z.B. möglich, daß bei einer ertragreichen Weizensorte die Stickstoffdüngung einen signifikant höheren Ertragszuwachs verursacht als bei einer ertragsschwächeren Sorte. Es liegt dann eine Wechselwirkung zwischen den Prüffaktoren Sorte und Stickstoffdüngung vor. Ob die Wechselwirkung statistisch gesichert werden kann, wird mit dem F-Wert bei der Wechselwirkung getestet. Die Datenanordnung zeigt folgendes Schema: Fakt or A Faktor B 1 2
1 2/ui, 2/112, • • • , 2/1 lr 2/121, 2/122, • • • , 2/l2r
2 2/211, 2/212, • • • , 2/21 r 2/221,1/222, • • • , 3/22r
i 2/tii, 2/»i2, • • • , 2/ilr 2/X21,J/:22, • • • , 2/i2r
a 2/all, 2/al2, • • • , i/alr 2/a21, J/a22, • • • , 2/a2r
j
S/1 J1 > 2/1.7 2,2/2; 1,2/2; 2, • • • , yijr • • •, 2/2; r
2/t; 1, 2/i; 2, • • • , yijr
2/a; 1, 2/a; 2, • • • , 2/o;'r
b
2/141)2/162, • • •, ynr
2A6' 1> 2/«62, • • •, 2/»6r
2/a61,2/a62, • • •, J/a&r
1/261,2/262, • • • , 2/26r
Es werden folgende Abkürzungen verwendet: t Vi-
r yi k
i
j-1k=1 a r ¿=1 k=1 r y( k
yij. = Y. i k=1 a b
t
¿=1;=1k=1
Vi.. =
Vi.. b• r
y.j. =
y.j.L -a•r
J
.»„ =
r
y... y... = a • b • r
(9.9)
9.3
Die zweifaktorielle
Varianzanalyse
77
Die gesamte Variation SQ T wird wieder aufgeteilt:
SQA
=*T-5>.-..-yJ i=l b
2
=A-r.^2(y.J-V...)2
SQb
j=1 a b
SQ AxB =
-
i=ij=l
- y-j- + V-)2
sqr
= E E E f e - % ) t—ij=i*=i
2
sqt
= E E E ( » y t - y j 1 = 1 J=1 fc=l
2
(9-10)
Die Berechnung der Abweichungsquadratsummen mit Hilfe des Korrekturglieds y2 und die Aufteilung der Freiheitsgrade lauten: n
*
a
o
9
^
br
n
FG: a — 1
S Q s
f—' a•r i SQaxb = E £ ^ i=lj=1 SQr
- ^
"
- SQ^ - S Q ß
= S Q t - SQa - SQß - S Q A x ß = u b r a b 2 =
SQt
FG:
n
E E E « 5 » - E E 7 i=lj=l*=1 «=1i=l a b r 2
6-1
F G : (a — 1)(6 — 1) (9.11) F G : ab(r-
1) =
= ti — ab FG : n — 1
27 4 121 3 1 7 1 26 1 15 ] 19 S69 22 l ö 5 24 J 18 J 76 96
10% 15 ] 2 > 24 7 1 20 | 24 l ö 2 8
y.j.
72
176
J
76
y... =
248
9.3
Die zweifaktorielle
3
2
3
D D X Ä t=lj=1t=l
2
4
j=1 3
=132 +112+• • •+242+
82
=
4428
-°
6
¿=1 e
79
Varianzanalyse
=
7 2 ^ 1 7 6 ^ 9 9
4 Q 1 7 8
2
Vij. _ 272 + 692 + 212 + 552 + 242 + 522 _ = 4078.7 E E t = ¿=1 i=i ^ _ 248^ = 3416.9 18 ~
18
SQt = 4428.0- 3416.9 = 1011.1 SQ^ = 3461.3- 3416.9 = 44.4 SQB = 4017.8- 3416.9 = 600.9 SQaxb = 4078.7 - 3416.9 - 44.4 - 600.9 = 16.5 SQr = 1011.1- 4 4 . 4 - 600.9- 16.5 = 349.3 Damit lautet die Tafel der Varianzanalyse: Variation Sauerstoff Temperatur Sauerstoff x Temperatur Rest total
SQ FG 44.4 2 1 600.9 2 16.5 349.3 12 1011.1 17
FG 17 FG 2 1 FG FG 2 FG 12 MQ 22.2 600.9 8.3 29.1
F 0.8 20.6 0.3
Der F-Test für ein Signifikanzniveau von a = 5% liefert folgende Ergebnisse (vgl. Tab. A.5 im Anhang): 0.3 ? 3.9 = F2i12;0.05 0.8 y* 3.9 = F2iI2;0.05 20.6 > 4.7 = Fhi2-0.05
Eine Wechselwirkung zwischen dem Faktor Sauerstoff und dem Faktor Temperatur ist statistisch nicht nachweisbar. Der Test auf Signifikanz der beiden Hauptwirkungen (Faktor A: Sauerstoff und Faktor B: Temperatur) ist nur bei der Temperatur positiv. Es kann also lediglich ein Einfluß des Faktors Temperatur auf die Kartoffelfäule zum Signifikanzniveau a = 0.05 gesichert werden. Für eine Auswertung der Daten in Computerprogrammen legt man die Daten üblicherweise codiert in einer Datei ab. Der Code für die Faktorstufen kann ein beliebiger ordinaler Wert sein. Die ersten fünf Zeilen einer ASCII-Datei FAEULE. DAT haben beispielsweise folgende Einträge:
80 2 2 2 2 2
Varianzanalyse
9 10 10 10 16 16
13 11 3 26 19
Sowohl in MINITAB als auch in STATA existiert ein Befehl anova (von engl, analysis of variance), mit dem man mehrfaktorielle Varianzanalysen durchführen kann. Die Einflußgrößen auf die Zielvariable müssen explizit angegeben werden, wobei die Angabe der Wechselwirkungen mit einem Stern zwischen den Faktoren erfolgt. In MINITAB werden die Daten mit dem read-Befehl eingelesen. MTB > read 'faeule.dat' cl-c3 18 ROWS READ ROW
Cl
C2
C3
1 2 3 4
2 2 2 2
10 10 10 16
13 11 3 26
MTB > name cl '02' c2 'T' c3 'Faeule' MTB > anova 'Faeule' = '02' 'T' '02'*'T' Factor 02 T
Type Levels Values fixed 3 2 fixed 2 10
6 16
10
Analysis of Variance for Faeule SS 44,.44 600,.89 16,.44 349..33 1011..11
MS 22..22 600..89 8..22 29..11
F 0..76 20,.64 0 . .28
P 0, 0..000 0 . .759 -j
DF 2 1 2 12 17
CO
Source 02 T 02*T Error Total
Das Einlesen der Daten in STATA erfolgt durch das Kommando inf ile.
9.3
81
Die zweifaktorielle Varianzanalyse
. infile 02 T Faeule using faeule.dat (18 observations read) . anova Faeule 02 T 02*T Number of obs = 18 Root MSE = 5.39547 Source | Partial SS +
df
R-square = Adj R-square = MS
F
0.6545 0.5105
Prob > F
Model | 1 1 02 I T I 02*T I l l
661 78
5
132 36
4 55
0 0147
44 44 600 89 16 44
2 1 2
22 22 600 89 8 22
0 76 20 64 0 28
0 4875 0 0007 0 7588
Residual | +
349 33
12
29 11
Total |
1011.11
17
59.48
Beide Computerausdrucke enthalten in der Tafel der Varianzanalyse die Wahrscheinlichkeit p (p-Wert) für eine irrtümliche Ablehnung der Nullhypothese. STATA gibt unter dem Stichwort Model zusätzlich die kumulierten Werte für die Faktoren und Wechselwirkungen aus.
9
82
9.4
Varianzanalyse
Drei- und mehrfaktorielle Varianzanalysen
Mit der Varianzanalyse können auch drei oder mehr Prüffaktoren getestet werden. Die Überlegungen zur Aufteilung der Varianzanteile verlaufen analog zu denen der ein- und zweifaktoriellen Varianzanalyse. Die Notation für eine dreifaktorielle Varianzanalyse erweitert sich im Vergleich zur zweifaktoriellen um einen zusätzlichen Index. Wechselwirkungen können jeweils zwischen zwei Faktoren und zwischen allen drei Faktoren auftreten. Bei mehrfaktoriellen Varianzanalysen können demnach Wechselwirkungen für alle Faktorkombinationen auftreten. Die verwendeten Abkürzungen für eine dreifaktorielle Varianzanalyse lauten: b
Vi
T
Vi... b•c• r
j=i ¡t=i i=i a
yi- =
C
i=1 a
c
r
i = l /=1 b
üj
V-i••
= a •c•r
r
»=1 J = 1 / = 1 c r
c•r
lfc = l i = l b
r
yi.h. =
yiju
Vt.k. =
j=i i=i a
r
y.jk.
a b e r
(9.12)
b
y.jk.
. y.jk. a•r
Vijk.-
. yijk. r
¿=1 /=i yijk. = ^2yijki i=i
Vi.k.
y... a • b•c • r
i=l ;' = 1 i = l 1=1 Diese Notation wird auch in den folgenden Abschnitten verwendet, ohne im speziellen Fall darauf zu verweisen. Der Punkt an einer speziellen Indexposition bedeutet also, daß über diesen Index aufsummiert wurde. Die Berechnung der Abweichungsquadratsummen wird mit Hilfe des Korrekturglieds wie folgt durchgeführt:
9.4
Varianzanalysen
Drei- und mehrfaktorielle 1
1
b e r
n
0
SQ A
^
t"-* a • e r i=i SQc
= E1 ' a •b•r k=1
83
n
n
¿=1 j=i SQAXC
= ¿ ¿ ^ 7 »=1 Jt=l
SQBXC
= *—' E zE—' a • r " i=i*=i
^ - S Q ^ - S Q C n "
S Q
*
(9.13)
"
SQ^XßXC = E E E - ^ - SQA - SQß - S Q C «=1j=1i=l — SQ>IXß — S Q ^ C — S Q B X C SQr = S Q t - SQA - S Q B - S Q C —SQ AxB — SQAxC — SQBxC — SQAxBxC a SQT
b
e
2
r
= E E E E ¿ = 1 j = l Jfc = l i=l
4
I
~
Die mittleren Abweichungsquadratsummen MQ sind wiederum die Quotienten aus den SQ-Werten und den zugehörigen Freiheitsgraden.
84
9
Varianzanalyse
Damit folgt die Tafel der Varianzanalyse für den dreifaktoriellen Versuch:
Variation
SQ
FG
MQ
A
SQ *
a- 1
MQa
B
SQB
6-1
MQb
C
SQ
c- 1
MQ
Ax
B
SQ
AxC
AxB
SQAXC
BxC Ax
C
SQßXC BxC
SQAXBXC
Rest
SQR
total
SQT
F MQA MQR MQ
MQ C
MQ^Xß
(a-l)(c-l)
MQ^XC
MQaxc
(a — 1)(6 — l)(c — 1) MQYLXßXC afcc(r — 1)
C
MQR MQ^XB
(a — 1)(6 — 1)
(6-l)(c-l)
ß
MQR
MQR
MQ^xc MQR MQBXC MQR
MQylxßXC MQR
MQ R
71-1
Der Einfluß der einzelnen Faktoren und Wechselwirkungen wird wiederum mit den entsprechenden F-Werten getestet. Überschreitet der Fo-Wert des betrachteten Faktors die . F z ^ i - o - F r a k t i l e der F-Verteilung bei den entsprechenden Zähler- und Nennerfreiheitsgraden Z und N, dann kann eine Wirkung auf dem a-Signifikanzniveau statistisch gesichert werden. Zur praktischen Vorgehensweise sei folgendes angemerkt: Man testet zunächst die Wechselwirkungen, also die Dreifachwechselwirkung A x B x C und alle Zweifach Wechsel Wirkungen. Wenn alle diese Tests nichtsignifikant ausfallen, hat es Sinn, die Hauptwirkungen der Faktoren A, B und C zu testen und entsprechende Mittelwertsvergleiche (vgl. 9.6.7) unter den A-, B- bzw. C-Stufen durchzuführen. Sind jedoch Wechselwirkungen signifikant, ist es u.U. nur sinnvoll, bestimmte Faktorkombinationen (bzw. deren Mittelwerte) untereinander zu vergleichen. Die Hauptwirkungen der Faktoren A, B und C lassen sich dann ausschließlich unter Berücksichtigung bestimmter Wechselwirkungen beurteilen.
9.4
Drei- und mehrfaktorielle
Varianzanalysen
85
Beispiel: In einem Düngungssteigerungsversuch soll die Wirkung der Pßanzennährstoffe Stickstoff (N), Phosphor (P) und Kalium (K) sowie der Wechselwirkungen zwischen den einzelnen Nährstoffen auf den Ertrag von Weizen bei einem Signifikanzniveau von 5% geprüft werden. Dazu sind Weizenpflanzen der gleichen Sorte in Gefäßen auf identischem Boden unter Glas angebaut worden, um die Versuchsbedingungen für die einzelnen Versuchsobjekte konstant zu halten. Die Faktorstufen der Prüffaktoren sind die Gesamtdüngergaben der Nährstoffe in g pro Gefäß. Jede Faktorkombination wurde in 3 Wiederholungen angebaut. Die einzelnen Erträge in g pro Gefäß zeigt Tab. A.19 im Anhang.
g/Gefäß
N P K
Faktorstufe 1 2 3 0.0 0.8 1.6 0.0 0.5 1.0 0.0 1.0 2.0
Die Varianzanalyse in MINITAB wird wiederum mit dem Kommando anova unter Angabe der zu prüfenden Faktoren und der Wechselwirkungen durchgeführt, nachdem die Daten aus der Datei NPK.DAT eingelesen wurden. MTB > r e a d ' n p k . d a t ' 81 ROWS READ
cl-c5
ROW
C1
C2
C3
C4
C5
1 2 3 4
1 1 1 1
1 1 1 1
1 1 1 2
1 2 3 1
22.9 21.0 24.1 42.2
86
9
Varianz analyse
MTB > name c l 'N' c2 'P' c3 'K' c5 'Ertrag' MTB > anova 'Ertrag' = ' N " P " K " S ' * ' P " N ' * ' K " P ' * ' K " N ' * ' P ' * ' K ' Factor N P K
Type Levels Values fixed 3 1 2 fixed 3 1 2 fixed 3 1 2
3 3 3
Analysis of Variance f o r Ertrag Source N P K N*P N*K P*K N*P*K Error Total
DF 2 2 2 4 4 4 8 54 80
SS 17695, ,07 397..25 756..35 121..55 66..76 136..51 585..09 2184.48 21943. .05
MS F 8847,.53 218,,71 198..62 4..91 9.,35 378, ,17 0..75 30,.39 16..69 0..41 34..13 0..84 73..14 1. 81 40. ,45
P 0..000 0,.011 0.,000 0..562 0.,799 0.,504 0.,096
Die Wechselwirkungen zwischen den Prüffaktoren haben keinen signifikanten Einßuß auf den Ertrag. Die Wirkungen der Faktoren N, P und K können auf dem 5%-Signißkanzniveau gesichert werden. Das anova-Kommando kann man auch abgekürzt schreiben als: MTB> anova 'Ertrag' = 'N' I 'P' I 'K'
9.5
Versuchsanlagen
9.5
Versuchsanlagen
87
Für die praktische Durchführung von Versuchen, bei denen eine vorgegebene Anzahl von Prüffaktoren getestet werden soll, gibt es spezielle Anordnungen von Versuchsanlagen. Im Folgenden werden die grundsätzlichen Eigenschaften und Tafeln der Varianzanalyse solcher Anlagetypen vorgestellt. Die Nomenklatur orientiert sich stark am landwirtschaftlichen Versuchswesen, da die Anlagetypen zum großen Teil aus dieser Disziplin hervorgegangen sind. 9.5.1
Grundlagen und Prinzipien der Versuchsplanung
Voraussetzung für exakte und aussagekräftige Versuchsergebnisse ist eine detaillierte Versuchsplanung. Die Versuchsfrage sollte auf der Grundlage des vorhandenen Erkenntisstands klar formuliert werden, z.B.: "Ist die Wirksamkeit eines neuen Medikaments oder Pflanzenschutzmittels besser als bisher angewandte Medikamente oder Pflanzenschutzmittel?" oder "Welche Wechselwirkungen bestehen zwischen verschiedenen Sorten (Faktor A), Düngungsstufen (Faktor B) und Aufwandmengen eines Halmverkürzungsmittels (Faktor C)?". Die einzelnen Stufen eines Prüffaktors oder die Kombinationen verschiedener Faktorstufen bezeichnet man als Prüfglied, Behandlung oder Variante. Im einfaktoriellen Versuch wird die Wirkung eines einzelnen Faktors A geprüft. Die Anzahl v der Prüfglieder ist in diesem Fall gleich der Anzahl a der Stufen des Faktors A, also v = a. Die Anzahl der Prüfglieder im mehrfaktoriellen Versuch ist in der Regel gleich dem Produkt aus den Anzahlen der einzelnen Faktorstufen. Eine solche Versuchsanlage heißt balanziert. Im dreifaktoriellen balanzierten Fall mit den Faktoren A, B und C ist demnach v = a • b • c. Die Auswahl geeigneter Prüfmerkmale hat so zu erfolgen, daß sie mit ausreichender Genauigkeit die Wirkung der Prüffaktoren erkennen lassen. Die merkmalsspezifische Zufallsvariabilität, die als Fehler- oder Reststreuung ermittelt wird, muß kleiner sein als die aufgrund der Versuchsfrage erwartete Variabilität zwischen den Prüfgliedern. Es ist beispielsweise möglich, die Wirkung von Fungiziden gegen den pflanzenpathogenen Pilz Septoria nodorum anhand des Prüfmerkmals "Ertrag" zu testen. Da dieses Merkmal jedoch stark von weiteren ertragsbildenden Faktoren beeinflußt wird, ist eine direkte Quantifizierung mit Hilfe des Merkmals "Pyknidiendichte" evtl. sinnvoller. Von einem Versuch verlangt man auch eine gewisse Repräsentativität, d.h. die Ergebnisse sollten einen bestimmten Grad von Verallgemeinerung beispielsweise für vergleichbare Bodenbedingungen oder Anbautechnologien zulassen. Das ceteris-paribus-Prinzip verlangt, daß alle Faktoren, deren Wirkungen nicht untersucht werden sollen, konstant zu halten sind. Besonders in Feldversuchen ist diese Forderung in den meisten Fällen nicht einzuhalten, da z.B.
88
9
Varianzanalyse
Bodenunterschiede selbst auf kleinräumigen Versuchsflächen immer vorhanden sind. Die Verletzung des ceteris-paribus-Prinzips erhöht den Versuchsfehler. Es gibt jedoch eine Reihe von Anlagetypen, in denen dieser Fehler varianzanalytisch behandelt werden kann. Eine hohe Versuchsgenauigkeit wird erreicht, indem die Zufalls Variabilität und systematische Fehler möglichst klein gehalten werden. Zufällige Variabilität entsteht z.B. aufgrund des nicht exakten Ablageabstands einer Sämaschine oder einer Verletzung des ceteris-paribus-Prinzips. Ein systematischer Fehler resultiert beispielsweise aus einer falsch eingestellten Sämaschine. Die Versuchsgenauigkeit besteht aus zwei Komponenten: Die Erwartungstreue oder Treffgenauigkeit ist ein Maß, wie genau ein Schätzer, z.B. y für den unbekannten Mittelwert fi oder sjt — MQ R für die unbekannte Varianz er2, den wahren Parameter fi bzw. er2 trifft. Die Erwartungstreue wird besonders von systematischen Fehlern beeinflußt. So wird z.B. der Erwartungswert des Ertrags bei einem falsch eingestellten Düngerstreuer über- bzw. unterschätzt. Die Präzision oder Wiederholungsgenauigkeit ist ein Maß für die Ubereinstimmung wiederholter Schätzungen. Liegen beispielsweise die Ertragswerte mehrerer Wiederholungen relativ eng beieinander, dann liegt eine höhere Präzision vor, als wenn die Erträge stark streuen. Ein Meßwert für die Präzision ist z.B. der Variationskoeffizient sji/y. Bild 9.1 zeigt die Versuchsgenauigkeit in Abhängigkeit von Erwartungstreue und Präzision. Die Präzision oder Wiederholungsgenauigkeit kann durch die Anlage des Versuchs in Wiederholungen geschätzt werden. Ohne Wiederholung ist eine Berechnung von Streuungsmaßen für die Schätzung der Zufallsvariabilität nicht möglich. Eine steigende Anzahl von Wiederholungen reduziert den störenden Einfluß der Zufallsvariabilität und steigert deshalb die Versuchsgenauigkeit. Die Erwartungstreue bzw. Treffgenauigkeit wird durch Randomisation erhöht. Diese zufällige Zuordnung der Prüfglieder und ihrer Wiederholungen führen zum Ausgleich zufälliger Unterschiede in den Versuchsbedingungen (z.B. der Bodengüte). Häufig ist es zweckmäßig, die Randomisation durch Bildung von Blocks einzuschränken. Ein Block ist eine Gruppe von Versuchseinheiten, bei denen die Versuchsbedingungen ähnlicher als für andere Einheiten sind. Ein vollständiger Block enthält alle Prüfglieder einmal und bildet damit eine vollständige Wiederholung. Im Feldversuchswesen dient die Blockbildung hauptsächlich zur Elimination des störenden Einflusses von Bodenunterschieden.
9.5
89
Versuchsanlagen Erwartungstreue Präzision
hoch
niedrig
hoch •H fiy
y
niedrig
y
Bild 9.1: Versuchsgenauigkeit am Beispiel der Schätzung von pi 9.5.2
Varianzanalytische Modelle
Versuche und deren varianzanalytische Auswertungen sollen Aufschluß geben über die Wirkungsintensität bestimmter Einflußfaktoren. Diese Einflußfaktoren hat man häufig vollständig im Griff (z.B. Düngungsvarianten oder Pflanzenschutzmaßnahmen). Manchmal sind diese jedoch nur teilweise manipulierbar (z.B. Böden) oder überhaupt nicht beeinflußbar (z.B. Klimafaktoren). Varianzanalytische Verfahren unterstellen nun Modellannahmen für die betrachteten Merkmale. Wenn man die Auswirkungen ganz bestimmter fester Ausprägungen eines Faktors auf eine Zielgröße untersuchen will, wird man ein Modell mit fixen Eff e k t e n unterstellen. Beispielsweise sollen die Effekte von drei vorgegebenen Pflanzenschutzmitteln oder die Ertragsleistung von fünf speziellen Kartoffelsorten geprüft werden. Wählt man dagegen Versuchseinheiten (z.B. Tiere oder Pflanzen) zufällig aus einer Population aus, dann interessieren in der Regel nicht diese wenigen Objekte, sondern man möchte Aussagen über die ganze Population oder Grundgesamtheit treffen. Wenn die in der Varianzanalyse betrachteten Klassen als zufällige Stichproben aus einer Grundgesamtheit aufzufassen sind, wird man ein Modell mit zufälligen Effekten wählen. In varianzanalytischen Modellen werden fixe Effekte normalerweise mit kleinen griechischen Buchstaben (a, ß, 7 usw.), zufällige Effekte mit den entsprechen-
9
90
Varianzanalyse
den lateinischen Buchstaben (a, b, c usw.) bezeichnet. Bei einem einfaktoriellen Versuch heißt die lineare Gleichung 2Hj = P + oti+eij
(9.14)
Vi ein Modell mit fixen Effekten. Dabei ist fi das Gesamtmittel, m = fi + a,das Mittel der i'-ten Behandlung, a,- der fixe Effekt der i-ten Behandlung bzw. Stufe und e,j die Zufallsabweichung (der Meßfehler) der zufälligen Beobachtung yij vom Stufenmittel fi{. Es wird vorausgesetzt, daß für jede der a Behandlungen der zufällige Fehler eine (0, o^-normalverteilte Zufallsvariable darstellt. Außerdem sollen die einzelnen Fehler unkorreliert sein, d.h. E(e;j -e,j) = 0. Die Effekte des Prüffaktors a,- = //,• — fi sind unbekannte Parameter, über die eine Aussage getroffen werden soll. Man stellt meistens die sog. Reparametrisierungsbedingung auf: 0 ^ a , = 0 ¡=i
(9.15)
Im Modell mit fixen Effekten interessieren a ausgewählte, also fixe, Stufen des Prüffaktors. Die Gesamtvarianz ist deshalb identisch mit der Varianz des Fehlers: (9.16) Das Modell m i t zufalligen Effekten lautet im einfaktoriellen Fall: y^ = n + ü{ + eij
(9.17)
Der zufallige Effekt Ì - Ì 7 . . ) ¿=1j=L
2
2
n—a MQ n-
1
B
=
O— 1 SQ
N
» —a
F
-
MQR
92
9
Varianzanalyse
Unverzerrte Schätzer o\ und a2a können über die Erwartungswerte von MQ R und M Q a berechnet werden. E(MQr) = E ( P * - ) = — E ( S Q r ) \n — a / n—a £ > ; - y,-.)2 = £
SQR
= £
E(SQR)
= A(r -
¿ ( e , i - e,)2
(9.21)
a)'*2
l f ö = ( n -
E ( M Q R ) = A\
s2 = MQ R = S2R ist also ein erwartungstreuer Schätzer von DATA> DATA> DATA> DATA>
read cl-iclO 58 60 62 64 61 61 57 63 61 62 59 56 57 64 62 58 60 62 56 62 58 61 61 59 57 65 61 63 60 62 60 61 65 63 60 59 end 6 ROWS READ MTB > aovoneway cl-clO
ANALYSIS OF VARIANCE SOURCE DF SS FACTOR 9 302,.93 ERROR 50 194..00 TOTAL 59 496.,93
56 58 54 56 61 58
58 57 58 60 59 61
59 58 63 61 63 58
68 65 63 67 63 64
MS 33,.66 3,.88
F 8.68
P 0.000
Die Nullhypothese, daß die genotypische Varianz nicht verschieden von 0 ist, ist auf einem sehr kleinen Signifikanzniveau (p & 0) abzulehnen. Für die Varianzkomponenten
sa
2
=
s\
=
MQ a - MQ r r MQ r = 3.88
erhält man folgende
Schätzwerte:
33.66-3.88 = 4.96 o
Man kann diese Varianzkomponenten auch direkt mit MINITAB ausrechnen. Zunächst werden die Eier in Spalte eil codiert und die Spalten cl bis clO in Spalte cl2 gestapelt. MTB > DATA> DATA> MTB > MTB >
set eil (1:10)6 end Stack cl-clO cl2 name eil 'Huhn' cl2 'Eigew.'
9
94
Varianzanalyse
Das Subkommando ems (expected mean squares) im anova.-Aufruf gibt die geschätzten Vaxianzkomponenten aus. MTB > anova 'Eigew.' S U B O random 'Huhn'; S U B O ems. Factor Huhn
'Huhn'
Type Levels Values random 10 1 8
2 9
3 10
Analysis of Variance for Eigew. Source Huhn Error Total
DF 9 50 59
Source 1 Huhn 2 Error
SS 302.933 194.000 496.933
HS 33.659 3.880
F 8.68
P 0.000
Variance Error Expected Mean Square component term (using unrestricted model) 4.963 2 (2) + 6.0000(1) 3.880 (2)
Die Variabilität des Eigewichts zwischen den Hühnern ist also etwas größer als innerhalb der einzelnen Hühner. Der Heritabilitätskoeihzient >,2 _
s2
l + s2
wird geschätzt durch:
4.96 4.96 + 3.88
0.56
HeritabilitätskoefRzienten von Eigewichten verschiedener Populationen ken in einer Größenordnung von 0.4 — 0.7.
schwan-
Bei mehrfaktoriellen Versuchsanlagen können die Modellansätze auch als gemischte Modelle erfolgen, in denen fixe und zufällige Effekte vorkommen.
9.5
Versuchsanlagen
95
9.5.3
Prüfung der Voraussetzungen der Varianzanalyse u n d Auswirkungen bei Nichterfüllung
Will man eine Varianzanalyse durchführen, so sollte geprüft werden, ob die Voraussetzung der Varianzhomogenität (gleiche Varianzen in den einzelnen Gruppen) und die Normalverteilung erfüllt ist. Zur Prüfung der Varianzhomogenität gibt es mehrere Tests, die allerdings meist den Nachteil haben, daß sie nicht sehr robust gegen eine Verletzung der ebenfalls vorauszusetzenden Normalverteilung sind. D e r Bartlett-Test Einer der gebräuchlichsten Tests ist der Bartlett-Test. Voraussetzung ist, daß die Daten "gut" normalverteilt sind und in jeder Gruppe mindestens 5 Beobachtungen vorliegen. Der BARTLETT-Test ist ein auf Abweichungen von der Normalverteilungsvoraussetzung empfindlich reagierendes Verfahren, d.h. er kann trotz Varianzhomogenität Signifikanz liefern, wenn die Daten nicht normalverteilt sind. Man berechnet folgende Prüfgröße: a
(n — a) • In s2 — ^ ^ ((r,- — 1) • In s?) =
1
/ / -
1
1
\
1
(925)
\
Dabei ist n der Gesamtstichprobenumfang, a die Anzahl der Gruppen (mit mindestens 5 Beobachtungen), s2 der Schätzwert der gewogenen Varianz, r,die Anzahl der Beobachtungen in der i-ten Gruppe und s2 der Schätzwert der Varianz in der i-ten Gruppe. Zweckmäßigerweise berechnet man zunächst nur den Wert des Zählers. Wenn dieser größer als die Fraktile X a - i ; i - a der X2Verteilung ist (vgl. Tab. A.3), so berechnet man den genauen Prüfwert XoDer Nenner ist bei nicht zu kleinen r,- praktisch gleich 1. Das Testschema in Kurzform zeigt noch einmal Tab. 9.1. Beispiel: Die Varianzen des einführenden Beispiels in Abschnitt 9.1 sollen mit dem BARTLETT-Test a u f Homogenität geprüft werden. Dazu dient folgendes Rechenschema: Gruppe i 1 2 3
£
SQ, 7.68 4.66 2.88
FG: r,- - 1 4 4 4 12
sl 1.92 1.17 0.72 3.81
Ins? 0.652 0.153 -0.329
(r 5 Vi = 1 , 2 , . . .a a
(n-a)-In*2-£((1-4-1)-hi«?) Test große:
x2 -
1=1
3(a — 1) H0:
end Jede Faktorstufe der Stickstoffdüngung kommt jeweils in 2 Varianten der Cycocel-Behandlung vor. Dies wird in die zweite Spalte eingetragen. MTB > set c2 DATA> 4(1:2)5 DATA> end Die Eingabe der Erträge f[dt/ha]J in die dritte Spalte erfolgt zeilenweise für jede Kombination aus Sickstoffdüngung und CCC-Behandlung.
9.5 MTB > DATA> DATA> DATA> DATA> DATA> DATA> DATA> DATA> DATA>
105
Versuchsanlagen set c3 32.7 27.4 35.6 33.9 51.1 60.7 54.8 56.5 68.0 73.7 78.9 79.2 82.7 88.6 98.0 88.7 end
Das Subkommando fen.
41.2 16.4 47.6 52.2 71.6 83.5 83.5 84.7
33.6 18.3 50.7 53.6 66.1 75.2 72.9 82.7
26.7 26.7 53.0 49.4 67.7 75.2 80.4 81.2
means berechnet die Mittelwerte innerhalb der Faktorstu-
MTB > name cl 'N-Dueng' c2 'CCC' c3 'Ertrag' MTB > anova 'Ertrag' = 'N-Dueng' 'CCC' 'N-Dueng'*'CCC'; SUBC> means 'N-Dueng' 'CCC' 'N-Dueng'*'CCC'. Es wird folgende Tafel der Varianzanalyse Factor N-Dueng CCC
ausgegeben:
Type Levels Values fixed 4 1 2 fixed 2 1 2
3
4
Analysis of Variance for Ertrag Source N-Dueng CCC N-Dueng*CCC Error Total
DF 3 1 3 32 39
SS 17809.9 50.2 320.8 967.1 19148.0
MS 5936.6 50.2 106.9 30.2
F 196,.44 1,.66 3,.54
P 0..000 0..207 0.,025
Die Wechselwirkung von Stickstoffdüngung und Cycocelbehandlung zeigt einen signifikanten Einfluß (p = 0.025 bzw. p — 2.5%). Dies wird auch durch den Ausdruck der Gruppenmittelwerte und die Darstellung der Erträge im Diagramm mit der Cycocelbehandlung als Parameter deutlich. Offensichtlich ist die Wirkung der Halmverkürzung bei geringen Stickstoffgaben nicht so ausgeprägt wie bei hohen Gaben. Im vorliegenden Fall ist der Ertrag für die Varianten ohne Stickstoffdüngung bei Anwendung der Cycocelbehandlung sogar geringer als ohne Behandlung. Die Pflanzen können also den Behandlungsschock erst bei höheren Düngungsvarianten kompensieren.
9
106 MEANS I-Dueng 1 2 3 4 CCC 1 2
N 20 20
N 10 10 10 10
Ertrag 29.250 52.960 73.910 84.340 Ertrag 58.995 61.235
N-Dueng CCC N 1 1 5 1 2 5 2 1 5 2 2 5 3 1 5 3 2 5 4 1 5 4 2 5 o CCC=1
Ertrag 32.320 26.180 52.620 53.300 69.420 78.400 81.620 87.060 A CCC=2
N-Duengungsstufe
Varianzanalyse
107
9.5
Versuchsanlagen
9.5.6
D i e vollständig randomisierte dreifaktorielle Versuchsanlage
Eine dreifaktorielle vollständig randomisierte Versuchsanlage mit drei Prüffaktoren A, B und C für o = 2, b = 3, c = 2 und r = 3 zeigt Bild 9.4. a = 2, 6 = 3, c = 2, v = 12, r = 3, n = 36 aib2c2
Symbol: Ax
BxC
aib3c2
a2biC2
aib\c2
a2b2C2
026301
a2b2c2
016202
°\b2ci
026201
026301
ai6iCi
016301
a,2b2Ci
3.49 = i r 3,i2 ; o.95-
D i e vollständige zweifaktorielle Blockanlage
Das Modell eines zweifaktoriellen Blockversuchs lautet: yijk z=n +
tti
+ ßj + (aß)ij +wk + eijk
(9.37)
Bild 9.6 zeigt eine entsprechende Versuchsanlage mit a — 5 Stufen eines Faktors A, b = 2 Stufen eines Faktors B und r — 3 Blöcken. Alle Faktorstufenkombinationen sind in jedem Block einmal als Prüfglied enthalten. Entsprechend dem Modellansatz (9.37) gilt für die SQ-Werte und die Freiheitsgrade folgende Zerlegung: S Q t = SQa
+ SQs +
SQaxb
+ SQbi +
SQ R
n - l = ( a - l ) + (6-l) + (a-l)(6-l) + (r-l) + (a6-l)(r-l)
114
9
a =
5, 6 = 2,
= 10, r = 3,
v
n
= 30
Symbol:
Varianzanalyse
( A x B ) -
B1
ri a2b2
Gl&l
aib2
a
h
CI462
04
a2b2
a
0461
a 362
a3bi
0161
2
a3bi
0362
04&x
0462
a5bi
a*b2
asb2
a2b 1
ai6i
a3b2
a3bi
a5bi
0462
a2b2
a\b2
a2bi
r2
561
a
ib
2
a5b2
Bild 9.6: Zweifaktorielle randomisierte vollständige Blockanlage Die Berechnungsformeln für die SQ-Werte lauten:
5 y...
SQ 9 y2.
b • r
n
a
SQA
SQB
_
y *
=
i—i 4 y
2 yj.
FG
a-
9 y .
•f-f a • r
6 - 1
n
— 1A J1 —
(a
SQ.4X.B
SQBI
SQR
_
»=1 j = 1 T 1 y ^ y t ^ k=1
=
SQ 0
SQ
T
=
b
- 1 ) ( 6 -
1)
(9.39)
1
y .
a b
T
1
r- 1
n SQA -
SQ
B
£ £ 5 > ¿=1;=1Jfc=l
-
SQ
A X B
-
SQB1
(a6
- L ) ( R -
1)
2
r «
*
-
V
atr —
1
Die mittleren Abweichungsquadratsummen MQ sind wiederum die Quotienten aus den SQ-Werten und den zugehörigen Freiheitsgraden. Damit folgt die Tafel der Varianzanalyse für den vollständigen zweifaktoriellen Block:
9.5
115
Versuchsanlagen Variation Faktor A
SQA
Faktor B WW Ax
FG
MQ
F
a- 1
SQ *
MQA
SQ
SQ
B
6-1
B
(a-l)(6-l)
SQAXB
a- 1
MQR
SQB
MQß
6-1
MQR
S Q AXB
MQYLXB
(a — 1)(6 — 1)
MQR
SQBI
Block
SQBI
Rest
SQR
(ab — l)(r — 1)
total
SQX
n — 1 = abi— 1
(r-1)
r-1 SQR
(ab — l)(r — 1)
Beispiel: An vier verschiedenen Standorten wurde die Wirkung zweier Stickstoffgaben (70 kg N/ha und 100 kg N/ha.) auf den Ertrag für drei verschiedene Kartoffelsorten untersucht. Die Standorte werden in der Regel als Blöcke behandelt, um Boden- und Klimaunterschiede zu eliminieren. Die Erträge in kg pro Versuchsparzelle zeigt folgende Tabelle: Sorte Düngung Block 1 2 3 4 Die Auswertung MTB > DATA> DATA> DATA> DATA> DATA> DATA> DATA>
1
2 2
1
2
63 68 68 58
77 81 70 70
57 60 61 50
58 60 61 50
erfolgt mit MINITAB.
set cl 63 68 68 77 81 70 57 60 61 58 60 61 61 65 78 65 78 79 end
58 70 50 50 50 63
3
1
1
2
61 65 65 78 78 79 50 63
9
116 MTB > DATA> DATA> MTB > DATA> DATA> MTB > DATA> DATA> MTB >
Varianzanalyse
set c2 (1:3)8 end set c3 3(1:2)4 end set c4 6(1:4) end name cl 'Ertrag' c2 'Sorte' c3 'Dueng' c4 'Block'
MTB > anova 'Ertrag' = 'Sorte' 'Dueng' 'Sorte'*'Dueng' 'Block'; SUBC> random 'Block'. Factor Sorte Dueng Block
Type Levels Values fixed 3 1 fixed 2 1 random 4 1
2 2 2
3 3
4
Analysis of Variance for Ertrag Source Sorte Dueng Sorte*Dueng Block Error Total
DF 2 1 2 3 15 23
SS 691.00 222.04 108.33 612.46 307.79 1941.62
MS 345..50 222..04 54..17 204..15 20..52
F 16..84 10,.82 2..64 9..95
P 0..000 0..005 0..104 0..001
Die Wechselwirkung ist auf einem Niveau kleiner als ca. 10% nicht signifikant. Auf dem 0.5%-Signißkanzniveau kann eine Wirkung der Düngung und auf einem noch niedrigeren Niveau die Wirkung der Sorten gesichert werden.
9.5 9.5.9
Versuchsanlagen
H7
Das einfaktorielle Lateinische Quadrat
Lateinische Quadrate kommen für solche Versuche zur Anwendung, bei denen alle Prüfglieder mit gleicher Präzision geschätzt werden, und wenn Grund zur Annahme besteht, daß ein oder zwei exogene Faktoren in zwei Richtungen systematisch, aber unabhängig voneinander wirken. Es kann also ein Gradient in Richtung von Blöcken und ein Gradient in Richtung von Säulen varianzanalytisch eliminiert werden. Die Zuordnung der Prüfglieder zu den Teilstücken hat zufällig zu erfolgen, wobei jeder Block und jede Säule jedes Prüfglied je einmal enthalten muß. Bild 9.7 zeigt beispielhaft ein 5 x 5-Quadrat. a = v = r = s = 5, n = 25
Symbol: A - (B1 + LQ)
dl
a2
03
CZ4
05
«¡2
05
O4
Ol
03
CI4
03
Ol
05
a2
05
04
02
a3
Ol
03
Ol
a5
02
2
63
fci
b2
63
0,4
62
63
63
bi
b2
bi 04
b2
¿1
63
bi
61
63
¿2
62
63
Ol
h
03 63
61 03
Ol
Ol
»*4 62
¿1 a4
03
¿>2
Symbol: (A/B) - B1 03
63
62
02
b2
63
62
bi
Bild 9.9: Zweifaktorielle Spaltanlage Die a Stufen des Faktors A werden zufällig den Großteilstücken der Blöcke zugeteilt, wobei man meistens in einem der Blöcke die regelmäßige Zuteilung 1,2,..., a vornimmt. Die b Stufen des Faktors B werden ebenfalls wieder vollkommen randomisiert in die Großteilstücke hineingelegt 7 . Man hat also zweimal randomisiert: Bei der Zuteilung der Großteilstücke und bei der Zuordnung der Kleinteilstücke. Aufgrund der Einteilung in Groß- und Kleinteilstücke treten zwei verschiedene Fehlerkomponenten im Modell auf: Der Fehler der ' M a n sagt auch "hineingespalten" oder "hineingesplittet", daher die Bezeichnung der Anlage als Spaltanlage oder Split Plot.
9.5
123
Versuchsanlagen
Großteilstücke und der Fehler e,j * der Kleinteilstücke. Das Modell einer zweifaktoriellen Spaltanlage lautet: Vijk = fi + wk+ai
+ e.jfe + ßj + (aß)ij + eijk
(9.43)
Die gesamte Variation SQ T läßt sich aufteilen in die Variation S Q G t zwischen den Großteilstücken und die Variation SQ K T innerhalb der Großteilstücke: Variation: FG :
SQ X
= SQ G T +
SQ K X
abr - 1 = ar - 1 + ar(b - 1)
Die Variationen der Groß- und Kleinteilstücke können weiter zerlegt werden: Variation:
S Q G T = SQB1 +
FG:
a r - l = r - l + a - l + ( a - l)(r - 1)
Variation: FG:
SQKT
SQ^
= SQß +
+
SQRQT
SQ^xß
+
(9.45)
SQRKT
ar(b — 1) = 6 — l + (a — 1)(6 — 1) + a(b — l)(r — 1)
Prinzipiell entspricht jeder Randomisierung ein Fehlerterm. Die Randomisierung des Faktors A innerhalb der Blöcke führt zu einem entsprechenden Versuchsfehler S Q R g t , der rein formal der Wechselwirkung zwischen dem Block und dem Faktor A entspricht, also: S Q R g t = SQBlxA
(9.47)
Die Randomisierung des Faktors B innerhalb der Großteilstücke führt zum Fehler S Q R k t , der dem Restfehler der gesamten Anlage entspricht: SQrkt = SQr
(9.48)
124
9
Varianzanalyse
Es gelten folgende Berechnungsformeln für die Variationen und Freiheitsgrade: r
SQBI
y^ y ¿-"ab
_
k= 1 A
SQA
SQ
1
k
FG
1
y...
r- 1
n 1 y.. n
9
_ y ^ yl. fr(br
SQR g t = S Q g t — SQbi
a- 1 —
SQ^
(a - l ) ( r - 1) ar — 1
SQGT 1= 1 k= l
SQ B
r-"' ar
6-1
n
SQ AxB i=1j=1 SQRKT = S Q X — SQ G X — S Q # — SQ^XB
(a - 1 ) ( 6 - 1) a(b - l ) ( r - 1) abr — 1
SQt i=l
j = l k=1
Damit lautet die Tafel der Varianzanalyse: Variation
F
SQ
FG
MQ
Block
SQBI
r- 1
SQBI
Faktor A
SQA
a-1
SQA
MQa
a - 1
MQRGT
Rest GT
SQRGT
total GT
SQGT
Faktor B
SQs
WW
AxB
Rest KT total
SQAXB
(a-l)(r-l)
r- 1
SQR G X
(a-l)(r-l)
ar — 1 6-1 (a — 1)(6 — 1)
SQRKT
a(6-l)(r-l)
SQt
a6)— 1
SQ b 6-1 SQ AXB (a-l)(6-l) SQRKT
a(6 — l)(r — 1)
MQ ß MQRKT
MQAxB MQRKT
9.5
Versuchsanlagen
125
Beispiel: In einem Versuch sollte geprüft werden, ob sich a = 3 unterschiedliche Saatzeiten auf den Trockenmasseertrag von b = 3 Kruziferenarten auswirken8. Der Versuch wurde als Spaltanlage mit r = 4 Wiederholungen (Blöcken) angelegt. Die Saatzeiten wurden im Großteilstück, die Kruziferen im Kleinteilstück getestet. Die Durchführung des Versuchs als Spaltanlage erlaubt die Zusammenfassung der Bodenbearbeitung für eine Saatzeit innerhalb eines Großteilstücks. Trockenmasseertrag in kg je Kleinteilstück geordnet nach Varianten und Wiederholungen: Saatzeit Kruziferenart Block »•l Tl T3 r4 MTB > MTB > DATA> MTB > DATA> MTB > DATA> MTB > DATA> DATA> DATA> DATA> DATA>
ai ti
&2
6.25 2.27 7.22 2.60 5.92 1.95 6.40 2.34
anova 'Ertrag' = ' B l o c k " G T " B l o c k ' * ' G T " K T " G T ' * ' K T ' ; S U B O random Factor Block GT KT
'Block'.
Type Levels Values random fixed fixed
4 3 3
1 1 1
2 2 2
3 3 3
4
Analysis of Variance for Ertrag Source Block GT Block*GT KT
DF 3 2 6
SS 1.9677 33.5461 0.2247
MS 0..6559 16,.7730 0.,0374
F 17,.52 447,.91 0..10
p 0..002 0,.000 0,.995
11..2144 11..6689 0.,3732
30..05 31..26
0,.000 0..000
2
22.4289
GT*KT Error
4 18
Total
35
46.6758 6.7184 111.5614
Der F-Test zeigt jeweils Signifikanz für die interessierenden Faktoren Saatzeit (GT) und Kruziferenart (KT). Nachdem jedoch die Wechselwirkung signifikant ist, wird man in einer weiteren Analyse die Faktorstufenkombinationen von Saatzeit und Kruziferenart miteinander vergleichen. Um mit dem richtigen Fehlerterm zu testen wäre auch das Subkommando 'GT' / 'Block'*'GT' möglich gewesen.
test
9.5
Versuchsanlagen
9.5.12
127
D i e dreifaktorielle Spaltanlage
Bei der dreifaktoriellen Spaltanlage werden die a Großteilstücke in b Mittelteilstücke und diese wiederum in c Kleinteilstücke gespalten. Die Präzision der Schätzung nimmt von den Kleinteil- zu den Großteilstücken ab. Jede Stufe des Faktors C muß in jedem Mittelteilstück genau einmal vorkommen, ebenso jede Stufe des Faktors B in jedem Großteilstück und jede Stufe des Faktors A in jedem Block. Die Zuteilung innerhalb des jeweiligen Teilstücks erfolgt zufällig. Es wird also insgesamt dreimal randomisiert. Eine Spaltanlage mit a = 2, 6 = 2 und c = 3 in r = 3 Blöcken zeigt Bild 9.10. Symbol: ( A / B / C ) - B1 a = 2, b - 2, c = 3, v = 12, r = 3, n = 36 ai
a2
bi
r
l Ci
C2
b2 C3
C2
Cl
bi
b2 C3
C3
c1
c2
C3
C\
b2
b2
b!
r-i
Cl
C2
Cl
C3
C2
C3
bi
C2
C2
c2
Cl
C2
Cl
C3
a2
b2 C3
C3 bi
at TZ
Cl Ol
«2
Cl
C2
bi
C3
C2
C3
b2 Cl
C3
c2
Cl
Bild 9.10: Dreifaktorielle Spaltanlage Das Modell einer dreifaktoriellen Spaltanlage lautet: Vijki = V + wi + oti + eu + ßj + (aß)ij + e t i , + + 7 k+ ( MTB > DATA> DATA> MTB > DATA> DATA> MTB > DATA> DATA> MTB > DATA> DATA> DATA> DATA> DATA> MTB >
name c l ' B l o c k ' c 2 ' P S ' c 3 'BB' c 4 ' E r t r a g ' set 'Block' (1:4)6 end s e t 'PS' 4(1:2)3 end s e t 'BB' 8(1:3) end set 'Ertrag' 58. . 3 55. .7 61, .6 63, ,1 61, .3 63, .7 60. .1 58. .0 63, . 3 62. ,7 61. .6 66. .0 6 2 . .8 59. .9 64. .0 68. ,1 62. .8 65. ,8 5 5 . .7 56. ,0 62. .2 6 3 . ,0 63. ,2 64. ,0 end a n o v a ' E r t r a g ' = ' B l o c k ' 'PS' ' B l o c k ' * ' P S ' 'BB' 'Block'*'BB' 'PS'*'BB'; SUBO t e s t 'PS' / ' B l o c k ' * 'PS ) .f SUBO t e s t 'BB' / ' B l o c k ' * 'BB >
Factor Block PS BB
Type L e v e l s V a l u e s fixed 4 1 fixed 2 1 fixed 3 1
2 2 2
3
4
3
A n a l y s i s of V a r i a n c e f o r E r t r a g Source Block PS Block*PS BB Block*BB PS*BB Error Total
DF 3 1 3 2 6 2 6 23
SS 42.475 94.804 5.388 64.448 14.619 10.577 6.196 238.506
MS 14. .158 94. . 8 0 4 1..796 32, , 2 2 4 2. .437 5. . 2 8 9 1., 0 3 3
F P 13, .71 0.004 (91,. 8 1 ) ( 0 . 0 0 0 ) 1,. 7 4 0.258 (31.21)(0.001) 0.160 2. .36 5. ,12 0.050
9
138
Varianzanalyse
Die F- und p-Werte für die Faktoren Pflanzenschutz und bodenbearbeitung wurden nachträglich geklammert. Um die Fehlerterme eik und ejk (siehe Gleichung (9.55)), die für die Berechnung der F-Werte benötigt werden, zu erhalten, berechnet man im anova-Kommando die beiden Wechselwirkungen zwischen dem Block und den Faktoren Pflanzenschutz und Bodenbearbeitung. Mit diesen erfolgt die Bestimmung der relevanten F-Werte im Subkommando test. F-test with denominator: Block*PS Denominator MS = 1.7960 with 3 degrees of freedom Numerator PS
DF 1
MS 94.80
F 52.79
P 0.005
F-test with denominator: Block*BB Denominator MS = 2.4365 with 6 degrees of freedom Numerator BB
DF 2
MS 32.22
F 13.23
P 0.006
Die Wechselwirkung zwischen Pßanzenschutz und Bodenbearbeitung ist signifikant (p = 0.05), d.h. die Tests auf Hauptwirkungen A (Pflanzenschutz) und B (Bodenbearbeitung) sind uninteressant. Man muß hier Mittelwerte der 6 Faktorstufenkombinationen genauer untersuchen und miteinander vergleichen (siehe Abschnitt 9.6.6).
9.6
Multiple
9.6
139
Mittelwertsvergleiche
Multiple Mittelwertsvergleiche
Die klassische Varianzanalyse testet die Nullhypothese, daß alle Mittelwerte, die durch einen Versuch geschätzt wurden, aus der gleichen normalverteilten Grundgesamtheit stammen (und damit identisch sind) gegen die Alternativhypothese, daß mindestens ein Mittelwert aus einer Grundgesamtheit mit einem anderen Mittelwert stammt. Welche Mittelwerte sich unterscheiden ist durch die Varianzanalyse nicht bestimmt. In vielen Fällen sind die Unterschiede zwischen Mittelwerten oder Gruppen von Mittelwerten jedoch hauptsächliches Ziel der Untersuchung.
9.6.1
Globaltest und multiple Tests
Im einfaktoriellen Versuch mit einem Prüffaktor A in a Stufen testet die Varianzanalyse folgende G l o b a l h y p o t h e s e : Ho:m
= fij
Vi,j = l , 2 , . . . , a ,
(9.58)
d.h. alle Mittelwerte sind gleich, gegen die Alternative Hu
3 i # j :m # m
(i,j
= 1,2
a),
(9.59)
d.h. es existiert mindestens ein i verschieden von j, sodaß zwei Mittelwerte aus Grundgesamtheiten mit verschiedenen Mittelwerten stammen. Mit anderen Worten: Mindestens ein Mittelwert unterscheidet sich von den anderen. MQ, Unter der Annahme der Nullhypothese ist das Verhältnis ——— F-verteilt mit MQR a — 1 Zähler- und n — a Nennerfreiheitsgraden. Ist die Testgröße _ S Q A / ( a - 1) _ M Q , " S Q R / ( n - «) ~ M Q ^
i . » — ,
(9-60)
so wird Ho auf dem Signifikanzniveau a zugunsten der Alternativhypothese H\ abgelehnt. Kann die Nullhypothese nicht abgelehnt werden, so liegen keine auf dem Niveau a statistisch gesicherten Mittelwertsdifferenzen vor. Im anderen Fall interessiert, welche Gruppenmittelwerte sich signifikant unterscheiden. Will man ausschließlich eine vor der Durchführung des Versuchs bestimmte Mittelwertsdifferenz prüfen, so kann man den gewöhnlichen i-Test nach Tab. 8.4 auf Seite 21 verwenden. Wird jedoch der ¿-Test nach dem Versuch auf die größte Differenz zwischen zwei Mittelwerten angewandt, dann gibt das dabei verwendete a nicht die korrekte Irrtumswahrscheinlichkeit an. Der ¿-Test ist in diesem Fall
140
9
Varianzanalyse
unzulässig. Es muß ein Test erfolgen, dessen Test große auf der Zufallsverteilung der Spannweite oder Range basiert, ein sog. Spannweiten- oder Range-Test. Ein multipler Test ist ein Verfahren, das aufgrund einer Stichprobe mehrere Vergleiche zwischen jeweils zwei Mittelwerten durchführt. Die Nullhypothesen beim paarweisen Vergleich lauten: Hiij) : m = m
H(0ij) : /i,- - pj = 0
bzw.
Ö
fl(fl
(1 < i < j < a)
(9.61)
—
1) . . . . = — - solcher elementarer, multipler oder individueller Mittelwertsvergleiche. Die zweiseitigen Alternativhypothesen lauten: H[ij) : w # m
bzw.
H[ij) : m - Hj # 0
(9.62)
Sehr viel schwieriger gestaltet sich das multiple Testproblem, wenn man einseitige Entscheidungen wünscht, d.h. die Alternativhypothesen: H[ij) : m < h
bzw.
H[ij) : /i, - fij < 0
H[iS) : m > fij
bzw.
H[ij) : p,- - / * , - > 0
oder
(9.63) (9.64)
Signifikanzen können sehr genau erkannt und auch einseitige Entscheidungen getroffen werden, wenn Vertrauensintervalle für die einzelnen Mittelwertsdifferenzen vorliegen.
w-w
e lj yy ,i --y: j
± 8
- Z - \ h r r + zr} r « n
1
.
>
(
9
-
6 5
)
a
wobei £ die Fraktile einer entsprechenden Verteilung und r,- bzw. r j die Anzahl der Wiederholungen (Beobachtungen) beim entsprechenden Mittelwert y{ bzw. V) ist. Häufig interessieren nicht alle ^ ^ multiplen Vergleiche, sondern nur der Vergleich eines bestimmten, ausgewählten Mittelwerts mit den übrigen Mittelwerten. Für solche Many-One-Vergleiche gibt es ebenfalls multiple Testprozeduren. In der Praxis gibt es noch eine Reihe weiterer interessanter Fragestellungen, wie etwa: "Unterscheidet sich eine Gruppe von Mittelwerten von einer anderen Gruppe?" Auch für den Test solcher Kontraste stehen Testverfahren zur Verfügung.
9.6 9.6.2
Multiple
Mittelwertsvergleiche
141
Simultane Irrtumswahrscheinlichkeit bei multiplen Testproblemen
Ziel bei statistischen Hypothesentests ist, die Wahrscheinlichkeit, eine wahre Nullhypothese irrtümlich abzulehnen, gering zu halten. Diese Wahrscheinlichkeit ist die Irrturnswahrscheinlichkeit bzw. das Signifikanzniveau a und wird auch Fehler 1. Art oder Risiko 1. Art genannt. Ein Fehler 1. Art liegt vor, wenn mindestens eine Nullhypothese H ^ abgelehnt wird, obwohl sie richtig ist. Einen Fehler 2. Art begeht man, wenn man eine Nullhypothese nicht ablehnt, obwohl sie falsch ist. Bei einem multiplen Test können beide Fehlerarten gleichzeitig auftreten. Neben der individuellen Irrtumswahrscheinlichkeit beim Test der einzelnen Hypothesen existiert eine simultane Irrtumswahrscheinlichkeit (auch experimentwise error rate oder family error rate), die durch den gesamten Versuch bedingt ist. Wenn man mehrere Hypothesen zu einem jeweiligen Signifikanzniveau a testet, so kann der gesamte Fehler beträchtlich ansteigen (multiplizierender Effekt). Bei angenommener Unabhängigkeit der Einzelhypothesen und individueller Irrtumswahrscheinlichkeit a berechnet sich die simultane Irrtumswahrscheinlichkeit für das gesamte Testproblem zu 1 — (1 — a ) m ,
(9.66)
wobei m die Anzahl der Mittelwertsvergleiche ist. Je nachdem, ob die Richtigkeit der Globalhypothese vorausgesetzt wird oder nicht, unterscheidet man zwischen multiplen Tests mit globalem und multiplen Niveau. Eine Testprozedur hält das globale Niveau a (familywise error in a weak sense), wenn die Wahrscheinlichkeit, mindestens eine wahre Hypothese abzulehnen, kleiner oder gleich a ist, unter der Voraussetzung daß die Globalnullhypothese richtig ist, d.h. daß alle Einzelhypothesen wahr sind. Eine Testprozedur hält das multiple Niveau a (familywise error in a strong sense), wenn die Wahrscheinlichkeit, mindestens eine wahre Hypothese abzulehnen kleiner oder gleich a ist, unabhängig davon, wieviele und welche der Einzelhypothesen tatsächlich richtig sind. Tests, die multiples Niveau einhalten, nennt man konservativ oder streng. Tests, die nicht multiples Niveau einhalten, nennt man entsprechend antikonservativ oder liberal . Ein multipler Test zum globalen Niveau a garantiert, daß der Fehler 1. Art kleiner oder gleich a ist, vorausgesetzt, die Nullhypothese ist wahr. Bei einem multiplen Test, der multiples Niveau garantiert, ist der Fehler 1. Art immer kleiner oder gleich a ohne eine Voraussetzung an die Richtigkeit oder
142
9
Varianzanalyse
Falschheit der Nullhypothese zu stellen. Die Wahrscheinlichkeit, eine wahre Nullhypothese abzulehnen, ist kleiner gleich a, gleichgültig, welche der m Nullhypothesen richtig sind. Anders herum ausgedrückt bedeutet dies: Die Wahrscheinlichkeit, alle wahren Nullhypothesen nicht abzulehnen, ganz gleich welche wahr sind, ist größer als 1 — a . Da ein multipler Test, der lediglich globales Niveau hält, ausschließlich den Fehler 1. Art nach oben beschränkt, wenn die Nullhypothese wahr ist, ist bei einem multiplen Testproblem generell ein Test mit garantiertem multiplen Niveau zu bervorzugen. In multiplen Testproblemen wird nur nachrangig auf den Fehler 2. Art ß, die Wahrscheinlichkeit, eine falsche Nullhypothese nicht zu erkennen, bzw. auf die Macht oder Güte 1 — ß, die Wahrscheinlichkeit, eine falsche Nullhypothese auch wirklich abzulehnen, eingegangen. Bei einem unverzerrten Test wird im allgemeinen mit dem Anwachsen des Fehlers 1. Art der Fehler 2. Art kleiner und somit die Macht größer. Liberale Tests sind also i.a. mächtiger als konservative Tests und machen weniger Fehler 2. Art. Bei einseitigen Entscheidungen bzw. größenmäßiger Anordnung der Mittelwerte kann noch ein weiterer Fehler, der sogenannte Fehler 3. Art, die Wahrscheinlichkeit, sich irrtümlich für eine falsche Ungleichung zwischen zwei Mittelwerten zu entscheiden, auftreten. 9.6.3
Einschrittverfahren für multiple Mittelwertsvergleiche
Einschrittverfahren testen jeden Einzeltest ohne Beachtung der anderen Tests und werten die Ergebnisse simultan aus. Diese Methoden schicken keinen Globaltest voraus. Außer den
\yi-Vj\>
• s • s/l¡Ti + 1 /rj
(einseitig)
£ • s • V1/^
+l/rj
(einseitig)
Ç-s-y/1/ri
+ l/rj
(zweiseitig)
Tabelle 9.2: Multipler Test für den Vergleich zweier Mittelwerte beim Einschrittverfahren D e r multiple t-Test Häufig werden alle interessierenden Mittelwertsdifferenzen mit dem gewöhnlichen i-Test auf dem a-Signifikanzniveau geprüft. Dieser Test ist jedoch kein multipler Test mit globalem Niveau a und erst recht nicht mit multiplem Niveau a . Die simultane Irrtumswahrscheinlichkeit kann je nach Anzahl der Mittelwerte den Wert a beträchtlich überschreiten. L S D - M e t h o d e nach Fisher Der LSD-Test (least significant différence) ist eigentlich kein Einschrittverfahren, da ein globaler f - T e s t vorausgeschickt wird. Es hat sich jedoch in der Praxis eingebürgert und in den Statistikprogrammen ist es üblich, für die Mittelwertsdifferenzen Vertrauensintervalle anzugeben, ohne auf den Globaltest einzugehen. LSD verwendet die Fraktile der t-Verteilung und setzt das individuelle Niveau für jeden Einzeltest ohne Modifikation gleich a . É = tn-a; l - a / 2
(9-69)
Der Term y a _ 1 > . . . > y1. Anschließend vergleicht man die a-Spannweite Ra — ya — y1 mit der kritischen Spannweite Ra krit., was einem Globaltest entspricht. Wird der Grenzwert überschritten, dann unterscheiden sich die Mittelwerte signifikant voneinander und man geht zum nächsten Schritt, ansonsten bricht man das Verfahren ab. Im nächsten Schritt vergleicht man die beiden Spannweiten Ra-1 = Va—i ~ Vi und R'a_i = y a — yi mit dem Grenzwert Ra-\ krit. usw. Jedesmal wenn eine P-Spannweite nicht signifikant ist, sind alle p Mittelwerte in dieser Menge gleich, und es braucht kein weiterer Test mehr durchgeführt werden. Wenn nur noch nichtsignifikante Mengen von Mittelwerten vorhanden sind, ist das Verfahren beendet. Beispiel: Es liege ein balanziertes Design einer einfaktoriellen vollkommen randomisierten Versuchsanlage mit a — 4 Stufen eines Faktors A vor. Die vier Gruppenmittel werden der Größe nach geordnet: 2/i < 2/2 < 2/3 < 3/4
(9.82)
Danach berechnet man zunächst die A-Spannweite R4 = y4 — y1 und verG gleicht diese mit der kritischen Spannweite 94,n-4;i-a 4 * ~~7= = RA krit.- Falls vT R4 < Ä4 krit., Hegt kein signifikanter Unterschied zwischen y1 und y4 vor. Der Test wird abgebrochen, da die Mittelwertsdifferenzen zwischen allen restlichen Mittelwerten in jedem Fall kleiner als RA krit. ist. Ist R4 > R4 krit., so kann ein signifikanter Unterschied gesichert werden. In diesem Fall führt man das Verfahren für die Mittelwertsdifferenzen R3 = 2/4 — 2/2 unc' R3 = V3~Vi durch. Ist R3 und R'3 < R3 krit., so kann der Test beendet werden. Ist R3 > R3 krit., testet man die Differenzen R2 = 2/4 — 2/3 und R'2 = y3 — y2- Ist R!$ > R3 krit., testet man die Differenzen R2 = y2 — 2/1 und R^ = y3 — y2- Man beachte, daß die Mittelwertsdifferenz y3 — y2 nicht zweimal verschieden getestet werden darf. Ist sie z.B. beim ersten Test bereits als nichtsignifikant eingestuft, so erfolgt kein weiterer Test. Alle Spannweitentests gehen nach diesem Schema vor und unterscheiden sich lediglich durch die Wahl der individuellen Irrtumswahrscheinlichkeiten a p für
156
9
Varianzanalyse
jeden Einzeltest einer P-Spannweite (a-Adjustierung). Sie lassen lediglich zweiseitige Entscheidungen zu und sind damit weniger informativ als Einschrittverfahren. Andererseits sind Spannweitentests i.a. liberaler und mächtiger als Einschritt verfahren. Die meisten in Computerprogrammen angebotenen Spannweitentests halten kein multiples Niveau. Es stehen jedoch in der Regel mächtige Einschrittverfahren (z.B. TUKEY) zur Verfügung. Bis auf wenige Ausnahmefälle sind also Einschrittverfahren den gängigen Mehrschrittverfahren vorzuziehen. Newman-Keuls NK-Prozedur Der häufig angewandte N e w m a n - K e u l s - T e s t verwendet für jeden Einzeltest die konstante individuelle Irrtumswahrscheinlichkeit: a?
K
=a
Vp = 2 , 3 , . . . , a
(9.83)
Dieser Spannweitentest wird auch S t u d e n t - N e w m a n - K e u l s - T e s t (SNK) genannt und kann ausschließlich für balanzierte Designs angewandt werden. In Statistikprogrammen ist SNK auch im unbalanzierten Fall möglich, weil dort mit dem harmonischen Mittel der Stichprobengrößen "balanziert" gerechnet wird. TUKEY und HARTLEY haben gezeigt, daß die SNK-Methode für a > 3 nicht multiples Niveau a einhält, sondern lediglich globales Niveau. Sie sollte deshalb nicht verwendet werden. Duncan D-Prozedur Der D u n c a n - T e s t wird für balanzierte und unbalanzierte Designs angewendet. Die individuelle Irrtumswahrscheinlichkeit ist: a
p = 1 — (1 — a)p~1
Vp = 2 , 3 , . . . , a
(9.84)
Dieser Spannweitentest ist noch liberaler als der NEWMAN-KEULS-Test, da > « = ist. Er hält damit erst recht kein multiples Niveau a und sollte aus diesem Grund nicht zur Anwendung kommen. E m p f e h l u n g e n für die Praxis Die Frage, welcher multiple Test verwendet werden soll, hängt von der Zielsetzung des Anwenders ab. Zunächst muß klar sein, welches Niveau eingehalten werden soll. Um statistisch gesicherte Aussagen für ein multiples Testproblem treffen zu können, muß man eine Methode wählen, die multiples Niveau a hält.
9.6
Multiple
Mittelwertsvergleiche
157
Methoden, die lediglich individuelles Niveau der Einzeltests kontrollieren, wie der multiple i-Test, sind eigentlich gar keine multiplen Verfahren, sondern einfache t-Vergleiche zweier Mittelwerte, und aus diesem Grund nicht für multiple Mittelwertsvergleiche geeignet. Auch globales Niveau, wie es zum Beispiel der LSD-Test oder der NEWMAN-KEULS-Spannweitentest und der häufig verwendete DUNCAN-Test einhält, ist aufgrund der Voraussetzungen bei multiplen Problemen und für statistisch einwandfreie simultane Aussagen ungeeignet, da der a-Fehler nur beschränkt bleibt, wenn die globale Nullhypothese und damit alle individuellen Hypothesen wahr sind. Die zweite Frage ist, welche Art von Inferenz benötigt wird. Wenn m a n die Mittelwerte ordnen will, bzw. einseitige Entscheidungen treffen möchte, dann muß eine Methode gewählt werden, die Vertrauensintervalle für paarweise Mittelwertsdifferenzen berechnet. Auch wenn es nur darauf ankommt, signifikante Unterschiede zwischen den Mittelwerten zu erkennen, wobei allerdings Zweifel erlaubt seien, ob der Anwender damit zufrieden ist, sollte man von diesen Tests absehen und grundsätzlich Vertrauensintervalle berechnen. Bei simultanen Vertrauensintervallen können Inferenzen statistisch genauer erkannt werden als bei reinen Tests, die wesentlich von der starren und subjektiven Festlegung auf ein bestimmtes Signifikanzniveau abhängen. Die beste und mächtigste Einschritt-Methode, die simultane Vertrauensintervalle zu einem gesicherten multiplen Niveau liefert und gleichzeitig den Fehler dritter Art kontrolliert, also auch gesicherte einseitige Entscheidungen zuläßt, ist die TUKEY-Methode. In Ausnahmefällen kann die ScHEFFE-Methode, die ebenfalls multiples Niveau hält, etwas mächtiger sein. Im allgemeinen ist der ScHEFFE-Test jedoch strenger und auch die anderen vorgestellten Einschrittmethoden, die multiples Niveau einhalten wie BONFERRONI und DUNN-SIDÄK sowie eine Vielzahl weiterer nicht angeführter Verfahren (z.B. GABRIEL, HOCHBERG). Diese sind in jedem Fall konservativer als TUKEY. Wenn nicht alle paarweisen Mittelwertsvergleiche benötigt werden, sondern nur der Vergleich einer Kontrollgruppe mit den übrigen Behandlungen, dann sollte m a n den DUNNETT-Test verwenden, da er speziell für solche Vergleiche dem TUKEY- oder ScHEFFE-Test überlegen ist, und ebenso simultane Vertrauensintervalle zum gesicherten multiplen Niveau liefert. Gegebenenfalls kann auch der Vergleich von Hsu zur Anwendung kommen. Bei starken Abweichungen von den Modellvoraussetzungen für die Varianzanalyse sollte ein nichtparametrischer multipler Test, etwa der Vorzeichentest von STEEL, bevorzugt werden (vgl. Kap. 10).
158 9.6.6
9
Varianzanalyse
M u l t i p l e Mittelwertsvergleiche bei zweifaktoriellen Varianzanalysen
Bei einem zweifaktoriellen Versuch sind grundsätzlich Vergleiche zwischen den Mittelwerten der Stufen des Prüffaktors A, den Mittelwerten der Stufen des Faktors B und zwischen den Mittelwerten der Stufenkombinationen aus A und B möglich. Ein Vergleich der Mittelwerte einzelner Faktorstufen ist ausschließlich bei nicht vorhandener Wechselwirkung erlaubt. Im Falle einer signifikanten Wechselwirkung zwischen den beiden Faktoren sind Vergleiche der Hauptwirkungen nicht mehr sinnvoll. Auf welchem Niveau eine Wechselwirkung noch als signifikant angesehen wird, liegt im Ermessen des Versuchsanstellers. So muß man beispielsweise entscheiden, ob eine Wechselwirkung mit einem p-Wert von 8.9% noch als Wechselwirkung gilt oder nicht. Existiert eine Wechselwirkung, so faßt man alle möglichen Faktorkombinationen als Stufen eines neuen Prüffaktors auf, den man einfaktoriell testet. Es erfolgt dann je nach Versuchsfrage • ein Vergleich der Mittelwerte auf gleicher Stufe des Faktors A, • ein Vergleich der Mittelwerte auf gleicher Stufe des Faktors B oder • ein Vergleich der Mittelwerte beliebiger Stufenkombinationen. Liegt keine Wechselwirkung vor, dann muß man für jeden signifikanten Faktor die Standardabweichungen schätzen, um einen multiplen Vergleich durchführen zu können. Anhand der Tafel der Varianzanalyse lassen sich diese Standardabweichungen der Mittelwerte bzw. der Mittelwertsdifferenzen berechnen. Es gelten folgende unmittelbar einsichtigen Formeln für die Standardabweichungen des Faktors A bzw. des Faktors B:
Die Standardabweichung s j der entsprechenden Mittelwertsdifferenzen erhält man, wenn man die obigen Werte mit y/2 multipliziert: sd = V2-sv
(9.87)
Will man eine Mittelwertsdifferenz y( — nach einem bestimmten Verfahren testen, so muß diese mit der sog. Grenzdifferenz beim Signifikanzniveau a
9.6
Multiple
Mittelwertsvergleiche
159
verglichen werden. Die Grenzdifferenz GD„ ist das Produkt aus der Standardabweichung s j der Mittelwertsdifferenz und der Fraktilen £fg;1- print cl-c3 ROW
N-Dueng.
CCC
Ertrag
1 2
1 1
1 1
51.6 65.9
3 4 5
1 1 1 1 1
1 1 2 2 2
66.7 69.4 71.3 63.6 73.5 71.6
6 7
8
1
2
9
2
1
82.8
10 11 12
2 2 2
1 1 1
74.5 88.3 76.1
13
2 2
2 2
82.2 80.1
2 2 3 3 3 3 3 3 3 3
2 2 1 1 1 1 2 2 2 2
85.7 85.3 89.3 81.1 79.9 74.8 99.2 94.0 93.7 103.7
14 15
16 17
18 19
20 21 22 23 24
9
160
Varianzanalyse
Die zweifaktorielle Varianzanalyse erfolgt mit dem Subkommando anova zusammen mit dem Subkommando means, um die Mittelwerte nach Effekten getrennt auszugeben. MTB > a n o v a ' E r t r a g ' = ' N - D u e n g . ' 'CCC' ' N - D u e n g . ' * ' C C C ' ; SUBC> means ' N - D u e n g . ' 'CCC' ' N - D u e n g . ' * ' C C C ' . Factor N-Dueng. CCC
Type L e v e l s V a l u e s fixed 3 1 2 fixed 2 1
3 2
A n a l y s i s of Variance f o r Ertrag Source N-Dueng. CCC N-Dueng.*CCC Error Total
DF 2 1 2 18 23
SS 2149, .29 446, . 3 4 193, ,88 568, .69 3 3 5 8 , .20
MS 1074, . 6 4 446, . 3 4 96, , 9 4 31. .59
F 34, ,01 14, , 1 3 3, ,07
P 0, . 0 0 0 0, . 0 0 1 0, , 0 7 1
MEANS N-Dueng. 1 2 3 CCC 1 2
N 8 8 8
N 12 12 r
t
1 1 2 2 3 3
Ertrag 66.700 81.875 89.463 Ertrag 75.033 83.658
CCC 1 2 1 2 1 2
N 4 4 4 4 4 4
Ertrag 63.400 70.000 80.425 83.325 81.275 97.650
Ob eine Wechselwirkung mit einem p-Wert von 7.1% existiert, liegt im Ermessen des Versuchsanstellers. Zunächst erfolgt die Auswertung ohne Annahme einer Wechselwirkung. Multiple Vergleiche müssen per Hand durchgeführt werden, da sie für mehrfaktorielle
9.6
Multiple
Mittelwertsvergleiche
161
Varianzanalysen in M I N I T A B nicht zur Verfügung stehen. Da beide Faktoren bei a = 0.05 einen signifikanten Einßuß haben, muß innerhalb der Düngung und innerhalb der Cycocelbehandlung verglichen werden. Es wird das T U K E Y Verfahren gewählt (vgl. Gleichung (9.71)). Dazu benötigt man die Fraktile 9O,i/;i-A aus Tab. A.6, wobei v die Freiheitsgrade des Fehlers MQ R sind. N-Düngung: _ V/ö / M Q R gq,»;!-« _ /3T59 ^ V / ^ H' I - 7 1 7 2 •V T T "~ 7 T ~ " V " T T ' 9 3 , 1 8 ' 0 ' 9 5 ~
r n GDO.OS -
Ein Ertragsunterschied von 7.17 dt/ha zwischen zwei Düngungsstufen gilt also als signifikant verschieden. Dies ist zwischen allen Varianten der Fall. Cycocel-Behandlung: Im vorliegenden Versuch wurden nur zwei CycocelVarianten untersucht. Aus diesem Grund ist die Signifikanz des Globaltests für einen Mittelwertsunterschied ausreichend. Wird die Wechselwirkung berücksichtigt, dann vergleicht man die Mittelwerte innerhalb der Faktorkombinationen. Diese werden als neuer Faktor "Kombination" behandelt mit folgender Zuordnung: Faktorkombination Stufe
aifci ai&2 1 2
a26i 3
02^2 4
a3i>i 03&2 6 5
Die Codierung erfolgt in Spalte c4. Es gibt dann im Worksheet eine neue Spalte mit den Codes der Faktorkombinationen. MTB > DATA> DATA> MTB >
set c4 (1:6)4 end name c4 'Komb.'
162
9
Varianzanalyse
MTB > print cl-c4 ROW
N-Dueng.
CCC
Ertrag
Komb.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
1 1 1 1 2 2 2 2 1 1 1 1 2 2 2 2 1 1 1 1 2 2 2 2
51.6 65.9 66.7 69.4 71.3 63.6 73.5 71.6 82.8 74.5 88.3 76.1 82.2 80.1 85.7 85.3 89.3 81.1 79.9 74.8 99.2 94.0 93.7 103.7
1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 6 6 6 6
Die Mittelwertsvergleiche
der Stufenkombinationen
dem Kommando oneway und dem Faktor Komb.
erfolgen
nun wiederum
mit
9.6
Multiple
Mittelwertsvergleiche
163
MTB > oneway 'Ertrag' 'Komb.'; S U B O tukey. ANALYSIS OF VARIANCE ON Ertrag SOURCE DF SS MS Komb. 5 2789.5 557.9 ERROR 18 568.7 31.6 TOTAL 23 3358.2 POOLED STDEV =
F 17.66
p 0.000
5.62
Man beachte, daß folgende Beziehung gilt, wenn man die Tafel der analyse vergleicht:
Varianz-
SQKomb. = SQn -Dueng + S Q C C C + S Q n -Dueng.CCC TUKEY'S multiple comparison procedure Nominal level = 0.0500 Family error rate = 0.0500 Individual error rate = 0.00521 Critical value = 4 . 5 0 Intervals for (mean of column group) - (mean of row group)
-19.24 6.04 -29.66 -4.39
-23.06 2.21
-32.56 -7.29
-25.96 -0.69
-15.54 9.74
-30.51 -5.24
-23.91 1.36
-13.49 11.79
-10.59 14.69
-46.89 -21.61
-40.29 -15.01
-29.86 -4.59
-26.96 -1.69
-29.01 -3.74
164
9
Varianzanalyse
Es können nun beliebige Stufenkombinationen verglichen werden. Beispielsweise unterscheidet sich Mittelwert 3 und 6, was den Kombinationen 0261 und oo Tl\ existiert und unabhängig von a und ß ist, bezeichnet man ihn als a s y m p t o tisch relative Effizienz ARE oder als P i t m a n - I n d e x des verteilungsfreien Verfahrens: ARE =
lim — n2-fOd fix
(10.2)
Die asymptotische Effizienz gibt also an, wie leistungsfähig ein verteilungsfreier Test (Test 1) bei immer größer werdenden Stichprobenumfängen ist, wenn er anstelle seines parametrischen Analogons verwendet wird. Eine ARE von 0.95 bedeutet z.B., daß man im Durchschnitt bei Anwendung eines parametrischen Tests nur 95% der Beobachtungswerte braucht, die man bei Anwendung des verteilungsfreien Tests benötigt, um gleiches a und ß zu erhalten.
10.2
10.2
Der Vorzeichentest für den Median
169
Der Vorzeichentest für den Median
Der V o r z e i c h e n t e s t ist ein einfaches verteilungsfreies Verfahren zum Testen des Medians einer Grundgesamtheit aufgrund einer Stichprobe oder zum Vergleich zweier verbundener Stichproben. Der Name "Vorzeichentest" resultiert aus einer Transformation von quantitativen Stichprobenwerten auf Plus- oder Minuszeichen, je nachdem ob die Beobabachtungswerte über oder unter dem vermuteten Medianwert liegen. Es wird vorausgesetzt, daß die Grundgesamtheit eine stetige Verteilungsfunktion F hat. Die Nullhypothese lautet, daß der Median der Verteilung X0.5 gleich einem Wert XQ ist: (10.3)
Ho : zq.5 = zq
Ist Ho richtig, dann ist P(X > x0) = P(X < z 0 ) — 0.5. Die Stichprobenvariablen nehmen also mit der Wahrscheinlichkeit 0.5 Werte kleiner bzw. größer als zo an. Die Wahrscheinlichkeit, daß X = XQ ist, ist Null. Falls ein Stichprobenwert dennoch den Wert XQ annimmt, so eliminiert man diesen. Es liege eine Stichprobe zi,z2, . . . , i n vom Umfang n vor. Als Testgröße m verwendet man die Anzahl der Stichprobenwerte, die kleiner als zo sind, bzw. nach obiger Vereinbarung die Anzahl der Minuszeichen. Die Zufallsgröße M ist unter HQ binomialverteilt mit dem Parameter p = 0.5. Die Nullhypothese HQ wird auf dem Signifikanzniveau a zugunsten der Alternativhypothese Hi : zq 5 > zo abgelehnt, wenn P(M < m) < a ist, wobei
P(«
27) = P{Wy > 25 + 2) = P{Wy < 25 - 2) = P{Wy < 23) P(Wy < 23) = P(Wy - ny{ny + l ) / 2 < 23 - 15) = P{U < 8) Man liest in der Anhangstabelle
A.8 ab: P(U < 8) = 0.365.
Man kann auch folgendermaßen
vorgehen:
Ausgehend
von Wx + Wy =
TliTl
l j
— - — 45 und
71
\Ti x *|*
1)
= 10 entspricht
P(Wy > 27) der Wahrscheinlichkeit P(WX < 18). P (Wx - nx(nx + l ) / 2 < 18 - 10) = P(U < 8) = 0.365. Legt man ein a-Signifikanzniveau fest, so verteilt man bei einem zweiseitigen Test die ganze Irrtumswahrscheinlichkeit von a je zur Hälfte auf beide Enden der Verteilung von Wy, d.h. man braucht eine Testschranke w, so daß: ny(n+l) 2
>w)
ny(n+l)
bzw.
(10.17)
178
10 U-
nT • nu
>
ny(n
Nichtparametrische
+1)
Statistik (10.18)
Beispiel: Die folgende Tabelle zeigt die Uberlebenszeiten in Tagen zweier Rassen X und Y eines tierischen Pßanzenschädlings, die mit einem Pßanzenschutzmittel behandelt wurden.
Zeit [d] Rang
E
43 15
7 6
X (nx = 7) 10 12 9 16 9 11 8 12 74
20 4 13 3
Y (ny = 8) 11 6 8 2 3 10 5 7 1 2 46
42 14
5 4
Die Nullhypothese Ho lautet: Die Überlebenszeiten der beiden Rassen haben die gleiche Verteilungsfunktion (Fx — Fy). Die einseitige Alternative H\ ist: Die Uberlebenszeiten der Rasse Y sind signifikant kleiner als die der Rasse X (Fx < Fy). Da Uberlebenszeiten häufig exponentialverteilt, also nicht normalverteilt sind, ist anzunehmen, daß der t-Test hier nicht das geeignete Testverfahren ist. Es wird deshalb parameterfrei getestet. Es ist wx
15 16 - 74 und wy = 46 (Kontrolle: — - — = 120 = wx + wy).
P{Wy < wy) = P(Wy < 46) = P (u < 46 P(U < 10) = 0.02 (vgl. Anhangstab.
n ny
^
2
+
= P(U < 4 6 - 3 6 ) =
A.8)
Mit 2% Wahrscheinlichkeit treten demnach bei Zugrundelegung der Nullhypothese Werte kleiner oder gleich 46 auf. Die Überlebenszeiten der Rasse Y sind also zum Signifikanzniveau von ca. 2% kleiner als die der Rasse X. Identisch verläuft der Test, wenn man Wx
verwendet.
P(WX > 74) = P(WX > 56 + 18) = P(WX < 56 - 18) = P(WX < 38) = P(U < 38 - 28) = P(U < 10) = 0.02 Um die zweiseitige Alternativhypothese H\ . Fx ^ Fy annehmen zu können, ist der einseitige p-Wert zu verdoppeln, also p — 0.04 = 4%. 10.3.2
D i e asymptotische Verteilung der Wilcoxon-Statistik
Die Uberschreitungswahrscheinlichkeiten sind in den verschiedenen Tabellen in der Regel für Werte bis etwa max(rc x , ny) = 20 tabelliert. Für größere Werte von nx oder ny kann man auf den zentralen Grenzwertsatz zurückkommen und zeigen, daß Wy asymptotisch normalverteilt ist. Es ist einleuchtend, daß die
10.3
Der
179
Wilcoxon-Rajigsummentest
Rangvariablen 5,- nicht unabhängig sind, man kann jedoch davon ausgehen, daß bei genügend großem nx und ny die Abhängigkeit zwischen den einzelnen Variablen genügend schwach wird, so daß der zentrale Grenzwertsatz anwendbar ist. Es läßt sich leicht zeigen, daß: E(S,-) = ^ •(* + ! )
(i = 1 , 2 , . . . , n y )
(10.19)
E(Wy) = E(Si + S2 + .. . S „ J = \ • ny • (n + 1)
(10.20)
Var(5.) =
(10.21)
Var(Wy) = " • • " » > + !)
(10.22)
Damit kann die Approximation der Verteilung der WLLCOXON-Statistik Wy durch die Standardnormalverteilung formuliert werden (vgl. LEHMANN):
P [WJ " ¡ ^ i w f o < wy ) «{w y ) \ Vnxny(n+1)/12 J
P ( W
y
10 kann asymptotisch getestet werden.
182
10
Nichtpaiametrische
Voraussetzungen:
Unabhängigkeit, Ordinaldaten
WLLCOXON-Testgrößen:
wx: Rangsumme der x-Werte
Statistik
wy: Rangsumme der y-Werte MANN-WHITNEY-
ux = wx - nx(nx
Testgrößen:
uy = Wy-
+ l)/2
ny{ny + l)/2
«min = miniui.ity) Bindungskorrekturglied:
K=
Ho:
Fx = Fy bzw. xo.5 = yo.5 bei ähnl. Vert.
Hu
Ablehnung von Ho, wenn:
( n ^ y ^ l f - h ) ^ /(12n(n-l))
max(n X l ny) < 10: Fx > Fy bzw. x0.5 < yo.5
P(U
Fx < Fy bzw. a?0.5 > yo.5
P(U
Fy bzw. xo.5 < yo.5
P(U
Fx < Fy bzw. x0.5 > yo.5
P(U 5: a>4, rii> 5: > 25% Bindungen: Tabelle
10.4:
(Tab. A.9)
H > H„ H>xl-I-,I-A H
> xl-I;I-A
ifkorr >
xl-L-L-A
Rangvarianzanalyse nach
kkf
1 1.88 3.89 1.39 1.47 2.24 1.40 1.87 1.34 2.71 3.77 0.92 1.14
2 2.38 1.81 3.59 3.59 3.56 1.15 3.55 3.31 2.05 2.44 2.92 3.43
KRUSKAL
Behandlung 3 4 3.59 3.68 1.91 0.36 2.22 0.38 2.18 1.69 1.26 1.22 0.33 1.71 2.31 1.24 3.58 1.33 3.61 0.91 0.38 0.90 2.28 0.78 0.42 3.45
und
5 2.09 3.72 1.75 3.68 2.60 2.05 3.29 1.70 1.83 3.91 0.02 1.83
(Tab.
A.3)
(Tab.
A.3)
WALLIS
(Ii-Test)
6 3.23 0.62 0.01 3.26 0.40 3.17 3.29 1.69 1.99 2.41 3.09 2.17
Es soll nun geprüft werden, ob die verschiedenen Behandlungen einen Einßuß auf die gesättigte Wasserleitfähigkeit haben. Die Daten sollen codiert in einer Datei WLEIT. DAT vorliegen, in der in der ersten Spalte die logaiithmierten
10
190
Nichtparametrische
Statistik
Leitfähigkeiten und in der zweiten Spalte die Codes 1 bis 6 für die Behandlungsstufen stehen. Die Auswertung erfolgt mit S T A T A . . infile lgkf Beh. using wleit.dat (72 observations read)
Für die Berechnung der Wasserleitfähigkeiten aus den dekadischen benötigt man eine weitere Variable.
Logarithmen
. generate kf=10"lgkf
kann man sich mit dem graph-Befehl
Die Verteilung der Wasserleitfähigkeiten ausgeben lassen. . graph kl, by(Beh.) bin(8) ireq
Er liefert in etwa folgende Graphik:
•
•
2000 4000 6000 8000 kf (cm/ai (Kontrolle)
l
l
l
l
0 2000 4000 6000 8000 kf [cm/a] (Stallmist 300 dt/ha)
C h 2000 4000 6000 kf tc«/a: (NPK)
B000
1
1
I
1
1
0 2000 4000 6000 B000 kf [cm/dl CNPK+Ernterueckstaende)
1
0 2000 4000 6000 B000 k« tcn/dl (Stallmist 600 dt/ha)
0 0
2000 4000 6000 kf [cm/dl (Torf)
8000
Die Anpassung einer Normalverteilung an die Daten ist hier sicher nicht möglich. Zur varianzanalytischen Auswertung wird deshalb der KRUSKAL-WALLISTest herangezogen.
10.4
Die Rangvarianzanalyse nach Kruskal und Wallis
191
. knallis kf, by(Beh.) Test: Equality of populations (Kruskal-Wallis Test) Beb. 1 2 3 4 5 6 chi-square = probability =
Obs 12 12 12 12 12 12
_RankSum 410.00 586.SO 428.50 272.50 503.50 427.00
10.412 with 5 d.f. 0.0644
Ein Unterschied in den Wasserleitfähigkeiten ist also etwa auf dem 6.5%-Signiükanzniveau abzusichern. Der Vorteil von Rangtests ist, daß monotone Datentransformationen keinen Einfluß auf das Testergebnis haben, da der Rang der Beobachtungswerte gleich bleibt. Dies sei hier mit dem KRUSKAL-WALLis-Test der lg kf-Werte demonstriert. . kwallis lgkf, by(Beh.) Test: Equality of populations (Kruskal-Wallis Test) Beb. 1 2 3 4 5 6 chi-square = probability =
_0bs 12 12 12 12 12 12
_RankSum 410.00 586.50 428.50 272.50 503.50 427.00
10.412 with 5 d.i. 0.0644
In MINITAB erfolgt der KRUSKAL-WALLis-Test durch den Befehl: MTB> kruskal-wallis 'kf
'Beh.'
192
10.5
10
Nichtparametrische
Statistik
Der Friedman-Test
Der F r i e d m a n - T e s t ist das verteilungsfreie Analogon zur varianzanalytischen Auswertung einer einfaktoriellen randomisierten Blockanlage (vgl. Abschnitt 9.5.7). Es werden o Stufen eines Faktors A zufällig auf r Blöcke verteilt. Die Nullhypothese "Der Median aller Behandlungen ist gleich" wird gegen die Alternative "mindestens ein Median unterscheidet sich von den anderen" getestet. Durch die Anlage des Versuchs als Blockanlage sind die Versuchsbedingungen innerhalb eines Blocks ähnlicher als zwischen den Blocks. Den Werten innerhalb eines Blocks werden Ränge zwischen 1 und a zugeteilt. Bei Bindungen innerhalb der Faktorstufen werden wiederum mittlere Rangplätze vergeben. Anschließend wird für jede Faktorstufe die Rangsumme W{ ermittelt. Zur Kona ra(a + 1) trolle dient die Beziehung: V^u;,- = . Unter Annahme der Nullhy2 ¿=i pothese, daß kein Unterschied zwischen den Faktorstufen besteht, sollten sich die Rangsummen tu,- (i = 1,2, . . . , a ) innerhalb der Faktorstufen nur zufällig unterscheiden. Zur Prüfung dient folgende Test große:
"
3
r
(
a
+
1 )
(
1
0
'
3
4
)
Anhangstabelle A . l l enthält die kritischen Werte Sar für kleine Stichproben. Für größere Stichprobenumfänge ist die Prüfgröße approximativ x 2 -verteilt mit a — 1 Freiheitsgraden. Das Testschema zeigt Tab. 10.5. Testgröße:
Wi\ Rangsumme der i-ten Faktorstufe S =
, 1 2 , v - y V ra(a + 1)
3r(a + l)
H0:
Fi = Fj bzw. i/o.5,i = 2/o.5,j Vz, j, i ^ j
HL'-
3 i # j : Fi ^ Fj bzw. j/0.5,i ^ Vo.5,j Ablehnung von HQ, wenn:
kleine Stichproben: große Stichproben:
S > Sar
5 > xl-ui-a
T a b e l l e 10.5: FRIEDMAN-Test
(Tab. A . l l )
(Tab. A.3)
10.5
Der Friedman-Test
193
Beispiel: Als Beispiel für die Durchführung des FRIEDMAN-Tests wird noch einmal die Toxizitätsprüfung von vier Substanzen an Rattengeschwistern vom Beispiel auf Seite 112 herangezogen. Aufgrund der Urliste der Tumordurchmesser Substanz i Block j
1
2
3
4
1 2 3 4
5.5 5.5 6.2
6.5 6.7 7.0 6.1 9.2
7.0 5.9 6.5 7.4 7.9
7.8 7.7 7.9 8.3
7.5 8.7
5
9.1
ergibt sich folgende Rangtabelle: Substanz
„
4 v^ w
...
Prüfung: JJ
Block j
1
1 2
1
2
3 4 5
1 1 3 2
3 3 1 4
Wi
8
13
r a ( a + 1 )¿
i = —^
=
2
5-4-5
i
3
4
3 2
4 4
2 2 1
4 4
10
19
3 50
= 50
i=i
Die Testgröße lautet: S =
(
/
2
^
f w A
— 3 r ( a + 1) =
=
( ' — • ( 8 2 + 13 2 + 10 2 + W 2 ) ^ - 3 • 5 • 5 = \5•4 • 5 /
=
8.28
Es ist S = 8.28 > 7.81 = x i o.95- Es besteht also auf dem 5%-Signißkanzniveau ein Toxizitätsunterschied.
10
194
Ni eh tp aram e tris eh e Statistik
Der Test in MINITAB erfolgt durch das Kommando friedman. MTB > DATA> DATA> DATA> DATA> DATA> DATA> MTB > DATA> DATA> MTB > DATA> DATA> MTB > MTB >
set cl 5.5 6.5 7.0 7.8 5.5 6.7 5.9 7.7 6.2 7.0 6.5 7.9 7.5 6.1 7.4 8.3 8.7 9.2 7.9 9.1 end set c2 5(1:4) end set c3 (1:5)4 end name cl 'Tumor' c2 'Substanz' c3 'Block' iriedman 'Tumor' 'Substanz' 'Block'
Friedman test of Tumor by Substanz blocked by Block S = 8.28 d.f. = 3
Substanz 1 2 3 4 Grand median
N 5 5 5 5
p = 0.041 Est. Median 6.2125 6.9875 6.5625 7.8875 6.9125
Der p-Wert beträgt p = 4.1%.
Sum of RANKS 8.0 13.0 10.0 19.0
10.6
10.6
Der Mood-Test
195
Der Mood-Test
Der Mood-Test ist eine zum KRUSKAL-WALLIS-Test alternative nichtparametrische eindimensionale Rangvarianzanalyse zur Prüfung der Hypothese "die Mediane aller Faktorstufen sind gleich" gegen die Alternative "mindestens ein Median unterscheidet sich von den anderen". Der Test ist sehr robust gegen Ausreißer und fehlerhafte Daten. Es wird zunächst der globale Median 3/0.5 von allen n Meßwerten berechnet. Für jede der a Stufen des Prüffaktors A bestimmt man die Anzahl der Beobachtungen Bn, die kleiner oder gleich dem globalem Median ist, und die Anzahl der Beobachtungen Bi2, die größer dem globalen Median ist. Man erhält dann folgende a x 2-Tafel: Faktorstufe 1 2
a
E
< 3/0.5 > 3/0,5 ^ B\i B12 B1. 521 B22 B2. Bii
Bi2
Ba\ ~Bi
Ba2 Ba ~B~2 J3. = n
Ii ±
"Ui
Bi
—
u.
Die Testgröße
(10.35)
ist approximativ x 2 - v erteilt bei a — 1 Freiheitsgraden. Das Testschema zeigt Tab. 10.6.
196
10
Testgröße: Ho:
Nichtparametrische
Statistik
^ - f e s A - 1 ) F = Fi bzw. y .5,k = yo.5,/ Vfc,/ k ^ l 3 k^l Fi bzw. y0.5^ yo.5,/ Ablehnung von Ho, wenn: xl > (Tab. A.3) Tabelle 10.6: MOOD-Test k
0
Beispiel: Mit den Wasserleitfähigkeiten kf für 6 verschiedene Behandlungen des Beispiels auf Seite 188 soll der MOOD-Test demonstriert werden. Der globale Median ist t/o.5 = 112. Die Anzahl der Stichprobenwerte, die kleiner oder gleich bzw. größer dem globalen Median sind, zeigt folgende Tabelle.
Behandlung < 112 > 112 1 4 8 2 9 3 3 7 5 2 4 10 5 6 6 6 7 5 35 37 E
E 12 12 12 12 12 12 72
Die Testgröße ist dann:
X8 = 72. 5 2 £
Bh
-1 =
82 + 42 + 32 + 92 + = 72 ,12-37 + + 12 • 35 1 2 • 37 12 35 12-37 12-35 102 + 2 2 + 6 2 62 52 + 72 - 1 = + + 12•37 ' 12•35 ' 12•37 ' 12-35 12-37 12-35 2 2 2 2 2 2 8 + 3 + 5 + 10 + 6 + 5 | = 7212-37 2 2 2 2 2 2 4 + 9 + 7 + 2 + 6 + 7 + 12-35 -0= 259 + 235 - 1 = 10.29 = 72. 12-37 12-35
10.6
197
Der Mood-Test
Es ist Xo = 10.29 ji 11.07 = x§,o.95- Damit kann auf dem 5%-Signifikanzniveau kein Medianunterschied gesichert werden. Nach der Dateneingabe wie im Beispiel auf Seite 188 kann man in den Test mit dem Kommando mood durchführen.
MINITAB
MTB > mood 'kf' 'Beh.' Mood median test of kf Chisquare =10.29 Beh. 1 2 3 4 5 6
N 4 9 7 2 6 7
p = 0.068
Median 52 1437 159 17 118 202
Overall median = 112 Der p-Wert beträgt p = 6.8% und ist in diesem Fall praktisch gleich dem p-Wert beim KRUSKAL-WALLIS-Test.
198
10.7
10
Nichtparametrische
Statistik
Nichtparametrische multiple Vergleiche
Die Rangvarianzanalyse nach KRUSKAL U. WALLIS, der MooD-Test sowie der FRIEDMAN-Test sind nichtparametrische Verfahren zur einfaktoriellen Varianzanalyse. Sie testen die globale Nullhypothese, daß a Stichproben die gleiche Verteilung bzw. den gleichen Median haben, gegen die Alternative, daß mindestens zwei Stichproben verschiedene Verteilungen bzw. Mediane haben. Analog zu den parametrischen Varianzanalysen möchte der Versuchsansteller auch erfahren, welche Stichproben sich nun in der Verteilung unterscheiden, also m u l t i p l e V e r g l e i c h e durchführen. Es gibt eine Reihe von nichtparametrischen multiplen Verfahren, die hier nur erwähnt, aber nicht näher beschrieben werden. Genaue Definitionen und Einzelheiten findet man etwa bei HOLLANDER u . W O L F E 6 o d e r HOCHBERG U. T A M H A N E 7 .
Die multiple Nullhypothese bei parameterfreien paarweisen Vergleichen lautet allgemein Ho : Fi = Fj
bzw.
H0 : yo.5,i = yo.s.j
(10.36)
gegen die zweiseitige Alternative H i : Fi ± F j
bzw.
Hi : yo.s.i # Jfo.sj-
(10.37)
Wie bei den parametrischen Tests, sollte ein Verfahren verwendet werden, daß das multiple Niveau a einhält (vgl. Kapitel 9.6).
10.7.1
Multiple Rangsummentests bei einfaktoriellen Varianzanalysen
Die folgenden multiplen Verfahren basieren auf dem Rangsummentest nach KRUSKAL und WALLIS. Wie bei der globalen Rangvarianzanalyse werden zunächst die Rangsummen W{ (i = 1, 2 , . . . , a) der a Stichproben gebildet, indem man allen n Werten die Ränge 1 bis n zuordnet. Man bildet die durchXV'
schnittlichen Rangsummen wl = — und vergleicht schließlich die Differenz der mittleren Rangsummen zweier Stichproben mit einer kritischen Differenz w a ,n\\-a, die von der Faktorstufenzahl a und vom gesamten Stichprobenumfang n abhängt. Wenn die kritische Differenz überschritten wird, kann die multiple Nullhypothese, daß zwei Verteilungen gleich sind, zum Signifikanzniveau a abgelehnt werden. Damit ist dann die Ungleichheit der Verteilungen der beiden 6HOLLANDER M., WOLFE D . A . 1973: Nonparametric Statistical Methods. John Wiley & Sons Inc., New York 7HOCHBERG Y . , TAMHANE A.C. 1987: Multiple Comparison Procedures. John Wiley & Sons Inc., New York
10.7
Nichtparametrische
multiple
Vergleiche
199
betrachteten Stichproben auf dem a-Niveau statistisch gesichert. HQ wird also abgelehnt, wenn |tüi — wj\ > w a ,n;i-a ist. Die kritische Differenz lautet beim multiplen KRUSKAL-WALLIS-Rangsummentest: (10.38)
/ia,n;i-a, i n Tab. A.9 und auf Seite 188 mit Hp bezeichnet, ist die kritische K o n s t a n t e d e s K R U S K A L - W A L L I S - T e s t s u n d i s t z . B . b e i HOLLANDER U. W O L F E
für verschiedene Stichprobenumfänge rij tabelliert. Wie beim globalen Rangsummentest von KRUSKAL U. WALLIS wird in der Regel für große Stichprobenumfänge eine Approximation durch die x 2 -Verteilung verwendet. Dieses approximative multiple Verfahren geht auf NEMENYI zurück. Die kritische Differenz beim NEMENYI-Rangsummentest lautet:
(10.39)
Es gibt noch andere Approximationen des KRUSKAL-WALLIS-Tests, z.B. von DUNN, MILLER oder WILCOXON U. WILCOX, die e t w a Fraktilen der N o r m a l v e r -
teilung oder der studentisierten Spannweitenverteilung verwenden. Bei HOCHBERG u . TAMHANE sowie in der Dissertation von SCHULZ8 wird gezeigt, d a ß f ü r
alle multiplen Rangsummentests die Signifikanz der Globalhypothese vorausgesetzt wird und somit nur globales, aber kein multiples Niveau a eingehalten wird. 10.7.2
M u l t i p l e R a n g s u m m e n t e s t s b e i einfaktoriellen B l o c k a n l a g e n
Die folgenden multiplen Vergleiche basieren auf dem FRIEDMAN-Test und sind für einfaktorielle randomisierte Blockanlagen anwendbar. Nachdem man innerhalb der Blöcke jeweils die Ränge 1 bis a zugeordnet hat, bildet man die Rangsummen Wi der Stichproben und vergleicht die Differenz zweier Rangsummen mit einer kritischen Differenz. Die Durchschnittsbildung der Rangsummen kann man sich aufgrund gleicher Anzahl r von Blöcken für jede Stichprobe sparen. Die kritische Differenz ist: Wa,n-,l-a = r a ,r; l - o
(10.40)
8 SCHULZ K. 1990: Multiple Vergleiche beim Friedman-Test. Dissertation a n der Universität D o r t m u n d
10
200 Diese Grenzen r a
n;1_Q
Nichtparametrische
Statistik
für den FRIEDMAN-Test sind etwa bei HOLLANDER U.
WOLFE vertafelt9.
Für große Stichprobenumfänge schlägt NEMENYI folgende Approximation vor:
(10.41) 9a,oo;i-a ist die (1 — a)-Fraktile der studentisierten Spannweitenverteilung bei unendlich vielen Freiheitsgraden (Tab. A.6). SCHULZ hat gezeigt, daß der multiple FRIEDMAN-Test und der NEMENYI-Test nur globales, aber nicht multiples Niveau a einhält. Es wird jedoch ein Abschlußverfahren für den FRIEDMANTest vorgeschlagen, das multiples Niveau a garantiert. Für praktische Anwendungen ist dieser Abschlußtest jedoch zu aufwendig. Die multiplen Rangsummentests sind zweiseitige Tests. Einseitige multiple Tests sowie Verfahren, die Vertrauensintervalle für die Rangsummendifferenzen liefern, sind nicht bekannt. Neben den paarweisen Vergleichen spielen in der Praxis auch Vergleiche mit einer Kontrollgruppe eine wichtige Rolle. Es gibt nichtparametrische multiple Vergleiche mit einer Kontrolle basierend auf dem KRUSKAL-WALLIS-Test sowie auch auf den FRIEDMAN-Test. Man vergleicht entsprechend die Rangsummen bzw. die durchschnittlichen Rangsummen der Kontrollgruppe mit allen anderen Stichproben und lehnt die Hypothese der Gleichheit der Verteilungen ab, wenn die Differenz eine kritische Differenz überschreitet. Die kritischen Differenzen sind etwas modifiziert gegenüber den paarweisen Vergleichen und beinhalten andere Verteilungen, z.B. d i e M a x i m u m - M o d u l u s - V e r t e i l u n g ( s i e h e z . B . HOLLANDER U. W O L F E ) .
10.7.3
Multiple Median-Tests
NEMENYI10 h a t d e n 2 - S t i c h p r o b e n t e s t v o n MOOD f ü r v a r i a n z a n a l y t i s c h e
Mo-
delle erweitert und auch multiple Median-Vergleiche vorgeschlagen. Ab der Version 8 von MINITAB gibt es einige experimentelle Subkommandos für multiple Vergleiche beim MOOD-Test. Das Subkommando p a i r w i s e führt paarweise multiple Medianvergleiche, c o n t r o l führt Medianvergleiche mit einer Kontrollgruppe durch. Bei beiden Einschrittverfahren werden Vertrauensintervalle für die Mediandifferenzen berechnet. Daneben geht l a y e r stufenweise vor und liefert nichtsignifikante Gruppierungen (vgl. Kapitel 9.6). Bei allen drei Verfahren werden vom nominalen Niveau a (auf 10% voreingestellt) ausgehend, individuelle Fehlerwahrscheinlichkeiten nach der BONFERRONI-Methode verwendet, so 9HoLLANDER M., WOLFE D.A. 1973: Nonparametric Statistical Methods. John Wiley & Sons Inc., New York 10NEMENYI P . 1963: Distribution-free multiple comparisons. Unpublished doctoral thesis. Princeton University
10.7
Nichtparametrische
multiple
201
Vergleiche
daß in jedem Fall multiples Niveau a eingehalten wird, auch für das schrittweise Verfahren. Beispiel: Der globale MOOD-Test für das Beispiel der Wasserleitfähigkeit auf Seite 188 wird um die multiplen Vergleiche erweitert. Die folgende Ausgabe ist auf das Wesentliche gekürzt. Die simultane Irrtumswahrscheinlichkeit soll 10% betragen. MTB > SUBC> SUBC> SUBO
mood ' k f 'Beh.'; pairwise 0.1; control 0.1 1; layer 0.1.
Pairwise comparisons at error rate 0.1000 Table of Cl's for column median - row median Joint confidence = 90.0V,
Per comparison confidence =
4 -507 29
1
1
5
3
5
-4780
-4764
-5
457
3
-3796 49
-3780 510
-3746 4784
6
-1692 47
-1676 509
-1642 4782
-1696 3798
2
-3625 -61
-3609 401
-3575 4674
-3628 3690
6
-3627 1586
99.3'/,
10
202
Nichtparametrische
Statistik
Multiple comparisons at error rate 0.1000 kf Median 4 17 1 5 3 6 2
52 118 159 202 1437
I II I I I I
Levels 1 5 3 6 2 Largest difference in sample medians = Confidence limit for largest diff. =
1385 4784
Levels 4 1 Largest difference in sample medians = Confidence limit for largest diff. =
35 507
CI's for level median - control median Joint confidence = 90.0V. Per comparison confidence = 98.0'/, Median(4) Median(5) Median(3) Median(6) Median(2)
-
median(l) median(l) median(l) median(l) median(l)
-234, -176, -227, -202, -27,
25 2494 901 1499 3541
Die Vertrauensintervalle beim paarweisen Vergleich liefern auf dem multiplen 10%-Niveau Unterschiede zwischen dem Median 4 und 5 sowie zwischen 4 und 2. Die individuelle Irrtumswahrscheinlichkeit bei pairwise beträgt: a* =
a(a — 1)
= ^ ^ ^ = 0.67% 30
(Per comparison confidence = 99.3'/,).
Beim schrittweisen Vorgehen (ïayer) ist das individuelle Niveau je nach Anzahl der Behandlungen auf der jeweiligen Verfahrensstufe i.a. etwas größer, so daß mehr Signifikanzen erkannt werden können. Die nichtsignifikante Gruppierung im mittleren Teil der Ausgabe zeigt zusätzliche Signifikanzen zwischen den Medianen der Stufe 4 und 3 sowie 4 und 6. Das stufenweise Verfahren ist i.a. etwas mächtiger als das paarweise Einschrittverfahren. Beim Kontrollvergleich gibt es keine Unterschiede der Mediane zur Kontrollgruppe 1. Das individuelle Niveau beträgt hier: a* = — - = a — 1
5
— 2%
("Per comparison confidence = 98.0'/,j.
10.7
10.7.4
Nichtparametrische
203
multiple Vergleiche
Multipler Vorzeichentest von Steel
Von STEEL gibt es eine multiple Version des Vorzeichentests für die einfaktorielle balanzierte Varianzanalyse (ni = ri2 = . . . = na = n) und für einfaktorielle Blockanlagen (r = n). Dabei werden die Werte zweier Behandlungen paarweise verglichen und je nach Vorzeichen der Differenz die Werte 0 oder 1 zugeordnet. Die Summe dieser Einsen ist: S£ = f > + ki
mit
D+
= i ?
^
Xki
Xk
~ '
(10.42)
Das Maximum dieser Summe Sfj und der inversen Summe S+- = S^ wird schließlich mit einer kritischen Vorzeichensumme «.,n;i-«
(10-43)
verglichen. Ho wird abgelehnt, wenn StJ- > sa,n;i- 2/0.5 Fx > Fy bzw. xq.5 < i/o.5 Fx ^ Fy bzw. xo.5 ^ yo.5
P(W (n + l ) ( 2 n + l ) / 2 4 j
Zo.5
2/0.5
x „, ( w — n(n+1)/4 \ v P(W dn-a
1 6
(Tab. A.12)
Tabelle 10.9: KOLMOGOROV-SMIRNOV-Anpassungstest Beispiel: Gegeben
sei folgende
Stichprobe: i Xi
H0 : X ~ (5,2 2 )-n.v.
1 1.1
berechnet
Xi 1.1 3.0 4.2 4.2 7.0
3 4.2
4 4.2
5 7.0
: X / (5,2 2 )-n.v.
Die empirische Verteilungsfunktion tion W ( 5 , 2 2 ) zeigt Bild 10.2. Die Abweichungen
2 3.0
man
F und die hypothetische folgendermaßen:
4 = | F(Xi).- i X x O l 0.0256 0.1587 0.3446 0.3446 0.8413
Verteilungsfunk-
|0.2 - 0.0256| = ¡0.4 — 0.1587| = ¡0.8 - 0.3446| = ¡0.8 - 0.3446| = |1.0 — 0.8413| =
0.1744 0.2413 0.4554 0.4554 0.1587
d7 = |0.0 ¡0.2 ¡0.4 ¡0.4 ¡0.8 -
F(«0l 0.0256| 0.1587| 0.3446j 0.3446| 0.8413|
= = = = =
0.0256 0.0413 0.0554 0.0554 0.0413
Die größte Abweichung ist also bei und X4 und beträgt d = ¿3 = d£ = 0.4554. Ein Vergleich mit Tab. A.12 im Anhang zeigt, daß die Abweichung von der (5,2 2 )-Normalverteilung auf dem 20%-Niveau nicht signifikant ist, da d = 0.4554 ? 0.446 = d5,0.2-
16
X 7 F ( x ) bedeutet: X hat nicht die Verteilungsfunktion F.
10.9
Der
F(x)
Kolmogorov-Smimov-Anpassungstest
213
F(x)
1.0 0.9
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0
=4=-—•
0
xi
2
1 x2
-i
1
x3,x4
5
6
—-
8
9
10
1
Bild 10.2: Beispiel zum KOLMOGOROV-SMIRNOV-Test Der KOLMOGOROV-SMIRNOV-Test ist in STATA
implementiert.
. input x x 1. 2. 3. 4. 5.
1.1 3.0 4.2 4.2 7.0
6. end . ksmirnov x=normprob((x-5)/2), onesamp Test: Equality of Distribution Functions Smaller group x: nonnprob: Combined K-S:
D 0.45S4 -0.0413 0.45S4
(Kolmogorov-Smirnov)
P-value 0.126 0.983 0.2S1
Nach der Dateneingabe erfolgt der Aufruf mit dem Kommando ksmirnov, bei dem F mit der anzugebenden hypothetischen Verteilungsfunktion verglichen
214
10
Nichtparametrische
Statistik
wird. Die Argumente der Funktion normprob sind die auf die Standardnormalverteilung transformierten Stichprobenwerte. Die Option onesamp benötigt man, da nur eine Stichprobe getestet wird. Der KOLMOGOROV-SMIRNOV-Test ist auch für einen Vergleich zweier Verteilungsfunktionen verwendbar. Dieser Test wird jedoch nicht vorgestellt, da für diesen Vergleich mächtigere Verfahren wie z.B. der WlLCOXON-Rangsummentest zur Verfügung stehen. Für die vorliegende Problemstellung ist ausschließlich die letzte Zeile des Outputs interessant. Die Prüfgröße ist wie erwartet d = 0.4554. Der p-Wert wird zu p = 0.251 ausgegeben. Vergleich mit d e m x3-Test Der KOLMOGOROV-SMIRNOV-Test setzt streng genommen stetige Grundgesamtheiten voraus und geht davon aus, daß jeder einzelne Beobachtungswert in das Testverfahren eingeht. Beim x 2 -Test werden die Beobachtungswerte in der Regel klassifiziert, d.h. es geht Information verloren. Bei kleinen Stichprobenumfängen ist der KOLMOGOROV-SMIRNOV-Test entschieden mächtiger als der x 2 -Test. Der x 2 -Test kann bei kleinen Stichprobenumfängen gar nicht angewandt werden, während der KOLMOGOROV-SMIRNOV-Test bereits ab n = 3 anzuwenden ist. Man beachte allerdings die Voraussetzung, daß F vollständig bekannt sein muß. Außerdem ist die Macht des Tests bei größeren Abweichungen von der Normalverteilung nicht besonders groß. Infolgedessen ist die Bedeutung des KOLMOGOROV-SMIRNOV-Tests etwas eingeschränkt.
Kapitel 11 X2-Tests
und Analyse von Kontingenztafeln
Die bisher vorgestellten Tests bezogen sich fast ausnahmslos auf Hypothesen über Parameter von bekannt vorausgesetzten Verteilungen. Neben dem in Kapitel 10 geschilderten KOLMOGOROV-SMIRNOV-Test gibt es einen weiteren wichtigen Test für die Hypothese, daß die Grundgesamtheit eine bestimmte Verteilung besitzt.
11.1
Der x 2 -Test als Test für Verteilungsfunktionen
Mit Hilfe einer Stichprobe soll die Hypothese getestet werden, ob eine Grundgesamtheit oder die sie charakterisierende Zufallsvariable X eine bestimmte Verteilungsfunktion F hat. Aus der Stichprobe kann man die empirische Summenhäufigkeitsfunktion F berechnen. F und F werden dann in ihrem ganzen Verlauf miteinander verglichen und die Abweichung bewertet. Wenn man die Wahrscheinlichkeitsverteilung der Abweichung unter der Voraussetzung, daß die Hypothese richtig ist, kennt, so ist man in der Lage, einen Test dieser Nullhypothese anzugeben. Bei der Durchführung des Tests unterteilt man die z-Achse in r sich nicht überlappende Klassen oder Teilintervalle Tj, T 2 , . . . , T r , so daß jedes Teilintervall wenigstens 4 Werte der gegebenen Stichprobe 1 1 , 1 2 , . . . , x „ enthält. Sei Bi (i — 1 , 2 , . . . , r) die Anzahl der beobachteten Stichprobenwerte in T{. Dann berechnet man sich aufgrund der hypothetischen Verteilungsfunktion F die Wahrscheinlichkeit p,, daß die Zufallsvariable X einen Wert aus dem Intervall Ti annimmt. Wenn die Stichprobe den Umfang n hat, dann sind theoretisch im Teilintervall Ti Ei = n • pi Stichprobenwerte zu erwarten. Man berechnet folgende Testgröße Xo:
(11.1)
Die Größe Xo> aufgefaßt als Zufallsvariable, ist unter der Voraussetzung, daß die Hypothese richtig ist, für n —• 00 x 2 - v e r t e i l t mit r — 1 Freiheitsgraden. Die Nutzanwendung dieser Tatsache ist, daß man die Größe Xo praktisch als X 2 -verteilt mit r — 1 Freiheitsgraden ansehen kann, wenn nur alle Ei > 4 sind (Faustregel). Man legt eine Irrtumswahrscheinlichkeit a fest und sucht den entsprechenden Tabellenwert X r - i ; i - o ' n Anhangstab. A.3. Ist dann Xo > Xr-i i - a i s o wird die Nullhypothese verworfen.
x2-Tests und Analyse von
11
216
Kontingenztafeln
Zusatzbemerkung: Bisher wurde angenommen, daß die Verteilungsfunktion F vollständig bekannt ist. Falls jedoch in der zu testenden Verteilungsfunktion s unbekannte Parameter (z.B. Mittelwert, Varianz usw.) enthalten sind, dann sind diese unbekannten Parameter erst zu schätzen. Die Prüfgröße Xo nach (11.1) ist in diesem Fall angenähert x 2 -verteilt mit r — s — 1 Freiheitsgraden. Das Testschema zeigt Tab. 11.1. Testgröße:
Xo
^(Bt-Etf ~ 2-< Ei1 «=i
H0:
X ~ F(x)
Hi:
Ablehnung von Ho, wenn
X + F(x)
Xo2 >
(Tab. A.3)
Tabelle 11.1: x 2 -Test für Verteilungsfunktionen Beispiel: Bild 11.1 zeigt die Häufigkeitsverteilung einer Stichprobe über die Milchleistung von Kühen. Zum Vergleich der empirischen Häufigkeitsverteilung der Milchleistung mit einer Normalverteilung werden Mittelwert x und Standardabweichung s aus den Klassenhäufigkeiten geschätzt. Es sind n = 100 die Gesamtzahl aller Tiere, m = 7 die Anzahl der Klassen, x,- die Klassenmitten und Bi die beobachteten Klassenhäufigkeiten. Xi
37.5 42.5 47.5 52.5 57.5 62.5 67.5
E
1 m 1 X = - • y Bi • Xi = — n f-f 100 1=1
Bi • x? Bi Bi -Xi 5 187.5 7031.25 16256.25 9 382.5 25 1187.5 56406.25 23 1207.5 63393.75 31 1782.5 102493.75 3 187.5 11718.75 4 270.0 18225.00 100 5205.0 275525.00
. 5205.0 = 52.05
11.1
Der x2-Test
aIs Test für
Verteilungsfunktionen
217
35 30 •4-1
® 25-
CT
-r-l
3 20 -
cu
I
S
15
"
1 10ra 5 -
0-
1
n
35
1
i
40
!
45
i
i
i
50 55 60 Milchleistung Cdt/al
1
i
65
r~
70
Bild 11.1: Häufigkeitsverteilung der Milchleistung von Kühen
s = 6.82 Da in der vorletzten Klasse nur 3 Stichprobenwerte auftreten, ist es zweckmäßig, die letzten beiden Klassen zu einer einzigen Klasse zu vereinigen. Die erwarteten Häußgkeiten Ei berechnet man über die Wahrscheinlichkeit pi, daß die Milchleistung im Teilintervall i vorkommt. Zu diesem Zweck benötigt man die Verteilungsfunktion F. Wird wie im vorliegenden Fall die Hypothese der Normalverteilung getestet, so muß zunächst auf die Standardnormalverteilung 4>{x) transformiert werden. Das gesuchte pt ergibt sich dann aus der Differenz der Funktionswerte der Standardnormalverteilung an den Klassengrenzen. Die Berechnung der erwarteten Häußgkeiten für die erste Klasse lautet ausführlich: E\ = = pi • n =- piF (•- o100 (F(40) o ) )=• 100 = = \ \ 6Ü2 ) ~ = (¿(-1.77)-¿(-oo))-100 = = (0.038-0.000)-100 = = 3.8
218
Die Berechnung der erwarteten gerweise in Tabellen form.
— 00. 40. 45. 50. 55. 60.
x2-Tests
11
.40 .45 .50 .55 .60 .oo
und Analyse von
Kontingenztafeln
Häufigkeiten für jede Klasse erfolgt
x - 52.05 / X - 52.05N v 6.82 6.82 —oo.. .—1.77 0.000.. .0.038 - 1 . 7 7 . . . - 1 . 0 3 0.038...0.152 - 1 . 0 3 . . . - 0 . 3 0 0.152.. .0.382 - 0 . 3 0 . . . 0.43 0.382.. .0.666 0.43... 1.17 0.666.. .0.879 1.17... oo 0.879.. .1.000
V
J
Pi
Ei
0.038 0.114 0.230 0.284 0.213 0.121
3.8 11.4 23.0 28.4 21.3 12.1 100.0
1.000
zweckmäßi-
Bi (Bi -Ei Eif
5 9 25 23 31 7 100
0.379 0.505 0.174 1.027 4.417 2.150 8.652
Xl = 8.652 > 7.81 = xl;o.95 Xl = 8.652 ? 11.34 =xi ; o.99 Auf dem 5%-Niveau wäre die Nullhypothese auf dem 1%-Niveau dagegen nicht.
der Normalverteilung
abzulehnen,
Die Anzahl der Freiheitsgrade beträgt in diesem Fall n — r— 1 = 6 — 2 — 1 = 3, da zwei Parameter (Mittelwert und Standardabweichung) aus den Meßwerten geschätzt wurden. Der folgende Test erfolgt mit dem gleichen Datensatz auf eine (50,5 2 )-normalverteilte Grundgesamtheit. In diesem Fall werden keine Parameter geschätzt. Infolgedessen existieren n — 0 — 1 = 6 — 0 — 1 = 5 Freiheitsgrade.
X — 50
-50\ L
— 00. 40. 45. 50. 55. 60.
.40 .45 .50 .55 .60 .oo
—oo.
-2. -1. 0. 1. 2.
.-2 .-1 . 0 . 1 . 2 . oo
*(
0.000. 0.023. 0.159. 0.500. 0.841. 0.977.
5 / . .0.023 ..0.159 . .0.500 . .0.841 . .0.977 ..1.000
Pi
Ei
Bi
0.023 0.136 0.341 0.341 0.136 0.023 1.000
2.3 13.6 34.1 34.1 13.6 2.3 100.0
5 9 25 23 31 7 100
(Bi - Eif Ei 3.169 1.556 2.428 3.613 22.262 9.604 42.659
Xl = 42.659 > 20.52 = xi;0.999 Auf dem 0.1%-Niveau ist die Nullhypothese tungswert 50 und Varianz 25 abzulehnen.
der Normalverteilung
mit
Erwar-
11.2
Der x2-Test zum Prüfen von Häufigkeiten
11.2
219
Der x 2 -Test zum Prüfen von Häufigkeiten
Der x 2 -Test eignet sich auch zur Überprüfung von theoretischen Häufigkeitsverteilungen mit empirischen Häufigkeitsverteilungen. Sei 5 , die beobachtete Häufigkeit des i'-ten Ereignisses und Ei die aufgrund einer angenommenen Verteilung zu erwartende Häufigkeit des Ereignisses, dann erfolgt der Test nach dem Schema in Tab. 11.2. Testgröße:
, . 2 _ V (Bi ~
hi
Ei
X ~ F(x)
H0:
Ablehnung von Ho, wenn X + F{x)
xl > X r - j - i ; i - a (Tab. A.3)
Tabelle 11.2: x 2 -Test zum Prüfen von Häufigkeiten Beispiele:
1. Bei Erbsen ist am Genlocus für die Kornfarbe das Allel R für eine runde Form der Körner dominant über das Allel r für eine kantige Kornform. Die Kornfarbe gelb ist dominant über grün und wird an einem anderen Genlocus durch die Allele G bzw. g codiert. Kreuzt man zwei in diesen Merkmalen reinerbige Zuchtlinien, z.B. Pßanzen mit runden gelben Körnern und Pßanzen mit kantigen gelben Körnern, in der ParentaJgeneration P miteinander, so erhält man in der ersten Filialgeneration Fi ausschließlich mischerbige Pßanzen nach folgendem Kreuzungsschema: Genotyp in P Gameten Genotyp in Fi
RRGG RG
x
rrgg rg
RrGg
Die F\-Generation kann vier verschiedene Typen von Gameten produzieren, so daß die Genotypenverteilung in der zweiten Filialgeneration nach Kreuzung der Fi-Generation nach folgendem Schema bestimmt werden kann: Gameten RG Rg rG rg
RG RRGG RRGg RrGG RrGg
Rg RRGg RRgg RrGg Rrgg
rG RrGG RrGg rrGG rrGg
rg RrGg Rrgg rrGg rrgg
x2-Tests und Analyse von
11
220
Die Phänotypenverteilung
Kontingenztafeln
in der F2 ist also: rund rund kantig kantig
gelb grün gelb grün
R-GR-gg rrGrrgg
9 3 3 1
erhielt bei einem seiner Kreuzungsversuche in der F2Generation 315 Erbsenpßanzen mit runden gelben Körnern, 108 Pflanzen mit runden grünen Erbsen, 105 Pßanzen mit kantigen gelben Körner und 32 Erbsenpßanzen mit kantigen grünen Körnern. Die beobachteten Häufigkeiten sollten nach MENDELS Theorie dem Verhältnis 9 : 3 : 3 : 1 entsprechen. Diese Hypothese wird mit dem x2-Test geprüft. G R E G O R MENDEL
theoretisches Verhältnis Erbsen rund, gelb rund, grün kantig, gelb kantig, grün
E
Zahl dei Pflanzen beobachtet theoretisch
Pi
Bi
Ei - 556 -pi
9/16 3/16 3/16 1/16 1
315 108 101 32 556
312.75 104.25 104.25 34.75 556.00
(Ei - Biy Ei 0.0162 0.1349 0.1013 0.2176 0.4700
Es wird nun mit MINITAB der Wert der Verteilungsfunktion an der Stelle 0.47 bei 3 Freiheitsgraden berechnet. MTB > cdf 0.47; SUBO chisquare 3. 0.4700 0.0746 Es besteht wegen des hohen p-Werts von 1 — 0.0746 = 0.9254 Grund zu der Annahme, daß das hypothetische Spaltungsverhältnis auch zutrifft. Das Gegenteil könnte nicht einmal auf dem 90%-JViveau gesichert werden. 2. Die Gen- oder Allelfrequenz eines Allels ist der relative Anteil des Allels an einem Genlocus. Bei der Rinderrasse Shorthorn existiert ein dialleler Locus, der für die Fellfarbe codiert. Der Erbgang ist intermediar. Die folgende Tabelle zeigt die Geno- und Phänotypen sowie deren Anteile an einer Stichprobe von 6000 Herdbuchshorthorns1. Genotyp RR RS SS
Phänotyp rot rotschimmelig weiß
Anteil 47.6% 43.8% 8.6%
' a u s PlRCHNER F . 1979: Populationsgenetik in der Tierzucht. P a u l P a r e y Verlag
11.2
Der x2-Test zum Prüfen von Häufigkeiten
221
Ist p die Genfrequenz des Allels R und q die Gen frequenz des Allels S, dann gilt: p + q — 1. Eine Population beßndet sich im genetischen Gleichgewicht, wenn die Verteilung der Genotypen (p+q)2 — p2 RR+2pg RS+52 SS beträgt. Es soll zunächst auf dem Signifikanzniveau a = 5% die Nullhypothese geprüft werden, daß sich die Population im genetischen Gleichgewicht mit p = 0.7 und q = 1 — p = 0.3 beßndet. Pi RR RS SS
E
0.49 0.42 0.09 1.00
Ei
Bi
2940 2856 2520 2628 540 516 6000 6000
(Bi - Ei f Ei 2.40 4.63 1.07 8.10
Die Anzahl der Freiheitsgrade beträgt in diesem Fall 2, da drei Genotypen vorhanden sind und kein Parameter geschätzt wird. X20 = 8.10 > xi;0.95 = 5-99 Damit wird die Nullhypothese auf dem vorgegebenen Signißkanzniveau von 5% abgelehnt. Die Allelfrequenzen kann man aus den gegebenen Daten schätzen. In den roten Tieren kommen ausschließlich K-Allele vor, in den rotschimmeligen nur zur Hälfte, in den weißen gar keine. Die geschätzte Genfrequenz p ist dann: p = 0.476 + 0.438/2 = 0.695 Damit folgt automatisch für die Frequenz q des Alternativallels S: q = 1 - 0.695 = 0.305 Pi RR RS SS
E
Ei
0.483 2898 0.424 2544 0.093 558 1.00 6000
Bi 2856 2628 516 6000
(Bi - Ei)2 Ef 0.61 2.77 3.16 6.54
Die Anzahl der Freiheitsgrade beträgt in diesem Fall 1, da drei Genotypen vorhanden sind und die Allelfrequenz von R geschätzt wird. Die Frequenz von S wird nicht geschätzt, sondern zu q = 1 — p berechnet. X20 = 6.54 > x?;o.95 = 3-84 Damit wird die Nullhypothese auf dem vorgegebenen Signißkanzniveau von 5% auch hier abgelehnt.
11
222
11.3
\2-Tests
und Analyse von
Kontingenztafeln
Der x 2 -Test zum Prüfen auf Unabhängigkeit
In vielen praktischen Fragestellungen erfolgt eine zweifache Klassifizierung eines Beobachtungsmaterials. Beide Merkmale sollten nur nominal sein. Sie sollten also nicht in eine Reihenfolge gebracht werden können. Kann nämlich ein Merkmal geordnet werden (z.B. stark - mittel - gering), so sollte nach Möglichkeit der KRUSKAL-WALLIS-Test bevorzugt werden (siehe Kap. 10.4). Das Material sei bezüglich des 1. Merkmals in k Gruppen unterteilt, bezüglich des 2. Merkmals in / Gruppen. Man erhält dann eine Zweiwegetafel oder zweidimensionale Kontingenztafel von folgendem allgemeinen Typ: 1. Merkmal 2. Merkmal 1 2
1
2
.• •
j
¿?21
Bl2 B22
• • Bij • • Bij
i
Bn
Ba
.
k
Bn 5.1
Bk
E
Bn
2
5.2
•
. • •
.
.• • .
l
E
Bu B21
Bi. 52.
Bit
Bi.
Bij
••
Bkj B.j
Bk. • • Bk, • • 5.1 B.. = n
Der Gesamtumfang der Stichprobe ist n und ist nach den zwei verschiedenen diskreten Merkmalen klassifiziert. Geprüft werden soll die Nullhypothese der Unabhängigkeit, d.h. das 1. Merkmal beeinflußt das 2. Merkmal nicht. Man kann den Test aber auch als Prüfung von Häufigkeiten interpretieren. Wenn keine Beziehung zwischen den beiden Merkmalen besteht, dann muß sich theoretisch eine zu den Randhäufigkeiten proportionale Häufigkeitsverteilung erwarten lassen. B i j ist die beobachtete Häufigkeit in der i'-ten Gruppe des 1. Merkmals und in der j'-ten Gruppe des 2. Merkmals. 5 , . ist die Randhäufigkeit der ¿-ten Gruppe, B j ist die Randhäufigkeit der j-ten Gruppe. Die erwarteten Häufigkeiten E i j in der ¿-ten Gruppe des 1. Merkmals und der j-ten Gruppe des 2. Merkmals sind dann: En =
(11.2)
n
Als approximativ x 2 -verteilte Testgröße dient: Xo -
i=1 ; = 1
¿FT!
(11.3)
11.3
Der x2-Test zum Prüfen auf
Unabhängigkeit
223
Einfacher handzuhaben ist folgende Prüfgröße:
mit (k — 1) • (/ — 1) Freiheitsgraden. Die Zahl der Freiheitsgrade gibt die Zahl der Felder einer Zweiwegetafel an, für die man die Häufigkeiten frei wählen kann, wenn die Randhäufigkeiten gegeben sind. Die erwarteten Häufigkeiten sollten > 1 sein. Ansonsten sind mehrere Felder zusammenzufassen, um diese Bedingung zu erfüllen. Das Testschema zeigt Tab. 11.3. Testgröße: ¿=1J=1
l
>
Ho'-
Unabhängigkeit
Hi:
Ablehnung von HQ, wenn
Abhängigkeit
XL >
\ 16.81 = xi-o.99- Damit ist eine Abhängigkeit der Meinung zur gestellten Frage von der Parteizugehörigkeit auf dem 1%-Signifikanzniveau statistisch gesichert.
11.4
Der x2-Test
11.4
bei einer einfachen
Zweiwegklassifikation
225
Der x 2 -Test bei einer einfachen Zweiwegklassifikation
Wenn bei beiden Merkmalen jeweils nur zwei Klassen oder zwei Ausprägungen vorliegen, kann man ein abgekürztes Verfahren verwenden. Man erhält dann eine sog. a X a-Tafel oder Vierfeldertafel. 1. Merkmal 2. Merkmal 1 2
E
1
2
E
a b a+6 c d c+d a + c b + d a+b+c+d=n
Man berechnet sich aufgrund dieser Tabelle folgende Testgröße Xo, die ebenfalls approximativ x 2 -verteilt ist mit einem Freiheitsgrad. 2= Xo
n-jq-d-b-cf ( a + 6) (c + d ) - ( a + c)-(6 + d)
k
'
;
Diese Formel darf jedoch nur angewendet werden, wenn alle erwarteten Häufigkeiten (die in der Tabelle gar nicht mehr auftauchen und proportional den Randhäufigkeiten auszurechnen sind) größer als 4 sind und der Gesamtumfang größer als 50 ist. Selbst wenn diese Bedingungen erfüllt sind, ist der so durchgeführte Test nicht besonders exakt. Er hält das geforderte Signifikanzniveau a sogar bei einigermaßen großen zu erwartenden Häufigkeiten noch nicht ein, d.h. die Irrtumswahrscheinlichkeit 1. Art, also die Wahrscheinlichkeit, die Hypothese der Unabhängigkeit abzulehnen, obwohl sie richtig ist, ist in Wirklichkeit etwas größer als a . Es sollte deshalb nach Möglichkeit einer exakten Analyse der Vierfeldertafel mit dem Test von F I S H E R oder dem exakten X2-Test stets der Vorzug gegeben werden (siehe dazu Kapitel 12). Das Testschema zeigt Tab. 11.4. Beispiel: Es sollen zwei Medikamente A und B auf ihren Behandlungserfolg an insgesamt 200 Patienten getestet werden. Die Ergebnisse werden in folgender Vierfeldertafel zusammengefaßt: Medikament A B
E
ohne Erfolg 20 5 25
mit Erfolg 95 80 175
E
115 85 200
226
11
Test große:
2 Xu
x2'Tests
und Analyse von
Kontingenztafeln
n • (a - d — b • c)2 ~ (a + b) • (c + d) • (a + c) • (b + d)
H0:
Unabhängigkeit
Hi:
Ablehnung von HQ, wenn
Abhängigkeit
XL > XL,I-A
(Tab.
A.3)
Tabelle 11.4: x 2 -Test zum Prüfen einer Vierfeldertafel Die Nullhypothese lautet: Der Behandlungserfolg ist unabhängig vom verwendeten Medikament. Die Testgröße ist: 2 0 0 - ( 2 0 - 8 0 - 5-95) 2 = 25 175 115-85 Damit folgt: x 2 = 5.92 > 3.84 = Xio.95- f l e Unabhängigkeitshypothese wird abgelehnt. Das Medikament A hat also einen vom Medikament B signifikant (a = 5%) verschiedenen Behandlungserfolg und zwar ist B besser als A.
2 = Xo
Wenn man die Richtung eines vermuteten Größenunterschieds kennt, dann kann man sich vor dem Test auch zu einer einseitigen Alternative entscheiden. Ist also bekannt, daß z.B. ein Medikament auf keinen Fall schlechter sein kann als ein Placebo, dann kann der Test HQ : Medikament = Placebo gegen H\ : Medikament > Placebo erfolgen. Die Teststärke ist hier natürlich größer als im zweiseitigen Fall, d.h. ein vorhandener Unterschied wird bereits bei geringeren Unterschieden der Stichprobenwerte gesichert. Ist jedoch a priori nichts über die Wirkung bekannt (z.B. beim Vergleich zweier Medikamente) dann ist der zweiseitige Test anzuwenden. Die entsprechenden Fraktilen für den x 2 -Test bei der einseitigen Alternative ergeben sich aus: Peinseitig = 0.5 • Pzweiseitig
(11.6)
Ein Vergleich der x 2 -Fraktilen bei einem Freiheitsgrad liefert beispielsweise:
Fraktilen zweiseitig einseitig
Signifikanzniveau 10% 5% 2.5% 1% 0.1% 2.71 3.84 5.02 6.63 10.83 1.64 2.71 3.84 7.88 9.55
Kapitel 12 Exakte Analyse von Kontingenztafeln und exakte nichtparametrische Methoden Die Genauigkeit approximativer verteilungsfreier Tests wie z.B. des x 2 -Tests oder der KRUSKAL-WALLIS-Analyse läßt insbesondere bei schwach besetzten Kontingenztafeln oder auch bei einem hohen Anteil an Bindungen sehr zu wünschen übrig. Deswegen geht die moderne Statistiksoftware allmählich dazu über, Kontingenztafeln und auch andere nichtparametrische Tests nicht mehr ausschließlich approximativ mit Hilfe der x 2 - oder der Normalverteilung, sondern durch exakte Berechnung der Wahrscheinlichkeit des Auftretens der vorliegenden oder einer noch extremeren Besetzung der Kontingenztafel unter gegebenen Randhäufigkeiten bei Gültigkeit der Unabhängigkeitshypothese auszuwerten. Was dabei als extrem bezeichnet wird, hängt von der verwendeten Testgröße ab. Die exakte Wahrscheinlichkeit für das Auftreten einer bestimmten k x /-Tafel der Gestalt 2. Merkmal 1. Merkmal 1 2
I
2
Bn B21
B\2 B22
• •
i
Bn
Bi2
•
k
Bki
Bk2
• •
Bkj
.••
Bkl
Bk.
5.1
5.2
.
•
5;
.••
B.i
5. = n
E
•• • •
• •
/
j
E
By
• ..
flu
52j
•
•
B21
5i. 52.
••
5,1
Bi.
Bij
bei gegebenen Randhäufigkeiten ist im Falle der Unabhängigkeit beider Merkmale:
P(Tafel|Randhäufigkeiten) =
fc
(12.1)
nn*;'
i=ij=i
Im folgenden Abschnitt über Vierfeldertafeln wird an einem einfachen Beispiel, bei dem eine Randhäufigkeit fest ist, die Gültigkeit von Gleichung (12.1) gezeigt.
228
12
12.1
Exakte statistische
Tests
Prüfung der Unabhängigkeit zweier nominaler Merkmale
Exakte Tests zum Prüfen auf Unabhängigkeit zweier nominaler Merkmale können z.B. mit dem Statistikpaket StatXact allgemein für eine beliebige k x lKontingenztafel durchgeführt werden. Hier wird der Einfachheit halber nur 2 F I S H E R S exakter Test und der exakte x -Test anhand einer Vierfeldertafel geschildert. Dazu dient ein Beispiel mit relativ niedriger Besetzungszahl. Zwei Schützen schießen je 10 mal auf ein Ziel. Schütze A trifft dabei viermal und Schütze B achtmal. Es stellt sich nun die Frage, ob sich aufgrund dieses Ergebnisses schon statistisch nachweisen läßt (a = 0.05), daß B besser trifft als A. Mit anderen Worten: Ist die Wahrscheinlichkeit, das Ziel zu treffen, bei B höher als bei A (pg > PA)- Man vergleicht also zwei B E R N O U L L I Wahrscheinlichkeiten und testet HO : PA = PB gegen eine Alternative, die sinnvollerweise nur dann einseitig in der Form : PA < PB gewählt werden darf, wenn man vor dem Schießen schon vermutet, daß B besser trifft als A, weil er beispielsweise einem Schützenverein angehört. Ansonsten muß die zweiseitige Alternative H\ : PA ^ PB gewählt werden. Sie besagt, daß die Wahrscheinlichkeit zu treffen bei A und B verschieden ist, oder in der Sprache der Unabhängigkeitstests ausgedrückt, daß die Zahl der Treffer vom Schützen unabhängig ist. Mit StatXact kann man dieses Problem wie folgt lösen: Nach dem Aufruf mit dem Befehl sx erscheint das Hauptmenü.
(c)Copyright 1989-1991 CYTEL Software Corporation Cambridge,flA Uer 2.04a
»> Tft *
linearjrank
+ rxc
UIlcoxon_rank_i
ifumri ramigli
?'Isher
REd irectlDfìtaoutrflfl »B nraw runa nrm ank iTRend |NOraal_scores IFErrautation *
s_ZxZ
4-: HOmofl
In den untersten drei Zeilen werden die verfügbaren Befehle ausgegeben, bei
12.1
Prüfung der Unabhängigkeit
zweier nominaler
Merkmale
229
denen die Angabe der ersten beiden Buchstaben genügt. Mit » > TA wird der Table-Editor aufgerufen und jeweils zwei Reihen (ROWS) und Spalten (COLS) gewählt. Anschließend gibt man die Vierfeldertafel in folgender Form ein: «TABLES «ROUS 1 Z
«COLS Z
DISPLAV(E,R,C,T,N) SCORES(R,C,B,M) Hone None
Treffer A B TOTAL
I M Ä i 1Z
daneben
TOTAL
6
18
Z
19
8
28
E U
ds-ratio: 6.888 — — — — — — — — —
—
I=
1
cell(1,2) » cell(Z,l)
cel 1(1,1) « cell(Z,Z)
fllt-t)Transpose,tablesfllt-f)F1ip_rousHone)Top_panel 12.1.1
Esc)Done
F i s h e r s e x a k t e r Test
Mit dem Befehl » > FI EX wird der exakte Test v o n Fisher durchgeführt. FISHER'S EXACT TEST Statistics based on the observed 2x2 table (x): P(x) = Hypergeometric probability of the table = .7502E-01 FI(x) = Fisher statistic = 3.1599 Asympt. p-values: (based on Chi-squared distribution with 1 df) Two-sided: Pr{FI(X) .GE. 3.160} = .0755 One-sided: 0.5 * Two-sided = .0377 Exact p-values and point probabilities: Two-sided: Pr{FI(X) .GE. 3.160} = Pr{P(X) .LE. .7502E-01} = .1698 Pr{FI(X) .EQ. 3.160} = Pr{P(X) .EQ. .7502E-01} = .1500 •ne-sided: Let y be the value in Row 1 and Column 1 y = 4 min(Y) = 2 max(Y) = 10 mean(Y) = 6.000 std(Y)= 1.124 Pr{Y .LE. 4} = .0849 Pr{Y .EQ. 4} = .0750
12
230
Exakte statistische
Tests
Mit P(x) gibt StatXact die Wahrscheinlichkeit für das Auftreten der beobachteten Vierfeldertafel bei gegebenen Randhäufigkeiten und Gültigkeit der Unabhängigkeitshypothese aus. Es handelt sich also um eine bedingte Wahrscheinlichkeit. Die Bedingung ist, daß A und B je zehnmal schießen und insgesamt genau 12 Treffer erzielen. Die Wahrscheinlichkeit für das Auftreten dieser Tafel unter dieser Bedingung und unter der Annahme, daß beide Schützen gleich gut treffen, läßt sich mit dem Urnenmodell und der hypergeometrischen Verteilung leicht erklären: In einer Urne befinden sich N = 20 Kugeln. Davon haben M = 12 die Aufschrift „Treffer" und die anderen 8 die Aufschrift „daneben". A zieht nun n — 10 Kugeln ohne Zurücklegen. Die restlichen erhält B. Wie groß ist nun die Wahrscheinlichkeit, daß A dabei genau x = 4 „Treffer"-Kugeln zieht? Bezeichnet Y die Zahl der Treffer-Kugeln von A (wie im StatXact-Output), dann errechnet sich die Wahrscheinlichkeit, x Treffer zu landen, zu: (M\ \x J
(N - M\ \ n—x J
(12.2)
Für x = 4 (also 4 Treffer) gilt: 12 P (vy
= 4) = A l V W ' '20\
=
4!-8!-6!-2!-20!
=
0.07502
(12.3) v ;
10
Diese Wahrscheinlichkeit ist nun aber (übertragen auf das Zufallsexperiment mit den Schützen) genau die Wahrscheinlichkeit, daß A von 10 Schüssen genau viermal trifft unter der Bedingung, daß A und B zusammen genau zwölfmal treffen und gleiche Trefferwahrscheinlichkeiten haben. Zur hypergeometrischen Verteilung von Y gibt StatXact auch noch Minimum min(Y), Maximum max(Y), Erwartungswert meaii(Y) und Standardabweichung s t d ( Y ) an: A wie B müssen, da genau 12 Treffer-Kugeln vorhanden sind, je mindestens 2 und höchstens 10 Treffer-Kugeln ziehen (vgl. min(Y) = 2 und max(Y) = 10 im Output). Der Erwartungswert der Treffer-Kugeln von A (und auch von B) n•M 10-12 _ , , , . x , . , , •• . •i r •, ist ——— = ——— = 6 (vgl. mean(Y) = 6), da jeder Schutze gleich oft zieht und 12 Treffer-Kugeln vorhanden sind. Mit std(Y) = 1.124 gibt StatXact die
12.1
Prüfung der Unabhängigkeit zweier nominaler
Merkmale
231
Standardabweichung von Y an. Die Varianz der hypergeometrischen Verteilung berechnet sich mit der Formel:
(12.4)
Durch Wurzelziehen erhält man die angegebene Standardabweichung 1.124 für y. Die von StatXact ausgegebene FISHER-Testgröße F I lautet: FI — —2 • ln(7 • P(x)),
(12.5)
wobei P{x) obige Wahrscheinlichkeit für das Auftreten der vorliegenden Vierfeldertafel unter gegebenen Randhäufigkeiten ist. 7 läßt sich im Fall einer 2 x 2 Kontingenztafel noch relativ einfach durch
(12.6)
ausdrücken und ist eine nur von den Randhäufigkeiten abhängige Konstante, die lediglich dafür sorgt, daß die FLSHER-Testgröße asymptotisch x 2 -verteilt ist (hier mit einem Freiheitsgrad). Für die Berechnung der exakten p-Werte ist diese Testgröße jedoch nicht wesentlich. Vergleicht man nun die asymptotischen mit den exakten p-Werten, so fällt einem unweigerlich ins Auge, daß sie sich gewaltig unterscheiden. Der exakte p-Wert ist mehr als doppelt so groß wie der asymptotische. Das einseitige Testen zum 5%-Niveau, ob B besser ist als A, erbrächte mit dem asymptotischen p-Wert 0.0377 schon eine Signifikanz, während der exakte einseitige p-Wert 0.0849 aussagt, daß man auf dem 5%-Niveau nicht statistisch nachweisen kann, daß B besser ist als A. Den exakten einseitigen p-Wert findet man im StatXactOutput bei Pr{Y .LE. 4}. Dies ist die Wahrscheinlichkeit, daß, falls A und B gleich gut sind, A höchstens viermal trifft bei gegebenen Randhäufigkeiten (jeder hat 10 Schuß und beide Schützen erzielen zusammen genau 12 Treffer). Es ist also die Wahrscheinlichkeit des Auftretens der vorhandenen Vierfeldertafel oder einer noch extremeren. Das FISHER-Prinzip zur Berechnung des exakten zweiseitigen p-Werts beruht auf der Berechnung der Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese unter gegebenen Randhäufigkeiten die beobachtete Kontingenztafel oder eine
232
12
Exakte statistische Tests
noch unwahrscheinlichere (d.h. eine Tafel mit noch kleinerem P(x)) vorzufinden. Noch unwahrscheinlicher ist im Schützen-Beispiel, daß A nicht viermal, sondern nur dreimal trifft, aber auch, daß B (Zufallsgröße Z) nur dreimal trifft, was bedeuten würde, daß A neunmal trifft. Das heißt nun: exakter zweis. p-Wert = P(Y = 4) + P(Y = 3) + P(Y = 2 ) + +P(Z = 4) + P(Z = 3) + P(Z = 2) = = 2 • (P(Y = 4) + P(Y = 3) + P(Y = 2))
(12.7)
Die einzelnen Summanden lassen sich mit der hypergeometrischen Verteilung berechnen (vgl. (12.2)). Bei der Berechnung des einseitigen exakten p-Werts werden nur die Wahrscheinlichkeiten von Y = 4 bis zu Y = 2 aufsummiert. Der zweiseitige exakte p-Wert ist hier deswegen genau doppelt so groß (nämlich 0.1698) wie der einseitige, da A und B gleich oft schießen, X und Y also bei Gültigkeit der Nullhypothese gleiche Verteilungen haben. Je kleiner die Wahrscheinlichkeit P(x) der vorhandenen Tafel, umso kleiner ist auch der zweiseitige exakte p-Wert, also die Wahrscheinlichkeit für das Auftreten der vorhandenen oder einer noch unwahrscheinlicheren Tafel. Die FISHERTestgröße FI — —2 • ln(7 • -P(z)) in (12.5), deren Minuszeichen die Größenverhältnisse umdreht, ist dann umso größer, je kleiner P(x) ist. Damit läßt sich die Berechnung des zweiseitigen exakten p-Wert mittels FISHER-Testgröße auch anders formulieren: Der zweiseitige exakte p-Wert entsteht durch Aufsummierung der bedingten Wahrscheinlichkeiten aller Tafeln (unter Ho), deren FLSHER-Testgröße FI mindestens den Wert der FISHER-Testgröße der beobachteten Kontingenztafel, also den Wert 3.1599 (gerundet 3.160) hat. Es wird also die exakte Wahrscheinlichkeit Pr{FI (X) . GE. 3 . 1 6 0 } berechnet (. GE. bedeutet greater or equal, d.h. > ) . mit dieser Bezeichnung gibt aber StatXact den asymptotischen p-Wert an, der aufgrund der asymptotischen x 2 -Verteilung der FLSHER-Testgröße berechnet wird. Die Zahl der Freiheitsgrade zu dieser X2Verteilung beträgt bei einer Vierfeldertafel 1, bei einer k x /-Kontingenztafel allgemein (k — 1)(/ — 1).
12.1 12.1.2
Prüfung der Unabhängigkeit
zweier nominaler
Merkmale
233
D e r exakte * a -Test
StatXact bietet nicht nur den exakten Test von F I S H E R , sondern auch den exakten x 3 -Test an, der mit dem Kommando » > CH EX aufgerufen wird und für das Schützenbeispiel aus Abschnitt 12.1.1 folgendes Ergebnis bringt:
PEARSON CHI-SQUARED TEST Statistic based on the observed 2x2 table (x): CH(x) = Pearson's Chi-squared stat. = 3.333 (1.875 with Yates CC) Asympt. p-values: (based on Chi-squared distribution with 1 df) Two-sided: Pr{CH(X) .GE. 3.333} = .0679 (.1709 with Yates CC) One-sided: 0.5 * Two-sided = .0339 Exact p-value and point probability: Two-sided: Pr{CH(X) .GE. 3.333} = .1698 Pr{CH(X) .EQ. 3.333} = .1500 One-sided: Let y be the value in Row 1 and Column 1 y = 4 min(Y) = 2 max(Y) = 10 mean(Y) = 6.000 std(Y) = 1.124 Pr{Y .LE. 4} = .0849 Pr{Y .EQ. 4} = .0750 Die in Kapitel 11 eingeführte gewöhnliche x 2 -Testgröße Xo ( c H(x) im Output) bei dieser Vierfeldertafel ist also mit dem Wert 3.333 noch ein wenig größer als die Testgröße von F I S H E R . Damit werden die asymptotischen p-Werte noch kleiner (z.B. zweiseitig 0.0679) und sind von den exakten p-Werten noch weiter entfernt. StatXact bietet aber, wenn es sich um die Verteilung mit nur einem Freiheitsgrad handelt, auch noch die Stetigkeitskorrektur v o n Yates an, welche im O u t p u t mit Yates CC bezeichnet ist. Mit dieser korrigierten Testgröße wird insbesondere in der Genetik gerechnet. Sie unterscheidet sich von der gewöhnlichen Testgröße nur durch die Subtraktion von 0.5 vom Betrag der Differenz aus beobachteten und erwarteten Häufigkeiten und lautet: (12.8)
Sie ist dadurch kleiner als die gewöhnliche Testgröße, die j a viel zu liberal ist, d.h. das geforderte Signifikanzniveau nicht einhält. Ihr zweiseitiger p-Wert 0.1709 trifft den exakten p-Wert 0.1698 schon sehr gut, obwohl der Gesamtstichprobenumfang nur N = 20 beträgt. Verkleinert man aber diesen Umfang
234
12
Exakte statistische
Tests
auf etwa N = 11, kann auch die YATES-Korrektur versagen. Bei einer Kontingenztafel der Form 5 0 5
2 4 6
7 4 11
erhält m a n mit der gewöhnlichen x 2 -Testgröße den Wert Xo — 5.238 und einen dazugehörigen zweiseitigen asymptotischen p-Wert von 0.0221. Die Testgröße mit der YATES-Korrektur ist 2.753, woraus sich ein erheblich größerer p-Wert von 0.0971 ergibt. Beide p-Werte treffen den wahren exakten zweiseitigen pWert von 0.0606 aber nur äußerst schlecht. Der exakte zweiseitige p-Wert errechnet sich beim x 2 -Test vom Prinzip her ähnlich wie beim exakten Test von FISHER. Es wird die Wahrscheinlichkeit berechnet, bei Gültigkeit der Nullhypothese unter gegebenen Randhäufigkeiten eine Vierfeldertafel vorzufinden, bei der die x 2 -Testgröße mindestens den Wert der x 2 -Testgröße der beobachteten Vierfeldertafel hat. Diese Berechnung läuft wieder über die hypergeometrische Verteilung und bringt bei einer Vierfeldertafel, bei der wie im Schützenbeispiel (jeder schießt zehnmal) mindestens eine Randhäufigkeit balanziert ist, den gleichen p-Wert von 0.1698 wie beim Test v o n FISHER.
Bei einer allgemeinen k x /-Kontingenztafeln mit mehr als vier Feldern oder auch bei einer Vierfeldertafel mit beiderseits unbalanzierten Randhäufigkeiten können aber diese Testgrößen (x2, FISHER) auch in bezug auf die exakten pWerte durchaus unterschiedliche Ergebnisse bringen. Es sollte hier der exakte Test von FISHER dem exakten x 2 -Test vorgezogen werden.
12.2
12.2 12.2.1
Unabhängigkeit ordinaler Merkmale von nominalen Merkmalen
235
Prüfung der Unabhängigkeit eines ordinalen Merkmals von einem nominalen Merkmal Der exakte Kruskal-Wallis-Test
Der KRUSKAL-WALLIS-Test aus Kapitel 10.4 ist bekannter als Alternative zur klassischen einfaktoriellen Varianzanalyse, wenn diese aufgrund von Stichproben aus nichtnormalverteilten Grundgesamtheiten nicht angewendet werden kann. Er kann jedoch auch zur Prüfung auf Unabhängigkeit zweier Merkmale verwendet werden, wenn ein Merkmal ordinal ist. Letztendlich bedeutet doch beides dasselbe, da in die KRUSKAL-WALLIS-Analyse selbst dann, wenn ein metrisches Merkmal vorliegt, nicht die Werte selbst, sondern nur noch ihre Ränge eingehen. Das metrische Merkmal wird also wie ein ordinales behandelt. Fragestellungen wie „Unterscheiden sich vier Pferderassen bzgl. des Wurmbefalls?" (varianzanalytische Frage) oder „Ist der Wurmbefall der Pferde (hier: ordinales Merkmal) von der Rasse (nominales Merkmal) abhängig?" (Unabhängigkeitstest), unterscheiden sich nicht inhaltlich, sondern nur in der Art der Formulierung. Dabei spielt es auch keine Rolle, ob der Wurmbefall mit einer Maßeinheit gemessen messen oder nur mit stark - mittel - gering klassifiziert wird. Es wird damit nur die Zahl der Merkmalsausprägungen des wie ordinal behandelten Merkmals Wurmbefall beeinträchtigt. Im Vergleich zum x 2 -Test, der hier weniger geeignet ist, aber trotzdem häufig angewendet wird, wird die KRUSKAL-WALLIS-Analyse dann besonders mächtig, wenn sich die Tatsache, daß der Befall hier ein ordinales und kein nominales Merkmal ist, in den Stichproben der einzelnen Rassen auch in geordneter Weise niederschlägt, also in der Weise, daß in der Stichprobe einer wenig befallenen Rasse viele Pferde mit geringem Befall, „mittelviele" mit mittlerem Befall und nur wenige mit starkem Befall vorkommen, während in der Stichprobe einer stark befallenen Rasse sich die Häufigkeiten entgegengesetzt verhalten. Der Befehl » > KW EX von StatXact liefert die KRUSKAL-WALLis-Analyse mit exakter p-Wert-Berechnung. Dazu folgendes Beispiel mit nur wenigen Daten:
12
236
•TABLES 1
«ROUS 4
«COLS 3
Exakte statistische
DISPLAό.R.C.T.M) SC0RES(R,C.B.N) Mone Mone
stark
mittel
gering
TOTAL
Rasse 1
0
Z
3
5
Rasse Z
3
Z
0
5
Rasse 3
Z
Z
1
5
Rasse 4
0
1
TOTAL
5
7
ft I t-t ) Traiispose,tab les
K
M 8
Hone )Top_pa nel
Tests
flüöBn
5 ze
Esc) Done
KRUSKAL-WALLIS TEST [That the 4 rows are identically distributed] Statistic based on the observed 4 by 3 table (x): KW(x) = Kruskal-Wallis statistic = 9.909 Asymptotic p-value: (based on Chi-squared distribution with 3 df) Pr {KW(X) .GE. 9.909} = .0194 Exact p-value and point probability: Pr -CKW(X) .GE. 9.909} = .0128 Pr {KW(X) .Eq. 9.909} = .0036
Die in Kapitel 10.4 eingeführte KRUSKAL-WALLls-Testgröße H wird im StatXact-Output mit KW(x) bezeichnet. Sie ist bei Gültigkeit der Nullhypothese, daß der Wurmbefall nicht von der Rassenzugehörigkeit abhängt, asymptotisch X 2 -verteilt mit ¿ — 1 = 3 Freiheitsgraden, also mit einem Freiheitsgrad weniger als die Zahl der zu vergleichenden Grundgesamtheiten, die im Beispiel die verschiedenen Pferderassen sind. Der asymptotische p-Wert 0.0194 zu diesem Test errechnet sich somit als die Wahrscheinlichkeit, daß eine x 2 -verteilte Zufallsvariable mit k — 1 Freiheitsgraden mindestens den Wert der K R U S K A L WALLis-Testgröße, der im Beispiel 9.909 ist, annimmt. Der exakte p-Wert 0.0128 zu diesem Test ist die exakte Wahrscheinlichkeit bei Gültigkeit der Nullhypothese, unter gegebenen Randhäufigkeiten eine Kontingenztafel zu erhalten, deren KRUSKAL-WALLIS-Testgröße mindestens den Wert
12.2
Unabhängigkeit
ordinaler Merkmale von nominalen Merkmalen
237
der KRUSKAL-WALLIS-Testgröße der beobachteten Kontingenztafel annimmt. Es werden also zur exakten p-Wert-Berechnung im Beispiel die durch die gegebenen Randhäufigkeiten bedingten Wahrscheinlichkeiten (vgl. (12.1)) aller Kontingenztafeln aufsummiert, deren KRUSKAL-WALLIS-Testgröße mindestens den Wert 9.909 aufweisen. Ein Vergleich der KRUSKAL-WALLIS-Analyse mit den Unabhängigkeitstests bei nominalen Merkmalen erfolgt anhand folgender p-Wert-Tabelle: Test KRUSKAL-WALLIS FISHER
X2
asymptotischer p-Wert 0.0194 0.1355 0.0938
exakter p-Wert 0.0128 0.1075 0.0916
Während der KRUSKAL-WALLIS-Test einen fast schon hochsignifikanten Unterschied bzgl. des Wurmbefalls der vier Rassen zeigt, bringen die anderen Tests, die hier weniger geeignet sind, nur einen exakten p-Wert von ca. 10%. Besonders beachten sollte man hier auch noch die teils recht großen Unterschiede zwischen asymptotischen und exakten p-Werten, die doch recht deutlich auf die Notwendigkeit exakten Testens bei Kontingenztafeln mit nur kleinen Besetzungszahlen hinweisen. Es kann natürlich auch sein, daß beim Vergleich der Pferderassen der x 2 -Test eine Signifikanz zeigt und der KRUSKAL-WALLIS-Test nicht. Dies ist dann der Fall, wenn alle vier Rassen im Mittel etwa gleichen Wurmbefall aufweisen, aber beispielsweise bei Rasse 2 und 3 die meisten Pferde mittleren Befall haben und die anderen zwei Rassen 1 und 4 mehr ins Extreme gehen: Ein Teil der Pferde dieser beiden Rassen hat geringen Befall, ein anderer dafür starken, im Durchschnitt haben aber auch diese beiden Rassen mittleren Befall, so daß alle vier Rassen im Mittel mittleren Befall haben und der KRUSKAL-WALLISTest keine signifikanten Unterschiede feststellen kann, was auch richtig ist. Die Tests auf Unabhängigkeit bei nominalen Merkmalen, die die Ordnung gering - mittel - stark nicht berücksichtigen, würden hier in der Regel sehr wohl einen signifikanten Unterschied zeigen, denn sie behandeln beispielsweise eine Kontingenztafel der Form
Rasse Rasse Rasse Rasse genauso wie
1 2 3 4
stark 5 1 1 4
mittel 0 7 8 1
gering 5 2 1 5
12
238
Rasse Rasse Rasse Rasse
1 2 3 4
stark 0 7 8 1
mittel 5 1 1 4
Exakte statistische
Tests
gering 5 2 1 5
In der zweiten Tafel sind die Zahlen der ersten beiden Spalten vertauscht. Es ist eindeutig erkennbar, daß Rassen 2 und 3 viel stärker befallen sind als die Rassen 1 und 4, was hier auch die KRUSKAL-WALLIS-Rangvarianzanalyse feststellen würde. 12.2.2
Der Wilcoxon-Rangsummentest
Wenn bei der KRUSKAL-WALLIS-Analyse das nominale Merkmal nur zwei Ausprägungen hat, ist diese äquivalent zum WLLCOXON-Rangsummentest (vgl. Kapitel 10.3). Der WlLCOXON-Rangsummentest vergleicht also zwei Grundgesamtheiten mittels unabhängiger Stichproben und läßt im Gegensatz zum KRUSKAL-WALLIS-Test auch einseitiges Testen zu. Im folgenden Beispiel werden die Fleischpreise zweier Städte verglichen. Zur Eingabe der Fleischpreise wird hier der StatXact-Case-Editor verwendet, den m a n mit » > CA aufruft. Bei Row Value teilt man StatXact mit, zu welcher Stadt der in Col Value stehende Fleischpreis gehört. Unter #Copies wird die Anzahl gleicher Beobachtungen eingegeben. STRATIFIED C5f/M): N
CENSORED COPIES (K/H): N (¥/H): *
ID
Ron Ualue
Col Ualue
«Copies 0 to 999991
ID001
1
19.90
ID002
1
17.90
ID003
1
19.50
Z
IDÖ01
Z
19.90
Z
IDO05
Z
20.90
ID006
z
21.90
Z
ID0G7 ID008 II
Hone)Top_panel
EscJDone
Neben dem geringen Stichprobenumfang pro Stadt (nx = 5, ny = 4) ist hier vor allem der für Preise typische hohe Anteil an Bindungen erwähnenswert.
12.2
Unabhängigkeit
ordinaler Merkmale
von nominalen
Merkmalen
239
Mit » > WI EX ruft man den exakten Wilcoxon-Test auf, der folgenden O u t p u t liefert: WILCOXON RANK SUM TEST [1 2 by 5 informative table and sun of scores from rov "1"] Summary of Exact distribution of WILCOXON RANK SUM statistic: Min Max Mean 17.00 33.50 25.00 Mann-Whitney Statistic =
Std-dev 3.891 2.000
Observed 17.00
Standardized -2.056
Asymptotic Inference: One-sided p-value: Pr{Test Statistic .LE. Observed} = .0199 Two-sided p-value: 2 * One-sided = .0398 Exact Inference: One-sided p-value: Pr{Test Statistic .LE. Observed} = Point probability: Pr{Test Statistic .Eq. Observed} = Two-sided p-value: Pr{|Test Statistic - Mean I .GE. I Observed - Mean I} = Two-sided p-value: 2 * One-sided =
.0476 .0476 .0794 .0952
StatXact berechnet den Wert der Mann-Whitney-Statistik bei Stadt 1. Die exakten p-Werte können nicht nur mit den asymptotischen vergleichen werden, die durch die Standardisierung Standardized=(Observed-Mean)/Std-dev mit Hilfe der Standardnormalverteilung gewonnen werden und viel zu klein ausfallen (z.B. einseitig: 0.0199), sondern auch mit den Tabellenwerten zum WlLCOXON-Rangsummentest, die nur dann exakte p-Werte sind, wenn keine Bindungen auftreten. Bei u = 2, nx = 5 und ny = 4 liest man in Tab. A.8 einen einseitigen p-Wert von 0.032 ab, der zwar schon genauer als der asymptotische ist, aber immer noch zu klein ausfällt. Der wahre einseitige p-Wert ist immerhin eineinhalb mal so groß, nämlich 0.0476. Besonders auffällig ist noch, daß zwei zweiseitige exakte p-Werte ausgegeben werden. Man sollte hier den doppelten einseitigen p-Wert 0.0952 ignorieren und nur den zweiseitigen p-Wert, der im StatXact-Output mit Pr{ I Test Statistic - Meanl
.GE. lObserved - M e a n I } bezeichnet ist u n d den Wert
0.0794 hat, als wahren exakten zweiseitigen p-Wert betrachten. Dieser p-Wert ist nie größer als der doppelte einseitige exakte p-Wert und stimmt auch immer mit dem exakten p-Wert des KRUSKAL-WALLIS-Tests überein, der im Falle einer zweiseitigen Alternative genauso angewandt werden kann. Wären in den
240
12
Exakte statistische
Tests
Daten keine Bindungen vorhanden, so wären die beiden von StatXact errechneten zweiseitigen exakten p-Werte gleich groß, da dann die als gegeben betrachteten unteren Randhäufigkeiten, die aus lauter Einsen bestehen würden, zuließen, daß die MANN-WHITNEY-Testgröße Ux von 0 bis nx • ny alle Werte annehmen könnte. Die Testgröße Ux, die als die Anzahl der Paare, bei denen der x-Wert (Stadt 1) größer als der y-Wert (Stadt 2) ist, wobei Paare mit Gleichheit zur Hälfte gezählt werden, interpretiert werden kann, wäre dann 71 71 auch u m den Erwartungswert 1' y symmetrisch verteilt. Im Beispiel treten aber Bindungen auf. Die Mann-Whitney-Testgröße Ux kann nun auch halbzahlige Werte, aber nicht mehr alle ganzzahligen Werte von 0 bis 20 annehmen. Z.B. kann der Wert 0 (entspricht 15 bei der W I L C O X O N Statistik) nicht auftreten. Schließlich liegen im Beispiel alle x-Werte so weit links wie unter den gegebenen Randhäufigkeiten nur möglich, und trotzdem erhält man aufgrund vier möglicher Paare (x,-, yj) mit x,- = yj bei der WlLCOXON-Rangsummen-Statistik den Wert wx — 17 (vgl. Observed und Min im StatXact-Output), der dem MANN-WHITNEY-Wert ux = ^ - ( 1 + 2 + 3 + 4 + 4 5) = 2 = - , also einem von 0 verschiedenen Wert entspricht.
1+2+3+4+5
ist dabei die ohne Bindungen mögliche minimale Rangsumme. Der p-Wert zur einseitigen Alternative H\ : xo.s < yo.5, d.h. die Preise der Stadt 1 sind niedriger als die der Stadt 2, errechnet sich zu einseitiger p-Wert = P(UX < 2) = P(UX = 2) = (12.9)
und sichert somit diese einseitige Alternative statistisch zum 5%-Niveau. Der exakte p-Wert zur zweiseitigen Alternative x50% ^ yso%, d.h., die Fleischpreise der beiden Städte unterscheiden sich, wäre im Fall ohne Bindungen einfach das doppelte des einseitigen. Eine derartige Berechnung wird von StatXact auch im Fall mit Bindungen angeboten, obwohl sie da nicht sinnvoll ist; denn den zweiseitigen p-Wert berechnet man durch die Wahrscheinlichkeit, daß die Testgröße den beobachteten Wert oder einen mindestens so extremen Wert annimmt. Er trägt im StatXact-Output die Bezeichnung P r { | T e s t S t a t i s t i c - Meanl .GE. I Observed - Meanl} Im Beispiel wäre der zweiseitige exakte p-Wert die Wahrscheinlichkeit, daß Ux höchstens den beobachteten Wert 2 oder mindestens den Wert 18 annimmt, da solche Werte u m den Erwartungswert 10 (entspricht Mean = 10 + (1 + 2 + 3 + 4 + 5) = 25 der WLLCOXON-Statistik)
12.2
Unabhängigkeit
ordinaler Merkwale von nominalen Merkmalen
241
am meisten, nämlich mindestens um 8 abweichen. Nun kann aber selbst dann, wenn sich die Preise beider Städte bei gegebenen Randhäufigkeiten auf die andere Seite extrem realisieren, Ux von den Werten > 1 8 nur den Wert 18.5 erreichen, wodurch Ux die Symmetrie um 10 verliert, was zur Folge hat, daß der exakte zweiseitige p-Wert kleiner als das Doppelte des einseitigen ist, denn zum einseitigen p-Wert P(UX = 2) = 0.0476 wird dann nur noch eine kleinere Wahrscheinlichkeit P(UX = 18.5) hinzuaddiert (18.5 ist nämlich weiter vom Erwartungswert 10 entfernt als 2), wonach sich dann der exakte zweiseitige pWert zu 0.0794, also kleiner als der doppelte einseitige errechnet, der den Wert 0.0952 hat.
12
242
12.3
Exakte statistische
Tests
Überblick über exakte Tests mit StatXact
S t a t X a c t unterteilt die Analyse von Kontingenztafeln in: • Lineare Rangtests (für eine oder mehrere 2 x /-Kontingenztafeln) • k x /-Kontingenztafeln • geschichtete 2 x 2-Kontingenztafeln • Ein-Stichproben-Tests
12.3.1
Lineare Rangtests
Die linearen Rangtests vergleichen zwei Grundgesamtheiten bzgl. eines ordinalen Merkmals mit / verschiedenen beobachteten Ausprägungen (oder auch mehrere Grundgesamtheiten bzgl. eines Merkmals mit zwei Ausprägungen), wobei eine Unterteilung der Grundgesamtheiten in mehrere Schichten möglich ist (z.B. Berücksichtigung eines Blockeffekts). Wenn geschichtet wird, muß für j e d e Schicht eine eigene Kontingenztafel angelegt werden. Bei der Eingabe dieser Tafeln in S t a t X a c t gelangt man nach Eingabe der Anzahl der Kontingenztafeln im Kopf des Table-Editors mit der Tabulator-Taste von einer Tafel zur anderen. Diese Tests heißen linear, weil sich die Testgröße als Linearkombination der Scores, die beim WlLCOXON-Test den Rängen (bei Bindungen: Rangmittelwerten) entsprechen, mittels Gewichtung durch die Beobachtungszahlen der einzelnen Felder der Kontingenztafel zusammensetzt. Als Alternative zum WlLCOXON-Rangsummen-Test bietet S t a t X a c t den N o r m a l - S c o r e s - T e s t oder v a n d e r W a e r d e n - T e s t an, der a n s t a t t der Ränge die Scores der Standardnormalverteilung benutzt und somit bei normalverteilten Grundgesamtheiten mit gleicher Varianz 1 0 0 % asymptotische Effizienz hat, während der WlLCOXON-Rangsummen-Test hier 9 5 . 5 % aufweist, aber dem Normal-Scores-Test bei Verteilungen mit dickeren Schwänzen überlegen ist. Handelt es sich bei dem zu vergleichenden Merkmal um Uberlebenszeiten, so empfiehlt sich der L o g r a n k - T e s t , der wiederum andere Scores verwendet. Gerade bei solchen Daten ist es sehr vorteilhaft, daß S t a t X a c t auch für zensierte Daten konzipiert ist, denn wenn ein Versuchsobjekt die Beobachtungszeit überlebt, resultiert ein zensiertes D a t u m . Man kennt dann die Überlebenszeit nicht, m a n weiß nur, daß sie mindestens so lang wie die Dauer der Beobachtung ist. Mit Hilfe wieder anderer Scores ist der T r e n d - T e s t oder C o c h r a n - A r m i t a g e T e s t konstruiert. E r dient zum Vergleich mehrerer Grundgesamtheiten, die in eine Ordnung gebracht werden können, bzgl. eines Merkmals mit zwei Ausprägungen (Vergleich von Erfolgswahrscheinlichkeiten bei Binomialverteilungen). Solche Grundgesamtheiten sind z.B. Schulklassen von Gymnasien. Bezüglich der Klassenhöhe 5 - 1 3 sind diese Grundgesamtheiten geordnet. Als Merkmal
12.3
Überblick über exakte Tests mit Sta.tXa.ct
243
kann man das Erreichen des Klassenziels betrachten, da dieses mit „erreicht" oder "nicht erreicht" nur zwei Ausprägungen hat. Es läßt sich nun aufgrund einer Stichprobe mit Hilfe des Trend-Tests die Hypothese, daß die Wahrscheinlichkeit, das Klassenziel zu erreichen, bei allen Klassen gleich ist, gegen beispielsweise die einseitige Alternative testen, daß, je höher die Klasse ist, umso mehr Schüler das Klassenziel verfehlen. Der Trend-Test beantwortet hier die Frage, ob bei zunehmender Klassenhöhe ein „Trend" zum Verfehlen des Klassenziels besteht. Er scheint, da er mehr als zwei Grundgesamtheiten betrachtet, gegenüber den anderen linearen Rangtests aus der Reihe zu fallen. Jedoch läßt er sich leicht in einen Vergleich zweier Grundgesamtheiten umformulieren. Im Beispiel läßt sich schließlich die zu testende Frage: „Verfehlen mit der Höhe der Jahrgangsstufe zunehmend mehr Schüler das Klassenziel?" genausogut so formulieren: „Entstammen die Schüler, die das Klassenziel nicht erreichen, i.a. einer höheren Jahrgangsstufe als die Schüler, die das Klassenziel erreichen?". Diese Fragestellung entspricht wie auch bei den bisherigen linearen Rangtests einem Vergleich zweier Grundgesamtheiten (Schüler, die das Klassenziel erreicht haben und Schüler, die es nicht erreicht haben) bzgl. eines ordinalen Merkmals (Klassenzahl). Der so formulierte Test wird dann auch M a n t e l H a e n s z e l - T e s t genannt, der als Scores die Menge der natürlichen Zahlen hat. Schließlich kann in StatXact der Benutzer auch eigene Scores wählen. Dazu muß er den Permutationstest aufrufen. Der Permutationstest oder Randomisierungstest ist ein äußerst rechenaufwendiges Verfahren. Es betrachtet alle möglichen Permutationen der beobachteten Daten oder entsprechender Scores dieser Daten (z.B. die Ränge) und berechnet jeweils die Testgröße. Dadurch wird die Verteilung der Testgröße konstruiert und es lassen sich exakte Überschreitungswahrscheinlichkeiten ableiten. Bei größeren Stichprobenumfängen wird die Leistungsgrenze des Computers schnell überschritten und man muß sich in diesen Fällen mit sog. M o n t e Carlo-Methoden behelfen, d.h. man berechnet nur einen zufälligen Teil aller möglichen Randomisationen bzw. Permutationen. Durch eine geschickte Wahl der Scores kann man Tests konstruieren, die eine große Macht oder Power zur Differenzierung von Nullund Alternativhypothese besitzen. 12.3.2 fc X Z-Kontingenztafeln Bei der allgemeinen Analyse von k x /-Kontingenztafeln ist Schichtung wie bei den linearen Rangtests nicht mehr möglich. Man kann hier immer nur eine Kontingenztafel statistisch auswerten. Als Unabhängigkeitstests zweier nominaler Merkmale wurden in Abschnitt 12.1 bereits der exakte Test von F I S H E R , der hier empfohlen wird, und der exakte X2-Test vorgestellt. Es existiert hierzu noch ein weiterer Test, und zwar der Likelihood-Ratio-Test. Die hierzu verwendete Testgröße beruht auf dem
244
12
Exakte statistische
Tests
Prinzip des Maximum-Likelihood-Quotienten-Tests, auf das hier nicht näher eingegangen wird. Der in Abschnitt 12.2 vorgestellte KRUSKAL-WALLIS-Test prüft die Unabhängigkeit zweier Merkmale, wenn ein Merkmal nominal und das andere ordinal ist. Nun kann es aber auch sein, daß sogar beide Merkmale ordinal sind, wenn man beispielsweise Schulklassen von Gymnasien bzgl. ihrer Abwesenheit vergleicht. Dann ist das erste Merkmal Klassenzugehörigkeit im Gegensatz zum Merkmal Rassenzugehörigkeit im Beispiel mit den vier Pferderassen (Abschnitt 12.2) ordinal und das zweite Merkmal, die Zahl der Abwesenheitstage, ebenfalls ordinal. Zum Prüfen der Unabhängigkeit zweier ordinaler Merkmale bietet StatXact den Jonckheere-Terpstra-Test, der als Summe aller paarweisen W I L C O X O N Rangsummenstatistiken der zu vergleichenden Grundgesamtheiten (Schulklassen) entsteht, sowie den Linear-by-Linear-Association-Test an. Letzterer ist nicht so robust gegenüber Ausreißern wie der J O N C K H E E R E - T E R P S T R A Test. Beim Linear-by-linear-Association-Test können wie beim PermutationsTest in Abschnitt 12.3.1 die Scores frei gesetzt werden. Dadurch kann er durch geschicktes Setzen der Scores besonders mächtig werden. Allerdings besteht auch hier die Möglichkeit zur Manipulation. Beide Tests lassen einseitiges Testen zu. Der McNemar-Test und dessen Verallgemeinerung auf mehr als zwei Merkmalsausprägungen, der marginale Homogenitätstest, betrachten im Gegensatz zu den linearen Rangtests in Abschnitt 1 2 . 3 . 1 verbundene Stichproben. Sie sind neben dem WILCOXON-Vorzeichenrangtest, der in Kap. 10.8 und bei StatXact zu den Einstichproben-Tests zählt, das verteilungsfreie Analogon zum verbundenen ¿-Test. Beide Tests werden mit dem gleichen Kommando » > MC aufgerufen. 12.3.3
Geschichtete 2 X a-Kontingenz tafeln
Der Homogenitäts-Test prüft, ob die verschiedenen Vierfeldertafeln alle ein gemeinsames Chancenverhältnis (Odds Ratio) Q R =
Pi/(l-Pi)
(1210)
.012 * $21 haben. Dieses Chancenverhältnis wird geschätzt durch — - — . Es ist auch B11B22 als ein gewisses Unabhängigkeitsmaß interpretierbar, das im Falle der Unabhängigkeit den Wert 1 hat. Der Odds-Ratio-Test testet, ob das allen Kontingenztafeln gemeinsame Chancenverhältnis den Wert 1 hat und berechnet auch Konfidenzintervalle dafür. Durch Zerlegen einer 2 x /-Tafel in / — 1 2 x 2-Tafeln, indem jeweils die erste und j-te ( j = 2,..., 1) Spalte der 2 x /-Tafel herausgegriffen wird, werden diese Tests auch auf 2 x /-Tafeln erweitert.
12.3 12.3.4
Überblick über exakte Tests mit
StatXact
245
Ein-Stichproben- Tests
Um Ein-Stichproben-Tests durchführen zu können, muß man in StatXact erst durch sukzessive Eingabe der Befehle » > AD und » > ON in das Ein-Stichproben-Modul gelangen. Die Daten können im Table-Editor als 1 x /-Kontingenztafel oder im Case-Editor in der Form, daß der Row Value für alle Daten den gleichen Wert hat, eingegeben werden. Ein exaktes Konfidenzintervall für den Parameter der Erfolgswahrscheinlichkeit p einer Binomialverteilung bekommt man am leichtesten über die Eingabe im Table-Editor. Erzielt Schütze A bei 10 Schüssen vier Treffer, so muß man nur die 1 x 2-Kontingenztafel (6,4) eingeben (6 ist die Zahl der Fehlschüsse), um mit dem Befehl » > BI das exakte 95%-Vertrauensintervall V.l.{0.1216 SE OD . 99 das Konfidenzniveau auf 99% gestellt werden. Mit dem Wilcoxon-Vorzeichenrangtest oder Wilcoxon-Pratt-Test (vgl. auch Kap. 10.8) prüft man genaugenommen nicht nur, ob die Grundgesamtheit den Median 0 hat, sondern noch zusätzlich, ob sie auch symmetrisch verteilt ist. Die symmetrische Verteilung wird oft als Modellvoraussetzung verstanden. Mittels Subtraktion einer Konstanten von allen Daten kann man testen, ob der Median dieser Konstanten gleicht. Der gleiche Test kann aber auch als Medianvergleich zweier Grundgesamtheiten gleicher Form mittels verbundener Stichproben durchgeführt werden. Dazu wird geprüft, ob die Differenzstichprobe di = Xi — y,-, die man sich ohne Hilfe von StatXact errechnen muß, den Median 0 hat. Der WILCOXON-Vorzeichenrangtest ist somit neben dem marginalen Homogenitätstest eine verteilungsfreie Alternative zum verbundenen f-Test, benötigt aber im Gegensatz zum marginalen Homogenitätstest die Voraussetzung der Symmetrie der zu testenden Grundgesamtheit bzw. der Grundgesamtheit der Differenzen. Wie schon beim Permutationstest im Rahmen des Vergleichs zweier Grundgesamtheiten mittels unabhängiger Stichproben in Abschnitt 12.3.1 kann auch ein Permutationstest als Ein-Stichproben-Test mittels eigener Wahl der Scores zum Testen der Hypothese, daß der Median der Grundgesamtheit den Wert 0 hat, durchgeführt werden.
246
12.4
12
Exakte statistische
Tests
Überblick über exakte Tests mit T E S T I M A T E
Das Programm TESTIMATE bietet im Gegensatz zu StatXact auch parametrische Verfahren an, z.B. den t-Test oder Varianzanalysen mit multiplen Mittelwertsvergleichen sowie den BARTLETT-Homogenitätstest für Varianzen an. Dies sind Tests, die nicht zur Analyse von Kontingenztafeln dienen. Jedoch rechnet TESTIMATE nicht so viele Kontingenztafeln exakt wie StatXact. Zensierte Daten bewältigt TESTIMATE ebenfalls. TESTIMATE teilt im Hauptmenü die statistischen Tests in drei Gruppen ein: • Standardtests für Zwischengruppenvergleiche • Standardtests für Innerhalbgruppenvergleiche • Komplexe Test-Modelle 12.4.1
Standardtests für Zwischengruppenvergleiche
Die linearen Rangtests zum Vergleich zweier Grundgesamtheiten (Gruppen) bzgl. eines ordinalen Merkmals in Abschnitt 12.3.1 kann man mit TESTIMATE ebenfalls durchführen, allerdings i.a. ohne Schichtung die z.B. zur Bereinigung von Blockeffekten dient. Will man aber einen anderen Test durchführen als den WlLCOXON-Rangsummentest oder den MANTEL-HAENSZEL-Test, dessen Scores den voreingestellten natürlichen Zahlen entsprechen, muß man die Scores dazu selbst eingeben. Dies entspricht dem Permutationstest in Abschnitt 12.3.1. Handelt es sich beim betrachteten Merkmal um Uberlebenszeiten, kann man mit TESTIMATE unter dem Menüpunkt "Komplexe Test-Modelle" fünf verschiedene Logrank-Tests durchführen, die auch Schichtung zulassen. Als verteilungsfreie Alternative zum ¿-Test, die wie der t-Test bei normalverteilten Grundgesamtheiten 100% asymptotische Effizienz hat, bietet TESTIMATE noch den Fisher-Pitman-Test an. Dieser ist nichts anderes als der auf Seite 243 beschriebene Permutationstest. Die Gesamtzahl n = nx + ny der Meßwerte kann auf verschiedene Arten in zwei Einzelstichproben der Größe nx und ny aufgeteilt werden. Jede dieser Permutationen ist unter Zugrundelegeung der Nullhypothese, daß keine Unterschiede der beiden Grundgesamtheiten existieren, gleichwahrscheinlich. Die Verteilung der Mittelwertsdifferenzen aller Aufteilungen ergibt die Prüfverteilung. Diese hängt von den spezifischen Meßwerten ab und kann deshalb nicht allgemein tabelliert werden. Sie ist also für jede spezielle Datenkonfiguration eigens zu berechnen. Wegen der großen Zahl von Möglichkeiten sind selbst die Rechenzeiten von leistungsstarken Computern sehr hoch. Der Test sollte jedoch für Stichproben bis etwa n = 20 dem ¿-Test vorgezogen werden, da er sehr effizient ist und die Voraussetzung der Normalverteilung nicht besteht. Bzgl. des Unabhängigkeitsvergleichs zweier nominaler Merkmale berechnet TESTIMATE bei Vierfeldertafeln immer und bei 2 x bzw. / x 2-Kontingenztafeln
12.4
Überblick über exakte Tests mit
TESTIMATE
247
auch dann, wenn der Aufwand nicht zu groß ist, den exakten p-Wert zum FLSHER-Test, der asymptotisch nicht berechnet wird. Ansonsten werden nur die p-Werte des x 2 -Tests von PEARSON und des Likelihood-Quotienten-Tests asymptotisch ausgegeben. Zu den Vierfeldertafeln, die zum Vergleich zweier Erfolgswahrscheinlichkeiten pi und P2 aus Binomialverteilungen erstellt werden, berechnet TESTIMATE Vertrauensintervalle für das Chancen Verhältnis, Pi das in (12.10) definiert ist, für das Ratenverhältnis — und für die RatendiffeP2 renz p\—pi- Ein besonderer Vorzug von TESTIMATE ist allerdings, daß man auch den sogenannten A q u i v a l e n z t e s t bei Vierfeldertafeln durchführen kann. Anstatt des üblichen Vorgehens, HQ : PI = P2 zu testen mit der Absicht, die Alternative H\ : p\ ^ p2 statistisch zu sichern, kann man mit TESTIMATE auch durch Wahl eines A > 0 die Nullhypothese in der Form HQ : |pi — P2I > A gegen eine Alternative H\ : \p\ — P2I < A testen mit der Absicht, diese Alternative statistisch zu sichern. Hier wird also HQ und H\ praktisch vertauscht. Es geht nicht mehr darum, einen Unterschied statistisch zu sichern, sondern es wird beabsichtigt, eine ungefähre Gleichheit, d.h. daß p\ und P2 einen Abstand von weniger als A haben, statistisch zu sichern. Der KRUSKAL-WALLIS-Test zum Prüfen der Unabhängigkeit eines ordinalen Merkmals von einem nominalen wird von TESTIMATE zwar mit Bindungskorrektur, aber nur asymptotisch durchgeführt. Tests auf Unabhängigkeit zweier ordinaler Merkmale sind von TESTIMATE nicht vorgesehen. 12.4.2
Standardtests für Innerhalbgruppenvergleiche
Für Innerhalbgruppenvergleiche mittels verbundener Stichproben bietet TESTIMATE, wenn es sich um zwei Stichproben handelt, den verbundenen i-Test, den WILCOXON-Vorzeichenrangtest, den Vorzeichentest sowie für den Fall, daß das betrachtete Merkmal nur zwei Ausprägungen hat, den McNEMAR-Test an. Für den Vergleich mehrerer verbundener Stichproben sieht TESTIMATE die F r i e d m a n - A n a l y s e vor (vgl. Kap. 10.5). 12.4.3
Komplexe Test-Modelle
Unter dem Menüpunkt „Komplexe Test-Modelle" führt TESTIMATE neben einfaktorieller Varianz- und Kovarianzanalyse fünf verschiedene bereits angesprochenen Logrank-Tests mit möglicher Schichtung durch und behandelt ferner noch die C r o s s o v e r - A n a l y s e (auch mit Aquivalenztest), welche beispielsweise zum Vergleich zweier Medikamente dient, wenn einer Personengruppe zuerst Medikament A, dann Medikament B und der anderen zuerst Medikament B, dann Medikament A verabreicht wird.
12
248
12.5
Exakte statistische
Tests
Wann soll man exakt testen?
Wenn m a n kein exakt rechnendes Programm wie T E S T I M A T E oder StatXact zur Analyse von Kontingenztafeln hat, interessiert diese Frage kaum, weil dann exakte Tests von Hand nur in Ausnahmefallen mit wenigen Daten möglich sind. Der exakte Test von FISHER in Abschnitt 12.1.1 ist bei einer Vierfeldertafel noch am leichtesten durchführbar. Dieser Test ist allerdings in den meisten Statistikpaketen implementiert und man sollte ihn bei einer Vierfeldertafel immer einem gewöhnlichen x 2 -Test vorziehen. Arbeitet m a n aber mit einem P r o g r a m m wie z.B. MINITAB, in dem der FlSHER-Test nicht implementiert ist, sollte man, wenn die erwarteten Häufigkeiten pro Zelle nicht mindestens vier sind, den FlSHER-Test bei einer Vierfeldertafel mit dem Taschenrechner durchführen (vgl. Abschnitt 12.1), da dies ohne größeren Aufwand möglich ist. Ansonsten genügt es, den approximativen x 2 -Test durchzuführen, dessen Testgröße unbedingt mit der Stetigkeitskorrektur von YATES (vgl. Gleichung (12.8)) versehen sein muß, da wegen der Vierfeldertafel eine approximative x2Verteilung mit nur einem Freiheitsgrad vorliegt. Die YATES-Korrektur sollte auch bei sehr hohen Besetzungszahlen der Vierfeldertafel beibehalten werden, es sei denn, die erwarteten Zellenhäufigkeiten liegen in der Größenordnung von über 500. Steht ein Programm wie T E S T I M A T E oder StatXact zur exakten Analyse von Kontingenztafeln zur Verfügung, so gilt folgende Regel: Grundsätzlich soll m a n immer exakt rechnen, falls das Programm die betreffende Analyse exakt durchführt und m a n die Geduld hat, das Ergebnis der Analyse abzuwarten. Eine exakte Analyse kann nämlich sehr lange dauern. Wenn die Analyse von einem Programm, das in der Regel exakt rechnet, nicht durchgeführt wird oder zu viel Zeit in Anspruch nimmt (man kann die exakte Analyse jederzeit abbrechen), kann man davon ausgehen, daß der asymptotische p-Wert eine einigermaßen gute Approximation des exakten p-Werts ist.
Kapitel 13 Korrelat ionsanalyse Die Korrelationsanalyse untersucht den Grad des linearen Zusammenhangs zwischen zwei Zufallsvariablen, also einen speziellen stochastischen Zusammenhang. Die Untersuchung solcher Korrelationen interessiert vor allem bei biologischen Größen, während die Zusammenhänge z.B. zwischen chemischen und physikalischen Größen häufiger deterministisch sind. Einige Beispiele für praktische Fragestellungen könnten sein: Besteht eine Korrelation • zwischen der Milchleistung und dem Milchfettgehalt bei Kühen? • zwischen Länge und Breite von Blättern bei einer bestimmten Pflanzenart? • zwischen dem Gehalt an Fluorchlorkohlenwasserstoffen (FCKW) und dem Ozongehalt der oberen Atmosphäre? • zwischen der Anzahl geschädigter Bäume und dem pH-Wert ihrer Standorte? • zwischen Blutdruck und Herzkranzgefäßerkrankungen bei Patienten? In Band 1 wurde der Korrelationskoeffizient p zur Kennzeichnung des Grades der linearen Abhängigkeit von zwei verschiedenen Zufallsgrößen X und Y eingeführt 1 . Die Begriffe Korrelation und Abhängigkeit sind jedoch nicht gleichzusetzen. Zwei Zufallsvariablen können unkorreliert sein, d.h. p — 0, aber dennoch voneinander abhängig sein. Sei z.B. X eine (0, l 2 )-normalverteilte Zufallsvariable und Y = X2, so ist die Abhängigkeit zwischen X und V offensichtlich, aber dennoch gilt p(X,Y) = 0, da der Zusammenhang nicht linear ist. Wenn jedoch zwei Zufallsvariablen unabhängig sind, folgt daraus ihre Unkorreliertheit. Nur für den Fall, daß sowohl X als auch Y normalverteilt sind, fallen die Begriffe Unabhängigkeit und Unkorreliertheit zusammen. Es wird daher im Folgenden vorausgesetzt, daß X und Y gemäß der zweidimensionalen Normalverteilungsdichte f(x,y)
=
•e 2-K 0, so spricht man von positiver Korrelation, ist r < 0, so spricht man von negativer Korrelation , ist r = 0, dann besteht kein linearer Zusammenhang zwischen X und V, d.h. X und Y sind unkorreliert. Eine positive Korrelation bedeutet anschaulich in etwa, daß im Mittel zu einem überdurchschnittlichen i,-Wert auch ein überdurchschnittliches j/,gehört und zu einem unterdurchschnittlichen z,- ein unterdurchschnittliches j/,gehört. Eine negative Korrelation deutet an, daß im Mittel wachsenden x,Werten fallende y,-Werte zugeordnet sind. Der absolute Betrag |r| gibt an, wie gut diese Tendenz jeweils ausgeprägt ist. Bei Stichprobenwerten werden die Fälle r = + l , r = —1 und r = 0 exakt nicht erreicht. Der Fall r = ± 1 würde bedeuten, daß die Punkte (zi,y,) genau auf einer Geraden liegen, es bestünde also ein streng linearer Zusammenhang zwischen X und Y (Bild 13.3 e,f). Bei r = 0 liegen die Punkte (x,-,j/,) ganz zufällig verstreut in den beobachteten Intervallen (vgl. Bild 13.3 a). Der Korrelationskoeffizient r mißt ausschließlich den Grad der linearen Abhängigkeit zwischen zwei Merkmalen X und Y, deswegen hat r in Bild 13.3 d) auch einen Wert nahe bei Null. Durch diese Punktewolke kann man keine Gerade legen, also keinen linearen Zusammenhang feststellen, obwohl man aus der Figur entnehmen kann, daß in etwa ein quadratischer Zusammenhang zwischen X und Y besteht. Liegt eine nicht allzu große Stichprobe vor, so kann durch Zeichnung eines sogenannten Streudiagramms (vgl. Bild 13.3) ein ungefähres Bild von der Korrelation zweier Merkmale gewonnen werden.
13.1
Der Pearsonsche
a) r f» 0 (keine Korrelation) o
o
b) r > 0 (positive Korrelation)
o o
c)
253
Korrelationskoeßizient
o
r < 0 (negative Korrelation)
O
OO
o o
°
O
o
O
o
° o
d) r « 0 (keine lineare Korrelation)
° 0 ° S
I
e) r = 1
f) r = - 1
Bild 13.3: Streudiagramme
o )
O o
°
r~
254
13
Korrelationsanalyse
Beispiel: Zur Untersuchung der Korrelation zwischen der Breite X und der Länge Y bei Blättern einer Pßanzenart liege folgende Stichprobe vor: Blattbreite X [mm] 16 22 Blattlänge Y [mm] 40 55
8 16 26 14 20 25 40 51 34 52
14 21 13 40 53 31
Die Berechnung des empirischen KorrelationskoefEzienten von Hand erfolgt mit Hilfe folgender Tabelle: i
Xi Vi 1 16 40 256 2 22 55 484 64 3 8 25 4 16 40 256 5 26 51 676 14 34 196 6 52 7 20 400 14 40 8 196 9 21 53 441 10 13 31 169 421 3138 170 E Es ist also: 10
/io
Xi • yi vi 1600 640 3025 1210 625 200 1600 640 2601 1326 1156 476 2704 1040 1600 560 2809 1113 961 403 18681 7608
\2
SQ. = E -15 U > ) = 3 1 3 8 - Tö • 1 7 0 2 = 2 4 8 0 ¿=i Vi—i / 10 /10 \2 SQv = E lö X > = 18681 - iö •4212 = 956 9 «=1 \i=l } 10 J / 10 \ / 10 \ J spxy = J 2 - IÖ ( E • ( E f ' j = 7608 - iö ' 1 7 0 ' 4 2 1
= 451 0
Nach Gleichung (13.5) folgt: rxyy = Corr(x, y) = v ""
J ? ^ = , 45L" « 0.926 • SQ,, V248.0 • 956.9
X /SQ I
In der Regel wird man den KorrelationskoefEzienten mit Hilfe eines Taschenrechners oder eines Computerprogramms berechnen.
13.1
Der Pearsonsche KorrelationskoefEzient
255
Mit STATA kann das Streudiagramm und der Korrelationskoeffizient wie folgt ausgegeben werden: . input Breite Laenge
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
Breite 16 40 22 55 8 25 16 40 26 51 14 34 20 52 14 40 21 53 13 31 end
. graph Breite Laenge
8- o 3
T
. correlate Breite Laenge (obs=10) I Breite Laenge + Breite I Laenge1
1.0000 0.9258
^
Laenge
1.0000
256 Analog
MTB > MTB > DATA> DATA> DATA> DATA> DATA> DATA> DATA> DATA> DATA> DATA> DATA>
13
erfolgt
die Ausgabe
Korrelationsanalyse
mit dem M I N I T A B - B e f e W correlation.
name cl 'Breite' c2 'Laenge' read 'Breite' 'Laenge' 16 40 22 55 8 25 16 40 26 51 14 34 20 52 14 40 21 53 13 31 end 10 ROWS READ
MTB > gplot 'Breite' 'Laenge'
12. a X —I 24.8
1 38.8
1 36.8
1 42.8
1 48.8
MTB > correlation 'Breite' 'Laenge' Correlation of Breite and Laenge = 0.926
1 54.8
Lun «r»
13.2
Test des
13.2
Korrelationskoeffizienten
257
Test des Korrelationskoeffizienten
Die Verteilungsparameter einer Grundgesamtheit sind in der Regel unbekannt. Auch der Korrelationsparameter p zwischen den zufälligen Variablen X und Y ist unbekannt. Aufgrund einer Stichprobe aus der zweidimensionalen Grundgesamtheit ist jedoch der empirische Korrelationskoeffizient r der Stichprobe berechenbar. Dieser ist ein unverzerrter Schätzwert für den theoretischen, unbekannten Korrelationskoeffizienten p. 13.2.1
Test der Nullhypothese H0 . p = o
Unter der zusätzlichen Annahme, daß die Grundgesamtheit eine zweidimensionale Normalverteilung darstellt, kann man die Hypothese Ho : p = 0 z.B. gegen die Alternative p > 0 testen. Wenn die Grundgesamtheit zweidimensional normalverteilt ist mit p — 0, so ist die Test große
studentverteilt mit n — 2 Freiheitsgraden. Das Testschema zeigt Tab. 13.1. Voraussetzung: Test große:
zweidimensionale Normalverteilung t0 =
r
In-2 -]ll-ri
Ho:
p= 0
Hi:
Ablehnung von Ho, wenn
p< 0
to
tn-2;l-a
0
\to\ >
tn-2;l-ct/2
Tabelle 13.1: /-Test für den Test der Hypothese p = 0 Beispiel: Der empirische Korrelationskoeffizient zwischen der Breite und Länge von Blättern im Beispiel auf Seite 254 war r = 0.926. Es soll mit einer Irrtumswahrscheinlichkeit von ot = 0.1% geprüft werden, ob dieser Zusammenhang statistisch signißkant größer als 0 ist, also: Ho : p = 0 gegen Hi : p > 0
258
13
Korrelationsanalyse
Die Testgröße berechnet sich zu: t
° =
r
= 0 926
-
•
] / L ^ I Ö W
= 6 94
Die 99.9%-Fraktile der t-Verteilung bei 8 Freiheitsgraden ist nach Tab. A.4 im Anhang: ^8;0,0.999 — 4.50 Es folgt: t0 = 6.94 > 4.50 = t8;0.999 Hq wird demnach zugunsten von H\ abgelehnt. Auf dem gewählten Signifikanzniveau von a = 0.001 kann damit eine positive Korrelation zwischen der Blattbreite und Blattlänge gesichert werden. Aus Gleichung (13.7) für die Testgröße to kann man für feste Irrtumswahrscheinlichkeiten oc und verschiedene Stichprobenumfänge n bzw. Freiheitsgrade n — 1 diejenigen Werte für r berechnen, so daß gerade noch die Nullhypothese p = 0 aufrecht erhalten werden kann. Man setzt also in Gleichung (13.7) für to die f-Fraktile mit n — 2 Freiheitsgraden zum Signifikanzniveau a ein und löst nach r auf. Es folgt:
M = J f r 2 * = y n — 2 + I„_2;i-a
, (einseitig) y/n — 2 + Po
Zo > Ul-c
P? Po
\ZQ | > Ul-a/2 = ^1-a
-Ul-a
Tabelle 13.2: z-Test für den Test der Hypothese p = po 13.2.3
Vergleich zweier Korrelationskoeifizienten
Für einen Vergleich der Korrelation zweier Merkmale in zwei verschiedenen Grundgesamtheiten ist ein Test für die Nullhypothese Ho : px = Py gegen eine entsprechende Alternativhypothese durchzuführen. Auch dieser Test basiert auf der FlSHERschen z-Transformation. Der Test der Hypothese H0:px
= py
(13.13)
ist äquivalent zum Test der Hypothese
Um Ho zu testen, muß man zwei normalverteilte Zufallsgrößen mit bekannten Varianzen miteinander vergleichen. Man kann also die folgende Testgröße ZQ verwenden, die als Realisation einer standard-normalverteilten Zufallsgröße aufgefaßt werden kann:
*o=2
2
-[' 3
(13.15) nv — 3
Der Test verläuft dann nach dem Schema in Tab. 13.3.
13.2
Test des Korrelationskoeffizienten
Voraussetzung:
261
zweidimensionale Normalverteilung 1. l + r r - In 2 1 - rx
Test große:
I
1 . l + ry In 2 1 - ry
i
r -
V TIx — 3 ' n v — 3 H0:
Px = Py
Hi:
Ablehnung von HQ, wenn
Px < Py
ZQ < —Ul_o
Px > Py
ZQ
Px # Py
|zq| > «l-a/2 — Ai_ a
>
Ui_a
Tabelle 13.3: z-Test für den Test der Hypothese px = py 13.2.4
Vertrauensintervall für den Korrelationskoeffizienten
Weiß man z.B. aufgrund eines statistischen Tests, daß der Korrelationskoeffizient p von Null verschieden ist, dann möchte man häufig zusätzlich ein Vertrauensintervall angeben. Dies kann ebenfalls mit Hilfe der FlSHERschen zTransformation erfolgen. Man kann zunächst ein 1 — a-Vertrauensintervall für p2 aus Gleichung (13.11) angeben:
Mit Hilfe der Umkehrfunktion von Zo =
1 2
l n
1+ r i h
(1317)
kann man dann ein Vertrauensintervall für p angeben. Die Umkehrfunktion lautet: r—
g^o e—z° e*° + e - * 0
oder
r = tanhzn
(13.18)
Die Funktion tanh heißt tangens hyperbolicus. Damit lautet der Vertrauensintervall für p: V.l. { , » h ( , - -
< , < t»h ( „ + - ^ S , ) }
(13.19)
262
13
Korrelationsanalyse
Beispiel: r = 0.89, n = 149, a = 5 % ZQ
1 1+ r 1 1 + 0-89 — — In = - In — — = 1.42 2 1- r 2 1 - 0.89
tanh
-
=
tanh
(1423 ~
=
tanh
+
=
tanh
^1-423 +
= tanh(1.58) = 0.92
V.l.{0.85 < p < 0.92}o.95
tanh
(126) =
0 85
13.3
13.3
Korrelation in Untergruppen
263
Korrelation in Untergruppen
Eine zweidimensionale Stichprobe kann stets zur Berechnung eines Korrelationskoeffizienten herangezogen werden. Ob dies sinnvoll ist, oder ob das Datenmaterial zuvor in Untergruppen aufzuteilen ist, ist gegebenenfalls sachlogisch zu entscheiden. In einem Datensatz seien z.B. Stichprobenwerte zweier Merkmale X und Y von zwei verschiedenen Beobachtungszeitpunkten (z.B. 1980 und 1990) zusammengeworfen. Wenn die Grundgesamtheit, aus dem die Stichprobe von 1980 stammt, sich bis 1990 nicht wesentlich verändert hat, dann ist gegen eine gemeinsame Verrechnung nichts einzuwenden. Wenn die Grundgesamtheit (z.B. eine Tier- oder Pflanzenpopulation) sich u.U. in den zehn Jahren stark verändert hat (z.B. durch züchterischen Fortschritt, Wandel in der Betriebsstruktur, oder soziologische Veränderungen) ist eine Verrechnung über das Gesamtmaterial nicht mehr zulässig, denn die gemeinsame Verrechnung würde zu verzerrten Ergebnissen führen (vgl. Bild 13.4). Korreliert man die Daten von 1980 und 1990 jeweils getrennt, würden Korrelationskoeffizienten von ca. 0.4 in den Bildern 13.4 a) und b) resultieren. Gemeinsam korreliert liegt der Koeffizient in Bild 13.4 a) bei etwa 0.9, was sachlogisch nicht zu erklären wäre. Durch das Zusammenwerfen wird eine engere Korrelation vorgetäuscht, die allerdings gar nicht existiert. Man spricht in einem solchen Fall auch von einer Inhomogenitätskorrelation. Ist die Entwicklung der Merkmale X und Y in der Grundgesamtheit gegenläufig, also X habe sich erhöht und V erniedrigt (Bild 13.4 b), und verrechnet man die Daten von 1980 und 1990 getrennt, dann ergibt sich jeweils eine positive Korrelation von ca. 0.4. Eine Verrechnung des gesamten Datensatzes würde dagegen eine negative Korrelation von —0.75 zeigen. In diesen beiden Beispielen hatte sich die Korrelation zwischen den Merkmalen X und y in den Untergruppen nicht verändert, wohl aber die Mittelwerte der Merkmale. Eine weitere Situation, bei der eine Aufteilung in Untergruppen vorzunehmen ist, liegt vor, wenn ein Kollektiv in eine Menge von Untergruppen zerfällt. In den Untergruppen von Bild 13.5 existieren Untergruppenkorrelationen zwischen den Merkmalen X und Y. Eine Verrechnung über den gesamten Datensatz würde dagegen kaum eine Korrelation aufdecken. Um z.B. störende Einflüsse (verschiedene Ertragsvoraussetzungen, Bodenverhältnisse usw.) auszuschalten, kann es sinnvoll sein, eine großräumige Untersuchung (Bayern, BRD) über den Ertrag einer Kulturpflanze und einem Klimafaktor nach Naturräumen getrennt zu verrechnen.
264
13
a)
1980
b)
1990
1990
I960 20
20 "
i'
15 -
i
15
>- 10
° S „ e oo
> 10 -
5
°
o»
'0
Korrela.tionsana.lyse
%
oo
\
o
•
» o
5
»
0
oo
10 x
15
_
20
«»
0H 0
10 x
15
Bild 13.4: Veranschaulichung einer Inhomogenitätskorrelation 20 15
o
00°0 8J>4
* i -v-
\ :
OD D
• •
10 -
D
5 " 0 10
x
—i— 15
20
Bild 13.5: Veranschaulichung einer Korrelation in Untergruppen
20
13.4
13.4
Zur Interpretation
von Korrelationen
265
Zur Interpretation von Korrelationen
Ein Korrelationskoffizient r, der aus zwei Zahlenreihen x,- und j/,- (i = 1 , . . . , n) berechnet wurde, manifestiert zunächst einen mehr oder weniger starken form a l e n Zusammenhang zwischen dem X- und dem Y-Merkmal. Ob ein Kausalzusammenhang zwischen X und Y besteht, ist nicht mit statistischen Methoden zu klären, sondern nur mit sachlogischen Überlegungen. Daran ändert natürlich auch eine wiederum nur als formal anzusehende statistische Sicherung des Korrelationskoeffizienten nichts. Man bezeichnet manchmal eine formale Korrelation auch als Scheinkorrelation oder als Unsinnskorrelation, wenn man keine sachlogische Erklärung für einen gegenseitigen Zusammenhang finden kann. Die Abnahme der Störche und die Abnahme der Geburtenziffern, die z.B. eine hohe positive formale Korrelation ergeben, sagen nichts aus über einen kausalen Zusammenhang. Eine solche Korrelation kann auch durch eine gemeinsame Abhängigkeit von einer dritten Größe oder durch eine Heterogenität des Materials bedingt sein. Man spricht dann von Gemeinsamkeitskorrelation bzw. Inhomogenitätskorrelation 2 . Beispiel für eine Gemeinsamkeitskorrelation könnte der Zusammenhang zwischen Körpermaßen, z.B. Körperlänge und Körpergewicht sein, die jeweils an der selben Person gemessen werden. Diese Variablen hängen sicher gemeinsam von einer dritten Größe, dem Lebensalter ab. Ein anderes Beispiel wäre die möglicherweise positive Korrelation zwischen Körpergewicht und manueller Geschicklichkeit. Diese seltsame Tatsache könnte ins rechte Licht gesetzt werden, wenn man als dritte Größe wiederum das Lebensalter, von dem die beiden Merkmale gemeinsam abhängen, in die Betrachtung einbezieht. Wenn man diesen Alterseinfluß ausschalten kann, z.B. mit Hilfe der partiellen Korrelation (vgl. Kap. 13.5), dann könnte die ursprüngliche positive Korrelation ihren Wert stark verändern, evtl. negativ werden, was sicherlich ein einleuchtenderes Ergebnis wäre. Auch eine Korrelation zwischen Zeitreihen ist oftmals eine solche Gemeinsamkeitskorrelation. Man vergleiche dazu das obige Beispiel, in dem man die Zahl der Störche und die Zahl der Geburten über eine bestimmte Anzahl von Jahren hinweg beobachtet wurde. Die dritte Größe, von der die beiden obigen Größen gemeinsam abhängen, ist die Zeit oder eine andere Erscheinung, welche mit der Zeit stark korreliert, vielleicht die fortschreitende Industrialisierung. Eine rein formale Korrelation vom Wert 1 oder nahezu 1 ergibt sich, wenn die zwei korrelierten Größen X und Y in einer festen linearen Beziehung zueinander stehen, z.B. sich jeweils zu 100% ergänzen. Ergibt sich bei der numerischen Berechnung ein Wert « 1, prüfe man zunächst, ob nicht aus Versehen Prozentzahlen miteinander korreliert wurden und damit eine Scheinkorrelation manifestieren. Die Annahme einer kausalen Korrelation kann erfolgen, wenn man alle anderen Möglichkeiten ausschließen kann. 2
vgl. KOLLER S.: Typisierung korrelativer Zusammenhänge, M E T R I K A 6, 65-75
266
13
13.5
Korrelationsanalyse
Der partielle Korrelationskoeffizient
Ein Merkmal wird in der Regel nicht nur von einem, sondern von mehreren Merkmalen gleichzeitig beeinflußt. So kann der Zusammenhang zwischen den Merkmalen X und Y von einem dritten Merkmal Z beeinflußt sein. Will man den "reinen" Zusammenhang zwischen X und Y bestimmen, so muß man die Wirkung von Z ausschalten. Dies geschieht, indem die Korrelation zwischen X und Y berechnet wird, die vorliegen müßte, wenn Z konstant wäre. Will man die unbeeinflußte Korrelation, z.B. zwischen X und Z finden, so muß Y konstant gehalten werden. Bei vier Merkmalen muß die Wirkung jeweils zweier Merkmale ausgeschaltet werden usw. Es sei nochmals darauf hingewiesen, daß mit dem Begriff Korrelation jeweils eine lineare Beziehung gemeint ist. Die entsprechenden Korrelationskoeffizienten geben also jeweils einen Schätzwert für die lineare Beziehung zwischen zwei Merkmalen wieder. Um die Teilkorrelation zu bestimmen, müssen zuerst die Korrelationen zwischen je zwei Merkmalen berechnet werden. Hat man z.B. drei Merkmale, X, Y und Z, und sind die linearen Beziehungen zwischen je zweien durch die Korrelationskoeffizienten rxy, rxz und ryz ausgedrückt, so ergibt sich die Teilk o r r e l a t i o n zwischen X und Y, wenn der lineare Einfluß von Z eliminiert ist, durch den partiellen KorrelationskoefHzienten. Das Merkmal, das konstant gehalten werden soll, wird durch einen Punkt von den anderen getrennt. Die Formel zur Berechnung der Teilkorrelation zwischen X und Z sowie Y und Z erhält man durch Vertauschen der Merkmale. r
zy.z
—
^/U-rLHl-r»,) TXZ
' xz.y
y z.x
• TyZ
^(l-r^Ml-rJ,) T*yz
r
TXy
—
TXy
(13.20)
' 1*XZ
^ ( l - ^ M l - r L ) Diese Formeln bzw. die analogen Formeln für die Koeffizienten p in der Grundgesamtheit werden abgeleitet, unter der Annahme, daß die drei oder evtl. auch mehr Variablen gemeinsam normalverteilt sind. pxy.z ist z.B. die Korrelation der zweidimensional verteilten Zufallsvariablen (X, Y) unter der Bedingung daß Z fest gegeben ist. Die Formeln werden jedoch auch auf Stichproben aus beliebigen Verteilungen angewendet.
13.5
Der partielle KorrelationskoefBzient
267
Beispiel: Uber eine Stichprobenerhebung von 100 landwirtschaftlichen Betrieben einer Region wurden folgende Einfachkorrelationen zwischen den Variablen X: Roheinkommen/ha LN, Y: Reineinkommen/ha LN und Z: Landwirtschaftliche Nutzfläche (LN) errechnet: rxy = 0.56, rxt = - 0 . 6 7 , ry2 = 0.11
Man erwartet allerdings einen höheren Korrelationskoeffizienten zwischen Roheinkommen und Reineinkommen. Schaltet man nun den Einßuß der Betriebsgröße (LN) (= Variable Z) aus, so erhält man folgende bereinigte oder partielle Korrelation rxy,z: rxy
,
=
r ^ - r ^ r r ^ ^(l-r^).
=
0-56-(-0-67)-0.11
=
^
0-67»)-(1-0.11»)
Die partielle Korrelation zwischen Roheinkommen und Reineinkommen, bereinigt vom Betriebsgrößeneinßuß, ist also deutlich größer als die entsprechende Einfachkorrelation.
13
268
13.6
Konela.tionsanalyse
Der Spearmansche Rangkorrelationskoeffizient
Bisher wurden lineare Zusammenhänge zwischen zwei normalverteilten Merkmalen mit dem PEARSONschen Korrelationskoeffizienten untersucht.
Daraus
folgt, daß diese Merkmale quantitativen oder stetigen Charakter haben müssen. Will man Zusammenhänge zwischen zwei Merkmalen untersuchen, die beide auf einer Ordinalskala gemessen wurden, dann ist der PEARSONsche Korrelationskoeffizient nicht mehr zu verwenden, denn er bezieht sich ja auf eine stetige Verteilung. Man kann in diesem Fall z.B. die Rangkorrelation nach S P E A R MAN anwenden. Der Spearmansche Rangkorrelationskoeffizient rs ist die entsprechende Maßzahl für den linearen Zusammenhang zweier ordinal gemessener Merkmale oder zweier Merkmale, deren Ausprägungen als Rangzahlen gegeben sind. Auch in diesen Fällen, in denen die Voraussetzung der Normalverteilung bei stetigen Merkmalen nicht aufrecht erhalten werden kann, d.h. wenn eine Stichprobe aus einer beliebigen zweidimensionalen stetigen Verteilung entnommen wurde, untersucht man den Zusammenhang zwischen X und Y mit Hilfe der Rangkorrelation, die in diesem Fall als verteilungsfreies Verfahren aufgefaßt werden kann. Das Verfahren der Rangkorrelation geht von Rangzahlen aus. Diese Rangzahlen sind entweder aufgrund einer vorliegenden Rangskala bereits gegeben, oder man ordnet die Werte von stetigen Veränderlichen X und Y der Größe nach und bewertet mit Rangzahlen Rix bzw. Riy. Der kleinste Wert bekommt die Rangzahl 1, der nächstgrößere die Rangzahl 2 usw. Der SPEARMANsche Rangkorrelationskoeffizient ergibt sich aus dem PEARSONschen Korrelationskoeffizienten, indem man die Meßwerte (x,•,!/,•) durch die Ränge (Rix, Riy) ersetzt. Nach einigen algebraischen Umformungen ergibt sich Gleichung (13.21), in welche die Abweichungsquadratsumme der Differenzen zwischen den x-Rängen und den ¡/-Rängen eingeht: n — Riy)2 rs = 1 — 6 • —
= nä — n
(13.21)
Die Summation im Zähler ist über alle n Stichprobenwerte zu bilden (i = 1 , . . . , n). Es gilt stets: — 1 < rs < +1. Bei der Festlegung der Rangzahlen ist darauf zu achten, daß gleich große Werte bei einer Veränderlichen (sog. Bindungen) auch mit gleichen Rangzahlen belegt werden. Dabei wird im allgemeinen so vorgegangen, daß aus den für gleich große Werte aufeinanderfolgenden Rangzahlen das arithmetische Mittel gebildet wird. Treten z.B. bei der Variable Y drei gleich große Werte auf, denen die Rangzahlen 4, 5 und 6 zuzuordnen wären, so erhalten alle drei Werte die Rangzahl 5. Dem nächstgrößeren Y-Wert wird dann die Rangzahl 7 zugeordnet.
13.6
Der Spearm ansehe
RangkorrelationskoefRzient
269
Wenn die Rangzahlen des X-Merkmals für alle Stichprobenobjekte jeweils gleich den Rangzahlen des y-Merkmals sind, dann werden die Differenzen Rix — Riy gleich 0 und rs = 1. Ist eine Rangzahlfolge die Umkehrung der anderen, dann ist rs = —1. In beiden Fällen besteht eine Abhängigkeit zwischen den Verteilungen. Ist rs = 0, dann sind die beiden Verteilungen voneinander unabhängig. Der PEARSONsche Korrelationskoeffizient r schätzt bekanntlich den Grad der linearen Abhängigkeit zwischen zwei stetigen Merkmalen. Der SPEARMANsche Korrelationskoeffizient rs verwendet Rangzahlen. Mit Rangzahlen ist jedoch nur eine ansteigende oder abfallende Tendenz anzugeben. Infolgedessen gibt der Rangkorrelationskoeffizient bei positiven Werten nur eine gleichförmige und bei negativen Werten eine gegenläufige Tendenz der Merkmalswerte oder der Rangzahlen an. Test des RangkorrelationskoefHzienten Eine exakte Signifikanzprüfung von rs kann man für n < 11 mit Hilfe der Tabellen bei OWEN3 durchführen. Dort ist die Verteilung der sog. SPEARMANSumme Riy) 2 tabelliert. Unter Annahme von Ho (d.h. keine Abhängigkeit) ist jede der n! möglichen Anordnungen der Ränge gleichwahrscheinlich. Daraus kann man die sog. Überschreitungswahrscheinlichkeiten der SPEARMAN-Summe berechnen. Für größere Stichproben muß man sich mit asymptotischen Verteilungen behelfen. Für n > 30 ist ps angenähert normalverteilt mit Mittelwert 0 und Varianz - . Man verwendet in diesem Fall die Testgröße ZQ: n- 1 zQ = r s • y/n — 1
(13.22)
KENDALL4 schlägt für Stichprobenumfänge n > 10 eine Signifikanzprüfung mit der t-Verteilung vor. Die Testgröße to mit n — 2 Freiheitsgraden lautet analog Gleichung (13.7): (13.23) GLASSER und WINTER5 haben für n < 30 die Zufallshöchstwerte für rs angegeben. Ein Auszug dieser Tabellen findet sich in der Anhangstabelle A.14. Diese 3
OWEN D . B . 1962: Handbook of statistical tables. Addison Wesley. KENDALL M.G. 1962: R a n k Correlation Methods, London. 5 GLASSER G . J . , WINTER R . F . 1961: Critical values of rank correlation for testing t h e hypothesis of independence, Biometrika 48, 444-448. 4
270
13
Korrelationsanalyse
Tabelle enthält die signifikanten Werte für die einseitige Fragestellung (rs > 0 oder rs < 0). Bei einem zweiseitigen Test (rs ^ 0) sind die entsprechenden a-Werte dieser Tabelle zu verdoppeln. Beispiel: Als Stichprobe liege die Mathematiknote (Merkmal X ) und die Statistiknote (Merkmal Y) von 10 zufällig herausgegriffenen Studenten eines Semesters vor. Es ist zu prüfen, ob eine positive Korrelation zwischen diesen beiden Noten gesichert werden kann. Die Leistungen der Studenten in beiden Fächern und die Rangordnung zeigt folgende Tabelle: Student Nr. i Mathematiknote x,Statistiknote j/,Mathematikrang iZ,x Statistikrang Ri y Rangdifferenz A, A? = (Rix — Riy)2
1 4.7 4.3 9 9 0 0
2 3 4 2.0 1.3 4.3 2.0 1.0 4.0 5 2 8 3 1 8 2 1 0 4 1 0
1
6
5 6 7 8 9 1.7 3.7 1.0 2.3 1.7 3.0 3.0 1.3 3.0 2.3 3.5 7 1 6 3.5 6 6 2 6 4 -2.5 1 - 1 0 -0.5 6.25 1 1 0 0.25
10 5.0 5.0 10 10 0 E =o 0 £=13.5
10
rs
=
1
-
6
•i^TTö =
-
• kkSTTH)
=
09182
Ein Vergleich dieses Werts mit den Zufallshöchstwerten in Tab. A.14 ergibt, daß sich sich ein positiver Zusammenhang auf dem 1%-Signifikanzniveau absichern läßt, da 0.9182 > 0.7333 ist. Auch die Verwendung des approximativen t-Tests ergibt Signißkanz auf einem Signifikanzniveau von a = 1%.
to = 6.556 > 2.896 = is;0.99 Wenn sehr viele und vor allem sehr lange Bindungen auftreten, also Stichprobenobjekte die bzgl. des einen oder des anderen Merkmals dieselbe Merkmalsausprägung aufweisen, verwendet man am besten folgende Formel für die Bestimmung eines mittleren Rangs: Ri =
Fi • (Fi +1) - Fi-i • (Fi-1 + 1)
(13.24)
13.6
Der Spearmansche
Rangkorrelationskoeffizient
271
Dabei ist Fi bzw. die Summenklassenhäufigkeit bis einschließlich zur i-ten bzw. (i — l)-ten Merkmalsausprägung: Fi = J 2 n J j
—tn-2;l-a
tn-2;l-o/2
Tabelle 14.1: t-Test für den Achsenabschnitt der Regressionsgeraden Die Testgröße bn - pß* 21.1 - 20 t0 = = — r — ^ - = 0.136 sio 8.09 ist nicht größer als ig;o.95 = 1.833. Auf dem 5%-Signißkanzniveau deshalb nicht verworfen werden.
kann Ho
Test des Regressionskoeffizienten Zur Prüfung der Nullhypothese Ho : ßi = ß* (ß* ist ein vorgegebener Wert) dient folgende Test große: 0 in Frage, so daß die Fragestellung lautet: Hängt Y von X nicht ab oder existiert eine positive Regression zwischen Y und XI Sprechen keine a-priori-Informationen für eine einseitige Fragestellung, so wird man gegen die zweiseitige Alternative ßi £ 0 testen.
288
14
Testgröße:
. h - ß* 10 = «»i II
•
H0:
Regressionsanalyse
Hu
Ablehnung von Ho, wenn
ßi in-2;i-o
ßitß*
|
(Tab. A . 4 )
tfi-2;l-a/2
Tabelle 14.2: i-Test für den Regressionskoeffizienten Beispiel: Für die Abhängigkeit des Sommerweizenertrags von der Stickstoffdüngung im Beispiel auf Seite 277 soll die Nullhypothese Ho : ß\ = 0.4 gegen die einseitige Alternative Hi : ß\ > 0.4 getestet werden. Mit SR = 5.74 (vgl. Beispiel auf Seite 283) berechnet man s j , :
= Die
^fer S R = tbÄIJ •5/74 = 0 0749 Testgröße
bi-ß* = - — — sbl
0.421-0.4 n n a n = — — = 0.280 0.0749
ist nicht größer als 19^.95 = 1.833. Auf dem 5%-Signißkanzniveau deshalb nicht abgelehnt werden.
kann H0
Vertrauensintervalle für den Achsenabschnitt und den Regressionskoeffizienten Für den Achsenabschnitt ßo und den Regressionskoeffizienten ß\ kann man folgende (1 — c*)-Vertrauensintervalle konstruieren:
V . I . { 6 o - i „ _ 2 i l - o / 2 - « » o i < ßl < 6l + < n - 2 ; l - a / 2 - S 6 1 } 1 _ a
Man kann selbstverständlich in bekannter Weise auch einseitige Vertrauensintervalle angeben.
14.1
Die eindimensionale lineare Regression
289
Beispiel: Für die Abhängigkeit des Sommerweizenertrags von der Stickstoßdüngung im Beispiel auf Seite 277 soll das 99%- Vertra. u en sin t er vail für den RegressionskoefBzienten ß\ berechnet werden. Mit sh = 0.0749 (vgl. Beispiel auf Seite 288) folgt: V.l. {¿>1 - t9;0.995 ' Sb! < ß\ 3.250 = 10.56 = t29.o.995 = i l , 9 ; 0 . 9 9
~l die Inverse der Standardnormalverteilungsfunktion und n der Stichprobenumfang. Die Standardnormalverteilung kann durch 4>-\K%) = 4.91 • (((ff%) 0 - 1 4 ) - ((1 - /i%)° 14 )) approximiert werden. Falls mehrere Residuen gleich sind, wird ihnen jeweils derselbe mittlere normal score
304
14
Regressionsanalyse
zugeteilt 4 . Die Güte der linearen Annäherung wird bekanntlich durch die Korrelation gemessen. Es bietet sich daher an, den Korrelationskoeffizienten zwischen den Residuen und deren normal scores zu testen, um die Normalverteilung zu überprüfen. Wenn die Korrelation nahe bei 1 ist (negative Korrelationen sind wegen der größenmäßigen Ordnung ausgeschlossen), dann ist eine Normalverteilung nicht von der Hand zu weisen, bei exakter Normalverteilung hätte man genau eine Gerade im Wahrscheinlichkeitsplot. Je mehr der Graph im Quantil-Quantil-Plot von einer Geraden abweicht, desto größer ist die Abweichung von der Normalverteilung. Das heißt, wenn der Korrelationskoeffizient deutlich kleiner als 1 ist, sind die Residuen nicht normal verteilt. Auf der Basis des PEARSONschen Korrelationskoeffizienten kann ein sehr mächtiger Test auf Normalverteilung ausgeführt werden. Er ist im wesentlichen dem ShapiroWilk-Test 5 äquivalent. Die Hypothese der Normalverteilung wird verworfen, wenn der berechnete PEARSON-Korrelationkoeffizient r die Anhangstabelle A.15 aufgeführten kritischen Werte r^rit. unterschreitet. Es sei noch angemerkt, daß dieser Normalverteilungstest nach SHAPIRO und W I L K nicht gleich dem allgemeinen ¿-Test des PEARSONschen Korrelationskoeffizienten ist. Somit sind auch die kritischen Korrelationen r^nt. beim SHAPIROWLLK-Test verschieden von den Zufallshöchstwerten r m a x (siehe Anhangstabelle A.13) beim ¿-Test der Korrelation. Beispiel: Für das Beispiel des Ertrags werden die Residuen aufsteigend geordnet und die entsprechenden Quantilwerte einer Standardnormalverteilung vom Umfang n = 11 berechnet. 0.9 1.4 1.5 3.0 4.3 4.9 8.0 C( 1 • (xii
~ xi) + b2 • (x2i
-
(14.64)
x2)
Damit erhält man für den Zähler:
{Vi ~
V)2 =
bl(xu
- x i ) 2 + 26 1 6 2 (xi i - x j ) ( x 2 i - x 2 ) +
b%(x2i
-
x2)2
n =>
- V)2 = t=l
61SQ*.
+
2
M a S P r i e a + Ò'SQ,
(14.65)
14.3
315
Die zweidimensionale lineare Regression
Multipliziert man Gleichung (14.61) mit bi und Gleichung (14.62) mit &2 und addiert die beiden Gleichungen, so erhält man: bjSQXl
+ 2 6 i 6 2 S P r i I , + 6 2 S Q l 2 = 6 i S P y i l + b2 S P y r ,
(14.66)
Für die erklärte Variation SQ Regression ergibt sich damit: n SQRegression = £ ( & " V ? = ¿ i S P , , , + 6 2 S P y r ,
(14.67)
i'=l
Diese Formel hat den Vorzug, daß auf der rechten Seite nur Terme stehen, die bereits zur Berechnung der Regressionsgleichung verwendet wurden. Für das Bestimmtheitsmaß B erhält man folgende, für die praktische Rechnung bequemere Formel: 5 =
6iSP
y g
+62SPyg,
( 1 4 6 g )
Man kann das Bestimmtheitsmaß B auch als Quadrat des sog. m u l t i p l e n Korrelationskoeffizienten r y y auffassen, wenn unter r y y die gewöhnliche Korrelation zwischen den j/,- und den y,-Werten verstanden wird. Man spricht von multipler Korrelation, weil ryy die Korrelation zwischen y und dem linearen Teil von y, der durch die Variablen x\ und x 2 zusammen erklärt wird, darstellt. Man kann leicht zeigen, daß folgende Beziehung gilt: SPyy •y/SQy • SQy
SPyy QRegression ' SQ y
_ ^iSPyg, + 62SP~ \/SQy
(14.69)
2
r yy- = B Bei der eindimensionalen Regression wurde gezeigt, daß B = r 2 y (vgl. Gleichung (14.18)). Es ist jedoch klar, daß im eindimensionalen Fall r z y = r y y gilt. In der englischsprachigen Literatur und in Ausdrucken von Computerprogrammen wird in der Regel der Begriff r 2 - bzw. kurz r 2 anstelle von Bestimmtheitsmaß B verwendet.
14
316 14.3.4
Regressionsanalyse
Hypothesentests
Test der Regression bzw. des B e s t i m m t h e i t s m a ß e s Um eine Testgröße zu erhalten, setzt man die mittlere Abweichungsquadratsumme der Regression MQ R e g r e s s i o n in Relation zur mittleren Abweichungsquadratsumme des Fehlers oder Rests MQ R e s t . Der SQ R e g r e s s i o n -Wert hat jetzt 2 Freiheitsgrade, der SQ R e s t -Wert hat n — 3 Freiheitsgrade. Daher ist MQ
R e g r e s s
=
,on
SQReg reSS n '° 2
und MQ R e s t = s | =
Unter der Annahme
der Nullhypothese Ho : ß\ = ß2 = 0 ist dann der Quotient
jp
_
MQRegression M Q
R e s t
^ _
SQ S Q
R e g r e s s
R e s t
/ ( n
;
o n
/2
— 3)
^
'
j
F-verteilt mit 2 Zähler- und n — 3 Nennerfreiheitsgraden. Die Alternativhypothese Hi lautet: Wenigstens ein ßi (i = 1,2) ist von Null verschieden. Dieser Test heißt globaler F - T e s t der Regression. Die obige Testgröße läßt sich auch durch das Bestimmtheitsmaß ausdrücken. MQ R F
° ~
sion
MQ R e s t
B • (n - 3)
/iA7U (14J1)
" (T35T2
F0 heißt daher auch F-Testgröße für das Bestimmtheitsmaß. Das Testschema zeigt Tab. 14.4. Testgröße:
M
„ °
QRegression M Q
R e s t
B
• (tl
(1 -
H0:
ft = ß2 = 0 bzw. 5 = 0
Hi.
Ablehnung von Ho, wenn
ßi ^
o
V ß2 # 0 bzw. B > 0
Fo > F 2 i „ _ 3 ; i - a
-
3)
B )
• 2
(Tab. A.5)
Tabelle 14.4: F-Test für das Bestimmtheitsmaß der zweidimensionalen Regression Die Zerlegung der Abweichungsquadratsumme SQ y bzgl. der Zielgröße y in SQRegression SQ R e s t wird häufig noch in einer Tafel der Varianzanalyse zusammengestellt.
14.3
Die zweidimensionale
Variationsursache
lineare
FG
MQ
2
^Qrtegression 2
n- 3
SQllest n —3
SQ
Regressionsebene
317
Regression
^Qïlegression &iSP y i l + 62 S P y i 2
Fehler oder Rest
SQRest
=
SQV — SQ R e K r e s s i o n Total
F SQltegression/^ SQ R est/(« - 3)
n- 1
SQtota! = S Qy
Test des Achsenabschnitts der Regressionsebene Analog zum Test des Achsenabschnitts der Regressionsgeraden kann man den Achsenabschnitt der Regressionsebene testen. Dies ist der Wert der abhängigen Variablen an der Stelle xi = X2 = 0, also y(0,0) = &o + &i • 0 + ¿>2 • 0 = 6oZur Prüfung von Ho: ßo = ß* (ß* ist ein vorgegebener Wert) verwendet m a n wie bei der eindimensionalen Regression eine ¿-verteilte Testgröße, die jedoch aufgrund einer weiteren Einflußgröße mit einem Schwellenwert, der einen Freiheitsgrad weniger hat, verglichen wird. Das Testverfahren verläuft nach Tab. 14.5. Test große:
,
10 =
b0
-
ß*
Ho
Ho'.
ßo=ß*
Hu
Ablehnung von Ho, wenn
ßo < ß*
to
ß*
tn-3;l-a
ßo^ß"
1*01 >
—tn-3;l-o (Tab. A.4)
tn-3;l-a/2
Tabelle 14.5: ¿-Test für den Achsenabschnitt der Regressionsebene Wichtig ist insbesondere wieder die Nullhypothese Ho- ßo = 0, d.h. die Hypothese, daß die Regressionsebene durch den Ursprung des von y, x\ und X2 aufgespannten Koordinatensystems verläuft. Test der partiellen RegressionskoefRzienten In einer zweidimensionalen Regressionsgleichung kann man die partiellen Regressionskoeffizienten einzeln testen, wenn das Bestimmtheitsmaß signifikant von Null verschieden ist. Diese Tests sind jedoch dann problematisch, wenn die "unabhängigen" Einflußgrößen x\ und X2 mehr oder weniger miteinander
14
318
Regressionsanalyse
korreliert sind. Diese Korrelation zwischen den Einflußgrößen, besonders wenn man mehrere Einflußgrößen betrachtet, wird auch als M u l t i k o l l i n e a r i t ä t bezeichnet. Die Tests sind nicht mehr unabhängig voneinander, sondern stellen bedingte Tests dar. Die Bedingung ist, daß die andere Variable in der Regressionsgleichung ist. Insofern stellen diese Tests sog. m a r g i n a l e T e s t s dar. Die Nullhypothesen lauten im zweidimensionalen Fall: Hn1^ : ß\ = /?,* I X2 ist in der Gleichung
bzw.
(14.72)
0
HQ
: ß2 = /?2 |
ist in der Gleichung
ß* und /?2 sind feste Werte. Häufig wird man die speziellen Hypothesen Hi1^ : ß\ = 0 I xn ist in der Gleichung
bzw.
H " , ' : Ä = 0 | X! ist in der Gleichung gegen entsprechende ein- oder zweiseitige Alternativhypothesen testen. Testgrößen toi sind jeweils ¿-verteilt mit n — 3 Freiheitsgraden: t o i
=
JJlK
b
i)2
i =
Die
(14.74)
Sb,
Dabei ist s j , die Standardabweichung des partiellen Regressionskoeffizienten 6,-. Die entsprechenden Formeln für die Standardabweichungen lauten:
sb.= 1
SR- J pQ
sb2 = s
R
X l
-. /
SQ
^ X 3
-SPl
^
ySQXlSQX2-SP2XlX2
=—
(14.75) '
K
i X 3
5—
(14.76)
Sjj ist wieder die mittlere Reststreuung M Q R e s t . Sie ist definiert als Quotient n
aus dem S Q R e s t - W e r t ^^(t/,- — y,) 2 und der Anzahl der Freiheitsgrade. Die An•=i zahl der Freiheitsgrade beträgt bei n Beobachtungen und m = 2 Einflußgrößen n — m — 1, also n — Z.
4
= M
Q r
, =
n—o
=
S Q
" '
(tlS
„P>--3+
n—ö
t
*
S P
'-
)
(14.77)
14.3
Die zweidimensionale lineare Regression
319
Die Einzeltests der partiellen Regressionskoeffizienten sind keine unabhängigen Tests, wenn die Einflußgrößen untereinander korrelieren. Dies ist in den meisten Anwendungen der Fall. Man muß daher bei der Kombination mehrerer Einzeltests oder entsprechender Vertrauensintervalle, die man ähnlich wie im eindimensionalen Fall bildet, vorsichtig sein. Dies gilt umso mehr, je mehr Einflußgrößen in der Regressionsgleichung vorkommen. Man darf also i.a. nicht für jeden Regressionskoeffizienten 6, einen name cl 'N' c2 'K' c3 'Ertrag' MTB > set 'N' DATA> 40 50 40 40 90 80 90 80 120 100 110 120 DATA> end MTB > set 'K' DATA> 50 50 60 60 80 100 70 70 100 80 90 90 DATA> end MTB > set 'Ertrag' DATA> 341 412 342 328 523 518 479 466 640 518 523 581 DATA> end
Die zweidimensionale Regressionsanalyse erfolgt mit dem regress-Kommando. Nach der abhängigen Variablen Ertrag muß die Anzahl der unabhängigen Variablen (hier 2) angegeben werden, gefolgt von diesen unabhängigen Variablen. MTB > regress 'Ertrag' 2 'N' 'K' The regression equation is Ertrag = 177 + 2.42 N + 1.37 K Predictor Constant N K
Coef 176.58 2.4156 1.3701
s = 27.89
Stdev 39.24 0.5119 0.8825
R-sq = 93.5'/.
t-ratio 4.50
P 0.000
4.72 1.55
0.000 0.155
R-sq(adj) =< 92.1'/.
Analysis of Variance SOURCE Regression Error Total
DF 2 9 11
SS 101015 7002 108017
SOURCE
DF
SEq SS 99140
N K
1 1
1875
MS 50507 778
F 64.92
P 0.000
14.3
Die zweidimensionale lineare Regression
321
Der Schätzwert des Ertrags bei fehlender TV- und /{"-Düngung ist 177 d t / h a . Eine zusätzliche Düngergabe von 1 kg/ha hat erwartungsgemäß beim Stickstoff eine höhere Ertragszunahme von ca. 2.4 d t / h a als beim Kalium von ca. 1.4 d t / h a zur Folge. Das Bestimmtheitsmaß R-sq beträgt 93.5%. Durch den hohen io-Wert von 64.92 läßt sich die Regression auf sehr kleinem Signifikanzniveau absichern. Ein von 0 verschiedenes ßo ist bei einem ¿-Wert von 4.50 auf sehr niedrigem Signifikanzniveau abzusichern. Der Test der partiellen Regressionskoeffizienten liefert mit dem i-Wert von 4.72 einen hochsignifikant von 0 verschiedenen Koeffizienten für die TV-Düngung. Der ¿-Wert für die A'-Düngung beträgt 1.55. Der p-Wert ist 0.155 und damit relativ hoch, d.h. die /\-Düngung hat keinen signifikanten Einfluß auf den Ertrag mehr, vorausgesetzt, die TV-Düngung wurde bereits berücksichtigt. Zum Vergleich der Ergebnisse wird nun die eindimensionale Regressionsanalyse jeweils für die Stickstoff- und Kalidüngung getrennt durchgeführt. MTB > regress 'Ertrag' 1 'N' The regression equation is Ertrag = 226 + 3.09 » Predictor Constant N
Coef 225.58 3.0875
s = 29.79
Stdev 24.91 0.2922
R - s q = 91.8'/,
t-ratio 9.06 10.57
p 0.000 0.000
R-sq(adj) = 91.0'/.
Analysis of Variance SOURCE Regression Error Total
DF 1 10 11
SS 99140 8877 108017
MS 99140 888
F 111.68
p 0.000
322
14
Regressionsanalyse
MTB > regress 'Ertrag' 1 'K' The regression equation is Ertrag = 106 + 4.89 K Predictor Constant K
Coef 105.83 4.8900
s = 49.32
Stdev 64.12 0.8337
R-sq = 77.5'/.
t-ratio 1.65 5.87
P 0.130 0.000
R-sq(adj) == 75.2'/.
Analysis of Variance SOURCE Regression Error Total
DF 1 10 11
SS 83692 24325 108017
MS 83692 2432
F 34.41
p 0.000
Die getrennt durchgeführten Regressionen führen zu verzerrten Ergebnissen. Der Ertragszuwachs beträgt pro kg TV-Düngung ca. 3 d t / k g und fast 5 d t / k g bei der Ä'-Düngung. In Wirklichkeit ist die Ertragsrelation qualitativ genau umgekehrt, d.h. die Stickstoffdüngung hat in der Regel einen viel größeren Einfluß auf den Ertrag. Dies liegt daran, daß N und K stark positiv miteinander korrelieren. Die Korrelation kann man mit dem c o r r e l a t i o n - B e f e h l berechnen. MTB > correlation cl-c3
K Ertrag
N 0.845 0.958
K 0.880
Die Korrelation zwischen N- und /^-Düngung beträgt also rjvjf = 0.845. Bei 10 Freiheitsgraden und a = 0.01 ist r ^ K signifikant verschieden von 0, denn der Zufallshöchstwert des PEARSONschen Korrelationskoeffizienten beträgt in diesem Fall 0.823 (vgl. Anhangstab. A.13). Infolgedessen genügt feist eine Variable, um den Ertrag zu beschreiben. Die eine Variable bzw. ihr Regressionskoeffizient übernimmt dann zusätzlich etwas vom Einfluß der anderen Variablen. Dadurch kommt es natürlich zu Verzerrungen. Die hohe Korrelation der beiden Einflußgrößen ist im vorliegenden Beispiel durch die Düngungspraxis bedingt. Bei hohen Stickstoffgaben werden in der Regel auch höhere Kaliumgaben verabreicht.
14.3
Die zweidimensionale lineare Regression
323
Würde man sich mit einer eindimensionalen Regressionsgleichung zufrieden geben, so wäre die Regressionsgleichung zwischen Ertrag und TV-Düngung vorzuziehen, da sie ein höheres Bestimmtheitsmaß bzw. ein kleineres MQ R e s t liefert. Statistisch betrachtet bringt die Aufnahme der Variablen Kalium keinen signifikanten Beitrag zur Varianzerklärung (vgl. Output für die zweidimensionale Regression). Dies kann man am ¿-Test ( t - r a t i o im MINITAB-Output) bzw. mit dem partiellen F-Test erkennen. Man kann aber durchaus aus sachlogischen Überlegungen heraus an der zweidimensionalen Regressionsgleichung festhalten, wenn man "weiß", daß auch die Kalidüngung einen Einfluß hat und man diesen Einfluß abschätzen will.
14
324
14.4
Regressionsanalyse
Multiple Regression in Matrizenschreibweise
Die multiple Regressionsanalyse läßt sich sehr einfach und elegant mit Hilfe der Matrizenschreibweise darstellen. Zunächst werden anhand der eindimensionalen Regression die Möglichkeiten der Matrizennotation gezeigt. Anschließend werden für die multiple Regression die wichtigsten Tatsachen und Formeln mit Hilfe von Matrizen zusammengestellt. 14.4.1
D i e eindimensionale Regression in Matrizenschreibweise
D a s Modell Die n Zufallsvariablen y,- bzw. ihre entsprechenden Beobachtungen, die Fehler e,- und die unbekannten Regressionskoeffizienten ßo und ß\ kann man folgendermaßen zu Vektoren zusammenfassen:
(
ffi \ m
( ex \ = y
(ft)-
e2
/
\ Vn
ß
(14.79)
\ e„ / y und e haben also n, ß hat zwei Komponenten. Die Werte xi,x2,... ,xn der unabhängigen Variablen werden in eine (n x 2)-Matrix X eingebaut, deren erste Spalte aus n Einsen besteht.
X =
f 1 1
*i\ X2
V 1
*n
(14.60)
Die Matrix X heißt Design-Matrix. Die n Modellgleichungen Vi - ßo + ß\Xi + et-
(i= l,2,...,n)
(14.81)
ergeben dann zusammengefaßt die Vektorgleichung: /
2/1 \
2/2
\ Vn /
(
ÄJ + Ä ® i + ei
ßo + ßix2 + e2
V ßo + ßlXn + en
\
(14.82)
14.4
Multiple
Regression
in
325
Matrizenschreibweise
Umgeformt: (
yi
(
\
3/2
\
1 Xl 1 X2
\ 1
Vn
(
*n /
ei
\
62
(Ä) +
(14.83)
V en /
Dies ist die Matrizengleichung: y = X-ß
bzw.
+ e
E (y) = X-ß,
(14.84)
weil E(e) = 0 ist. Parameterschätzung Das Prinzip der kleinsten Quadrate verlangt die Minimierung der Funktion n
Q = ^^ e?. In Vektorschreibweise entspricht dies der Minimierung von (y — X • i=1
ßY'(y—X'ß)- ' bedeutet Transponieren, also Zeilen- und Spaltenvertauschung. Wenn man diese Minimierung durchführt, so erhält man das folgende System der Normalgleichungen für die geschätzten Regressionskoeffizienten bo und &i (vgl. Abschnitt 14.3): n-b0
+
^
Xi
• bi =
y{
«=1
Ki=1
, 5 > ) '6° \l = l /
+
\i = l
/
(14.85)
E ® ^
61 =
Die Matrix dieses Gleichungssystems ergibt sich als das Produkt X' • X.
X'
X
=
1
1
X\
X2
/ 1
XX
1
x2
\
1
x
\
n
Ylxi
(14.86)
»
Die rechte Seite des obigen Systems kann folgendermaßen dargestellt werden: ( X ' . y = (
V
1
Xl
1 X2
-
...
x„
M J
Vi
\
Em
S/2
V
E Vn
)
xiy>
(14.87)
326
14
Regressionsanalyse
Mit b = (6o,&i)' hat das System der Normalgleichungen (14.85) folgende Darstellung: (X' • X) • b = X' • y
(14.88)
Ist det(X' • X) ^ 0, so kann das Gleichungssystem nach b aufgelöst werden. Formal geschieht dies durch Linksmultiplikation mit ( X ' • X ) - 1 . Man erhält: b = (X'
X)-1
(14.89)
-X'-y
X' • X ist immer dann nichtsingulär, also det(X' • X) / 0, wenn unter den Xi wenigstens zwei verschiedene sind. Die Notwendigkeit dieser Bedingung ist auch anschaulich klar, denn aus den Beobachtungen an einer einzigen Stelle kann der Richtungskoeffizient i>i der Regressionsfunktion nicht geschätzt werden. Es wird also im Folgenden angenommen, daß X' • X invertierbar ist. Das Gleichungssystem soll nun durch die Invertierung von X' • X gelöst werden, obwohl dies zur Berechnung der Regressionsgleichung alleine nicht notwendig ist und sehr viel mehr Arbeit als die Auflösung eines Gleichungssystems mit der GAUSS-Elimination bedeutet. Die Inverse von X' • X hat aber statistische Bedeutung, so daß ihre Kenntnis erwünscht ist. Durch Anwendung der Rechenregeln für Determinanten ergibt sich:
(14.90) n = n
'X 1=1
)
71
(14.91)
1 n
' lO®' ~
2
^ - 5 >
n
j
Die Schätzungen yi für den Mittelwert E(y, ) ergeben sich durch y = X • b.
14.4
Multiple Regression in
Matrizenschreibweise
327
Beispiel: Die lineare eindimensionale Regression soll nun für den Datensatz des Beispiels von Seite 277 durchgerechnet werden. Es ergibt sich: ( 1 80 \ / 56.2 \ 55.7 90 75.5 110 55.7 90 68.4 110 67.7 130 , X = y= 63.3 90 58.3 110 80.8 130 52.1 70 150 V 87.3 l 1 / Die Reihenfolge, in der die Paare (x,-,j/i) auftreten ist unwesentlich. Zusammengehörige Komponenten x,- und yi müssen jedoch in derselben Zeile stehen. Es ist: X'
X
_ ( 11 ~ V 1160
1160 \ 128200 J '
,
_ / V
721 78508
det(X' • X) = 11 • 128200 - 11602 = 64600 (X'-X)
-l
b = (X' -X)-1
1 64600
f 128200 -1160
-X' y =
-1160 \ _ f 1.98452 11 / V -0-01796
-0.01796 0.00017
1.98452 —0.01796 \ ( 721 \ -0.01796 0.00017 ) ' ^78508 )
21.1
\ 0.421 J Die Ergebnisse bo = 21.1 und b\ = 0.421 stimmen mit den früher Koeffizienten überein.
berechneten
D i e Tafel der Varianzanalyse Auch die in der Tafel der Varianzanalyse auftretenden Quadratsummen kann man mit Hilfe von Matrizen darstellen. Dabei soll 1' den Zeilenvektor mit n Einsen darstellen, also ( 1 , 1 , . . . , 1). Dann gilt: SQ y = X > - y ) 2 = £ y , ? - ™ 7 2 = i=l ¿=i (i'-y)2 1 = y • y-
(14.92)
14
328 SQRegression = ^ ( V i ~ V? = X ) % ~ 1= 1 ¿=1
Regressionsan alyse
=
(14.93)
(1 ' - y ?
Es ist (X b)' (X b) = b' X' X b = b' X' y, dab Lösung des Normalgleichungssystems ist. Man erhält also schließlich:
^Regression =
SQnest =
b' • X '
SQy -
SQ
•y
-
(l'y)2
R e g r e s s i o n
=
y'
(14.94)
y - b '
X '
(14.95)
y
Die Tafel der Varianzanalyse hat in Matrizenschreibweise die Form: Varianzursache
MQ
FG
SQ 2
Regression
b'-X'
y-(ì'
y) /n
1
Rest
tf.y-b'X'y
n—2
Total
y7 y - { V - y f / n
n- 1
F Regression
SQRegression SQRest
_
n-2
MQRest
„2
*
Beispiel: Für das Beispiel von Seite 277 berechnet man mit Hilfe der Matrizen Tafel der Varianzanalyse: Varianzursache Regression Rest Total
SQ 1043.3 294.1 1337.4
FG 1 9 10
MQ 1043.3 32.7
folgende
F 31.9
Die geringfügigen Unterschiede zur Tafel der Varianzanalyse auf Seite 291 beruhen auf Rundungsfehlern. Varianzen und Kovarianzen Es gilt: b = (X' • X)-1 • X' • y = (X' • X)-1 = ß + (X' • X ) - 1 • X' • e
-X'-{X-ß
+ e)
(14.96)
14.4
Multiple Regression in
Matrizenschreibweise
329
Also ist E(6) = ß, da E(e) = 0. Die Schätzwerte bo, 6i sind demnach erwartungstreue Schätzungen. Zur Berechnung der Varianz-Kovarianz-Matrix V(6) der geschätzten Regressionskoeffizienten geht man von folgender Definition aus:
V(», = rn - « • ( » - m
= ( c 5 X
)
^
Setzt man in die obige Darstellung b — ß aus (14.96) ein, so erhält man: V(6) = = = = =
E ( ( 6 - / ? ) . (6 - / ? ) ' ) = E((X' • X)-1 • X' • e • e> • X • (X' • X ) " 1 ) = (X' • X)-1 • X' • E(e • e') • X • {X' • X)~l = (X' • X)"! X' -(a2 I) X • (X' • X = 2 (r -{X' -X)-1
(14.98)
Die Varianz-Kovarianz-Matrix V(6) ist also ein Vielfaches der Inversen der Matrix des Normalgleichungssystems. Es folgt nun eine wichtige Eigenschaft der Residuen. Es gilt: ei = yi —
in Vektorschreibweise also: e = y — y
(14.99)
Nun ist X • b = y und X' • X • b = X' • y. Mit X' • X • b = X' • y folgt, wenn man die beiden Ausdrücke für X' • X • b voneinander subtrahiert: X'-(y-y)
= 0,
also: X' • e = 0
(14.100)
Die Gleichung stellt zwei lineare Bedingungen für die Komponenten von e dar. Aus der Annahme rg(X) = 2 folgt, daß die Komponenten linear unabhängig sind. n
Die erste Bedingung liefert speziell 1' • e = 0 oder ^ e j = 0. Das heißt, ¿=1 die Summe der Abweichungen von der Regressionsgeraden verschwindet. Die n
zweite Bedingung lautet ^ ^ i , e , = 0, was früher schon festgestellt wurde. i=i Schließlich sei noch die Varianz der Schätzung y* für den Mittelwert an der Stelle Xk berechnet.
330
14
Mit X
k
= (
Regressionsan alyse
¡ k j gilt:
Vk = 6 0 + 61** = ( 1
** ) • (
)
-6
(14.101)
Folglich gilt mit E(yjt) = X'k • ß: Var(yk) = = = = =
E((yk - E(yk)) • (yk - E(yk))') = E((X'k-b-X'k-ß)-(X'k.b-X'k-ß)') E(X'k-(b-ß)-(b-ß)'-Xk) = X'k-V(b)-Xk = (T2 • X'k • (X' • X)-1 • xk
= (14.102)
Var(j/jfe) ist selbstverständlich eine skalare Größe, denn es handelt sich um die Varianz des Schätzwerts an der Stelle xk.
Zur Berechnung eines Vertrauensintervalls für E(yk) braucht man einen Schätzwert für Var(yjfc). Man erhält diesen, indem in der obigen Formel a 2 durch die Schätzung s ^ ersetzt wird. 14.4.2
Die multiple Regression in Matrizenschreibweise
Die Matrizenschreibweise ist auf den multiplen Fall, daß die Zielgröße y von m Einflußgrößen (m > 2) linear abhängt, übertragbar. Das Modell In Verallgemeinerung der Verhältnisse im eindimensionalen Fall wird angenommen, daß sich der Erwartungswert E(y) der Zielgröße y als Linearkombination der m Einflußgrößen xk (k = 1 , 2 , . . . , m) mit den unbekannten Regressionskoeffizienten ßk darstellen läßt: E{y)=ßQ
+ ß1x1+ß2X2
+ ... + ßmxm
(14.103)
Der Vektor y ergibt sich aus E(y) durch Hinzufügen des Vektors e, des Vektors der Fehler an den n Beobachtungen. Also ist: y = E(y) + e = ß0 + ßixx + ß2x2 + ... + ßmxm
+ e
(14.104)
Es wird wie früher angenommen, daß e multivariat normalverteilt ist mit E(e) = 0 und Var(e) = er2 • I . Die letzte Gleichung sagt aus, daß die Fehler e,-
14.4
Multiple
Regression
in
Matrizenschreibweise
331
und ej zu zwei verschiedenen Beobachtungen y,- und yj unabhängig voneinander sind, und daß die Varianz für jedes e,- gleich er2 ist. Faßt m a n so wie in 14.4.1 die Beobachtungen y\, • • •, yn der abhängigen Variablen zu einem Vektor y, die Werte der unabhängigen Variablen x/Ci (xkt = i-te Beobachtung der Variablen Xk) zur n x ( m + 1)-Design-Matrix X mit t X
1 1
=
1
V
zi, n,
x
l n
\
x2i x
X
2
j
(14.105)
2 n
die Fehler c i ) C 2 , . . . , e n zu einem Vektor e und die Regressionskoeffizienten ßo,ßi, • • • ßm zu einem Vektor ß zusammen, so lautet das Modell: E ( y ) = X ß
bzw.
y = X ß + e
(14.106)
Schätzung der Parameter und Varianzen Nach dem GAUSSschen Prinzip der kleinsten Quadrate hat man Q = { y - X - ß ) ' - { y - X - ß )
(14.107)
zu minimieren. Notwendig für ein E x t r e m u m ist das Verschwinden der partiellen Ableitungen dQ/dßk für k = 0 , 1 , . . . , m. Mit ( dQ
dQ/dßo dQ/dßi
\
dQ/dßm
)
(14.108)
dß \ ergibt sich:
(14.109)
dQ/dß = 0 gesetzt, liefert das System der Normalgleichungen für den Vektor b der geschätzten Regressionskoeffizienten: (X'-X)-b
=
X'-y,
(14.110)
14 Regressionsanalyse
332
also formal das gleiche Gleichungssystem wie früher in 14.3.2. Wenn man zusätzlich annimmt, daß X den Rang m + 1 hat, dann ist X' -X nichtsingulär, die Matrix ( X ' • X)-1 existiert also, und es ist: b = (X'
X)~1
(14.111)
X' -y
Man nennt bk (k = 0 , 1 , . . . , m ) die geschätzten multiplen oder partiellen Regressionskoeffizienten. Sie haben folgende Bedeutung: Der Schätzwert y(xk) ändert sich um bk Einheiten, wenn die Variable xk um eine Einheit erhöht oder erniedrigt wird und die übrigen xk< (k' = 1,2,..., m\k' ^ k) festgehalten werden. Für den Residuenvektor e gilt ebenfalls wie bei der eindimensionalen Regression die Beziehung X' e = 0. Dies sind jetzt m + 1 linear unabhängige Gleichungen für die Residuen e,-. Genau wie im eindimensionalen Fall ergibt sich: E(6) = {X' • X)'1
• (X' • X) • ß = ß
V(6) = {X' • X)-1
• X' • 2 den Vertrauensbereich ein 1 — a V e r t r a u e n s e l l i p s o i d . Man könnte nun einwenden, daß man j a doch für jeden Koeffizienten ßk einzeln ein eigenes t-Vertrauensintervall aufstellen könnte, das Vertrauensellipsoid also überflüssig wäre. Die Grenzen der Einzel-Vertrauensintervalle haben die Form fr* ± r e a d ' f a e u l e . d a t ' 18 ROWS READ ROW
CI
C2
C3
1 2 3 4
2 2 2 2
10 10 10 16
13 11 3 26
MTB > MTB > MTB > DATA> DATA> MTB > MTB > DATA> DATA> MTB > MTB > DATA> DATA> MTB > MTB > MTB >
cl-c3
name c l ' 0 2 ' c2 'T' c3 ' F a e u l e ' name c4 '2'/.0' s e t '2'/.0' 6(1) 12(0) end name c5 '6'/.0' s e t '6'/,0' 6(0) 6(1) 6(0) end name c6 'IOC' s e t 'IOC' 3(1:0)3 end name c7 '2%0*10C' c8 '6y.0*10C' l e t '2'/.0*10C' = '2'/,0' * 'IOC' l e t '6'/.0*10C' = '6'/,0' * 'IOC'
359
14
360
Anschließend rechnet man eine fünfdimensionale
Regressionsanalyse
Regression.
MTB > regress 'Faeule' 5 '2'/,0' '6'/.0' 'IOC' '2'/,0*10C' '6'/.0*10C' The regression equation is Faeule = 17.3 + 5.67 2'/,0 + 1.00 6'/,0 - 9.33 IOC - 4.67 2'/.0*10C - 2..00 6'/,0*10C Predictor Constant 2'/.0 6X0 10C 2'/,0*10C 6'/,0*10C
Coef 17.333 5.667 1.000 -9.333 -4.667 -2.000
Stdev 3..115 4..405 4..405 4..405 6..230 6.,230
R-sq = 65.57,
s = 5.395
t-ratio 5.56 1.29 0.23 -2.12 -0.75 -0.32
P 0.000 0.223 0.824 0.056 0.468 0.754
R-sq(adj) = 51.1%
Analysis of Variance SOURCE Regression Error Total
DF 5 12 17
SS 661.78 349.33 1011.11
SOURCE 2'/,0 6'/.0 10C 2'/,0*10C 6'/,0*10C
DF 1 1 1 1 1
SEq SS 44.44 0.00 600.89 13.44 3.00
MS 132.36 29.11
F 4.55
Die Tafel der Varianzanalyse entspricht derjenigen im Beispiel auf Seite 78, bis auf die Zusammenfassung der zwei Faktoren und der Wechselwirkung zur erklärten Variation SQ R e g r e s s i o n . Bei Summation der sequentiellen SQ-Werte (SEQ SS) und der Freiheitsgrade für die Faktoren Sauerstoffgehalt (2'/,0 und 6'/.0), Temperatur (IOC) und der Wechselwirkung (2'/.0*10C und 6'/.0*10C) erhält man genau die nach den Faktoren aufgeteilten Variationen. Würde man auch die Dummy-Variable 10'/,0 und 16C sowie alle sechs möglichen Wechselwirkungsterme beim regress-Befehl mit angeben, dann würde MINITAB die Redundanz bzw. lineare Abhängigkeit erkennen und die überflüssigen Dummy-Variablen gar nicht erst aufnehmen.
14.7
14.7
Lineare Regression für nichtlineare
361
Meßdaten
Lineare Regression für nichtlineare Meßdaten
Bisher wurden lineare Modelle für die Abhängigkeit einer Zielgröße y von den Einflußvariablen x i , x 2 , . . . , x m angepaßt. In vielen Fällen ist es jedoch aus sachlogischen Gründen angebracht, nichtlineare Funktionen an die Meßwerte anzupassen und deren Parameter zu schätzen. In einigen besonderen Fällen kann nach einer geeigneten Datentransformation wiederum ein lineares Modell verwendet werden.
14.7.1
Polynome
Es sei folgender Zusammenhang zwischen der Zielgröße y und einer unabhängigen Variablen x angenommen: Ui = ßo + ßiXi+ß2X? + . . . + ß m x ? + e i
(i= l,2,...,n)
(14.145)
Dieser nichtlineare Zusammenhang kann auf eine lineare Beziehung zurückgeführt werden, wenn man folgende Transformationen vornimmt: Xi %2
= =
x X2
Xm
=
Xm
(14.146)
Das nichtlineare Modell (14.145) wird dadurch auf ein lineares multiples Regressionsmodell reduziert: Vi = ßo + ßixli+ß3Z2i
+ ... + ßmzmi
+ ei
( i = 1,2
n)
(14.147)
in einem
Stickstoff-
Beispiel: Die folgende Tabelle zeigt die Erträge von Winterweizen steigerungsversuch .
N [kg/ha] 0 20 40 60 80 100 120 140 160 180 200 Ertrag [dt/ha] 30.9 42.2 51.5 72.9 73.4 89.9 92.7 86.5 94.9 92.7 80.7 Die Datenanalyse
erfolgt mit MINITAB.
362 MTB > DATA> DATA> MTB > DATA> DATA> MTB >
Regressionsanalyse
14
set cl 30.9 42.2 51.5 72.9 73.4 89.9 92.7 86.5 94.9 92.7 80.7 end set c2 0 20 40 60 80 100 120 140 160 180 200 end name cl 'Ertrag' c2 'N'
Führt man eine lineare Regression mit der Stickstoffdüngung als ger und dem Ertrag als abhängiger Variablen durch, so erhält man Ergebnis, das durchaus sinnvoll zu interpretieren ist:
unabhängifolgendes
MTB > regress 'Ertrag' 1 'N' The regression equation is Ertrag = 45 .0 + 0.285 » Predictor Constant N
Coef 44.950 0.28532
s = 12.39
Stdev 6.990 0.05907
R-sq = 72.2'/.
t-ratio 6.43 4.83
P 0.000 0.000
R-sq(adj) =: 69.1%
Analysis of Variance SOURCE Regression Error Total
DF 1 9 10
SS 3581.9 1382.0 4963.9
Unusual Observations •bs. N Ertrag 11 200 80.70
MS 3581.9 153.6
Fit Stdev.Fit 102.01 6.99
F 23.33
Residual -21.31
P 0.000
St.Resid -2.08R
R denotes an obs. with. a large st. resid. Betrachtet man den Datensatz jedoch genauer, indem man beispielsweise das Streudiagramm zeichnet, so ist zu vermuten, daß die Beschreibung des Zusammenhangs mit einer quadratischen Funktion besser der Realität entspricht.
14.7
Lineare
Regression
für nichtlineare
363
Meßdaten
MTB > plot 'Ertrag' 'N' 100+ *
Ertrag
-
*
*
* *
75+
*
*
50+
- * 25+
0 Um eine Parabel und in die Spalte
40
80
anzupassen, werden geschrieben.
120 zunächst
160
200
die Stickstoffgaben
quadriert
c3
MTB > name c3 'N2' MTB > let 'N2'='N'**2 Nun erfolgt
eine zweidimensionale
Regressionsanalyse
mit den Variablen
N2. MTB > regress 'Ertrag' 2 'N' 'N2' The regression equation is Ertrag = 27.2 + 0.876 N - 0.00295 N2 Predictor Coef Constant 27.235 N 0.87582 N2 -0.0029525 s = 4.812
Stdev 3.666 0.08529 0.0004107
R-sq = 96.3'/,
t-ratio 7.43 10.27 -7.19
p 0.000 0.000 0.000
R-sq(adj) = 95.3'/.
S und
364
14
Regressionsanalyse
Analysis of Variance SOURCE Regression Error Total
DF 2 8 10
SS 4778.6 185.3 4963.9
SOURCE N N2
DF 1 1
SEQ SS 3S81.9 1196.7
HS 2389.3 23.2
F 103.17
P 0.000
Die Regressionsgleichung lautet dann: Ertrag = 27.2 + 0.876 • N - 0.00295 • N 2
Das Bestimmtheitsmaß ist größer als bei der eindimepsionalen Regression. Das zweidimensionale Modell gibt auch den Ertragsabfall bei hohen Stickstoffgaben richtig wieder. 14.7.2
Exponentialfunktionen
Wird ein exponentieller Zusammenhang zwischen der Zielgröße y und der unabhängigen Variablen x unterstellt, dann lautet das nichtlineare Modell: Vi=
-ei
(« = 1,2
n)
(14.148)
Der Fehler e,- geht also multiplikativ in das Modell ein. Logarithmiert man beide Gleichungsseiten, so folgt: log yi = log ßo + ßixi + löge,-
(14.149)
Mit Vi = log Vi. ß'0 = \ogß0
(14-150) und
e'i = log e,-
(14.151) (14.152)
erhält man eine lineare Beziehung, deren Parameter ß'0 und ßi über eine lineare Regression geschätzt werden können. Es wird angenommen, daß t\ normalverteilt und dementsprechend e,- logarithmisch normalverteilt ist. r / ^ ß ' o + ßixi+e'i
(14.153)
14.7
Lineare Regression für nichtlineare
Meßdaten
365
ßi kann direkt geschätzt werden. Die Umrechnung von ß'0 in das ßo von Gleichung (14.148) erfolgt dann durch Delogarithmieren von Gleichung (14.151). Beispiel: Die folgende Tabelle zeigt jeweils zwei Messungen des Bleigehalts c von Pßanzenproben, die in verschiedenen Abständen x von der Autobahn gezogen wurden. x [m] c(x) [mg/kg]
2 71.4 70.8
4 52.5 52.3
6 34.6 34.3
10 18.9 17.1
8 25.3 24.4
12 13.9 13.8
14 9.4 8.6
16 8.2 5.1
18 5.3 6.6
20 3.8 4.9
Die Abhängigkeit des Bleigehalts vom Autobahnabstand ist offensichtlich nicht linear (vgl. Bild 14.15). Es wird ein exponentieller Zusammenhang unterstellt. Nach dem Einlesen der Daten aus der ASCII-Datei BLEI. DAT in STATA werden die Bleigehalte logarithmiert. . infile Abstand Blei using blei.dat (20 observations read) . generate lnBlei=log(Blei) Danach erfolgt die Berechnung einer linearen Regression mit den Abständen und den logarithmierten Bleigehalten, die in der Variablen InBlei gespeichert sind. . regress InBlei Abstand (obs=20) Source I
SS
Model 1 16.4904848 Residual I .304894167 Total 1
16.795379
df
MS
1 16.4904848 18 .016938565 19 .883967314
Variable I Coefficient Std. Error -+— 1 InBlei Abstand 1 _cons 1 - + —
-.1580683 4.518252
Number of obs = F( 1, 18) Prob > F = R-square = Adj R-square _ Root MSE =
.005066 .0628676
t
Prob > Iti
20 973.55 0.0000 0.9818 0.9808 .13015 Mean 2.7795
-31,.202 71..869
0..000 0..000
11 1
14
366
Regressionsanalyse
Es ist also b'0 = In 60 = 4.518 und damit bo = e 4 5 1 8 = 91.7. Der Parameter 61 = —0.158. Die Schätzgleichung für c(x) lautet also: c(x) = b0 • eilX = 91.7 mg/kg • e" 0 - 158 m " l
c
Bild 14.15 zeigt den exponentiellen Zusammenhang
graphisch.
Bild 14.15: Bleigehalt von Pflanzen in Abhängigkeit vom Abstand zur Autobahn Aus dieser Beziehung kann man z.B. folgende interessanten Werte ableiten: 1. Die Bleikonzentration unmittelbar neben der Autobahn beträgt im Mittel: c(0) = 91.7 mg/kg • e " 0 1 5 8 m " , ' ° = 91.7 mg/kg 2. Auch den Halbwertsabstand xh, d.h. die Entfernung von der Autobahn, bei der die Bleikonzentration um die Hälfte abnimmt, kann man aus der Regressionsgieich ung schätzen: 2 ^ = 60 • eblX" =>-\n2 = hxH =>xH= _ x = 4.4 m l —U.15o m 1 3. Im empfohlenen Abstand von 50 m von der Autobahn, innerhalb dessen keine Pßanzen zum Verzehr angebaut werden sollen, beträgt der Bleigehalt noch:
c(50 m) = 91.7 mg/kg • e - ° 1 5 8 m " 1 ' 5 0
m
= 0.034 mg/kg
14.7
Lineare Regression für nichtlineare Meßdaten
14.7.3
367
Potenzfunktionen
Häufig besteht zwischen der unabhängigen Variablen x und der abhängigen Variablen y ein Zusammenhang, der durch eine Potenzfunktion gegeben ist: Vi = ß0 • z f 1 • e,- ( £ = 1 , 2
n)
(14.154)
Logarithmiert man beide Gleichungsseiten, so folgt: logi/i = log/?o + ßi logXi + löge,-
(14.155)
Mit Vi = logy.', x'i = logx i t ß'Q = logßo
(14.156)
und
(14.157)
e\ = log e,-
(14.158)
erhält man eine lineare Beziehung, deren Parameter ß'Q und ß\ wiederum über eine lineare Regression geschätzt werden können. (14.159)
y'i = ß'0 + ßix'i + e'i
ßi kann auch hier direkt geschätzt werden. Die Umrechnung von ß'0 in das ßo von Gleichung (14.154) erfolgt durch Delogarithmieren von Gleichung (14.157). Beispiel: Der Grundumsatz ist diejenige Energie, die ein Organismus ohne größere Leistung verbraucht. Die folgende Tabelle enthält die Körpermassen m einiger Lebewesen in kg und deren täglichen Grundumsatz E in kJ.
Maus Sperling Huhn Dackel Mensch Kuh Bulle
m [kg] 0.03 0.1 1.5 10 70 700 1000
E [kJ] 20 50 400 1700 7300 41000 53000
lgm -1.52 -1.00 0.18 1.00 1.85 2.85 3.00
lg E 1.30 1.70 2.60 3.32 3.86 4.61 4.72
368
14
Regressionsanalyse
100000
10000
s N S E
IOOO
TcDD c1_J33 C 100
10
.01
.1
1
10
Koerpergewicht [kg]
100
1000
Bild 14.16: Abhängigkeit des Grundumsatzes vom Körpergewicht (logarithmische Achsen) Bild 14.16 zeigt eine doppelt logarithmische Auftragung über dem Körpergewicht.
des
Grundumsatzes
Die Regression der Logarithmen wird mit MINITAB durchgeführt. MTB > set cl DATA> DATA> MTB > DATA> DATA> MTB > MTB > MTB >
0.03 0.1 1.5 10 70 700 1000 end set c2 20 50 400 1700 7300 41000 53000 end let c3=logten(cl) let c4=logten(c2) name cl 'm' c2 'E' c3 'lg m' c4 'lg E'
14.7
Lineare Regression für nichthneare
Meßdaten
369
MTB > regress 'lg E' 1 'lg m' The regression equation is lg E = 2.46 + 0.757 lg m Predictor Constant lg m
Coef 2.46119 0.757405
s = 0.008728
Stdev 0.00376 0.001997
t-ratio 654.07 379.24
P 0.000 0.000
R-sq(adj) = 100.0'/.
R-sq = 100.0'/.
Analysis of Variance SOURCE Regression Error Total
DF 1 5 6
Die Abhängigkeit 2 46
SS 10.957 0.000 10.958
MS F 10.957 143824.33 0.000
des Grundumsatzes
E(m) = 10 - • m
0 757
= 288 • m
0 757
vom Körpergewicht
p 0.000
ist also:
.
In der Literatur ßndet man die Beziehung: E(m) = 293 • m ° 75 Die vorliegende Dreiviertelpotenz
Körpergröße bezeichnet6.
6 KlRCHGESSNER
des Körpergewichts
M . 1982: Tierernährung. DLG-Verlag.
wird als m e t a b o l i s c h e
14
370
14.8
Regressionsanalyst
Die eigentliche nichtlineare Regression
Im letzten Kapitel wurden sogenannte quasilineare Regressionsmodelle besprochen, also nichtlineare Zusammenhänge, die durch Transformationen au: lineare Modelle gebracht werden können. In diesem Kapitel werden echte nichtlineare Zusammenhänge angeschnitten, die nicht durch lineare Regressionsfunktionen beschreibbar sind. Gegeben sei eine Beobachtungsreihe von n Wertepaaren (x,-, y,), die bezüglich einer bekannten nichtlinearen Funktionsvorschrifi yi = f ( x i ) in Zusammenhang stehen. Nach der Methode der kleinsten Quadrate sind die Parameter der Funktion / so zu bestimmen, daß die Summe dei Abweichungsquadrate minimal ist: n
SQaest = £ ( y . - - / ( z . ) ) 2 — min «=i
(14.160
Die Funktionswerte / ( i j ) der nichtlinearen Schätzfunktion entsprechen dei erwarteten Schätzwerten j/,-. Die Schätzfunktion muß aus sachlogischen Be gründungen vorgegeben sein. Ein Beispiel ist die negative Wachstumsfunktion /(*,•) = W = & o - ( l - e - i i r < )
i= 1,2,...,»»
(14.161
Die Methodik der nichtlinearen Regression ist folgende: Ausgehend von de vorliegenden Schätzfunktion / werden ebenfalls aufgrund von a priori Informa tionen Startwerte für die Koeffizienten 6o und &i vorgegeben. Mit bestimm ten Iterationsverfahren, wie G A U S S - N E W T O N , M A R Q U A R D T - M e t h o d e , Gradi entenverfahren, Sekantenverfahren u.a. 7 , werden diese Anfangswerte der Koeffi zienten so verändert, daß die Abweichungsquadratsumme der Fehler minimier wird. In jedem Iterationsschritt fordert man: SQRest(*(0) + k - A ) < SQRest(&(°)) Dabei ist
(14.162
= (& 0 ,&i.-..)'
der Startvektor der Koeffizienten. Die Veränderun A des Koeffizientenvektors differiert je nach Methode. Ein Iterationsverfahre: ist beendet, falls die Fehlerabweichungsquadratsumme nicht mehr verkleinei werden kann. Die nichtlineare Regressionsschätzung liefert zwar ein formale Bestimmtheitsmaß, das aber keine statistische Bedeutung besitzt. Somit sin auch statistische Tests der Koeffizienten bzw. der Regression nicht durchfüh] bar. Bei der nichtlinearen Regression können zusätzlich verschiedene Problem« wie Divergenz, Unstetigkeit, lokales Minimum, extrem lange Laufzeiten de 7 Computerprogramme usw.Einführung auftreten. v g l . z.B. STOER J. 1972: in die Numerische Mathematik I. Springer Verlt Berlin-Heidelberg.
Kapitel 15 Zeitreihenanalyse 15.1
Darstellung und Analyse empirischer Zeitreihen
Eine Zeitreihe {y(i)}t=i,2,...,n ist ein Satz von Beobachtungen zu aufeinanderfolgenden Zeitpunkten t. Jede Beobachtung besteht aus einem quantitativen Wert y(t) zu einem diskreten Zeitpunkt t der quantitativen Messung. Für y(t) findet man häufig auch die Schreibweise yt. Beispiele für Zeitreihen aus den verschiedensten Wissenschaftsbereichen sind: • Bierabsatz der Staatsbrauerei Weihenstephan • Weizenerträge im Straubinger Gäuboden • Marktpreise für Schlachtvieh • Wasserstände eines Flusses oder Sees • EKG-, EEG-Meßreihen • Temperatur-, Luftdruck-, Windstärke- u.a. klimatische Messungen • Börsenkurse • Arbeitslosenzahl in Deutschland • Bevölkerungszahlen • Bruttosozialprodukt • Lohnquote Bei der Zeitreihenanalyse werden die beobachteten Zeitreihen statistisch analysiert, um die zeitliche Entwicklung der Produktion, der Preise, der Aktienkurse, der Beschäftigungsrate usw. festzustellen. Die Reihenfolge der Beobachtungswerte spielt bei der statistischen Analyse von Zeitreihen im Gegensatz zu anderen statistischen Analysemethoden eine wichtige Rolle. Eine zweite entscheidende Rolle kommt der gegenseitigen Abhängigkeit der beobachteten Werte im Zeitverlauf zu. Man spricht von R e i h e n - K o r r e l a t i o n oder A u t o korrelation. An der Börse beispielsweise ist es nahezu unmöglich, daß die Aktienkurse an aufeinanderfolgenden Tagen ein Rekordhoch und ein Rekordtief erreichen. Vielmehr folgt einem hohen Kurs i.a. auch am nächsten Tag ein hoher Kurs. Eine nachfolgende Zeitreihenbeobachtung ist also i.a. abhängig von den vorhergehenden Zeitreihenwerten, die Zeitreihe ist autokorreliert. Ziel der Zeitreihenanalyse ist die Erfassung und statistische Auswertung des zeitlichen Verlaufs sowie der Zusammenhänge der beobachteten Zeitreihenwerte (Deskription), um aufgrund eines stochastischen Modells (Modellierung) zukünftiges Verhalten vorherzusagen (Prognose).
15
372 15.1.1
Zeitreihenanalyse
Der Zeitreihenplot
Der erste Schritt einer Analyse von Zeitreihen ist die graphische Darstellung in einem eindimensionalen Zeitreihenplot oder Zeitdiagramm. Beispiel: In einem Versuch von Januar 1962 bis Dezember 1975 wurde die monatliche MUchproduktion von Kühen (in Pfund/Kuh) ermittelt. Es liegen 168 Daten in einer ASCII-Datei MILK.DAT in folgender Form vor1: 589 742 604 677 837 701 750 942 809 828 966
561 716 611 635 817 706 707 913 810 778 937
640 660 594 736 767 677 807 869 766 889 896
656 617 634 755 722 711 824 834 805 902 858
727 583 658 811 681 734 886 790 821 969 817
697 587 622 798 687 690 859 800 773 947 827
640 565 709 735 660 785 819 763 883 908 797
Die Daten werden in MINITAB
599 598 722 697 698 805 783 800 898 867 843
568 628 782 661 717 871 740 826 957 815
577 618 756 667 696 845 747 799 924 812
553 688 702 645 775 801 711 890 881 773
582 705 653 688 796 764 751 900 837 813
600 770 615 713 858 725 804 961 784 834
566 736 621 667 826 723 756 935 791 782
653 678 602 762 783 690 860 894 760 892
673 639 635 784 740 734 878 855 802 903
eingelesen.
MTB > name c l ' m i l k ' MTB > s e t ' m i l k . d a t ' c l milk 589
561
640
656
.
.
.
Das Kommando t s p l o t (time series plot) plottet die Werte einer Spalte gegen ihre Zeilennummer, wobei der durch die erste Zeile festgelegte Punkt durch das Zeichen 1, der durch die zweite Zeile festgelegte Punkt durch das Zeichen 2 usw. dargestellt wird. Der zehnte Punkt wird mit 0, der elfte mit A, der zwölfte mit B usw. bezeichnet. Wird vor der zu plottenden Spalte eine Periode K angegeben, so wird ab dem K+l-ten Wert wieder mit 1 begonnen. Im vorliegenden Fall ist es sinnvoll, eine Periode von 12 anzugeben, da die Daten monatlich erhoben wurden.
' D a t e n aus CRYER J . D . 1986: T i m e Series Analysis. D u x b u r y Press Boston. S. 269.
15.1
Darstellung und Analyse empirischer Zeitreihen
373
MTB > t s p l o t 12 ' m i l k '
milk
900+
S 750+ -
5 5
S 6
6 6
34
3
4 - 3 7 600+ 1 8 - 2
34
7
7
7
1 8
1 90 B 2 A
0
6
4
12
8
OB 9 A
12
8 90 B A
B 2 90A
24
36
48
milk
900+ 5 5 -
56
6 4
750+
34
- 1
7 8 90A
-
7
3
4 7
7
3 8
8 2
6
4
3 1 B
5 6
1 90 B 2 A
0 B1 9 A 2
72
84
8 90 B A
2
600+
48
60
96
374
Zeitreihenanalyse
15
milk S 5 900+
5
6 6
34
34 7
7
1
-
0 B 2 9
90 B 2 2
4 3
1
1 8
750+
6 7 8
8 34
5 6
7
8 90 B1 A
A
B 2
90 A
A
600+
96
108
120
milk 56
5
6 900+
34
7
34
8 -
8
1
1
O B
90 B -
2
7
A
9 A 2
750+
600+
+
+
+
144
156
168
132
144
15.1
Darstellung und Analyse empirischer Zeitreihen
375
Durch Angabe der Periode 12 werden alle Januarwerte mit 1, Februardaten mit 2, . . . , Oktoberdaten mit 0, Novemberwerte mit A und Dezemberdaten mit B gekennzeichnet. Die Milchleistung schwingt ziemlich gleichmäßig hin und her. Im Sommer steigt sie an, im Winter nimmt die Milchleistung wieder ab. Verbindet man nur gleiche Ziffern bzw. Buchstaben, also gleiche Monate, dann kann man bereits aus dem Zeitdiagramm einen linearen Zuwachs oder Trend der Milchleistung im Laufe der Jahre feststellen. 15.1.2
Empirische M o m e n t e
Wichtiges Mittel zur Analyse von Zeitreihen ist die Bestimmung statistischer Kennzahlen, insbesondere der Momente erster und zweiter Ordnung. Allerdings ist die Berechnung dieser Kennzahlen nur für s t a t i o n ä r e Zeitreihen sinnvoll. Die Grundaussage der Stationarität ist, daß sich die stochastischen bzw. statistischen Gesetze und Kennzahlen der Zeitreihe, wie z.B. Mittelwert, Varianz oder Kovarianz, nicht wesentlich verändern, wenn man beliebige Teilreihen herausgreift. Die genaue mathematische Definition der Stationarität wird später gegeben. Das a r i t h m e t i s c h e M i t t e l der Zeitreihe gibt den Durchschnitt aller n Zeitreihenwerte an:
" t=i Die Stärke der Schwankung um diesen Mittelwert mißt die empirische Varianz :
TL
^
"t=l
^
bzw. die S t a n d a r d a b weichung s =
(15.3)
Ein Maß der linearen Abhängigkeit zwischen zwei Stichproben ist die empirische Kovarianz bzw. die Korrelation (vgl. Kap. 13). Den Zusammenhang der Zeitreihenwerte innerhalb einer Zeitreihe gibt die Kovarianz bzw. Korrelation der Zeitreihe {y(f)} mit der um einen bestimmten Zeitabstand oder Lag l verschobenen Zeitreihe {y{t + l)} an. Dieser lineare Zusammenhang innerhalb der Zeitreihenwerte wird zur Unterscheidung (empirische) Autokovarianz bzw.
376
15
Zeitreihenanalyse
Autokorrelation genannt. Die Autokovarianz bzw. -korrelation ist abhängig vom Lag l und wird als Funktion des Lags ausgedrückt. Die (empirische) Autokovarianzfunktion einer Zeitreihe ist folgendermaßen definiert: 1
'(0 = " D ^ O "»)(»(W-F)
2
1=1
Der Graph der Autokorrelationsfunktion r(/) heißt Korrelogramm und ist ein wichtiges Instrument, zeitliche Abhängigkeiten in einer beobachteten Zeitreihe zu erkennen (Bild 15.1).
15.1
377
Darstellung und Analyse empirischer Zeitreihen ö o to a> o « o
r = .2
Lag 1
ö o _to a> o M O
r = -.2
c
Lag 1
-t->
£
p
o Ol o
Lag 1
gplot 'Absatz' 't'; S U B O lines 'FitTrend' 't' 12.0 •
Absatz
9.0
6.0
3.0 ^ 0.0
1 3.0
1 6.0
1 9.0
1 12.0
1 15.0
Wenn man nur einen linearen Trend berücksichtigt, wird die Zeitreihe sehr verzerrt durch eine Regressionsgerade geschätzt. Ein möglichst unverzerrtes Zeitreihenmodell sollte die Saisonkomponente beinhalten. In drei weiteren Spalten werden die Dummy-Variablen für die Quartale gespeichert und als Saisonkomponente zusammen mit der Trendkomponente in die Regression eingebracht.
384
15
Zeitreihenanalyse
MTB > name c8 'Fits' c9 'Resids' MTB > regress 'Absatz' 4 't' 'Q2' 'q3' 'q4' 'StdRes' 'Fits'; SUBC> residuals 'Resids'. The regression equation, is Absatz = 3.49 + 0.0650 t + 0.710 Q2 + 0.695 Q3 + 7.21 q4 Predictor Constant t q2 q3 q4
Coef 3.4950 0.065000 0.7100 0.6950 7.2050
s = 0.1714
Stdev 0.1088 0.009579 0.1215 0.1227 0.1245
R-sq = 99.8'/.
t-ratio 32.12 6.79 5.84 5.67 57.86
p 0.000 0.000 0.000 0.000 0.000
R-sq(adj) = 99. 7'/.
Analysis of Variance SOURCE
DF
SS
MS
F
p
Regression Error
4 11
36.129 0.029
1230.41
0.000
Total
15
144.517 0.323 144.840
SOURCE
DF
SEq SS
1
12.541
t q2
1
10.182
q3
1
23.499
q4
1
98.295
Die drei Komponenten a ) Trendkomponente: MTB > MTB > MTB > SUBC>
werden in den folgenden Plots getrennt m(t) = 3.495 + 0.0650 • t
name clO 'Trend' let 'Trend' = 3.495+0.065*'t' gplot 'Trend' 't'; lines 'Trend' 't'.
dargestellt.
15.1
Darstellung und Analyse empirischer Zeitreihen
385
4.55
3.50 ^ 0.0
1 3.0
b) saisonale Komponente: s(t)
1 6.0 =
0.710 •
1 9.0
Q2
+
1 12.0 0.695 •
Q3
1 15.0 +
7.205 • Q
MTB
>
name
e i l
MTB
>
l e t
'Saison'=0.710*'Q2'+0.695*'Q3'+7.205*'Q4'
'Saison'
MTB
>
g p l o t
'Saison'
' t ' ;
SÜBO
l i n e s
'Saison'
' t ' .
c) Fehler bzw. Restkomponente:
e(t)
Die Darstellung des Fehlers entspricht einem Residuenplot.
4
386
15
Zei treih en an aiyse
MTB > gplot 'Resids' 't'; SUBC> lines 'Resids' 't'.
0.25
Resids
0.00
-0.25
H 0.0
I 3.0
1 6.0
1 9.0
1 12.0
1 15.0
d) Originalzeitreihe = Summe a) + b) + c) Im folgenden Plot sind die beobachteten Verkaufswerte (k) und die erwarteten Schätzwerte bzw. Fits (B) bei diesem additiven Komponentenmodell dargestellt. MTB > g a p i e t ' A b s & t s ' >%> ' F i t s ' SUBC» liftSS ' F i t s ' ' t ' ,
>%>',
12.0 ••
Absatz
9.0
6 . 0 ••
3.0
+ 0.0
A
™ Absatz
vs. t
3.0 B =
6.0 Fits
9.0
12.0
15.0
vs. t
Das hohe Bestimmtheitsmaß von 99.8% und der Residuenplot weisen auf ein brauchbares Komponentenmodell hin. Eine eingehendere Analyse der Resi-
15.1
Daxstellung und Anedyse empirischer
Zeitreihen
387
duen müßte die Modellvoraussetzungen noch überprüfen. Mit dem Unterkommando predict ist eine Prognose zukünftiger Absätze, z.B. für das nächste Jahr, möglich. MTB > SUBC> SUBC> SUBC> SUBC>
regress predict predict predict predict
Fit 4.6000 5.3750 5.4250 12.0000
'Absatz' 4 't' 'Q2' 'Q3' 'Q4'; 17 0 0 0; 18 1 0 0; 19 0 1 0; 20 0 0 1.
Stdev.Fit 0.1285 0.1285 0.1285 0.1285
95'/. C.I. ( 4.3171, 4.8829) ( 5.0921, 5.6579) ( 5.1421, 5.7079) (11.7171,12.2829)
95'/. P.I. ( 4.1284, 5.0716) ( 4.9034, 5.8466) ( 4.9534, 5.8966) (11.5284,12.4716)
Für das erste Quartal des Folgejahrs wird ein Verkauf von 4.600 Mio. $, im zweiten Quartal von 5.375 Mio. $, im dritten Quartal von 5.425 Mio. $ und im letzten Quartal von 12.000 Mio. $ prognostiziert. 15.1.4
Residuenanalyse beim Zeitreihenmodell
Bei der klassischen Zerlegung in ein Komponentenmodell wird ein allgemeines Regressionsmodell herangezogen: Vt = ßo + ßixu + ßix2i
+ • •. + ßmxmt
+ et
(15.10)
Folgende Voraussetzungen müssen erfüllt sein: 1. et ist (0, (*)_ 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 0.9773
Tabelle A . l : Standardnormalverteilungsfunktion {x) und D(x), z.B. 0 ( 1 . 8 8 ) = 0.9699, < ¿ ( - 1 . 5 0 ) = 0.0668, D ( 1 . 0 1 ) = 0.6876
403
~P(x)
0.8690 Ö.SÖÖi 0.8714 0.8740 0.8764 0.8788 0.8812 0.8836 0.8858 0.8882 0.8904 0.8926 0.8948 0.8968 0.8990 0.9010 0.9030 0.9050 0.9070 0.9090 0.9108 0.9128 0.9146 0.9164 0.9182 0.9198 0.9216 0.9232 0.9250 0.9266 0.9282 0.9298 0.9312 0.9328 0.9342 0.9356 0.9372 0.9386 0.9398 0.9412 0.9426 0.9438 0.9452 0.9464 0.9476 0.9488 0.9500 0.9512 0.9522 0.9534 0.9545
Anhang
404 x
t ü t "Ü7 D.0222 2.02 0.0217 2.03 0.0212 2.04 0.0207 2.05 0.0202 2.06 0.0197 2.07 0.0192 2.08 0.0188 2.09 0.0183 2.10 0.0179 2.11 0.0174 2.12 0.0170 2.13 0.0166 2.14 0.0162 2.15 0.0158 2.16 0.0154 2.17 0.0150 2.18 0.0146 2.19 0.0143 2.20 0.0139 0.0136 2.21 2.22 0.0132 2.23 0.0129 2.24 0.0125 2.25 0.0122 0.0119 2.26 2.27 0.0116 2.28 0.0113 2.29 0.0110 2.30 0.0107 2.31 0.0104 2.32 0.0102 2.33 0.0099 2.34 0.0096 2.35 0.0094 2.36 0.0091 2.37 0.0089 2.38 0.0087 2.39 0.0084 2.40 0.0082 2.41 0.0080 2.42 0.0078 0.0075 2.43 0.0073 2.44 0.0071 2.45 0.0069 2.46 0.0068 2.47 0.0066 2.48 0.0064 2.49 0.0062 2.50
0.9770 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 0.9938
W
Ö.Ö556 0.9566 0.9576 0.9586 0.9596 0.9606 0.9616 0.9624 0.9634 0.9642 0.9652 0.9660 0.9668 0.9676 0.9684 0.9692 0.9700 0.9708 0.9714 0.9722 0.9728 0.9736 0.9742 0.9750 0.9756 0.9762 0.9768 0.9774 0.9780 0.9786 0.9792 0.9796 0.9802 0.9808 0.9812 0.9818 0.9822 0.9826 0.9832 0.9836 0.9840 0.9844 0.9850 0.9854 0.9858 0.9862 0.9864 0.9868 0.9872 0.9876
x I T
2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 2.60 2.61 2.62 2.63 2.64 2.65 2.66 2.67 2.68 2.69 2.70 2.71 2.72 2.73 2.74 2.75 2.76 ,77 78 .79 .80 .81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89 2.90 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99 3.00
Ö.ÖÖ6Ö Ö.SÖ4Ö TTSSSfr Ö.Ö88Ö
0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 0.0013
0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 0.9981 0.9982 0.9983 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9987
0.9882 0.9886 0.9890 0.9892 0.9896 0.9898 0.9902 0.9904 0.9906 0.9910 0.9912 0.9914 0.9918 0.9920 0.9922 0.9924 0.9926 0.9928 0.9930 0.9932 0.9934 0.9936 0.9938 0.9940 0.9942 0.9944 0.9946 0.9948 0.9948 0.9950 0.9952 0.9954 0.9954 0.9956 0.9958 0.9958 0.9960 0.9962 0.9962 0.9964 0.9965 0.9966 0.9968 0.9968 0.9970 0.9970 0.9972 0.9972 0.9974
Tabelle A.l: Standardnormalverteilungsfunktion 4>(x) und D(x), z.B. chisquare 51. 0.9500 68.6693
Die 95%-Fraktile der x 2 -Verteilung mit 51 Freiheitsgraden beträgt also 68.6693.
Fraktilen der
x2-Verteilung
407
F(x) 0.001 0.005 0.010 0.025 0.050
1 0.00 0.00 0.00 0.00 0.00
2 0.00 0.01 0.02 0.05 0.10
3 0.02 0.07 0.11 0.22 0.35
Anzahl 4 0.09 0.21 0.30 0.48 0.71
der Freiheitsgrade 5 6 7 0.21 0.38 0.60 0.41 0.68 0.99 0.55 0.87 1.24 0.83 1.69 1.24 2.17 1.15 1.64
8 0.86 1.34 1.65 2.18 2.73
9 1.15 1.73 2.09 2.70 3.33
10 1.48 2.16 2.56 3.25 3.94
0.100 0.250 0.500 0.750 0.900
0.02 0.10 0.45 1.32 2.71
0.21 0.58 1.39 2.77 4.61
0.58 1.21 2.37 4.11 6.25
1.06 1.92 3.36 5.39 7.78
1.61 2.67 4.35 6.63 9.24
2.20 3.45 5.35 7.84 10.64
2.83 4.25 6.35 9.04 12.02
3.49 5.07 7.34 10.22 13.36
4.17 5.90 8.34 11.39 14.68
4.87 6.74 9.34 12.55 15.99
0.950 0.975 0.990 0.995 0.999
3.84 5.02 6.63 7.88 10.83
5.99 7.38 9.21 10.60 13.82
7.81 9.35 11.34 12.84 16.27
9.49 11.14 13.28 14.86 18.47
11.07 12.83 15.09 16.75 20.52
12.59 14.45 16.81 18.55 22.46
14.07 16.01 18.48 20.28 24.32
15.51 17.53 20.09 21.95 26.12
16.92 19.02 21.67 23.59 27.88
18.31 20.48 23.21 25.19 29.59
F(x) 0.001 0.005 0.010 0.025 0.050
11 1.83 2.60 3.05 3.82 4.57
12 2.21 3.07 3.57 4.40 5.23
13 2.62 3.57 4.11 5.01 5.89
der Freiheitsgrade 15 16 17 3.48 3.94 4.42 4.60 5.14 5.70 5.23 5.81 6.41 6.26 6.91 7.56 7.26 8.67 7.96
18 4.90 6.26 7.01 8.23 9.39
19 5.41 6.84 7.63 8.91 10.12
20 5.92 7.43 8.26 9.59 10.85
0.100 0.250 0.500 0.750 0.900
5.58 7.58 10.34 13.70 17.28
6.30 8.44 11.34 14.85 18.55
7.04 9.30 12.34 15.98 19.81
7.79 10.17 13.34 17.12 21.06
8.55 11.04 14.34 18.25 22.31
9.31 11.91 15.34 19.37 23.54
10.09 12.79 16.34 20.49 24.77
10.86 13.68 17.34 21.60 25.99
11.65 14.56 18.34 22.72 27.20
12.44 15.45 19.34 23.83 28.41
0.950 0.975 0.990 0.995 0.999
19.68 21.92 24.72 26.76 31.26
21.03 23.34 26.22 28.30 32.91
22.36 24.74 27.69 29.82 34.53
23.68 26.12 29.14 31.32 36.12
25.00 27.49 30.58 32.80 37.70
26.30 28.85 32.00 34.27 39.25
27.59 30.19 33.41 35.72 40.79
28.87 31.53 34.81 37.16 42.31
30.14 32.85 36.19 38.58 43.82
31.41 34.17 37.57 40.00 45.31
Anzahl 14 3.04 4.07 4.66 5.63 6.57
Tabelle A.3: Fraktilen der x 2 -Verteilung, z.B. Xis;o.9 =
22
31
Anhang
408
0.001 0.005 0.010 0.025 0.050
30 11.6 13.8 15.0 16.8 18.5
40 17.9 20.7 22.2 24.4 26.5
Anzahl der 50 60 24.7 31.7 28.0 35.5 29.7 37.5 32.4 40.5 34.8 43.2
0.100 0.250 0.500 0.750 0.900
20.6 24.5 29.3 34.8 40.3
29.1 33.7 39.3 45.6 51.8
37.7 42.9 49.3 56.3 63.2
46.5 52.3 59.3 67.0 74.4
55.3 61.7 69.3 77.6 85.5
0.950 0.975 0.990 0.995 0.999
43.8 47.0 50.9 53.7 59.7
55.8 59.3 63.7 66.8 73.4
67.5 71.4 76.2 79.5 86.7
79.1 83.3 88.4 92.0 99.6
90.5 95.0 100.4 104.2 112.3
F(x)
Freiheitsgrade 70 80 39.0 46.5 43.3 51.2 45.4 53.5 48.8 57.2 51.7 60.4
90 54.2 59.2 61.8 65.6 69.1
100 61.9 67.3 70.1 74.2 77.9
64.3 71.1 79.3 88.1 96.6
73.3 80.6 89.3 98.6 107.6
82.4 90.1 99.3 109.1 118.5
101.9 106.6 112.3 116.3 124.8
113.1 118.1 124.1 128.3 137.2
124.3 129.6 135.8 140.2 149.5
1000 867.5 888.5 898.9 914.2 927.6
0.001 0.005 0.010 0.025 0.050
200 143.8 152.2 156.4 162.7 168.3
300 230.0 240.7 246.0 253.9 260.9
400 318.3 330.9 337.2 346.5 354.6
Anzahl der 500 600 407.9 498.6 422.3 514.5 429.4 522.3 439.9 534.0 449.1 544.2
Freiheitsgrade 700 800 590.0 682.0 607.4 700.7 615.9 709.9 628.6 723.5 639.6 735.3
900 774.5 794.5 804.2 818.7 831.4
0.100 0.250 0.500 0.750 0.900
174.8 186.2 199.3 213.1 226.0
269.1 283.1 299.3 316.1 331.8
364.2 380.6 399.3 418.7 436.6
459.9 478.3 499.3 520.9 540.9
556.1 576.3 599.3 623.0 644.8
652.5 674.4 699.3 724.8 748.4
749.2 772.7 799.3 826.6 851.7
846.1 943.1 9819.2 871.0 969.5 9904.3 899.3 999.3 9999.3 928.2 1029.8 10.95.0 954.8 1057.7 10181.7
0.950 0.975 0.990 0.995 0.999
234.0 241.1 249.5 255.3 267.6
341.4 349.9 359.9 366.8 381.3
447.6 457.3 468.7 476.6 493.0
553.1 563.9 576.5 585.2 603.5
658.1 669.9 683.5 693.0 712.8
762.7 775.2 790.0 800.2 821.4
866.9 970.9 1074.7 10233.8 880.3 985.1 1089.6 10279.1 896.0 1001.7 1107.0 10332.0 906.8 1013.1 1119.0 10368.1 929.4 1036.9 1143.9 10442.8
F(x)
Tabelle A.3: Fraktilen der x 2 -Verteilung, z.B. Xiooo;o.5 = 899-3
10000 9568.6 9639.4 9673.9 9724.7 9768.5
Fraktilen der
Verteilung
Fraktilen der Student- oder
409 t-Verteilung
Tab. A.4 enthält die Fraktilen der t-Verteilung für verschiedene Wahrscheinlichkeiten und Freiheitsgrade. Beispiel: Bei 6 Freiheitsgraden ist F(x) = 0.95 für x = 1.943, d.h. die 95%-Fraktile ist: 16;0.95 = 1.943 Die zweiseitige 95%-Fraktile bzw. die 95%-Grenze 7i5;o.95 bei 15 Freiheitsgraden ist gleich der einseitigen 97.5%-Frafcti7e i 15^975, denn es gilt die Beziehung: 7n;l-cr = tn-, l - a / 2 Also ist 7l5;0.95 = 7l5;l-0.05 = il5;l-0.025 = ^15;0.975 = 2.131 In MINITAB erfolgt die Berechnung der Fraktilen der t-Verteilung durch den Befehl invcdf mit dem Subkommando t und Angabe der Freiheitsgrade. MTB > invcdf 0.99; SUBC> t 29. 0.9900 2.4620 MTB > invcdf 0.995; SUBC> t 123. 0.9950 2.6164 Die 99%-Fraktile der t-Verteilung mit 29 Freiheitsgraden beträgt 2.4620. Die 99.5%-Fraktile bei 123 Freiheitsgraden ist