184 107 25MB
German Pages 315 [352] Year 1968
Allgemeine Methodenlehre der Statistik von
Dr. phil. Johann Pfanzagl P r o f . a n der U n i v e r s i t ä t K ö l n ii
Höhere Methoden unter besonderer Berücksichtigung der Anwendungen in Naturwissenschaften, Medizin und Technik Dritte« verbesserte Auflage Mit 41 Abbildungen
Sammlung Göschen B a n d 747/747a
Walter de Gruyter & Co • Berlin 1968 vormals G. J . Gdschen'sche V e r l a g s h t n d l u n g • J . G u t t e n t a g , V e r l a g s b u c h h a n d l u n g • Georg R e i m e r • K a r l J . T r ü b n e r • Veit & Comp.
Die Gesamtdarstellung umfaßt folgende Bände: Band I :
Elementare Methoden unter besonderer Berücksichtigung der Anwendungen in den Wirtschafts- und Sozialwissenschaften (Sammlung Göschen Band 746/746 a)
Band I I : Höhere Methoden unter besonderer Berücksichtigung der Anwendung in Naturwissenschaft, Medizin und Technik (Sammlung Göschen Band 747/747 a)
© Copyright 1967 b y Walter de Gruyter & Co., vormals GL J. GÖschen'sche Verlagshandlung — J. Guttentag, Verlagsbuchhandlung — Georg Reimer •— K a r l J. Trübner — Veit & Comp., Berlin 30. — Alle Rechte, einschl. der Rechte der Herstellung v o n Photokopien und Mikrofilmen, v o m Verlag vorbehalten. — Archiv-Nr. 7570678 — Satz und Druck: Walter de Gruyter & Co., Berlin 30. — Printed in Germany.
Inhaltsverzeichnis Seite
Einleitung
5
1 Die Wahrscheinlichkeit 1.1 1.2 1.3 1.4 1.5
6
Der Begriff der Wahrscheinlichkeit Das Additionstheorem Die bedingte Wahrscheinlichkeit Stochastische Unabhängigkeit; das Multiplikationstheorem. Zufällige Variable
. .
2 Häufigkeitsverteilungen 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8
13
Einleitung Die Binomialverteilung Die Hypergeometrische Verteilung Die Poissonverteilung Die Normalverteilung Das Wahrscheinlichkeitsnetz Die Zerlegung von Mischverteilungen Transformationen Einige Anwendungen in der technischen Statistik
3 Stichprobenfunktionen; Schätzung von Parametern
13 15 19 22 26 32 37 40 45
. . .
Punktionen zufälliger Variabler Funktionen normalverteilter Variabler 1 Funktionen normalverteilter Variabler I I Allgemeine Bemerkungen über Schätzfunktionen Die Schätzung von Funktional-Parametern; das Gesetz großen Zahlen Der Zentrale Grenzwertsatz Die maximum likelihood-Methode Die praktische Berechnung des m. l.-Schätzers
4 Normalverteilung; elementare Verfahren 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8
Einleitung Das Mutungsintervall für den Mittelwert Der Signifikanz-Test für den Mittelwert Allgemeine Bemerkungen über das Testen von Hypothesen Einseitige und zweiseitige Problemstellung Die Gütefunktion eines Tests Der Vergleich zweier Mittelwerte Die Kontrollkarte
5 Kleine Stichproben aus diskreten Verteilungen 5.1 5.2 5.3 1*
6 9 10 11 12
der
48 48 53 56 60 63 66 71 73
79 79 81 84 . . 89 93 95 98 101
103
Binomialverteilung: Test für p 109 Binomialverteilung: Mutungsintervall für p 114 Binomialverteilung: Vergleich zweier Wahrscheinlichkeiten. . . 117
4
Inhaltsverzeichnis
5.4 6.5 6.6
Seite Hypergeometrische Verteilung (Stichprobenpläne für qualitative Merkmale) 120 Polssonverteilung: Test und Mutungsintervall für den Mittelwert 123 Poissonverteilung: Vergleich zweier Mittelwerte 126
6 Verteilungsunabhängige Verfahren 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8
Einleitung Der Zeichentest Test und Mutungsintervall für den Median Der sogenannte „Test von McNemar" Tests für den Median einer symmetrischen Verteilung Der Vergleich zweier unabhängiger Stichproben Der Vergleich mehrerer unabhängiger Stichproben Der Vergleich mehrerer verbundener Stichproben
129
. . . .
7 Die x 2 -Methode; Kontingenztafeln 7.1 7.2 7.3 7.4 7.5
9 Regression und Korrelation 0.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 9.10
163
Die x'-Methode Die x'-Methode bei Abhängigkeit von einem Parameter . . . . Die Unabhängigkeit in einer Eontingenztafel Der Vergleich von r Stichproben Bin Test gegen Trend
8 N o r m a l Verteilung; höhere Verfahren 8.1 Einleitung 8.2 Test und Mutungsintervall für die Varianz 8.3 Der Vergleich zweier Varianzen 8.4 Test und Mutungsintervall für den Mittelwert 8.5 Prognose- und Toleranzintervalle 8.6 Vergleich zweier Mittelwerte: verbundene Stichproben 8.7 Vergleich zweier Mittelwerte: unabhängige Stichproben . . 8.8 Vergleich zweier Mittelwerte: unabhängige Stichproben, gleiche Varianz 8.0 Verbundene oder unabhängige Stichproben ? 8.10 Vergleich mehrerer Mittelwerte: unabhängige Stichproben . 8.11 Die Beurteilung linearer Kontraste 8.12 Die Komponenten der Streuung 8.13 Vergleich mehrerer Mittelwerte: verbundene Stichproben . 8.14 Zufällige Zuordnung 8.15 Versuchsplanung
129 131 133 135 138 147 154 159 163 168 177 185 190
193 193 194 196 201 205 210 . .212 un216 219 . . 223 231 235 . . 242 251 253
254
Die Regressionsanalyse 254 Prognoseintervall für x 263 Mutungsintervall für y 264 Das Bestimmtheitsmaß 267 Die Korrelationsanalyse 268 Der Schätzer des Korrelationskoeffizienten 270 Tests und Mutungsintervalle für Korrelationskoeffizienten . . . 272 Die Partielle Korrelation 275 Die Keihenkorrelation 277 Verteilungsunabhängige Verfahren 278
Tabellen Literatur Namen- und Sachverzeichnis
283 300 308
Einleitung Band II bringt vorwiegend solche Methoden, die an die mathematische Vorbildung des Lesers höhere Anforderungen stellen, als die des ersten Bandes. Da die hier behandelten Methoden vor allem in den Naturwissenschaften (inkl. Technik, Medizin, Psychologie) ihre fruchtbarsten Anwendungsgebiete finden, wurden auch die Beispiele überwiegend aus diesen Gebieten gewählt. Das Buch ist für den Praktiker geschrieben. Das Hauptgewicht wurde daher darauf gelegt, den Sinn und die logischen Grundlagen der einzelnen Methoden klar herauszuarbeiten und ihre Anwendung durch Beispiele zu illustrieren. Mathematische Ableitungen werden im allgemeinen nicht gegeben. Bewußt wurde mehr Gewicht auf verschiedene in den üblichen Lehrbüchern vernachlässigte Methoden gelegt und die Hypertrophie der Theorie kleiner Stichproben aus Normalverteilungen auf das der Praxis angemessene Maß eingeschränkt. Der Stoff aus gewissen Kapiteln von Band I wird als bekannt vorausgesetzt. Es sind dies insbesondere: Kapitel 2: Häufigkeitsverteilungen Kapitel 3: Parameter Kapitel 10: Statistische Fehler (insbesondere Abschnitte 10.1 und 10.5) Kapitel 12: Die rechnerische Behandlung des Zahlenmaterials. Jene Leser, die über gewisse Grundkenntnisse verfügen, werden Band II auch ohne Studium der angegebenen Kapitel aus Band I verarbeiten können. Nachstehende Übersicht zeigt die Abhängigkeit zwischen den einzelnen Kapiteln auf und kann als „Wegweiser" für die Lektüre dienen:
6
1 Die Wahrscheinlichkeit 1. Die Wahrscheinlichkeit 2. Häufigkeitsverteilungen 3. Stichprobenfunktionen ; Schätzung von Parametern 4. Normalverteilung; elementare Verfahren
5. Kleine Stichproben aus diskreten Verteilungen
6. Verteilungsunabhängige Verfahren 7. Die x 2 -Methode; Kontingenztafeln
Die Zitierung von Formeln des laufenden Abschnittes erfolgt durch Angabe der Nummer. Wird eine Formel aus einem anderen Abschnitt zitiert, so wird der Formelnummer die Nummer des betreffenden Abschnittes vorangestellt. [So ist z. B. mit Formel (3) die Formel des laufenden Abschnittes, mit Formel (4.2.3) die Formel (3) des Abschnittes 4.2 gemeint.] 1 Die Wahrscheinlichkeit 1.1 Der Begriff der Wahrscheinlichkeit Die Wahrscheinlichkeitsrechnung bildet die Grundlage für viele Methoden der mathematischen Statistik. Wir wollen uns hier mit dem Begriff der Wahrscheinlichkeit und der Wahrscheinlichkeitsrechnung nur insoweit auseinandersetzen, als dies für das Verständnis der grundlegenden Methoden der mathematischen Statistik notwendig ist. Eine sehr elementare Einführung in die Wahrscheinlichkeitsrechnung, die den Bedürfnissen des Statistikers beson-
1.1 Der Begriff der Wahrscheinlichkeit
7
ders entgegenkommt, bringt das Buch von Hodges jr. und Lehmann. Außerdem seien dem Leser folgende, nach steigender mathematischer Schwierigkeit gereihte Werke empfohlen: Parzen, Rényi, Gnedenko, Richter, Krickéberg, Loéve. Grundlegend für das Folgende ist der Begriff des Zufallsexperimentes, d. h. eines Experimentes, dessen Ergebnis vom Zufall abhängt. Mit der Formulierung, daß das Ergebnis eines Experimentes vom Zufall abhängt, soll natürlich nicht gesagt werden, daß der Ablauf des Experimentes nicht kausal bestimmt wäre. Diese Formulierung soll nur besagen, daß das Experiment so geartet ist, daß es unmöglich ist, das Ergebnis einer konkreten Realisation im voraus zu bestimmen. Die in der Praxis auftretenden Zufallsexperimente sind in der Regel beliebig oft wiederholbar, und zwar so, daß das Ergebnis einer Realisation des Experimentes von den Ergebnissen anderer Realisationen des gleichen Experimentes unabhängig ist. Dies ist jedoch keine wesentliche Eigenschaft des Zufallsexperimentes. Das obige Modell des Zufallsexperiinentes paßt nicht nur auf so einfache Situationen wie z. B. das Würfelspiel, sondern auch auf sehr komplexe Experimente in wissenschaftlichem Sinne: Es wird ein Versuchstier mit einem bestimmten Erreger infiziert und sodann nach einer ganz bestimmten Heilmethode behandelt. Die verschiedenen Realisationen des Experimentes bestehen darin, daß man verschiedene Versuchstiere (der gleichen Art) mit dem gleichen Erreger infiziert und nach der gleichen Heilmethode behandelt. Das Modell des Zufallsexperimentes ist aber auch auf Situationen anwendbar, auf die das Wort „Experiment" selbst nicht p a ß t : Mit einer Bohrmaschine werden Löcher gebohrt. Die verschiedenen Realisationen des „Experimentes" bestehen darin, daß vom selben Arbeiter mit der gleichen Maschine Löcher in gleichartiges Material gebohrt werden. Die Beobachtung des Zufallsexperimentes bezieht sich auf ein ganz bestimmtes Merkmal: bei dem Tierversuch z. B. darauf, ob die Krankheit tödlich verläuft oder nicht, beim Bohren auf den Durchmesser des gebohrten Loches. Wir greifen nun eine ganz bestimmte Menge A von Ausprägungen dieses
8
1 Die Wahrscheinlichkeit
Merkmals heraus und stellen bei jeder Wiederholung des Zufallsexperimentes fest, ob eine der herausgegriffenen Ausprägungen eingetreten ist oder nicht; wir stellen also beispielsweise fest, ob die Krankheit tödlich verlaufen ist. Bei stetigen Merkmalen müssen wir ein ganzes Intervall herausgreifen; wir beobachten also z. B., ob der Durchmesser des gebohrten Loches zwischen 3,00 und 3,01 mm liegt. Vielfach ist es zweckmäßig, eine Menge von Ausprägungen als Ereignis zu bezeichnen. Tritt beim Zufallsexperiment eine Ausprägung ein, die zur Menge A gehört, so sagt man auch, das Ereignis A sei eingetreten. Angenommen, es wäre unter n Wiederholungen n(4)-mal eine Ausprägung der Menge A aufgetreten. (Beispiel: Handelt es sich beim Zufallsexperiment um das Bohren eines Loches, so ist n die Anzahl der gebohrten Löcher und beispielsweise n(3,00—3,01) die Anzahl der Löcher, die davon einen Durchmesser zwischen 3,00 und 3,01 mm haben). n(A) heißt die Häufigkeit, n(A)ln die relative Häufigkeit des Auftretens von A. Es liegt intuitiv nahe, die relative Häufigkeit als Maß für die Wahrscheinlichkeit zu verwenden. Die Beobachtung langer Folgen unabhängiger Wiederholungen ein und desselben Zufallsexperimentes zeigt, daß diese sich so verhalten, als ob die daraus berechnete relative Häufigkeit gegen eine bestimmte Zahl streben würde. (Von Konvergenz im mathematischen Sinne kann man hier nicht sprechen, da es sich um empirisch gewonnene und damit endliche Folgen handelt.) Sehr oft wird man auf Grund gewisser Symmetrien eine sehr konkrete Vorstellung vom Wert dieser Zahl haben: Sind an einem Würfel keine besonderen Asymmetrien festzustellen, so wird man erwarten, daß jede der Zahlen 1 bis 6 in einer hinreichend großen Serie von Versuchen mit einer relativen Häufigkeit von annähernd 1/6 auftreten wird. Es läge also nahe, den Grenzwert der relativen Häufigkeit als Wahrscheinlichkeit zu definieren. Dieses „intuitive Gesetz der großen Zahlen" läßt sich empirisch natürlich nicht überprüfen. Eine exakte Begründung des Wahrscheinlichkeitsbegriffes legt diesen daher durch gewisse Axiome fest, genauso wie in der eukli-
1.2 Das Additionstheorem
9
dischen Geometrie die Begriffe Punkt, Gerade usw. durch Axiome festgelegt werden. Genauso wie es in der Geometrie eine Frage der Anwendung ist, unter welchen Umständen die axiomatisch eingeführten Begriffe hinreichend genaue Annäherungen an die Wirklichkeit darstellen, ist es eine Frage der Anwendung, ob der axiomatisch definierte Wahrscheinlichkeitsbegriff im Zusammenhang mit einer konkreten Folge von Zufallsexperimenten anwendbar ist oder nicht. Für eine ausführliche Diskussion des Wahrscheinlichkeitsbegriffes sei auf Richter, Kapitel 2, Seite 41—57 hingewiesen. 1.2 Das Additionstheorem Wir betrachten nun neben der Menge A von Ausprägungen noch eine dazu elementfremde Menge B von Ausprägungen (z.B. neben A: Durchmesser zwischen 3,00 und 3,01mm noch B: Durchmesser von 2,99 bis 3,00 mm ausschließlich). Bei einer einzelnen Realisation des Zufallsexperimentes kann dann höchstens A oder B, nicht aber beides gleichzeitig, eintreten. Unter „A + J5" wollen wir die Vereinigungsmenge von A und B verstehen (im obigen Beispiel also: Durchmesser zwischen 2,99 und 3,01 mm). Das Ergebnis eines Zufallsexperimentes liegt in {A + B), wenn es in A oder in B liegt. Es sei n{A) die Häufigkeit von A in einer Serie von n Realisationen, n(B) die von B. Dann ist n(A + B), die Häufigkeit von (A + B), gleich n(A) + n(B). Daraus folgt für die relativen Häufigkeiten: n(A+B) _ n(A) n(B) ^ n n n In Anlehnung an diese Gleichung fordert man die entsprechende Gleichung für die Wahrscheinlichkeiten: (2) P(A + B) = P(A) + P(B) *) (2) nennt man das Additionstheorem der Wahrscheinlichkeitsrechnung. Aus mathematischen Gründen wird dieses Additionstheorem nicht nur für zwei und damit endlich viele Summanden gefordert, sondern für beliebig (auch abzählbar unendlich) viele. *) Das Symbol ,, /'" stammt von „ProbabiUly
10
1 Die Wahrscheinlichkeit
Betrachten wir als Beispiel den idealen Würfel: A t sei das Auftreten der Augenzahl i. D a n n ist das Auftreten einer ungeraden Augenzahl gleichbedeutend mit Ax + A3 + As. Nach dem Additionstheorem gilt: + A3 + As) = PiAj) + P(A3) + P{AS). D a P{At) = 1/6 f ü r alle i = 1, 2 , . . . , 6, folgt aus dem Additionstheorem: P{AX + A3 + As) = 3 • 1/6 = 1/2, d. h., die Wahrscheinlichkeit f ü r das Auftreten einer ungeraden Augenzahl ist 1/2. Wir bezeichnen zwei Mengen von Ausprägungen A und Ä als komplementär, wenn sie einander ausschließen und zusammen alle möglichen Ausprägungen umfassen. Dann m u ß eine bestimmte Realisation entweder A oder Ä angehören, so daß n(A) + n{Ä) = n, also (3) v
n
^
n
In Analogie fordern wir: (4) P(A) + P{Ä) = 1 , d . h . , die Summe der Wahrscheinlichkeiten komplementärer Ereignisse ist 1. 1.3 Die bedingte Wahrscheinlichkeit Wir betrachten nun zwei Ereignisse A u n d B, die einander nicht notwendigerweise ausschließen. E s sei z. B. beim Würfel A das Ereignis „gerade Zahl" u n d B das Ereignis „Primzahl", dann ist A = + B = A2+ As-{- A5. Wird eine 2 gewürfelt, dann ist sowohl A als auch Brealisiert. Unter „AB" wollen wir den Durchschnitt der beiden Mengen verstehen, also jene Menge von Ausprägungen, welche sowohl zu A als auch zu B gehören. (Im obigen Beispiel die Ausprägung A2.) AB ist dann realisiert, wenn sowohl A als auch B realisiert sind. Wir betrachten nun eine Serie von n Realisationen. n{Ä) sei die Anzahl der Realisationen, bei denen A eingetreten ist (gleichgültig, ob dabei außerdem auch B eintrat oder nicht); n(AB) sei die Anzahl jener Realisationen, bei denen sowohl A als auch B eintrat. D a n n gilt:
1.4 Stochatische Unabhängigkeit; Multiplikationstheorem n(AE)_ = n
11
n(AB) _ n(A) n(A) n
Den Ausdruck n{AB)jn{A) können wir als relative Häufigkeit von B in der Serie jener Zufallsexperimente betrachten, bei denen A realisiert wurde, anders ausgedrückt, als die relative Häufigkeit von B unter der Bedingung A. Dementsprechend definiert man die bedingte Wahrscheinlichkeit von B gegeben A durch (2)
P{B\A) =
^ - ,
wobei natürlich P{A) > 0 sein muß. B e i s p i e l : Gegeben sei eine Urne mit 5 Kugeln, 2 weißen und 3 roten. Aus dieser Urne werden 2 Kugeln gezogen (ohne Zurücklegen). A sei „1. Kugel ist weiß", B sei „2. Kugel ist weiß", AB ist dann: „Beide Kugeln sind weiß". Offenbar ist P{A) = 2/5. Ferner gilt P(B\A) = 1/4, denn wenn die erste Kugel weiß war, dann besteht die Urne vor dem zweiten Zug aus 4 Kugeln, 1 weißen und 3 roten. Daher ist
Selbstverständlich kann man diese Wahrscheinlichkeit auch direkt errechnen. Es gibt j = - j — = 10 Möglichkeiten, aus den 5 Kugeln 2 herauszugreifen. Eine einzige dieser 10 Möglichkeiten führt zu AB (eben das Herausgreifen der beiden weißen Kugeln). Daher ist die Wahrscheinlichkeit, daß man bei zufälligem Herausgreifen von zwei Kugeln gerade die beiden weißen erwischt, gleich 1/101.4 Stochastische Unabhängigkeit; das Multiplikationstheorem Wir sagen, daß zwei Ereignisse A, B voneinander unabhängig sind, wenn das Auftreten von B von dem Auftreten oder Nichtauftreten von A nicht abhängt. Diesen intuitiven Begriff der Unabhängigkeit können wir durch folgende Definition präzisieren: Die Ereignisse A und B heißen stochastisch unabhängig, wenn (1)
P(B\A)=
P(B\A).
12
1 Die Wahrscheinlichkeit
Denken wir an die Häufigkeitsinterpretation der Wahrscheinlichkeit, so folgt aus dieser Definition, daß zwei Ereignisse nur dann unabhängig sind, wenn — in einer hinreichend langen Serie von Versuchen — das Ereignis B in der Teilserie jener Experimente, bei denen das Ereignis A realisiert wird, mit etwa der gleichen relativen Häufigkeit auftritt wie in der Teilserie jener Experimente, bei denen das Ereignis Ä auftaucht. Aus Formel (1) folgt, wie man leicht zeigen kann: (2) P(AB) = P(A) P(B) sowie P(B\A) = P(B). Die Beziehung (2) nennt man das Multiplikationstheorem der Wahrscheinlichkeitsrechnung. Selbstverständlich gilt das Multiplikationstheorem nicht nur für zwei, sondern für jede beliebige endliche Anzahl von Ereignissen, wenn diese stochastisch unabhängig sind. B e i s p i e l : Wir würfeln mit 3 Würfeln gleichzeitig. Das Auftreten der Augenzahl i beim 1. Würfel wollen wir mit A\, beim 2. Würfel mit A'i, beim 3. Würfel mit A'-' bezeichnen. Dann ist z. B. das dreifache Auftreten der Augenzahl 6 charakterisiert durch A'e Aß Ag". Da es vernünftig erscheint, anzunehmen, daß die Augenzahlen der drei Würfel voneinander unabhängig sind, gilt das Multiplikationstheorem:
P(A'e A'i '=i tisch normalverteilt
für n
Das Wesentliche am Zentralen Grenzwertsatz ist, daß die Verteilung der zugehörigen standardisierten Variablen stets gegen die Normalverteilung strebt, gleichgültig, wie die Verteilung der Xf beschaffen ist. Man muß beim Beweis des Zentralen Grenzwertsatzes allerdings sicherstellen, daß nicht eine einzelne unter den Variablen a;, dominiert und der Verteilung von z n ihren eigenen Charakter aufprägt. Dies k a n n
3.6 Der Zentrale Grenzwertsatz
67
z. B. durch Voraussetzungen über die Varianzen und die dritten Momente der Verteilungen geschehen. Sicherlich gilt der Zentrale Grenzwertsatz dann, wenn alle Verteilungen identisch sind und endlichen Mittelwert und endliche Varianz besitzen. Der an der mathematischen Seite dieses Problems interessierte Leser wird auf das Buch von M. Lo&ve verwiesen. Für endlich große n können wir aus dem Zentralen Grenzwertsatz folgern, daß die Verteilung von zn annähernd mit n
n
der Normalverteilung N { 2 u h £ o ü b e r e i n s t i m m t . Diese oo gegen die Verteilung 2V(0,1) strebt. Für große n stimmt daher die BinomiaJverteilung Bn(p) annähernd mit der Verteilung N(np, np(l-p)) überein; d . h . , es gilt:
3.6
Der Zentrale Grenzwertsatz
k +1/2 4-1/2 (1)
=
0
i
j/2w [/rap(l — p)
k + 1/2 — wp / n p (1 —• p)
69 a
e
(a;—n p) 2mp(i-p) dx = k — l ß — np
—
®
j/np(l — p)
wobei das Zeichen „ « " ausdrücken soll, daß die ersten beiden Ausdrücke von (1) nur annähernd gleich sind. Wie gut die Binomialverteilung mit der Normalverteilung übereinstimmt, hängt wesentlich von p ab, denn je stärker p vom Werte 1/2 abweicht, um so größer ist die Asymmetrie der Binomialverteilung, und um so größer muß n sein, um eine befriedigende Übereinstimmung mit der Normalverteilung zu erreichen. Als praktische Faustregel gilt, daß man die Binomialverteilung dann mit hinreichender Genauigkeit durch eine Normalverteilung approximieren kann, wenn n
>
9 p(i_p)
B e i s p i e l : Bei genetischen Anwendungen hat man oft mit der Verteilung Bn( 1/4) zu tun. Für n = 50 können wir diese Verteilung bereits durch eine Normalverteilung mit Mittelwert fi = 50 • 1/4 = 12,5 und Varianz oo gegen N(0,1). Also strebt auch die Verteilung von (k — a)//ö~
A
70
D
3 Stichprobenfunktionen; Schätzung von Parametern
2
•
Binomialverteilung
-
Normalverteilung
J V i
6
S
10
12
U
IS
18 20
22
Bild 27. Die Verteilung B n ( l / 4 ) und deren Approximation durch die Normalverteilung N (12,5, 9,375). 2i
26
— Poissonverteilung Normalverteilung
Bild 28. Die Poissonverteilung mit dem Mittelwert 10,7 und deren Approximation durch die Normalverteilung A'(10,7, 10,7). 10
12
Ii
16
IS
20
22
2i
gegen die Normalverteilung N(0,1) für a oo, wenn die zufällige Variable k nach einer Poissonverteilung mit dem Parameter a verteilt ist. Für große a gilt daher: (2)
7c!
g - o ev
0
k +
1/2 — o \
\/ä
/ k — 1/2 — a '
\[ä
3.7
Die maximum likelihood-Methode
71
Praktisch kann man die Poissonverteilung durch eine Normalverteilung approximieren, sobald a > 9. B e i s p i e l : Aus einer großen Zahl von Messungen ergab sich die Anzahl der Fadenbrüche pro 200 Spindelstunden mit 10,7. Es ist zu bestimmen, in welchem Bereich die Werte für die einzelnen Spindeln pro 200 Spindelstunden streuen werden. Einen Bereich, der 99% aller Einzelwerte umfaßt, erhalten wir aus: = 2,58, also k1 = ~ 1/2 + 10,7 + 2,58/10,7 ^ 19, — 2,58, also k0 = 1/2 + 10,7 — 2,58 /lÖ?7
3.
Die Anzahl der Fadenbrüche pro 200 Spindelstunden wird also fast immer zwischen 3 und 19 liegen.
8.7 Die maximum likelihood-Methode Wir haben in Abschnitt 5 die Unterscheidung von Funktional-Parametern und expliziten Parametern eingeführt. Die dort besprochenen Methoden bezogen sich auf die Schätzung von Funktional-Parametern. Für Binomial-, Poisson- und Normalverteilung kann das Problem der Parameter-Schätzung mit diesen Methoden gelöst werden, da die expliziten Parameter dieser Verteilungen entweder mit Funktional-Parametern identisch sind (Poisson- und Normalverteilung) oder aber eine bekannte Funktion bestimmter Funktional-Parameter sind (Binomialverteilung). Im folgenden wollen wir uns jedoch mit dem Problem der Schätzung expliziter Parameter im allgemeinen beschäftigen. Eine allgemeine Methode zur Schätzung expliziter Parameter ist die sogenannten maximum likelihood-Methode*). Wir betrachten eine Dichtefunktion f(x, &•), die von einem Parameter & abhängt. (Bei diskreten Verteilungen tritt wieder an die Stelle der Dichte die Wahrscheinlichkeit.) *) I m folgenden wollen wir „maximum likelihood" mit m. 1. abkürzen. Eine bestimmte Übersetzung dieses Ausdruckes hat sich noch nicht eingebürgert.
72
3 Stichprobenfunktionen; Schätzung von Parametern
Liegen n voneinander unabhängige Realisationen (xu x2>..., x„) der zufälligen Variablen x vor, so ist die Dichte dieser Realisationen gleich: L(xlt x2, ...,x„;
&) = f(xlt ff) f(x2, ff)... f(xn,
ff).
x2,..., xn; §) — bei festgehaltenen (xlt xt,..., xn) als F u n k t i o n von & betrachtet — heißt likelihood-Funktion. Unter gewissen Regularitätsvoraussetzungen h a t die likelihood-Funktion genau ein Maximum. Jenes •&, f ü r welches dieses Maximum angenommen wird, wollen wir mit •&(x1,..., xn) oder kurz mit # bezeichnen. Die zufällige Variable &(x1,..., x„) ist im allgemeinen f ü r alle n definiert. F ü r n -*• oo ist •& verteilt nach N[&, 1 /nj(#)], 1 (dlo S l o g /fix, ( * , # )ff)) " wobei j ( # ) - E , Man kann daher mit den l d& I in 4.2 entwickelten Verfahren f ü r nicht allzu kleine n leicht angeben, wie groß die Abweichung des Schätzers & von dem zu schätzenden P a r a m e t e r im R a h m e n einer vorgeschriebenen Sicherheitswahrscheinlichkeit maximal sein k a n n . Das Prinzip der m. 1.-Methode, als Schätzwert unter allen # jenes auszuwählen, bei welchem der tatsächlich beobachteten Stichprobe die größte Wahrscheinlichkeit zukommt, ist sehr anschaulich. Die eigentliche Rechtfertigung f ü r die m.l.-Methode ergibt sich jedoch daraus, daß die mit Hilfe dieser Methode gewonnenen Schätzfunktionen eine Reihe wünschenswerter Eigenschaften aufweisen. So k a n n man beispielsweise zeigen, daß es u n t e r gewissen Regularitätsvoraussetzungen keine Schätzer geben kann, die eine kleinere als die oben angegebene Varianz Ijnjlß) besitzen. F ü r w H>- oo haben also die m. l.-Schätzungen sicher die kleinstmögliche Varianz. Außerdem kann man zeigen, daß die m. l.-Schätzer auch f ü r endliche n die kleinstmögliche Varianz besitzen, falls es ü b e r h a u p t solche Schätzer gibt. m. l.Schätzer sind jedoch im allgemeinen nicht erwartungstreu.
3.8 Die praktische Berechnung des m. l.-Schätzers
73
Der an der Theorie der m. l.-Schätzer interessierte Leser wird auf Kendall und Stuart, Kapitel „Estimation: Maximum Likelihood", sowie Schmetterer, S. 221 ff. verwiesen. D i e m . l.-Methode
führt
zu
der
Methode
der
kleinsten
Quadrate, wenn normalverteilte Variable vorliegen und nur der Mittelwert von dem Parameter ff abhängt. In diesem Falle gilt nämlich: L(xt,...,
x n ; &)=
Die Maximierung von L(xv
i
1
- ^ r e -
na)
. . x
n
n
B
i-1
H^i-MW)'
; &) ist aber gleichbedeu-
tend mit der Minimierung von £ (xt — Anwendungen i =l der Methode der kleinsten Quadrate werden u. a. in Abschnitt 9.1 (S. 256) gegeben. 3.8 Die praktische Berechnung des m. l.-Schätzers Um die Berechnung von & zu erleichtern, betrachtet man statt der likelihood-Funktion L(xv . . ,,xn; ff) deren Logarithmus, beispielsweise mit der Basis e: log L f a , ...,x„;
ff)
=
n JS log f f a , & ) . i-l
D a der Logarithmus eine monoton wachsende Funktion ist, hat log L(xv . . x n ; •&) genau für den gleichen W e r t ff das Maximum wie L(xlt..., xn\ ff) selbst. Wir finden dieses Maximum, indem wir log L ( % , . . .,xn\ ff) nach ff differenzieren und die Ableitung Null setzen. So erhalten wir die m.
L-Gleichung:
Dies ist eine Gleichung, die es uns erlaubt, jenes für welches die likelihood-Funktion ihr Maximum annimmt, als Funktion von xv . . . , » „ darzustellen. Im allgemeinen hat
74
3 Stichprobenfunktionen; Schätzung von Parametern
diese Gleichung nur eine Lösung, und diese liefert tatsächlich das Maximum. Es gibt jedoch Ausnahmefälle, in denen diese Gleichung mehrere oder keine Lösungen hat. (Ein Beispiel für den erstgenannten Fall gibt v. d. Waerden, S. 155, Beispiel 24.) 1. B e i s p i e l :
_ (X—A)' 1 f(x> ß) = -7= e 2 . |/2ji
Gegeben sei eine Stichprobe xv ..., xn. Zu schätzen ist der Parameter ¡i. log /(x, fi) = — ^X
— log ][2n, also: ^
m. l.-Gleichung:
n £ («,• — ¡i) = 0 . p0 zu testen. Man kann zeigen, daß es am besten ist, die kritische Region (also jenen Bereich von k, in • B5C0,3l dem die Hypothese verworfen m^B5(0.5) wird) aus den großen k-Werten zu bilden. Dies ist auch sehr einleuchtend: Bild 36 zeigtdie Binomialverteilung B5(p) f ü r den Wert p = 0,3 und daneben für einen Wert p > 0,3. Wie man sieht, ist für p > 0,3 die Wahrscheinlichkeit bei den kleinen kWerten kleiner, bei den großen fc-Werten jedoch größer als für p = 0,3. Man wird daher am 0 1 2 3 4 s ehesten geneigt sein, aus großen k- BUd 36- ^ J 6 ^ 1 ^ ™ B , ( 0 , 3 ) un Werten auf p > 0,3 zu schließen. ' Wir geben wieder die Sicherheitswahrscheinlichkeit 0,99 vor, d. h., wir verlangen, daß die Hypothese — wenn sie richtig ist — nur in 0,01 aller Fälle verworfen wird. Dann haben wir die kritische Region so zu bilden, daß sie für p = p0 eine Wahrscheinlichkeit von 1 % besitzt. Wählen wir als kritische Region den Wert k — n, so besitzt dieser bei der Z?s(0,3) die Wahrscheinlichkeit 0,35 = 0,00243. Nehmen wir noch den Wert k = n — 1 dazu, d. h. bilden wir die kritische Region aus den beiden Werten 4 und 5, so besitzt sie die Wahrscheinlichkeit 0,03078. Wir können also die vorgeschriebene Irrtumswahrscheinlichkeit von 1% gar nicht exakt erreichen. Wir haben nur die Wahl zwischen einer Irrtumswahrscheinlichkeit, die etwa 0,24% ist, und einer
110
5 Kleine Stichproben aus diskreten Verteilungen
Irrtumswahrscheinlichkeit von 3,08%. Diese Erscheinung tritt nicht nur bei der Binomialverteilung auf, sondern bei allen diskreten Verteilungen. Praktisch geht man meist so vor, daß man vorschreibt, die Sicherheitswahrscheinlichkeit müsse mindestens 99% (die Irrtumswahrscheinlichkeit also höchstens 1%) betragen. Dementsprechend bestünde in unserem konkreten Beispiel die kritische Region nur aus dem Wert k = 5. Die Hypothese p = 0,3 wird also angenommen für k = 0,1,2,3,4 und abgelehnt für k = 5. Bei kleinen n und p nahe 0 oder 1 kann es vorkommen, daß bereits der extremste ¿-Wert (k. = 0 bzw. k = n) eine "Wahrscheinlichkeit besitzt, die größer als die zulässige Irrtumswahrscheinlichkeit ist. Würde es sich im obigen Beispiel der Bb(0,3) nicht um die Alternative p > 0,3, sondern um die Alternative p < 0,3 handeln, so bestünde die kritsche Region aus den kleinen fc-Werten. Der Wert k = 0 hat aber bereits eine Wahrscheinlichkeit 0,75 = 0,168 oder 16,8%. Man muß also entweder mit der Irrtumswahrscheinlichkeit 0,168 arbeiten oder, wenn die Irrtumswahrscheinlichkeit von 1% auf jeden Fall eingehalten werden soll, auch für k — 0 in einem Teil der Fälle die Hypothese annehmen. Dies geschieht durch sogenanntes Randomisieren: Man entscheidet im Falle k = 0 durch ein zusätzliches Zufallsexperiment, ob die Hypothese angenommen oder verworfen werden soll. Will man im konkreten Fall die Irrtumswahrscheinlichkeit von 1% einhalten, muß man die Hypothese mit der Wahrscheinlichkeit 0,01/0,168 = 0,06 verwerfen und mit der Wahrscheinlichkeit 0,94 annehmen. Dann erhält man genau die zugelassene Irrtumswahrscheinlichkeit von 1%. Praktisch wird ein solches Randomisierungsverfahren jedoch nur selten angewendet. Um die Hypothese p = p0 gegen die Alternative p > p0 mit einer Irrtumswahrscheinlichkeit von höchstens 1 % zu testen, bilden wir die kritische Region aus jenen k-Werten, für die i-k \ V
5 . 1 Binomialverteilung: T e s t für p
H l
Sind keine Tabellen für die Summenfunktion der Binomialverteilung verfügbar, so erweist sich die folgende Relation mit der auf S. 58 definierten Schranke der F-Verteilung Fa(m, n) von Nutzen*): I ( " W - ? ) " " ' = «, i-fc \l /
wenn (i)
'^
=
-7c +
2/c>"
Da Fa mit wachsendem a zunimmt, ist
J2
ln.) p'(l —
i=fc V1/
p)ng
0,01,
solange
Die kritische Region mit der Irrtumswahrscheinlichkeit 0,01 für die Hypothese p = p0 gegen die Alternative p > p0 besteht also aus allen jenen Werten k, für welche
(2)
-
-^t+j•
( 2 ( n
Sucht man umgekehrt einen Tost gegen die Alternative d < p0, so hat man die kritische Region aus den kleinsten k-Werten zu bilden: £
(n\ vi (1 — Po)n_i iS 0,01 .
i = 0 \%1 Es gilt:
wenn (3>
i = 0 \l t TTT'T^V
=
l),2(«-fc».
Genaueres über diese Relation findet der Leser z. B . bei
Haid,
S. 673 f f .
112
5 Kleine Stichproben aus diskreten Verteilungen
Wie oben überlegen wir uns, daß die kritische Region f ü r die Hypothese p = p0 gegen die Alternative p < p0 aus allen jenen k-Werten besteht, f ü r welche
Vielfach will man nicht einen einseitigen, sondern einen zweiseitigen Test, d. h. einen Test, der die Hypothese p = p0 nicht nur bei p > p0, sondern auch bei p < p0 verwirft. Es ist naheliegend, in diesem Falle die kritische Region aus den kleinen und aus den großen k-Werten zusammenzusetzen, so daß beide Teile der kritischen Region zusammengenommen eine Irrtumswahrscheinlichkeit von höchstens 1 % besitzen. Ganz analog h a t t e j a auch bei den im Abschnitt 4.3 besprochenen Tests der zweiseitige Test eine zusammengesetzte kritische Region: Die Hypothese war zu verwerfen, wenn — 2,58 ¡u0 + 2,58 cr/j/w oder x < Im Falle der Binomialverteilung ist allerdings die Frage, wie man die 1 % Irrtumswahrscheinlichkeit auf die obere und die untere Hälfte der kritischen Region verteilen soll, nicht von vornherein klar. Dieses Problem t r a t beim zweiseitigen Test f ü r ¡1 nicht auf, denn die Normalverteilung ist symmetrisch, u n d daher liegt es nahe, auch die kritische Region symmetrisch zu dem hypothetischen W e r t zu wählen, d. h. eben den Bereich / a0 zu testen, so wird man genau so wie bei der Binomialverteilung (Abschnitte 5.1 und 5.2) aus den größten k-Werten eine kritische Region vorgegebener Irrtumswahrscheinlichkeit (z. B. höchstens 1%) bilden. Um die kritische Region möglichst einfach bestimmen zu können, gehen wir ähnlich wie bei der Binomialverteilung vor: Aus der Relation (5.1.1) ererhaltcn wir durch den Grenzübergang , p = ajn: k -Tj- e"a = a , wenn — = / ^ . „ ( o o , 2£). a Nun ist aber Fi-«
(°°>
=
1 Fa(2k, oo)
xH2k)
'
5 Kleine Stichproben aus diskreten Verteilungen
124
Dabei ist die auf S. 57 definierte Schranke der yj-Verteilung mit 2k Freiheitsgraden. Daher gilt: 2
(1)
i-k
Da x l
m
~
11
e-° =
wenn 2a = xl (2 k).
i t sinkendem a abnimmt, gilt: JE -rr e~" sS a ,
solange 2a g
i= k
Die kritische Region für die Hypothese a = a0 gegen die Alternative a > a g zur Irrtumswahrscheinlichkeit a = 0,01 besteht also aus allen jenen Werten k, für welche (2) 2a0 Xo.oi (2fc) • Sucht man umgekehrt einen Test gegen die Alternative a < a 0 , so hat man die kritische Region aus den kleinsten k-Werten zu bilden. Ausgehend von (5.1.3) erhält man durch eine analoge Überlegung wie oben: Die kritische Region f ü r die Hypothese a = a gegen die Alternative a < a zur Irrtumswahrscheinlichkeit x = 0,01 besteht aus allen jenen Werten k, für welche 0
(3)
0
2 a 0 ^ jd,„(2(fc + l)).
Ein Mutungsintervall für a erhält man, indem man die Menge jener a bestimmt, die mit einen beobachteten Wert k verträglich sind, d. h. für die k nicht in der zugehörigen 00
gl
i-lc
11
kritischenRegion liegt. D a J ^ -.. e~a eine monoton wachsende Funktion von a ist, haben wir einfach jenen Wert a 0 zu be00
stimmen, für den 2
i= k
ßi
—?- e~a° = 0,01. Das Mutungsintervall Ii
mit dem Sicherheitskoeffizienten von mindestens 99% besteht dann aus allen Werten a > a0. Den Wert a 0 können wir jedoch einfach auf Grund der Relation (1) bestimmen. Es gilt: °o = y Xo,oi(2fc) • Das 99%-Mutungsintervall besteht also aus allen Werten (4)
5.5 Poissonverteilung: Test und Mutungsintervall
125
Auf analogem Wege erhält man ein 99%-Mutungsintervall, das a nach oben abschätzt: (5) Will man ein zweiseitiges Mutungsintervall, so kann man das Intervall 4"
(2^) ^ a ^ i
(2(& + 1))
wählen. Die Irrtumswahrscheinlichkeit dieses Intervalls kann zwar bis zu 2% betragen, wird aber im allgemeinen darunter liegen. Durch Interpolation der Freiheitsgrade ergibt sich das Mutungsintervall (6)
+
+
das — auf verschiedene Probleme angewandt — wenigstens im langfristigen Durchschnitt zu einer Irrtumswahrscheinlichkeit führt, die mit dem zugelassenen Wert von 2« gut übereinstimmt (vgl. S. 116). Für a = 0,5 erhält man aus (6) als Näherungsformel für einen mediantreuen Schätzer ä für a: 2 = y * o . « (2fc+l). 1. B e i s p i e l * ) : Um die Verunreinigung von Klee-Saatgut mit Flachs zu testen, wird eine Probe von 100 g gesät und die Anzahl k der aufgegangenen Flachssamen gezählt. Streng genommen hätten wir hier natürlich eine Binomialverteilung vor uns, aber n ist sehr groß und p verschwindend klein, so daß die Approximation durch eine Poissonverteilung außerordentlich genau sein wird. Angenommen, es wäre k = 0, d. h. es wären keine Flachssamen aufgegangen. Dann ist mit 99% Sicherheit a ^ 1/2 x§,99 (2) = 4,6, m. a. W.: Die durchschnittliche Zahl der Flachssamen pro 100 g Saatgut ist fast sicher kleiner als 4,6. Als Schätzwert für die Zahl der Flachssamen pro 100 g Saatgut erhalten wir mittels des oben angegebenen mediantreuen Schätzers:
ä = -i- z g, B (1) = 0,25.
*) Nach A. Bald-. Statistical theory, 4. Aufl. New York I960, S. 723.
126
5 Kleine Stichproben aus diskreten Verteilungen
2. B e i s p i e l : Auf S. 87 haben wir ein Beispiel behandelt, das letztlich darauf hinauslief, zu testen, ob das Ergebnis k = 5 aus der Binomialverteilung B203 (1/85) stammen kann. Eine endgültige Antwort auf diese Frage konnte dort nicht gegeben werden, da die Approximation durch eine Normalverteilung in diesem Falle streng genommen nicht erlaubt ist. Die exakte Behandlung der Binomialverteilung mit der in Abschnitt 5.1 besprochenen Methode führt auf eine F-Verteilung, die außerhalb des Bereiches unserer Tabelle liegt. Wir können jedoch die Binomialverteilung #203 (1/85) wegen der extrem kleinen Wahrscheinlichkeit sehr gut durch eine Poissonverteilung mit dem Parameter a0 = 203/85 = 2,39 approximieren und testen, ob der Wert k = 5 mit dieser Poissonverteilung verträglich ist. Nach den Formeln (2) und (3) besteht die (zweiseitige) kritische Region aus jenen Werten k, für welche 4,78 ^
xgM
(2*) oder 4,78 ^ *§,99 (2 (k + 1)).
Der Wert k = 5 gehört weder dem einen noch dem anderen Teil der kritischen Region an, denn es ist x§,oi (10) = 2,6 und Xo,99 (12) = 26,2. Dieser Test hat eine Irrtumswahrscheinlichkeit von höchstens 2%. Wir können daher sagen, daß die Beobachtungsergebnisse der Faustregel „1 Zwillingsgeburt unter 85 Geburten" nicht widersprechen. 5.6 Poissonverteilung: Vergleich zweier Mittelwerte Gegeben sind zwei Poissonverteilungen : tre-"> ™àiîe-a>Wir setzen a1 = X a2. Es ist die Hypothese X = X0 gegen die Alternative X > X0 zu testen. Einen Test f ü r diese Hypothese erhält man, wenn man die bedingte Verteilung von k x für gegebenes \ + k 2 = k betrachtet. Diese i s t : lie \ ( A \*i / 1 \ H \kJ\i+Xj \l+A/ ' also eine Binomialverteilung, die von dem Parameter a 2 unabhängig ist. Wie bezeichnen A T T T -
p
A„ _ ' T T T 0 ~ p°
5.6 PoissonsVerteilung: Vergleich zweier Mittelwerte
127
und führen so die Aufgabe, die Hypothese X = gegen die Alternative X > X0 zu testen, auf die in Abschnitt 5.1 gelöste Aufgabe zurück, die Hypothese p = p0 gegen die Alternative p > p0 zu testen. Aus den Ausführungen auf S. 109 folgt, daß wir die kritische Region aus den großen k-Werten zu bilden haben. Auch ein Mutungsintervall für X können wir auf diesem Wege gewinnen, indem wir nach Abschnitt 5.2 zunächst ein Mutungsintervall für p und aus diesem dann ein Mutungsintervall für X berechnen. Berechnen wir den mediantreuen Schätzer p für p, der sich aus (5. 2. 4) ergibt, so erhalten wir als Näherungsformel für einen mediantreuen Schätzer X für X: „ 24- -4-1 " = 2*^ + 1 ' F°>5 ( 2 * i + 1. 2** + 1) • B e i s p i e l : Nachstehende Tabelle zeigt die Erkrankungen an postvakzinaler Enzephalitis bei zwei verschiedenen Altersstufen. Tabelle 7 Erkrankungen an postvakzinaler Enzephalitis. Zahl der erfolgreichen Erstimpfungen
darunter: Erkrankungen an postvakzinaler Enzephalitis
11—14
1341
16
4— 5
6512
4
Alter (Jahre)
Quelle: K. Berget und F. PutUigam: Über die Alteradisposition bei der postvakzinalen Enzephalitis, Münchner Medizinische Wochenschrift 100. Jg.,
1958, S. 2042ff.
Im Hinblick auf den überaus geringen Anteil an Fällen postvakzinaler Enzephalitis können wir mit einer Approximation durch die Poissonverteilung arbeiten. Die Enzephalitisgefährdung der 11—14jährigen ist schätzungsweise 16/1341 = 11,9 • 10~3, der 4—5jährigen &2 = 4/6512 = 0,61 • 10~3. Es ist &J& 2 = 19,5, d. h., wir schätzen auf Grund dieser Zahlen, daß die Enzephalitis-
128
5 Kleine Stichproben aus diskreten Verteilungen
gefährdung der 11—14jährigen rund 20mal so groß ist wie die der 4—5 jährigen. Doch die Anzahl der vorliegenden EnzephalitisFäJle ist so klein, daß sich sofort die Frage nach der Genauigkeit dieses Quotienten stellt. Um ein Mutungsintervall für &i/&2 zu berechnen, beschreiten wir folgenden Weg: Es gilt = n1{t1, a2 — m2&2. Wir berechnen also zunächst nach der oben entwickelten Methode ein Mutungsintervall für X = aja^ und erhalten daraus wegen A = sofort ein MutungsintervaU für &J&2. Nach den Ausführungen auf S. 114 haben wir zunächst jenen Wert p0 zu bestimmen, für den . 1 (*) PÄ(1-Po)*-' = 0,01. Dieser ist nach Formel (5.2.1) gegeben durch X + J '
=
+
2fc
i) •
Der Mutungsbereich besteht dann aus allen Werten A mit X/(l + A ) > p0, d.h. Po K . 1 = ^ l-p„ K+ 1 i-o-99 (2 + 1), 2 ^ ) • Daraus folgt sofort ein Mutungsintervall für nämlich k 2 + 1 ' ^0,99(2(^ + 1), 2 ^ ) ' Im konkreten Falle gilt: = 16, k2 = 4. Aus der Tabelle entnehmen wir den Wert i ^ s a (10, 32) = 2,93. Somit ist n2 _ 1 _ 6512 ^ 16 1 _ «! ' k2 + l ' ^0.99 (2 (k2 + 1), 2kx) ~ 1341 ' 5 ' 2,93 ~ ' ' Das 99% MutungsintervaU ist somit: &J&2 > 5,4, d.h., die Enzephalitisgefährdung der 11—14 jährigen ist fast sicher mehr als 5 mal so groß wie die der 4—5 jährigen. »» = «jÄ/Wj ist ein mediantreuer Schätzer für (Dabei ist A der oben angegebene mediantreue Schätzer für A.) Aus diesem Schätzer ergibt sich als Schätzwert für &J&2: ™ =
- ^ ( 3 3 , 9 ) = 18,7.
6.1 Einleitung
129
Der an dem Vergleich der Mittelwerte zweier Poissonverteilungen näher interessierte Leser wird auf die Arbeit von Pfanzagl und Puntigam hingewiesen. 6 Verteilungsunabhängige Verfahren 6.1 Einleitung Die in Kapitel 4 besprochenen Verfahren zum Testen von Hypothesen und zur Berechnung von Mutungsintervallen sind nur dann anwendbar, wenn die Stichprobe hinreichend groß ist oder wenn die Verteilung, aus der diese Stichprobe stammt, eine Normalverteilung mit bekannter Varianz ist. Für Stichproben kleinen Umfanges aus Normalverteilungen mit unbekannter Varianz gelten die in Kapitel 8 besprochenen Verfahren. Oft hat man es jedoch mit Gesamtheiten zu tun, über deren Verteilung keinerlei Informationen vorliegen. In diesem Falle wird man bestrebt sein, statistische Verfahren anzuwenden, die unabhängig von der Voraussetzung sind, daß eine Normalverteilung vorliegt. Eine besonders wichtige Gruppe von verteilungsunabhängigen Verfahren sind die sogenannten Rang-Tests, bei denen an Stelle der Stichprobenwerte selbst nur deren Rangzahlen verwendet werden. In vielen Fällen erscheint die Verwendung von Rangzahlen schon deshalb naheliegend, weil die zugrunde liegende Skala nur eindeutig bis auf beliebige stetige und monotone Transformationen ist, d. h. selbst nicht mehr als die Rangordnung zum Ausdruck bringt (topologische oder ordinale Skala). Dort, wo die Skala eindeutig bis auf lineare Transformationen ist (metrische oder kardinale Skala), wird man intuitiv in dem Übergang zu Rangzahlen einen wesentlichen Informationsverlust vermuten. Dies ist jedoch nicht der Fall. Wendet man einen Rang-Test an, obwohl die Skala eindeutig bis auf lineare Transformationen ist und die Meßwerte normal verteilt sind, so sind die Rang-Tests natürlich von geringerer Wirksamkeit als 9
P f a n z a g l , Allgemeine M e t h o d e n l e h r e der S t a t i s t i k
130
6 Verteilungsunabhängige Verfahren
die speziell auf die Normalverteilung abgestellten Verfahren. Der Unterschied in der Wirksamkeit ist jedoch nur sehr klein. Man kann die Wirksamkeit eines Rang-Tests mit der Wirksamkeit des speziell auf die Normalverteilung abgestellten Tests dadurch vergleichen, daß man errechnet, auf welchen Prozentsatz man bei Heranziehung eines speziell für die Normal Verteilung entwickelten Tests den Stichprobenumfang verringern könnte, um die gleiche Trennschärfe (Gütefunktion) wie bei Heranziehung eines verteilungsunabhängigen Tests zu erzielen. So bedeutet eine Wirksamkeit von 90% etwa, daß man mit einem Stichprobenumfang von 20 bei Auswertung mit einem Rang-Test die gleiche Trennschärfe erzielt wie mit einer Stichprobe vom Umfang 18 bei Auswertung mit einem speziell auf die Normalverteilung abgestellten Test. Der Unterschied in der Wirksamkeit der einzelnen Rang-Tests ist etwas verschieden. Genauere Angaben werden im folgenden Text bei den jeweiligen Tests gemacht. Neben der Unabhängigkeit von jeglichen Voraussetzungen über die Form der Verteilung haben die Rang-Tests noch den weiteren Vorteil, daß sie keinerlei umfangreiche Berechnungen erfordern. Es kann daher selbst dann, wenn tatsächlich eine Normalverteilung vorliegt, von Vorteil sein, einen RangTest anzuwenden, insbesondere dann, wenn keine Rechenmaschine zur Verfügung steht. Sind jedoch die einzelnen Meßwerte besonders kostspielig, dann wird es eher rentabel sein, weniger Messungen zu machen, und dafür etwas mehr Arbeit in die Auswertung der Daten zu investieren, also etwa einen /-Test anzuwenden. Die etwas geringere Wirksamkeit verteilungsunabhängiger Tests hat zur Folge, daß bei gleicher Irrtumswahrscheinlichkeit die Gütefunktion kleiner wird. Dies führt also dazu, daß ein bestehender Unterschied bei Anwendung verteilungsunabhängiger Tests auf eine Normalverteilung etwas seltener als signifikant erkannt wird als mit den speziell fiir die Normalverteilung entwickelten Tests. Ergibt jedoch bereits ein verteilungsunabhängiger Test Signifikanz, so kann ein wirk-
6.2 Der Zeichentest
131
samerer Test keine zusätzlichen Erkenntnisse bringen. E r kann höchstens das gleiche Ergebnis mit einer höheren Sicherheitswahrscheinlichkeit bestätigen.
6.2 Der Zeichentest Bei einer Reihe von Test-Problemen stellt sich heraus, daß eine Testgröße — wir wollen sie mit k bezeichnen — bei Zutreffen der Hypothese nach Bn( 1/2) verteilt ist. Der Test der Hypothese läuft dann einfach darauf hinaus, zu prüfen, ob der beobachtete W e r t von k mit der Annahme einer Verteilung nach J5„(l/2) verträglich ist. Solche Tests heißen „Zeichentests". Nach den Ausführungen in A b schnitt 5.1 S. 111, 112 haben wir wegen p0 = 1/2 bei der praktischen Durchführung einfach nachzuprüfen, ob (1) (2)
n-fc+1 bzw.
=
(2(W _
k +
^ F 0 „ , (2 (k + 1), 2 ( » -
'
2/£)
'
*))•
Jene k-Werte, für welche (1) bzw. (2) erfüllt ist, bilden eine kritische Region mit einer Irrtumswahrscheinlichkeit, die jeweils höchstens 1 % (zusammen also höchstens 2 % ) ausmacht. B e i s p i e l : Es ist die Wirksamkeit zweier Schlafmittel (Laevo Hyoscyamin Hydrobromid [D] und Laevo Hyoscin Hydrobromid [ L ] ) zu vergleichen. Als Maß der Wirksamkeit dient die Verlängerung der Schlafdauer. Da die Wirksamkeit von Schlafmitteln erfahrungsgemäß bei verschiedenen Personen sehr verschieden ist, kann man die Genauigkeit des Vergleiches dadurch steigern, daß man beide Mittel an ein und derselben Person erprobt und ihre Wirksamkeit vergleicht. (Wir kommen auf diesen Gedanken in Abschnitt 8.9, S. 219ff., noch ausführlich zurück.) Selbstverständlich muß das Experiment mit mehreren Personen wiederholt werden, um daraus bündige Schlüsse ziehen zu können. Tabelle 8 zeigt das Ergebnis von 10 Versuchen: 9*
G Verteilungsunabhängige Verfahren
132
Tabelle 8. Die Wirksamkeit von Laevo Hyoscyamin Hydrobromid und Laevo Hyoscin Hydrobromid Verlängerung des Schlafes in Stunden Patient
Schlafmittel 1)
1 2 3 4 5 6 7 8 9 10
+ 0,7 — 1,6 -0,2 — 1,2 — 0,1 + 3,4 + 3,7 + 0,8 0,0 + 2,0
L + -f + + — + + + -b +
1,9 0,8 1,1 0,1 0,1 4,4 5,5 1,6 4,6 3,4
Unterschied L—D + + + + + + + + +
1,2 2,4 1,3 1,3 0,0 1,0 1,8 0,8 4,6 1,4
Quelle: A.R.Cushny und A. It. Peebles: The action of optimat isomers II, Journal of Physiology Bd. 32, 1905, S. 5 0 1 - 5 1 0 .
Nimmt man an, daß die Wirksamkeit beider Mittel gleich ist, so ist die Wahrscheinlichkeit für das Auftreten einer positiven Differenz ebenso groß wie die für das Auftreten einer negativen Differenz, nämlich 1/2. Die Differenz 0 kommt theoretisch nicht vor, da wir ja zwei stetige Variable miteinander vergleichen und die Wahrscheinlichkeit, daß beide genau übereinstimmen, Null ist. Praktisch arbeitet man jedoch stets mit gerundeten Werten, so daß die Differenz 0 — wie auch im obigen Beispiel — tatsächlich auftreten kann. Solche Beobachtungen werden einfach weggelassen, denn sie können zur Entscheidung der Frage, ob die Differenz wesentlich positiv oder wesentlich negativ ist, nichts beitragen. Scheiden wir dementsprechend Patienten Nr. 5 aus, so haben wir eine Stichprobe vom Umfange n = 9 mit 9 positiven Werten: k = 9. Um zu prüfen, ob dadurch der Unterschied zwischen der Wirksamkeit der beiden Schlafmittel gesichert ist, bilden wir: n—k+ 1 (2(« - k + 1), 2k) = F 0 , 9 9 (2, 18) = 6,01. Da 9 > 6,01, ist das Ergebnis signifikant, d. h., wir können annehmen, daß Schlafmittel L tatsächlich wirksamer ist als D.
6.3 Test und Mutungsintervall für den Median
133
In diesem einfachen Fall können wir die Signifikanz übrigens leicht auch direkt nachprüfen: Die Wahrscheinlichkeit, daß bei einer B9{ 1/2) der Wert k = 9 auftritt, ist 1/2 9 = 1/512, also sogar kleiner als 0 , 2 % .
E s ist zu beachten, daß es für das in diesem Beispiel angeschnittene Problem der zwei verbundenen Stichproben einen verteilungsunabhängigen Test gibt, der wirksamer als der hier verwendete Zeichentest ist. Dieser Test wird in Abschnitt 6.5 behandelt. F ü r große w, etwa n > 35, kann man natürlich wieder die Binomialverteilung durch eine Normalverteilung approximieren, d. h. die nach N ( 0 , 1 ) verteilte Testgröße
verwenden (vgl. hierzu S. 137). I m allgemeinen wird man jedoch die Anwendung des Zeichentests für große n vermeiden, da seine Wirksamkeit für große n nur 6 4 % beträgt.
6.S Test und Mutungsintervall für den Median Die Prüfung einer Hypothese über die Lage des Mediane einer stetigen Verteilung läßt sich direkt auf den Zeichentesl zurückführen. (Der Median ist definiert als jener Wert, dei die Verteilung „halbiert", genauer: der kleinste Wert ¡a, füi den F(ju) ^ 1/2.) Um die Hypothese zu testen, daß dei Median den Wert ]1 besitzt, entnehmen wir eine Stichprobe vom Umfange n und zählen ab, wie viele der Stichprobenwerte kleiner als J1 sind. Ihre Anzahl sei k. Ist dit Hypothese richtig, d. h. ¡w tatsächlich der Median dei Verteilung, so ist k verteilt nach B n ( l / 2 ) . Dies können wii nach Formel (6.2.1) bzw. (6.2.2) testen.
134
6 Verteilungsunabhängige Verfahren
1. Beispiel: Eine Stichprobe vom Umfang n = 15 führt zu folgendem Ergebnis: 4,48, 4,94, 4,98, 5,01, 5,46, 5,74, 6,05, 6,21, 6,22, 6,37, 6,56, 7,25, 7,48, 7,58, 8,33. (Die Werte wurden gleich der Größe nach geordnet.) Es ist die Hypothese JX = 5,5 zu testen. Die Zahl der Werte kleiner als 5,5 ist k = 5. Durch Einsetzen in Formel (6.2.2) erhalten wir: n—k _ k + 1 ~~ ~6
_ '
^0,99 (2 (k + 1), 2 (» - 7c)) = F 0 , 99 (12, 20) = 3,23 . Da 1,7 < 3,23, sind die beobachteten Werte mit der Hypothese fi, = 5,5 verträglich. Die gleichen Überlegungen können auch dazu verwendet werden, ein Mutungsintervall f ü r ß zu bestimmen. "Will man ein Mutungsintervall, das nach oben begrenzt ist, so bestimmt man den kleinsten Wert k, f ü r den die Beziehung (6.2.1) erfüllt ist. Dieser Wert sei mit k t bezeichnet. Die Hypothese wird daher f ü r alle jene Werte von fi, angenommen, die weniger als k x Werte der Stichprobe übertreffen. Dies sind alle Werte ji < X(kl). Daher ist ¡1 < X(kl) ein Mutungsintervall mit einer Sicherheitswahrscheinlichkeit von mindestens 99%. (Dabei bedeutet allgemein x(¡j den i. Wert in der nach der Größe geordneten Stichprobe.) Will man umgekehrt ein Mutungsintervall, das nach unten begrenzt ist, so bestimmt man den größten Wert k, f ü r den die Beziehung (6.2.2) erfüllt ist. Dieser Wert sei mit k0 bezeichnet. Die Hypothese wird daher f ü r alle jene Werte von jj, angenommen, die mehr als k0 Werte der Stichprobe übertreffen. Dies sind alle Werte / ! > X( k , + 1 ). Daher ist jü > X( io+1 ) ein Mutungsintervall mit einer Sicherheitswahrscheinlichkeit von mindestens 9 9 % . Zwischen k0 und kt besteht wegen der Symmetrie der ¿?„(l/2) die Beziehung: k0-\- kt = n. Wenden wir beide Grenzen gleichzeitig an, d.h. bilden wir das beiderseitig begrenzte Mutungsintervall %„ + i ) < P < x(k>), so besitzt dieses eine Sicherheitswahrscheinlichkeit von mindestens 9 8 % .
G.4 Der sogenannte „Test von McNemar"
135
2. B e i s p i e l : Bei einer Stichprobe vom Umfang n = 15 gilt: kl — 13 und dementsprechend kB = 2. Aus der im Beispiel auf S. 134 angegebenen Stichprobe ergibt sich daher folgendes Mutungsintervall: 4,98 < p < 7,48 . (Dieses Intervall enthält auch den hypothetischen Wert 5,5, was damit in Einklang steht, daß oben die Hypothese ¡X = 5,5 als mit der Stichprobe verträglich erkannt wurde.)
Die Ausführungen dieses Abschnittes bezogen sich auf Test und Mutungsintervall für den Median. Sie lassen sich auf jedes beliebige Quantil übertragen, indem man statt des Wertes p0 = 1/2 einen beliebigen Wert p0 zugrunde legt. 6.4 Der sogenannte „Test von McNemar" In der Psychologie wird vielfach der sogenannte Test von McNemar angewendet. Auch dieser Test ist im Grunde genommen nichts anderes als der Zeichentest. Die Problemstellung, auf rlie dieser Test üblicherweise angewendet wird, wollen wir uns an folgendem Beispiel veranschaulichen: Einer Gruppe von 100 Versuchspersonen werden zwei Testaufgaben, A und B, vorgelegt. Es ist zu entscheiden, ob beide Aufgaben gleich schwer sind. Tabelle 9 zeigt das Ergebnis dieses Experimentes: Es erscheint zunächst naheliegend, einfach zu testen, ob der Anteil von „nicht gelöst" bei beiden Aufgaben gleich groß ist, indem man die in Abschnitt 5.3 besprochene Methode anwendet. Dieses Vorgehen wäre jedoch nicht statthaft, denn die in 5.3 besprochenen Methoden Tabelle 9 Lösung der Aufgaben A und B (einfache Aufgliederung) A
B
gelöst
83
74
nicht gelöst
17
2G
100
100
Aufgabe ->•
ü
136
6 Verteilungsunabhängige Verfahren
wurden f ü r den Vergleich von zwei unabhängigen Stichproben entwickelt. Hier haben wir jedoch zwei abhängige Stichproben vor u n s : Es sind ja dieselben Versuchspersonen, denen Aufgabe A und Aufgabe B vorgelegt wurde, u n d es ist sicher, daß eine Versuchsperson, die Aufgabe A gelöst hat, mit größerer Wahrscheinlichkeit auch Aufgabe B lösen wird als eine Versuchsperson, die A nicht gelöst hat. Tabelle 10 Lösung der Aufgaben A und B (kombinierte Aufgliederung) B
gelöst
nicht gelöst
2
gelöst
63
20
83
nicht gelöst
11
6
17
74
26
100
2
U m zu prüfen, ob beide Aufgaben gleich schwer sind, müssen wir einen anderen Weg beschreiten. Tabelle 10 zeigt eine Aufgliederung der obigen Ergebnisse. (Auf Grund dieser Tabelle könnten wir übrigens leicht beweisen, daß der oben vermutete Zusammenhang zwischen dem Lösen von A u n d dem Lösen von B tatsächlich besteht: Die Wahrscheinlichkeit, daß jemand B nicht löst, der A nicht gelöst hat, ist rund 1/3, die Wahrscheinlichkeit, daß jemand B nicht löst, der A gelöst hat, nur 1/4. Ein Signifikanz-Test wäre nach Abschnitt 7.3 auszuführen.) Wären beide Aufgaben gleich schwer, so müßte die Wahrscheinlichkeit, daß jemand A löst und B nicht löst, genau so groß sein wie die Wahrscheinlichkeit, daß jemand B löst u n d A nicht löst. Um dies einzusehen, bezeichnen wir die Wahrscheinlichkeiten der vier Felder mit I 7) — — — . Dann ist die Wahrscheinlichkeit f ü r das Lösen von p211 p22 A gleich pn + pl2> für das Lösen von B gleich pn -f p21. Sind beide Aufgaben gleich schwer, d. h. beide Wahrschein-
6.4 Der sogenannte „Test von McNemar"
137
lichkeiten gleich groß, so muß, wie oben behauptet, pl2 = p 21 gelten. Daher ist die bedingte Verteilung der Besetzungszahlen n12 und n21 für einen gegebenen Wert n = n12-j-n21 bei Zutreffen der Hypothese einfach ß „ ( l / 2 ) . Im konkreten Beispiel haben wir zu überprüfen, ob eine Realisation von 20 (oder 11) mit der Verteilung B31( 1/2) im Rahmen einer vorgegebenen Irrtumswahrscheinlichkeit verträglich ist. Entsprechend den Ausführungen auf S. 131 haben wir im Falle n12 > n21 das Bestehen folgender Relation zu überprüfen: (1)
Es gilt
n2l
+1
^ 0 , 9 9 (2 («21 + 1), 2«!,).
"i. — 9t + 1 12
n
=
i g7
^0,99 (2 (n 21 + 1), 2 n12) = F0,99 (24, 40) = 2,29 . Da 1,67 < 2,29, ist der Unterschied nicht signifikant, d. h., die Ergebnisse des Experimentes sind mit der Annahme verträglich, daß die Aufgaben A und B gleich schwer sind. Ist n = n12 + n21 größer als 35, wird man die Binomialverteilung durch eine Normalverteilung approximieren. Als Testgröße dient dann: n
H
oder mit Kontinuitätskorrektur, wenn wir wieder n 1 2 > n 21 voraussetzen: n 1
n
Durch eine leichte Umformung erhalten wir daraus: Wi A " Wa I 1 1
138
6 Verteilungsunabhängige Verfahren
Die Hypothese p12 = p21 i s t z u verwerfen, sobald diese Testgröße etwa den zu einer Irrtumswahrscheinlichkeit von 1% gehörigen Wert 2,58 überschreitet. Interessiert man sich nur f ü r einseitige Alternativen, also nicht p12 4= p2l, sondern P12 > Vzifso erübrigt sich natürlich im Falle n 12 < n 21 jeder Test, da ein solches Ergebnis nicht als Argument für die Alternative p 12 > p2l brauchbar ist. (Vgl. auch Linder „Statistische Methoden", S. 83.) 6.5 Tests für den Median einer symmetrischen Verteilung a) Randomisierungs-Test: In Abschnitt 6.3 haben wir auf Grund des Zeichentests einen Test für den Median einer stetigen Verteilung entwickelt. Dieser Test war frei von jeder Voraussetzung über die Form der Verteilung. Ist bekannt, daß die Verteilung symmetrisch ist (einen praktisch bedeutungsvollen Fall, in dem diese Voraussetzung zutrifft, wollen wir später erörtern), so kann man Tests für die Lage des Medians (der wegen der Symmetrie hier übrigens mit dem Mittelwert zusammenfällt) entwickeln, die eine größere Trennschärfe besitzen als der Zeichentest. Wir wollen die Grundgedanken für den Fall der Hypothese ¡1, = 0 entwickeln. (Der allgemeine Fall der Hypothese ß läßt sich sofort auf den hier behandelten zurückführen, indem man statt der Stichproben-Werte x, die Werte (x{ — p) betrachtet. Stammen die Werte x{ aus einer Verteilung mit dem Median ¡ü, so stammen die Werte ( a — p ) aus einer Verteilung mit dem Median 0.) Ist die Hypothese richtig, d. h. der Median tatsächlich 0, so hat infolge der Symmetrie der Verteilung der Wert — x genau dieselbe Wahrscheinlichkeit (Dichte) wie der Wert x. Wir können also zu einer Stichprobe • • CCft ins™ gesamt 2" Stichproben bilden, die bei Zutreffen der Hypothese alle die gleiche Wahrscheinlichkeit besitzen, indem wir systematisch alle möglichen Vorzeichen-Kombinationen anbringen. Nehmen wir an, die Stichprobe wäre xx — 2,5, x2 = 0,9, x3 = — 0,1. Dann erhalten wir daraus die folgenden 2 3 = 8 gleichwahrscheinlichen Stichproben:
6.5 Tests für den Median einer symmetrischen Verteilung
139
2
— — — —
2,5 2,5 2,5 2,5 2,5 2,5 2,5 2,5
0,9 0,9 — 0,9 —0,9 0,9 0,9 —0,9 —0,9
0,1 — 0,1 0,1 —0,1 0,1 —0,1 0,1 —0,1
— — — —
3,5 3,3 1,7 1,5 1,5 1,7 3,3 3,5
Für jede der 2" gleich-wahrscheinlichen Stichproben wird die Summe berechnet und diese sodann nach der Größe der Summe geordnet. Es ist intuitiv klar, daß man die Hypothese dann verwerfen wird, wenn die tatsächlich realisierte Stichprobe eine besonders große oder eine besonders kleine Summe aufweist. Ist die Alternative einseitig, z.B. ¡u > 0, so wird die Hypothese nur dann verworfen, wenn die tatsächlich realisierte Stichprobe eine besonders große Summe aufweist. Dieser Gedanke wird wie folgt präzisiert: Ist e die vorgegebene Irrtumswahrscheinlichkeit, so sucht man die nächstkleinere ganze Zahl von s • 2" auf. Diese sei r. Dann bildet man die kritische Region aus den r größten Stichproben, d. h., man lehnt die Hypothese ß = 0 ab, wenn die tatsächlich realisierte Stichprobe unter den r größten Stichproben ist. (Mit „größten" Stichproben sind hier natürlich die Stichproben mit der größten Summe gemeint.) Dieses Vorgehen garantiert tatsächlich eine Irrtumswahrscheinlichkeit von höchstens e; denn wenn die Hypothese zutrifft, sind alle 2" Stichproben gleichwahrscheinlich, so daß jede einzelne die Wahrscheinlichkeit l/2 n besitzt. Die kritische Region hat somit die Wahrscheinlichkeit r/2" 5 s. Will man einen zweiseitigen Test, d. h. einen Test gegen die Alternative /t 4= 0, so wird man die kritische Region zur Hälfte aus den größten, zur Hälfte aus den kleinsten Stichproben bilden. Bei kleinen Stichprobenumfängen kann es vorkommen, daß s • 2re < 1, also r = 0 wird. In diesem Falle gibt es keine kritische Region mit einer Irrtumswahrscheinlichkeit ^ s. Man könnte dann die gewünschte Irrtumswahrscheinlichkeit durch eine zusätzliche Randomisierung (s. S. 110) erreichen.
140
6 Verteilungsunabhängige Verfahren
Die bestechende logische Einfachheit dieses Randomisierungstests wird allerdings mehr als aufgewogen durch die Tatsache, daß er in der Durchführung sehr schwer zu handhaben ist. Nehmen wir an, der Stichprobenumfang wäre 10. Dann hätte man 210 = 1024 gleichwahrscheinliche Stichproben zu bilden und ihrer Summe nach zu ordnen. Bei 1% Irrtumswahrscheinlichkeit besteht dann die (zweiseitige) kritische Region aus den 5 größten und den 5 kleinsten Stichproben. In der Praxis wird man natürlich nicht alle 1024 Stichproben zusammenstellen, sondern nur die 5 größten oder die 5 kleinsten. Eine weitere Vereinfachung der Rechenarbeit ergibt sich, wenn man beachtet, daß die Stichproben mit den größten Summen jene sind, bei denen die Summen der negativen Werte am kleinsten sind. Die obigen Überlegungen zur Herleitung des Randomisierungstests gelten unabhängig von der Gestalt der Verteilung, vorausgesetzt, daß diese symmetrisch und stetig ist. Ein sehr wichtiger Fall, in dem die Voraussetzung einer symmetrischen Verteilung a priori erfüllt ist, stellt der zweier verbundener Stichproben dar. Wir wollen uns dies an einem Beispiel klarmachen: Um die Wirksamkeit einer SpezialSämaschine mit der einer gewöhnlichen Sämaschine zu vergleichen, wurden 10 Versuchsfelder ausgewählt. Von jedem Versuchsfeld wurde die Hälfte mit der Spezialmaschine und die Hälfte mit der gewöhnlichen Maschine besät. Tabelle 11 gibt den Ernteertrag. Wir testen die Hypothese, daß beide Sämaschinen die gleiche Wirksamkeit besitzen. Ist diese Hypothese richtig, so sind die Differenzen der Ernteerträge, dit Realisationen zufälliger Variabler aus einer symmetrischen Verteilung mit dem Mittelwert (Median) 0: Denn wenn tatsächlich beide Maschinen genau die gleiche Wirksamkeit besitzen, so muß offenbar die Differenz —2,4 die gleiche Wahrscheinlichkeit besitzen wie + 2,4. Es hätte dann ebensogut der Wert 5,6 bei der Spezialmaschine und der Wert 8,0 bei der gewöhnlichen Maschine auftreten können. Die Alternative ist, daß die Spezialmaschine höhere Erträge liefert. Wir werden daher die Stichproben mit großen
6.5 Tests für den Median einer symmetrischen Verteilung
141
Tabelle 11 Ernteertrag bei Einsatz verschiedener Sämaschinen Ernte ertrag Versuchsfeld Nr.
Spezialmasclrine
gewöhnliche Maschine
1 2 3 4 5 6 7 8 9 10
8,0 8,4 8,0 6,4 8,6 7,7 7,7 5,6 5,6 6,2
5,6 7,4 7,3 6,4 7,5 6,1 6,6 6,0 5,5 5,5
Differenz dt
2,4 1,0 0,7 0,0 1,1 1,6 1,1 -0,4 0,1 0,7
Quelle: J. Wishart: Statistics in Agricultural Research, Suppl. J. K. S. S. Bd. 1, 1934, S. 32.
Summen als kritische Region wählen. Unter den Differenzen kommt auch der Wert 0,0 vor. Dieser trägt zur Summe nichts bei, so daß eigentlich nur 9 relevante Werte vorliegen. Lassen wir eine Irrtumswahrscheinlichkeit von 1% zu, so besteht die kritische Region aus 0,01 • 29 ÄJ 5 Werten. Um die kritische Region zu bestimmen, ordnen wir die Differenzen ihrem Absolutbetrage nach. Dann bestimmen wir jene 5 Vorzeichenkombinationen, welche die kleinste Summe der negativen Werte ergeben. Dies sind dann genau jene, welche die größte Total-Summe ergeben. Absolutbetrag 0,1 0,4 0,7 0,7 1,0 1,1 1,1 1,6 2,4 Vorzeichen
+
+ —
•
4-
—
—
—
+ + + +
+ + 4- + + 4+ 4+ 4—
-H
4-
+ + +
+
+
_! -
4-
Summe der neg. Werte 0,4
44+ + + + 4- +
44444-
+ +
0,0 0,1 0,4 0,5 0,7
4-
4-
4-
0,7
+
4-
44-
+ 4-
4-
142
6 Verteilungsunabhängige Verfahren
Die tatsächlich aufgetretene Vorzeichenkombination liegt in der kritischen Region (3. Zeile), womit die unterschiedliche Wirksamkeit beider Sämaschinen nachgewiesen ist. Werte, die mehrfach auftreten, heißen Bindungen. Im obigen Beispiel sind dies bei den Absolutbeträgen die Werte 0,7 und 1,1, unter den o. a. Summen der Wert 0,7. Bindungen bei den Ausgangswerten haben stets Bindungen bei den Summen zur Folge, doch können letztere auch auf andere Art entstehen (z. B. wenn einer der Werte gleich der Summe anderer Werte ist). Geht die Grenze der kritischen Region durch eine solche Bindung der Summe hindurch und gehören die tatsächlich beobachteten Werte dieser Bindung an (wie dies im obigen Beispiel etwa der Fall wäre, wenn tatsächlich die Vorzeichenkombination - | — b ( - 4 — I — I — I — b aufgetreten wäre), so müßte man die Entscheidung über Annahme oder Ablehnung der Hypothese streng genommen einem Randomisierungs-Verfahren mit geeigneten Wahrscheinlichkeiten überlassen, um die Einhaltung der Irrtumswahrscheinlichkeit sicherzustellen. Ist der Stichprobenumfang etwas größer, so kann die Rechenarbeit sehr umfangreich werden. Man kann jedoch 1 » für größere n die Verteilung der Testgröße d — — durch n t-i die ¿-Verteilung approximieren. Genauer gesagt: Man kann zeigen, daß die Größe (i)
Aj^r Sd für große n annähernd ¿-verteilt ist mit (n — 1) Freiheits1 » graden, wobei s\ = ——£ (ßi — d)2. (1) ist aber bei dem n J- 1 oben beschriebenen Randomisierungs-Verfahren eine monotone Funktion von d, denn es ist — ]/n = — j/( J
|In = _ "("+1)). (3 ) Man wird also in der Regel von jenem Vorzeichen ausgehen, das seltener auftritt, da dann die Rechenarbeit etwas geringer ist. Für w > 25 kann man die Verteilung der Summe der negativen (positiven) Rangzahlen durch eine Normalverteilung approximieren. Für die Grenze der kritischen Region erhält man dadurch die Näherungsformel: c
Dabei ist N'a die auf S. 32 eingeführte Grenze der Normalverteilung iV(0,1). Der hier besprochene Rang-Test wird in der englischsprachigen Literatur als W¿Tcozow-matchcd-pairs signedrank-test bezeichnet. Dementsprechend könnte man im Deutschen etwa vom „Vorzeichen-Rang-Test von Wilcoxon" sprechen. B e i s p i e l : Wir knüpfen an das auf S. 140ff. behandelte Beispiel der beiden Sämaschinen an. Wieder scheiden wir die Differenz mit dem Werte 0,0 aus und ordnen die übrigen Differenzen nach dem Absolutbetrage: Absolutbetrag
0,1
Vorzeichen
+
Rangzahl
1
0,4 —
0,7 +
2
0,7
1,0
1,1
1,1
1,6
+
+
+
+
+
6 1 /,
8
3V 2 3'/a
5
2,4 + 9
Die Summe der negativen Rangzahlen ist 2. Die Testgröße ist daher 2 — 9 • 10/4 = — 20,5. Ein Vergleich mit der Tabelle auf S. 293 zeigt, daß für n = 9 und 97,5% Sicherheitswahrscheinlichkeit die Annahmezahl c = 16,5 gilt, so daß der Unterschied in der Wirksamkeit beider Maschinen gesichert ist. 10
P f a n z a g l , Allgemeine Methodenlehre der Statistik
146
6 Verteilungsunabhängige Verfahren
Treten Bindungen auf, so empfiehlt es sich, allen in einer Bindung vereinigten Werten dieselbe Rangzahl zuzuordnen, und zwar das arithmetische Mittel jener Rangzahlen, die die in der Bindung vereinigten Werte bekämen, wenn sie verschieden wären. Im obigen Beispiel war die erste Bindung bei 0,7. Die Werte 0,7 hätten die Rangzahlen 3 und 4 bekommen. Da sie gleich sind, bekommt jeder die durchschnittliche Rangzahl (3 + 4)/2 = 3%. Wären in der Bindung 3 Werte 0,7 vereinigt, so wären für sie die Rangzahlen 3, 4 und 5 bestimmt. Da sie gleich sind, bekommt jeder die durchschnittliche Rangzahl (3 + 4 + 5)/3 = 4. Praktische Bedeutung besitzt dieses Vorgehen allerdings nur, wenn die in der Bindung vereinigten Werte verschiedene Vorzeichen besitzen. Man wird wahrscheinlich vermuten, daß durch den Übergang von den eigentlichen Meßwerten zu den Rangzahlen ein wesentlicher Teil der Informationen verlorengeht und die Wirksamkeit eines Rang-Tests daher nur gering sein könne. Untersuchungen haben jedoch gezeigt, daß die asymptotische Wirksamkeit des hier besprochenen RangTests bei Anwendung auf die Normalverteilung, verglichen mit dem im Falle der Normalverteilung optimalen ¿-Test, 3¡n = 0,95 oder 95% beträgt. Ähnliche Werte wurden auch für kleine Stichprobenumfänge gefunden. Für keine Verteilung kann die asymptotische Wirksamkeit dieses Rang-Tests, verglichen mit dem i-Test, weniger als 86% betragen. Es gibt jedoch Verteilungen, für die sie größer als 100% ist. (Vgl. hierzu die Arbeit von Rodges jr. und Lehmann.) Erscheint daher die Voraussetzung der Normalverteilung fraglich oder scheut man die mit der Anwendung des ¿-Tests verbundene Rechenarbeit, so ist die Anwendung des hier besprochenen Rang-Tests durchaus zu empfehlen. Ein Test für die Lage des Mittelwertes (und für das hier angeschnittene Problem des Vergleiches zweier abhängiger Stichproben) im Falle der Normalverteilung wird in den Abschnitten 8.4 und 8.6 behandelt.
6.6 Der Vergleich zweier unabhängiger Stichproben
147
6.6 Der Vergleich zweier unabhängiger Stichproben a) Randomisierungs-Test: Gegeben seien 2 voneinander unabhängige Stichproben xv x2,..., x„t und yu y2,..., ynt. Hypothese ist, daß beide Stichproben aus derselben Verteilung stammen. Wenn dies zutrifft, hat jede Permutation der K + n2) Zahlen {a^, x.z,..., xni, yv y2,..., y„t} die gleiche Wahrscheinlichkeit. Da jedoch die Reihenfolge innerhalb ein und derselben Stichprobe auch dann keine Rolle spielt, wenn die Hypothese nicht zutrifft, brauchen wir nur jene Permutationen zu betrachten, bei denen sich die Zusammensetzung der beiden Stichproben ändert. Die Anzahl t. . . (ih + n„\ (n, 4- w,) ! . dieser Permutationen ist = ,—=4—. Dies ist \ nx / ! n2 ! die Anzahl der Möglichkeiten, (% - f w2) Objekte in zwei Gruppen zu teilen, so daß die eine Gruppe n2 und die andere n 2 Objekte enthält. Da jede dieser Möglichkeiten die gleiche Wahrscheinlichkeit hat, beträgt diese 1 «i + » 2 \ ' il! I Um eine kritische Region mit einer Irrtumswahrscheinlichkeit ^ e zu erhalten, bestimmen wir r, die nächstkleinere W J Yl \ 1 2 ). Bezeichnen wir r von diesen Permutationen als kritische Region und lehnen wir die Hypothese ab, wenn die tatsächlich aufgetretene Anordnung in diese kritische Region fällt, so haben wir im Falle des Zutreffens der Hypothese eine Irrtumswahrscheinlichkeit f
(
-—7-—- ^ s. Dies gilt, unabhängig davon, welche r Permufni~r nz\ \ «i / tationen wir zur kritischen Region erklären. Jedoch hängt die Gütefunktion des Tests wesentlich von der getroffenen Auswahl der r kritischen Permutationen ab. Es ist sehr plausibel, als Kriterium für die Auswahl der kritischen Permutationen die Differenz x — y zu wählen und jene r Permu10»
148
6 Verteihingsunabhängige Verfahren
tationen als kritische Kegion zu wählen, bei denen \x — y| am größten ist. Im Falle eines einseitigen Tests wird man jene r Permutationen als kritische Region wählen, für die x — y besonders groß (im konträren Falle: x — y besonders klein) ist. Da n^x + n2y bei der hier vorgenommenen Randomisierung konstant ist, ist x — y eine monoton steigende Funktion von x, denn es gilt ja:
Dies vereinfacht die praktische Durchführung, müssen nun nicht mehr für jede Permutation die x — y berechnen. Es genügt, x zu berechnen, wissen, daß die Reihung der Permutationen nach Reihung nach x — y identisch ist.
denn wir Differenz denn wir x mit der
Die oben getroffene Wahl der kritischen Region ist nicht nur besonders plausibel; man kann auch zeigen, daß sie optimale Trennschärfe gegenüber der Alternative liefert, daß die beiden Stichproben aus Normalverteilungen mit gleicher Varianz, aber verschiedenen Mittelwerten stammen. Die Normalverteilung spielt aber, wie gesagt, nur im Zusammenhang mit der Optimierung eine Rolle. Die Irrtumswahrscheinlichkeit im Falle des Zutreffens der Hypothese ist unabhängig von der Form der Verteilung. Was wir über den Randomisierung-Test für den Mittelwert einer symmetrischen Verteilung gesagt haben, gilt für den hier besprochenen Randomisierungs-Test noch in verstärktem Ausmaße: Angenommen, wir wollen zwei Stichproben vom Umfange 10 miteinander vergleichen. Dann gibt es (
i
) = 184 756 relevante Permutationen, und die
kritische Region zur Irrtumswahrscheinlichkeit von 1% besteht aus 1847 Permutationen. Dieser Randomisierungs-Test ist daher nur bei sehr kleinen Stichproben anwendbar. B e i s p i e l : Bei einer — relativ kostspieligen — Lebensdauerprüfung waren zwei verschiedene Fabrikate, A und B, mitein-
6.6 Der Vergleich zweier unabhängiger Stichproben
149
ander zu vergleichen. Zwei Stichproben vom Umfange 5 bzw. 8 ergaben folgende Werte der Lebensdauer: x{: 17, 23, 20, 31, 28 yf. 19, 14, 10, 21, 13, 8, 11, 14 Kann aus diesem Ergebnis mit vertretbarer Sicherheit geschlossen werden, daß die beiden Fabrikate tatsächlich eine unterschiedliche Verteilung der Lebensdauer aufweisen? Die Anwendung eines auf Normalverteilung beruhenden Tests erscheint problematisch, da Verteilungen der Lebensdauer erfahrungsgemäß im allgemeinen von der Normalverteilung stark abweichen. Besitzt man über die Gestalt der Verteilung keine genaueren Informationen, so liegt die Anwendung eines verteilungsunabhängigen Tests nahe. Da die Stichprobenumfänge extrem klein sind, kommt ein Randomisierungs-Test in Frage. Die Anzahl der relevanten w1 -f- w2 \ /13 \ 1 = I g 1 = 1287. Lassen wir eine
(
höchstens l % i g e Irrtumswahrscheinlichkeit zu, so haben wir 12 Permutationen zur kritischen Region zu erklären. Da eine zweiseitige Alternative vorliegt (d. h. getestet werden soll, ob ein Unterschied vorhanden ist oder nicht, ohne daß die Richtung des Unterschiedes von vornherein festgelegt wäre), bilden wir die kritische Region aus den 6 Permutationen mit der größten i-Summe und den 6 Permutationen mit der kleinsten i-Summe. Praktisch brauchen wir in unserem Beispiel nur die 6 Permutationen mit der größten i-Summe zu bestimmen, da für die tatsächlich beobachtete Stichprobe die x-Summe größer als die j/-Summe ist, also die beobachtete x-Summe sicher nicht zur unteren Hälfte der kritischen Region gehört. Um die 6 Permutationen mit der größten i-Summc zu bestimmen, ordnen wir die Werte beider Stichproben durchlaufend nach der Größe: beobachtet: 1 -3.2 g-a a «
£
® 1 S s
3 H ^ ® SS rt cö S Ö -W O o CQ & bJD
.
8 10 11 13 14 14 17 19 20 21 23 28 31 z-Summe y y y y y y x y x y x x x 119 y y y y y y y y y y y y
y y y y y y
y y y y y y
y y y y y y
v
y
y
X
X
X
X
X
y y y y y
V y
X
y
X
X
X
X
X
X
X
X
X
V y
X
y
X
X
X
X
y
X
X
X
y
X
X
X
X
y
y
X
X
X
123 122 121 119 119 IIS
150
6 Verteilungsunabhängige Verfahren
Die tatsächlich beobachtete Permutation kommt unter den kritischen Permutationen vor. Daher ist die Hypothese, daß beide Fabrikate dieselbe Verteilung der Lebensdauer aufweisen, zu verwerfen. Wie bei dem im vorigen Abschnitt besprochenen Randomisierungs-Test kann man auch hier die Verteilung von x — y durch eine t-Verteilung approximieren: E s ist
i
x— y (Wt - 1 ) si + K — 1) 4
/ l
J_
n
i + n2 2 \ «2 f ü r größere n f annähernd i-verteilt mit (nL + n 2 — 2) Freiheitsgraden. Wegen («! — 1) s| + K — 1) 4 = _ ~itiXi
2
, +
& 2 i-iVi
(«1 g + n2 y f + n t w2 (ä — g)2 ^TT^
ist die obige Testgröße bei dem hier angewendeten Randomisierungsverfahren eine monotone Funktion von x — y . Wir erhalten also eine l % i g e kritische Region, indem wir jene Werte zur kritischen Region erklären, welche die obere 99%-Grenze der t-Verteilung überschreiten (bzw. die untere 99%-Grenze unterschreiten). I m Falle eines zweiseitigen Tests gehen wir vom Absolutbetrag der o. a. Testgröße aus. b) Rang-Test: Wie im Falle des 1-Stichproben-Problems kann man auch hier die Arbeit wesentlich vereinfachen, indem man einen Rang-Test anwendet. Der Grundgedanke ist wieder der gleiche wie beim Randomisierungs-Test. Es werden jedoch nicht die Zahlen xx, x2,..., xni, yv y2,..., yn, selbst, sondern deren Rangzahlen zugrunde gelegt, und zwar die Rangzahlen, die die einzelnen Stichprobenwerte in der vereinigten Stichprobe h a b e n : aus x1 = 1,1, x2 = 0,7, x3 = 2,3, y1 — 0,9, y2 = 1,8 wird die Folge der Rangzahlen: 3 , 1 , 5, 2, 4. Als Testgröße dient die Summe der Rangzahlen der ersten Stichprobe, R ± (korrespondierend zu der Summe der Elemente der ersten Stichprobe beim RandomisierungsTest). Die Hypothese wird abgelehnt, wenn die Summe zu
6.6
Der Vergleich zweier unabhängiger Stichproben
151
groß oder zu klein ist. Wieder kann man die kritische Region für verschiedene Stichprobenumfänge nv w2 tabellieren. Die auf S. 294, 295 gegebene Tabelle ist nach folgendem Rezept zu verwenden: Man berechnet den Erwartungswert der Rangsumme R^. Dieser ist nx («j + n2 + l)/2. Dabei bedeutet nx den Umfang jener Stichprobe, auf die sich die Rangsumme R1 bezieht. Sodann bildet man die Differenz (1)
Bi_nl(n1+n2+l)
Diese Differenz muß zwischen ± c liegen, wobei der Wert c aus der Tabelle auf S. 294, 295 entnommen wird. Ist R, -
n
^ +
Li
+
1}
^ c oder
Rl
-
+
U
+
1}
g -
c,
so ist Unterschied zwischen beiden Stichproben signifikant. Interessiert man sich nur für Abweichungen nach einer Richtung, so wird man nur die eine dieser beiden Relationen als relevant für die Signifikanzbestimmungen ansehen. Die in der Tabelle angegebenen c-Werte garantieren bei zweiseitiger Anwendung eine Irrtumswahrscheinlichkeit von höchstens 1% (bzw. 5%), bei einseitiger Anwendung von höchstens 0,5% (bzw. 2,5%). Da es wegen R1 — nx (mj + n 2 + 1 )ß = — (Ä2 — n 2 (% + w2 + l)/2) gleichgültig ist, für welche der beiden Stichproben man den Wert R berechnet, wird man bei Stichproben unterschiedlicher Größe R stets für die kleinere Stichprobe errechnen. Sind die Stichprobenumfänge hinreichend groß (w1 ä 4, n 2 ^ 4 und mx + «2 = 30), so kann man die Verteilung von Äj durch eine Normalverteilung approximieren: nx(ni+ n2+ 1) 2 (2)
j A w « i + «ü + 1 ) 12
152
6 Verteilungsunabhängige Verfahren
ist annähernd verteilt nach N ( 0 , 1 ) . Daher erhalten wir für die oben verwendete Größe c die Approximation 1 / nin2(n1+ n2 + 1) ' \ 12 ' wobei N' a die auf Seite 32 definierte Grenze der Verteilung N{0,1) ist. Der hier besprochene Test wird in der englischsprachigen Literatur als Wilcoxon-Test bezeichnet. Einen interessanten Überblick über die Geschichte dieses mehrmals entdeckten Tests gibt Kruskal. Vielfach wird eine Abart dieses Tests verwendet, bei der nicht mit der Rangsumme, sondern mit der Anzahl der Inversionen gearbeitet wird. Die hier gebotene Form ist jedoch leichter zu handhaben. r-]\"
B e i s p i e l : Es wird vermutet, daß der Schädlingsbefall von Bäumen mit der Höhe in dem Sinne korreliert ist, daß die Wahrscheinlichkeit für den Befall um so größer ist, je höher der Baum. Für die Beurteilung dieser Hypothese stehen folgende Ergebnisse einer Stichprobe zur Verfügung: Tabelle 12 Höhe der befallenen und nicht befallenen Bäume in m befallen
nicht befallen
8,5 9,0 9,5 9,7 10,1 10,5 10,6 10,6 10,8 11,0
8,1 8,2 8,6 8,6 8,7 9,1 10,2 10,2 10,5
Bestünde zwischen Höhe des Baumes und Befall kein Zusammenhang, so müßte die Verteilung der Baumhöhen für befallene und nicht befallene Bäume gleich sein, d. h., beide Stichproben
6.6 Der Vergleich zweier unabhängiger Stichproben
153
müßten aus identischen Verteilungen stammen. Dies können wir mit Hilfe des oben besprochenen Wilcoxon-Tests nachprüfen. Zu diesem Zweck werden beide Stichproben zusammengefaßt und nach der Größe geordnet (vgl. Tabelle 13). Die befallenen Bäume sind dabei mit „ + " , die nicht befallenen mit „ — " gekennzeichnet. Bindungen treten zwar an mehreren Stellen auf (8,6, 10,2, 10,5, 10,6), wir müssen aber nur bei 10,5 die Rangzahlen mittein, da alle anderen Bindungen nur Werte ein und derselben Stichprobe betreffen. Wir berechnen die Summe der Rangzahlen für die nicht befallenen Bäume: Äj = 65%. Der Erwartungswert von ist: 9 - ( 9 + 1 0 + l)/2 = 90. Wir erwarten, daß die nicht befallenen Bäume im allgemeinen kleiner sind. Daher werden wir die Hypothese, daß zwischen Befall und Baumhöhe kein Zusammenhang besteht, verwerfen, wenn 65%—90 sS — c, d. h. 90—65% = 241/2 ^ c. Aus der Tabelle auf S. 294, 295 entnehmen Tabelle 13 Zuordnung der Rangzahlen Höhe des Baumes 8,1 8,2 8,5 8,6 8,6 8,7 9,0 9,1 9,5 9,7 10,1 10,2 10,2 10,5 10,5 10,6 10,6 10,8 11,0
befallen + nicht befallen —
—
+ — — —
+ —
+ + + —
-1—
-j-L
+ +
Rangzahl 1 2 3 4 5 6 7 8 9 10 11 12 13 14% 14% 16 17 18 19
154
6 Verteilungsunabhängige Verfahren
wir für Wj = 9 und n2 = 10 für 95% Sicherheit den Wert c = 25, für 99% Sicherheit den Wert 32. Der Zusammenhang zwischen Baumhöhe und Befall kann also auf Grund der vorliegenden Daten noch nicht als hinreichend gesichert angesehen werden. Treten Bindungen auf, so empfiehlt es sich, durchschnittliche Rangzahlen zu berechnen, wie dies im obigen Beispiel geschehen ist und wie wir dies auch beim Test f ü r den Mittelwert einer symmetrischen Verteilung auf S. 146 allgemein diskutiert haben. Durch das Auftreten von Bindungen wird die Irrtumswahrscheinlichkeit etwas verringert, doch ist der Einfluß im allgemeinen nur geringfügig. Die Wirksamkeit des hier besprochenen Wilcoxon-Tcsts strebt bei Anwendung auf die Normalverteilung, verglichen mit dem in diesem Falle optimalen i-Test, f ü r große Stichprobenumfänge gegen 3¡7i = 0,95 oder 9 5 % . Kontrollrechnungen haben ergeben, daß auch f ü r Stichproben mäßigen Umfanges eine Wirksamkeit ähnlicher Größe vorliegt (vgl. v. d. Waerden S. 277ff.). Seine asymptotische Wirksamkeit — verglichen mit der des i-Tests — kann f ü r keine Verteilung kleiner als 86% sein; es gibt jedoch Verteilungen, f ü r die sie größer als 100% ist. (Vgl. hierzu Hodges jr. und Lehmann.) Nur am Rande sei darauf hingewiesen, daß es auch Tests f ü r den Vergleich zweier Stichproben gibt, die von den Rangzahlen ausgehen und eine asymptotische Wirksamkeit 1 besitzen. Es sind dies der X-Test von v. d. Waerden (S. 285 ff.) und der Test von R. A. Fisher (siehe in den Tafeln von Fisher und Yates). Der Test f ü r den Vergleich zweier Mittelwerte f ü r kleine Stichproben aus Normalverteilungen mit unbekannter Varianz wird in den Abschnitten 8.7 und 8.8 behandelt. 6.7 Der Vergleich mehrerer unabhängiger Stichproben Im vorigen Abschnitt haben wir uns mit dem Vergleich von 2 unabhängigen Stichproben befaßt. Nun wollen wir die dort entwickelten Gedanken auf eine beliebige Zahl 1c von Stichproben verallgemeinern. Die Werte der i. Stich-
6.7 Der Vergleich mehrerer unabhängiger Stichproben probe S616I1
155
^¿2' * * ^iit'*
Stammen alle k Stichproben aus derselben Verteilung, so h a t jede Permutation der Zahlen faii,..., Xw x21,..., x2n„..xkl,..xk„k) die gleiche Wahrscheinlichkeit. Man kann also im Prinzip wieder so vorgehen, daß man r dieser Permutationen zur kritischen Region erklärt, wobei r so gewählt wird, daß eine vorgegebene Irrtumswahrscheinlichkeit e nicht überschritten wird. Beim 2-Stichproben-Problem haben wir als Testgröße f ü r die Auswahl der kritischen Region die Größe %x — x2 verwendet, d. h. jene Permutationen zur kritischen Region erklärt, f ü r welche die Differenz der Mittelwerte am größten ist. In Anlehnung an die Streuungszerlegung (Abschnitt 8.10) erscheint es naheliegend, im allgemeinen Fall als Testgröße k _ £ tti — xf zu wählen, d. h. jene r Permutationen zur kritischen Region zu erklären, f ü r welche diese Testgröße ein Maximum ist. Bei dieser Bestimmung der kritischen Region wird der Test besonders trennscharf gegenüber der Alternative, daß die Ic Verteilungen, aus denen die Stichproben stammen, Normalverteilungen mit gleichen Varianzen sind, ihre Mittelwerte aber nicht gleich sind (wie es die Hypothese verlangen würde), sondern gleichmäßig um einen gemeinsamen Wert streuen. F ü r k = 2 spezialisiert erweist sich die Größe 2
»=1 mit (Xj — x2f
äquivalent.
Bereits beim 2-Stichprobcn-Problem war der Randomisierungs-Test praktisch u n d u r c h f ü h r b a r . Dies gilt f ü r k > 2 in verstärktem Maße. Man kann jedoch auch hier f ü r große Stichprobenumfänge ein Approximationsverfahren angeben, das darauf beruht, daß die Größe
156
C Verteilungsunabhängige Verfahren k
_
^n^xi—x)2
—1 i= l 1
r
k
(« oo verteilt ist nach yj- mit (Je — 1) Freiheitsgraden. Eine Tabelle der Verteilung befindet sich auf S. 285. (Nähere Ausführungen über die ^-Verteilung selbst werden in Abschnit 3.3 gegeben.) Für die praktische Berechnung der Testgröße geht man nicht von den durchnittlichen Rangzahlen ¿2,- aus, sondern von der Summe der Rangzahlen in den einzelnen Stichproben, Rit wobei zwischen Ä; und R{ die Beziehung R{ = Rijn, besteht. Außerdem gilt R = (1 + 2 + . . . + w)/w = (n + l)/2, so daß man letztlich für die numerische Berechnung der Testgröße folgende Formel erhält: 12
*
R}
6.7 Der Vergleich mehrerer unabhängiger Stichproben
157
Zur Kontrolle k a n n m a n sich der B e z i e h u n g * 2 Iii = i=1
(2)
n(n+1) G
bedienen. P r a k t i s c h wird m a n f ü r alle n eine ^ - V e r t e i l u n g a n n e h m e n k ö n n e n . Lediglich im Falle k = 3 m u ß m a n v e r l a n g e n , d a ß alle n > 5. Spezialisiert m a n den Test f ü r k = 2, so e r h ä l t m a n wegen +
lAl
2 1 »?1Ms(w + 1 ) 12
Diese Größe ist v e r t e i l t n a c h m i t 1 F r e i h e i t s g r a d . Wie m a n sich d u r c h Vergleich m i t F o r m e l (6.6.2) ü b e r z e u g t , ist diese Größe g e n a u das Q u a d r a t der b e i m Wilcoxon-Test verw e n d e t e n Testgröße. D a a u c h die ^ - V e r t e i l u n g m i t 1 F r e i h e i t s g r a d die V e r t e i l u n g des Q u a d r a t e s einer n a c h N ( 0 , 1 ) verteilten zufälligen V a r i a b l e n ist, ist der Test v o n Kruskal und Wallis im F a l l e 1c = 2 m i t d e m Wilcoxon-Test identisch. W i r k ö n n e n also d e n Test v o n Kruskal und Wallis als die V e r a l l g e m e i n e r u n g des Wilcoxon-Tests auf eine beliebige Z a h l v o n S t i c h p r o b e n a u f f a s s e n . ( D e r Test v o n Kruskal und Wallis ist allerdings n i c h t die einzig mögliche Verallgemein e r u n g . Vgl. hierzu Pfanzagl, S. 3 2 f f . ) B e i s p i e l : Vier Drahtsorten sind hinsichtlich ihrer Zugfestigkeit miteinander zu vergleichen. Die Ergebnisse der 4 Stichproben sind in nachstehender Tabelle zusammengefaßt:
158
6 Verteilungsunabhängige Verfahren Tabelle 14 Zugfestigkeit von 4 Drahtsorten in g 2. Sorte
1. Sorte Meßwerte 348 345 351 350 344 342 346
Rangzahlen 23 19 26 25 17 13% 21
3. Sorte
Meßwerte
Rangzahlen
Meßwerte
342 335 333 331 339 341 336
13% 6
347 345 343 352 349 353 343
3% 2 10 11V2 7
4. Sorte
Rangzahlen
Meßwerte
22 19
345 333 330 341 338 334 337
15% 27 24 28 15%
Rangzahlen 19 3% 1 11% 9 5 8
B1 = 144%
R2 = 5 3 %
R 3 = 151
/¿4 = 57
n^ = 7
n2 = 7
«3 = 7
ni =
l
Die Kontrolle nach Formel (2) ergibt: 144y 2
+
53 I/ 2 +
151 +
OQ . OQ 0 ÜV .
57 = 406 =
Sind alle n,- gleich, so gilt Wj = n/A und Formel (1) vereinfacht sich weiter zu: 19 Jw 2 (n + 1 )
* iTi
'
v
y
Wir erhalten also: T
= W ^ 9
4 9 7 9 2
-
3
"
2 9
=
1 8
-
der x 2 -Verteilung
Die 9 9 % Sicherheitsgrenze mit k — 1 = 3 Freiheitsgraden liegt bei 11,3. Wir können also mit hoher Sicherheit schließen, daß die Verteilung der Zugfestigkeiten nicht für alle 4 Drahtsorten die gleiche ist. Ähnlich wie der Wilcoxon-Tcst im Falle k = 2 h a t auch der Test von Kruskal und Wallis für beliebige k bei Anwendung auf die Normalverteilung verglichen mit der in diesem
6.8 Der Vergleich mehrerer verbundener Stichproben
159
Falle optimalen Streuungszerlegung eine asymptotische "Wirksamkeit von 3¡jt = 0,95 oder 95%. Ein Test für den Vergleich von k Stichproben aus Normalverteilungen wird in Abschnitt 8.10 behandelt. 6.8 Der Vergleich mehrerer verbundener Stichproben Beim Vergleich von zwei Stichproben mußten wir zwischen unabhängigen Stichproben (Abschnitt 6.G) und verbundenen Stichproben (ein Teil des Abschnittes 6.5) unterscheiden. Die gleiche Unterscheidung müssen wir auch beim Vergleich von k Stichproben treffen. Im Abschnitt 6.7 haben wir den Vergleich von k unabhängigen Stichproben behandelt. In diesem Abschnitt beschäftigen wir uns mit dem Vergleich von k verbundenen Stichproben. Nehmen wir an, es wären k verschiedene Behandlungsmethoden miteinander zu vorgleichen. Die Vorteile, welche sich in diesem Falle aus der Verwendung verbundener Stichproben ergeben, liegen klar auf der H a n d : Man bildet mehrere Gruppen von je k untereinander möglichst ähnlichen Einheiten. Eine solche Gruppe von k untereinander ähnlichen Versuchseinheiten wird ein „Block" genannt. Ein solcher Block kann z. B. aus Tieren ein und desselben Wurfes bestehen oder aus benachbart gelegenen Versuchsfeldern. Beim Vergleich von 2 Stichproben bestand jeder Block aus 2 Einheiten. Beispiele solcher Blöcke sind u. a. Rechts-LinksVergleiche (S. 220), eineiige Zwillinge, Versuchsfelder (S.141). Jede Einheit eines Blockes wird nun mit einer anderen der k Methoden behandelt. Die Zuteilung der Einheiten zu den einzelnen Behandlungsmethoden erfolgt zufallsartig (z. B. mit einer Tabelle von Zufallszahlen). Da die Einheiten ein und desselben Blockes untereinander ähnlich sind, wird der Vergleich zwischen den Behandlungsmethoden genauer. Indem man den ganzen Versuch mit sehr verschiedenen Blöcken wiederholt, erzielt man gleichzeitig hohe Genauigkeit und breite induktive Basis. Allgemein gesprochen stehen folgende Ausgangsdaten für die Analyse zur Verfügung:
160
6 Verteilungsunabhängige Verfahren -
^
Behandlungsmethode
1 2 . .
. . k
Block
2
• • • • xxik • 2k 21 22 '
x2.
rl xr2 •
• • XTk
Xr.
. . x.k
X..
1 2
X 11 XX12 X
r
x
X-2 .
2 Wir bezeichnen:
k ~ — j-1
r r k J'-j = 2 Xtj, X.. = ^ 2 XM . i-1 i=lj=l
Während wir im allgemeinen das arithmetische Mittel der i. Stichprobe mit x{ bezeichnen, setzen wir in diesem Abschnitt und in Abschnitt 8.13. -
_J_
-
__L
X
i- —k £ Xi- ' x-j1 ~ rr X'3 ' 1 um die Werte — . ¿ a ^ - u n d — 2 xa voneinander u n t e r Ic ,=i r i_i scheiden zu können. Sei außerdem =
X'
1
rk
X.. .
Zu testen ist die Hypothese, daß zwischen den k Behandlungsmethoden keinerlei Unterschied besteht. Sofort können wir wieder einen Randomisierungs-Test angeben: Besteht kein Unterschied zwischen den Behandlungsmethoden, so hat offenbar jede Permutation von (xiv xi2,.. .,xi!c) die gleiche Wahrscheinlichkeit. Dabei sind die Permutationen innerhalb der einzelnen Blöcke voneinander unabhängig, so daß es insgesamt (k\)r verschiedene gleichwahrscheinliche
6.8 Der Vergleich mehrerer verbundener Stichproben
161
Realisationen gibt. Die kritische Region wird auf Grund der Testgröße ¿ { x . l - t f
gebildet, die mit
j=l
k i=i
äquivalent ist. Signifikant sind große Werte. Diese Wahl der kritischen Region garantiert die Einhaltung einer vorgeschriebenen Irrtumswahrscheinlichkeit und liefert einen Test, der im Falle der Normalverteilung besonders wirksam ist. F ü r große Stichproben kann man wieder ein Approximationsverfahren angeben, das darauf beruht, daß die Größe 1
r
(r —1) ( f c - 1 ) &
_
k
^
^
-
~
+
f ü r große Stichproben annähernd f - v e r t e i l t ist mit [(7c — 1, (7c — 1) (r — 1)] Freiheitsgraden (vgl. hierzu auch die Ausführungen im Abschnitt 8.13). Auch für dieses Problem gibt es einen einfachen RangTest, den sogenannten Test von Friedman. Es wird jedem x ( j jene Rangzahl R if zugeordnet, die es innerhalb seines Blockes besitzt. Der Test von Friedman basiert auf den Summen der Rangzahlen für die einzelnen Behandlungsmethoden, R.v R.2,. .., R.k. Wenn zwischen den einzelnen Behandlungsmethoden tatsächlich Unterschiede bestehen, so wird dies zu merkbaren Abweichungen zwischen den R.j führen. Es liegt nahe, diese Abweichungen zwischen den R.j durch J;
j=i
{Ti.j
- ' f i f
oder durch die äquivalente Größe
J1
r f a n z a g l , Allgemeine M e t h o d e n l e h r e der S t a t i s t i k
162
6 Verteilungsunabhängige Verfahren
zu messen. Die Größe (1) ist bei Zutreffen der Hypothese (d. h. wenn kein Unterschied zwischen den Behandlungsmethoden besteht) annähernd ^ - v e r t e i l t mit (k — 1) Freiheitsgraden. Lediglich für k = 3 und k = 4 ist die Approximation durch die ^ - V e r t e i l u n g nicht gut. F ü r diese Werte sind die Sicherheitsgrenzen c in der Tabelle auf S. 296 angeführt. Signifikant sind Werte größer oder glcich c. Zur Kontrolle der R . t dient die Relation
(2)
i-1
^
+
B e i s p i e l : Bei einem Sommerweizen-Sortenversuch der eidgenössischen landwirtschaftlichen Versuchsanstalt Zürich-Oerlikon wurden folgende Ergebnisse erzielt: Tabelle 16 Erträge beim Sommerweizen-Sortenversuch in 10 kg/ha \
Sorte
Block\
Hur on il
RH
x
Pü D t
Reg(snt
i2
X
i3
X
Coronation
Ne Krtha' üh ii
Ri3
Ru
x
i5
X
1
464
5
440
3
446
4
409
1
421
2
441
5
393
3
334
1
376
2
402
4
3
407
4
320
2
321
3
309
1
410
5
4
376
5
351
4
343
3
296
1
327
2
B.i
i i . ! = 19 R.t = 12 R. 3 = 11
Quelle: A. Linder: Basel 1959, S. 35.
2
R. 4 = 5 5 . 6 = 13
Planen und Auswerten von Versuchen, 2. Auflage
Die Kontrolle mit Relation (2) ergibt 19 + 12 + 11 + 5 + 13 = 60 =
4
'
5
^
+
1}
.
Es ist 19 2 + 12 2 + I I 2 + 5 8 + 13 2 = 820. Somit ist die Testgröße gleich - ^ • 8 2 0 - 3 - 4 . ( 5 + 1) = 10.
7.1 Die / - M e t h o d e
163
2
Die x -Verteilung mit 4 Freiheitsgraden hat ihre obere 99%-Grenze bei 13,3. Der beobachtete Wert ist daher noch nicht signifikant. (Eine Durchrechnung desselben Beispiels mit dem F-Test liefert ein signifikantes Ergebnis. Vgl. hierzu S. 246.)
Die Spezialisierung der Testgröße (1) für den Fall k = 2 führt zu einem Test, der mit dem Zeichentest (Abschnitt 6.2) äquivalent ist, die Spezialisierung für r = 2 zu einem Test, der auf dem Spearmanschen Rang-Korrelationskoeffizienten (Abschnitt 9.10) beruht. Da die asymptotische Wirksamkeit dieser beiden Tests sehr verschieden ist (64 bzw. 91%), ist zu ersehen, daß die Wirksamkeit des Tests von Friedman stark von dem Verhältnis von k und r abhängt. Es ist anzunehmen, daß sie mit steigendem k besser wird. 7 Die / - M e t h o d e ; Kontingenztafeln 7.1 Die /-Methode Wir betrachten eine diskrete Verteilung, bei der m verschiedene Ausprägungen, die wir mit den Nummern 1, 2 , . . . , m bezeichnen, eine positive Wahrscheinlichkeit haben. Für i = 1, 2 , . . . , m sei n,- die Häufigkeit, mit der die Ausprägung i in einer Stichprobe vom Umfang n auftritt. m Dann ist W; = n. Nehmen wir nun an, es läge eine Hypo¡=i these über die Größe der m positiven Wahrscheinlichkeiten vor: m Vi, Vi, • • •, Vrn, wobei 2! Vi = 1 •
¡=1
B e i s p i e l : Kreuzt man zwei Hybriden Aa x Aa, so gibt es bei intermediärem Erbgang drei bereits in ihrem Phänotypus unterscheidbare Arten von Nachkommen: AA, Aa und aa. Nach den Mendelschen Regeln müßten diese drei Arten die Wahrscheinlichkeiten = 1/4, p 2 = 1/2, p 3 = 1/4 haben.
Um zu einem Urteil über die Richtigkeit der Hypothese zu kommen, muß man die tatsächlich beobachteten Werte nv n 2 , . . . , nm mit den erwarteten Werten nplt np2,..., npm n*
164
7 Die z 2 -Methode; Kontingenztafeln
vergleichen. Dieser Vergleich erfolgt üblicherweise mit folgender Testgröße: m
(1)
v =
i=l
(n,- — n vif iiL, n Vi
wobei große Werte als signifikant gelten. Bei Zutreffen der Hypothese ist die Testgröße V für große Stichproben annähernd ^-verteilt. Die Anzahl der Freiheitsgrade ist gleich der Anzahl der Gruppen vermindert um 1, also (m — 1). (Die Verminderung um eins kommt — anschaulich gesprochen — daher, daß die Besetzungszahlen der einzelnen Gruppen nicht beliebig variieren können, sondern sich stets zum vorgegebenen Stichprobenumfang n aufaddieren müssen.) Wie gut die Verteilung von V mit der ^-Verteilung übereinstimmt, hängt vor allem von den schwach besetzten Gruppen ab. Als Faustregel kann gelten, daß man mit der Verteilung arbeiten darf, wenn keine der Gruppen eine erwartete Besetzungszahl npi kleiner als 1 hat und wenn höchstens 1/5 der Gruppen erwartete Besetzungszahlen kleiner als 5 haben. (Wenn yf nur einen einzigen Freiheitsgrad besitzt, sollte keine der Gruppen eine erwartete Besetzungszahl kleiner als 5 haben und außerdem n mindestens 30 sein.) Ist diese Voraussetzung nicht erfüllt, so empfiehlt es sich, schwach besetzte Gruppen zusammenzufassen. F ü r die praktische Berechnung erweist sich Formel (1) nur dann als zweckmäßig, wenn die Größen np{ ganzzahlig sind, so daß die Differenzen w,- — np( ebenfalls ganzzahlig und daher leicht zu quadrieren sind. Sind die np{ nicht ganzzahlig, so wird man zweckmäßiger von der äquivalenten Formel (2)
1 ™ »? V = — 2 — —n n »=i Vi
ausgehen, sofern man sich nicht aus bestimmten Gründen für die erwarteten Werte np( interessiert. Als Faustregel gilt, daß bei der Berechnung von V nach Formel (1) die erwarteten Werte npt mit einer Dezimalstelle zu verwenden sind. Die Genauigkeit, mit der pf bei Formel (2) einzusetzen
7.1 Die x2-Methode
165
ist, soll ebenfalls so groß sein, daß bei np( die erste Dezimalstelle noch genau -wird. Bei den in diesem Abschnitt behandelten Beispielen sind allerdings die p,- meist sehr einfache Brüche und die Frage der Genauigkeit ist daher nicht sehr aktuell. Diese tritt jedoch bei der im nächsten Abschnitt besprochenen Methode auf, wo die p,- aus der Stichprobe geschätzt werden. 1. Beispiel: Es wird vermutet, daß bei Pferderennen auf einer kreisförmigen Rennbalm die Startposition einen Einfluß auf die Gewinnchancen besitzt. Nachfolgende Tabelle zeigt in der Spalte n( die Aufgliederung von 144 Siegern nach der Nummer ihrer Startposition (Die Startpositionen wurden von innen nach außen numeriert.) Tabelle 16 Berechnung von V Nummer der Staltposition i
Anzahl der Sieger ni
w,—144/8 = = Mi—18
(«,•—18)2
1 2 3 4 5 6 7 8
29 19 18 25 17 10 15 11
11 1 0 7 — 1 — 8 — 3 — 7
121 1 0 49 1 64 9 49
2
144
294
Quelle: S. Siegel: Nonparametric statlstis, New York, 1956, S. 45.
Hätte die Startposition keinen Einfluß, so müßten die Sieger gleichmäßig über alle Startpositionen verteilt sein, d. h., die Wahrscheinlichkeit, daß ein Sieger eine bestimmte Startposition hatte, wäre für jede Startposition 1/8. In unseren Falle ist np,-
7 Die / 2 -Methode; Kontingenztafeln
166
ganzzahlig, so daß wir Formel (1) anwenden. Da alle p,- gleich sind: p t = lim, vereinfacht sich Formel (1) zu: n\2
1 m / V = — ¿(nt n/m i = i \
ml
.
Es gilt n\m — 144/8 = 18. Aus obiger Tabelle entnehmen wir, daß 2 («i —18) 2 = 294, so daß V = 294/18 = 16,3. Die 99%-Grenze der x 2 -Verteilung mit 7 Freiheitsgraden liegt bei 18,5. Die beobachteten Werte widersprechen also der Annahme, daß die Startposition keinen Einfluß besitzt, nicht unbedingt. Der beobachtete Wert V = 16,3 ist allerdings so groß, daß eine weitere Untersuchung mit vergrößertem Material ratsam erscheint. Würde sich ein signifikanter Wert V ergeben, so wäre dies ein Beweis dafür, daß die Siegeschancen irgendwie mit der Startposition zusammenhängen. Dieser Zusammenhang könnte z. B. darin bestehen, daß gewisse Startpositionen die Siegeschancen vergrößern, aber auch darin, daß „Favoriten" von vornherein gewisse Startpositionen zugeteilt werden. 2. B e i s p i e l : Nehmen wir an, es hätten sich in dem im Beispiel auf S. 163 besprochenen Erbgang bei einem Versuch folgende Zahlen ergeben: nt — 14, n2 = 25, n 3 = 18. Sind diese Zahlen mit den Wahrscheinlichkeiten = 1/4, = 1/2 p3 = 1/4, wie sie sich aus den Mendelschen Regeln ergeben, verträglich ? Tabelle 17 Berechnung von V Vi
n
i
Vi
1 4
14
196
784
1 2
25
625
1250
1 4
18
324
1296
2
n = 57
3330
7.1 Die ¡^-Methode
167
Die 99%-Grenze der Verteilung mit 2 Freiheitsgraden liegt bei 9,2. Da V = 1,4 wesentlich unterhalb dieser Grenze liegt, stehen die beobachteten Werte mit den Mendelschen Regeln durchaus im Einklang.
Der Wert der Testgröße V ist von der Reihenfolge der einzelnen Gruppen unabhängig: Eine Permutation der Gruppen ändert den Wert von V nicht. Bei manchen Sachverhalten wird man aber erwarten, daß dann, wenn überhaupt ein Effekt vorhanden ist, dieser in einem wesentlichen Zusammenhang mit der Reihenfolge der Gruppen steht, also im obigen Beispiel 2 etwa, daß dann, wenn überhaupt ein Einfluß der Startpositionen vorhanden ist, dieser sich so auswirkt, daß eine Startposition um so günstiger ist, je näher sie am Innenrand der Rennbahn liegt. In solchen Fällen wird man von einem guten Test erwarten, daß er diesen organischen Zusammenhang mit der Reihenfolge der Gruppen berücksichtigt. Dies ist beim ^ 2 -Test, wie oben erwähnt, nicht der Fall. Er wird daher bei Problemen dieser Art keine optimale Wirksamkeit besitzen. Ein für die Behandlung solcher Probleme adäquater Test wird in Abschnitt 7.5 besprochen. Spezialisieren wir Formel (1) für den Fall w = 2, so erhalten wir: y = K — WPl)2 . (W2— WPj)8 npl
np2
Die Größe V ist asymptotisch ^-verteilt mit 1 Freiheitsgrad, d. h., für n —> oo besitzt V eine ^-Verteilung mit 1 Freiheitsgrad. Berücksichtigt man die Beziehung + p 2 = 1 und + n2 = n, so erhält man durch eine leichte Umformung : v
=
(ni —
n
Pi)2
«Pi(l —Pi) ' Dieses Ergebnis steht im Einklang mit dem Ergebnis auf S. 68. Dort wurde gezeigt, daß — n p1
)/nvi ( l — Pi)
7 Die x2-Methode ; Kontingenztafeln
168
asymptotisch nach N(0,1) verteilt ist. V ist gerade das Quadrat dieser Größe und daher asymptotisch ^ - v e r t e i l t mit 1 Freiheitsgrad. 7.2 Die £ 2 -Methode bei Abhängigkeit von einem Parameter Sehr oft finden wir in der Praxis den Fall, daß die Wahrscheinlichkeiten pv p2,..., pm von einem unbekannten Parameter (oder mehreren) abhängen: Piift), P 2 ($)> • • und nicht etwa Interesse daran besteht, eine Hypothese über die Größe dieses Parameters, sondern vielmehr die durch Pi(&), p2($), • • •» Vmiß) zum Ausdruck gebrachte Art der funktionalen Abhängigkeit zu prüfen. B e i s p i e l : Aus einem bestimmten genetischen Modell der Rotgrünblindheit ergeben sich folgende Wahrscheinlichkeiten: Geschlecht
männlich
weiblich
&
normal rotgrünblind
Vz=
1— 0 2
Will man dieses genetische Modell prüfen, so ist nicht der Wert von & interessant, sondern lediglich die sich aus dem Modell ergebende Art der funktionalen Abhängigkeit der Wahrscheinlichkeiten p, vom Parameter Um den gewünschten Test für die Art der Abhängigkeit zu erhalten, muß man zunächst einen Schätzer für den unbekannten Parameter gewinnen. Zu diesem Zweck wird man am besten die maximum likelihood-Methode (siehe 3.7) anwenden. Likelihood-Funktion:
PzW'.
. . pm(#)"»' .
m. l.-Gleichung:
tti
Pi (&)
'
d»
7.2 Die x 2 -Methode bei Abhängigkeit von einem Parameter
169
Durch Auflösen dieser Gleichung gewinnt man einen Schätzer &. Als Testgröße dient: (1)
V = J (nj-nylh? > » =1 npi ( 0 ) oder, für die praktische Berechnung: 1 m nj (2) V=—Z — —» • » i - i P,(0)
Wieder gelten große Werte als signifikant. Bei Zutreffen der Hypothese ist V für hinreichend große n annähernd ^-verteilt mit (m — 2) Freiheitsgraden. Wird nicht nur ein Parameter aus der Stichprobe geschätzt, sondern l Parameter, so ist V annähernd verteilt nach mit (m — l — 1) Freiheitsgraden. Ob n so groß ist, daß man die ^-Verteilung anwenden darf, wird auch hier nach der oben (S. 164) angegebenen Faustregel bestimmt. Der Schätzer für •& kann auch nach einer anderen Methode als der m. l.-Methode gewonnen werden. So kann man als •& jenen Wert von •& wählen, für den V, als Funktion von & betrachtet, das Minimum annimmt (^-MinimumMethode). In den meisten Fällen ist dieser Wert jedoch komplizierter zu berechnen als der m. I.-Schätzer. 1. B e i s p i e l : Bezeichnen wir die Besetzungszahlen der 4 Felder im obigen Beispiel über die Rotgrünblindheit der Reihe nach mit nlt n2, « 3 , m4, so ist die m. l.-Gleichung:
1 ,
1—0 0(1-0/2)
1
2
=
.
Daraus erhalten wir nach einigen Umformungen:
— & ( y ni +
2n
2 + n3 +
2n
ij + K + n2) = 0-
170
7 Die ¡(--Methode; Kontingenztafeln
Bei einer Untersuchung wurden folgende Zahlen ermittelt: Tabelle 18 Rotgrünblindheit nach dem Geschlecht Geschlecht normal
männlicli
weiblich
8324
9032
725
40
rotgrünblind
Quelle: 0. H. M. Waaler: Über die Erbllehkelts Verhältnisse der verschiedenen Arten von angeborener Rotgrünblindheit, Zeitschrift f. Ind. Abstämmlings- und Vererbungslehre Bd. 45, 1927, S. 279—333. Daraus ergibt sich die m. l.-Gleichung: • 13 596,5 — 0 • 31 355 + 17 356 = 0 mit den beiden Lösungen = 0,9229 und = 1,3832. Da aus dem Modell heraus für & nur Werte zwischen 0 und 1 in Frage kommen, ist also = 0,9229 die gesuchte Lösung. Daraus folgt (vgl. S. 168): p ^ ^ W p ®
=0,4616,
* ( * ) « 0,9229 ( l - * f » ) P,(fl) = P 4
(»)=
1
~°29229
i l ^
2
= 0 ,.4970,
= 0,0386,
- ^ .
0,0030.
Wir erhalten somit: 1 18324 2 90322 725* 18 121 \0,4615 ^ 0,4970 ^ 0,0386 ^ = 3,2.
40* \ 0,0030/
Die Zahl der Freiheitsgrade ist 2, da 4 Gruppen vorliegen und 1 Parameter & aus der Stichprobe geschätzt wurde. Die 99%Grenze liegt bei 9,2, ist also wesentlich größer als der berechnete Wert V = 3,2. Das oben beschriebene genetische Modell der Rotgrünblindheit steht also mit den Beobachtungsergebnissen im Einklang. Dies ist um so bemerkenswerter, als der Test infolge der großen Stichprobe (über 18000) sehr empfindlich ist und auch auf geringfügige Abweichungen anspricht.
7.2 Die ^-Methode bei Abhängigkeit von einem Parameter
171
2. B e i s p i e l : Wir betrachten ein Erbmerkmal, das in drei verschiedenen Allelen, Alt Az, A3 auftritt. Es ist die Hypothese zu prüfen, daß in der Population vollständige Durchmischung herrscht, d. h. daß die PaarungsWahrscheinlichkeiten von diesen Allelen unabhängig sind. Im Falle der vollständigen Durchmischung kann man die Wahrscheinlichkeiten, mit denen die einzelnen Genotypen in der Population auftreten, durch die sog. „Genwahrscheinlichkeiten" & lt + + = 1) ausdrücken*): Allgemein hat das Zusammentreffen der Allelen A t und Aj im Falle der vollständigen Durchmischung die Wahrscheinlichkeit &i Da die Genotypen At Aj und Aj At identisch sind, erhalten wir: Genotypus Wahrs ch einlichkeit A1A1 A% A2
df &l
A1 A2 A3 A1 In einem konkreten Falle — es handelte sich um die Untersuchung von Chromosomen-Inversionen — waren die drei Homozygoten (At Av A, A2, A3 A3) bei der mikroskopischen Untersuchung nicht unterscheidbar. Tatsächlich beobachtbar waren daher 4 Gruppen: beobachtete Wahrscheinlichkeit Phänotypus Häufigkeit Po
=
n +
II to
(- • • •> Vm(ß) mittels der Testgröße (1) prüfen, wenn wir für «,• die Anzahl derjenigen Stichprobenergebnisse einsetzen, die in der i. Gruppe liegen. Die Gruppierung ist so vorzunehmen, daß die Anzahl der erwarteten Werte in den beiden Randgruppen mindestens 1 ist. Die Anzahl der erwarteten Werte in den übrigen Gruppen soll nicht kleiner als 5 sein. Dies sind Voraussetzungen dafür, daß die Verteilung von V tatsächlich durch eine ^-Verteilung approximiert werden kann. Außerdem soll die Anzahl der erwarteten Werte in keiner Gruppe zu groß sein, denn eine zu starke Zusammenfassung beeinträchtigt die Wirksamkeit des Tests. Als Faustregel kann gelten, daß keine Gruppe mehr als |In Werte enthalten soll. Bei sehr großem n wird diese Faustregel praktisch allerdings schwer zu verwirklichen sein, da man sonst u. U. einige hundert Gruppen erhält. Allerdings ist die Befolgung der Faustregel in diesem Falle auch nicht sehr wichtig, weil dann der Test — infolge des großen n — ohnedies sehr wirksam ist. Praktisch kann man die Grenzen der Gruppen wohl nur selten zahlenmäßig fixieren, bevor die Beobachtungen tatsächlich vorliegen. Man wird daher meist so vorgehen, daß man die Besetzungszahlen der einzelnen Gruppen vorgibt und die Abgrenzung dann auf Grund der vorliegenden Stichprobe
7 Die x2-Methode; Kontingenztafeln
176
so festlegt, daß die vorgegebenen Besetzungszahlen tatsächlich eingehalten werden. (Vgl. hierzu die Arbeit von Witting.) Theoretisch sollten die Parameter der Verteilung geschätzt werden auf dem Wege über die Wahrscheinlichkeiten, die sich aus der hypothetischen Verteilung für die einzelnen Gruppen ergeben. Dies führt jedoch meist zu rechnerischen Schwierigkeiten. (Für den Fall der Normalverteilung vgl. z. B.: v. d. Waerden, S. 231.) Man wird daher in der Praxis jene Schätzungen wählen, die man auf Grund der maximum likelihood-Methode aus den Einzelwerten erhält bzw. bei sehr großem n eine bequeme Schätzung aus dem gruppierten Material vornehmen. B e i s p i e l : Tabelle 20 gibt eine Aufgliederung von 200 elektrischen Widerständen nach der Größe des Widerstandes in Ohm. Tabelle 20 Test auf Übereinstimmung mit der Normalverteilung Widerstand in Q
148—149 149—150 150—151 151—152 152—153 153—154 154—155 155—156 156—157 157—159 2
Anzahl der Widerstände
Schätzwerte der Wahrscheinlichkeiten
«i
Vi
1 5 22 39 38 49 21 17 7 1
0,0116 0,0339 0,0902 0,1658 0,2264 0,2143 0,1503 0,0724 0,0272 0,0079
86 737 5 366 9 174 6 378 11 204 2 934 3 992 1801 127
200
1,0000
41 799
V = 41 799/200—200 = 9,0.
«f Vi
7.3 Die Unabhängigkeit in einer Kontingenztafel
177
2
Wir wollen nun mit dem % -Test prüfen, ob diese Werte einer Normalverteilung entsprechen oder nicht. Zu diesem Zwecke mußten wir die Gruppen 157—158 und 158—159 wegen der zu geringen Besetzung zusammenfassen. Die Schätzwerte für die y l berechnen wir einfach auf Grund der bereits seinerzeit (S. 30) verwendeten Werte x = 152,89 und s = 1,71 nach der Formel
Dabei ist G\ die obere Grenze der i. Gruppe. Die Zahl der Freiheitsgrade beträgt 7, da 10 Gruppen vorliegen und 2 Parameter (¡i und a) aus dem Material geschätzt werden. Die 95%-Grenze der ^-Verteilung mit 7 Freiheitsgraden liegt bei 14,1. Die Annahme, daß die Widerstände normalverteilt sind, ist daher mit dem vorliegenden Beobachtungsmaterial durchaus verträglich. (Daß keine markanten Abweichungen von der Normalverteilung vorliegen, zeigte bereits die Darstellung der empirischen Summenverteilung im Wahrscheinlichkeitsnetz, Bild 11, S. 37.) 7.3 Die Unabhängigkeit in einer Eontingenztafel Eine sehr wichtige Anwendung der ^-Methode ist die Prüfung der Unabhängigkeit in einer Kontingenztafel. B e i s p i e l : Tabelle 21 auf S. 178 enthält Angaben über die Religionszugehörigkeit von Braut und Bräutigam jener Ehen, die in Wien im Jahre 1957 geschlossen wurden. Es ist zu untersuchen, ob die Religionszugehörigkeit irgendeinen Einfluß auf die Wahl des Ehepartners hat oder nicht. Zu prüfen ist also die Hypothese der Unabhängigkeit: Die Religion hat keinen wie immer gearteten Einfluß auf die Wahl des Ehepartners. Im allgemeinen Fall haben wir zwei Merkmale mit r bzw. s verschiedenen Ausprägungen. Bei jedem Stichprobenelement wird festgestellt, in welcher Ausprägung jedes der beiden Merkmale vorliegt: wi3- sei die Anzahl jener Stichprobenelemente, bei denen das erste Merkmal in der i., das zweite Merkmal in der j. Ausprägung vorliegt. Das Ergebnis 12 P f a n z a g l , Allgemeine Methodenlehre der Statistik
7 Die x 2 -Methode; Kontingenztafeln
178
Tabelle 21 Aufgliederung der Eheschließungen nach dem Religionsbekenntnis von Braut und Bräutigam, Wien 1957 x
\
Braut röm.kath.
Bräutigam
evang.
sonstige Religionsbekenntnisse
ohne Religionsbekenntnis
2
9 919
693
97
293
11 002
evangelisch
782
344
22
44
1 192
sonstige Religionsbekenntnisse
248
27
134
22
431
röm.-kath.
ohne Religionsbekenntnis
£
812
108
31
197
1148
11 761
1 172
284
556
13 773
Quelle: Statistisches Handbuch der Stadt Wien, Jahrgang 1957, S. 30.
der Stichprobe können wir übersichtlich in der Form einer sogenannten Kontingemtafel darstellen: 2. Merkmal 1
2
.
. .
.
s
2
«n »21
«12
• •
. . • • «2S
•
«IS
«1. «2.
nn
nr2
.
• • »rs
»r.
«.1
n.2
1. Merkmal ' 1 2
r 2
«22
.
.
•
n
7.3 Die Unabhängigkeit in einer Kontingenztafel
179
Die Randsummen bezeichnen wir mit: S
Mi. = Es gilt:
T
2J
n
j=1
i f
,
n.j
r
=
yj
i=i
•.
s n
i. =
^
n.j
=
n .
i=l j=l Nun betrachten wir die zugehörigen Randverteilungen, d. h. die Verteilung des 1. Merkmals über die Ausprägungen 1, 2 , . . r (ohne Berücksichtigung des 2. Merkmals) und die Verteilung des 2. Merkmals über die Ausprägungen 1, 2, ..., s (ohne Berücksichtigung des 1. Merkmals). Die Randverteilung des 1. Merkmals habe die Wahrscheinlichkeiten . . . , p r .; die empirische Häufigkeitsverteilung, wie sie sich aus der Stichprobe ergibt, ist nv, n2„ ..., n r .. Analog bezeichnen wir die Wahrscheinlichkeiten der Randverteilung des 2. Merkmals mit p . p . , . . . , p . \ die empirische Häufigkeitsverteilung ist n.lt n . 2 , . . . , n.s. Die Wahrscheinlichkeit für die Kombination i, j (d. h. für das Auftreten des 1. Merkmals in der i. Ausprägung verbunden mit dem 2. Merkmal in der j. Ausprägung) bezeichnen wir mit ptj. Die Häufigkeit, mit der diese Kombination in der Stichprobe auftritt, ist ny. Sind die Merkmale 1 und 2 voneinander unabhängig, so gilt nach dem Multiplikationstheorem der Wahrscheinlichkeitsrechnung (vgl. S. 12). Pij = Pi. p.j. Nun sehen wir deutlich, daß sich die Frage der Unabhängigkeit in der Kontingenztafel mit Hilfe der oben beschriebenen ^ - M e t h o d e lösen l ä ß t : Es liegt ein Merkmal vor, das insgesamt r • s verschiedene Ausprägungen aufweist. (Das Merkmal ist sozusagen „zweidimensional", die r • s Ausprägungen sind die verschiedenen Kombinationen der r Ausprägungen des 1. Merkmals mit den s Ausprägungen des 2. Merkmals und entsprechen anschaulich den r • s Feldern der Kontingenztafel.) Die Wahrscheinlichkeiten der einzelnen Ausprägungen sind durch die Beziehung pjj = pi.p.j als Funktionen von (r — 1) + (s — 1) unbekannten Parametern darstellbar, z. B. den Parametern v
Pi; 12*
P20 • •
2
Pr-1-.
s
P-l> P-2! • •
V-i- 1 •
180
7 Die / 2 -Methode; Kontingenztafeln
(Wegen der Beziehungen 2 Pt. = l und £ p = 1 i-l j-l '
können pr. und p.s durch p1„ p2„ ..., pr_x. bzw. p.v p.2,..., p.,_j ausgedrückt werden.) Wendet man die maximum likelihood-Methode unter Berücksichtigung dieser Beziehungen an, so erhält man die Schätzer: pt. = n^jn für i = 1 , . . ., r, und p.j = n.j/n für 7 = 1 , . . . , s. Man erhält daraus als Schätzer für p(i den Wert Vij= '
«,-.
n.j
n • n '• Die Zahl der erwarteten Fälle in der Kombination i, j ist daher A n n Nach Formel (7.2.2) (S. 169) erhalten wir somit als Testgröße: (1)
1 r s „z. / r s „?. \ v = — 2 2 ^ - - n = n [ 2 2 -JSL - 1 . « i - i > = ] Vij \i = i ? = l »i-n-i /
Die Anzahl der Freiheitsgrade ist im allgemeinen Fall (m — k — 1). Hier gilt: Zahlen der Gruppen: m = r • s. Zahl der geschätzten Parameter: k = (r — 1) + (s — 1). Daraus folgt: m—k—l=rs — [(r—l) + (s—1)] —1 = (r—1) (s—1). V ist also für hinreichend große n annähernd verteilt nach X2 mit (r — 1) (s — 1) Freiheitsgraden. (Wegen eines Kriteriums für die Größe von n vergleiche S. 164.) B e i s p i e l : Führen wir für die auf S. 178 angegebenen Daten über das Religionsbekenntnis der Eheschließenden die Berechnung durch, so erhalten wir: 4
4
JZ £
t-1 i-1 also
n?"l>
n n
i- -i
= 1,230,
V = 13 773 (1,230 — 1) = 3 168.
Im Falle der Unabhängigkeit ist V verteilt nach -/' ir"it (4 — 1) • (4 — 1) = 9 Freiheitsgraden. Die 99%-Grenze für die
7.3 Die Unabhängigkeit in einer Kontingenztafel
181
2
X -Verteilung mit 9 Freiheitsgraden liegt bei 21,7. Der beobachtete Wert von V liegt also weit außerhalb der Sicherheitsgrenze, so daß die Hypothese der Unabhängigkeit eindeutig widerlegt ist. Damit ist aber natürlich noch nicht gesagt, daß dem Religionsbekenntnis bei der Wahl des Ehepartners tatsächlich Beachtung geschenkt wird. Die zweifellos bestehende Abhängigkeit könnte — theoretisch — zur Gänze auf indirekte Zusammenhänge zurückzuführen sein. Solche indirekten Zusammenhänge könnten sich z. B. daraus ergeben, daß das Religionsbekenntnis mit gewissen geographischen oder sozialen Gruppierungen im Zusammenhang steht, die ihrerseits wieder bei der Wahl des Ehepartners eine Rolle spielen. Vielfach mag es auch von Interesse sein, nicht nur den Test auszuführen, sondern die Besetzungszahlen, die sich im Falle der Unabhängigkeit in den einzelnen Feldern ergeben würden, nach der Formel w4. n. ? /n zu schätzen und mit den tatsächlich beobachteten Besetzungszahlen zu vergleichen. Nachstehende Tabelle bringt diesen Vergleich für das obige Beispiel. Tabelle 22 Vergleich der beobachteten Besetzungszahlen (Normaldruck) mit den Unabhängigkeitszahlen (Fettdruck) Braut
röm. kath.
evang.
Bräutigam
sonstige Religionsbekenntnisse
ohne Religionsbekenntnis
693 936
97 227
293 444
782 1018
344 101
22 25
44 48
sonstige Religionsbekenntnisse
248 368
27 37
134 9
22 17
ohne Religionsbekenntnis
812 980
108 98
31 24
197 46
röm. kath. evangelisch
9 919 9 395
182
7 Die j; 2 -Methode; Kontingenztafeln
Diese Tabelle zeigt deutlich, daß in der Diagonale (das sind also jene Felder, bei denen die Religionsbekenntnisse beider Ehepartner in die gleiche Kategorie fallen) die beobachteten Besetzungszahlen stets größer sind als die Unabhängigkeitszahlen, während in den übrigen Feldern die beobachteten Besetzungszahlen meist kleiner als die Unabhängigkeitszahlen sind.
Es sei mit Nachdruck darauf hingewiesen, daß die oben definierte Größe V nur als Testgröße für die Hypothese der Unabhängigkeit aufgefaßt werden darf, nicht jedoch als Maß für die Stärke der Abhängigkeit. Man kann z. B. nicht sagen, daß von zwei Kontingenztafeln jene mit dem größeren V auch die stärkere Abhängigkeit aufweise, nicht einmal dann, wenn r und s bei beiden Tafeln übereinstimmen, da V ja noch von n und von den Randverteilungen abhängt. Mit der Frage eines adäquaten Maßes für die Stärke der Abhängigkeit befassen sich u. a. die Arbeiten von Goodman und KrusTcal sowie von Kruskal. Ein anderes, damit zusammenhängendes Problem besteht darin, die Besetzungszahlen auf Grund einer Stichprobe so zu schätzen, daß die Randverteilung bestimmte (z. B. aus einer Totalerhebung bekannte) Werte annimmt. Der an diesem Problem interessierte Leser wird auf die Arbeit von Weichsellerger verwiesen. Für den Fall, daß eines der beiden Merkmale nur zwei Ausprägungen aufweist (also r — 2 oder s = 2), können wir Formel (1) zum Zwecke numerischer Berechnungen weiter vereinfachen. Ohne Beschränkung der Allgemeinheit können wir annehmen, daß s = 2. Dann erhalten wir aus (1) nach einer leichten Umformung:
Die Anzahl der Freiheitsgrade ist (r — 1) • (2 — 1) = r— 1.
7.3 Die Unabhängigkeit in einer Kontingenztafel
183
Beispiel: Tabelle 23 Aufgliederung der Lebendgeborenen in Wien im Jahre 1957 nach Geschlecht und Geburtsmonat Monat i
männlich
weiblich
nu
«¡2
1 2 3 4 5 6 7 8 9 10 11 12
600 597 694 639 649 630 610 672 682 579 594 630
606 549 652 541 598 577 527 589 613 586 494 572
1 206 1146 1346 1180 1247 1 207 1137 1261 1 295 1 165 1088 1 202
298,507 311,003 357,828 346,035 337,771 328,832 327,265 358,116 359,169 287,761 324,298 330,200
7 576
6 904
14 480
3 966,785
2
zusammen nt.
nU
« i = l j = l TH-Vj
In den praktisch auftretenden Fällen handelt es sich jedoch nicht darum, zu prüfen, ob die Ergebnisse der Stichproben mit gewissen Wahrscheinlichkeiten pv p 2 , . . ., ps verträglich sind, sondern vielmehr darum, zu entscheiden, ob die Wahrscheinlichkeiten in jeder der r Verteilungen (aus denen die r Stichproben stammen) dieselben sind oder nicht, ohne dabei über die Wahrscheinlichkeiten selbst irgendwelche Annahmen zu machen. Man wird daher die Wahrscheinlichkeiten pv p2,.. .,ps aus den Stichproben schätzen und diese Schätzungen in den Ausdruck für V einsetzen. Dadurch verringert sich die Zahl der Freiheitsgrade um die Anzahl der geschätzten Parameter. Diese ist in unserem
7.4 Der Vergleich von r Stichproben
Falle (s — 1), denn es besteht ja zwischen die Beziehung
187 pv
p
2
, . . p
s
s J S P i = i ,
7=1
so daß tatsächlich nicht s, sondern nur (s — 1) Parameter aus den Stichproben zu schätzen sind. Die Zahl der Freiheitsgrade beträgt demnach: r(s— 1)— (s— 1) = ( r — l ) ( s — 1). Als Schätzer für p j erhalten wir nach der maximum likelihood-Methode Pj = n.j/n, also jene Werte, die sich durch Zusammenfassen aller r Stichproben ergeben. Dies in Formel (2) eingesetzt, ergibt: (3) Dieser Ausdruck stimmt mit Formel (7.3.1) genau überein. Wir haben daher genau das gleiche Testverfahren anzuwenden, gleichgültig ob wir auf Unabhängigkeit in einer Kontingenztafel testen wollen oder ob wir Stichproben dahingehend vergleichen wollen, ob sie aus derselben Gesamtheit stammen. Daß beide Problemstellungen zu demselben Testverfahren führen, ist sehr zu begrüßen, denn bei vielen Problemstellungen ist es keineswegs evident, welche Auffassung (Test auf Unabhängigkeit oder Vergleich von r Stichproben) eher angemessen erscheint. Selbstverständlich ist auch die in der Formel (7.3.2) gegebene Spezialisierung für s = 2 hier anwendbar, gleichgültig, ob wir r Stichproben mit je zwei Ausprägungen oder 2 Stichproben mit je r Ausprägungen miteinander vergleichen wollen. B e i s p i e l : Bei Grammarus Chevreuxi treten sowohl schwarzals auch rotäugige Tiere auf. Das Verhältnis rot zu schwarz, das bei der Kreuzung von zwei heterozygoten Individuen, infolge dominanten Erbganges wie 1:3 sein sollte, weicht tatsächlich von diesem Wert wesentlich ab. Tabelle 25 gibt eine Aufstellung über die Anzahl von rotäugigen und schwarzäugigen Nachkommen bei 33 Familien:
188
7 Die ^ - M e t h o d e ; Kontingenztafeln
Tabelle 25. Anzahl der rot- und schwarzäugigen Nachkommen in 33 Familien von Grammarus Chevreuxi Nr. i
rot
schwarz
"ii
«Ï2
n
i-
« F 0 , 9 9 ( 5 9 , 2 9 ) = 2,22 und
da außerdem s\ • c2 = 0,0031 < sf • cx = 0,0120, werden wir das 2. Verfahren als das günstigere ansehen.
Verschiedene Untersuchungen (Box, Box und Andersen) haben gezeigt, daß der i'-Test nicht sehr robust ist, d. h. daß sein Ergebnis auch durch kleine Abweichungen von der Normalverteilung stark beeinflußt werden kann. Erscheint eine solche Abweichung möglich — und dies wird in der Praxis sehr oft der Fall sein —, dann wird man die Anwendung des f-Tests vermeiden. Ein für praktische Zwecke gut geeigneter Test für die Gleichheit zweier Varianzen, der durch Abweichungen von der Normalität nicht wesentlich beeinflußt wird, ist folgender: Man bildet aus der 1. Stichprobe die Werte = Lx{ —x\, aus der 2. Stichprobe die Werte rjj = | yj — y |. Da die Envartungswerte von und rjj proportional o 1 und a 2 sind, kann man die Hypothese a x = ff2 dadurch testen, daß man prüft, ob die und rjj als Stichproben aus Verteilungen mit gleichem Mittelwert aufgefaßt werden können. Dazu bedient man sich entweder eines verteilungsunabhängigen Tests (z. B. des Wilcoxon-
8.4 Test und Mutungsintervall für den Mittelwert
201
Tests, S. 150ff.) oder des /-Tests. (Die Größen rjj sind zwar nicht normalverteilt, doch ist der ¿-Test — zum Unterschied vom f - T e s t — robust gegen Abweichungen von der Normalverteilung.) Statt der Größen und rjj kann man auch f f und rjf verwenden, doch erfordert dies durch das Quadrieren zusätzliche Rechenarbeit, ohne daß dadurch die Genauigkeit des Tests im allgemeinen wesentlich beeinflußt wird (Levene). 8.4 Test und Mutungsintervall für den Mittelwert Es Stichprobe aus der Verteilung N(/n,a 2 ). Die Parameter ¡j, und d 1 seien unbekannt. Es ist eine Aussage über [i zu machen. In Abschnitt 3.2 wurde festgestellt, daß -_
v n i 1 verteilt ist nach N(ju,a 2 /n). Daher ist u =
1
x
—
a
¡X . / — — yn
verteilt nach N(0,1). Wäre a bekannt, so könnte man aus dieser Formel bereits einen Test oder ein Mutungsintervall für ¡x gewinnen, wie dies in den Abschnitten 4.2 und 4.3 auch geschehen ist. Es liegt nahe, das unbekannte a durch den Schätzwert
zu ersetzen, d. h. die Testgröße t=
x — /l . / — — Vn s
zu bilden. Wir dürfen natürlich nicht erwarten, daß auch diese Größe nach N (0,1) verteilt ist. Ihre Verteilung wird jedoch der Verteilung N(0,1) um so ähnlicher sein, je größer n ist, da mit steigendem n der Unterschied zwischen
202
8 Normalverteilung; höhere Verfahren
a und s gegenüber dem Unterschied zwischen /j, und x immer mehr an Bedeutung verliert. Die Verteilung von / wurde erstmalig von Student abgeleitet. Er kam zu dem Ergebnis, daß t verteilt ist nach einer ¿-Verteilung mit (n — 1) Freiheitsgraden. Der grundlegende Gedankengang ist: Wie wir in Abschnitt 8.2 festgestellt haben, ist (s2/cr2) (n — 1) verteilt nach y2 mit (n — 1) Freiheitsgraden. Ferner kann man zeigen, daß die Größen s2 und x voneinander stochastisch unabhängig sind (vgl. Linder: Statistische Methoden, S. 381 ff.). Daher sind auch 4 ( » - 1 ) und i L Z Ü j/V o a voneinander stochastisch unabhängig. Die erste Größe ist verteilt nach (n —1), die zweite nach N(0,1). Daher ist der Quotient = in
~w
¿-verteilt mit (n — 1) Freiheitsgraden. Nun fällt aber in diesem Quotienten der Parameter a heraus und er wird identisch mit X— ß ./— t= — 1In . s
Nach den Ausführungen in Abschnitt 3.3 ist die Varianz der t-Verteilung größer als die Varianz der Verteilung N(0,1). Dies ist anschaulich gesprochen darauf zurückzuführen, daß die Größe t infolge der Ersetzung der Konstanten a durch ihren Schätzer s eine größere Streuung besitzt als u. Dementsprechend sind die Sicherheitsgrenzen der t-Verteilung weiter als die Grenzen der Verteilung A;(0,1) zur gleichen Sicherheitswahrscheinlichkeit. Bereits für w=30 stimmt aber die t-Verteilung mit der Verteilung A7(0,1) fast überein, d. h., wir brauchen bei Stichproben mit einem Umfang größer als 30 den Unterschied zwischen a 2 und ,s2 nicht mehr zu beachten. Die zweiseitige Form des ¿-Tests ist auch bei kleinen Stichproben für nicht allzu schiefe Verteilungen
8.4 Test und Mutungsintervall für den Mittelwert
203
anwendbar, da sich die Vergrößerung (der Wahrscheinlichkeit) des einen Teils der kritischen Region und die Verkleinerung des anderen Teils der kritischen Region annähernd kompensieren. Die Kenntnis der Verteilung von t können wir dazu benutzen, eine Hypothese über den Mittelwert zu prüfen. Die zu prüfende Hypothese sei: Die Verteilung hat den Mittelwert ß 0 . Ist diese Hypothese richtig, so ist
(2)
i =
¿-verteilt mit (w — 1) Freiheitsgraden. Es gilt daher mit der Wahrscheinlichkeit 1— 2 e : (3)
- y n m wobei x der Mittelwert und s die Standardabweichung der Stichprobe xv x2, ist. Diese Variable besitzt eine t-Verteilung mit (n — 1) Freiheitsgraden. Daher gilt mit Wahrscheinlichkeit 0,95:
206
8 Normalverteilung; höhere Verfahren
Das bedeutet: E n t n e h m e n wir aus der normalverteilten Gesamtheit eine große Anzahl von Stichprobenpaaren xn, x i 2 , . . x i n und yiv y i 2 , . . y i m , so wird f ü r 9 5 % dieser Paare y ( im Intervall
liegen. E s sei ausdrücklich darauf hingewiesen, daß die W a h r scheinlichkeit des Ereignisses (1) vor Ziehung der Stichprobe im Durchschnitt 9 5 % beträgt. F ü r eine gegebene Stichprobe wird diese Wahrscheinlichkeit natürlich von 9 5 % abweichen (d. h., f ü r manche Stichproben wird sie größer, f ü r manche kleiner als 9 5 % sein). Beispiel*): Wir entnehmen aus einer Produktionsserie von Nieten eine Stichprobe vom Umfang n = 100 und berechnen den Mittelwert x der Durchmesser der Nietenköpfe und die zugehörige Standardabweichung s. Dabei ergeben sich folgende Werte: x = 13,43 mm, s = 0,17 mm. Legen wir eine durchschnittliche Trefferwahrscheinlichkeit von 95% zugrunde, so ergibt sich nach Formel (1) als Prognoseintervall für den Mittelwert y einer zweiten, von xlt x2,..., xn unabhängigen Stichprobe vom Umfang m = 80: 13,43 -
i 0l976 ( 99) • 0,17 J / ^ L + - L < y < 13,43 +
+
W99)-0,17]/
T
L+i
r
Daraus folgt: 13,43 — 0,05 < y < 13,43 + 0,05 oder 13,38 < y < 13,48 d. h., wir können erwarten, daß y zwischen 13,38 mm und 13,48 mm liegen wird. *) Nach Haid:
Statistical theory, 4. Aufl. New York 1960, S. 77.
8.5 Prognose- und Toleranzintervalle
207
Für den speziellen Fall m = 1 erhalten wir aus (1) ein Prognoseintervall für eine einzelne, von x2,..., xn unabhängige zukünftige Beobachtung y : (2) x — i „ . m ( n — ! ) « ] / "
1
und will man eine Aussage über ¡j! — ¡j,", so kann man im Grunde genommen f ü r die Zusammenfassung der /j,( jede beliebige Gewichtung verwenden. Sind die Stichprobenumfänge, n¡, wesentlich verschieden, empfiehlt es sich, diese zur Gewichtung heranzuziehen, also den Kontrast % Vi + n2 /i2
_
nefie
+ n7fi7
+ n 9 f i s + ngfig
^
^
^
nl + n 2 w6 + w7 + w8 + w9 Eine Gewichtung mit den Stichprobenumfängen hat den Vorteil, daß sie kürzere Mutungsintervalle für ¡x' — ¡x" liefert.
234
8 Normalverteilung; höhere Verfahren
B e i s p i e l : Wir vergleichen die mittlere Zugfestigkeit von vier verschiedenen Drahtsorten miteinander. Aus den um 400 verminderten Ausgangswerten erhalten wir: Xi = 22,8 x 2 = 21,5 x 3 = 16,9
sl = 6,2 s2 = 7,0 s 3 = 5,1
»li = 50 « 2 = 100 »3 = 50
ä4 =
s 4 = 7,4
n4 =
18,1
150
Daraus ergibt sich für die Testgröße der einfachen Streuungszerlegung (vgl. Formel (8.10.3)): _
[50 (22,8—19,6) 2 + 100(21,5 — 1 9 , 6 ) 2 + 50(16,9—19,6) 2 + [49 • 6,2 2 + 99 • 7,0 2 + 4 9 • 5,1 2 + + 150(18,1 —19,6) a ]/3 _ 525 = + 1 4 9 - 7 , 4 2 ] / ( 3 5 0 — 4) ~ 4G,7 ~ ' "
s* ~
Da F0,n(k -1, n—k) = Fg,9g (3, 346) = 3,85, ist der Unterschied der mittleren Zugfestigkeiten f i v ¡x3 und f i t signifikant. Die Werte von x v x 2 , x 3 und ä 4 legen die Vermutung nahe, daß j"i = ß i > ßa = ßt- Wir setzen daher X 1 = X 2 = 1/2, A3 = A4 = — 1 / 2 und bezeichnen Pl , i«2 ~2~ + 1
i"3 2
P* _ 2~~
A
Die Größe A, ist die Differenz zwischen dem gemeinsamen Mittelwert ¿ij = fi 2 und dem gemeinsamen Mittelwert fi 3 = f i t . Es gilt: I Weiter ist
i i 2 ^ i
~2~
4,65.
~2~
| / ¿ i - p - ' - T ^ + W + W + w ) und
/(/c — 1) F 0 i 9 9 (k — 1, n — k)=
Nach Formel (1) gilt mit 9 9 % Sicherheit:
oder:
3 4 < d'4
wobei
die f ü r die Berechnung der Testgröße ebenfalls benötigte Quadratsumme ist. Die Testgröße lautet d a n n : r ,
5. s*
rt
¿-
0,102 2
0,006 5
TL
ä V 30 gilt: c« *
A„ ]/ntn2(n1+ni+ K [/ 12
1)
,
i 1,96 für a = 9 5 % N a = { 2 5 8 f ü r a = 99O/q
(Vgl. hierzu die Ausführungen auf S. 150—152.)
296
Tabellen
Test yon F r i e d m a n 95% 3
r
4 6,0
2
>