191 100 17MB
German Pages 225 [236] Year 1987
Statistik Entscheidungsorientierte Einführung
Von o. Prof. Dipl.-Vw.
Dr. Gerhard Marineil Institut für Statistik Universität Innsbruck 2., ergänzte Auflage
R. Oldenbourg Verlag München Wien
D i e erste A u f l a g e ist unter d e m Titel „Statistische E n t s c h e i d u n g s m o d e l l e " erschienen.
CIP-Kurztitelaufnahme der Deutschen Bibliothek Marinell, Gerhard: Statistik : entscheidungsorientierte Einf. / von Gerhard Marinell. - 2., erg. Aufl. - München ; Wien : Oldenbourg, 1987. 1. Aufl. u.d.T.: Marinell, Gerhard: Statistische Entscheidungsmodelle ISBN 3 - 4 8 6 - 2 0 3 0 9 - 6
© 1987 R. Oldenbourg Verlag GmbH, München Das Werk und seine Teile sind urheberrechtlich geschützt. Jede Verwertung in anderen als den gesetzlich zugelassenen Fällen bedarf deshalb der vorherigen schriftlichen Einwilligung des Verlages. Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München ISBN 3 - 4 8 6 - 2 0 3 0 9 - 6
Inhaltsverzeichnis Vorwort Statistische Entscheidungsmodelle
XI 1
1. Entscheidungstheoretisches Grundmodell a) Entscheidungsproblem des Statistikers b) Parameterraum c) Aktionsraum d) Schadenfunktion e) Entscheidungsbaum 2. Klassisches Modell a) Stichprobenraum und statistisches Verfahren b) Menge der statistischen Verfahren c) Risikofunktion d) Gleichmäßig beste Verfahren e) Entscheidung im klassischen Modell 3. Bayes Modell a) Priori Verteilung b) Bayes Risiko c) Entscheidung im Bayes Modell 4. Wald Modell a) Schadenfunktion b) Minimax Regel c) Bayes Regel d) Entscheidung im Wald Modell
1 1 2 3 3 4 5 5 6 7 8 8 9 9 10 12 12 12 13 15 16
A) Klassisches Modell
17
I. Stichprobe
19
1. Einfache Stichprobe a) Unabhängig und identisch verteilt b) Gemeinsame Verteilungsfunktion c) Likelihoodfunktion 2. Stichprobenfunktion a) Stichprobenfunktion als Zufallsvariable b) Stichprobenmomente c) Ordnungsmaßzahlen 3. Suffizienz a) Definition der Suffizienz b) Faktorisationskriterium c) Minimal suffizient 4. Exponentialfamilie a) Einparametrige Exponentialfamilie
19 19 19 20 20 20 21 22 22 22 23 24 24 24
VI
Inhaltsverzeichnis
b) Suffiziente Stichprobenfunktion einer einfachen Stichprobe aus einer Verteilung der einparametrigen Exponentialfamilie c) k-parametrige Exponentialfamilie Aufgaben und weitere Ergebnisse
25 25 26
II. Testverfahren
28
1. Terminologie der klassischen Testtheorie a) Null- und Alternativhypothese b) Testfunktion c) Fehlerarten d) Fehlerwahrscheinlichkeiten 2. Beste Testfunktion a) Schadenfunktion der klassischen Testtheorie b) Dilemma der klassischen Testtheorie c) Dominanz, Zulässigkeit und Vollständigkeit 3. Neyman Pearson Theorie a) Signifikanzniveau und Macht b) Gütefunktion 4. Einfache Hypothesen a) Neyman Pearson und Teststatistik b) Randomisierte Testfunktion 5. Einseitige Hypothesen a) Monotoner Likelihoodquotient b) Einparametrige Exponentialfamilie und gleichmäßig beste Testfunktion 6. Zweiseitige Hypothesen a) Unverzerrte Testfunktion b) Einparametrige Exponentialfamilie und unverzerrte gleichmäßig beste Testfunktion c) k-parametrige Exponentialfamilie 7. Likelihoodquotienten Methode (LQ-Methode) a) Technik b) Eigenschaften Aufgaben und weitere Ergebnisse
28 28 28 30 32 33 33 36 37 37 37 38 38 38 40 41 41 44 44 44 46 46 47 47 48 49
III. Intervallschätzverfahren
52
1. Vokabular der Intervallschätzverfahren a) Konfidenzintervall und -niveau b) Zusammenhang zwischen Test- und Intervallschätzverfahren c) Überdeckungswahrscheinlichkeiten 2. Einseitige Konfidenzintervalle a) Gleichmäßig beste Intervallschätzfunktion b) Interpretation des Konfidenzniveaus 3. Zweiseitige Konfidenzintervalle a) Unverzerrte Intervallschätzfunktion
52 52 52 53 54 54 55 55 55
Inhaltsverzeichnis
b) Minimaler Erwartungswert der Intervallänge c) Konfidenzintervalle minimaler Länge bei nichtsymmetrischen Verteilungen Aufgaben und weitere Ergebnisse
\ 11
57 58
IV. Punktschätzverfahren 1. Beste Punktschätzfunktion a) Schätzfunktion und Schätzwert b) Mittleres Fehlerquadrat einer Schätzfunktion 2. Beschränkung auf Teilmengen von Punktschätzfunktionen a) Unverzerrte Punktschätzfunktion b) Cramer Rao Theorem c) Bedingung für Punktschätzfunktionen mit minimaler Varianz d) Blackwell Rao Theorem 3. Maximum-Likelihood-Methode (ML-Methode) a) Likelihoodgleichungen b) ML-Methode für Verteilungen der Exponentialfamilie c) Unverzerrtheit und ML-Schätzungen d) Asymptotische Eigenschaften der ML-Schätzfunktionen Aufgaben und weitere Ergebnisse
61 61 61 61 63 63 65 67 68 69 69 70 70 70 71
B) Bayes Modell
73
I. Posterioriverteilung 1. Bayes Theorem a) Bayes Theorem für Ereignisse b) Bayes Theorem für Zufallsvariable c) Alternative Formel 2. Konjugierte Verteilungsfamilien a) Konstruktion konjugierter Verteilungsfamilien b) Hypothetische Stichprobe c) Suffiziente Stichprobenstatistik d) Prädiktive Verteilung e) Konjugierte Verteilungen für mehrparametrige Exponentialfamilien 3. Vage Aprioriinformationen a) Uneigentliche Prioriverteilung b) PriorigleichVerteilung c) Weitere uneigentliche Prioriverteilungen Aufgaben und weitere Ergebnisse
75 75 75 75 76 78 78 80 80 82
II. Testverfahren
88
1. Beste Testfunktion a) Risikoerwartungswerte b) Testfunktion mit minimalen Bayes Risiko c) Testfunktion mit minimalem Posteriorischadenerwartungswert d) Roll Back Analyse
88 88 90 90 94
82 84 84 84 85 85
VIII
Inhaltsverzeichnis
e) Posterioriwahrscheinlichkeitsquotient 2. Einfache Hypothesen a) Prioriwahrscheinlichkeitsquotient und Likelihoodquotient b) Posterioriwahrscheinlichkeitsquotient 3. Einseitige Hypothesen 4. Zweiseitige Hypothesen a) Intervallnullhypothese b) Punktnullhypothese 5. Beziehungen zum klassischen Modell a) Auswahlkriterium b) Signifikanzniveau und Priori Wahrscheinlichkeitsquotient c) Unterschiede in der Interpretation der Ergebnisse Aufgaben und weitere Ergebnisse
94 97 97 98 99 100 100 101 102 102 102 103 104
III. Intervallschätzverfahren
106
1. Intervallschätzfunktion des Bayes Modells a) Familie von Bayes Intervallen b) Niveauvorgabe auch im Bayes Modell 2. HPD-Intervalle a) Minimale Intervallänge b) H P D Intervalle für symmetrische Verteilungen c) H P D Intervalle für nichtsymmetrische Verteilungen 3. Beziehungen zum klassischen Modell a) H P D Intervalle und unverzerrte Konfidenzintervalle b) Interpretation von Bayes- und Konfidenzintervallen Aufgaben und weitere Ergebnisse
106 106 107 108 108 108 109 110 110 110 111
IV. Punktschätzverfahren 1. Bayes'sche Punktschätzfunktion a) Funktionen der Posterioriverteilung b) Punktschätzfunktion mit minimalem Bayes Risiko c) Punktschätzfunktion mit minimalem Posteriorischadenerwartungswert d) Erwartungswert der Posterioriverteilung 2. Beziehung zum klassischen Modell a) Keine Beschränkung auf unverzerrte Schätzfunktionen b) ML-Methode und Modus der Posterioriverteilung c) Interpretation bei vager Aprioriinformation Aufgaben und weitere Ergebnisse
113 113 113 113
C) Wald Modell
123
I. Schadenfunktion 1. Standardschadenfunktionen a) Nutzen- und Opportunitätskostenfunktion 0 — 1 und 0 — s t -Schadenfunktion
125 125 125 126
117 117 120 120 120 120 121
Inhaltsverzeichnis
c) Lineare Schadenfunktion d) Quadratische Schadenfunktion 2. Bayes Regel a) Minimales Bayes Risiko b) Minimaler Posteriorischadenerwartungswert 3. Minimax Regel a) Minimum des maximal möglichen Schadens b) Ungünstige Prioriverteilung c) Methoden zur Bestimmung bester statistischer Verfahren nach der Minimax-Regel d) Randomisierte statistische Verfahren Aufgaben und weitere Ergebnisse II. Testverfahren 1. Beste Testfunktion a) Bayes Risiko einer Testfunktion b) Beste Testfunktion nach der Bayes Regel c) Posteriorischadenerwartungswert und Roll Back Analyse d) Quotient aus den Posteriorischadenerwartungswerten e) Beste Testfunktion nach der Minimax Regel 2. Einfache Hypothesen a) Beste Testfunktion nach der Bayes Regel b) Beste Testfunktion nach der Minimax Regel 3. Einseitige Hypothesen a) 0 — S! Schadenfunktion b) Lineare Schadenfunktion 4. Zweiseitige Hypothesen O - S j Schadenfunktion b) Lineare Schadenfunktion c) Quadratische Schadenfunktion 5. Bezeichnungen zum Bayes und klassischen Modell a) Bayes Modell als Spezialfall des Wald Modells und der Bayes Regel b) Klassisches Modell als Spezialfall des Wald Modells und der Minimax Regel Aufgaben und weitere Ergebnisse III. Intervallschätzverfahren 1. Intervallschätzverfahren im Wald Modell a) Schadenfunktion für Intervallschätzverfahren b) Beste Intervallschätzfunktion nach der Bayes Regel 2. Spezielle Schadenfunktionen a) Lineare Schadenfunktion b) Lineare Schadenfunktion und fixe Intervallänge c) Quadratische Schadenfunktion
IX
127 128 129 129 130 131 131 131 131 132 132 135 135 135 136 137 140 140 144 144 145 146 146 147 148 148 149 150 151 151 151 152 154 154 154 154 155 155 156 156
X
Inhaltsverzeichnis
.1. Beziehungen zum Bayes Modell Aufgaben und weitere Ergebnisse
157 157
IV. Punktschätzverfahren 1. Beste Punktschätzfunktionen nach der Bayes Regel 2. Spezielle Schadenfunktionen a) 0 — 1 Schadenfunktion und Modus b) Lineare Schadenfunktion und Zentralwert c) Lineare Schadenfunktion und Quantile d) Quadratische Schadenfunktion und Erwartungswert 3. Beste Punktschätzfunktion nach der Minimax Regel 4. Beziehungen zum Bayes und klassischen Modell Aufgaben und weitere Ergebnisse
160 160 164 164 164 166 166 167 168 169
Anhang
171
I. II. III. IV.
173 189 199 206
Einige Beweise Definitionen aus der Wahrscheinlichkeitstheorie Verteilungen Literaturverzeichnis
Sachwortverzeichnis
211
Vorwort (zur zweiten Auflage) Wegen der schnell vergriffenen ersten Auflage konnten für die zweite nur kleinere Tippfehler und Korrekturen in einem Erratum im Anhang zusammengestellt werden. G. Marinell
Vorwort (zur ersten Auflage) Statistische Verfahren, die dazu dienen, Aussagen über unbekannte Parameter von Verteilungen zu liefern, kann man nach der explizit verwendeten Information grundsätzlich dreiteilen: Im klassischen Modell werden nur Informationen aus Zufallsstichproben berücksichtigt, im Bayes Modell darüberhinaus auch Vorinformationen in F o r m von Prioriwahrscheinlichkeitsverteilungen und im Wald Modell werden die möglichen Schäden von Fehlentscheidungen ausführlich in Rechnung gestellt. In jedem der Modelle ist der Statistiker der Entscheidende, der aus der Menge der möglichen statistischen Verfahren ein bestes auswählen muß. Jeder dieser Ansätze ist ausreichend dokumentiert und sowohl für den Theoretiker als auch für den Praktiker dargestellt. Hier wird versucht, die Zusammenhänge und Gemeinsamkeiten der drei Modelle aufzuzeigen. Im ersten Abschnitt wird ein Überblick über die drei Modelle gegeben. Die Vertiefung erfolgt jeweils in einem eigenen Abschnitt, wobei die Gliederung die gleiche ist. Zuerst wird der Informationsinput in seinen verschiedenen formalen Darstellungsmöglichkeiten erklärt. Dann wird gezeigt, wie diese Informationen zur Auswahl eines besten statistischen Verfahrens verwendet werden können. Dabei wird zwischen Test-, Intervall- und Punktschätzverfahren unterschieden. Beweise wichtiger Theoreme werden im Anhang zusammengefaßt, um die Lesbarkeit des Textes nicht zu belasten. Am Ende jedes Kapitels findet man Aufgaben samt Lösungen und weitere Ergebnisse. Tabellen für Wahrscheinlichkeitsverteilungen wurden mit Ausnahme der Dichte- und Verteilungsfunktion der Normalverteilung nicht angeführt, da genügend umfangreiche Tabellensammlungen existieren. Näherungsformeln, die mit Hilfe der Normalverteilung berechnet werden können, wurden jedoch angegeben. Nicht eingegangen wird auf die Technik der Informationsgewinnung. Weder die Erhebung einer Zufallsstichprobe, noch die Techniken zur Feststellung der subjektiven Nutzen- und Wahrscheinlichkeitsfunktion werden erläutert. Auch die Darstellung multivariater Probleme fehlt. Beim Leser wird als mathematischer Hintergrund lediglich das Vertrautsein mit der Differential- und Integralrechnung vorausgesetzt. Daneben ist eine Einführung in
die Wahrscheinlichkeitstheorie wünschenswert. Die für die Lektüre des Buches relevanten Definitionen aus der Wahrscheinlichkeitstheorie sind im Anhang zusammengestellt. Kommentare von Kollegen, Studenten und Freunden waren sehr hilfreich für mich. Manche Neufassung und Vereinfachung ist den kritischen Anmerkungen von Herrn Dr. Gilg Seeber zu verdanken, die Beseitigung sprachlicher Unzulänglichkeiten Frau Mag. U t a Kirchlechner-Tribus. Frl. Angelika Schimann hat mit viel Geduld und Sorgfalt die zahlreichen Vorlagen und das endgültige Manuskript geschrieben. Ihnen gilt mein herzlicher Dank. Gerhard Marineil
Statistische Entscheidungsmodelle "Decisions m a d e in the face of uncertainty pervade the life of every individual and Organization. Even animals might be said continually to m a k e such decisions, and the psychological mechanisms by which men decide may have much in c o m m o n with those by which animals do so. But formal reasoning presumable plays n o role in the decisions of animals, little in those of children, a n d less than might be wished in those of m e n " . (Savage (1954) S. 6)
1. Entscheidungstheoretisches Grundmodell a) Entscheidungsproblem des Statistikers Vordem Lesen dieses Buches wissen Sie nicht, ob sich die Lektüre für Sie lohnt. Die Menge Ihrer Umweltzustände besteht daher zumindest aus den beiden Elementen „die Lektüre ist nützlich für mich" und „die Lektüre ist für mich nicht nützlich". Da Sie sich im Bewußtsein dieser für Sie relevanten Umweltzustände entscheiden müssen, ob Sie das Buch lesen, gehören die Elemente „Buch lesen" und „Buch nicht lesen" zur Menge ihrer möglichen Aktionen. Ihre Entscheidung wird davon abhängen, welche Konsequenzen Sie der Wahl einer der Aktionen und dem Zutreffen der Umweltzustände zuordnen. Wenn Sie sich z. B. entscheiden, das Buch zu lesen und es stellt sich heraus, daß die Lektüre für Sie nützlich ist, dann gehört u.a. der eventuelle Kenntnisgewinn zu den Konsequenzen dieser Wahl. Die verlorene Zeit, die Frustration u.a.m. sind hingegen Konsequenzen dieser Entscheidung für den Fall, daß das Lesen dieses Buches für Sie nicht nützlich ist. Für die Entscheidung das Buch nicht zu lesen, können Sie analog die Konsequenzen im Hinblick auf die beiden Umweltzustände bestimmen. Sie werden jedenfalls Ihr Entscheidungsproblem so lösen, daß Sie in Anbetracht der Konsequenzen jene Aktion wählen, die für Sie optimal ist. Der Statistiker kann sein Entscheidungsproblem auch mit den Begriffen Umweltzustände, Aktionen und Konsequenzen beschreiben. Er kennt den Wert des Parameters einer Verteilung nicht. Die möglichen Werte des Parameters bilden daher die Menge der möglichen Umweltzustände. Um Aussagen über den unbekannten Parameter zu machen, stehen dem Statistiker eine Menge von Aktionen zur Verfügung. Die Angabe eines Intervalls für den Wert des unbekannten Parameters oder die Angabe eines einzelnen Wertes sind Beispiele für mögliche Aktionen. Die Wahl einer bestimmten Aktion hängt davon ab, welche Konsequenzen der Statistiker einer richtigen bzw. falschen Aussage über den unbekannten Parameter zuordnet. Auch der Statistiker wird versuchen, jene Aktion zu wählen, die im Hinblick auf die Konsequenzen am besten ist. Das Optimum kann jedoch unterschiedlich definiert
2
Statistische Entscheidungsmodelle
werden. Die Kriterien zur Auswahl einer besten Aktion werden nämlich nicht nur von der zulässigen Darstellung der Konsequenzen beeinflußt, sondern auch von den zulässigen Informationen über den unbekannten Parameter. Drei Entscheidungsmodelle für die Lösung des Problems der Auswahl einer besten Aktion stehen zur Verfügung. Bevor diese Modelle an Hand eines einfachen Beispiels kurz vorgestellt werden, müssen die Begriffe Umweltzustände, Aktionen und Konsequenzen für das statistische Entscheidungsproblem präzisiert werden. b) Parameterraum Die Verteilungsfunktion einer Grundgesamtheit kann ganz oder teilweise unbekannt sein. Teilweise unbekannt bedeutet, daß zwar die Funktionsform der Verteilung bekannt ist, nicht jedoch der die Verteilung genau spezifizierende Parameter & (.9 kann auch ein Vektor ..., 9 m ) sein). Bezeichnet man mit F(x19) die Verteilungsfunktion der Grundgesamtheit, dann ist die Verteilungsfamilie {F(x|9)| .9 e 0 } bekannt zu der die Verteilung der Grundgesamtheit gehört, nicht aber der Parameter .9, der das Mitglied der Verteilungsfamilie genau bestimmt 1 ). 0 =
{9t,92,93,...}
ist der Parameterraum, der die möglichen Werte für den Parameter $ enthält. Er entspricht der Menge der möglichen Umweltzustände des entscheidungstheoretischen Grundmodells 2 ). Beispiel 1 X sei bernoulliverteilt mit dem unbekannten Parameter n. Wenn n nur die zwei Werte 0,4 und 0,7 annehmen kann, dann ist 0 = {0,4; 0,7} der Parameterraum und {B(l, 7t)|7t e (0; 1)} die Familie der möglichen Verteilungen fürX. WennX ~ N(/x, a1) und fi sowie a2 unbekannt sind, dann ist 0 = {(fi, er2) | — oo < /j < oo, er2 > 0} der Parameterraum und {N (fi, a2) \ (fi, er2) e 0 } die Verteilungsfamilie für X. Wenn nur ß unbekannt ist und a2 = o2}, dann ist 0 = {(fx, a2-,) — oo < fi < oo} der Parameterraum oder einfacher 0 = (— oo, oo) und {N (ß, 9 6 0 genau dann suffizient, wenn die bedingte Verteilung von X, gegeben T = t, nicht von ,9 abhängt. Beispiel A-I-5 n
X j , . . . , X n sei eine einfache Stichprobe mit X ; ~ B ( l , n). Ist T ( X t , . . . , X n ) = suffizient für n? Die bedingte Wahrscheinlichkeitsfunktion n
X ¡= i
von X, gegeben T = t, ist
f ( x | t ) = f(x, t ) / f T ( t ) .
Für X! xi = t ist die gemeinsame ¡=i
Wahrscheinlichkeitsfunktion
von X und T
1) W ä h r e n d d a s K o n z e p t der Suffizienz Eigenschaften von Stichprobcnstatistiken betrifft, bezieht sich d a s K o n z e p t der Vollständigkeit auf Eigenschaften v o n Verteilungsfamilien. N ä heres dazu siehe z.B. S c h m e t t e r e r (1966).
Statistische Entscheidungsmodelle
, f 7t' • (1 — 7l) n ~' f(x, t) = < [ 0 sonst.
falls
Zx
i =
Da die Summe unabhängiger bernoulliverteilter erhält man als Randwahrscheinlichkeitsfunktion
23
t
Zufallsvariablen von T
binomialverteilt
ist,
f T ( t ) = (?)' Die bedingte
Wahrscheinlichkeitsfunktion
fix 1 0 -
711(1
~71)11 '
(7)^(1-71)»-«
-
Da diese Wahrscheinlichkeitsfunktion ziente Stichprobenstatistik für n.
von X, gegeben T = t, ist daher
1
(?)•
unabhängig
von n ist, ist T = I X , eine suffi-
b) Faktorisationskriterium M i t Hilfe des Faktorisationskriteriums von F i s h e r - N e y m a n k a n n m a n die Suffizienz von S t i c h p r o b e n f u n k t i o n e n einfach feststellen. N a c h diesem K r i t e r i u m ist T genau d a n n suffizient f ü r ,9 e 0 , wenn sich die gemeinsame Dichte- bzw. Wahrn
scheinlichkeitsfunktion der einfachen Stichprobe f(x|.9) = n
f( x il«9) in folgende
i= 1
F a k t o r e n zerlegen läßt: f(x|£>) = g ( t | , 9 ) - h ( x ) .
g ( t | .9) ist die Dichte- bzw. Wahrscheinlichkeitsfunktion von T, die von ,9 a b h ä n g i g ist u n d h(x) ist eine S t i c h p r o b e n f u n k t i o n , die u n a b h ä n g i g von ,9 ist (s.S. 173). Beispiel A-I-6 X 1 ; . . . , X„ sei eine einfache Stichprobe mit X{ ~ me Dichtefunktion der einfachen Stichprobe ist f(x|,9)=
rif(Xil/4
i= 1
= (2n
4.
Ist Xj ~ B (n, 7t) und nimmt man an, daß der unbekannte Parameter n genau 0,15 ist, dann gehört zur Teilmenge 0O des Parameterraumes genau ein Element, nämlich 0,15 und zu @i das Komplement dazu. Null- und Alternativhypothese schreibt man in diesem Fall H0:
TT = 0 , 1 5 ,
Hj:
7t+ 0,15.
b) Testfunktion Als Testfunktion l,
werden die Wahrscheinlichkeiten für die möglichen Entscheidungen berechnet:
folgendermaßen
Da A = {0,1} und C = {2} ist, ist die Wahrscheinlichkeit für die Annahme der richtigen H 0 : 7i = 0,4 1 - ot = Z (x) • 0,4" • (1 - 0,4) 2 ~x = 0,84 x = 0
und die Wahrscheinlichkeit für den Fehler a
¡.Art
= (2)' 0>42 • (1 — 0,4) 2 ^ 2 = 0,16.
Die Wahrscheinlichkeit für die Annahme der richtigen H , : 71 = 0,7 ist 1 — ß = (f) • 0,7 2 • (1 — 0,7) 2 ~ 2 = 0,49 und die Wahrscheinlichkeit für den Fehler 2. Art ß=
I
x= 0
a - 0 , 7 * - ( l - 0 , 7 ) 2 - * = 0,51.
Figur 10 zeigt die Berechnung der Wahrscheinlichkeiten in Form eines Wahrscheinlichkeitsbaumes. Ein Wahrscheinlichkeitsbaum hat keine Entscheidungsknoten, sondern nur Zufallsknoten und Äste, die die möglichen Parameter und Realisationen einer Zufallsvariablen symbolisieren. Auf der linken Seite der Aste sind die möglichen Parameter und Realisationen angeführt und rechts die entsprechenden Wahrscheinlichkeiten. An den Endknoten von Figur 10 sind die Wahrscheinlichkeiten für die vier möglichen Entscheidungen des klassischen Testproblems zusammengefaßt.
33
Statistische Entscheidungsmodelle
TT . D
.0,49
f (xilir )
1-a = = 0,84
ß= 0,51
0,16
1-/» = = 0,49
Figur 10: Wahrscheinlichkeitsbaum für die Berechnung der Wahrscheinlichkeiten für die vier möglichen Entscheidungen eines Testproblems
2. Beste Testfunktion a) Schadenfunktion der klassischen Testtheorie Der Aufteilung des Stichprobenraumes in Annahme- und kritischen Bereich entsprechend kann man die Risikofunktion eines Testverfahrens in folgende Summen zerlegen: r()dF(x|Si)
für
Se(90
Js(a0,3)dF(x|,9)
für
»e©^
c
A
j d F ( x | , 9 ) ist das Lebesgue-Stieltjes-Integral und F ( x | 3 ) die Verteilungsfunktion von X. Dieses Integral ermöglicht die einheitliche Darstellung von Wahrscheinlichkeiten und Erwartungswerten für diskrete und stetige Zufallsvariablen. Leser, die mit diesem Integral nicht vertraut sind, können es als Abkürzung für
Jg(x)dF(x|£>) =
i
Zg(x)f(x|$) xe3c
wenn X diskret
|g(x)f(x|9)dx
wenn X stetig
betrachten. Der Schaden, der mit einer falschen Aussage über den unbekannten Parameter 9 verknüpft ist, wird im klassischen Modell nicht explizit berücksichtigt. Da jedoch die Auswahl einer besten Testfunktion mit Hilfe der Fehlerwahrscheinlichkeiten
34
Statistische Entscheidungsmodelle
erfolgt, wird implizit eine 0 - 1 Schadenfunktion vorausgesetzt: Null Schaden tritt auf, wenn eine Hypothese angenommen wird, die tatsächlich richtig ist und der Schaden von 1 tritt bei der Annahme einer falschen Hypothese auf. Die Risikofunktion reduziert sich deshalb für das klassische Testproblem auf die Wahrscheinlichkeiten für die beiden Fehlerarten:
r(S, 3) =
JdF(x|9) c
für
9e&0,
JdF(x|9)
für
SeßV
In der ersten Zeile des Klammerausdruckes steht die Wahrscheinlichkeit für den Fehler 1. Art, die für eine 0 - 1 Schadenfunktion gleich dem Schadenerwartungswert f ü r die Aktion a j (Annahme der Alternativhypothese) ist. Dieser Schadenerwartungswert wird mit a s abgekürzt. In der zweiten Zeile findet man die Wahrscheinlichkeit für den Fehler 2. Art, die gleich dem Schadenerwartungswert für die Aktion ao (Annahme der Nullhypothese) ist. ßs ist die Abkürzung für diesen Schadenerwartungswert.
Beispiel A-II-5 Für die Testfunktion c5(x) = .l0 '1
von Beispiel für für
A-II-2
x< 1 x> 1
ist die Wahrscheinlichkeit für den Fehler 1. Art und damit der für die Aktion a t gleich 0,16, da
Schadenerwartungswert
« s = £ f(x|jc) = f(x = 2|jt o ) = 0,16. xeC
Die Wahrscheinlichkeit für den Fehler 2. Art ist ßs=
E f(x|7t) = f(x = 0|7r 1 ) + f(x = l|7T1) = 0,09 + 0,42 = 0,51.
xe A
Dies ist zugleich der Schadenerwartungswert für die Aktion a 0 . In Figur 11 ist die Berechnung der Schadenerwartungswerte dargestellt.
b) Dilemma der klassischen Testtheorie Eine Testfunktion, die minimale Wahrscheinlichkeiten für den Fehler 1. und 2. Art im Hinblick auf alle möglichen Testfunktionen aufweist, nennt man gleichmäßig beste Testfunktion. Abgesehen von trivialen Fällen existiert eine solche Testfunktion nicht, da es nicht möglich ist, gleichzeitig a und ß zu minimieren. Eine Verringerung von a führt zu einer Erhöhung von ß und umgekehrt.
35
Statistische Entscheidungsmodelle 3E = = {0,1,2}
21= ={30,3^
92,7ij) Figur 11:
Berechnung der Schadenerwartungswerte für die Testfunktion ö 2 .
Beispiel A-II-6 Verwendet man eine einfache Stichprobe im Umfang n = 2 zur Prüfung der Hypothesen H 0 : n = 0,4 gegen Hj: ir = 0,7, so gibt es insgesamt folgende 8 Testfunktionen: A x
X
i
k
eine gleichmäßig beste Testfunktion in der Menge aller Testfunktionen zum Niveau a, wenn die Verteilungsfamilie, deren Parameter getestet wird, einen monotonen Likelihoodquotienten besitzt (vgl. Rohatgi (1976) S. 420). Eine Verteilungsfamilie hat einen monotonen Likelihoodquotienten, wenn für je zwei Parameterwerte
42
Statistische Entscheidungsmodelle 91 = {0, . . . , 2 0 }
= {^0! a i l
9 = = {0,5; 0,75} 0,9423
0,0000
1
0,2143
0,2143
O
0,0077
A ={0, ...,14} ß s = 0,2494 I x . < 14
C = {14, . . . , 2 0 } a s = 0,05
1
0,0000
0,03512'
0,0351
0,02931)
0,0293
0,13352>
0,0000
0,0207
1) 0,0370 0,2081 0,0370 0,7919 2) 0,1686-0,2081 0,1686-0,7919 Figur 13:
= = = =
0,0077 0,0293 0,0351 0,1335
Randomisierte Testfunktion
S ( a ^ , 7T_. )
WflXjTTj}
r (6 , TT_. )
43
Statistische Entscheidungsmodelle
50, £0(9o< der Likelihoodquotient A(x) eine nicht fallende Funktion von x ist. Aus Xj < Xj folgt also, daß A(x) für Xj kleiner ist als für Xj. Die Teststatistik T(x) ist eine suffiziente Stichprobenstatistik für .9. k wird so bestimmt, daß die Bedingung W { T ( X ) > k | 9 0 } = a erfüllt ist. F ü r die Hypothesen H 0 : 9 > B0 u n d H ^ S < i90 sind die Ungleichheitszeichen zu vertauschen. Der Verlauf der Gütefunktion einer gleichmäßig besten Testfunktion ist schematisch in Figur 14 dargestellt.
Figur 14:
Giitefunktion einer gleichmäßig besten Testfunktion.
Beispiel A-II-12 X ! , . . . , X n sei eine einfache Stichprobe mit X ; ~ B(1, 7t). Für die Prüfung der Hypothesen H 0 : 7i < 7io und H , : iz > n0 ist der Likelihoodquotient l(x|;r1)
=
l(x|jt 0 )
7rf'-(l-7r1)"-^ _ /ttA** 1
^'-(l-Tto)"- "
eine nicht fallende Funktion von x} und T 0 = sup {n \ Tu (n) < x}. Tu ist daher genau das kleinjr TT ste nl für das gilt i=X und T 0 genau das größte n2 für das gilt £ (?) • Ttk • (1 - 7C2)--1 ^ «o i=0 für jede Realisation der Zufallsvariablen X = X ^ i und a u + a„ = a. Setzt man a u = a 0 , so erhält man aus n = 10 und x = 2 die Realisation eines 95 "Zeigen Konfidenzintervalls für n wie folgt:
Statistische Entscheidungsmodelle
57
Tu: S (10) • tt'j • (1 - TTi)10"1 = 0,0250. i=2
Für TC1 = 0,0252 ist diese Summe gleich 0,0250. Die Untergrenze Tu = 0,0252. Die Obergrenze bestimmt man analog: T0: i ( W ¡=o
ist daher
- n 2 ) 1 0 ~ l = 0,0250.
Für n2 = 0,5562 beträgt die Wahrscheinlichkeitssumme ebenfalls 0,0250. T 0 ist daher 0,5562. Dieses Konfidenzintervall mit einer Länge von 0,5310 ist jedoch nicht unverzerrt. Man erhält ein unverzerrtes Intervall, wenn man auf die Beschränkung au = oc0 = = a/2 = 0,025 verzichtet. Mit Tu = 0,0081 undT0 = 0,5113 hat man ein unverzerrtes Konfidenzintervall, das mit a u = 0,0028 und a 0 = 0,0472 ebenfalls ein Niveau von 0,95 besitzt. Die Länge dieses unverzerrten Intervalls ist aber mit 0,5032 um einiges kürzer als die des verzerrten5). b) Minimaler Erwartungswert der Intervallänge Unverzerrte gleichmäßig beste Intervallschätzfunktionen besitzen nicht nur die Eigenschaft der minimalen Überdeckungswahrscheinlichkeit eines falschen Parameters, sondern für sie gilt auch, daß der Erwartungswert der Intervallänge E(L) = E(T 0 - Tu) minimal im Hinblick auf alle anderen Intervallschätzfunktionen des Niveaus 1 — a ist (vgl. Pratt (1961) S.260). Wenn die Verteilung symmetrisch ist, dann kann man unverzerrte Intervalle zum Niveau 1 — a einfach dadurch bestimmen, daß man das (a/2)-te Quantil der Verteilung als Untergrenze und das (1 — a/2)-te Quantil als Obergrenze wählt. Beispiel A-III-4 Die Konfidenzgrenzen einer unverzerrten Intervallschätzfunktion zum Niveau 1 — 0,05 = 0,95 für den unbekannten Parameter ß erhält man aus einer einfachen Stichprobe mit dem Umfang n = 10 und X; ~ N (//, a2) wie folgt: Tu = X - 2 , 2 6 2 - § / 1 0 1 / 2 , T 0 = X + 2,262 • §/10 1 / 2 . 2,262 ist das 91,5-te Perzentil der Studentverteilung für v = 9 Freiheitsgrade und — 2,262 ist das 2,5-te Perzentil dieser Verteilung. Die so bestimmten Konfidenzintervalle werden auf lange Sicht den richtigen Parameter fi mit einer Wahrscheinlichkeit von mindestens 0,95 undjeden falschen Parameter ¡i' mit einer Wahrscheinlichkeit von höchstens 0,95 überdecken. Für x = 4,8 und s 2 = 4 ist [3,37; 6,23] eine Realisation
5) Eine Zufallsvariable T(X, 9), die eine Funktion von X = (X,, . . . , X n ) und 5 ist, deren Verteilung aber unabhängig von 9 ist, nennt man Pivot. Mit seiner Hilfe kann man unverzerrte Intervallschätzfunktionen minimaler Länge konstruieren. Siehe dazu Guenther (1969).
58
Statistische Entscheidungsmodelle
dieser Intervallschätzfunktion. Die Intervallänge ist 2,86. Da die Intervallänge von S abhängt, ist sie nicht konstant. Ihr Erwartungswert ist jedoch minimal. c) Konfidenzintervalle minimaler Länge bei nichtsymmetrischen Verteilungen Für nichtsymmetrische Verteilungen kann man Konfidenzintervalle minimaler Länge zum Niveau 1 — a nicht dadurch bestimmen, daß man das (a/2)-te Quantil der entsprechenden Verteilung als Untergrenze und das (1 — a/2)-te Quantil als Obergrenze verwendet, sondern die Grenzen sind so zu berechnen, daß stets die Überdeckungswahrscheinlichkeit für falsche Parameter höchstens 1 — a ist und für den richtigen mindestens 1 — a 6 ) (s. Beispiel A-III-3).
Aufgaben und weitere Ergebnisse 1) Berechnen Sie ein einseitig n a c h oben begrenztes Konfidenzintervall f ü r den P a r a m e t e r X einer Poissonverteilung f ü r x = 2 und a = 0,05. ( A n t w o r t : W { X < 2 \ X = 6,3} = 0,0495; T 0 = 6,3). 2) X m i t der D i c h t e f u n k t i o n f ( x | 9 ) = nentialfamilie. Zeigen Sie, d a ß
• e x p ( — x | 3 ) gehört zur einparametrigen E x p o -
(-oo;x/ln[l/(!-«)]) ein einseitiges Konfidenzintervall zum Niveau 1 — a f ü r 9 ist. 3) F ü r die D i c h t e f(x 19) = g (3) • h (x) • exp (9x) sei A (90) = [T u (ö 0 ); T 0 (,9 0 )] der A n n a h m e bereich einer besten unverzerrten Testfunktion f ü r H 0 : 9 = 90 u n d H ^ 9 # 90. Zeigen Sie, d a ß T u ( 3 ) u n d T 0 ( 9 ) nichtfallende F u n k t i o n e n v o n 9 sind. 4) X sei der D u r c h s c h n i t t einer einfachen S t i c h p r o b e im U m f a n g n aus N(/i; 16). F i n d e n Sie die kleinstmögliche Stichprobe im U m f a n g n f ü r die (X — 1; X + 1) ein Konfidenzintervall z u m N i v e a u 0,9 f ü r fi ist. 5) Zeigen Sie, d a ß ( n - S 2 / Z f _ ^ . , =n _ i ; n • S
2
/
v
= n - i)
ein Konfidenzintervall z u m Niveau 1 — a f ü r er2 ist, wenn Xj ~ N(ju, a 2 ) . 6) X l 5 . . . , X 1 0 sei eine einfache Stichprobe mit X-t ~ B ( l , 7t). Zeigen Sie, d a ß (0,15; 0,70) ein Konfidenzintervall zum N i v e a u 0,9 für 7t ist, w e n n Ex-, = 4. 7) Zwischen einer binomialverteilten Zufallsvariablen u n d der F-Verteilung gilt folgender Z u s a m m e n h a n g : (vgl. RaifTa, Schlaifer (1961)): F B (x|7t, n) = 1 - F F ( f | v, = 2(x - 1), v 2 = 2(n - x)) mit f = v 2 • n/v1 • (1 — 7t). Zeigen Sie, d a ß die Konfidenzgrenzen f ü r 7t z u m N i v e a u 1 — a mit Hilfe der F-Verteilung wie folgt berechnet w e r d e n k ö n n e n : T u = v 2 /(v 2 + v t • FCL),
Vi = 2 ( n - x + 1),
To = V! • FC2/(V2 + v, • FC2), C[ + C 2 =
v 1 = 2 ( x + l),
v2 = 2x,
F C| = FJ _C„VL,V2
V2 = 2(n — x),
FC2 = ^ _ C 2 , V „ V 2
OL.
6) D i e B e s t i m m u n g von Konfidenzintervallen f ü r 7t, dem P a r a m e t e r der Binomialverteilung, wird u n t e r verschiedenen Optimalitätskriterien v o n Blyth u n d Still (1983) behandelt.
Statistische Entscheidungsmodelle
59
8) Berechnen Sie mit Hilfe der F-Verteilung Konfidenzgrenzen für n, wenn n = 10, x = 2 und a = 0,05. (Antwort: Tu = 0,025; T 0 = 0,556 für C l = c 2 = a/2). 9) Die Grenzen eines Konfidenzintervalls zum Niveau 1 — a für den Parameter X einer Poissonverteilung werden so bestimmt, daß gilt =C
Tu: X ( " / ) ' ' e x p ( - n / t ) / i ! < C[ T0: £ (nA)' • exp( —ni)/i! < c 2 i-0 für jede Realisation der Zufallsvariablen X = XXj und c Berechnen Sie für die Realisation einer einfachen Stichprobe 3,3,4,6,2,4,4,3,1,2,0,5,7,1,4 ein 95%-iges zweiseitiges Konfidenzintervall für X. (Antwort: 2,42; 4,32 für cl = c2 = a/2). 10) Da Maximumlikelihoodschätzfunktionen asymptotisch normalverteilt sind (s.Kap. A-IV) Hm [ ( 9 D - 3 ) / f f ] ~ N ( 0 ; l ) n -*• oc mit /(1 - 7t)]}. Da d(x) = x = I x j ist, ist T(x) = 2x; und E [ T ( X ) ] = n • 7t. Daher ist n • 7t = ZX; mit der Lösung ä = n
1
-
c) Unverzerrtheit und ML-Schätzfunktionen Wenn eine unverzerrte Punktschätzfunktion existiert, deren Varianz gleich der Cram e r - R a o Untergrenze ist, dann stimmt diese mit der ML-Schätzfunktion überein. Außerdem ist die ML-Schätzfunktion eine Funktion einer suffizienten Stichprobenmaßzahl, falls eine solche existiert (vgl. Rohatgi (1976) S. 381). Gibt es keine unverzerrte Punktschätzfunktion mit gleichmäßig minimaler Varianz, so k a n n über die Eigenschaften der ML-Schätzfunktion wenig gesagt werden, wenn die Stichprobe klein ist 6 ). d) Asymptotische Eigenschaften der ML-Schätzfunktionen Die ML-Schätzfunktionen haben folgende asymptotische Eigenschaften: - ML-Schätzfunktionen sind zumindest asymptotisch unverzerrt, in kleinen Stichproben aber oft verzerrt. Eine Punktschätzfunktion S n heißt asymptotisch unver6) Wenn Voraussetzungen über die Grundgesamtheit, unter denen bestimmte Güteeigenschaften von Schätzfunktionen nachweisbar sind, nur annähernd erfüllt oder gar verletzt sind, dann können sich dadurch die Güteeigenschaften einer Schätzfunktion eventuell verändern. Die Robustheit einer Punktschätzfunktion findet man ausführlich besprochen in Andrews et al. (1972) und Hampel (1978).
Statistische Entscheidungsmodelle
71
zerrt für 3, wenn lim E( ¡x0, so wirdH0 abgelehnt, wenn l(xl^) ^exp[-I(xi-/i1)2/2(72] k W
\(x\no)
ex
p[-£(xi-iio)2/2c2]
1 m '
bzw. A(x) = e x p { ( n / 2 a 2 ) [ 2 x ( / i l Durch Logarithmieren
Mo )
- { ß \ - // 2 )]} > f(^ 0 )/(l - f ^ 0 ) ) .
und Umformen erhält man aus dem letzten
Ausdruck
103
Statistische Entscheidungsmodelle a
-
l_
X >
1
, {
n
f(A*o) ^ , ßo + Mi _ , 2 "k-
Die Testfunktion des Bayes Modells kann daher analog zu der des klassischen Modells geschrieben werden, nämlich [0 *
W =
{ l
für
x < k,
für
x > k.
k wird im Bayes Modell jedoch nicht durch die Vorgabe eines Signifikanzniveaus bestimmt, sondern durch die Prioriwahrscheinlichkeiten fiir ßv Für die numerischen Angaben H 0 : ß = 4, H ^ ß = 5, f(ß0) = 0,8; f ^ ) = 0,2 unda2 = 1 sowie n = 10 und x = 4,8 ist 1 1 /0,8\ 4+5 k = — • • n — -\ = 4,64. 10 5 - 4 \0,2/ 2 Da x = 4,8 > 4,64 ist, wird H 0 : ß = 4 abgelehnt. c) Unterschiede in der Interpretation der Ergebnisse Bei fehlender Aprioriinformation ist der Prioriwahrscheinlichkeitsquotient gleich eins und der Posterioriwahrscheinlichkeitsquotient / (!) \ x) daher gleich dem Likelihoodquotienten /(x). Obwohl in diesem Fall die numerischen Ergebnisse des klassischen Modells mit denen des Bayes Modells übereinstimmen, sind die Interpretationen verschieden. Im Bayes Modell werden Wahrscheinlichkeitsaussagen über Hypothesen gemacht, im klassischen Modell nur Aussagen über die relative Häufigkeit, mit der auf lange Sicht richtige Hypothesen abgelehnt werden. Beispiel B-II-12 ).(j.i), A(x) und /(¿¿|x) kann man fiir die numerischen Angaben des vorhergehenden Beispiels wie folgt berechnen: ßi 4 5
fOlj) 0,8 0,2
l(x = 4,8|/ l j ) 0,0514 1,0329
ftjUj) • l(x = 4,8|/ij) 0,0411 0,2066
1,0
0,2477
Stehen Apriori- und Stichprobeninformationen
fi/Zjlx = 4,8) 0,1660 0,8340 1,0000
zur Verfügung, dann ist
A(Ai|x) = f( i i 0 |x)/fOi 1 |x) = = 0,8340/0,1660 = = m
• A(x) =
= 0,25-20,10 = 5,02. Da 5,02 > 1 ist, wird H l : ß = 5 angenommen. Bei fehlender ist A(/i|x) = X(ß) • 1 = 0,2/0,8 = 0,25.
Stichprobeninformation
Statistische Entscheidungsmodelle
104
Da in diesem Fall der Posterioriwahrscheinlichkeitsquotient kleiner 1 ist, H 0 : ß = 4 angenommen. Bei vager Aprioriinformation d.h. f ( / i 0 ) = f ( / 0 >
wird
A(/x|x) = 1 • A(x) = 1,0329/0,0514 = 2 0 , 1 0 . In diesem Fall ist der Posterioriwahrscheinlichkeitsquotient größer als 1 und H t : /i = 5 wird daher angenommen. Dieses Ergebnis wird im Bayes Modell so interpretiert, daß man die Alternativhypothese wegen ihrer geringeren Fehlerwahrscheinlichkeit gegenüber der Nullhypothese vorzieht. Auch im klassischen Modell wird die Nullhypothese auf dem 1 %igen Signifikanzniveau abgelehnt. Dies bedeutet jedoch für die Alternativhypothese kleiner ist als für nicht, daß die Fehlerwahrscheinlichkeit die Nullhypothese, sondern nur, daß man auf lange Sicht mit höchstens 1 % Fehlentscheidungen rechnen muß.
Aufgaben und weitere Ergebnisse 1) Zeigen Sie, daß von den drei kritischen Bereichen C 1 = (4,7;oo),
C 2 = (3,5; oo),
C 3 = (5; oo)
C 3 der beste ist, wenn man auf Grund einer Stichprobe mit n = 1, X ~ N (fi\ 1) die Hypothesen H 0 : ß = 4 und H ( : /j = 5 prüfen will und die Prioriwahrscheinlichkeiten f(fi 0 ) = 0,8 und f f / j J = = 0,2 betragen. 2) X sei eine Stichprobe mit n = 1 und X ~ N(/z; 1). Die Prioriwahrscheinlichkeiten für die Hypothesen H 0 : fi = 0 und H , : ¡1 = 1 sind 0,25 und 0,75. Zeigen Sie, daß die Summe der Risikoerwartungswerte für den besten kritischen Bereich C = ( — 0,6; oo) 0,1851 beträgt. Vergleichen Sie diesen kritischen Bereich mit dem des klassischen Modells für a = 0,25. Wie groß ist die Summe der Risikoerwartungswerte des klassischen Bereiches? (Antwort: 0,3417). 3) Zeigen Sie, daß zur Prüfung der einfachen Hypothesen H 0 : 9 = 9 0 und H ^ 9 = 9[ > 9 0 über den Parameter 9 einer Poissonverteilung A(9[x) =
1 - f(S 0 ) / 8 , V " „ „ " - U M -exp[n(i>o-Si)] 1 V^o/
der entsprechende Posterioriwahrscheinlichkeitsquotient ist. 4) Prüfen Sie, ob H 0 : 9 = 3 oder H r Ö = 4 auf Grund folgender Angaben über den Parameter 9 einer Poissonverteilung angenommen wird: n = 5, Lx, = 10 und f(9 0 ) = f(S t ). (Antwort: A(S|x) = 0,12). 5) Zeigen Sie, daß zur Prüfung der einfachen Hypothesen H 0 : 9 = 9 0 und H ( : 9 = 9, > ,90 über den Parameter 9 einer Exponentialverteilung A(9|x) =
1
~
• ( ^ J • exp[Z X i (9 0 - 9,)]
der entsprechende Posterioriwahrscheinlichkeitsquotient ist. 6) Die einseitigen Hypothesen über den Parameter einer Poissonverteilung sind H 0 : X < 0,595 und H ^ X > 0,595. Der Aprioriinformation über X entspricht eine Gammaverteilung mit x' = 2 und n' = 4. Die Realisation einer einfachen Stichprobe im Umfang n = 16 liefert x = 0,5. Zeigen Sie, daß die Posterioriwahrscheinlichkeit für H 0 0,75 ist. Benützen Sie dabei folgende Beziehung zwischen Gamma- und ^-Verteilung:
Statistische Entscheidungsmodelle
105
F r (A|x, n) = F z ,(f|v) mit f = 2nA und v = 2x. 7) Aus der Realisation einer einfachen Stichprobe im Umfang n = 9 mit Xj ~ N (ji, 4 ist auf Grund folgender Informationen zu entscheiden [X, ~ N (ft; 1)]: Ii'= 2,
a'2 = 0,2,
n = 10,
x = 4,8.
Zeigen Sie, daß bei fehlender Aprioriinformation H 0 abgelehnt und bei fehlender Stichprobeninformation H 0 angenommen wird.
III. Intervallschätzverfahren 1. Intervallschätzfunktion des Bayes Modells a) Familie von Bayes Intervallen Die Intervallschätzfunktion des Bayes Modells hängt nicht nur von der Stichprobe, sondern auch von der Priori Verteilung des Parameters 9 ab. Die Posterioriverteilung enthält beide Informationen. Eine Familie von Bayes Intervallen zum Niveau 1 — a ist gegeben, wenn das Intervall (Tu, T 0 ) den unbekannten Parameter mit der Posterioriwahrscheinlichkeit von mindestens 1 — a enthält 1 ), d.h. W{3e(Tu,T0)}>l-a. Für die Bestimmung der Obergrenze T 0 und der Untergrenze Tu des Intervalls gilt daher die Bedingung Fs|x(To) — FS|X(TU) > 1 — a . Die Wahrscheinlichkeit, daß der unbekannte Parameter höchstens T 0 ist, muß mindestens 1 — a sein, minus der Wahrscheinlichkeit, daß er höchstens Tu ist. F S | X (T 0 ) bzw. F S | x (Tu) ist die Verteilungsfunktion der Posterioriverteilung für die Argumente T 0 bzw. Tu. Beispiel B-III-1 Steht die Realisation einer einfachen Stichprobe mit X¡ ~ N(/i, er2), a2 bekannt, und die Aprioriinformationen über ß in Form einer konjugierten Priorinormalverteilung zur Verfiigung, dann ist bekanntlich auch die Posterioriverteilung eine Normalverteilung. Wenn man das (a/2)-te Quantildieser Posteriorinormalverteilung als Untergrenze Tu und das (1 — a/2)-te Quantil als Obergrenze T 0 nimmt, dann ist (Tu, T 0 ) ein Bayes Intervallfür ß zum Niveau 1 — a. Mit Hilfe der Standardnormalverteilung kann man diese Quantile wie folgt bestimmen: Tu = n" - Z i - 4 2 • a " , T 0 = n" + z ! _ a / 2 • a " . z, _a¡2 ist das (1 — a/2)-te Quantil der
Standardnormalverteilung.
Wenn z.B. x = 4,8 der Durchschnitt aus der Realisation einer einfachen Stichprobe mit X¡ ~ N 1) und n = 10 ist und die Aprioriinformation durch eine Normalverteilung gegeben ist mit ¡x' = 2 und & 2 = 0,2, dann sind die Grenzen eines 95 % Intervalls durch das 2,5-te und 91,5-te Perzentil der Posteriorinormalverteilung bestimmt. Für die Parameter ji" = 3,87 und a1 = 0,067 sind Tu = 3,87 - 1,96 • 0,067 1/2 = 3,36, T 0 = 3,87 + 1,96 • 0,067 I/2 = 4,38 1) Bayes Intervalle findet man im deutschsprachigen Schrifttum beschrieben z. B. bei Schmetterer (1966), Schönfeld (1971), Stange (1977).
107
Statistische Entscheidungsmodelle
die Perzentile dieser Posteriorinormalverteilung. ist also
Ein Bayes Intervall zum Niveau 0,95
l , f x ( x ) = j ( l / 9 3 ) d 9 = l/2x 2 . Die Posterioriverteilung von 9 für x = x t ist f ( 3 | x = x t ) = ( 1 / 9 3 ) / ( l / 2 x f ) = 2x2J»3. Zeigen Sie, daß ( x ^ x , / « 1 ' 2 ) ein H P D Intervall zum Niveau 1 - a für 9 ist (s. Beaumont (1980) S.174). 10) x = 670 ist das Ergebnis einer Stichprobenrealisation mit n = 50 und X ; ~ N(ß, 20 2 ). Berechnen Sie ein HPD-Intervall für ¡i zum Niveau 0,95 und für vage Vorinformationen. (Antwort: (664,5; 675,5)). 11) X t , . . . , X„ sei eine einfache Stichprobe mit X; ~ N (p, 1) und die Prioriverteilung von ¡i sei N(0; 1). Zeigen Sie, daß [n • x/(n + 1) - z t _ a / 2 /(n + 1) 1/2 ;
n • x/(n + 1) + z, . . l 2 / ( n + l ) 1 ' 2 ]
ein Bayes Intervall zum Niveau 1 — a für n ist. Vergleichen Sie dieses Intervall mit dem klassischen Konfidenzintervall für p hinsichtlich der Intervallänge. 12) Für eine einfache Stichprobe mit Xj ~ B (1; n) und eine Prioribetaverteilung ist die Posterioriverteilung auch betaverteilt. Berechnen Sie für die Realisation einer einfachen Stichprobe mit n = 10 und x = 1 sowie einer Prioribetaverteilung mit n' = 10 und x' = 4 ein HPD-Intervall zum Niveau 0,95. Vergleichen Sie dieses mit dem Intervall [Tu a(2 ; T 0 , _ I / 2 ]. (Antwort: [0,0781; 0,4360] HPD , [0,0915; 0,4555] a(2 ). 13) Zwischen der Betaverteilung und der F-Verteilung besteht folgender Zusammenhang: (vgl. Raiffa, Schlaifer 1961): F Be (7t|x, n - x ) = F P ( f | Vj = 2x, v2 = 2(n - x)) mit f = v2 • 7i/v1 • (1 — 7t). Zeigen Sie, daß die Bayes'schen Intervallgrenzen für n zum Niveau 1 — a mit Hilfe der F-Verteilung wie folgt berechnet werden können: T„ = V!/(V! + v2 • F!_C11V2,V1);
vt = 2x, v2 = 2 ( n - x ) ,
T 0 = Vj • ^ _C2iV,.V2/(V2 + Vj • FJ -C2,„,.V2) , C
1 + C2 =
a
-
14) Berechnen Sie mit Hilfe der F-Verteilung die Intervallgrenzen in Aufgabe 12 für C! = c 2 = = «/2.
IV. Punktschätzverfahren 1. Bayes'sche Punktschätzfunktion a) Funktionen der Posterioriverteilung Im Bayes Modell verwendet man zur Schätzung des unbekannten Parameters ü Stichproben- und Aprioriinformationen. Da Apriori- und Stichprobeninformationen in der Posterioriverteilung enthalten sind, bezeichnet man Funktionen dieser Verteilung als Punktschätzfunktionen für den unbekannten Parameter Beispiel B-IV-1 x = 0 sei die Realisation einer einfachen Stichprobe mit X; ~ B (1, n) undn = 3. Enthält der Parameterraum nur die drei Werte 0,10; 0,15 und 0,20 mit den Prior ¡Wahrscheinlichkeiten 0,2; 0,3 und 0,5, dann sind die entsprechenden Posterioriwahrscheinlichkeiten in der letzten Spalte der folgenden Tabelle enthalten: 1 (X = 0 | 7Tj) 0,10 0,15 0,20
0,20 0,30 0,50
0,7290 0,6141 0,5120
1,00
f(jt J )-l(x = 0|jt J ) 0,1458 0,1842 0,2560
f(7r j |x = 0)
0,5860
1,0000
0,2488 0,3144 0,4368
Mögliche Punktschätzfunktionen für den unbekannten Parameter n sind z. B. der Erwartungswert, der Zentralwert und der Modus dieser Posterioriverteilung. Die entsprechenden numerischen Werte sind 0,15) =
J f(7c|x)d7c = 0,65. 0.15
Wenn der Schaden, der mit der Ablehnung einer richtigen Nullhypothese verknüpft ist, doppelt so groß ist wie der bei der Annahme einer falschen Nullhypothese, dann ist A(s|x) = 1 - 0 , 6 5 / 2 - 0 , 3 5 = 0,93. Da der Wert dieses Quotienten kleiner ah 1 ist, wird die Nullhypothese angenommen. Ihr Posteriorischadenerwartungswert ist kleiner als der der Alternativhypothese.
Statistische Entscheidungsmodelle
147
b) Lineare Schadenfunktion Wenn die Schäden, die mit den möglichen Fehlentscheidungen verknüpft sind, nicht fix, sondern proportional zur Abweichung von ,90 sind, dann hat die entsprechende lineare Schadenfunktion für die Hypothesen H 0 : ,9 < ,90 und H ^ 9 > 90 folgende Form: s(a 0 , 9) = s(alfS) =
für
990,
(90 -9)
für
990.
Liegt ein Fehler 2. Art vor, wird also eine falsche Nullhypothese angenommen, so ist s 2 der Schaden pro Einheit Abweichung des wahren Parameters 9 von !i0, wobei 9 > 90 ist. Für einen Fehler 1. Art gibt s, den Schaden pro Einheit Abweichung des wahren Parameters «90 von 9 an. Der Quotient aus den Posteriorischadenerwartungswerten für a 0 und a, wird wie folgt berechnet: ,,
n
=
(S]X>
E , | x [ s ( a 0 , 3)]
E^tsiaLS)]
=
S2-L£(3|X)
Si-L^^lx)'
Beispiel C-II-9 Die Posterioriverteilung von ¡i sei ß ~ N(3,87; 0,067). Zur Prüfung der Hypothesen H 0 : n< 4 und H x : ß > 4 wird eine lineare Schadenfunktion mit Sj = 1 und s 2 = 10 vorausgesetzt. Der Zähler des Quotienten ). (s | x) ist s
2 ' L^(/i|x) = 10 • a" • L^ 5 0 (Z) = = 10 • 0,067 1/2 • 0,1979 = 0,5123,
da z = (4 - 3,87)/0,067 1/2 = 0,50 und Lg; 50 (z) = f z (0,50) - 0,50[1 - F z (0,50)] = 0,3521 - 0,5[1 - 0,6915] = = 0,1979. Analog dazu findet man für den Nenner des Quotienten A(s|x) den Wert 0,1806. Der Quotient aus den Posteriorischadenerwartungswerten ist daher /l(s|x) = 0,5123/0,1806 = 2,84. Da dieser Quotient größer als 1 ist, wird die Alternativhypothese angenommen. Ihr Posteriorischadenerwartungswert ist kleiner als der der Nullhypothese. Wenn bei einer linearen Schadenfunktion s x = s 2 ist, dann vereinfacht sich die Berechnung des Posteriorischadenerwartungswertquotienten. Er ist in diesem Fall (s.S. 184): A(s|x) = E ( S | x ) / V
148
Statistische Entscheidungsmodelle
Beispiel C-II-10 Die Posterioriverteilung von n sein ~ Be(3; 12). Wenn man eine lineare SchadenfunktionmitSi = s 2 zur Prüfung der Hypothesen H 0 : n < 0,15 gegen H x : n > 0,15 unterstellt, dann wird die Alternativhypothese angenommen, da E(tt|X) = 3/15 = 0,2 > n 0 = 0,15. Wenn man zur Prüfung der Hypothesen H 0 : ¡1 < 4 gegen H j: ¡1 > 4 eine lineare Schadenfunktion mit s, = s 2 annimmt, bei der also die Schäden der möglichen Fehlentscheidungen proportional zur Abweichung von /x0 = 4 sind und besitzt die Posteriorinormalverteilung die Parameter ¡i" = 3,87 und a"2 = 1/15, dann ist die beste Testfunktion W
CO für [1 für
E(/*|x) < 4, E (/i | x) > 4.
Da E(/i|x) = 3,87 < 4 ist, wird die Nullhypothese
angenommen.
4. Zweiseitige Hypothesen a) 0 — Sj Schadenfunktion Die 0 — Sj Schadenfunktion hat für die Hypothesen H 0 : H t : S^CÖLSJ] die Form sia S(a
< 9 < ¡}2 und
fÜr
°'y)-ls2
für
sra &)-lSl S(ai W) ' "io
für
H l K W ,
für
»WuW-
Für die Realisation einer einfachen Stichprobe ist |0
für
A(s|x) < 1,
'1
für
A(s|x) > 1
die beste Testfunktion nach der Bayes Regel mit Ea| x [s(a 0 , 3)]
s 2 • [ J dF(S|x) + f dF(S|x)] A(s|x) = = ^ ^ . s E s | x [s( a i ,i>)] i ' J dF(S|x) »i Beispiel C-II-11 Der Posterioriwahrscheinlichkeitsquotient für die Hypothesen H 0 : p e [3,9; 4,1] und Hj: fi $ [3,9; 4,1] ist 2,11 lt. Beispiel B-II-9. Sind die Schäden Sj = 2 und s 2 = 1 ,dann ist A(s|x) = A(ju|x) • s 2 /sj = 2,77 • 1/2 = 1,385.
Statistische Entscheidungsmodelle
149
Da der Quotient /l(s|x) größer als 1 ist, wird die Alternativhypothese angenommen. Der Posteriorischadenerwartungswert dieser Hypothese ist geringer als der der Nullhypothese. b) Lineare Schadenfunktion F ü r die zweiseitigen Hypothesen H 0 :
s (a 0 , 9) =
< 9 < 92,
0
für
SeCSi, S2],
s2(9!-9)
für
9 < 9U
s2(9-92)
für
9>92,
s(ao,S)= { I'
für
SgCSlSJ,
für
9 X0. B e s t i m m e n S i e die b e s t e T e s t f u n k t i o n n a c h der B a y e s R e g e l u n d n a c h der M i n i m a x R e g e l f ü r die 0 — s¡ S c h a d e n f u n k t i o n und eine G a m m a p r i o r i v e r t e i l u n g von X. 2 ) X j , . . . , X u sei eine e i n f a c h e S t i c h p r o b e m i t X ¡ ~ B ( l , n). Zeigen Sie, d a ß f 0 5
eine b e s t e T e s t f u n k t i o n n a c h der M i n i m a x R e g e l ist, w e n n m a n die D a t e n n 0 = 0 , 2 5 ; 7t! = 0 , 5 ; S j = 2 und s 2 = 1 v e r w e n d e t (s. B e r g e r ( 1 9 8 0 ) S . 2 1 8 ) . 3 ) E i n einzelner W e r t wird aus einer Verteilung mit d e r D i c h t e f u n k t i o n f(x|¿>) = 9 • x 9 - 1 , 0 < x < 1 e n t n o m m e n , u m die H y p o t h e s e H 0 : 9 = 2 u n d H , : 3 = 4 zu prüfen. D e r S c h a d e n , d e r m i t e i n e m a - F e h l e r v e r k n ü p f t ist, sei 1 und d e r für d e n /¡-Fehler 2 . Zeigen Sie, d a ß H 0 n a c h der B a y e s R e g e l a b g e l e h n t werden soll, w e n n x > 3 1 , 2 / 2 ist, u n t e r d e r V o r a u s s e t z u n g , d a ß die P r i o r i w a h r s c h e i n l i c h k e i t f ü r H 0 3/4 b e t r ä g t (s. B e a u m o n t ( 1 9 8 0 ) S . 138). 4 ) Zeigen S i e für d i e A n g a b e der v o r h e r g e h e n d e n A u f g a b e , d a ß H 0 n a c h d e r M i n i m a x R e g e l a b g e l e h n t w e r d e n soll, w e n n x > 1 / 2 " 2 ist. 5) X j , . . . , X 5 sei e i n e e i n f a c h e S t i c h p r o b e m i t X ¡ ~ B ( l , n). D i e P r i o r i v e r t e i l u n g v o n n sei B e ( l ; 1). W i r d H 0 : n < 0 , 6 o d e r H , : n > 0 , 6 a n g e n o m m e n , wenn Z x ¡ = 4 u n d der S c h a d e n f ü r einen F e h l e r 1. A r t 3 E i n h e i t e n u n d 1 E i n h e i t f ü r den F e h l e r 2. A r t b e t r ä g t ? 6 ) X , , . . . , X n sei e i n e e i n f a c h e S t i c h p r o b e mit X ¡ ~ E x ( A ) u n d H 0 : Á < Á0, H¡: Ä > X0. D i e P r i o r i v e r t e i l u n g v o n X sei g a m m a v e r t e i l t u n d die S c h a d e n f u n k t i o n linear. B e s t i m m e n Sie die beste T e s t f u n k t i o n n a c h d e r B a y e s Regel. 7 ) X h a t d i e D i c h t e f u n k t i o n f ( x | 9 ) = S • e x p ( - 9 x ) und 9 h a t die P r i o r i d i c h t e f ( f l ) = = Äexp ( - Xx) mit X b e k a n n t . D i e Posterioridichte von 9 ist d a n n f ( S | x ) = (x + X)2 • 9 • e x p [ - ( x +
.
Zeigen Sie, d a ß für die H y p o t h e s e n H 0 : 9 < 3 0 u n d H j : 3 > 90 die beste T e s t f u n k t i o n n a c h d e r B a y e s R e g e l wie f o l g t lautet: T(x)< T(x)>
S l
,
s2,
m i t T ( x ) = ( s ! + s 2 ) [ l + ( x + A ) 9 0 ] e x p [ — (x + A ) 9 0 ] . Si u n d s 2 sind die S c h ä d e n , die m i t den F e h l e r n 1. u n d 2. A r t v e r k n ü p f t sind. (s. B e a u m o n t ( 1 9 8 0 ) S . 1 6 8 ) . 8) Zeigen S i e , d a ß für e i n e lineare S c h a d e n f u n k t i o n ( m i t Sj = s 2 = 1) u n d die A n g a b e n d e r vorhergehenden Aufgabe 0
für
2/(x + X)
9, 90,
eine b e s t e T e s t f u n k t i o n n a c h der Bayes R e g e l ist (s. B e a u m o n t ( 1 9 8 0 ) S . 169). 9 ) Zeigen S i e , d a ß gilt QO
J (z — a ) f ( z ) d z = f ( z ) — z [ l — F ( z ) ] . a
f ( z ) u n d F ( z ) sind d i e D i c h t e - und Verteilungsfunktion d e r standardisierten N o r m a l v e r t e i l u n g (s. L a Valle ( 1 9 7 0 ) S . 5 5 7 ) .
Statistische Entscheidungsmodelle
153
10) Zeigen Sie, daß für eine beliebige Normalverteilung gilt oo
{ x f N ( x | / i , i 7 2 ) d x = //-
1 — FZ;
b
f z und F z sind die Dichte- und Verteilungsfunktion der standardisierten Normalverteilung. 11) Berechnen Sie für die Hypothesen H 0 : /i e [3,9; 4,1], H,: /j ^ [3,9; 4,1], sowie die Posteriorinormalverteilung von ß ~ N(3,87; 1/15) und eine lineare Schadenfunktion (s t = s 2 = l ) d e n Posteriorischadenerwartungswertquotienten. (Antwort: A(s|x) = 0,55). 12) Ein statistisches Verfahren 5 bezeichnet man als unverzerrt, wenn gilt Es[s(M)] < Es[s(M*)L
V3, 9 * e 0 .
Zeigen Sie, daß für die 0 — 1 Schadenfunktion eine Testfunktion genau dann in diesem Sinne unverzerrt ist, wenn die Gütefunktion folgende Bedingung erfüllt: g( sup {g(6, 9) 13 e 0 O } , (s. Bickel, Doksum (1977) S.432).
VS* 6 0!,
III. Intervallschätzverfahren1) 1. Intervallschätzfunktionen im Wald Modell a) Schadenfunktion für Intervallschätzverfahren Die Intervallschätzverfahren sind auch im Wald Modell als Spezialfall der Testverfahren darstellbar. Dies zeigen folgende Übereinstimmungen zwischen zweiseitig abgeschlossenen Schätzintervallen und zweiseitigen Hypothesen: Glaubt man, daß das Schätzintervall den wahren Parameter 9 überdeckt, wird kein Schaden auftreten, wenn dies tatsächlich der Fall ist. Wenn jedoch B nicht im Schätzintervall liegt, entsteht ein Schaden s„ der von der Intervallänge abhängt. Wenn man jedoch der Ansicht ist, daß der wahre Parameter 9 nicht im Schätzintervall liegt und dies trifft tatsächlich zu, dann entsteht kein Schaden. Ist der Parameter aber in Wirklichkeit größer als die Intervalluntergrenze Tu oder kleiner als die Intervallobergrenze T 0 , so hat man mit den Schäden s u , bzw. s 0 zu rechnen. Die Schadenfunktion eines Intervallschätzverfahrens hat daher folgendes Aussehen: 0
für
5 e [Tu, T 0 ] ,
s,
für
9 £ [Tu, T 0 ],
Mit dem Fehler 2. Art ist der Schaden s, verknüpft und mit dem Fehler 1. Art die Schäden s u und s 0 . s u kann als Schadenfunktion der Unterschätzung und s 0 als die der Überschätzung betrachtet werden. S! reflektiert den Schaden, der mit der Intervallänge zusammenhängt. Eine große Intervallänge ist weniger informativ als eine kleine. Es ist daher vernünftig anzunehmen, daß der Schaden s, eine zunehmende Funktion von T 0 — Tu ist. Im Rahmen der Intervallschätzverfahren schreibt man daher obige Schadenfunktion wie folgt: s(a, 9) = s u (T u , £>) + s 0 (T0, .9) + s,(Tu, T 0 ). b) Beste Intervallschätzfunktion nach der Bayes Regel Für die Intervallschätzfunktionen des Wald Modells wird kein Niveau vorgegeben. Nach der Bayes Regel werden die Intervallgrenzen so bestimmt, daß der der Schadenfunktion entsprechende Posteriorischadenerwartungswert 1) Intervallschätzverfahren nach der Bayes Regel werden für eine Reihe von Schadenfunktionen bei Winkler (1972) beschrieben, während Dixon (1976) den Zusammenhang zwischen Intervallschätzfunktionen und Testfunktionen hervorhebt. Intervallschätzfunktionen nach der Minimax Regel werden von Zehnwirth (1975) behandelt.
Statistische Entscheidungsmodelle
155
EÄ|X [s(a, 9)] = ETU —X,oo[su(Tu> 9)] + E t »[s 0 (T 0 , 9)] + s,(T 0 - TU) minimal ist. Dieses Minimum existiert, wenn man voraussetzt, daß s u (Tu, 9) und s 0 (T0, 9) keine konstanten, sondern monoton nichtfallende Funktionen in | T — 91 sind und E 9 , x [s(a, 9)] endlich ist für alle a e 9 l ( s . Winker (1972) S. 187). Die Berechnung von Intervallgrenzen nach der Minimax Regel wird hier nicht dargestellt. Vgl. dazu Zehnwirth (1975).
2. Spezielle Schadenfunktionen a) Lineare Schadenfunktion Für die lineare Schadenfunktion
wird der Posteriorischadenerwartungswert für eine Stichprobenrealisation minimiert, wenn die Grenzen des Intervalls aus der Posterioriverteilung von .9 wie folgt bestimmt werden (s.S. 186): Es|x(T u ) = S)/s u ,
F»|x(T0) = 1 - ( s , / s 0 ) . F S | X (T) ist die Verteilungsfunktion der Posterioriverteilung von 9. s, ist der Schaden pro Einheit Intervallänge und s u bzw. s 0 der Schaden pro Einheit Abweichung des wahren Parameters von der Intervallunter- bzw. -obergrenze. Tu ist das (s,/s u )-te Quantil der Posterioriverteilung und T 0 das (1 — s,/s 0 )-te Quantil. Eine Lösung existiert nur dann, wenn (s,/s u ) + (s,/s 0 ) < 1. Beispiel C-III-1 Verhält sich z. B. der mit einer Einheit Intervallänge verknüpfte Schaden zu dem Schaden pro Einheit Über- oder Unterschätzung wie s, su
=
s , = l s0 10'
dann ist s,/su = 0,1 und 1 — s,/s 0 = 0,9. Für die Posteriorinormalverteilung H" = 3,87 und ff"2 = 0,067 sind
mit
Tu = ß ~ k t • c(S 0 ) • d(x) • exp (S 0 x) + + k 2 [c'(^o)' d(x) • exp(,9 0 x) + c(,90) • d(x) • exp(3 0 x)x] oder umgestellt exp[x(9* - 9 0 )] > [ki • c(9 0 ) + k 2 c'(S 0 ) + k 2 c(Ö 0 ) • x]/c(8*) = = kf + k j
x.
Für x < x t oder x > x 2 kann man kf und kf immer so wählen, daß diese Ungleichung für jedes 9* 4= 9 0 erfüllt ist. M a n muß daher für eine stetige Verteilung der einparametrigen Exponentialfamilie Xj und x 2 nur so bestimmen, daß W{X < Xj
oder
X>x2|90} = a
und ^-W{Xx2|S}
=0
(vgl. Beaumont (1980) S.148, Ferguson (1967) S.222). 5. Cramer-Rao Theorem a) Wegen der Schwartz'sehen Ungleichung gilt allgemein für zwei Zufallsvariablen S, T: V ( S ) - V ( T ) > [C(S, T)] 2 bzw. V(T)>[C(S,T)]2/V(S). Ist T eine Punktschätzfunktion ). Realisationen der Zufallsvariablen X werden mit Kleinbuchstaben x x , x 2 , . . . gekennzeichnet. b) Durch die Zufallsvariable, die Q eindeutig in die Menge der reellen Zahlen abbildet, wird der neue Ereignisraum durch die Menge der halboffenen Intervalle (a, b ] erzeugt: Die Bedingungen einer a-Algebra sind erfüllt, da 1. IR e R , 2. ( — c o , a ] e R -* (— oo, a ] c = (a, oo) e R , 3. R ist gegenüber der mengentheoretischen Vereinigung aller halboffenen Intervalle abgeschlossen. c) Die Abbildung des neuen Ereignisraumes R in das Intervall [0; 1] erfolgt durch die Verteilungsfunktion F: F: R —• [ 0 , 1 ] . Sie gibt die Wahrscheinlichkeit d a f ü r an, d a ß die Zufallsvariable X höchstens den Wert x annimmt: F(x) = W ( X < x). Die Verteilungsfunktion erfüllt die Axiome von Kolmogoroff, da 1. F(x) > 0, 2. lim F(x) = 1, X
V x e ( - o o , oo),
x>
3. W ( ( - o o , a ] ) + W ( ( a , b ] ) = W ( ( - o o , b ] ) , da { ( - o o , a]} n {(a, b]} = =
0.
D a r a u s folgt W ( a < X < b) = W ( ( a , b]) = F ( b ) - F ( a ) . d) Eine Zufallsvariable X ist diskret, wenn X nur eine endliche oder abzählbar unendliche Menge von Realisationen x t , x 2 , . . . annehmen kann. Die Verteilungsf u n k t i o n einer diskreten Zufallsvariablen ist F(x0) =
S
f(x),
V X 6 ( - 0 0 , 00),
X^Xo wobei f(x) die sogenannte Wahrscheinlichkeitsfunktion, wie folgt bestimmt ist: f(x i ) = F ( x , ) - F ( * , _ , ) .
192
Statistische Entscheidungsmodelle
f(x), gibt bei einer diskreten Zufallsvariablen X die Wahrscheinlichkeit dafür an, daß die Zufallsvariable X genau den Wert x annimmt: f(x) = W ( X = x). e) Eine Zufallsvariable X ist stetig, wenn für jedes reelle x die Verteilungsfunktion wie folgt bestimmt ist: F(x 0 ) =
*0 J f(x)dx;
Vxe(— oo, oo),
— OO
wobei f(x) eine nichtnegative Funktion ist, die man Dichtefunktion nennt. Ist f an der Stelle x stetig, dann gilt f(x) = F'(x) =
dF(x) dx
Da die Wahrscheinlichkeit dafür, daß eine stetige Zufallsvariable X genau den Wert x annimmt, immer Null ist, entspricht nicht der Funktionswert f(x) der Wahrscheinlichkeit X = x, sondern f(x) • /Ix: «y r F(x + zlx) — F(x) f(x) = F (x) = lim = hm dj-0
AX
W(x < X < x + Ax)
An -> 0
.
Ax
6. Gemeinsame Verteilung Wenn man den Stichprobenraum Q zweifach in die Menge der reellen Zahlen abbildet X: Q R und Y: Q R, dann nennt man die Variable (X, Y) eine zweidimensionale Zufallsvariable. Die gemeinsame Verteilungsfunktion dieser Zufallsvariablen gibt die Wahrscheinlichkeit dafür an, daß die Zufallsvariable X höchstens gleich x und die Zufallsvariable Y höchstens gleich y ist: F(x, y) = W (X < x
A
Y < y).
Für zwei diskrete bzw. stetige Zufallsvariablen gilt folgende Beziehung: Z x
Z f(x,y) ygyo
diskret,
J f(x, y)dydx
stetig,
F( o> Yo) = | — CO
-
00
mit der gemeinsamen Wahrscheinlichkeits- bzw. Dichtefunktion
f(x,y) =
fOi,yj) = [F(x i ; yj) + F(Xi_ d2 F(x, y) 8x8 y
yj_ J ] - [F(X;_ „ yj) + F(x i5
_ J ] diskret, stetig.
Statistische Entscheidungsmodelle
193
7. Randverteilung a) Aus der gemeinsamen Wahrscheinlichkeits- bzw. Dichtefunktion f(x, y) kann man die beiden eindimensionalen Randwahrscheinlichkeits- bzw. Randdichtefunktionen wie folgt bestimmen:
fxOO =
I f(*i,yj), j=0 i
£ f(x„yj), ¡=0
fY(y) =
f
f(x,y)dy,
f(x,y)dx.
b) Zwei Zufallsvariablen X und Y sind (stochastisch) unabhängig, wenn ihre gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion gleich dem Produkt aus ihren Randwahrscheinlichkeits- bzw. Randdichtefunktionen ist: f(x, y) = f x ( x ) • f Y ( y ) ,
Vx, y .
8. Bedingte Verteilung a) Die bedingte Wahrscheinlichkeits- bzw. Dichtefunktion f(x|y) kann aus der gemeinsamen und Randwahrscheinlichkeits- bzw. -dichtefunktion wie folgt bestimmt werden:
f(*|y) =
f(x,y)/I
f(x, y)
i = 0
f(x„y),
CO f ( x , y ) / J f(x, y ) d x .
f Y (y)
b) Die stochastische Unabhängigkeit zweier Zufallsvariablen kann auch über die bedingte Wahrscheinlichkeits- bzw. Dichtefunktion geprüft werden. Zwei Zufallsvariablen sind unabhängig, wenn gilt f(x|y) = f x ( x )
oder
f(y|x) = f Y ( y )
Vx,y.
9. Momente um Null a) Für eine eindimensionale Zufallsvariable X sind die Momente um Null folgendermaßen definiert: X E(Xr) =
n,=
|
r=
x[-f(Xi)
diskret,
xr
stetig,
i = 0
f(x)dx
1,2,...
Wenn r = 1 ist, dann bezeichnet man E ( X ) = ß als Erwartungswert der Zufallsvariablen X . Eigenschaften von ¡i\
194
Statistische Entscheidungsmodelle
1. E(aX) = a • E(X), 2. E ( X 1 + ... + X n ) = E ( I X ä ) = E E(X,), ¡=1 i=l 3. E(a + bX) = a + bE(X), 4. E(X • Y) = E(X) • E(Y) wenn X, Y unabhängig. b) Das unvollständige erste Moment um Null für eine eindimensionale Zufallsvariable X ist wie folgt definiert: X X; • f(Xj)
Vi (a) =
diskret,
i=0 a
|
xf(x)dx
stetig.
Man bezeichnet dieses unvollständige Moment auch als partiellen Erwartungswert der Zufallsvariablen X: iil(a)
= E a _ 00 (X).
c) Für eine zweidimensionale Zufallsvariable (X, Y) sind die Momente um Null
E(X r Y s ) = fi [s =
Z 2 > [ - y f • f(XiYj) •
CO
CO
J xr • y s • f ( x y ) d y d x
| -
diskret,
j
CO
-
stetig.
CO
E(XY) ist der Erwartungswert von XY. 10. Zentrale Momente a) Für eine Zufallsvariable X sind die zentralen Momente x (Xi - nY • f(xt)
E(X — n) 1 =
i=0
|
(x — nY • f(x)dx
diskret, stetig,
— CO
i =
2,3,...
Das zweite zentrale Moment einer Zufallsvariablen X bezeichnet man als Varianz E(X — n) 2 = a 2 = V(X) und C ( X , Y ) = 0, 3. C(X, Y) 4= 0 => X, Y sind abhängig, 4. V(X + Y) = V(X) + V(Y) + 2C(X, Y). c) Die auf [ — 1; 1] normierte Kovarianz von X und Y bezeichnet man als Korrelationskoeffizienten Qxy: "(X-ilx) QxY
=
ct
xy!cx
•
=
(Y — fiy)
E
Eigenschaften von Qxy: 1.
- 1
< Ö X Y < 1 ,
2- 6xy < 0 o ffXY < 0 => X, Y variieren gegenläufig, 3.
Qxy
> 0
4- QXY = 111
ctxy
> 0 => X, Y variieren gleichläufig, zwischen X und Y besteht eine lineare Relation.
Tl. Quantile x [q] ist das q-te Quantil der Zufallsvariablen X, wenn gilt q - f(x q ) < F (x q ) < q F(x q ) = q = W ( X < x q )
X ist diskret, X ist stetig, 0 < q < 1.
Das Quantil der Zufallsvariablen X für das gilt q = 1/2, nennt man Zentralwert:
196
Statistische Entscheidungsmodelle X
[l/2]
=
l* •
x [1/4] ist das 1. Quartil und x [ 3 / 4 ) das 3. Quartil. Neben den Quartilen sind die Perzentile häufig berechnete Quantile einer Zufallsvariablen. Für sie gilt q = i/100 und i = 1, 2 , . . . , 100. 12. TschebyschefTsche Ungleichung Für eine Zufallsvariable X mit E(X) = fi < oo und V(X) = a 2 > 0 gilt folgende Ungleichung W ( | X — / i \ > c ) < 0.
Die TschebyschefFsche Ungleichung erlaubt Wahrscheinlichkeitsaussagen im Hinblick auf die absolute Abweichung einer Zufallsvariablen von ihrem Erwartungswert. Für die Bestimmung dieser Wahrscheinlichkeit benötigt man nicht die Kenntnis der Verteilungsfunktion, sondern nur die der beiden Momente ¡i und oo gegen die Standardnormalverteilung konvergieren. Bezeichnet man mit Fn die Verteilungsfunktion der Zufallsvariablen Z n , so gilt lim Fn ~ F z . n oo F z ist die Verteilungsfunktion der Standardnormalverteilung. Die Grenzwertsätze unterscheiden sich in der Definition von Z n . a) Lokaler Grenzwertsatz von De Moivre und Laplace: De Moivre und Laplace beweisen die Konvergenz für unabhängige und identisch bernoulliverteilte Zufallsvariablen. Z n ist wie folgt definiert: X — n • 7t Z
" ~ [n • 7t(l — 7i)] 1/2
mit X = £ Xj. i= 1
b) Zentraler Grenzwertsatz von Lindeberg und Levy: Lindeberg und Levy beweisen die Konvergenz für unabhängige und identisch, aber beliebig verteilte Zufallsvariablen mit demselben Erwartungswert ¡i und derselben Varianz a 2 . Z n ist wie folgt definiert: i (X.-JO 7 _ ¡=1 c) Zentraler Grenzwertsatz von Liapunoff: Liapunoff beweist die Konvergenz für unabhängige, aber nicht notwendig identisch verteilte Zufallsvariablen. Es wird nur vorausgesetzt, daß E(X n ) =
Mn
und
V(X n ) = 0) -oo < x