233 112 25MB
German Pages 389 [392] Year 1995
Angewandte Statistik Entscheidungsorientierte Methoden mit PC Programm
Von
Dr. Gerhard Marinell o. Universitätsprofessor und
Univ-Doz. Dr. Gilg Seeber Assistenzprofessor Institut für Statistik an der Leopold-Franzens-Universität in Innsbruck
Vierte, durchgesehene Auflage
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Marinell, Gerhard: Angewandte Statistik : entscheidungsorientierte Methoden mit PC-Programm / von Gerhard Marinell und Gilg Seeber. - 4., durchges. Aufl. - München ; Wien : Oldenbourg, 1996 ISBN 3-486-23598-2 NE: Seeber, Gilg:
© 1996 R. Oldenbourg Verlag GmbH, München Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München
ISBN 3-486-23598-2
Inhalt
I
Statistische Entscheidungsanalyse
1
1
Schadenfunktion
2
2
Bayes'sche Entscheidungsregel
4
3
Zufallsvariablen und deren Verteilungen
6
3.1
Zufallsvariablen und Verteilungsfunktionen
6
3.2
Momente
8
3.3
Zweidimensionale Verteilungen und die Bayes'sche Formel 10
3.4
Bernoulli Prozeß
12
3.5
Poisson Prozeß
17
3.6
Gauß Prozeß
21
3.7
Approximationen
28
II T e s t p r o b l e m 1
2
3
31
Hypothesen und ihre Posteriori Wahrscheinlichkeiten
31
1.1
Einseitige Alternativhypothesen
32
1.2
Zweiseitige Alternativhypothesen
33
Schadenerwartungswerte der Aktionen
35
2.1
Konstante Schadenfunktion
36
2.2
Lineare Schadenfunktion
37
2.3
Quadratische Schadenfunktion
41
Fallstudien
42
3.1
Präkognitive Fähigkeiten
43
3.2
Produktionsprozeß unter Kontrolle?
45
3.3
Glückspiel
48
3.4
Zusätzlicher Tankwart
51
3.5
Telefonanlage
53
3.6
Radioaktiver Zerfall
56
3.7
Radargerät
58
3.8
FilialeröfFnung
61
3.9
Bierflaschenabfüllmaschine
64
3.10
Methanol verkauf
66
3.11
Neue Fluglinie
69
VI
3.12
Annahmekontrolle
III Punktschätzproblem
73 79
1
Konstante Schadenfunktion
79
2
Lineare Schadenfunktion
81
3
Quadratische Schadenfunktion
82
4
Fallstudien
83
4.1
Übergewicht
83
4.2
Optimale Bestellpolitik
85
4.3
Brillengeschäft
87
4.4
Verkehrsunfälle
89
4.5
Saisonartikel
91
4.6
Landefrequenz
92
4.7
Lebensqualität
94
4.8
Superbenzin
96
4.9
Viskosität
98
4.10
Relais
100
4.11
Zeltfest
102
4.12
pH-Wert
104
IV Intervallschätzproblem 1
2
3
4
107
Konstante Schadenfunktion
107
1.1
Ohne vorgegebene Intervallänge
107
1.2
Mit vorgegebener Intervallänge
109
Lineare Schadenfunktion
110
2.1
Ohne vorgegebene Intervallänge
110
2.2
Mit vorgegebener Intervallänge
112
Quadratische Schadenfunktion
114
3.1
Ohne vorgegebene Intervallänge
114
3.2
Mit vorgegebener Intervallänge
116
Fallstudien
117
4.1
Milbenkrankheit
117
4.2
Produkteinführung
120
4.3
Heilungschancen
122
4.4
Mineralwasser
123
4.5
Ausfallsrate von Webmaschinen
125
4.6
Suizidforschung
128
VII
4.7
Gynäkologie
130
4.8
Einnahmen pro Kunde
132
4.9
Schraubendurchmesser
134
4.10
Sportmotorischer Test
136
4.11
Garantieverhandlungen
139
4.12
Intelligenzquotient
142
V Unterschied
147
1
Anteilswerte
147
2
Mittelwerte von PoissonVerteilungen
151
3
Durchschnitte
154
3.1
Bekannte Varianzen
154
3.2
Unbekannte aber gleiche Varianzen
157
3.3
Unbekannte und ungleiche Varianzen
161
4
Fallstudien
162
4.1
162
Günstiges Angebot?
4.2
Welche Schreibkraft?
165
4.3
Anordnung verschiedenfarbiger Klötze
166
4.4
Normal- und Superkraftstoff
168
4.5
Neues Mittel gegen Kopfschmerz
172
4.6
Zwei Produktionsbänder
174
4.7
Durchschnittliche Studiendauer
176
4.8
Neues Düngemittel
178
4.9
Rauchen und Geschlecht
180
4.10
Einbahnstraße
183
4.11
Körpergewicht Neugeborener
186
4.12
Reifentest
188
VI Zusammenhang
193
1
Maßkorrelationskoeffizient
193
2
Lineare Einfachregression
198
3
Fallstudien
205
3.1
Eignungstest und Jahresumsatz
205
3.2
Schulpsychologe
209
3.3
Waldböden
211
3.4
Erweiterungsinvestitionen
213
3.5
Feldspat und Uranium
216
VIII
3.6
Gewichtsabnahme
219
V I I Der Wert der Stichprobeninformation 1
2
3
4
223
Bernoulli Prozeß
224
1.1
Test verfahren
224
1.2
Schätzverfahren
228
Poisson P r o z e ß
230
2.1
Test verfahren
230
2.2
Schätzverfahren
233
G a u ß Prozeß
235
3.1
Testverfahren
235
3.2
Schätzverfahren
238
Fallstudien
243
4.1
Wareneingangskontrolle
243
4.2
Politische Meinungsforschung
245
4.3
D e f e k t e Stücke
247
4.4
Straßenbauamt
249
4.5
Rettungshubschrauber
251
4.6
Glühbirnentest
253
4.7
A u s g a b e n der Gäste
254
4.8
Familieneinkommen
256
4.9
Leasing
258
4.10
Optimaler Stichprobenumfang
260
4.11
Ökologie
262
4.12
Werbeausgaben
264
V I I I Tabellen
267
1
Betaverteilung
267
2
Gammaverteilung
329
3
Studentverteilung
346
4
Normalverteilung
355
Formelsammlung
361
1
Verteilungen des Bernoulli Prozesses
361
2
Verteilungen des Poisson Prozesses
362 2
3
Verteilungen des G a u ß Prozesses, i) • mins(o,i?i) = 0.3 • 0 + 0.7 • 0 = 0. Sie wird damit höchstens SE(a o p ( ) = SE(ao) = 0.7 Geldeinheiten für weitere Informationen zur Wetterlage aufwenden.
3
Zufallsvariablen und deren Verteilungen
Im letzten Abschnitt sind wir bei der Diskussion der Bayes'schen Entscheidungsregel davon ausgegangen, daß es eine Wahrscheinlichkeitsverteilung auf der Menge 0 der Umweltzustände gäbe. In diesem Abschnitt wollen wir näher auf den Begriff der Wahrscheinlichkeit eingehen. Wir werden dazu einige elementare Begriffe aus der mathematischen Wahrscheinlichkeitstheorie einführen und uns im übrigen auf das für dieses Lehrbuch wesentliche beschränken. 1 Frau Müller aus dem Beispiel der letzten Abschnitte nahm Wahrscheinlichkeiten W(i?o) und ) für die Umweltzustände i90 und iJj an und wollte damit ihrer subjektiven Einschätzung für die Behauptungen „Es wird regnen." bzw. „Es wird nicht regnen." Ausdruck verleihen. Wahrscheinlichkeit wird damit verwendet als Maß für die Unsicherheit, die den beiden Aussagen anhaftet. Mit Wahrscheinlichkeiten lassen sich aber ebenso Zufallsgesetze beschreiben. So läßt sich zum Beispiel die Behauptung, ein Würfel wäre fair, dahingehend präzisieren, daß man sagt, die Wahrscheinlichkeit, eine gewisse Anzahl von Punkten zu werfen, wäre für alle möglichen sechs Punktezahlen gleich und mit 1/6 zu bemessen. Dies ist nicht Ausdruck einer subjektiven Einschätzung, sondern eine objektive, auch mit statistischen Methoden beurteilbare Aussage. Hinter beiden Interpretationen von Wahrscheinlichkeit steht dieselbe mathematische Theorie. Im folgenden Abschnitt werden wir Zufallsvariablen als jene Größen kennenlernen, die Wahrscheinlichkeitsgesetzen unterliegen.
3.1
Zufallsvariablen und Verteilungsfunktionen
Gehen wir einmal davon aus, wir wollten das Zufallsexperiment "einmaliger Wurf eines fairen Würfels" mathematisch beschreiben. Wir können dazu etwa eine Größe, nennen wir sie X , definieren, die die Werte 1, 2 , . . . , 6 mit auf der Hand liegender Interpretation annehmen kann. Welchen Wert X im konkreten ' F ü r ausführlichere Darstellungen siehe etwa O ' H a g a n (1988) oder Viertl (1990; Kapitel I-IV).
3. Zufalls variablen und deren
7
Verteilungen
Fall „realisiert", hängt vom Zufall ab, dessen Gesetzmäßigkeit wir mit der Funktion
/(«) =
für x = 1 , 2 , . . . , 6,
|
d.h. W({x}) = / ( x ) , beschreiben können. Statt / hätten wir ebensogut die reelle Funktion F mit F(x) = W(X für alle x £ R, also
F(x)
0 1/6 2/6
für x < 1 für 1 < x < 2 für 2 < x < 3
5/6 1
für 5 < x < 6 für x > 6
< x)
verwenden können. Ohne weiter auf mathematische Details einzugehen, nennen wir Größen, die Werte (Realisierungen) in den reellen Zahlen annehmen und einem Wahrscheinlichkeitsgesetz unterliegen, Zufallsvariablen. Letzteres läßt sich beschreiben durch Angabe der Wahrscheinlichkeiten für die Behauptungen, der Wert der Zufallsvariablen würde eine gewisse reelle Zahl nicht überschreiten. Etwas genauer: Ist X eine Zufallsvariable, dann wird das ihr zugrundeliegende Zufallsgesetz vollständig und eindeutig charakterisiert durch die über F(x)
=
W(X
< x)
für alle x £ R
definierte Verteilungsfunktion. Wahrscheinlichkeiten sind Zahlen zwischen 0 und 1. Eine Behauptung, der die Wahrscheinlichkeit 0 zugeordnet ist, ist mit Sicherheit falsch. Umgekehrt bedeutet eine Wahrscheinlichkeit von 1, daß die Aussage sicher richtig ist. Je höher die Wahrscheinlichkeit einer Aussage ist, desto eher ist sie richtig. Damit sind Verteilungsfunktionen monoton nicht fallende Funktionen, deren Wertebereiche im geschlossenen Intervall [0,1] = {p|0 < p < 1} liegen. Zufallsvariablen, die nur endlich viele, oder höchstens abzählbar viele Werte annehmen können, heißen diskret. Für diese lassen sich, wie in obigem Beispiel, Wahrscheinlichkeitsfunktionen definieren. Setzt man / ( x ) = W(X = x) für alle möglichen Werte von X (was wir symbolisch mit x € X ausdrücken), dann gilt
F(x)
=
Y, f(v) v€X,v} (d.h., w ist der größte Wert, den X annehmen kann und der kleiner als x ist).
8
Kapitel
I.
Statistische
Entscheidungsanalyse
Das bedeutet, daß das Wahrscheinlichkeitsgesetz von diskreten Zufalls variablen auf äquivalente Art und Weise durch Verteilungsfunktion oder Wahrscheinlichkeitsfunktion beschrieben werden kann. Eine ähnliche Eigenschaft gilt für stetige Zufallsvariablen: Deren Wertebereich ist ein (möglicherweise die gesamte reelle Zahlenachse umfassendes) Intervall mit Grenzen a und b, über dem eine nicht negative Funktion / mit der Eigenschaft
f0 F(x)
=
\ (
für
x
0.15)
=
a 2 .G/j(0.15|a;" = 3 , n " - x " = 1 2 )
=
1 • 0.6479
=
0.6479,
=
ax-W'iffo^^O.lö)
=
si • F0(OA5\x" = 3,n" - x" = 12)
=
2-0.3521
=
0.7042.
Da der Schadenerwartungswert für die Aktion a 0 kleiner ist als der der Aktion a\, wird der Geschäftsmann das neue Produkt nicht einführen. In folgender Entscheidungstabelle sind die relevanten Daten zusammengestellt:
Aktion a, a0 ai W{Hi)
Zustand TT < 0.15 TT > 0.15 SE(a,) 1 0.6479 0 0.7042 2 0 0.3521 0.6479
2.2
Lineare Schadenfunktion
(a)
Einseitige Alternativhypothese
Die Schäden möglicher Fehlentscheidungen werden hier nicht als Gesamtsumme berücksichtigt, sondern sie werden differenzierter in Rechnung gestellt. Bei einseitigen Hypothesen wird der Schaden pro Einheit Abweichung von i90 angegeben. Die Schadenfunktion hat daher allgemein für die Hypothesen Ho- & < ^o und > i?0 folgendes Aussehen:
-K*)
=
{;••('-*>)
für für für für
ö 6 d i?
< > < >
i?0, i?0, t?0, d0.
Si ist hier keine Pauschalsumme, sondern der Schaden der auftritt, wenn die Aktion 1)0 und //]: 0 < i)ü ist für 0 > t? 0 , S [
= -
""s)
{ü, •(»„- für -3 > i9 0 , für tf < i90,
die entsprechende lineare Schadenfunktion und die Schadenerwartungswerte der beiden Aktionen sind 5 SE(a0)
=
SE(aO
=
\X),
Der Geschäftsmann, der die Einführung eines neuen Produktes plant, stellt z . B . mit Hilfe seiner Kostenrechnung fest, daß ihm pro Prozentpunkt Marktanteil ein Schaden von 100 G E entsteht, wenn er sich irrtümlich für die Einführung des neuen Produktes entscheidet und der wahre Marktanteil kleiner gleich 15% ist. Andererseits hat er 100 G E entgangenen Gewinn pro Prozentpunkt Marktanteil, wenn er das Produkt nicht einführt, obwohl der Anteil an den potentiellen Kunden über 15% liegt. Für diese Angaben ist =
{J
0 1 5 )
für 7T > 0.15,
, , S(oi.T)
=
r 100 - (0.15 - TT) (0
für tt < 0.15,
0 0
.
( 7 r
_
für tt < 0.15,
¿Ktt)
für 7r > 0.15,
die entsprechende lineare Schadenfunktion. 5 F ü r den Spezialfall Marine» (1987, S 184).
= S2 wird a0 angenommen, wenn
0.15 SE{ai) 0 100 • (tt - 0.15) 6.73 1.73 100 • (0.15 - tt) 0 0.0173 0.0673
Zweiseitige Alternativhypothese
Bei zweiseitigen Alternativhypothesen wird nur der Schaden, der mit der Annahme einer falschen ao-Aktion zusammenhängt, als lineare Funktion angegeben. Der Schaden, den die Annahme einer falschen ai-Aktion verursacht, findet als Pauschalsumme Berücksichtigung. Für das Hypothesenpaar H0: d = d0 und Hi". $ $0 sieht die Schadenfunktion wie folgt aus: s{a0,0) s(auö)
=
für 2 f ü r t f < (tJ - d0) für für für
d = •Oq, t ? 0 , •d > i?0 i? = i?0, d ^ i?0.
S2 ist der Schaden pro Einheit Abweichung des wahren Parameters d von i?0 und 5] ist ein Pauschalbetrag an Schaden für die Annahme einer falschen Aktion. Der Schadenerwartungswert ist für die Aktion a 0 SE(a0) = s2.[L*_°oo(d\x)
+ L%>(0\x)}
Kapitel II.
40
Testproblem
und für die Aktion o,\ SE(ai) =
•
Sl
W"{H0).
L W \ x ) und sind das linke und rechte lineare Moment bezüglich der Posteriori Verteilung für den unbekannten Parameter r). Für eine Intervallnullhypothese hat die lineare Schadenfunktion folgende Struktur: für d € s(a 0 ,tf)
s(
a i
=
s2 •
-
tf)
für ß < i?i, für i9 > i?2, für t9 € [ ^ . t f j ] ,
J)
für i9 £ [i?i,i?2j.
Si und 52 sind gleich definiert wie bei der Punktnullhypothese. Die Schadenerwartungswerte werden folgendermaßen berechnet: SE(a 0 )
-
SE(ai)
=
3J.
+
s,-W"(H0).
Bei der Produktion eines Arzneimittels, das 15% eines bestimmten Wirkstoffes enthalten soll, entsteht ein Schaden, wenn das Arzneimittel mehr als 15% enthält, da man dabei teuren Wirkstoff vergeudet. Aber auch bei zu geringem Anteil des Wirkstoffes im Arzneimittel ist mit einem Schaden zu rechnen, da das Medikament eventuell seine Heilkraft verliert und staatliche Sanktionen zu erwarten sind. Wenn man z.B. voraussetzen kann, daß pro Prozentpunkt Abweichung von 15% ein Schaden von 3000 GE entsteht und andererseits die nichtnotwendige Neuadjustierung des Produktionsapparates Kosten von 500 GE verursacht, dann hat die entsprechende Schadenfunktion folgendes Aussehen: , ,
.
_
J0
für TT = 0.15,
-
\ 3 0 0 0 - 1 * - 0.15|
für TT ^ 0.15,
f 500
für TT = 0.15,
=
l0
für 7r ^ 0.15.
,
Für die Aktion a0 ist der Schadenerwartungswert gegeben durch SE(a 0 ) = 253.8, da für ¿o 15 (7r|x) und L j ls(7r|ar) folgende Werte gelten: L° 15 (7r|x)
=
0.0173,
Iä.15(jr|a:)
=
0.0673.
Daher ist der Schadenerwartungswert gleich SE(a0)
= 3000 • [0.0173 + 0.0673] = 253.8.
2. Schadenerwartungswerte
der
Aktionen
41
=
500-0.4414
=
220.7,
wenn man eine Posterioribetaverteilung mit x" = 3 und n" = 15 unterstellt und für die Punktnullhypothese H0: % = 0 . 1 5 eine Prioriwahrscheinlichkeit von po = 0.2 a n n i m m t . Der Schadenerwartungswert der Aktion a\ ist der kleinere von beiden. Es wird daher angenommen, daß der Produktionsprozeß nicht mehr „unter Kontrolle" ist. Man wird die Produktion stoppen, um den Produktionsapparat neu zu adjustieren.
2.3
Quadratische Schadenfunktion
Auch bei der quadratischen Schadenfunktion wird nur der Schaden, der m i t der A n n a h m e einer falschen acrAktion verknüpft ist, als quadratische Funktion berücksichtigt. Der mit der Annahme einer falschen d j - A k t i o n verbundene Schaden wird hingegen als G e s a m t s u m m e angegeben. Diese Schadenfunktion findet meist bei Entscheidungsproblemen Anwendung, bei denen eine P u n k t nullhypothese vorliegt. Für das entsprechende Hypothesenpaar Hq : ü — i9o und Hi: -d ^ d0 ist die Schadenfunktion folgendermaßen definiert:
Si gibt als Pauschalsumme den Schaden an, der mit der A n n a h m e einer falschen a i - A k t i o n verbunden ist. S2 ist der Schaden pro Einheit Abweichungsquadrat des wahren P a r a m e t e r s $ von •Oo- F ü r diese Schadenfunktion werden die Schadenerwartungswerte der beiden Aktionen nach folgenden Formeln berechnet: SE(a0)
=
[V(tf|a:) + ( £ ( 0 | * ) - 0 o ) 2 ] ,
SE(ai)
=
Sl-W"(H0).
¿5(i9|:r) und V(ß\x)
sind Erwartungswert und Varianz der Posterioriverteilung
des unbekannten P a r a m e t e r s t9. Wenn im Beispiel der Arzneimittelproduktion die Schäden, die m i t einem falsch eingestellten Produktionsapparat verbunden sind, nicht pro Prozentpunkt Abweichung von 15% linear, sondern quadratisch wachsen, dann ist
s(a0,ir) s(ai,7r)
=
für TT = 0.15, 3000 • (TT - 0 . 1 5 ) 2
für TT ^ 0.15,
500
für 7r = 0.15,
0
für
TT
^ 0.15,
42
Kapitel II.
Testproblem
die entsprechende quadratische Schadenfunktion. Für die Posterioribetaverteilung m i t x" = 3 und n" = 15 sind SE(a 0 )
SE(ai)
- 0.15) 2 ]
=
3000 • [V(TT|X) + (E(v\x)
=
3000 • [O.Ol + (0.20 - 0.15) 2 ]
=
37.50.
=
500-0.4414
=
220.7
die Schadenerwartungswerte der beiden Aktionen, da T,, v
, .
-px-(i-py
= \
i y
J
..
f»B(x\P,*')
x
, _
x
10 + 10
Der Schadenerwartungswert der Aktion a1 ist nun SE(ai) =
3l
• W"(H0)
= 1 • 0.5953 = 0.5953.
Da der Schadenerwartungswert der Aktion a 0 geringer ist als der von Gti, wird der Wissenschaftler die Literaturangabe über die Zerfallsrate trotz seiner abweichenden exerimentellen Ergebnisse nicht anzweifeln.
3.7
Radargerät
Im Hinblick auf die Verbesserung der Verkehrssicherheit soll entschieden werden, ob bei der Einfahrt einer Ortschaft ein fixes Radargerät installiert werden soll. Die Höchstgeschwindigkeit im Ort beträgt 50 k m / h . Die Gemeinderäte, die gegen die Installation sind, behaupten, daß aus straßentechnischen Gründen an der Ortseinfahrt diese Höchstgeschwindigkeit kaum gefahren werden kann. Eine Kontrolle von 20 Fahrzeugen ergab folgende Geschwindigkeit in km pro Stunde: 52, 54, 43, 49, 57, 59, 55, 55, 48, 44, 54, 59, 51, 53, 64, 60, 53, 49, 65, 56. Aus meßtechnischen Gründen nimmt man als Nullhypothese an, daß die Durchschnittsgeschwindigkeit mit einer Streuung von 1 k m / h zwischen 48 und 52 k m / h liegt. In diesem Fall wäre die Anbringung eines fest montierten Radargerätes nicht notwendig. Andererseits ist sowohl die Überschreitung der Höchstgeschwindigkeit unerwünscht als auch eine zu geringe Geschwindigkeit, da in diesem Fall die Straße begradigt werden müßte, um Stauungen zu verhindern. Im Gemeinderat ist man sich einig, daß für den Schaden der irrtümlichen A n n a h m e der Nullhypothese zu dem der Alternativhypothese ein Verhältnis von 10:1 angenommen werden kann. Welche Entscheidung soll der Gemeinderat fällen, wenn m a n außerdem von einem Verkehrsexperten weiß, daß die Streuung der gefahrenen Geschwindigkeiten bei vergleichbaren Ortseinfahrten 4 k m / h beträgt?
3.
Fallstudien
59
Lösung Entscheidungsproblem: Aktionen entscheiden: a0: ai:
Der Gemeinderat muß sich für eine der beiden
kein fixes Radargerät wird angebracht, ein fest montiertes Radargerät wird an der Ortseinfahrt installiert.
Da nur dann kein Radargerät montiert werden soll, wenn die Durchschnittsgeschwindigkeit zwischen 48 und 52 km/h liegt, entsprechen den beiden Umweltzuständen folgende Hypothesen: H0: p £ [48,52], (i $ [48,52]. Der Gemeinderat hat daher ein Testproblem mit einer Intervallnullhypothese zu lösen. Posterioriverteilung: Für die Durchschnittsgeschwindigkeit an der Ortseinfahrt kann man einen Gauß Prozeß annehmen, für den die Streuung bekannt ist: er =4 km/h laut Verkehrsexperten. Die Stichprobeninformationen sind: n
=
20,
52 + 54 + ... + 56 — = 54. 20 Als Prioriinformation dient die vorgeschriebene Höchstgeschwindigkeit sowie die meßtechnisch bedingte Streuung von 1 km/h. Die Parameter der Priorinormalverteilung sind daher Ii' = 50, 123) kann man ableiten, daß die Wahrscheinlichkeit W\ti'±k
• a') = W'(120±3) = 0.5
ist. Da für die Standardnormalverteilung gilt, daß 50% der Fläche zwischen -0.6745 und 0.6745 liegen, kann man er' leicht berechnen: k • er' = ^ =
0.6745 • o' = 3 3 ' • 2 = 25 ± 5. Daher ist ¿0.98;i/' -2 = 5 bzw. to.9sy = 2.5.
Für v' = 7 ist diese Gleichung erfüllt. Die Prioriinformationen sind daher H' = 25, n' = 7, s' 2 = 5.32 = 28.09, v' = 7. Die Parameter der Posterioristudentverteilung sind n"
=
n + n = 7+ 7 =
v"
=
u' + n =
n„
=
H
=
s"2
=
=
14,
7 + 7 = 14, n'-n 7-7 = = 3.5, n" 14 n ' V + n-ä 7 - 2 5 + 7-30 = — = 27.50, n" 14 u' • s'2+
n-s2
+ nu-(x n v
-
/1'f
7 • 5.32 + 7 • 72 + 3.5 • (30 - 25)2 14 44.7950.
Die Dichtefunktion der Posterioristudentverteilung ist s"2
M x ( # ) = f s W = 27.50, — = 3.1996, v" = 14).
Kapitel II.
72
Testproblem
Schadenerwartungswert: Für die linearen Gewinnfunktionen der beiden Aktionen sind die entsprechenden Schadenfunktionen
s(a0,ii) ,
-
f 0 | 7300 . (27.4 - / / )
=
f 7300 • (fi - 27.4) für n > 27.4, l0 für /i < 27.4.
,
für f i > 27.4, für p < 27A,
Die Schadenerwartungswerte sind gegeben durch die Formeln SE(a 0 ) -
• LVMx),
SE(a,) =
•
L%A(p\x).
Die linearen Momente der Posterioristudentverteilung sind
L ? M
ß
» = 2 7 . 5 0 , ^ - = 3.1996,1/" = 14)
„ll 2 = 27.50, — = 3.1996,u" = 14)
=
¿=^ 0559 (i114) -
=
0.3947 • n/3.1996
=
0.7060
=
L~om59(t\U)
,
lg/12 •J —
0.4506 • v/3.1996 0.8060. Die Schadenerwartungswerte der beiden Aktionen sind daher SE(a 0 )
=
7300-0.7060
=
5153.8
=
7300-0.8060
=
5883.8.
und SE(ai)
Der Schadenerwartungswert von a 0 ist kleiner. Die Fluggesellschaft wird daher die neue Fluglinie eröffnen. Da der erwartete Wert der perfekten Information mit E W P I = m i n { S E ( a 0 ) , S E ( a 1 ) } = 5153.8 relativ hoch ist, wird sich die Gesellschaft überlegen, eventuell weitere Informationen über die unbekannte Durchschnittszahl der Belegungen pro Tag zu besorgen. Sie wird dafür höchstens 5153.8 GE ausgeben.
3.
Fallstudien
3.12
73
Annahmekontrolle
Ein Uhrengroßhändler erhält vom Produzenten eine größere Lieferung eines bestimmten Uhrentyps, für den der Produzent eine fast 100%-ige Präzision angibt. Der Großhändler überprüfte 10 Uhren, indem er die Abweichung der Zeit nach 48 Stunden feststellt. Die Abweichungen in Sekunden sind -6.75, 4.25, -2.20, 10.25, -3.75, 2.70, -9.75, 3.25, -2.75, 7.25. Der Uhrenmeister des Großhändlers ist auf Grund seiner Erfahrung mit diesem Uhrentyp der Ansicht, daß mit 90% Wahrscheinlichkeit die Genauigkeit dieser Uhren zwischen 0±2 Sekunden liegt, mit einem Schätzwert für die Varianz von 10. Diese Erfahrung will der Großhändler ebenfalls berücksichtigen und zwar gleich stark wie die Stichprobenergebnisse. Obwohl der Großhändler weiß, daß das Zurücksenden der Lieferung an den Produzenten mit Kosten verknüpft ist, wenn die Ganggenauigkeit gegeben ist, will er diese Entscheidung treffen, wenn der Schadenerwartungswert, der mit einer irrtümlichen Annahme der Lieferung verknüpft ist, nicht kleiner ist. Dabei ist er der Ansicht, daß sich der Schaden der durchschnittlichen Abweichung der Ganggenauigkeit von 1 Sekunde zum Gesamtschaden der irrtümlichen Zurücksendung im Verhältnis 1:4 bewegt. Andererseits glaubt der Großhändler, daß der Schaden einer irrtümlichen Annahme der Lieferung nicht linear, sondern quadratisch mit der Abweichung der durchschnittlichen Ganggenauigkeit wächst. Wie soll sich der Uhrengroßhändler entscheiden? Lösung Entscheidungsproblem: tionen a0: oj:
Der Uhrengroßhändler muß eine der beiden Ak-
Annahme der Lieferung, Ablehnung der Lieferung,
wählen. Die Annahme der Lieferung ist die korrekte Entscheidung, wenn die durchschnittliche Ganggenauigkeit des Uhrentyps Null Sekunden Abweichung von der genauen Zeit aufweißt. Ist dies nicht der Fall, dann ist die Aktion ai die richtige Entscheidung. Man kann daher die beiden Umweltzustände durch die Hypothesen H0: /i = 0, Hü ß ± 0, ausdrücken. Das Entscheidungsproblem ist daher ein Testproblem mit einer Punktnullhypothese.
74
Kapitel
II.
Testproblem
P o s t e r i o r i v e r t e i l u n g : Wenn man die Beobachtung von 10 Uhren als Stichprobe aus einem Gauß Prozeß auffassen kann, dann ist die Stichprobeninformation = 10,
n
= 0.25 sec,
x
s —
6 sec.
Dieses Ergebnis erhält man auf Grund folgender Berechnungen: Xi
A
-6.75 4.25 -2.20 10.25 -3.75 2.70 -9.75 3.25 -2.75 7.25 2.50
s
-
-
E *
2
=
^
45.5625 18.0625 4.8400 105.0625 14.0625 7.2900 95.0625 10.5625 7.5625 52.5625 360.6300
-
(*«'
-
f X
)2
=
360.63 - 0.25 2 = 10
^ i i - x
2
36.00
Drückt man die Prioriinformation des Uhrenmeisters durch eine Studentverteilung aus (er2 des Gauß Prozesses ist unbekannt und n ist klein), dann weiß man, daß E(y,) = \i' = 0 ist und der Schätzwert für die Varianz s12 = 10. Da für das 90% Intervall 5'
ITÖ
0 ± 0 Auch die Zahl der Umweltzustände ist mit A; > 0 unendlich groß. Das Entscheidungsproblem ist daher ein Punktschätzproblem. Posterioriverteilung: Wenn der Geschäftsinhaber den Verkauf des Saisonartikels als Poissonprozeß betrachtet, dann ist A der durchschnittliche Verkauf pro Tag und die Stichprobeninformation t = 10,
i
=
92
Kapitel
III.
Punktschätzproblem
Da der Inhaber keine Aprioriinformation besitzt, sind die Parameter der Posteriorigammaverteilung t" = t' + t = 0 + 10 = 10, x " = x' + x - 0 + 5 = 5, und die entsprechende Dichtefunktion ist
f*\:W = A(A|z" = 5 , f " = 10). S c h a d e n e r w a r t u n g s w e r t : Da der Inhaber pro nichtverkaufte Einheit mit einem Verlust von 100 Ge rechnen muß und pro zu wenig bestellter Einheit mit 50 G E entgangenem Gewinn, hat die Schadenfunktion folgendes Aussehen:
1
0
für A = a,
100 • (a - A) fürA < a, 50 • (A - a) fürA > a. Für eine lineare Schadenfunktion wird A so bestimmt, daß für die Verteilungsfunktion gilt X\x" = 5, i " = 10) = - J - = — = I so + Su 50 + 100 3 Wenn man für A 0.38 einsetzt, dann ist die Gleichung näherungsweise erfüllt. [F 7 (0.3789|5,10) = 0.33]. Der Inhaber wird daher noch 0.38 • 50 ~ 19 Einheiten des Saisonartikels nachbestellen. Der Schadenerwartungswert dieser optimalen Bestellpolitik, ist SE(A o p i )
4.6
=
5u.I0
A-'(A|
s",i")
+
So
-^pl(Ak",i")
=
100 • L°03789(X|5,10)
+ 50 • 1^789(^15,10)
=
100 • 1 • Ll ™(\\5) + 50 • 1
=
10-0.3363 + 5 - 1 . 5 4 7 3
=
11.0950.
• i~ 789 (A|5)
Landefrequenz
Auf einem stark frequentierten Flughafen treten jeden Freitag zwischen 19 und 20 Uhr Schwierigkeiten mit der Kundenbetreuung auf. Um auch für diese Stoßzeit ein optimales Kundenservice anzubieten, ist die Kenntnis der Anzahl
4.
93
Fallstudien
landender Flugzeuge pro Minute während dieser Zeit notwendig. Eine Stichprobenerhebung ergab 30 landende Flugzeuge während einer viertel Stunde, das sind im Schnitt 2 Flugzeuge pro Minute. Ein Flugverkehrsexperte, der konsultiert wird, nimmt als wahrscheinlichsten Wert für die Zukunft 3 Flugzeuge pro Minute an. Die Flughafenleitung will diese Information mindestens gleich stark berücksichtigen, wie die Stichprobeninformation. Da die Leitung die möglichen Schäden, die mit einer Fehlschätzung zusammenhängen, nicht genau angeben kann, jedoch der Ansicht ist, daß diese Schäden nicht linear sondern quadratisch wachsen, wird eine quadratische Schadensfunktion angenommen. Für die Kenntnis, daß der Schätzwert vom wahren Wert nicht mehr als eine Einheit abweicht, würde die Flughafenleitung 500 G E bezahlen. Welche Schätzung der Landefrequenz soll die Geschäftsführung ihrer Planung zu Grunde legen? Lösung E n t s c h e i d u n g s p r o b l e m : Ein Punktschätzproblem liegt für die Flughafenleitung vor, da sie aus den nichtnegativen Zahlen einen Schätzwert für die Landefrequenz auswählen muß: a,-: A,- mit A, > 0 Posterioriverteilung: Wenn man für die Anzahl der Landungen pro Minute einen Poisson Prozeß annehmen kann, dann ist t = 15,
x = 30
die Stichprobeninformation. Drückt man die Experteninformation in Form einer Gammaverteilung aus, dann ist M ( A) = ^
= 3.
Da diese Information gleich gewichtet werden soll wie die Stichprobeninformation, ist t' = 15 und x — M(\)
•
+ 1 =46.
Die Parameter der Posterioriverteilung sind *" = /' + / = 15 + 15 = 30, x" = x' + t = 46 + 30 = 76 und die entsprechende Dichtefunktion der Gammaverteilung ist = f-r(Mx" = 76, a. Der beste Schätzwert aopt für diese Schadenfunktion, der Schätzwert mit minimalem Schadenerwartungswert muß folgende Bedingung erfüllen: =
= T T ^ = °-6667-
Für die Posteriorinormalverteilung muß also aufgerundet gelten FN(H\H" = 4500, a"2 = 37692.3077) = 0.6667. Wenn man für fj. = 4583.6414 einsetzt, dann ist diese Bedingung erfüllt. Man findet dieses /z indem man den 2-Wert der Standardnormalverteilung bestimmt, vor dem 666,7% der Fläche der Standardnormalverteilung liegt. Dies ist für z = 0.4308 erfüllt. Für die Normalverteilung mit den oben angeführten Parametern ergibt sich nun /z nach folgender Formel: ß
= =
ß" + ¿0.6667 • 4500 + 0.4308 • V37692.3077
=
4583.6414.
Kapitel
98
III.
Punktschätzproblem
Der Tankstellenbesitzer wird also für die nächste W o c h e 4584 Liter Superbenzin bestellen. Sein Schadenerwartungswert ist für diese o p t i m a l e A k t i o n SE(aop5 Daraus folgt
\
l+
für X > T0.
Für eine quadratische Schadenfunktion müssen Ober- und Untergrenze des Intervalls folgende Bedingungen erfüllen:
4 > k ) = ^
= ^
= 0.02.
Lo"(x|x) ist das lineare Schadenmoment der Posterioribetaverteilung für x" = Ll"{v\xu
= 10, n" - x" = 10) - 0.02.
Für Tu = 0.4391 wird diese Gleichung erfüllt (I°-4391(7r|ar) = 0.0200). Auf die gleiche Weise bestimmt man T0: L\.o(v\x" = 10, n" - x" = 10) = 0.02. Diese Gleichung gilt, wenn man für T0 den Wert 0.560 einsetzt (¿aseogl71"!1) = 0.0200). Der Arzt wird daher das Intervall für die Heilungschancen mit (0.44, 0.56) angeben. Dieses Intervall hat für die gegebenen Informationen minimalen Schadenerwartungswert. Dieser Schadenerwartungswert ist jedenfalls kleiner als SE(a opi )
0) = 10 • 0.9943 = 9.9429,
SE(ai)
=
5 • W"(H0:
6X < 0) = 5 • 0.0057 = 0.0285.
154
Kapitel
V.
Unterschied
Da die Aktion ai den geringeren Schadenerwartungswert besitzt, wird m a n einen weiteren Mitarbeiter für die 1. Filiale einstellen. Auch Schätzprobleme für die Differenzen 8\ = Aj — A2 kann m a n mit Hilfe der Formeln des Gauß Prozesses (er2 bekannt) lösen, indem man für die Posteriorinormalverteilung die Werte E(6\\x) und V( /¿2.
> 0 oder
Die Leuchtstoffröhren werden beim zweiten Hersteller gekauft, wenn die durchschnittliche Brenndauer dieser Leuchtstoffröhren mindestens so lang ist, wie die des ersten Herstellers. Bei der Aktion ai liegt der Fall umgekehrt. Da der zweite Hersteller seine Röhren billiger anbietet als der erste, hängt die Entscheidung für einen der beiden Hersteller von der entsprechenden Schadenfunktion ab. Je kürzer die Lebensdauer, umso rascher treten die Kosten der Wiederbeschaffung auf. Die billigeren Röhren des zweiten Herstellers müssen auch schneller ersetzt werden, wenn die durchschnittliche Lebensdauer kürzer ist, als die des ersten und teureren Herstellers. Folgende lineare Schadenfunktion wurde an Hand dieser Überlegungen und auf Grundlage einer Kostenrechnung erstellt: s{0o,0ß)
~
f0 li-ß.-o)
. ,, l ' ">
=
f10 • (0 - 6„) für 6„ < 0, \0 für 6p > 0.
3 ai S
für 6ß < 0, für > 0,
Mit Hilfe dieser Angaben kann man die Schadenerwartungswerte der beiden Aktionen berechnen: SE(a 0 )
=
32-LS°(W
=
1 • £-0.9933(2) • V19926.7399,
=
1 • 1.0777 • V19926 • 7399
=
152.1304.
3.
157
Durchschnitte
Der Schadenerwartungswert für die Aktion ai ist SE(ai)
=
sx-L^Mx)
=
10 • Z , : ^ " 3 3 ( z ) • ^19926.7399
=
10 • 0.0844 • ^19926.7399
=
119.1408.
Da der Schadenerwartungswert der Aktion a j geringer ist als der von ao, wird die Firma die Leuchtstoffröhren neuen Typs beim ersten Hersteller kaufen. So wie dieses Testproblem kann man auch Schätzprobleme für die Differenz = Mi ~ mit Hilfe der Formeln des Gauß Prozesses (er2 bekannt) lösen. Für die Posteriorinormalverteilung verwendet man die entsprechenden Parameter für die Mittelwertunterschiede.
3.2
Unbekannte aber gleiche Varianzen
Wenn die beiden Zufallsvariablen fii und (i2 normalverteilt sind mit unbekannter aber gleicher Varianz, cr2=cr|, dann ist die Posteriori Verteilung der Mittelwertunterschiede, = — ¡¿2, studentverteilt. Die Parameter dieser Studentverteilung 3 sind v E(Sß\x)
=
n'l + n'i - 2 ,
=
mit „"2
s" 2
s" 2
( 1
1
n,
ni
V n\
n i,
s'l2 + K • o n{ +. „// n2
und s 1,2
, =
• s? + n< • S1 + " ' n> • {x, - n T~ K + n,
2/(n
+ n,) ' 2 = 1,2.
Die Standardabweichungen von neuen Leuchtstoffröhren, 171 und a 2 , sind normalerweise nicht bekannt. Kann man voraussetzen, daß sie gleich sind, dann muß man in diesem Fall nicht die Normal- sondern die Studentverteilung als Posterioriverteilung der Mittelwertunterschiede heranziehen. Vom Experten hat man z.B. die Prioriinformation, daß die unbekannte durchschnittliche Lebensdauer der Leuchtstoffröhren bei beiden Herstellern mit 90% Wahrscheinlichkeit zwischen 1300 und 1400 Stunden liegt, wobei die 3 Vgl
Box, Tiao (1973, S 103)
158
Kapitel
V.
Unterschied
geschätzte Standardabweichung s' = 50 Stunden beträgt. Der Erwartungswert der Priorinormalverteilung ist dann für beide Hersteller 1300 + 1400 ' ' Mi =
^
=
^
1350 =
Will man die Prioriinformation halb so stark berücksichtigen wie beide Stichproben zusammen, dann ist ,
ni + n 2
=
5+ 3
, = 4 = n2
und für die Prioristudentverteilung muß gelten 50 1350 + io.95;„' • -7= = 1400, V4 1350 - i 0 .95X • 50 = 1300, V4 bzw. 50 ¿0.95;!/' ' "7= V4 tossy
— 50 =
2.
Für v' = 5 der Standardstudentverteilung ist laut Tabelle ¿0.95,5 = 2.0150. Daher nimmt man für die Prioristudentverteilung v\ = 5 = Neben den Stichprobeninformationen des vorhergehenden Beispiels ni
=
5,
xi =
1410,
n2
=
3,
X2 =
1260,
stehen noch die Informationen über die Stichprobenvarianzen s2j = 280 2 ,
S22 = 320 2
zur Verfügung. Mit Hilfe dieser Angaben kann man nun die Parameter der Posterioristudentverteilung für die Mittelwertdifferenz = fix — fi2 wie folgt berechnen: E(6ß\x)
=
ß'l-rt n', • fi\ + ni • Xi n\ + ni 4 • 1350 + 5 • 1410 4+5
n'2 • ¡i'2 + n2 • x2 n'2+ n2 4 • 1350 + 3 • 1260 4+3
3.
159
D u r c h s c h n i t t e
=
1383.3333 - 1311.4286
=
71.9048, „»2 «2
=
47366.9643 • Q +
=
12029.7052,
^
da n'l - s'{2 +
s" 2
n'{
+
n
n
•
2
s f
- 2
2
9-41250 + 7-41698.2143 9+ 47366.9643
7-2
und s'j2
tf2
+
n i
• sj
-
+
n \
• n i v[
+
• ( a ^
-
n [ )
2
/ ( n [
+
n-j)
ni
5 • 502 + 5 • 2802+ 4 - 5 ( 1 4 1 0 - 1350)2/(4 + 5) 5 + 5 ,,2 >2
=
41250.0000,
_
5 • 502 + 3 • 3202+ 4-3(1260 - 1350)7(4 + 3)
=
41698.2143.
5+ 3
Die Freiheitsgrade dieser Studentverteilung sind v
=
n'(
+
n
2
- 2 = 9 + 7 - 2 = 14.
Die Wahrscheinlichkeit für Leuchtstoffröhren mit einer durchschnittlich längeren Lebensdauer vom ersten Hersteller ist nun =
da t =
= / n - / i 2 > 0)
=
G 5 (0|71.9048,12029.7052,14)
=
G T (-0.6556|14)
=
0.7386,
0 - 71.9048 „ „ „ . = -0.6556. v/12019.7052
Bei fehlenden Prioriinformationen sind die hypothetischen Stichprobenumfänge n[ und n'2 sowie die Freiheitsgrade der Prioristudentverteilung v[ und i/'2
Kapitel V.
160
Unterschied
gleich Null und die Parameter der Posterioristudentverteilung für die Mittelwertunterschiede = — fj.2 daher 4 E(6„\x)
=
fi"~H2
V(i„|«)
=
^.f-L+iy) \n" n'2)
mit
=
X1-X2, = ^ . ( 1 + 1). \ni n2/
s n s s ,n = —•" i + i" 2 ni + ri2 — 2
und v = ni + n2 — 2. Für das Leuchtstoffröhrenbeispiel sind die Parameter der Posterioristudentverteilung für die Mittelwertunterschiede bei fehlender Prioriinformation E(6*\x)
=
W1-X2
V(Sß\x)
=
S"
=
341.3698 2 " ( | +
2
= 1410 - 1260 = 150,
• ( - + - ) \n 1 n2J =
62151.11,
mit n t • s\ + n2 • s] _ 5 • 2802 + 3 • 3202 ni + n 2 - 2
~~
5+ 3- 2
341.3698
und i/ = m + « 2 - 2 = 5 + 3 - 2 = 6. Die Parameter dieser Studentverteilung sind stark verschieden von jenen, die unter Berücksichtigung von Prioriinformationen berechnet wurden. Für Leuchtstoffröhren mit einer durchschnittlich längeren Lebensdauer vom ersten Hersteller ist die Wahrscheinlichkeit ohne Prioriinformationen W " { n i > n 2)
=
Gs(0|150,62151.11,6)
=
Gr(-0.6017|6)
=
0.7153.
Test- und Schätzprobleme für Mittelwertdifferenzen bei unbekannten aber gleichen Varianzen können mit Hilfe der Formeln des Gauß Prozesses, er2 unbekannt, in der üblichen Art gelöst werden, indem man für die Parameter der Posterioristudentverteilung die oben angeführten Ergebnisse einsetzt. "Vgl. Guttman, Wilks, Hunter (1982, S 208).
3.
Durchschnitte
3.3
161
Unbekannte und ungleiche Varianzen
Wenn die unbekannten Varianzen der beiden normalverteilten Zufallsvariablen, Hi und ¡i2, nicht gleich sind, dann ist die Posterioriverteilung der Mittelwertdifferenzen, 8 ß = Hi — fi2, nicht studentverteilt, sondern Behrens-Fisher-verteilt. Diese Verteilung kann durch die Studentverteilung approximiert werden, wenn man die Parameter der Studentverteilung für unbekannte aber gleiche Varianzen wie folgt korrigiert: u
=
E{6lt\x)
b,
= "2 _//5 1 . 2
und „2
s,
=
v'j • sf + m • sf + n'j • m • (xj - fi'i)2/(n'i + "«) j—
,
•
i =
i
0
1,2.
+ ni Die Korrekturwerte a und b werden nach folgenden Formeln berechnet: 5 6 - 2
b
b =
4 + y-, J2 n" - 1
«
V
n" - 1
K-1)
=
u —
/1)
f2
2
2
- 3) • K s
2. - 5)
K-1)
2
2
(n'i — 3) • (n'2 — 5) 2
2 '
"2/n"
s'i,2/n'{ + s ' f / n ' f — 1 — u.
Kann man im Leuchtstoffröhrenbeispiel nicht annehmen, daß die unbekannten Varianzen der Lebensdauer aus den beiden Produktionsstätten gleich sind, dann sind die Parameter der Posterioristudentverteilung für die Mittelwertdifferenzen wie folgt zu korrigieren (Beispiel mit Prioriinformationen): -
-
v
=
fi
=
41250/9 -- • - • ' = 0.4348, 41250/9 + 41698.2143/7 1 - 0.4348 = 0.5652, ^ • 0.4348 +
7
—^ • 0.5652 -
1.4275,
vgl. Box, Tiao (1973, S 107), Guttman, Wilks, Hunter (1982, S 213).
162
Kapitel (9~1)2 (9 _ 3)2. ( 9 _
h
5)
• 0.0.43482 +
(7
(7-1)2 _ 3)2. ( 7 _
5)
V.
Unterschied
• 0.56522 = 0.4434,
b a
• 1.4275 = 1.0954.
Die Parameter der Posterioristudentverteilung für die Mittelwertunterschiede sind E(Sß\x)
=
n"-(i2
= 71.9048,
11545.7582, 8.59
abgerundet
8.
(i/ wird immer auf die nächste kleinere ganze Zahl abgerundet). Die Wahrscheinlichkeit für Leuchtstoffröhren mit einer durchschnittlich längeren Lebensdauer vom ersten Hersteller ist unter diesen Voraussetzungen
W"(n i > / i 2 )
= = =
Gs(0|71.9048,11545.7582,8) Gr(—0.6692|8) 0.7389.
Bei fehlenden Prioriinformationen sind die Korrekturwerte a und b für die Parameter der Posterioristudentverteilung analog zu berechnen. Mit der so bestimmten Posterioristudentverteilung und den Formeln des Gauß-Prozesses (er2 unbekannt) kann man die Test- und Schätzprobleme für Mittelwertdifferenzen analysieren, auch wenn die Varianzen unbekannt und ungleich sind.
4 4.1
Fallstudien Günstiges Angebot?
Dem Hersteller von Farbfernsehgeräten stehen für den Kauf von Transistoren 2 Angebote zur Auswahl. Beide Anbieter verlangen pro Stück gleichviel. Die Uberprüfung der Lieferqualität brachte folgendes Ergebnis: Von 200 überprüften Transistoren des ersten Anbieters waren 25% defekt, von 300 des zweiten Anbieters 21%. Bei welchem Anbieter sollen die Transistoren bestellt werden, wenn m a n von früheren Lieferungen weiß, daß der erste Anbieter 22% und der zweite 24% defekte Stücke liefert und diese Information halb so stark wie die Stichprobeninformation berücksichtigt werden soll?
4.
Fallstudien
163
Lösung Entscheidungsproblem: Der Hersteller von Farbfernsehgeräten muß eine der beiden Aktionen wählen: ao: öj:
Kauf der Transistoren beim ersten Anbieter, Kauf der Transistoren beim zweiten Anbieter.
Das Entscheidungsproblem ist daher ein Testproblem. Da der Hersteller sich für den ersten Anbieter entscheiden wird, wenn der Ausschußanteil dieses Anbieters höchstens so groß ist wie der des zweiten, sind die entsprechenden Hypothesen der beiden Umweltzustände Ho: 7i"i < 7t2 oder
H0: 8* = i"i — i"2 5: 0,
H i : 71"! > x 2 oder
H\:
> 0.
tti ist der Ausschußanteil des ersten Anbieters, 7t2 der des zweiten. Das vorliegende Testproblem hat eine rechtsseitige Alternativhypothese. Posterioriverteilung: Die Ausschußquoten der beiden Anbieter können als betaverteilte Zufallsvariable von Bernoulli Prozessen betrachtet werden. Die Stichprobeninformationen sind n\ = 200,
X! = 50,
n2 = 300,
x2 = 63.
An Prioriinformationen hat man n[ = 100,
x[ = 22,
n'2 = 150,
x'2 = 36.
Die entsprechenden Parameter der Posterioribetaverteilungen für die beiden Ausschußquoten Wi und x 2 sind daher n"
=
n\ + ni = 100 + 200 = 300,
x"
=
x[ + xi = 22 + 50 = 72,
n'i
=
n'2 + n2
= 150 + 300 = 450,
x'2
=
x2 + x2
= 36 + 63 = 99.
und
Da n" und n'2 genügend groß sind, kann man für die Wahrscheinlichkeitsverteilung der Differenz 8* = 7rx — 7r2 die Normalverteilung heranziehen. Die
164
Kapitel V.
Unterschied
Parameter dieser Normalverteilung sind E(S^)
=
rij 12 99 _1± _ I L 300 450 0.02,
= = V(
*
]
301 0.0010
=
0.24 - 0.22
=
< + 1 0.24 • 0.76
>
+
n2
+
n"2 + 1 0.22 • 0.78 451
und die Dichtefunktion ist f-d\x{$)
= /W(^ir|0.02,0.0010).
S c h a d e n e r w a r t u n g s w e r t : Da die Kosten beider Angebote linear von der Anzahl defekter Stücke abhängt, hat die Schadenfunktion folgendes Aussehen: / 0 s(aiA)
=
|
0 - 6«
für Sir < 0, für 6„ < 0,
Für diese lineare Schadenfunktion ist der Schadenerwartungswert der Aktion a0 SE(a0)
=
s2-^(^10.02,0.0010)
=
¿-0.6325^) • VÖÖÖ1Ö
=
0.7924 • v^O.OOlO
=
0.0251,
da
0 - 0.02 VUOOIO
-0.6325
ist. Der Schadenerwartungswert der Aktion ai ist SE(ai)
=
ai • L ° o o ( ^ | 0 . 0 2 , 0 . 0 0 1 0 )
=
lz™325(z)
=
0.1599 • \/0.0010
=
0.0051.
• VÖMÖ
Der Hersteller wird das Angebot des zweiten Anbieters annehmen, da der Schadenerwartungswert dieser Aktion geringer ist als der des ersten Anbieters.
4.
4.2
Fallstudien
165
Welche Schreibkraft?
Zwei Bewerberinnen um einen Schreibkraftposten werden einem Schreibtest unterzogen. Die erste macht 20 Fehler auf 5 Seiten, die zweite 30 Fehler bei der gleichen Seitenanzahl. Die erste Bewerberin verlangt doppelt so viele Lohn wie die zweite. Welche Bewerberin soll man anstellen? Lösung Eine der beiden Aktionen
Entscheidungsproblem: ao: dj:
Anstellen der ersten Bewerberin, Anstellen der zweiten Bewerberin,
stehen zur Wahl. Das Entscheidungsproblem ist daher ein Testproblem. Da man jene Bewerberin anstellen wird, die im Schnitt pro Seite weniger Fehler macht, sind die entsprechenden Hypothesen der beiden Umweltzustände Hq : \i < A2
oder
H0 : Sx < 0,
: Ai > A2 oder
: 6\ > 0.
Ai und A2 sind die durchschnittlichen Fehler pro Seite der beiden Bewerberinnen. Die Alternativhypothese ist rechtsseitig. Posterioriverteilung: Das Auftreten eines Fehlers auf einer Schreibmaschinenseite kann als Poisson Prozeß aufgefaßt werden. Die Stichprobeninformationen sind ¿1 = 5 ,
x\ = 20,
t2 = 5,
x2 = 30.
Wegen fehlender Prioriinformationen über die Schreibfähigkeiten der beiden Bewerberinnen sind dies auch die Parameter der Posteriorigammaverteilungen: t'( =
t[ + ti = 0 + 5 = 5,
x"
xi + x j = 0 + 20 = 20,
=
¿'2' = x2
=
t'2 + t2 = 0 + 5 = 5, X'2 +
X2
=
0 + 30 = 30.
Die Erwartungswerte und Varianzen dieser Posterioriverteilungen sind
Kapitel
166 E( Aa|*) =
A» = |
V ( W
|
=
= f
V.
Unterschied
= 6,
= | = 1.2.
Da A" + X'2 > 10 ist, kann man für die Posterioriverteilung der Differenz, 6\ = Ai — A2 die Normalverteilung verwenden. Die Parameter dieser Normalverteilung sind E(6x\x)
=
A?-A' 2 ' = 4 - 6
V(«A|s)
-
^ + ij i2
=
-2,
= 0 . 8 + 1 . 2 = 2,
und die Dichtefunktion ist
S c h a d e n e r w a r t u n g s w e r t : Da die Schäden der möglichen Fehlentscheidungen im Verhältnis si : s 2 = 1 : 2 stehen, erhält man folgende Schadenfunktion:
s(ai'*A)
=
2 1 {0
für 6X > 0, für 8\ < 0, für S\ > 0.
Für diese konstante Schadenfunktion ist der Schadenerwartungswert der Aktion a 0 S E ( a 0 ) = s 2 • Gjv(0| - 2 , 2 ) = 2 • G z (1.4142) = 0.1574, da , =
= 1.4142 y/2 ist. Der Schadenerwartungswert der Aktion a t ist SE(ai) =
3l
• FN(0| - 2,2) = 1 • ^ ( 1 . 4 1 4 2 ) = 0.9213.
Da der Schadenerwartungswert von a0 kleiner als der von ai ist, wird man die erste Bewerberin anstellen.
4.3
Anordnung verschiedenfarbiger Klötze
Um festzustellen, ob sich Frauen besser als Männer für eine neue Tätigkeit in einem Industriebetrieb eignen, wurde eine Gruppe von 40 Männern und 60 Frauen beauftragt, verschiedenfarbige Klötze in einer bestimmten Weise anzuordnen. Die dafür notwendige Zeit wurde gestoppt. Im Durchschnitt brauchten die Männer 44.5 Sekunden mit einer Standardabweichung von 2.04 Sekunden und die Frauen 45 Sekunden mit einer Standardabweichung von 3.18 Sekunden. Soll der Betrieb für die neue Tätigkeit besser Männer als Frauen einstellen, wenn Männer 20% mehr bezahlt bekommen als Frauen?
4.
Fallstudien
167
Lösung Entscheidungsproblem: ao: ai-.
Der Betriebsleitung stehen die Aktionen
Einstellung von Männern für die neue Tätigkeit, Einstellung von Frauen für die neue Tätigkeit,
zur Wahl. Den beiden Umweltzuständen entsprechen die Hypothesen H0: fi\ < H2 oder
H0'-
Hi \ nx >
Hi~. 8fi> 0,
oder
< 0,
wobei Hi die unbekannte Durchschnittszeit der Männer für diese Tätigkeit ist und fi2 die entsprechende Durchschnittszeit der Frauen. Das Entscheidungsproblem ist daher ein Testproblem mit rechtsseitiger Alternativhypothese.
Posterioriverteilung:
Die Stichprobeninformationen sind
ni = 40,
xi = 44.5,
Si = 2.04,
n2 = 60,
x2 = 45.0;
s 2 = 3.18.
Da keine Prioriinformationen existieren und ni sowie «2 größer als 30 sind, sind die Parameter der Posteriorinormalverteilung: ¿ ' = 44.5, tf = 45.0,
6,>T0.
Die Intervallgrenzen des optimalen Intervalls sind für diese Schadenfunktion so zu bestimmen, daß gilt •f s M =
• ftw(Tu +c) - s0- fs„(Tu + 0.10).
4.
183
Fallstudien
Für die Dichtefunktion der vorliegenden Posteriorinormalverteilung bedeutet das, daß gelten muß 1 /n(7;|0.10, 0.0043) = 1 -fN(Tu
+ 0.10|0.10,0.0043).
Da su = s0 ist, kann man das gesuchte Tu mit Hilfe der Formel T
C
u =
^ ~ 2
berechnen. Tu ist daher Tu = 0.10 -
= 0.05
und T0 = Tu + c = 0.15. Die AnteilswertdifFerenz der männlichen und weiblichen Raucher liegt zwischen 5% und 15%. Der Schadenerwartungswert dieser optimalen Schätzung aopt ist SE(a o p ( )
4.10
=
S u - ^ ( T J O . I O , 0 . 0 0 4 3 ) + 5O
• GAT(To|0.10, 0.0043)
=
L • F z ( - 0 . 7 6 2 5 ) + 1 • GN(0.7625)
=
1 • 0.2229 + 1 • 0.2229
=
0.4458.
Einbahnstraße
In einer Stadt möchte man eine Hauptverkehrsstraße durch die Einführung einer Einbahnstraße entlasten. Eine Woche nach der probeweisen Einführung der Einbahnstraße zählte man in der Hauptverkehrsstraße während 2 Stunden 720 Fahrzeuge und eine Woche vor der Einführung 1200 Fahrzeuge. Der Verkehrsplaner der Stadt möchte für den Rückgang ein Intervall berechnen, wobei er auch die Informationen aus früheren Zählungen halb so stark wie die Stichprobe berücksichtigen will. Bei diesen Zählungen zählte man im Schnitt 9 Fahrzeuge pro Minute. Wegen der schwerwiegenden Folgen, die die Einführung einer Einbahnstraße nach sich zieht, unterstellt der Verkehrsplaner seiner Intervallberechnung eine quadratische Schadenfunktion, wobei der Schaden der Uberschätzung gleich dem der Unterschätzung ist und der Schaden der mit einer Einheit Intervallänge verknüpft ist, 1/50 des Schadens ausmacht, der mit einer Einheit Überschätzung zusammenhängt. Welches Intervall für den Rückgang der Fahrzeuge pro Minute soll er seinen Planungen zugrunde legen? Lösung Entscheidungsproblem: Die Zahl der Verkehrsmittel pro Weg und Zeiteinheit kann man als Poisson Prozeß auffassen. Der Planer muß daher für den
184
Kapitel V.
Unterschied
Rückgang = Ai — A2 ein Intervall bestimmen, für das es unendlich viele Möglichkeiten und damit Aktionen gibt. Ai ist die durchschnittliche Zahl der Fahrzeuge pro Minute vor Einführung der Einbahnstraße und A2 jene nach der Einführung. Posterioriverteilung:
Die Stichprobeninformationen sind .
{ÜTgx>To
Die Intervallgrenzen des optimalen Intervalls haben für diese Schadenfunktion die Bedingungen
zu erfüllen. Dies trifft zu, wenn man für Tu — 3.1915 und T0 = 4.1419 einsetzt. Diese Werte findet man, indem man berücksichtigt, daß für die Normalverteilung w 00 v ;
LT(z) 2oV
=
=
0.8) = W( 1.0986), 1 . in f = 2 Vi — 0.8/ Diese Wahrscheinlichkeit ist gegeben durch W " « > 1.0986)
=
i.0986.
Gjv(1.0986|0.7056,0.0478)
=
Gz(1-7976)
=
0.0361,
da
1-0986 - 0.7056 , _ . — = 1.7976 V^0.0478 ist. Die Wahrscheinlichkeit für einen Maßkorrelationskoeffizienten zwischen Werbeausgaben und Umsatz, der größer ist als 0.8, beträgt nur 3.61%. Verfügt man über keine ausreichenden Prioriinformationen, dann sind z =
"KW "
¿i
die Parameter der Posteriorinormalverteilung von ( . Wenn man die Posteriorinormalverteilung von C kennt, dann kann man nach der üblichen Art (Gauß Prozeß, er2 bekannt) Entscheidungsprobleme über den Maßkorrelationskoeffizienten g lösen. Will man z.B. eine Punktschätzung für den unbekannten Maßkorrelationskoeffizienten abgeben, muß man jenen Wert suchen, für den der Schadenerwartungswert für eine gegebene Schadenfunktion minimal ist. Weiß man z.B. nur, daß die Schäden der Überschätzung des wahren Wertes g gleich jenen der Unterschätzung sind, dann kann man den Erwartungswert der Posteriorinormalverteilung wählen. Dies ist der Schätzwert mit minimalem Schadenerwartungswert sowohl für eine konstante, lineare als
Kapitel VI.
198
Zusammenhang
auch quadratische Schadenfunktion, da bei jeder Normalverteilung der Modus gleich dem Zentralwert und gleich dem Erwartungswert ist. Modus, Zentralwert und Erwartungswert sind aber die optimalen Punktschätzwerte für eine konstante, lineare und quadratische Schadenfunktion, wenn s0 — su ist. Da die Posterioriverteilung von ( für den Zusammenhang zwischen Werbeausgaben und Umsatz den Mittelwert E(£\x) = 0.7056 besitzt, muß dieser Wert nur in einen entsprechenden p-Wert zurücktransformiert werden, um eine beste Punktschätzung für g zu erhalten, bei der der Schaden der Uberschätzung gleich dem der Unterschätzung ist. Diese Rücktransformation erfolgt mit Hilfe der Formel 6
exp(2 - Q - 1 =
exp(2.C) + l '
Für das Beispiel ist exp(2 • 0.7056) - 1 * = exp(2 • 0.7056) + 1 =
0 6079
-
"
0.6079 ist also der beste Punktschätzwert aopt für den unbekannten Maßkorrelationskoeffizienten, der im vorliegenden Beispiel den Zusammenhang zwischen Werbeausgaben und Umsatz mißt. Sein Schadenerwartungswert hängt von der Schadenfunktion ab. Für eine quadratische ist der Schadenerwartungswert SE(a o p i ) = s • V(e\x) = « • 0.0478, da V(C|x) = 0.0478 und v
, , exp 2 • 0.0478) - 1 „ „ „„ 0478 (v e11 ' = exp(2 L • n0.0478) n t r i n { — r = °+ 1
ist. So wie dieses Punktschätzproblem kann man auch Intervallschätz- und Testprobleme für g mit Hilfe der Formeln des Gauß Prozesses ( a 2 bekannt) und der Posteriorinormalverteilung von £ lösen.
2
Lineare Einfachregression
Bei der Einfachregression wird angenommen, daß eine Variable Y von einer zweiten Variablen X abhängig ist, wobei Y als abhängige Variable (oder Regressand) und X als unabhängige Variable (oder Regressor) bezeichnet wird.
2. Lineare
Einfachregressjon
199
Will man z.B. eine Einfachregression zwischen den Gesamtkosten eines Betriebes und seiner Ausbringungsmenge bestimmen, dann sind die Gesamtkosten die abhängige Variable und die erzeugten Mengen die unabhängige Variable. Die mathematische Funktion, die den Zusammenhang zwischen den beiden Variablen beschreibt, nennt man Regressionsfunktion. Wenn die Regressionsfunktion errechnet ist, kann man mit ihrer Hilfe aus Werten der unabhängigen Variablen X Aussagen über die zugehörigen Werte der abhängigen Variablen Y ableiten. Im Beispiel mit den Gesamtkosten als abhängige Variable und der Ausbringungsmenge als unabhängige Variable kann man bei Bekanntheit der entsprechenden Regressionsfunktion von einer gegebenen Ausbringungsmenge auf die zugehörigen Gesamtkosten schließen. Bei der linearen Einfachregression wird als Regressionsfunktion eine lineare Funktion verwendet. Für die n Realisationen der beiden Variablen X und Y (xi,yi),
(x2,y2),...,(xn,yn)
hat die gesuchte lineare Stichprobenregressionsfunktion folgende Form: Vi = b0 + b1- X{. bo und &i sind die sogenannten Regressionskoeffizienten, bo bezeichnet den Ordinatenabschnitt und 61 die Steigung der Regressionsgeraden, bi drückt aus, um wieviel Einheiten sich die abhängige Variable im Schnitt ändert, wenn die unabhängige Variable um 1 Einheit erhöht wird, y, ist der durch die Regressionsfunktion an der Stelle X = x; für j/,- gelieferte Schätzwert. Die Abweichungen Ui zwischen den beobachteten Werten j/, und den geschätzten Werten y, bezeichnet man als Residuen oder Schätzfehler: Ui = ju - in = yi-
(bo + bi- Xi) für ? = 1 , . . . , n.
Für die vier Ausbringungsmengen 1,2,3,4 sind z.B. 2,2,4,5 die entsprechenden Gesamtkosten. Die gesuchte lineare Stichprobenregressionsfunktion für diese vier Wertpaare (1,2), (2,2), (3,4), (4,5) ist Vi = =
bo + &i • Xi 0.50+1.10-Xi.
Aus den Stichprobenwerten der beiden Variablen X und Y berechnet man die Regressionskoeffizienten der linearen Regressionsfunktion nach folgenden Formeln: bo =
y-bi-x,
200
Kapitel
bi
VI.
Zusammenhang
=
£(:r,
_
n •
-
£
n
i ) • (y,- -
• yi
- £
y)/n
Xj
• E y,
n •£*?-(£* 1.5. Nimmt der Unternehmer den Auftrag an, und stellt sich im Nachhinein heraus, daß die variablen Kosten größer sind als 1.5, dann entsteht ein Schaden, den der Unternehmer mit 100 GE beziffert. Umgekehrt tritt für den Unternehmer ein entgangener Gewinn auf, wenn er den Auftrag nicht annimmt, obwohl die variablen Kosten 1.5 nicht übersteigen. Dieser entgangenen Gewinn sei 20 GE. Die entsprechende Schadenfunktion hat folgendes Aussehen:
für ß\ < 1.5, für ßi > 1.5. Steht dem Unternehmer die oben abgeleitete Posteriorinormalverteilung für ßi zur Verfügung, dann kann er sich die Schadenerwartungswerte für seine zwei Aktionen berechnen. Für die Auftragsannahme ist der Schadenerwartungswert SE(a 0 )
=
«2 • W"(Hi:
=
100 • Gjv(1.5|1. 1996,0.0623)
ß\ > 1.5)
=
100 - G z (1.2035)
=
11.44.
Der Schadenerwartungswert für a 0 liegt zwischen 100 • 0.114 = 11.40 < SE(a 0 ) < 11.50 = 100 • 0.115. Für die Auftragsablehnung ist der Schadenerwartungswert SE(ai)
=
sj • W"(H0: ßi < 1.5)
=
20-¿^(1.511.996,0.0623)
=
20 • Fz( 1.2035)
=
20-0.8856
=
17.7120.
3.
Fallstudien
205
Da der Schadenerwartungswert für ao jedenfalls kleiner ist als für cii, wird der Unternehmer den Auftrag annehmen. Auf die gleiche Art können Schätzprobleme für ß0 und ß\ gelöst werden, wenn man die entsprechenden Posteriorinormalverteilungen und Schadenfunktionen kennt.
3 3.1
Fallstudien Eignungstest und Jahresumsatz
Dem Personalchef einer Firma mit zahlreichen Außendienstmitarbeitern wird von einer Personalberatungsfirma die Durchführung eines psychologischen Eignungstest angeboten, durch den aus Bewerbern für den Außendienst die geeigneten ausgewählt werden können. Die Beratungsfirma behauptet, daß zwischen den erreichten Testpunkten erfolgreicher Außendienstmitarbeiter und deren Jahresumsatz eine Korrelation von 0.75 besteht. Der Personalchef läßt 10 zufällig ausgewählte, erfolgreiche Außendienstmitarbeiter seiner Firma diesen Test absolvieren. Die erreichten Testpunkte sowie den Umsatz im letzten Jahr zeigt folgende Tabelle für die 10 Mitarbeiter: Testpunkte Umsatz
41 58
43 56
42 57
44 52
44 62
40 55
42 60
45 55
45 61
44 58
Die Firma stellt pro Jahr ca. 30 neue Außendienstmitarbeiter ein. Durch die Einschulung ungenügend qualifizierter Mitarbeiter entstehen der Firma jährlich Kosten von 300 GE. Für die Durchführung des Eignungstests verlangt die Beratungsfirma 100 GE pro Person. Soll der Personalchef den Eignungstest künftig in Anspruch nehmen, wenn er die Information der Beratungsfirma über den Zusammenhang zwischen Testpunkten und Jahresumsatz nur halb so stark berücksichtigen will wie die Testergebnisse seiner 10 Mitarbeiter? Außerdem ist er der Ansicht, daß der Test nur brauchbar ist, wenn der durch den Korrelationskoeffizienten gemessene Zusammenhang absolut größer als 0.1 ist. Lösung Entscheidungsproblem: Wahl: ao: aj:
Dem Personalchef stehen die beiden Aktionen zur
keine Eignungstests in Anspruch nehmen, künftige Inanspruchnahme der Eignungstests.
Er wird Eignungstests nur dann in Anspruch nehmen, wenn ein Zusammenhang zwischen Testergebnissen und Jahrsumsätzen besteht. Da er der Ansicht
Kapitel VI.
206
Zusammenhang
ist, daß der Eignungstest nur brauchbar ist, wenn der diesen Zusammenhang messende Maßkorrelationskoeffizient absolut größer ist als 0.1, kann man die beiden Umweltzustände durch die Hypothesen H0:Q£
[-0.1,0.1],
Hi • Q $ [ 0.1,0.1] ausdrücken. Das vorliegende Entscheidungsproblem ist daher ein Testproblem mit einer Intervallnullhypothese. P o s t e r i o r i v e r t e i l u n g : Aus den Testergebnissen und Umsätzen der 10 zufällig ausgewählten Außendienstmitarbeiter kann man den Stichprobenkorrelationskoeffizienten wie folgt berechnen: Xi
Vi
Vi
41 43 42 44 44 40 42 45 45 44 430
58 56 57 52 62 55 60 55 61 58 574
_
" 'E
\J[n • E
3364 3136 3249 2704 3844 3025 3600 3025 3721 3364 33032
Xi
Xi • Vi
2378 2408 2394 2288 2728 2200 2520 2475 2745 2552 24688
~ E x> • E
• Vi
—
1681 1849 1764 1936 1936 1600 1764 2025 2025 1936 18516
2
Vi
n
( E £ i ) ] • [ • E f ? — (EJ/«) 2 ] 10 • 24688 - 574 • 430
10 • 33032 - 574 2 ) • (10 • 18516 - 430 2 ) =
0.1281,
1
V{Zr)
=
, /l+r\
=
10^3
1 , / I + 0.1281 \
=
„ „„
r
Wenn man die 10 Beobachtungen als Stichprobe aus einem Gauß Prozeß auffassen kann, dann ist die Posterioriverteilung von ( normalverteilt. Für die Berechnung der Parameter dieser Normalverteilung ist auch die Prioriinformation in Form einer Normalverteilung auszudrücken. Da die Beratungsfirma
3.
207
Fallstudien
behauptet, der Zusammenhang zwischen erreichten Testpunkten und Jahresumsatz kann mit 0.75 angenommen werden, ist der Erwartungswert der Priorinormalverteilung von (
Der Personalchef will diese Prioriinformation halb so stark berücksichtigen wie die Stichprobeninformation, n' ist daher „' = - = 2
2
= 5
und die Priorivarianz von ( ist
v«) =
1 5-3
1 2
Diese Gewichtung der Prioriinformation bedeutet, daß der unbekannte ( Wert apriori mit großer Wahrscheinlichkeit (95%) zwischen W' ( i ? ( C ) - 2 • V / V ( C ) < C < E{0 + 2-y/v{0) W' (0.9730 V
%= < C < 0.9730 4] V2 V2J W'(-0A412 < < < 2.3872)
=
0.95
=
0.95
=
0.95
liegt. Für den unbekannten Korrelationskoeffizienten ist das entsprechende Prioriintervall VK'(—0.4146 < g < 0.9833) = 0.95, da exp (2- (-0.4412)) - 1 exp ( 2 - ( - 0 . 4 4 1 2 ) ) + 1 und exp(2 • 2.3872) - 1 = 0.9833 exp(2 • 2.3872) + 1 sind. Da die Untergrenze mit -0.4146 kleiner als 0 ist, ist in der Prioriinformation bei dieser Gewichtung auch die Vermutung enthalten, daß kein Zusammenhang zwischen Eignungstest und Umsatz besteht. Man kann nun die Parameter der Posterioriverteilung von ( berechnen: HQ]X)
_ ~
E{QIV{Q + zTIV(zr) W O + 1 /V(zr) E(C) • jn' - 3) + z r • (n - 3) (n' - 3) + (n - 3)
Kapitel
208
VI.
Zusammenhang
0.9730 • (6.5 - 3) + 0.1288 • (10 - 3) (6.5 - 3) + (10 - 3) 0.4102,
V«\x)
=
1/V(C) + 1 /V(zr ) 1 {n' - 3) + (n - 3) 1 (6.5 - 3) + (10 - 3) 0.0952.
Die Dichtefunktion der Posteriorinormalverteilung von ( ist daher /„IxW = MCI0.4102,0.0952). S c h a d e n e r w a r t u n g s w e r t : Durch die Einstellung von 30 neuen Außendienstmitarbeitern würden der Firma Kosten von 30-100 = 3000 GE entstehen, wenn sie den Eignungstest in Anspruch nimmt. Andererseits hat sie derzeit jährliche Kosten von 300 G E durch die Schulung von unbrauchbaren Mitarbeitern. Aus diesen Angaben ergibt sich folgende konstante Schadenfunktion:
=
{!2
=
3 00
für für für für
e € [-0.1,0.1], Q $ [-0.1,0.1], q € [-0.1,0.1], Q I [-0.1,0.1].
Die Schadenerwartungswerte der beiden Aktionen berechnet man für diese Schadenfunktion nach den Formeln SE(a0)
= =
SE(ai)
S2-W"(H1 ) S2 -(1-W"(H0 )),
=
Sl -W"(H0 )
=
• ( ^ ( C o . i 10.4102,0.0952) - F z (C_o.i |0.4102,0.0952)).
( ist für g = - 0 . 1
und für £=0.1
3.
209
Fallstudien
Daher ist W"{H0)
=
F n (0.1003|0.4102, 0.0952) - F^(-0.1003|0.4102,0.0952)
=
Fz(-1.0044)
=
0.1576 - 0.0490
=
0.1086.
-
Fz(-1.6545)
Die beiden Schadenerwartungswerte sind nun SE(a 0 ) =
300 • (1 - 0.1086) = 267.42,
SE(ai) =
3000-0.1086 = 325.80.
Da der Schadenerwartungswert für die Aktion ao geringer ist als für a l 5 wird der Personalchef den Eignungstest der Beratungsfirma nicht in Anspruch nehmen. Für eventuelle weitere Informationen über den Eignungstest wird er höchstens EWPI = SE(a 0 ) - 267.42 Geldeinheiten ausgeben.
3.2
Schulpsychologe
Ein Schulpsychologe führte mit 500 Vorschulkindern einen Schuleignungstest durch und überprüfte nach Ablauf des 1. Schuljahres mit einem geeignetem Verfahren die tatsächliche Leistung dieser Kinder. Der Maßkorrelationskoeffizient zwischen Schuleignungs- und Schulleistungstest beträgt 0.49. Im vorhergehenden Jahr war er 0.62 bei 400 Kindern. Für eine Publikation über den Schuleigungstest möchte der Schulpsychologe eine Punktschätzung für den Maßkorrelationskoeffizienten angeben, die auf einer quadratischen Schadenfunktion beruht. Er ist der Ansicht, daß der Schaden pro Einheit Uberschätzung gleich jenem der Unterschätzung ist. Für das Wissen, daß der unbekannte wahre Parameter genau eine Einheit vom Schätzwert abweicht, wäre er bereit 2 GE zu bezahlen. Welchen Schätzwert soll er für den Maßkorrelationskoeffizienten verwenden? Lösung Entscheidungsproblem: Da der Schulpsychologe aus dem Intervall [—1,1] genau einen Wert auswählen muß, a : g mit
q £ [—1,1],
handelt es sich um ein Punktschätzproblem.
210
Kapitel VI.
Posterioriverteilung:
Zusammenhang
Die Stichprobeninformationen sind
n
=
500,
r
=
0.49,
=
- . In f ———1 = - - I n f ^ ) = 0.5361, \l — r j 2 Vi - 0.49/ 2
2r
V(zKT)
'
=
—!— = = 0.0020. n - 3 500 - 3
Die Ergebnisse des vorhergehenden Jahres können als Prioriinformationen aufgefaßt werden: n'
=
400,
e
=
0.62,
JV{fa\x)
=
= i
= 0.2273, S VÖM21
=
0.2273.
Wenn m a n für z u und zQ -0.4097 bzw. +0.4097 einsetzt, dann sind diese Gleichungen erfüllt. Die Intervallgrenzen sind daher Tu
T0
=
+
=
1.9547 - 0.4097 • VU0121
=
1.9096,
=
E(ß1\x)
=
1.9547 + 0.4097 • ^0.0121
=
1.9998.
+ z0-
y/V{ßi\x)
Auf Grund der vorhandenen Informationen wird der Verkaufsleiter ein Intervall von rund 1.90 bis 2.00 Pfund Gewichtsabnahme pro zusätzlicher Woche annehmen. Der Schadenerwartungswert dieses optimalen Intervalls aot>t ist höchstens SE(a o p ( )
0.15, 2 für it < 0.15, s(ai,Jr) = | J .0 für TT > 0 . 1 5 , ist der erwartete Wert der perfekten Information gegeben durch E W P I = SE'(a o p t ) = 0.2190. s(a0,ir)
=
0 I®
Wenn I 0.15, werden die Schadenerwartungswerte der Stichprobeninformation nach den Formeln SE"(a 0 )
=
s2-Gp(ir\x",n"-x")
= l-G0{OA5\2
+ x,9-(2
+ x)),
SE"(ai)
=
s j • F0(tt\x",ti"-x")
= 2-^(0.1512 + 1 , 9 - ( 2 + i ) ) ,
berechnet. Für die 5 möglichen Stichprobenergebnisse zeigt die folgende Tabelle jeweils die beiden Schadenerwartungswerte. Xi
0 1 2 3 4
SE"(a 0 |«) 0.6572 0.8948 0.9786 0.9971 0.9998
SE"( = 2 > n ' - 5,n = 4) = —
41 • —
2'5' •
= 0.2857.
Der Schadenerwartungswert einer Stichprobe im Umfang n — 4 ist gleich SE(n = 4) = =
£*[SE"(a o p i |x)] ¿ S E
"(aopt\x)-fßB(x)
i=0
=
0.2129
und der entsprechende EWSI ist EWSI(ra=4)
=
EWPI — SE(n = 4)
=
0.2190-0.2129
=
0.0061.
Der Geschäftsmann wird eine Stichprobenerhebung im Umfang von n = 4 nicht durchführen, da die Kosten dafür mit K{n = 4) = 0.0200 + 0.0070 • 4 = 0.0480 höher sind als der erwartete Wert der Stichprobeninformation. Der erwartete Nettowert der Stichprobe ist daher negativ: ENSI(n = 4) =
EWSI(n = 4) - I 0 . 1 5 ,
f 400 - (0.15 — x) für tt < 0 . 1 5 , (o für tt > 0.15,
dann kann man den erwarteten Wert der Stichprobeninformation allgemein mit Hilfe einer der Formeln [s-i/ 0 o (7r')
für •K > 7T0,
1. Bernoulli
227
Prozeß
berechnen. Im vorliegenden Beispiel ist x' 2 — = - > 0.15 = 7r0. n' 5 Daher kann man den EWSI mit der Formel
x- = E(*\X)
=
n
n
der vor der Ziehung einer Stichprobe eine Zufallsvariable ist mit der Betabinolialverteilung als Wahrscheinlichkeitsverteilung. Setzt man voraus, daß der Geschäftsmann eine Stichprobe im Umfang von n = 10 ziehen will, dann ist der EWSI gleich EWSI(n = 10) = s • £o 1 5 (tt") = 400 • 0.0011 = 0.44, da3
I ° ls (7r")
= =
0.15 • FßB{x\x', n, n) — — • FßB(x\x' + 1, n' + 1, n) n 0.15 • ^ s ( 0 | 2 , 5 , 1 0 ) - 0.40 • FßB(0|3,6,10)
=
0.0011
ist. Die Kosten für eine Stichprobe mit dem Umfang n = 10 sind I x größte ganze Zahl < x
für E(w) < 7r0 für E(n) > tt0
mit
x = (n + n') • ir0 — x'.
228
Kapitel VII. Der Wert der
Stichprobeninformation
Wenn man die Verteilungsfunktion der Betabinomialverteilung näherungsweise mit Hilfe der Betaverteilung berechnet, dann ist das lineare Moment gleich i«1 V ' )
= =
To • ^(»ol**, n ' - x ' ) - n— m - Fß(x0|x* + 1, n' - x*) 0.15 • .F>(0.15|3.2,4.8) - 0.40 • ^(0.1514.2,4.8)
=
0.0021
und n
.
(n -f n') • (n' + 1)
=
1
(10 + 5) • (5 + 1) 10 =
8,
x' 2 — -n = - -8 = 3.2. n' 5
x* =
Das Näherungsergebnis ist mit 0.0021 fast doppelt so groß wie das exakte mit 0.0011.
1.2
Schätzverfahren
Bei den Punktschätzverfahren kann der erwartete Wert einer Stichprobeninformation auch wie beim Testverfahren über die Schadenerwartungswerte der möglichen Stichprobenergebnisse bestimmt werden. Wenn z.B. der Geschäftsmann des vorhergehenden Beispiels wissen will, mit welchem Käuferanteil er für sein neues Produkt rechnen kann und er dafür eine Stichprobe im Umfang von n = 4 plant, dann wird der EWSI so bestimmt wie beim Test verfahren. Setzt man z.B. folgende lineare Schadenfunktion voraus
1
0
für a = 7r,
10 • (a — 7r) für a > TT, 20 • (ir - a) für a < tt, dann zeigt folgende Tabelle die optimalen Punktschätzungen und die Schadenerwartungswerte für die fünf möglichen Stichprobenergebnisse: Xi 2, für A < 2 fürA;2,
und berücksichtigt die Prioriinformation in Form einer Gammaverteilung mit den Parameter x' — 7, t' = 6, 4Für
die Berechnung der Verteilungsfunktion ist folgender Zusammenhang zwischen der
Negativbinomialverteilung und der Betaverteilung von Vorteil:
FnB(x\p,x') X')
G„B(X\P,
= =
Gß(p\x- +
l,x'),
Fß(p\x+,x'),
mit x~
=
größte ganze Zahl < z ,
i
=
kleinste ganze Zahl > x .
+
und
x = (t +1') • A" - x'. 5Vgl.
Raiffa, Schlaifer (1972, S 286).
232
Kapitel
VII.
Der Wert der
Stichprobeninformation
d a n n ist der E W P I gleich E W P I = SE'(a o p i ) - 1.2777. Wenn m a n die K r a n k m e l d u n g e n von 3 Tagen als Stichprobeninformation eventuell berücksichtigen will, muß m a n den erwarteten Wert dieser Stichprobeninformation berechnen. Bei einer linearen Schadenfunktion mit Si = s2 = 100 = s, kann m a n den E W S I nach folgenden Formeln berechnen: EWSim - / E W b m -\s-L
x
0
fürA'
= - > 2 = Ao
ist, wird der E W S I für t = 3 nach der Formel 8-LZ(\")=8j • Fß{p\x+,x' + 1) - Ao • Fß(p\x+, berechnet.
x')
ist 11, weil x = (3 + 6) - 2 - 7 = 11
ist. F ü r Lf 0 (A") erhält m a n W
)
=
I -
=
0.0008
11,7 + l ) - 2 -
( i | 11,7)
u n d f ü r den erwarteten Wert der Stichprobe E W S I ( i = 3)
=
100-0.0008
=
0.08.
Wenn die Kosten f ü r die Erhebung der K r a n k m e l d u n g e n an drei Tagen unter diesem B e t r a g liegen, dann ist diese E r h e b u n g angebracht bevor m a n sich entscheidet, ob zusätzliche Arbeitskräfte eingestellt werden oder nicht.
2. Poisson Prozeß
233
Für die näherungsweise Berechnung verwendet man die Gammaverteilung mit den Parametern x'.(t
+ t') _ 7 - ( 3 + 6) 3 t'.(t + t') _ 6 • (3 + 6) t 3
=
t
=
' =
Das lineare Moment der Gammaverteilung ist für diese Parameter gleich L?{\")
*
£ • G7(Ao|** + l , n - V
G 7 (AO|*V*)
=
~ G 7 ( 2 | 2 1 + l,18)-2-G7(2|21,18)
=
0.0003
und liegt damit beträchtlich unter dem exakten Ergebnis von 0.0008.
2.2
Schätzverfahren
Wenn der Personalchef A, die durchschnittliche Zahl der Krankmeldungen pro Tag richtig schätzt, dann wird er die entsprechende Zahl zusätzlicher Arbeiter einstellen, um den Auftrag zeitgerecht zu erledigen. Es wird in diesem Fall kein Schaden auftreten, über- oder unterschätzt der Personalchef jedoch die durchschnittliche Zahl der täglichen Krankmeldungen, dann wird dies zu entsprechenden Schäden führen. Wenn man für diese Schäden die quadratische Schadenfunktion ,
..
Ha Aj
'
f0 ~ \2-(a-A)2
für a = A, füra^A,
unterstellt, dann ist der erwartete Wert der perfekten Information EWPI = 0.3889. Für eine Stichprobe vom Umfang i = 3 ist der erwartete Wert der Stichprobeninformation EWSI(< = 3)
=
a-V(A") t x' t + t' tn
=
2 • —-— • — 3 + 6 62 0.1296.
=
Der Personalchef wird nur dann 3 Beobachtungstage für die Schätzung der durchschnittlichen Zahl der Krankmeldungen pro Tag verwenden, wenn die entsprechenden Beobachtungskosten geringer sind als 0.1296.
234
Kapitel
VII.
Der Wert der
Stichprobeninformation
Wenn die Kosten der Stichprobenerhebung durch die lineare Funktion K(n)
=f + v n
gegeben sind, dann kann man mit Hilfe der Formel 6
jenen Stichprobenumfang für eine quadratische Schadenfunktion berechnen, für den der erwartete Nettowert der Stichprobeninformation ENSI(n) = EWSI(n) -
K(n)
maximal ist. Im obigen Beispiel ist 6 = 2,
V(A) =
o
= 0.1944,
t' = 6.
Ist z.B. I\(t) = 0.1 + 0 . 0 1 • t die Kostenfunktion für eine Stichprobenerhebung im Umfang t, dann ist topt = JS--t>.
V(X) - « ' = ^ . 6 . 1 - 6
= 9.2753.
Da topt > 0 und ENSI(< = 9.2753)
=
EWSI(f = 9.2753) - I 0,
n = 0,1,2,3,...,7w
bestimmen. Das gleiche gilt für Intervallschätzprobleme. Vgl. Pratt, Raiffa, Schaifer (1965).
235
3. Gauß Prozeß
3 3.1
Gauß Prozeß Test verfahren
Um zu entscheiden, ob man eine Stichprobenerhebung des Umfanges n aus einem Gauß Prozeß mit bekannter Varianz a 2 durchführen soll oder nicht, vergleicht man den erwarteten Wert dieser Stichprobe mit den Erhebungskosten. Für die Berechnung des EWSI(n) benötigt man die Prädiktivverteilung des Posteriorierwartungswertes E(fi\X)
= fi =
—— n + n
.
Die Normalverteilung mit den Parametern E(n") V(n")
= '
ß',
= a2-(\n'
— n' + n
ist die Prädiktivverteilung des Posteriorierwartungswertes. Wenn die durchschnittliche Nachfrage nach einem bestimmten Produkt über 4 liegt, muß der Lagerhalter ein neues Bestellsystem einführen. Er drückt seine Prioriinformation über n durch eine Normalverteilung mit den Parametern fi' = 3.87 und n> 15 aus. Berücksichtigt man für die Schäden der möglichen Fehlentscheidungen die lineare Schadenfunktion , . _ s{a 0 ,ii) -
f0 (500.^_4)
für n < 4, für/1>4>
s(ai, //) =
(500-(4-,) 10
f ü r , 4,
v
r j
dann erhält man für den erwarteten Wert der perfekten Information EWPI = 25.3968 = SE(a 0 ). Für die lineare Kostenfunktion I
-
o " )
berechnet werden. zu wird dabei so bestimmt, daß gilt F z ( z u )
=
~ s
u
und z0, daß gilt G z ( z
)
0
= So
Der optimale Stichprobenumfang wird mit der Formel [s¡ • { z
-
0
z
u
)
+
s
u
• L
^
z
)
+
• L f
o
( z ) } • 20,
/100-C20-A) 10
für A < 20, für A > 20
verwendet. In diesem Fall wird die Formel EWSI (t) =
s.L?o(\")
für die Berechnung des EWSI herangezogen, da x
'
- =
25
t
™
>
> 2 0 = A0
ist. Das lineare Moment der Negativbinomialverteilung ist gleich t' W ) = ^•F (p\x+,x'+l)-F (p\x+,x') = ^ - ^ ( § ¡ 1 5 5 ,p 26) - 2 0 ß- i > ( | 155, 25 =
5.2685,
4. da
Fallstudien
251
gleich ist = (i + t') -XQ-X'
= (88 + 1) • 2 0 - 25 = 155.
In guter Näherung kann man das lineare Moment auch über die Gammaverteilung berechnen: x* ^20
—
' G 7 ( A o | x - + 1, t ' ) - A 0 • G 7 ( A o | x - , t*)
=
Oft 1 -—--G7(20|28.125 + 1,1.125)-
-
20 • G 7 (20|28.125,1.125)
=
5.2742.
1.125
Der erwartete Wert der Stichprobeninformation für i = 8 ist gleich EWSI(< = 8)
=
1000-5.2685
=
526.85.
Da die Kosten der Erhebung mit I a, der Formel wird der e r w a r t e t e Wert der Stichprobeninformation EWSI(t) =
S
• V(X) •
^
berechnet. F ü r die Angaben ist er gleich 30 E W S I (vi = 30) = 100 • 0.75 • — = 66.18. ' 30 + 4 Da die Kosten des Probebetriebes mit I 1500 = fio, wird die Formel EWSI(n) = a • L ^ i n " ) verwendet. Das linke lineare Moment von p" ist gleich =
fi, 10 • (fi — a) für a < fi, unterstellt und er die Daten aus der letzten Saison im Umfang von n' = 30 berücksichtigen will? Die Kosten I 105. Da fi' — 9 • 104 kleiner ist als der Breakevenpoint mit 105, wird der erwartete Wert der Stichprobeninformation mit Hilfe der Formel EWSI(n) = s • L™(ft")
Kapitel VII.
260
Der Wert der
Stichprobeninformation
berechnet. Für n = 5 ist der erwartete Wert der Stichprobeninformation gleich EWSI(ra = 5)
=
0.10 • L^s(ß"\9 • 10 4 ,5 • 10 6 ,4)
=
2.0790.
Da die Erhebungskosten mit K(n = 5) = 0.38 • 5 = 1.90 unter dem EWSI liegen, ist es sinnvoll, 5 Abnehmer zu befragen. Um festzustellen, welcher Stichprobenumfang den ENSI maximiert, berechnet man zuerst den erwarteten Wert der perfekten Information. Auf Grund der Prioristudentverteilung erhält man dafür EWPI = 7.0926. Der Stichprobenumfang, der den erwarteten Nettowert maximiert, muß daher kleiner sein als