225 23 20MB
German Pages 310 [312] Year 2001
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Böhning, Allgemeine Epidemiologie Caspary • Wichmann, Lineare Modelle Chatterjee • Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen • Lorscheid, Statistik-Lehrbuch Degen • Lorscheid, Statistik-Aufgabensammlung, 3. Auflage Härtung, Modellkatalog Varianzanalyse Har ey (Übers. Untiedt), Ökonometrische Analyse von Zeitreihen, 2. Auflage Har ey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler • Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller (Übers. Schlittgen), Grundlagen der Angewandten Statistik Nae e, Stochastik für Informatik Oerthel • Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer • Heine • Härtung, Statistik für Wirtschaft- und Sozialwissenschaften: Deskriptive Statistik, 2. Auflage
Fachgebiet
Pflaumer • Heine • Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse Rasch • Herrendörfer u.a., Verfahrensbibliothek, Band I und Band 2 Riedwyl • Ambühl, Statistische Auswertungen mit Regressionsprogrammen Rinne, Wirtschafts- und Bevölkerungsstatistik, 2. Auflage Rinne, Statistische Analyse multivariater Daten - Einführung Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I: Grundlagen Schlittgen, Statistik, 9. Auflage Schlittgen, Statistische Inferenz Schlittgen, GAUSS für statistische Berechnungen Schlittgen • Streitberg, Zeitreihenanalyse, 8. Auflage Sch ürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten
Biometrie
Herausgegeben von Dr. Rolf Lorenz Bisher erschienene Werke: Bock, Bestimmung des Stichprobenumfangs
Brunner • Langer, Nichtparametrisehe Analyse longitudinaler Daten
Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Lehr- und Übungsbuch
Von
Prof. Dr. Peter Pflaumer Dr. Barbara Heine Prof. Dr. Joachim Härtung
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Pflaumer, Peter: Statistik f u r Wirtschafts- und Sozialwissenschaften / von Peter Pflaumer ; Barbara Heine ; Joachim Härtung. - M ü n c h e n ; Wien : Oldenbourg (Lehr- und Handbücher der Statistik) Induktive Statistik : Lehr- und Übungsbuch. - 2001 ISBN 3-486-24015-3
© 2001 Oldenbourg Wissenschaftsverlag G m b H Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas M ü n t z e r " GmbH, Bad Langensalza ISBN 3-486-24015-3
Vorwort Das vorliegende Buch ist aus Lehrveranstaltungen hervorgegangen, die wir in den letzten Jahren für Studierende der Wirtschafts- und Sozialwissenschaften, Wirtschaftsmathematik sowie Statistik gehalten haben. Zusammen mit dem von uns verfaßten Lehrbuch ,.Deskriptive Statistik", das auch im Oldenbourg-Verlag erschienen ist, liegt nun eine umfassende Einführung in die Statistik für Wirtschafts- und Sozialwissenschaften vor. Ziel der Einführung ist es, an einem kurz und übersichtlich gefaßten Lehrtext, der an Übungen orientiert ist, die wichtigsten Methoden der induktiven bzw. schließenden Statistik zu behandeln, und zwar in dem Rahmen, wie die Statistik im Grundstudium an Universitäten und Fachhochschulen gelehrt wird. Daher eignet sich dieses Lehrbuch vor allem als Begleit- und Prüfungsvorbereitungsbuch für eine Vorlesung der induktiven Statistik. Ein Übungsteil mit Lösungen, der dazu dient, das Gelernte zu festigen und zu vertiefen, schließt das Buch ab. Weitere Übungsmöglichkeiten findet man in den vermischten Aufgaben. Während bei der deskriptiven Statistik Methoden zur Erfassung, Analyse und Beurteilung von Daten im Vordergrund stehen, werden in der induktiven Statistik Methoden zum Finden von rationalen Entscheidungen im Falle von Unsicherheit oder Risiko beschrieben. Eine solche Entscheidung muß beispielsweise ein Pharmaunternehmen bei der Einführung eines neuen Medikaments treffen. Anhand eines stichprobenweise Vergleichs von Patientendaten wird dann getestet, ob die Erfolgswahrscheinlichkeit des neuen Medikaments besser ist als die eines schon bekannten Medikaments. Die Wahrscheinlichkeitsrechnung liefert der induktiven Statistik dabei die formalen Instrumente, ohne die die induktive Statistik nicht möglich wäre. Auch die induktive Statistik befaßt sich mit Daten. Sie konzentriert sich dabei auf Fälle, bei denen eine vollständige Datenerhebung nicht möglich, unwirtschaftlich oder zu zeitaufwendig wäre. Der Rückschluß von der Stichprobe auf die Grundgesamtheit ist eine wesentliche Aufgabe der induktiven Statistik. Hierbei stellt sich die Frage, unter welchen Bedingungen ein solcher Rückschluß überhaupt möglich ist. Weiterhin muß geklärt werden, wie die zu erhebenden Objekte ausgewählt werden und wie viele Objekte in die Stichprobe sollen. Man darf dabei nicht übersehen, daß solche Aussagen mit Ungenauigkeiten behaftet sind, die unter bestimmten Bedingungen mit Hilfe der Wahrscheinlichkeitsrechnung quantifiziert werden können. Die induktive Statistik kann man daher auch als ein Modell des Zufalls verstehen. Sie versucht den Zufall in den Griff zu bekommen; Sicherheit über Unsicherheit zu gewinnen. Die klassischen Inhalte der induktiven Statistik, nämlich statistisches Schätzen und Testen von Hypothesen, bilden den Hauptteil des vorliegenden Buches. Es werden nur Kenntnisse der Schulmathematik vorausgesetzt. Hilfreich zum Verständnis ist außerdem die Lektüre unseres Buches der deskriptiven Statistik. Es bleibt uns noch übrig, Dank zu sagen. Unser Dank gebührt unseren vielen Studenten und Studentinnen, die durch zahlreiche Fragen und Hinweise zur Gestaltung des Lehrtextes und der Übungsaufgaben beigetragen haben. Frau stud. stat. Stefanie Boke danken wir für die Textverarbeitung und für das Erstellen der Graphiken sowie für die kritische Durchsicht des Textes. Herrn Dr. Karl-Heinz Loesgen danken wir dafür, daß er uns erlaubt hat, einige Übungsaufgaben und viele der vermischten Aufgaben in unser Lehrbuch zu übernehmen. Herrn Prof. Dr. Lothar Kreienbrock und Frau Dr. Bärbel Elpelt danken wir für angeregte Diskussionen und wertvolle Hinweise. Herrn Lektoratsleiter Dipl.-Volkswirt Martin Weigert danken wir für die bewährte, gute Zusammenarbeit. Joachim Härtung, Barbara Heine, Peter Pflaumer
INHALT
Vorwort
V
Verzeichnis wichtiger Symbole
XI
1
Grundbegriffe der Wahrscheinlichkeitsrechnung
1
1.1
Ereignisse und Zufallsexperimente
1
1.2
Wahrscheinlichkeitsbegriffe
4
1.3 1.3.1 1.3.2 1.3.3 1.3.4
Anwendungen der Kombinatorik zur Berechnung von LaplaceWahrscheinlichkeiten Permutationen Variationen Kombinationen Beispiele zur Berechnung von Laplace-Wahrscheinlichkeiten
13 13 14 14 16
1.4
Bedingte Wahrscheinlichkeiten
17
1.5
Satz von der totalen Wahrscheinlichkeit und Bayessches Theorem
19
1.6
Multiplikationssatz und Unabhängigkeit
21
2
Diskrete Zufallsvariable
25
2.1
Wahrscheinlichkeits- und Verteilungsfunktion
25
2.2 2.2.1 2.2.2 2.2.3
Kennzahlen von diskreten Zufallsvariablen Erwartungswert Varianz und Standardabweichung Momente
30 31 33 36
3
Spezielle diskrete Verteilungen
39
3.1
Binomialverteilung
39
3.2
Hypergeometrische Verteilung
42
3.3
Poissonverteilung
45
VIII
Inhalt
3.4
Multinomialverteilung
48
3.5
Geometrische Verteilung
50
4
Stetige Zufallsvariable
53
4.1
Dichte und Verteilungsfunktion
53
4.2
Kennzahlen von stetigen Zufallsvariablen
56
5
Spezielle stetige Verteilungen
59
5.1 Normalverteilung und Lognormalverteilung 5.1.1 Normalverteilung
59 59
5.1.2
65
Lognormal Verteilung
5.2 Sonstige stetige Verteilungen 5.2.1 Exponentialverteilung 5.2.2 Gleich- oder Rechtecksverteilung 5.2.3 Dreiecksverteilung 5.2.4 Pareto-Verteilung 5.2.5 Prüfverteilungen A. x2-Verteilung B. t-Verteilung C. F-Verteilung 5.2.6 Zweidimensionale Zufallsvariable, Kovarianz, Korrelation und zweidimensionale Normalverteilung
70 70 72 76 77 79 80 81 83
6
Gesetz der großen Zahlen und zentraler Grenzwertsatz
93
7
Statistisches Schätzen
101
7.1
Punktschätzung A. Momentenmethode B. Maximum-Likelihood-Methode C. Methode der kleinsten Quadrate
102 105 105 107
7.2 7.2.1
Konfidenzintervalle 108 Konfidenzintervall für den Erwartungswert einer Normalverteilung mit bekannter Varianz 109 Konfidenzintervall für den Erwartungswert einer Normalverteilung mit unbekannter Varianz 111 Asymptotisches Konfidenzintervall 112
7.2.2 7.2.3
85
Inhalt
IX
7.2.5
Konfidenzintervall für die Varianz o 2 bei normalverteilter Grundgesamtheit Konfidenzintervall für den Anteilswert p
113 115
7.3
Prognose- und Toleranzintervalle
119
7.4 7.4.1 7.4.2
Bestimmung von notwendigen Stichprobenumfängen bei Intervallschätzungen 120 Notwendiger Stichprobenumfang bei der Schätzung von Mittelwerten.. 120 Notwendiger Stichprobenumfang bei der Schätzung von Anteilen 122
8
Statistisches Testen
123
8.1
Grundlagen
123
8.2
Beurteilungskriterien für statistische Tests
127
8.3
Arten von Hypothesen und allgemeine Bemerkungen
129
8.4
Testen von Parameter-Hypothesen und Bestimmung des notwendigen Stichprobenumfangs Parametertests A. Hypothesen über den Mittelwert (U, einer normalverteilten Grundgesamtheit B. Hypothesen über die Varianz a 2 einer normalverteilten Grundgesamtheit C. Hypothesen über den Parameter p Bestimmung des Stichprobenumfangs n beim Testen von Hypothesen.. A. Erwartungswert fi einer normalverteilten Grundgesamtheit B. Parameter p einer Binomialverteilung
132 133 135 135 136
8.5 8.5.1 8.5.2
Anpassungstests x2~Anpassungstest Kolmogoroff-Smirnov-Anpassungstest
137 137 140
8.6 8.6.1
Zweistichprobentests Tests zweier unabhängiger Meßreihen A. Tests bei bekannten Varianzen o\ und o-i der Grundgesamtheiten B. Tests bei unbekannten, aber gleichen VarianzenCTi2und 02 der beiden Grundgesamtheiten C. Tests bei unbekannten und ungleichen Varianzen Oi2 und o 2 2 der beiden Grundgesamtheiten Tests zweier abhängiger Meßreihen A. Varianz a
( x 0 + x)) P(X > 1(x00 + x) X > x0) = V . V ' = V l] °> P(X>x0) e~
0
=e
,
d.h. die bedingte Überlebenswahrscheinlichkeit ist unabhängig vom Alter. Dies ist der Grund dafür, daß die Exponentialverteilung auch gedächtnislose Verteilung genannt wird; natürlich bedingt dies, daß eine vorzeitige Erneuerung noch nicht ausgefallener Objekte im Fall einer exponentialverteilten Lebensdauer sinnlos ist. Hiermit ist auch die Verteilung der Restlebensdauer im Falle Exponentialverteilung unabhängig vom Bezugszeitpunkt xo, d.h. es ist F(X0 + x|x 0 ) = F(x) = 1 - e~x'x für jedes x 0 > 0 .
der
5.2 Sonstige stetige Verteilungen
71
Den Erwartungswert, das 2. Moment und die Varianz einer Ex(X)-verteilten Zufallsvariablen X erhält man durch partielle Integration (vgl. Abschnitt 4.2) und sind E(X) = j x • X • e~Xxdx = Je~Xxdx = J (1 - F(x)) dx
J_ V
E(X 2 ) = f x 2 • X • e~Xxdx = 2f x • e X x dx = - • E(X) = 4 " . 0 0 * ^ Var(X) = E(X 2 ) - (E(X)) 2 = £ _ _L = _L. Die Exponentialverteilung ist ein Spezialfall der Weibullverteilung mit den Parametern a > 0 und ß > 0, die bei der Beschreibung von Ausfällen, vor allem bei technischen Gütern, verwandt wird. Ihre Verteilungsfunktion lautet F(x) = 1 - e "
x>0
mit Erwartungswert E(X) = a " ^ l { i + l und Varianz Var(X) = a
+1
f
wobei f ( z ) die Gammafunktion r ( z ) = Je"'
r'dt
bezeichnet. Wie man sieht, ergibt sich für ß = 1 die Verteilungsfunktion der Exponentialverteilung. Für ß = 2 erhält man die sogenannte Rayleigh-Verteilung. Beispiel: Die Wahrscheinlichkeit, daß in einem Gebiet mit der Fläche F genau x Punkte liegen, ist bei einer zufälligen Plazierung gegeben durch die Poisson-Verteilung x! mit |i = mittlere Anzahl der Punkte pro Flächeneinheit und X = n • F = mittlere Anzahl der Punkte auf einem Gebiet mit der Fläche F. Z sei die Zufallsvariable „Entfernung von einem Punkt zu seinem nächsten Nachbarn". Dann besagt das Ereignis Z > z, daß in dem Kreis um den Punkt mit dem Radius z kein weiterer Punkt liegt, d.h. P(Z > z) = P(X = 0) = e
>l F
= e^™2.
Die Verteilungsfunktion der Zufallsvariablen Z lautet dann P(Z < z) = F(z) = 1 - e ' ^ n z 2 ,
z > 0.
72 5 Spezielle stetige Verteilungen Die Entfernung zum nächsten Nachbarn bei einer zufälligen Plazierung der Punkte folgt also einer Rayleigh-Verteilung mit a = (i • n , deren Dichte f(z) =2n7tze" > " n ' 2 2
z > 0
und deren Erwartungswert und Varianz i l r i E(Z) = - r =1 ^ r a , 5 ) = - r = - r — - V i t = — r = , yjt'H VTtyH 2 2-y/H Var(Z) =
7t-11
T(2)-
1
1
J_
2&
n • (i
4fi
sind. Für ja = 1 ist die Dichte und die Verteilungsfunktion von Z in Abb. 5.8 dargestellt.
f(z)
F(z)
1,2
/
V
1 0,8
F(z)
0,6 0,4 0,2
0 0,5 Abb. 5.8:
1
Dichte f(z) und Verteilungsfunktion F(z) (Rayleigh-Verteilung) der Entfernung Z von einem Punkt zu seinem nächsten Nachbarn bei zufalliger Plazierung der Punkte mit (1 = 1 (mittlere Anzahl der Punkte pro Flächeneinheit)
Mit Hilfe der Verteilung von Z kann geprüft werden, ob Standorte regelmäßig, zufällig oder konzentriert angeordnet sind (vgl. Bahrenberg, Giese (1975), S. 88f).
5.2.2 Gleich- oder Rechtecksverteilung Die wohl einfachste stetige Verteilung ist die stetige Gleichverteilung U(a,b) auf dem Intervall [a;b], die auch Rechtecksverteilung genannt wird. Eine so verteilte Zufallsgröße X beschreibt ein Zufallsexperiment, bei dem jede Zahl aus dem Intervall [a;b] die gleiche Chance hat, Realisation von X zu sein. Die Wahrscheinlichkeit, daß eine Zahl außerhalb dieses Intervalls vorkommt, ist Null. Damit hat X die in Abb. 5.9 dargestellte Dichte
5.2 Sonstige stetige Verteilungen f(x) 0,3
0 , 2 --
0,1 0H
1
0
1
a=2
1
1
1
1-
3
4
5
6
b=7
8
*
Abb. 5.9: Dichtefunktion der Rechteckverteilung U(2,7) für a < x < b
f ( * ) = i b1- a 0
sonst
und die zugehörige in Abb. 5.10 dargestellte Verteilungsfunktion ist
F(x) =
1
a=2
3
4
5
6
0 x-a
xb
8
9
Abb. 5.10: Verteilungsfunktion der Rechtecksverteilung U(2,7) Als Erwartungswert von X ergibt sich
Das 2. Moment ist
73
74 5 Spezielle stetige Verteilungen b - x2 . E(X 2 ) = f—^—dx J
h — a
b3 - a 3 3(b - a)
( b - a ) ( a 2 +ab + b2) 3(b-a)
a 2 + a b + b2
Die Steinersche Gleichung liefert uns Var(X) =
a 2 +ab + b2
' b + a^ 2
(b-a)2 12
Eine bedeutsame Anwendung der Gleichverteilung findet man in der Computersimulation. Auf dem Rechner lassen sich nämlich recht einfach Zahlen erzeugen, die man als unabhängige Realisationen einer U(0,l)-verteilten Zufallsgröße X ansehen kann. Transformiert man nun diese Zahlen mit Hilfe der inversen Verteilungsfunktion F x ; , so können die Ergebnisse als Realisation einer Zufallsgröße Y mit der Verteilungsfunktion F aufgefaßt werden. Beispiel: Es soll das Ausfallverhalten von Glühbirnen auf einem Rechner simuliert werden. Dabei kann angenommen werden, daß deren Lebensdauern exponentialverteilt sind mit dem bekannten Parameter X . Wir müssen uns also Zahlen verschaffen, die als Realisation einer so verteilten Zufallsgröße Y angesehen werden können. Dazu erzeugen wir zunächst im Rechner mit einem sogenannten Zufallszahlengenerator unabhängige Realisationen Xi einer U(0,1)-verteilten Zufallsgröße X. Die Inverse der Verteilungsfunktion F
(y) -
1
Xy • e"
der Exponentialverteilung ist gegeben durch
F-'(x) = - i - - l n ( l - x ) , X
so daß die Werte y t
ln(l - X|) als Realisationen einer exponentialverteilten Zufallsgröße X angesehen werden können. (Da mit X auch 1-X U(0,l)-verteilt ist, gilt das ebenso für die einfacher zu berechnenden Werte
X Glühbirne angesehen werden.
ln(x|).) Somit kann der Wert yj als Lebensdauer der (fiktiven) i-ten
Eine wichtige Rolle spielt die Gleich- bzw. Rechtecksverteilung und eine Erweiterung, die sogenannte doppelte Rechtecksverteilung, bei der subjektiven Spezifikation von Verteilungsgesetzen der Einflußgrößen im Rahmen der stochastischen Investitionsrechnung (vgl. u.a. Pflaumer (2000) oder Jockel, Pflaumer (1981)). Der Kapitalwert als Vorteilhaftigkeitskriterium einer Investition läßt sich wie folgt darstellen i=i q mit
5.2 Sonstige stetige Verteilungen
75
C 0 = Kapitalweit I 0 = Investitionsauszahlung zum Zeitpunkt 0 c t = Cash Flow zum Zeitpunkt t q = Diskontierungsfaktor. Die Determinanten des Kapitalwerts werden als stochastisch angenommen. Im einfachsten Fall wird für einen Cash Flow eine Untergrenze a und eine Obergrenze b angegeben, d.h. Werte, die auf keinen Fall unter- bzw. überschritten werden. Das Verteilungsgesetz unterstellt Gleichverteilung zwischen a und b. In einer etwas realitätsnäheren Version wird zusätzlich der Median xo,5 spezifiziert. Das Verteilungsgesetz unterstellt, daß zwischen Median und den beiden Grenzen jeweils Gleichverteilung vorliegt. Da die Einflußfaktoren des Kapitalwerts stochastisch sind, ist dieser ebenfalls stochastisch, d.h. eine Zufallsvariable. Verteilung und Parameter des Kapitalwerts werden entweder unter Verwendung der Monte-Carlo-Simulation (Risikoanalyse bei Investitionsentscheidungen, vgl. u.a. Hertz (1964)) oder mittels analytischer Verfahren gewonnen (vgl. u.a. Jockel, Pflaumer (1981)). Beispiel: Eine Investition über 100000 D M werde bei einem Zinsfuß von 8% ( = Diskontierungsfaktor 1,08) mit einer Laufzeit von 8 Jahren durchgeführt. Die Cash Flows c t seien stochastisch unabhängige Zufallsvariablen; es werde eine Gleichverteilung mit einem Minimum von 15000 DM und einem Maximum von 30000 DM angenommen. Es sollen Erwartungswert und Standardabweichung des Kapitalwerts ermittelt werden. Mit E(C„) = -100000 + H
>1,08'J
= - 1 0 0 0 0 0 + — • E(c. ) + —^r VU
1,08
• E(C, ) + ... + —i-r- • E(C 8 )
1,08
'
1,08
/ \ 30000 + 15000 und Elc, I = = 22500 für t = 1,2,...,8 erhält man mit Hilfe der Summenformel 2 für eine geometrische Reihe
/
X
E(Cn) = -100000 +
1,088 - 1
1 r
1,08
22500 = 29299,4.
0,08
Mit /
.
Var(co) = Varl X~ C'
1=11,08* ^
=
/ und
Var(ct) =
^ V a r 2( i conn^
C l ) +
V a r ( c 2 ) +
^
— = 18750000
12
für
-
+
t = l,2,...,8
^
V a r ( c 8 )
erhält man mit Hilfe
Summenformel für eine geometrische Reihe
/
s
1
Var(C n ) = 18750000
tt-
1,08
1,08
bzw. ar
Co
^
-1
1,08 - 1
= 8932,5.
-
= 79789986
der
76
5 Spezielle stetige Verteilungen
Mit Hilfe der Ungleichung von Tschebyscheff kann gefolgert werden, daß der Kapitalwert mit einer Wahrscheinlichkeit von mindestens 88,9% im Intervall (29299,4 - 3 • 8932,5; 29299,4 + 3 • 8932,5) bzw. (2501,9; 56096,9) liegen wird.
Wird zusätzlich zur Untergrenze a und zur Obergrenze b der Median xo,s spezifiziert, wobei unterstellt wird, daß zwischen dem Median und den beiden Grenzen jeweils Gleichverteilung vorliegt, dann hat die Dichtefunktion der sogenannten doppelten Rechtecksverteilung die Gestalt
f(x) =
1 2- (xo,5 - « 0 1 2- ( b - x o , s ) 0
f ü r a < x < xn für x 0 5 < x < b . sonst
Erwartungswert und Varianz einer Zufallsvariable X mit einer solchen Dichte f(x) berechnen sich zu E(X) =
f — ,
Var(x) = ±• ((a 2 + a• x0,5 + x 2 s ) + (b 2 + b• x0,5 + x 2 5 ) ) -
+
.
Ein Anwendungsbeispiel der doppelten Rechtecksverteilung in der Investitionsrechnung ist bei Jockel, Pflaumer (1981) zu finden.
5.2.3 Dreiecksverteilung X und Y seien Zufallsvariablen, die die gleiche Rechtecksverteilung U(a,b) besitzen. Die Verteilung der Summe Z = X + Y ist dann eine gleichschenklige Dreiecksverteilung mit den Parametern a und b. Die Dichte dieser Verteilung, die man auch Simpson-Verteilung nennt, ist in Abb. 5.11 dargestellt und berechnet sich zu
5.2 Sonstige stetige Verteilungen
z-a f(z) =
b-a/ 2 b-z /r
b-a
b-a/ 2
b-a
0
1
a=2
/l
b-a 2
3
1 - -
b-a 0
4 Iii 5
,
falls a < z
A > 0
xa 0
sonst
mit x = Einkommenshöhe, A = Existenzminimum, a = empirisch beobachteter Wert ( a > 1). Durch Differentiation von F(x) erhält man als Dichte (vgl. Abb. 5.12) ia-Aa f(x) =
-,
0
0
200
400
600
800
falls y > A sonst
1000 1 2 0 0 1400 1600 1 8 0 0 2 0 0 0
x
Abb. 5.12: Dichtefunktionen der Pareto-Verteilung mit A = 600, a = 1,5 und a = 2 Erwartungswert und Varianz betragen, nachvollziehen kann,
wie man durch Integration
a • A für a > 1, a-1 a Var(X) = •A2 für a > 2 . 2 (cc-l) (a-2) E(X)
Der Median ist X
0
,
5
= ^ - A .
leicht
5.2 Sonstige stetige Verteilungen
79
Pareto nimmt an, daß die Werte a in der Empirie bei 1,5 liegen. Dieser Wert a dient ihm zur Charakterisierung der Einkommensverteilungen in den verschiedenen Volkswirtschaften (vgl. u.a. Blümle (1979)). Je kleiner a ist, um so ungleicher ist das Einkommen verteilt; die Wahrscheinlichkeit, daß ein hohes Einkommen (z.B. y = 2000) überschritten wird, steigt mit sinkendem a (vgl. Abb. 5.12). Beispiel: Es sei die Verteilungsfunktion folgender Pareto-Verteilung gegeben: F(x) = 1 -
2000
, falls y > 2000.
Es sollen Dichte, Erwartungswert, Median sowie die Wahrscheinlichkeit P(X > 3000) bestimmt werden. 1. 2.
3.
f(x)=
8000000
r—,
7 8000000 J 5 — d x = 4000, 2000 x n2 2000 ergibt sich Aus 0,5 = 1 E(X)=
x = x 0 5 = 2000\/2 = 2828,43, /
4.
P(X > 3000) =
2000 3000
5.2.5 Prüfverteilungen Bei der Berechnung von Konfidenzintervallen und bei der Durchführung statistischer Tests sind die Verteilungen von Größen wie VC
2 - -x)\ oder
Vn-(x-n) n-1
i=1
mit 1 ° _ * = n— E x i i=1 für normalverteilte Xi (d.h. für normalverteilte Zufallsvariablen Xj mit Realisationen Xi, i = l,...,n) sehr wichtig, wie wir noch sehen werden. Deshalb bezeichnet man solche Verteilungen, die im folgenden aufgeführt werden, auch als Prüfverteilungen.
80
5 Spezielle stetige Verteilungen
A. x 2 -Verteilung Sind Xi,...,X n (stochastisch) unabhängige N(0,l)-verteilte Zufallsvariablen, so n heißt die Verteilung von zentrale % -Verteilung (Chi-Quadrat-Verteilung) ¡=1 mit n Freiheitsgraden, in Zeichen ixf-xii=l Die x] -Verteilung besitzt die Dichte f (x) =
L — •
1
• e" x/2 , für x > 0.
Eine solche Dichte ist in Abb. 5.13 graphisch dargestellt. Die Funktion T bezeichnet hier die Gammafunktion r(y) = j e " ' -t y -'dt, o für die r ( y +1) = y • r ( y ) gilt. Für ganzzahlige Werte y = n ergibt sich gerade Gammafunktion ist in Tab. 8 im Tafelanhang vertafelt.
r(n) = ( n - l ) .
Die
Abb. 5.13: Dichtefunktionen der %f -, xl - und x l -Verteilung Der Erwartungswert und die Varianz einer xl -verteilten Zufallsvariablen Z sind E(Z) = n und Var(Z) = 2 n .
5.2 Sonstige stetige Verteilungen
81
Für einige n und einige a sind die Quantile %\.a mit
im Anhang vertafelt (vgl. Tab. 6). Für große n läßt sich die Verteilungsfunktion F(x) durch die Normalverteilung N(n,2n) approximieren F(x) = P(Z < x) = 4> Sind xi,...,xn Realisationen von stochastisch unabhängig N((0,,a2)-verteilten Zufallsvariablen, dann läßt sich bei bekanntem (I die Varianz a 2 schätzen durch
n
i=i
Für die Verteilung dieser Größe (bzw. der zugehörigen Zufalls variablen) gilt
Ist dagegen |X unbekannt, so benutzt man die empirische Varianz
n-1
w
als Schätzwert für CT2. Für deren Verteilung (bzw. für die der zugehörigen Zufallsvariablen) gilt dann
o
CT
i=i
B. t-Verteilung Eine Zufallsvariable Z=
^o
Jfix? V n i=i
heißt (zentral) t-verteilt mit n Freiheitsgraden (kurz Z ~ t D ), falls X0,Xi,...,Xn (stochastisch) unabhängige standardnormalverteilte Zufallsvariablen sind. Die tVerteilung geht auf W. S. Gösset zurück, der unter dem Pseudonym Student
82 5 Spezielle stetige Verteilungen publizierte, und wird daher manchmal auch Studentsche t-Verteilung genannt. Ihre Dichte ist n+1 (
f(x) =
X
n+l »VT
1+ — n
Diese Dichte ist symmetrisch um Null, vgl. Abb. 5.14. Ihre Verteilungsfunktion ist X
F(x)= Jf(u)du.
f(x) 04N^V—n = 40 -
J/y jT 1 - 2
0,2
"
\Ä-n =4 TKT—n = 2
0,1 1 -
0-1 1 0
1 1
1 2
*
Abb. 5.14: Dichtefunktionen der t2-, U- und Uo-Verteilung Der Erwartungswert einer tn-verteilten Zufallsvariablen existiert für n > 2 und ist -wie der Median- aufgrund der Symmetrie der Dichte gerade Null. Ist n > 3, so existiert auch die Varianz; diese ist —-—. n-2 Die a-Quantile der tn-Verteilung t n;a sind für einige n und a im Anhang (vgl. Tab. 5) vertäfelt; dabei haben wir uns die Tatsache zunutze gemacht, daß gilt ^ n.l
« '
Für große n nähert sich die Verteilungsfunktion einer tn-verteilten Zufallsvariablen Z immer mehr der Standardnormalverteilung, so daß dann statt der Quantile t n;a die Quantile u a der Standardnormalverteilung verwandt werden können. In der Statistik spielt die t-Verteilung eine bedeutende Rolle. Der Grund hierfür wird im folgenden deutlich. Sind Xi,...,X„ N(|X,a2)-verteilte (stochastisch) unabhängige Zufallsvariablen, so sind die Zufallsvariablen
5.2 Sonstige stetige Verteilungen
n ¡=i
83
n — 1 ¡=i
(stochastisch) unabhängig und es gilt /-X-p.
Beispiel:
Entstammen
xi,...,x n
einer
normalverteilten
Grundgesamtheit,
Wahrscheinlichkeit, daß der unbekannte Parameter |i in einem
pjVe
7
s 2 < Vñ
= 2-F.Í
n-1
ist
die
-Intervall um x liegt gerade
X-n
= P
so
2, so existiert der Erwartungswert E(Z):
n-2
und ist n>4, so existiert die Varianz Var(Z) :
2n2(m+n-2) m(n-2)2(n-4)
einer F m n -verteilten Zufallsvariablen Z. Ist n groß, so läßt sich die Verteilung von m - Z auch durch eine %2m-Verteilung approximieren. Einige Quantile F m , n; a der F m , n -Verteilung sind im Anhang (vgl. Tab. 7a und 7b) vertafelt. Beim Nachschlagen von Tafelwerten macht man sich zunutze, daß gilt 1
und t n ; ( l + o ) / 2
=
I f ~
5.2 Sonstige stetige Verteilungen
85
5.2.6 Zweidimensionale Zufallsvariable, Kovarianz, Korrelation und zweidimensionale Normalverteilung Schon in der deskriptiven Statistik haben wir Untersuchungseinheiten kennengelernt, an denen die Merkmale X und Y betrachtet wurden. Das zweidimensionale Merkmal (X,Y) haben wir in Form einer Zusammenhangsoder Kontingenztabelle dargestellt (vgl. Pflaumer, Härtung, Heine (1999), S. 112 ff)- Durch die Randhäufigkeiten haben wir die Häufigkeitsverteilung von X und Y erhalten, die wir Randverteilung von X und Y genannt haben. In ähnlicher Weise kann man zweidimensionale Zufallsvariablen (X, Y) in der induktiven Statistik durch Wahrscheinlichkeitsverteilungen beschreiben. Dabei reicht es im allgemeinen nicht aus, die Verteilungen der einzelnen Komponenten anzugeben. So läßt sich z.B. beim zweimaligen Würfeln allein aus der Kenntnis der Wahrscheinlichkeit dafür, daß die Würfelsumme größer als sieben ist, und dafür, daß die größte Augenzahl kleiner als sechs ist, nicht schließen, mit welcher Wahrscheinlichkeit beides der Fall ist. Solche Fragen lassen sich jedoch beantworten, wenn die (zweidimensionale) Verteilungsfunktion von (X, Y) F(X, y) = P ( X < x, Y < y)
bekannt ist. Die Verteilungen einer einzelnen Zufallsvariablen X oder Y bezeichnet man als die Randverteilungen von X oder Y und deren Verteilungsfunktionen berechnen sich aus der obigen Verteilungsfunktion wie folgt F, (x) = P(X < x) = P(X < x, Y < oo), F 2 (y) = P ( Y < y ) = P ( X < o °
Y e)
0
>0 für jedes e > 0 .
Der Parameter 0 wird dann asymptotisch richtig geschätzt. Man sagt, der Schätzer 0„ ist konsistent fUr 0. Nach dem Gesetz der großen Zahlen, vgl. Kapitel 6, konvergiert der Mittelwert der Beobachtungen von identisch verteilten, unabhängigen Zufallsvariablen X,,...,X n stochastisch gegen den Erwartungswert der Xi. Der Mittelwert der Beobachtungen ist also ein konsistenter Schätzer für den Parameter Ebenso
104
7 Statistisches Schätzen
kann man zeigen, daß sowohl S 2 als auch Sj; konsistente Schätzer fürCT2sind. Die hier vorgestellten Konzepte Erwartungstreue und Konsistenz sagen noch relativ wenig über die Güte eines Schätzers aus. So bleiben diese Eigenschaften z.B. oft dann noch erhalten, wenn etwa nur jede zweite Beobachtung berücksichtigt wird. Als Beurteilungskriterium für die Güte eines Schätzers eignet sich dagegen der mittlere quadratische Fehler (mean squared error = MSE) MSE( E(e,e) = E ( ( e - e ) 2 ) . Man kann auch schreiben MSE = Varianz + (Bias) 2 . Die Größe e|Ö - oj nennt man nämlich Bias oder Verzerrung der Schätzers 0 , und es gilt E^(e-e)2j = E(e2)-2-(E(e))-e+e2 = E(§ 2 ) - (E(G)) 2 + (E(g)) 2 - 2 • (E(§)) • 0 + e 2 = Var(0) + ( E ( e - 0 ) ) 2 . Ist 0 erwartungstreu für 0, so ist der Bias natürlich Null und somit der mittlere quadratische Fehler gerade die Varianz des Schätzers. Der Schätzer X für den Mittelwert n der N(|j.,-a) =
1
"
Vn
— 1,645 ist, erhält man die Bereiche (~o°;l 1,20] und [lO,88; 00).
7.2.2 Konfidenzintervall für den Erwartungswert einer Normalverteilung mit unbekannter Varianz In diesem Fall können wir nicht die Prüfgröße Vi-
X-n
zur Berechnung des Konfidenzintervalls verwenden, da die Varianz unbekannt ist. Naheliegend ist es o 2 durch
zu schätzen. Die Prüfgröße X-ji
ist t-verteilt mit (n-1) Freiheitsgraden (vgl. Abschnitt 5.2.5). Daher gilt ^ r
x-n^ l-a/2
112
7 Statistisches Schätzen
woraus man das folgende Konfidenzintervall für n bei unbekanntem o erhält s
_ X
—
'n-l;l-a/2
'
_ '
X
s ^n-l;l-ct/2
'
wobei tn_,;i_0t/2 die (l-a/2)-Quantile der t-Verteilung mit ( n - l ) Freiheitsgraden sind (vgl. Tab. 5 der t-Verteilung im Anhang).
Beispiel: In unserem Beispiel mit dem Benzinverbrauch ergibt sich mit s
0,784
^ 0 , 0 8 7 1 - 0 , 2 9 5 1 ein Konfidenzintervall zum Niveau 1 - a = 0 , 9 8 zu 0,2951 0,2951" 11,04 - 2,82 • r— ; 11,04 + 2,82
Vio
VlÖ
= [lO,78; ll,3o], da sich t 10—1;1—0,02/2
~ l9;0,99
= 2,82 aus der Tabelle 5 der t-Verteilung im Tafelanhang ergibt. Mit
Wahrscheinlichkeit 0,98 überdeckt dieses Intervall den mittleren Benzinverbrauch
7.2.3 Asymptotisches Konfidenzintervall Die oben beschriebene Prozedur zur Konstruktion eines Konfidenzintervalls ist jedoch nicht immer anwendbar. So kann es passieren, daß entweder die Grundgesamtheit nicht normal verteilt ist, oder die Schätzfunktion 0 n sich nicht in eine Größe transformieren läßt, deren Verteilung unabhängig ist von den unbekannten Parametern. Man kann aber oft noch, zumindest für große Stichprobenumfänge, die Verteilung der Zufallsvariablen
mit o ( 9 ) = -4L durch die Standardnormalverteilung approximieren. Dazu muß gelten
30. Beispiel: Eine Einkommensstichprobe vom Umfang n = 2500 Haushalten ergab ein Stichprobenmittel von x = 4500 und eine Stichprobenstandardabweichung von â = s = 4000. Es soll ein 0,99-Konfidenzintervall für das durchschnittliche Haushaltseinkommen berechnet werden. Aus der deskriptiven Statistik wissen wir, daß Haushaltseinkommen rechtsschief, also nicht normalverteilt sind. Aufgrund des zentralen Grenzwertsatzes ist X asypmtotisch normalverteilt, so daß wir folgendes approximatives Konfidenzintervall berechnen können x
à à ~ ul-ct/2 ' ~~f= ' x + ul~a/2 ' "7= Vn
Vn.
bzw. 4500-2,58• bzw.
4000 I,
; t4500 j w -+ r ¿.rJO 2,58-
,
V2500
4000 ,
V2500.
[4293,6 ; 4706,4].
Bei der Ziehung ohne Zurücklegen aus einer endlichen Grundgesamtheit wird u i-a/2 0 f t ersetzt durch U
l-ct/2 - Ul-a/2
N-n N-l
wobei man mit
— - = ,11 - — den Endlichkeitskorrekturfaktor beN - 1 V N zeichnet (vgl. Abschnitt 3.2); N ist hierbei die Anzahl der Elemente in der Grundgesamtheit. Ist der Auswahlsatz
< 0,05, so kann dieser Faktor
vernachlässigt werden, da er dann sehr nahe bei 1 liegt.
7.2.4 Konfidenzintervall für die Varianz a 2 bei normalverteilter Grundgesamtheit Aus Abschnitt 5.2.5 wissen wir, daß die Größe (n - l)S 2 o2 X2-verteilt ist mit n-l Freiheitsgraden; also gilt
114
7 Statistisches Schätzen
2
9 gerechtfertigt ist, sehr leicht angeben, da der zentrale Grenzwertsatz anwendbar ist. z = .
P-P
Vp(l-p)/n ist dann nämlich approximativ N(0,1)-verteilt. Das Konfidenzintervall läßt sich nun aus der Gleichung
116
7 Statistisches Schätzen
• 1 CX, y
d.h. P - U.-o/2-j
P-(I-P) ^ P^ P+ "W2-J—^
n
= l-a
bestimmen zu [p, ; p 2 ] mit
2m + u,^,., - u W
• J u , . ^ + 4m
2
Pi =" 2
/
- , Ul-a/2 P ~2n
U
' ^
/ 2
2
I ^l-ct/2 l ~ 4 n r
P(1~P)
l-o/2
1+ und 2m + u ^ P2 ="
2
+ u,_u/2
+ 4m
1-
m
2-(n + u ^ 2 ) U
l-q/2
V 1+
^2
(
P-(I-P)
J
l-o/2
Bei großem Stichprobenumfang n lassen sich obige Grenzen weiter vereinfachen, dabei müssen folgende Bedingungen gelten: l_a/ a) — — muß sehr klein sein gegenüber 1; u
i-
n >
4-2
• 0,5 • 0,5 1 = 10000. 2 0,02
8 STATISTISCHES TESTEN 8.1 Grundlagen In diesem Abschnitt geht es um Verfahren, die die Richtigkeit von Aussagen über die Verteilung einer Zufallsvariablen überprüfen sollen, etwa, ob ein Parameter größer oder kleiner als ein bestimmter Wert ist oder in einem bestimmten Intervall liegt, ob die Zufallsvariable normalverteilt ist usw. Solche Verfahren können natürlich nicht immer die richtige Entscheidung liefern, da die Ergebnisse eines zufälligen Vorgangs als Entscheidungsgrundlage dienen. Beim Vorliegen einiger der möglichen Verteilungen ist die Wahrscheinlichkeit falsch zu entscheiden, jedoch durch einen kleinen vorgegebenen Wert a beschränkt. Nehmen wir einmal an, es sollte überprüft werden, ob ein Parameter der tatsächlich vorliegenden Verteilung in einem bestimmten Bereich liegt oder nicht. Diese beiden verschiedenen Möglichkeiten wollen wir Null- und Alternativhypothese nennen und mit Ho und Hi bezeichnen. Interessieren wir uns z.B. dafür, ob der Parameter einer N(JA, es2 )-Verteilung größer oder kleiner als ein Wert |IO ist, so könnte etwa |x < n 0 die Nullhypothese und ji > ji0 die Alternativhypothese sein. Man beobachtet nun eine Stichprobe x,,...,x n und soll sich aufgrund dieser Werte für eine der beiden Hypothesen entscheiden. Dabei kann man einerseits den Fehler machen, daß, obwohl Ho vorliegt, man sich für Hi entscheidet, also einen sogenannten Fehler 1. Art machen. Andererseits kann man sich auch fälschlicherweise für Ho entscheiden. Man spricht dann von einem Fehler 2. Art, vgl. auch Tab. 8.1. Man weiß natürlich nicht, ob man in einer konkreten Situation einen Fehler macht, sondern lediglich, welcher Art dieser ist. Ist aber bekannt, daß das verwandte Entscheidungsverfahren nur mit einer Wahrscheinlichkeit von höchstens et den Fehler 1. Art (a-Fehler) macht, so spricht man von einem Test zum Niveau a (bzw. Niveau-a-Test), egal mit welcher Wahrscheinlichkeit ß der Fehler 2. Art (ß-Fehler) vorkommt. Man ist jedoch darum bemüht, solche Tests zu finden, die neben der Einhaltung des vorgegebenen Signifikanzniveaus a die Wahrscheinlichkeit für den Fehler 2. Art möglichst klein machen. Über die Größe dieser Wahrscheinlichkeit werden oft keine Angaben gemacht. Aufgrund dieser Ungleichbehandlung der beiden Fehlerarten wird die eigentlich interessierende Fragestellung als Alternativhypothese Hi formuliert. Dadurch wird auf jeden Fall sichergestellt, daß man, wenn man sich für Hi entscheidet, nur mit einer Wahrscheinlichkeit von höchstens a eine Fehlentscheidung getroffen hat.
124
8 Statistisches Testen
Tab. 8.1: Fehlerarten beim Testen Es liegt vor Entscheidung für
H]
Ho
Fehler 2. Art (ß-Fehler)
Ho
Fehler 1. Art (a-Fehler)
Hi
Wie sieht so ein Test nun konkret aus? Nehmen wir an, es soll getestet werden H o : 0 < e o gegen H 1 : 9 > 9 0 , d.h. man möchte wissen, ob der Parameter 0 der vorliegenden Verteilung größer oder kleiner als ein Wert 0o ist. In so einem Fall ordnet man mit Hilfe einer sogenannten Teststatistik (Prüfgröße) T den Beobachtungen Xp-.^X,, eine Zahl T(x,,...,x n ) zu, bei der ein großer Wert eher für das Vorliegen von Hi und ein kleiner eher für das von Ho spricht. Außerdem sucht man eine Zahl c , ^ , für die gilt Pe(T > c,_J < a für alle 0 e H 0 , wobei der Index 0 andeuten soll, daß die Wahrscheinlichkeit bei Vorliegen von 0 gemeint ist. Trifft man nun die Entscheidung für Hi, falls T > c ^ , und die Entscheidung für Ho, falls T < c,_ a , so handelt es sich bei dieser Entscheidungsregel um einen Test zum Niveau a. Der Wert c,_a heißt kritischer Wert des Tests, der Bereich T > c,_a Ablehnungsbereich und der Bereich T < c l a Annahmebereich des Tests. Entscheidet man sich für Ho, so sagt man auch, die „Nullhypothese wird angenommen" bzw. die „Nullhypothese kann nicht verworfen werden" und bei der Entscheidung für Hi, die „Nullhypothese wird verworfen" bzw. die „Alternative wird angenommen" bzw. die „Alternativhypothese Hi ist signifikant (zum Niveau a)" bzw. die „Alternative ist zum Niveau a statistisch gesichert". Beispiel: Eine Maschine verpackt Zucker in Tüten zu je 500g. Man kann dabei annehmen, daß die tatsächliche Füllmenge N(]a,a 2 )-verteilt ist, also um einen mittleren Wert ji schwankt. Der ParameterCTsei vom Hersteller der Maschine mit 2,7g angegeben. Man möchte nun wissen, ob die Maschine im Mittel mehr als Ji0 - 500g abfüllt. Dazu wird die Füllmenge von 9 Tüten ermittelt, die von dieser Maschine verpackt wurden. Die Werte sind in Tab. 8.2 wiedergegeben. Tab. 8.2: Füllmengen von Zuckertüten 1 2 Laufende Nr. i der Messung Füllmenge x, in g 506 502 Wir formulieren das Testproblem
3 500
4 505
5 499
6 505
7 501
8 504
9 ] 498 |
8.1 Grundlagen 125 ße8en
H0
H
i
Ist der Mittelwert x der beobachteten Stichprobe x[,...,x n relativ groß, so spricht das sicherlich für das Vorliegen von Hi. Ist er dagegen relativ klein, so würde man eher annehmen, daß es sich um Ho handelt. Wir benutzen deshalb als Teststatistik die Größe Vn • ( x - • |i 0 ) / a , die N(0,1)verteilt ist, wenn der wahre Parameter |io ist. Es gilt also, falls H = |i 0 ist, r Vn
^ - ^ q >. u.
Wahrscheinlichkeit für den Fehler I. Art
H-—— — • (l,96 + 0 , 2 6 f = 8,98 . (502 - 500) Man braucht also mindestens 9 Testbeobachtungen, damit bei dem hier verwandten Gaußtest zum Niveau a = 0,025 schon ein um 2g zu hohes durchschnittliches Füllgewicht mit einer Wahrscheinlichkeit von mindestens 0,6 entdeckt wird.
Wir wollen noch kurz auf eine Vorgehensweise eingehen, die häufig von Praktikern und statistischen Programmpaketen gewählt wird. Man kann sich natürlich fragen, bei welchem Niveau der verwandte Test gerade noch abgelehnt hätte. Ist diese Größe, die man Level attained, p-Wert, (p-Value) oder descriptive Level nennt, kleiner oder gleich dem vorher festgesetzten Niveau (!), so lehnt man die Nullhypothese ab und andernfalls wird sie angenommen. Auf diese Weise kommt man zu der gleichen Entscheidung wie bei der oben beschriebenen Vorgehensweise. Dabei ist die Forderung, das Niveau vorher festzulegen, eine Forderung an die Ehrlichkeit des Statistikers. Man könnte nämlich jede Nullhypothese verwerfen, wenn das Niveau nachträglich etwas größer als der Level attained festgesetzt würde. Beispiel: Bei dem in diesem Abschnitt als Beispiel verwandten Gaußtest ist der p-Wert gerade derjenige Wert p , für den gilt:
r X'^o
Vn
o
, ~ , J r l
= U[_s , also p = 1 - iH Vn
x
® ,
Es ergibt sich konkret p = 1 - $ ( 2 , 4 7 ) = 0,007 . Dieser Wert ist kleiner als das vorher festgelegte Niveau a = 0,025, so daß auch bei dieser Vorgehensweise wie erwartet die Nullhypothese verworfen wird.
8.2 Beurteilungskriterien für statistische Tests Die Eigenschaften eines Tests werden durch die Gütefunktion vollständig beschrieben, was wir schon im vorigen Abschnitt erwähnt haben. Wie sollte diese Funktion nun aussehen? Ideal wäre eine Gütefunktion mit g(9) = 0 für 8 e H0 und g(e) = 1 für 0 e H,, so daß der zugehörige Test mit der Wahrscheinlichkeit 1 richtig entscheidet. Das ist natürlich nicht möglich. Durch die Festsetzung des Niveaus a wird allerdings die Wahrscheinlichkeit für den Fehler 1. Art durch a begrenzt, d.h.
128
8 Statistisches Testen
g ( e ) < a für alle 9 e H 0 . Eine oftmals vernünftige Forderung an einen Niveau-a-Test, die auch von vielen solchen Tests erfüllt wird, wie z.B. von dem Gaußtest, ist die Unverfälschtheit, d.h. g(0)>a für alle 0 e H,. Das bedeutet, daß die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn diese tatsächlich nicht vorliegt, mindestens so groß sein sollte, als wenn sie vorgelegen hätte. Außerdem wird man in der Regel erwarten können, daß der Test mit wachsender Beobachtungszahl n immer besser wird, d.h. g(e)
1, falls n
°°, für 0 e H,.
Diese Eigenschaft nennt man Konsistenz, genauso wie bei den Parameterschätzungen. Ebenso wie dort sagen auch hier die beiden Eigenschaften Unverfälschtheit und Konsistenz noch sehr wenig über die Güte aus. Dagegen liegt ein Optimum vor, wenn man sagen kann, es handele sich um einen gleichmäßig besten Niveau-a-Test, d.h. wenn dessen Gütefunktion g auf Hi gleichmäßig besser ist als die Gütefunktion g eines beliebigen anderen Niveaua-Tests für das gleiche Problem: g(0)>g(e) für alle 0 e H , . Diese Eigenschaft hat z.B. der einseitige Gaußtest. Für das damit im vorigen Abschnitt behandelte Testproblem gibt es also keinen Niveau-a-Test mit geringerer Wahrscheinlichkeit für den Fehler 2. Art. Wir sind bisher immer davon ausgegangen, daß wir das Niveau eines Tests exakt angeben können. Das ist aber nicht immer der Fall. Dann ist es aber manchmal noch möglich zu zeigen, daß der gewünschte Wert a zumindest nicht überschritten wird. Man kann nämlich gelegentlich zeigen, daß die Gütefunktion auf einer größeren, aber eventuell einfacher strukturierten Menge H 0 als es die Nullhypothese H0 ist, durch a beschränkt wird. Benutzt man den Test nun als Niveau-a-Test für das obige Problem, so kann man mit einem sogenannten konservativen Verhalten rechnen, d.h. einem längeren Festhalten an der Nullhypothese als es eigentlich notwendig wäre. Dienen asymptotische Überlegungen zur Konstruktion eines Tests, so läßt sich über das Niveau oft nur sagen, daß es bei genügend großem Stichprobenumfang in der Nähe von a liegt. Ist z.B. nur bekannt, daß X,,...,Xn unabhängig identisch verteilt sind (nicht notwendig normalverteilt) mit bekannter Varianz a 2 und unbekanntem Erwartungswert n, und benutzt man für das Testproblem
8.3 Arten von Hypothesen und allgemeine Bemerkungen 129
geg en H, : j i > H 0
H0 die Teststatistik
CT mit dem kritischen Wert u l a , so hat das Niveau dieses Tests ungefähr den Wert cc, wenn der Stichprobenumfang genügend groß ist. Nach dem zentralen Grenzwertsatz gilt nämlich P(Tn > u , ^ )
a für n
°°.
8.3 Arten von Hypothesen und allgemeine Bemerkungen Wir hatten bislang Hypothesen der Form H O : 0 < 0 O gegen H , : 0 > 0 O kennengelernt. Diese und die Hypothesen H O : 0 > 0 O gegen H , : 0 < 0 O bezeichnet man als einseitige Hypothesen. Derartige Hypothesen reichen jedoch nicht zur Beschreibung aller statistischen Testprobleme aus. Die Gründe hierfür sind: (1) Manchmal möchte man auch Hypothesen über einen Parametervektor prüfen. (2) Beschreibt der Parameter 0 einen Unterschied, z.B. einen Behandlungsunterschied zwischen zwei Medikamenten, so möchte man prüfen, ob überhaupt eine Wirkung vorhanden ist, d.h. es interessiert H 0 : 0 = 0 gegen H, : 0 * 0 . Allgemein heißt H 0 : 0 = 0O gegen H , : 0 * 0O eine zweiseitige Hypothese. Die Testprobleme zu den obigen Hypothesen heißen dann einseitige bzw. zweiseitige Testprobleme. Testet man nicht Hypothesen über den Parameter einer Verteilung, sondern über den Typ einer Verteilung, etwa darüber, ob es sich bei den beobachteten Werten um Realisationen normalverteilter Größen handelt, so spricht man von einem Anpassungstest. Im Gegensatz zu den übrigen Testproblemen, den sogenannten Signifikanztests, liegt hier das Interesse darin, die Nullhypothese nicht zu
130
8 Statistisches Testen
verwerfen; daher sollte hier das Niveau et mitunter auch hoch (z.B.: a = 0,9) gewählt werden. Bedeutet z.B. die Gültigkeit der Nullhypothese, daß eine Normalverteilung vorliegt, so möchte man diese Hypothese natürlich annehmen. Man kann dann aber aus der Nichtablehnung der Nullhypothese nicht schließen, daß eine Normalverteilung auch tatsächlich vorliegt. Die irrtümliche Annahme der Nullhypothese ist nämlich ein Fehler 2. Art, über dessen Wahrscheinlichkeit man hier keine Aussage machen kann. Vor einer unkritischen Übernahme der gelegentlich anzutreffenden Vorgehensweise, bei der man zunächst einen Anpassungstest rechnet, der die Normalverteilungsannahme nicht verwirft, und anschließend einen Normalverteilungstest über die Parameter durchführt, kann nur gewarnt werden. Falls eine Nullhypothese Ho nur aus einem Element besteht, z.B. beim Test auf Standardnormalverteilung, so spricht man von einer einelementigen Nullhypothese. Bestünde Ho z.B. aus allen Normalverteilungen, so hieße Ho zusammengesetzte Nullhypothese.
8.4 Testen von Parameter-Hypothesen und Bestimmung des notwendigen Stichprobenumfangs 8.4.1 Parametertests
A. Hypothesen über den Mittelwert |x einer normalverteilten Grundgesamtheit Wir wollen hier Hypothesen über die Parameter ^ und o 2 einer normalverteilten Grundgesamtheit testen. Zunächst betrachten wir Hypothesen über den Mittelwert jx. Die einseitigen Hypothesen und Alternativen sind dabei H0I : H ^ Ho g e g e n H u : |i > H0 und H 0 2 : n > | i 0 gegen H l j : | i < n 0 . Im zweiseitigen Testproblem wird H03
=
gegen
h
b
getestet. Alle diese Tests werden zum Niveau a durchgeführt.
8.4 Testen von Parameter-Hypothesen und Bestimmung des notwendigen 131 Stichprobenumfangs
Wir müssen nun verschiedene Fälle unterscheiden: (a) Die VarianzCT2ist bekannt In diesem Falle können wir natürlich den Gauß-Test, den wir schon in Abschnitt 8.1 kennengelernt haben, anwenden. Testen wir Hoi gegen Hn, so verwerfen wir die Nullhypothese zum Niveau a, falls z>u,_a
mit z =
r -
o
--vn
ist. Beim Test von H02 gegen H]2 verwerfen wir dagegen die Hypothese H02 zum Niveau a im Falle z t„-.;Mx
ist. Die Hypothese H02 wird dann verworfen, wenn gilt
132
8 Statistisches Testen
und die zweiseitige Hypothese müssen wir verwerfen, wenn N > tn-lil-d/Z (wegen der Symmetrie der zentralen t-Verteilung). Beispiel: In unserem Verpackungsbeispiel für Zucker wollen wir nun die Hypothese H 0 1 : n < 500 gegen die Alternative H n : |i > 500 zum Niveau a = 0,05 testen, falls die Standardabweichung o unbekannt ist. Aus den Daten schätzen wir s = 2,91. Es ergibt sich wegen t n _, ,_ a = t 8 0 95 = 1,86 und t =
502,22 - 500 2,91
r
V9 = 2,29 ,
daß die Nullhypothese Hoi zu diesem Niveau verworfen werden muß.
B. Hypothesen über die Varianz o 2 einer normalverteilten Grundgesamtheit Wir wollen nun Hypothesen über die Varianz a 2 einer normalverteilten Grundgesamtheit testen. Dabei ergeben sich keine grundlegenden Unterschiede daraus, ob der Mittelwert |X bekannt oder unbekannt ist, so daß wir beide Fälle zusammen abhandeln können. Die interessierenden Nullhypothesen (sowie Alternativen) für solche Tests über CT2 sind im einseitigen Falle g e g e n H„ : a 2 > a 2 ,
H01
H 0 2 : a 2 > ö20 gegen H 1 2 : a 2 < a20, und im zweiseitigen Testproblem H0J :O 2 =GO gegen H n : a 2 * c s 2 0 . Wie wir schon in Abschnitt 5.2.5 gesehen haben, ist die Zufallsvariable, deren Realisation y 2 = — — — (für unbekanntes ji) bzw. Oo %2 = —
1
(für bekanntes (i)
8.4 Testen von Parameter-Hypothesen und Bestimmung des notwendigen Stichprobenumfangs
133
ist, fürCT2= Cq %2 -verteilt mit n - 1 Freiheitsgraden bzw. n Freiheitsgraden. Die Entscheidungsregeln müssen also für unser Testproblem so lauten: Wir verwerfen die Nullhypothese Hoi, falls gilt X 2 > Xn-l;l-a (bZW. % 2 > X ' ; , - a )
und die Nullhypothese H02, falls gilt
x2 Zn:i-a/2 o d e r X2 15,507
= 4 auf dem 10% Signifikanzniveau verworfen werden.
Wir werden hier zunächst Tests von Hypothesen über den Parameter p C. Hypothesen über den Parameter p durchführen, wenn die Anzahl n der Versuche groß genug ist, um eine Approximation der Binomialverteilung durch die Normalverteilung zu
134
8 Statistisches Testen
rechtfertigen. Eine np(l-p)>9.
Faustregel besagt,
daß
dies
der
Fall
ist,
falls
gilt
Wir wollen für die einseitigen Fragestellungen H 0 i ; P - Po gegen H n : p > p 0 und H 02 : P ^ P o gegen H12 : p < p 0 sowie für die zweiseitigen Fragestellung H 0 3 : P = Po gegen H 1 3 : p * p 0 Niveau-a-Tests vorstellen. Für p = p 0 ist die Prüfgröße mit der Realisation z
_
m
~nPo
V n 'Po ' (l _ Po) ' die wir schon in Abschnitt 7.2.5 kennengelernt haben, approximativ standardnormalverteilt (m bezeichnet die Häufigkeit des interessierenden Ereignisses). Wir müssen also die Nullhypothese Hoi verwerfen, falls gilt z > »i-« und H02 verwerfen im Falle z Ul-a/2 • Beispiel: Es wird vermutet, daß die Hälfte der Dozenten in Statistik an deutschen Hochschulen unser Lehrbuch „Deskriptive Statistik" kennen. Bei einer Statistiktagung stellen wir fest, daß von 4 0 zufällig ausgewählten Dozenten nur 14 das Lehrbuch kennen. Wir wollen nun zum Niveau a = 0,05 die Hypothese H 0 3 : p = 0,5 gegen die Alternative H 1 3 : p * 0,5 testen. Es ist 14 - 40 • 0,5 •JaO • 0,5 • 0,5 und
-1,897 = 1,897
= u 0 9 7 5 = 1,96.
Die Nullhypothese, daß 50% der Dozenten das Lehrbuch kennen, kann also nicht verworfen werden.
Ist n klein, so machen wir uns die Tatsache zunutze, daß die zur Realisation m gehörige Zufallsvariable M unter der Hypothese p = p 0 nach B(n,po)-verteilt ist.
8.4 Testen von Parameter-Hypothesen und Bestimmung des notwendigen Stichprobenumfangs
135
Wir verwerfen Hoi, wenn m größer als c,_a ist, wobei sich c , ^ bestimmt als der kleinste Wert y mit £
;
1 v /
-pi ( l - p „ r
(J,0 eine Wahrscheinlichkeit ß für den Fehler 2. Art vor, so muß, um beide Fehler einhalten zu können,
sein. Dabei bezeichnet a die bekannte Standardabweichung in Grundgesamtheit. Aus eben dieser Formel bestimmt sich n auch, wenn wir
der
H 0 2 : H > m gegen H l2 zum Niveau a testen bei vorgegebener Wahrscheinlichkeit ß für den Fehler 2. Art an der Stelle n, < (i 0 . Im zweiseitigen Testproblem zum Niveau a H 03
=
gegen H13
ergibt sich n bei vorgegebener Wahrscheinlichkeit ß für den Fehler 2. Art an einer Stelle (i, * n 0 zu
136
I Statistisches Testen
n>
("i-O/Z+UHJ-CT h-Mo
In den exakten Formeln ist hier o , die Varianz der Grundgesamtheit, als bekannt vorausgesetzt. Näherungsweise lassen sich die Formeln natürlich auf Situationen Ubertragen, woCTzwar unbekannt ist, aber eine gute Abschätzung s vorhanden ist. Beispiel: Wir wollen den nötigen Stichprobenumfang n bestimmen, um beim Test zum Niveau a = 0,025 H 0 j : h > 1 5 gegen H I 2 : n < 15 an der Stelle
= 12 eine Wahrscheinlichkeit für den Fehler 2. Art von ß = 0,05 abzusichern. 2
Die VarianzCT der Grundgesamtheit nehmen wir einmal als a 2 u
n >
( i-q
+ u
i-p)
Ho - Hi
g
(l,96 + l , 6 4 5 ) - 3
9 an. Es ergibt sich 10,815
= 12,996,
15-12
d.h. wir müssen mindestens eine Stichprobe vom Umfang n = 13 ziehen. Damit haben wir dann sichergestellt, daß - falls H02 vorliegt - man sich höchstens mit Wahrscheinlichkeit a = 0,025 (fälschlicherweise) für die Alternative H i 2 entscheidet und daß - falls in Wirklichkeit der wahre Parameter
kleiner als Hj
=
12 ist - man sich höchstens mit Wahrscheinlichkeit ß = 0,05
(fälschlicherweise) für die Hypothese H02 entscheidet.
B. Parameter p einer Binomialverteilung Es wird wieder vorausgesetzt, daß die Anzahl der Versuche groß genug ist, damit die Binomial- durch die Normal Verteilung approximiert werden kann. Bei kleineren Anteilen (p < 0,1) kann zur Bestimmung des Stichprobenumfangs die Poissonapproximation herangezogen werden (vgl. Krumbholz, Pflaumer (1982), S. 1094 f). Wollen wir H01 ' P ^ P o gegen H n : p > p 0 zum Niveau a testen und dabei eine Wahrscheinlichkeit ß für den Fehler 2. Art an einer Stelle p, > p0 absichern, so müssen wir als Stichprobenumfang
n >
VPo-il-Pol-Ul-a+Vp,
-(l-Pi)-Ui-
Pl - Po
;
wählen. Die gleiche Formel zur Bestimmung von n gilt für die Fragestellung H 0 2 : p > Po gegen H 1 2 : p < p 0 bei vorgegebenem ß-Fehler an einer Stelle p, < p 0 . Im zweiseitigen Testproblem
8.5 Anpassungstests
137
H 0 3 : P = Po gegen H 1 3 : p * p 0 zum Niveau a bestimmt man den Stichprobenumfang n aus \2
n >
V P o - ( l - P o ) - U l - q / 2 + y p r i 1 - Pl ) • U H Pl " P o
wenn man an einer Stelle p, / p 0 eine Wahrscheinlichkeit ß für den Fehler 2. Art vorgibt. Beispiel: Wir wollen zum Niveau a = 0,05 H 0 1 : p < 0,3 gegen H n : p > 0,3 testen und dabei an der Stelle p, = 0,5 eine Wahrscheinlichkeit für den Fehler ß = 0,05 2. Art vorgeben. Um dann die beiden Fehlerwahrscheinlichkeiten a und ß nicht zu überschreiten, müssen wir eine Stichprobe vom Umfang Vpo ( l - P o )
n >
"i-q + V P r ( l - P i ) ' " i V
P,-Po (
^
i / o , 3 • 0,7 • u 0 95 + V o , 5 0 , 5 • u 0
95
,
^
0,5 - 0,3 VÖ21 • 1,645 + VÖ25 • 1,645 0,2
= 62,1
aus der Grundgesamtheit ziehen.
8.5 Anpassungstests In diesem Abschnitt wollen wir den % 2 -Anpassungstest sowie den KolmogoroffSmirnov-Test für Einstichprobenprobleme kennenlernen. Liegen n unabhängige Beobachtungen x,,...,x D vor, so überprüfen solche Anpassungstests die Hypothese, daß die Beobachtungen aus einer Grundgesamtheit stammen, welche bezüglich des betrachteten Merkmals - wie im folgenden i.a. angenommen wird normalverteilt ist.
8.5.1 /2-Anpassungstest Mit Hilfe des Hypothese
% 2 -Anpassungstests
auf
Normalverteilung
Ho: die Grundgesamtheit ist n(h 0 ,ct^)-verteilt
können
wir
die
138
8 Statistisches Testen
gegen die Alternative Hi: die Grundgesamtheit ist nicht N((I0,CT^)-verteilt zum Signifikanzniveau a testen (mit spezifizierten Weiten Ho und ö l ) . Wir gehen dabei wie folgt vor: 1. Schritt: Wir unterteilen das reelle Intervall ( in k Klassen. 2. Schritt: Nun müssen wir feststellen, wie viele unserer beobachteten Meßwerte x,,..., x n in jeder Klasse liegen. Diese Anzahlen bezeichnen wir mit Oi, i = 1,..., k (dabei steht 0 für „observed"). 3. Schritt: Wir berechnen die Wahrscheinlichkeit pi = P ( X e i j , i = l,...,k, mit denen eine Beobachtung unter der Hypothese Ho in der i-ten Klasse liegt. Die Zahl E; = n • pj, i = 1,..., k , (E steht für „expected") ist dann die Zahl der unter Ho erwarteten Beobachtungen in der i-ten Klasse. 4. Schritt: Wir berechnen für unsere konkret vorliegende Beobachtungsreihe die Größe
die unter Ho asymptotisch x 2 - v e r t e i l t ist mit k - 1 Freiheitsgraden. Diese Approximation ist hinreichend genau, falls nicht mehr als 20% der E; kleiner als 5 sind und kein Wert Ej kleiner als 1 ist. Wir müssen die Nullhypothese Ho nun zum Signifikanzniveau a verwerfen, falls gilt
Möchte man die Nullhypothese Ho: die Stichprobe ist N(|x,o 2 )-verteilt gegen H j : die Stichprobe ist nicht normalverteilt testen, wenn man fi und a 2 nicht auf bestimmte Werte festlegt, so ist es auch noch möglich, den x 2 -Test zu verwenden. Schätzt man die Parameter und o 2 nach der Maximum-Likelihood-Methode aus den Klassenhäufigkeiten, so reduziert sich die Anzahl der Freiheitsgrade um 2.
8.5 Anpassungstests Verwendet
hingegen
die
Stichprobenschätzer
m = x
und
nur n ä h e r u n g s w e i s e
richtig.
n
1
s2 =
man
139
n-1
Y ( x , - x)2, w
so
ist
dieses
Vorgehen
A l l e r d i n g s i s t e s in s o l c h e n F ä l l e n korrekt, Ho z u v e r w e r f e n , f a l l s
T
>
5Ck-l-2;l-a '
b z w . nicht z u verwerfen, falls T — Xk-l-2;l-a gilt. H i e r b e i i s t m a n b e i m V e r w e r f e n v o n Ho a l l e r d i n g s z u k o n s e r v a t i v . Völlig
analog
läßt
sich
der
%2-Anpassungstest
für
beliebige
Verteilungen
durchführen. Werden dabei aus der Stichprobe geschätzte Parameter benutzt, so s i n d e n t s p r e c h e n d d i e F r e i h e i t s g r a d e v o n %2 u m d i e A n z a h l d e r
geschätzten
P a r a m e t e r z u verringern. Beispiel: Ende des 19. Jahrhunderts untersuchte der berühmte englische Statistiker Karl Pearson Mitschriften gefallener Nummern und Farben beim Roulette in Monte Carlo. Die folgende Tabelle zeigt, wie oft bei 4274 Versuchen bzw. Coups hintereinander Rot erschienen ist, wobei die Null nicht mitgezählt worden ist (vgl. Pearson (1894), S. 189). Tab. 8 3 : Anzahl der Wiederholungen von Rot beim Roulette Anzahl 1 2 | 3 4 6 7 5 Rot ist ...mal hinter2462 945 333 220 135 81 43 einander erschienen
8
9
10
11 I 12
30
12
7
5
1
Unter der Hypothese, daß Rot und Schwarz gleichwahrscheinlich sind, erhalten wir als erwartete Häufigkeiten für einmal Rot 4274 • 0,5 = 2137 , für zweimal Rot 4274 • 0,5 2 = 1069, für dreimal Rot 4274 • 0,5 3 = 534, etc. (vgl. Tab. 8.4). Tab. 8.4: Erwartete Anzahl der Wiederholungen von Rot beim Roulette Anzahl 4 1 2 3 5 6 7 8 Rot ist ...mal hinter2137 1069 534 267 134 67 33 17 einander erschienen Mit Hilfe der folgenden Arbeitstabelle berechnen wir die Prüfgröße T.
9
10
11
12
8
4
2
1
140
8 Statistisches Testen
Tab. 8.5: Arbeitstabelle zur Berechnung der Teststatistik T i
Oi
Ei
(Oi-E,)2
1 2 3 4 5 6 7 8 9 10 11 12 2
2462 945 333 220 135 81 43 30 12 7 5 1
2137 1069 534 267 134 67 33 17 8 4 2 1
105625 15376 40401 2209 1 196 100 169 16 9 9 0
(O.-E,)2
1 2
Es ist T = 172,4 und Xu 099
=
Ei 49,43 14,38 75,66 8,27 0,007 2,93 3,03 9,94 2,00 2,25 4,50 0,00 172,4
24,725 . Damit hat Pearson vermutet, daß der Roulettekessel hoch
signifikante Abweichungen von den zu erwartenden rein zufälligen Nummernfolgen produziert. Ursache hierfür sind u.a. in den technischen Mängeln der Roulettescheiben zu finden. Er schreibt: „ lf Monte Carlo roulette had gone on since the beginning of geological time on this earth, we should not have expected such an occurrence as this fortnight's play to have occurred once on the supposition that the game is one of chance. " (vgl. Pearson, 1894, S. 189f). Später kam jedoch heraus - wie Thorp (1969), S. 276 berichtet daß diese Permanenzen von Journalisten erfunden wurden, die beauftragt waren, die gefallenen Nummern beim Roulette zu notieren. „Es wurden also nur die persönlichen Abweichungen der Journalisten von Pearson als statistisch signifikant erklärt." Trotz Pearsons Untersuchung hat sich aber gezeigt, daß es beim Roulette zu signifikanten Abweichungen vom Zufall kommen kann (vgl. u.a. Basieux (1993) oder Barnhart (1992)).
8.5.2 Kolmogoroff-Smirnov-Anpassungstest Soll überprüft werden, ob die unbekannte Verteilungsfunktion F(x) der betrachteten Grundgesamtheit mit einer hypothetischen Verteilungsfunktion Fo(x) übereinstimmt, so kann man z.B. auch den Kolmogoroff-Smirnov-Test verwenden. Dabei muß vorausgesetzt werden, daß die hypothetische Verteilung Fo(x) stetig ist. Erfüllt Fo(x) diese Bedingung nicht, so ist der Test konservativ, hält also länger an der Hypothese der Gleichheit fest als geboten. Für „kleine" Stichprobenumfänge ist der Kolmogoroff-Smirnov-Anpassungstest besser geeignet als der %2-Test, da letzterer nur approximativ arbeitet. Die Hypothese H 0 :F(x) = F 0 (x) für alle x gegen die Alternative H, : F(x) * F 0 (x) für wenigstens einen Wert von x
8.5 Anpassungstests 141
wird getestet mittels der Prüfgröße mitDn=sup|F0(x)-Sn(x)() wobei S„(x) die empirische Verteilungsfunktion der Beobachtungen x,,..., x n bezeichnet, vgl. Pflaumer, Heine, Härtung (1999), S. 23 f, 0
,fallsx x i für genau k Beobachtungen Xj aus x,,...,x n . n ,fallsx >Xj fürallei =l,...,n 1 Die Größe D n gibt den größten vertikalen Abstand zwischen hypothetischer und empirischer Verteilungsfunktion an, vgl. Abb. 8.3.
Abb. 8.3: Prüfgröße des Kolmogoroff-Smirnov-Anpassungstests Die Hypothese Ho wird nun zum Niveau a verworfen, wenn gilt V^Dn>dn;1_a, wobei die Quantile d n l _ a für a = 0,20; 0,10; 0,05; 0,02; 0,01 aus der Tab. 8.6 entnommen werden können. Ist das gerade vorliegende n nicht in Tab. 8.6 zu finden, so nehme man das angegebene Quantil zum nächst größeren n.
142
8 Statistisches Testen
Tab. 8.6: Kritische Werte dn;1_0 für den Kolmogoroff-Smirnov-Anpassungstest n
5
8
10
20
40
>40
dn;0,80
1,00
1,01
1,02
1,04
1,05
1,08
dn;0,90
1,14
1,16
1,17
1,19
1,20
1,23
dn;0,95
1,26
1,28
1,29
1,31
1,33
1,36
1,40
1,43
1,45
1,47
1,49
1,52
1,50
1,53
1,55
1,57
1,59
1,63
dn;0,99
Dieses Vorgehen gilt für alle (stetigen) Verteilungsfunktionen Fq(x). Speziell im Falle einer n(h 0 ,OJ)-NormalVerteilung hat man F0(x)= x - H o
mit spezifi-
zierten Werten (io und a 2 ü . Dabei bezeichnet (z) die Verteilungsfunktion der Standardnormalverteilung. Interessiert man sich nicht für die Nullhypothese, daß die zugrundeliegende Grundgesamtheit
einer
speziellen
n(|x0,(TO)-Verteilung
(mit
spezifizierten
Werten |Uo undCT„) entstammt, sondern für die Nullhypothese H 0 : die Verteilung der Grundgesamtheit ist eine Normalverteilung N(|x,o 2 ) (mit nicht festgelegten jx und a 2 ) so ist der Kolmogoroff-Smirnov-Test nicht direkt anwendbar (vgl. aber Härtung, Elpelt, Klösener (1998), S. 184 ff.). Beispiel: Aus den in Deutschland gehandelten Rentenfonds werden zufällig n = 20 Fonds ausgewählt und ihre Wertentwicklung (Performance) im letzten Monat ermittelt (in %), vgl. Tab. 8.7. Tab. 8.7: Monatliche Performance (in %) von 20 Rentenfonds 1 2 3 4 Fonds-Nr. 5 6 Performance 0,79 0,68 0,75 0,73 0,69 0,77
7 0,76
8 0,74
9 0,73
10 0,68
Fonds-Nr. Performance
17 0,70
18 0,77
19 0,71
20 0,74
11 0,72
12 0,75
13 0,71
14 0,76
15 0,69
16 0,72
Zum Niveau a = 0,05 wollen wir mit Hilfe des x ? -Tests und des Kolmogoroff-Smirnov-Tests überprüfen, ob der Wertentwicklung der ausgewählten Rentenfonds eine Normalverteilung mit Parametern n = 0,75 und a 2 = 0,001 bzw. a = ^0,001 = 0,032 zugrunde liegt. 1. x 2 -Anpassungstest 1. Schritt: Wir bilden 3 Klassen aus dem Intervall
(-
•»). Nun berechnen wir die
Klassengrenzen. Es sollen dabei in jedem der drei Intervalle theoretisch gleich viele Beobachtungen
liegen,
also
I, =
w0
33
],
I2 = (w0
33,
w
0
u n d
8.5 Anpassungstests I3 = ( w 0 dann
66,°=),
143
wobei w a das a-Quantil der N(0,75;0,001)-Verteilung ist. Damit ist
p, = 0,33
für
i = 1,2,3. Wir bestimmen die Quantile 110,33 und Uo,66 der
Standardnormalverteilung und transformieren diese in die Quantile w0,33 bzw. w0 66 der N(0,75 ;0,001)-Verteilung: w 0 33 = 0,75 + 0,032 • ( - 0,43) = 0,736 w 0,66
= °-75 + ° - 0 3 2 ' °-43 = °-764 •
2.,3. Schritt: Wir bestimmen nun für die 3 Klassen die Größen Ej und O, (vgl. Tab. 8.8). Tab. 8.8: Arbeitstabelle zum %2-Anpassungstest im Beispiel 1 l
( — ;
2
0 , 7 3 6 ]
( 0 , 7 3 6 ;
3 0 , 7 6 4 ]
( 0 , 7 6 4 ;
Oi
11
6
3
Ei
6 , 6 7
6 , 6 7
6,67
Somit ergibt sich T = S — • ( 0 i - E j ) 2 = 4,898 und xh i = | Ei
0
95 = 5,991.
Die Hypothese kann demnach nicht verworfen werden. 2. Kolmogoroff-Smirnov-Anpassungstest Hier müssen wir zunächst die empirische Verteilungsfunktion S„(x) unserer Beobachtungen bestimmen, und dann aus der Beziehung / \ x - 0,75 F 0 ( x ) = = -1,645 kann die Hypothese H 0 2 : ist zum 5%-Niveau nicht signifikant größer als
~ p 2 > 0 nicht verworfen werden, d.h. |i 2
8.6 Zweistichprobentests
147
B. Tests bei unbekannten, aber gleichen Varianzen cti2 und a * der beiden Grundgesamtheiten Wissen wir lediglich, daß die Varianzen o^ und
gleich sind, so ist die Größe,
deren Realisation
X,
X, -0*1-1*2 )
t=-
1
2
1 n
ist, t
+
2
2
2
n
j
i
-verteilt. Dabei berechnet man die Stichprobenvarianz s2 p
_ ( n i ~ 1) - S f + ( n 2 ~ 1) ' S2 n, + n 2 - 2
als gewogenes arithmetisches Mittel der Stichprobenvarianzen s,2 und s 2 . Wir wollen nun die einseitigen Hypothesen Ho,: Hj H
:
o2 h
M*2 ^ d g e g e n H „ : ji, M*2 ^
d
gegen
H
:
i2 ^
> d,
0
gegen die Altemativhypothese H 13
-H2 *0
zum Niveau a = 0,05 testen. In unserem Beispiel mit den Mineralwasser-Quellen ergibt sich 2
1
12 /
\2
s, = - • S ( x n - x , ) 9 i=i
=0,00054
und sl = — • s ( x , = - X , ) 2 = 0 , 0 0 0 8 0 . 14 j=iV 1 ' Somit bestimmt sich der approximative Freiheitsgrad wegen v = 21,85 zu 21 (der Wert von v wird stets auf die nächstkleinere ganze Zahl abgerundet). Es ergibt sich |t| = 0,48 und t 2 1 ; 0 975 = 2,0796,
150
8 Statistisches Testen
so daß unsere Nullhypothese über die Differenz (ij - (J.2 zum 5% Niveau nicht verworfen werden kann. Wir gehen also weiter davon aus, daß beide Quellen im Mittel den gleichen Hydrogencarbonatgehalt enthalten.
8.6.2 Tests zweier abhängiger Meßreihen Wir kommen nun zu solchen Situationen, wo zwar die Beobachtungen innerhalb jeder Meßreihe voneinander unabhängig sind, jedoch nicht die beiden Meßreihen. Vielmehr sind hier die Meßreihen so untereinander gekoppelt, daß gerade jeder Beobachtung der einen Meßreihe genau eine Beobachtung der anderen Meßreihe zugeordnet werden kann. Beispiel: Die Sehstärke von n Personen wird am linken und rechten Auge festgestellt. Die erste Meßreihe entspricht den Beobachtungen am linken, die zweite Meßreihe den Beobachtungen am rechten Auge. Die Sehstärken linkes-rechtes Auge werden natürlich bei einer Person nicht unabhängig voneinander sein.
Hat man solche Meßreihen vorliegen, so wird man die natürlichen Beobachtungspaare betrachten. Für zwei auf die beschriebene Art und Weise voneinander abhängige Meßreihen mit je n Beobachtungen wollen wir im folgenden Lokations- und Dispersionsvergleiche durchführen. Um den Abschnitt nicht zu lang werden zu lassen, werden wir alle Verfahren an folgendem Beispiel erläutern. Beispiel: Zwei verschiedene Schlafmittel werden an n = 15 Patienten eines Krankenhauses auf ihre Wirksamkeit untersucht. Am ersten Tag erhalten die Patienten kein Medikament, am zweiten Tag das erste Schlafmittel und am dritten Tag das zweite Schlafmittel. Beobachtet werden für beide Schlafmittel die Abweichungen von der Schlafdauer am 1. Tag. Die gemessenen Abweichungen in Stunden sind in Tab. 8.11 zusammengestellt. Die natürlichen Beobachtungspaare sind hier natürlich die Messungen an der i-ten Person bei Schlafmittel 1 und 2. Tab. 8.11: Wirksamkeitsprüfung von 2 Schlafmitteln an 15 Personen Differenz Medikament 1 Medikament 2 Patient (i) d (*!•) (x2i) ( i = Xli ~ X 2 i ) 1 +3,6 -0,4 +4,0 2 +1,2 +0,6 +0,6 3 +0,3 +4,2 -3,9 4 -0,8 -2,5 + 1,7 5 +4,2 -3,5 +7,7 6 +0,8 -1,3 -2,1 7 +2,4 -2,6 -5,0 8 +3,2 +0,9 +2,3 9 -0,9 +0,9 + 1,8 +0,1 10 -0,3 -0,4 11 +2,7 -2,8 -0,1 12 -0,7 0,0 +0,7 13 +2,5 +3,4 -0,9 14 +0,7 -1,8 -1,1 -0,7 15 -2,0 + 1,3
8.6 Zweistichprobentests
151
Wir wollen hier Tests für die Differenz - \i 2 der Mittelwerte zweier Grundgesamtheiten angeben. Die Beobachtungen mögen dabei in oben beschriebener Weise voneinander abhängig sein. Dabei unterstellen wir, daß die Beobachtungen der ersten Meßreihe einer N(JJ,,,CT, 2 )-Verteilung, die der zweiten Meßreihe einer N ( | x 2 , a^)-Verteilung entstammen. Die n Beobachtungspaare sollen alle die gleiche Kovarianz a ^ besitzen. Wir betrachten die sogenannten gepaarten Differenzen d
i = x u - x 2i für i = l,...,n ,
die dann natürlich aus einer N(ju, -|i 2 ,Oj)-Verteilung stammen. Dabei ist die Varianz a \ der gepaarten Differenzen gerade CT
d=
+ °2 -
2ö
12 •
Wollen wir nun Tests für die Differenzen m - |i 2 angeben, so müssen wir zwei Fälle unterscheiden: A. Die Varianz o\ ist bekannt. B. Die Varianz o j ist unbekannt.
A. Varianz ( i / ist bekannt Kennen wir die Varianz o \ , d.h. kennen wir die Varianz beider Grundgesamtheiten sowie die Kovarianz der natürlichen Beobachtungspaare, so ist die Größe mit Realisation z =
d-^-H2), ^
wQbei 5 =
l . f d n f
i
,
standardnormalverteilt. Interessieren wir uns nun dafür, ob die Differenz - \i2 in einer gewissen Beziehung zu einem festen Wert Ho steht, d.h. wollen wir die Hypothesen H 0 i : Hi - m - ^o gegen H u : E EN H
- f i 2 > n0,
H
O2 HI " H 2 ^ HO G G
H
O3 : HI - H 2 = HO gegen H I 3 : n, - \i 2 * n 0
I 2 '• HI ~ H 2 < HO -
überprüfen, so müssen wir einen Test zum Niveau a für die Differenz der Mittelwerte durchführen. Ein häufiger Spezialfall ist in der Praxis
152
8 Statistisches Testen
Ho = ° >
also zum Beispiel im zweiseitigen Testproblem H03 gegen H13 die Prüfung der Hypothese, ob die Mittelwerte beider Grundgesamtheiten gleich sind. Wie wir aus Abschnitt 8.4.1 wissen, ist
bei Gültigkeit von - \i2 = p.0 Realisation einer standardnormalverteilten Zufallsvariablen, so daß wir den Einstichprobengaußtest hier auf die gepaarten Differenzen anwenden können. Wir müssen demnach die Hypothese H01 zum Niveau a verwerfen, wenn Z > u ! a-
und die Hypothese H02 zum Niveau a verwerfen, falls z-2
zum Niveau a = 0,01 testen. Es ist wegen d = 0,073 z
0,073 + 2
r— V15 = 2 , 6 7 6 .
3 Da = u0,99 = 2 ' 3 2 6 3 ist, muß die Hypothese verworfen werden. Zum Niveau 0,01 liefert der Test also, daß die Schlafverlängerung bei Mittel 2 signifikant weniger als zwei Stunden gegenüber Mittel 1 beträgt.
8.6 Zweistichprobentests
153
B. Varianz ö,\ ist unbekannt Ist a \ unbekannt, so müssen wir ö] aus unseren Beobachtungen schätzen mittels s^-i-r-^-d) n i i=1
2
.
Wie wir in Abschnitt 8.4.1 schon gesehen haben, ist dann
s
a
die Realisation einer t-verteilten Zufallsvariablen mit n - 1 Freiheitsgraden. Nun wollen wir unter der Annahme, daß a ] unbekannt ist, Tests zum Niveau a über die Differenz p,, - |i 2 der Mittelwerte zweier abhängiger Populationen herleiten. Unsere Hypothesen haben dabei die gleiche Gestalt wie in Abschnitt A. Da die Teststatistik mit Realisation tJbÜL.Vi Sd bei Gültigkeit von ji, -|0. 2 = |0.0 gerade t„ i-verteilt ist, können wir hier den schon aus Abschnitt 8.4.1 bekannten Einstichproben-t-Test auf die gepaarten Differenzen d,,...,dQ anwenden, d.h. wir müssen die Hypothese H01 : n, - (x2 < n 0 zum Niveau a verwerfen, falls gilt: t>t.-l;lH,Wir müssen weiter H 0 2 : (X, — (x2 > jx0 verwerfen, falls t ln l;l-a/2 ist. Beispiel: Kommen wir wieder zu den beiden Schlafmitteln, vgl. Tab. 8.11 zurück. Wir testen zum Niveau a = 0,05 die Hypothese h
02 : HI -1^2 ^ °-5 g e 8 en Hi2 :
Mit
~
< °' 5 •
154
8 Statistisches Testen
d = 0,073 und s2d = 1 0 , 3 5 6 , ergibt sich t =
0,073 - 0,5 /— , • V15 = - 0 , 5 1 4 . y 10,356
Wegen
'n-lja = '14,0,05 = "1.7613 können wir unsere H y p o t h e s e zu diesem Niveau nicht verwerfen.
Natürlich läßt sich auch bei abhängigen Meßreihen der Stichprobenumfang n bestimmen, um beim Testen der Differenz (j,, - \i 2 vorgegebene a - und ß-Fehler abzusichern. Wir können hier alle beschriebenen Verfahren anwenden, wenn wir nicht mehr die Beobachtungen selbst, sondern die Differenzen x n - x 2 i = d j , i =l,...,n , betrachten.
8.7 Einfache Varianzanalyse In einer Schweinezuchtfarm werden 44 Schweine gewogen und dann zufällig in vier Gruppen eingeteilt. Diesen vier Gruppen werden vier verschiedene Futtermittel verabreicht. Nach einer gewissen Zeit werden die Schweine wieder gewogen und ihre Gewichtszunahme festgestellt. Man erhält folgende Ergebnisse (Gewichtszunahme in kg): Gruppe Gruppe Gruppe Gruppe
1: 2: 3: 4:
8, 9,15, 10,16, 8,7, 11, 13, 8,12 17, 13, 9, 8, 10,13, 16,17, 12,11, 17 15, 13, 13, 14,15, 8,15,14,9, 6, 12 16, 12, 13, 12, 14, 11,8, 13, 17, 9, 14.
Getestet werden soll, ob hinsichtlich der mittleren Gewichtszunahme bei den vier Gruppen signifikante, d.h. durch die Fütterung hervorgerufene oder lediglich zufallsbedingte Unterschiede bestehen. Im letzten Fall wäre es vom Standpunkt der Gewichtszunahme aus betrachtet gleichgültig, mit welchem Futtermittel man mästet. Wir nehmen nun an, daß die Stichprobe aus der i-ten Gruppe (hier i = 1,2,3,4) aus einer normalverteilten Grundgesamtheit stammt mit Erwartungswert jij und der unbekannten Varianz a 2 . Unsere Nullhypothese lautet also
8.7 Einfache Varianzanalyse H
o : Hi = H2 =
155
=
gegen die Alternativhypothese H , : Hj / ^ für mindestens ein i, j 6 {1,2,3,4}. Man berechnet für jede der vier oder allgemein p Meßreihen den Mittelwert
n:i der natürlich ein Schätzer für
H
ist, sowie das Gesamtmittel
i=l j=l und erstellt die Varianzanalysetafel (ANOVA-Tafel) aus Tab. 8.12.
Streuungsursache
Freiheitsgrade (FG)
„ , _ Quadratsumme (SS)
Unterschiede zwischen den Meßreihen
p-1
SST^-fo.-y..)
Zufälliger Fehler
N-p
S S E ^ ^ - y , ) 1=1 j=i
Gesamt
N-1
SSG = ^ ^ (yy - y.. y i=l H
Mittlere Quadrat-
2
2
s u m m e ( M S )
M
S
T
~
M S E = f ^ P
Die Bezeichnungsweise in der Varianzanalyse wurde von dem Statistiker R. A. Fisher eingeführt und bezieht sich auf: ANOVA: (M)(S)ST:
(M)(S)SE: SSG:
Analysis of variance, Varianzanalyse; "(Mean) sum of squares for treatment", „(mittlere) Quadratsumme der Behandlungen", dabei versteht man die p Meßreihen als Versuchsauskommen, die p unterschiedlichen „Behandlungen" (in einem allgemeinen Sinne) von Versuchsobjekten entsprechen; "(Mean) sum of squares for errors", „(mittlere) Fehler-Quadratsumme"; "Grand sum of squares", „Gesamt-Quadratsumme".
Zu dem vorgegebenen Niveau a verwerfen wir die Nullhypothese H 0 : H , = H 2 = . . . = HP
156
8 Statistisches Testen
und schließen auf einen signifikanten Unterschied (zum Niveau a ) zwischen den Reihenmitteln genau dann, wenn P_MST MSE gilt (F-Test). Quantile F ,_N ,_a der F-Verteilung sind im Anhang (vgl. Tab 7a und 7b) vertafelt. Die Größe MSE ist ein erwartungstreuer Schätzer für die Varianz a 2 , und es gilt die sogenannte „einfache Streuungszerlegung" oder auch „Quadratsummenzerlegung" SSG = SST + SSE . Es gilt nämlich:
y i k - y = (ylk-yi.)+(yi.-y..);
^ =— "i
, i = i.-,p
H
Da (y,k - y. )2 = (yik -y,f
+ 2- (yik - yi. Xy,. - y . ) + ( y , - y. ) 2 .
gilt
j=i
j=l
h
h
= i(ylj-y,)2 + 2-(y,-y..)-|:(yij-ni.y,)+|:(y,-y..)2 h j=i j=i
= ^ ( y i j - y i . ) 2 + n i -(y,.-y.)2 j=I und somit ist
M j=i
i=i•1 Hj=l
— i 1
i=i j=i SSG
=
SST
+
SSE.
Mit den obigen Darstellungen läßt sich dies so interpretieren, daß die „Gesamtvariation" SSG sich aufspalten läßt in die „Variation zwischen den Meßreihen" SST und die „Variation innerhalb der Meßreihen" SSE. Der F-Test mit der Prüfgröße F = MST/MSE vergleicht mithin gerade diese
8.7 Einfache Varianzanalyse
157
„Variationskomponenten" (unter Berücksichtigung der zugehörigen Freiheitsgrade), „analysiert" also die verschiedenen „Varianzen" und schließt auf einen signifikanten Unterschied zwischen den Meßreihen, wenn die Variation zwischen den Meßreihen „wesentlich größer" ist als die innerhalb der Reihen. Die mittlere Fehlerquadratsumme M S E ist %2-vertcilt mit N - p Freiheitsgraden, MST ist bei Gültigkeit der Nullhypothese %2-vcrteilt mit p - 1
Freiheitsgraden.
Weiterhin sind MSE und MST stochastisch unabhängig, so daß F = M S T / M S E unter
obiger
Nullhypothese
einer
F-Verteilung
mit
p-1
und
N-p
Freiheitsgraden genügt, und somit kann deren (l - a)-Quantil zur Festlegung eines signifikanten Unterschiedes zwischen den Meßreihen herangezogen werden. Beispiel: Für die Teilnahme an einer Statistikvorlesung für Fortgeschrittene haben sich 12 Studierende mit sehr gutem Vordiplom gemeldet, die nach Zufall in die Kurse 1, 2 und 3 aufgeteilt werden. Für jeden dieser Kurse hat der Dozent unterschiedliche Lehrmethoden entwickelt. Es soll nun getestet werden, ob die unterschiedlichen Lehrmethoden zu unterschiedlichem Lernerfolg geführt haben. Zu diesem Zweck wurde ein Abschlußtest durchgeführt, dessen Ergebnisse in Tab. 8.13 stehen. Tab. 8.13: Punktzahlen eines Abschlußtests in Statistik von drei Gruppen mit unterschiedlichen Lehrmethoden Punkte Gruppe 1 137 142 128 137 Gruppe 2 140 139 117 137 Gruppe 3 142 140 133 141 Die Losung erfolgt in vier Schritten. 1. Schritt: Die Gruppenmittelwerte sind g, = 136 g 2 = 133,25 g 3 = 139. Der Mittelwert der gesamten Stichprobe ist g = — • S n, • g, = — • (l36 +133,25 + 139) = 136,083 . 12 m
12
2. Schritt: Die Quadratsumme zwischen den Gruppen ist SST = 4 • ((g, - g_ ) 2 + (g 2 - g.. ) 2 + (g 3
_
g. ) 2 )
= 4 • ( i = l,...,n ,
Ryx = Siy.-y,)*
dient als Maß für die Gtite der Anpassung der geschätzten Regressionsgeraden an die Beobachtungswerte. Dies gibt den Anteil der Varianz von Y an, der durch die Regression erklärt werden kann. Für das Bestimmtheitsmaß gilt stets 0x2.x3))2 r
y.(X1,X2.X3) - 1 '
£ 2 o-2 Syi - 8 y ¡=1 235,9042 =1 = 1 - 0,0526 = 0,9474. 4486,02
Tab. 9.5: Aktienkurse yi, geschätzte Werte yi = ^ (x,, x 2 , x 3 ) und Residuen yx - yi, i = 1,. i 1 2 3 4 5 6 7 8 I
yi 60,1 80,5 38,9 86,7 74,6 90,4 120,3 52,5 604,0
y> 59,8155 85,6272 35,2953 80,5992 75,6823 99,0590 112,6377 57,4458
y, - Vi 0,2845 -5,1272 3,6047 6,1008 -1,0823 -8,6590 7,6623 -4,9458
(yi-y,)2 0,0809 26,2882 12,9939 37,2198 1,1714 74,9783 58,7108 24,4609 235,9042
Werden die Elemente der Matrix ( x T x ) ' w i e folgt bezeichnet
(XTX)"'=C:
s o ergibt sich als (1 - a )-Konfidenzintervall für den Parameter ßj der multiplen Regressionsbeziehung,
j=0,...,k,
[ b . - J s ^ C j j • V k _ 1 ; M l / 2 , bj + J s 2 - C j , • t B _ k _ l i M V 2 ].
9.2 Lineare multiple Regression
177
Beispiel: Es sollen Konfidenzintervalle zum Niveau 1 - a = 0,95 für die Parameter ßo, ßi, ß 2 und ß 3 der multiplen Regression zwischen dem Aktienkurs Y und den Einflußgrößen Xi, X 2 und X 3 bestimmt werden. Da die Fehlervarianz CT2 mit den Ergebnissen aus Tab. 9.5 bei n = 8 Beobachtungswerten durch s2 =
i ( y ; - y, f = - • 235,9042 = 58,9761 w 4
8-3-1
geschätzt wird, das Quantil der t n _ k _, -Verteilung sich zu 'n-k-U -a/2
= l
4;0,975
=
2,776
ergibt und die Diagonalelemente Cjj der Matrix ( x T x )
sowie die KQ-Schätzer b j für
j = 0,1,2,3 bereits berechnet wurden, erhält man als 0,95-Konfidenzintervall für ß 0 : [-188,5849 - ^58,9761-52,2430418 • 2,776 ; - l 88,5849 + ^58,9761 • 52,2430418 • 2,776] = [-188,5849 -154,0890 ; - l 88,5849 +154,0890] = [-342,6739 ;-34,4959], für ß , : [1,0589 - ^58,9761 • 0,0010842 • 2,776 ;1,0589 + ^58,9761 • 0,0010842 • 2,776] = [1,0589 - 0,7020 ;1,0589 + 0,7020] = [0,3569 ;1,7609], fiirß2: [3,9934 - ^58,9761-0,0102235 • 2,776 ;3,9934 + ^58,9761 • 0,0102235 • 2,776] = [3,9934 - 2,1555 ;3,9934 + 2,1555] = [1,8379 ;6,1489], fürß3: [0,2988 - V58.9761-0,2684328 • 2,776 ;0,2988 + 758,9761-0,2684328 • 2,776] = [0,2988 -11,0452 ;0,2988 +11,0452] = [-10,7464 ;11,3440], H ä u f i g interessieren H y p o t h e s e n über die Parameter ß 0 , ß , , . . . , ß k Regressionsfunktion.
Bei
vorgegebenen
Entscheidungsregeln zum Niveau a ,
Konstanten
ß-
der multiplen ergeben
vgl. Tab. 9.6, für j = 0 , l , . . . , k
sich
über die
Prüfgröße
die bei V o r l i e g e n v o n Ho die Realisation einer t n _ w - v e r t e i l t e n Zufallsvariablen darstellt.
178
9 Regressionsanalyse
Tab. 9.6: Tests zum Niveau a für Hypothesen Uber den Parameter ßj der multiplen Regressionsfunktion, j = 0,1,..., k Ho wird zum Niveau a verworfen, falls H, Ho
Mß?
* > 'n-k-l;l-ß"
t < t„-k -I,a
ßi 2
berechnet werden. Mit dem F-Test soll überprüft werden, ob die Regressoren insgesamt zur Erklärung des Regressanden beitragen, d.h. die Nullhypothese lautet H0:ß1=ß2=ß3=0; sie besagt, daß keiner der Regressoren einen Beitrag zur Erklärung liefert. 1416,90 = 24,09 > F, 58,8283 ' " Signifikanzniveau ab. Da F =
=6,5914 ist, lehnen wir die Nullhypothese auf dem 5%-
Allgemein wird eine Varianzanalysetafel im Fall einer Regression oft wie folgt dargestellt, vgl. Tab. 9.7. Tab. 9.7: Varianzanalysetafel mit k Regressoren und n Beobachtungen bei der Regression Freiheitsmittlerer _ .., ..„ 0i Streuung Prufgroße grade quadratischer Fehler ° Erklärte SSR k MSR = S S R F=MSR Streuung k MSE SSE Reststreuung SSE n- k - 1 MSE = n-k-1 Gesamtstreuung SSG n- 1 Die Teststatistik p=
MSR MSE
ist unter Annahme der Hypothese H„:ß,=ß2=ß3=... = ßk=0
9.2 Lineare multiple Regression
die Realisation einer Fk „_,._!-verteilten Zufallsvariable. Die Hypothese Ho wird also zum Niveau a verworfen, wenn F> F
gilt.
10 ABHÄNGIGKEITSANALYSE 10.1 Korrelationsanalyse Die Korrelation p X y der Zufallsvariablen X und Y, die durch _ XY
Cov(X,Y) V
Var
X
( )'
Var
P XY Y
( )
CT
X • °Y
definiert ist, beschreibt die lineare Abhängigkeit zwischen X und Y, d.h. diese stellt ein Maß für den linearen Zusammenhang zweier Zufallsvariablen dar. Es gilt - 1 < p XY < 1, mit |p XY | = 1 genau dann, wenn (mit Wahrscheinlichkeit 1) eine lineare Beziehung der Form Y = a + b- X , b * 0 , zwischen X und Y besteht. Im Falle der stochastischen Unabhängigkeit von X und Y ist PxY
=0,
d.h. X und Y sind unkorreliert; jedoch kann im allgemeinen nicht aus der Unkorreliertheit der beiden Zufallsvariablen auf deren (stochastische) Unabhängigkeit geschlossen werden. Sind die Zufallsvariablen X und Y mit E(X) = H , E ( y ) = h y , Var(x) a , V a r ( Y ) = a Corr(X, Y ) = p XY allerdings gemeinsam bzw. bivariat normalverteilt, d.h. besitzt der Zufallsvektor (X,Y) die Dichte
=
X
f
xY( x >y) =
x
Y >
2
2 n o x 0 Y • -yjl-p XY
exp
(*-Hx)2 2 • (l - p X Y )
(K-i^Xy-mMy-Hv) 2 OYX A
Y
so ist auch die Umkehrung dieses Satzes erfüllt. Denn ist hier p XY = 0 , so sind X und Y auch stochastisch unabhängig, d.h. die obige gemeinsame Dichte läßt sich als das Produkt der Randdichten darstellen, vgl. Abschnitt 5.2.6. Mit n unabhängigen Realisationen (x 1 ,y 1 ),...,(x n ,y n ) der normalverteilten zufälligen Größe (X,Y) erhält man für PXY als Schätzwert die Stichprobenkorrelation
184
10 Abhängigkeitsanalyse
r
_
S
XY
_
S
~
~~ S
Kx.-tY-Ky.-yf ¡=1 i=l ^¡y, i=i
~n
Xxf-n-x2
- n x y \
( n ^ • Eyf-n-y2
die auch als Bravais-Pearsonscher Korrelationskoeffizient bezeichnet wird. Für diesen Korrelationskoeffizienten gilt -l Po
PXY
^ Po
PXY
PXY
= Po
PXY *
« >
U
l-a
u
U
l-a/2
Beispiel: Zum Niveau a = 0,10 ist in diesem Beispiel für die Korrelation p XY der normalverteilten Zufallsvariablen Bierkonsum (X) und Weinkonsum (Y) die Hypothese H 0 : p X Y < 0,95 gegen die Alternative H, : p X Y > 0,95 zu testen. Aufgrund einer Stichprobe vom Umfang n = 8 hat sich als Schätzer für p XY gerade r XY = 0,975 ergeben. Mit
10.1 Korrelationsanalyse
1
1 + 0,975
2
1 - 0,975
z = — • In
189
- • l n ( 7 9 ) = 2,1847
und p 0 = 0,95 ergibt sich für die Teststatistik 2,1847
1 2
1 + 0,95
Inj
\
1 - 0,95
0,95 2 • (8 - 1 ) _ 2,1847 - 1 , 8 3 1 8 - 0,0679
V8-3
1275
2,2361
ein Wert, der mit dem Quantil U
l - a = u0,90 =
1
-2816
als kritischen Wert verglichen werden muß. Da u = 0,1275 > 1,2816 = u,_ a , ist die Korrelation p X y also zum 10% Niveau nicht signifikant größer als 0,95.
Falls die Voraussetzung der gemeinsamen Normalverteilung für zwei Zufallsvariablen X und Y nicht gerechtfertigt erscheint, so bieten sich sogenannte nichtparametrische Tests zur Überprüfung der Unabhängigkeit von X und Y an. Dabei muß aber vorausgesetzt werden können, daß X und Y - zumindest im Prinzip - stetig verteilt sind. Die Grundlage dieser Testverfahren bilden auch hier Korrelationsschätzwerte, die allerdings nun aus Ranginformationen abgeleitet werden, d.h. anstatt der n unabhängigen Beobachtungspaare ( x , ^ ) , . . . , ( x n , y n ) gehen deren Rangzahlen in die Schätzer ein. Eine Möglichkeit, die Korrelation Pxy der Zufallsvariablen X und Y zu schätzen, liegt im Spearmanschen Rangkorrelationskoeffizienten r s , der sich aus der Formel zur Berechnung des gewöhnlichen Korrelationskoeffizienten txy ergibt, indem dort die Realisationen x, und y¡ durch die zugehörigen Rangzahlen R(x¡) und R(y¡) ersetzt werden. Dabei werden die Rangzahlen in der Art vergeben, daß in jeder der beiden Beobachtungsreihen x,,...,x n bzw. y,,...,y n die kleinste Realisation den Rang 1,..., die größte Realisation den Rang n erhält. (Es ist auch eine umgekehrte Rangzahlenzuordnung möglich.) Treten Bindungen auf, d.h. sind mehrere Beobachtungswerte einer Zufallsvariablen gleich, so wird diesen Werten jeweils das arithmetische Mittel der zugehörigen Rangzahlen (midranks) zugeordnet. Somit erhält man den Spearmanschen Rangkorrelationskoeffizienten durch
X ta-RföMRW-R&j) i=l ¿(RlxJ-R^f-XfRÍy,)-^) =i i=i
2
¿ R W R Í y J - O ^ - n - t n + l)2 i=l ± ( R ( X i ) f - 0 , 2 5 • n • (n + l f )• da
( R (y,)) 2 - 0 , 2 5 • n - (n +1) :
190
10 Abhängigkeitsanalyse
Falls keine Bindungen auftreten, läßt sich die Berechnung dieses Korrelationskoeffizienten noch vereinfachen, denn dann ist 6-Sdf - f —
mit d i = R ( x i ) - R ( y i ) .
Auch für den Rangkorrelationskoeffizienten von Spearman gilt - 1 < rs h n ; l - a / 2 gilt. Einige kritische Werte hn;Y sind in Tab. 10.5 zusammengestellt; weitere ergeben sich aus der Beziehung
10.1 Korrelationsanalyse
191
Tab. 10.5: Kritische Werte hn;Y des Unabhängigkeitstests bei Verwendung der Hotelling-Pabst-Statistik n h n ;0,025 h n ; 0,05 h n ; o,io 6 6 8 14 7 14 18 26 24 42 8 32 9 38 50 64 74 60 92 10 86 104 11 128 12 120 144 172 13 162 190 226 14 212 246 290 312 15 270 364 390 16 340 450 480 17 420 550 582 18 512 664 696 19 618 790 826 934 20 738 Bei genügend großem Stichprobenumfang n ist auch die Durchführung eines approximativen Tests möglich, denn die Prüfgröße
A/ÖT mit
ist unter Ho die Realisation einer approximativ N(0,1)-verteilten Zufallsvariablen. Dabei bezeichnet p bzw. q die Anzahl der unterschiedlichen Werte x, bzw. y; in der ersten bzw. zweiten Beobachtungsreihe, d,j bzw. d2]t die Anzahl der Beobachtungen, die mit dem j-ten bzw. k-ten dieser unterschiedlichen Werte in der ersten bzw. zweiten Reihe identisch sind. (Liegen in beiden Beobachtungsreihen
keine
Bindungen
vor,
so
ist
D, = I l J 1 !
6
i)
unci
2 - l f _ n 3 -in (n+l) . TT IT . 1 L— D2 = .) Die Hypothese Ho ist somit zum Niveau a zu 36 verwerfen, falls
|D*| >
.
192
10 Abhängigkeitsanalyse
Beispiel: Der Spearmansche Rangkorrelationskoeffizient als Schätzer für die Abhängigkeit zwischen Temperatur (X) und Luftfeuchtigkeit (Y) soll anhand von
n = 10
paarweisen
Meßergebnissen ( x , , y,),..., (x 1 0 , y 1 0 ) bestimmt werden. Tab. 10.6: Temperatur (in °C) x, und relative Luftfeuchtigkeit (in %) y, an zehn zufällig Tag i Xi yi
1 17,2 59
2 19,9 56
3 15,6 62
4 26,7 59
6 18,7 65
5 14,5 42
7 23,5 72
8 19,7 68
9 18,1 47
10 19,5 61
Dazu wird zunächst eine Arbeitstabelle, vgl. Tab. 10.7, erstellt, in der neben den Beobachtungswerten und deren Rangzahlen einige weitere, die Berechnung erleichternde Hilfsgrößen aufgeführt sind. Tab. 10.7: Arbeitstabelle zur Berechnung des Spearmanschen Rangkorrelationskoeffizienten bzw. i 1 2 3 4 5 6 7 8 9 10 Z
Xi
17,2 19,9 15,6 26,7 14,5 18,7 23,5 19,7 18,1 19,5
^ 59 56 62 59 42 65 72 68 47 61
R(x,) 3 8 2 10 1 5 9 7 4 6 55
R(y;) 4,5 3 7 4,5 1 8 10 9 2 6 55
R(Xi)2
9 64 4 100 1 25 81 49 16 36 385
R(y*)2 20,25 9 49 20,25 1 64 100 81 4 36 384,5
R(Xi)-R(yL)
R(Xi)-R(yi)
13,5 24 14 45 1 40 90 63 8 36 334,5
-1,5 5 -5 5,5 0 -3 -1 -2 2 0 0
Die Korrelation zwischen Temperatur und relativer Luftfeuchtigkeit wird damit geschätzt durch 10
,
E R U ^ R ^ ) - 0,25 • 10 • 11 i=l 10 , {w X R ( X j ) - 0 , 2 5 • 10• 11 • E R ( y ( ) - 0 , 2 5 10 334,5 - 302,5
, ir
32
= 0,3891. ^ ( 3 8 5 - 302,5X384,5 - 302,5) ^6765 Auch hier soll nun anstelle des Korrelationskoeffizienten r s die Hotelling-Pabst-Statistik beim Test zum Niveau a = 0,10 der Hypothese Ho: die Temperatur X ist unabhängig von der relativen Luftfeuchtigkeit Y gegen die Alternative Hi: die Temperatur X ist nicht unabhängig von der relativen Luftfeuchtigkeit Y verwendet werden. Aus Tab. 10.7 ergibt sich für die Prüfgröße D = Z t R U ^ - R ^ ) ] 2 = ( - l , 5 ) 2 + 5 2 + ( - 5 ) 2 + ... + 2 2 + 0 2 = 100,5 . ¡=1 Bei einem Signifikanzniveau et = 0,10 erhält man aus Tab. 10.5 die kritischen Werte ^n ;o/2
=
^lOiO.Oä
=
h 0 , - a / 2 = h,0;0.95 = ^ • 10 • d ° 2 - D -
h
10 ;0,0 5
d.h. da D = 100,5 < 74 = h „ ; a / 2 und
=
330
~
74
=
256
•
10.1 Korrelationsanalyse
193
D = 100,5 > 256 = h n ; 1 _ a / 2 , kann die Hypothese der Unabhängigkeit von Temperatur und Luftfeuchtigkeit nicht verworfen werden.
Der Kendallsche Rangkorrelationskoeffizient x stellt eine weitere Basis zur Durchführung eines nichtparametrischen Tests über die Unabhängigkeitshypothese dar. Dieser wird ebenso wie der Spearmansche Rangkorrelationskoeffizient aus den Rangzahlen, die den n Realisationen der Zufallsvariablen X und Y zugeordnet werden, berechnet. Abweichend ist es in diesem Fall aber angebracht, den jeweils gleichen Beobachtungen (Bindungen) einer Beobachtungsreihe nicht die .midranks' zuzuordnen, sondern die zugehörigen Rangzahlen zufällig auf diese zu verteilen (Randomisieren). Zur Ermittlung von Kendalls t werden nach Vergabe der Rangzahlen R(xO und R(yO, i = l,...,n, die Beobachtungspaare (Xi,y0 so geordnet, daß im ersten Paar der Rang der Realisation von X gerade 1 ist, im zweiten Paar der Rang der Realisation von X gerade 2 ist,....,im n-ten Paar der Rang der Realisation von X gerade n ist. Durch diese Anordnung ist dann die Reihenfolge der Rangzahlen der Realisationen yi,...,yn von Y eindeutig festgelegt. Betrachtet man nun diese Reihenfolge, so wird anschließend für jede Rangzahl R(yi) die Anzahl qi der Rangzahlen R(yj), die kleiner als R(yO sind und in der neuen Anordnung der Ränge hinter R(yO stehen, für i = l,...,n bestimmt. Der Rangkorrelationskoeffizient von Kendali ergibt sich dann zu 4-Jq, T=1
f ^ .
n(n-l)
Mit Hilfe der auf diese Weise geschätzten Korrelation zwischen X und Y läßt sich auch hier ein Testverfahren auf Unabhängigkeit konstruieren. Ist also die Hypothese Ho: X und Y sind unabhängig gegen die Alternative Hi: X und Y sind nicht unabhängig zum Niveau a zu testen, dann kann dabei die sogenannte Kendallsche KStatistik K =
njn-1) 2
verwendet werden, deren zugehörige Verteilung die Quantile Kn;1 Y liefert, von denen einige in Tab. 10.8 vertafelt sind. Die Hypothese Ho wird zum Niveau a verworfen, falls
194
10 Abhängigkeitsanalyse
|K|>Kn;W2 gilt. Tab. 10.8: Kritische Werte Kn;i.Y des Unabhängigkeitstests bei Verwendung der Kendallschen K-Statistik n K o,995 K o,950 K 0.975 6 14 11 9 11 7 17 13 14 8 21 16 9 25 19 16 10 29 23 19 52 40 34 15 80 59 49 20 25 110 84 71 30 145 111 93 n:
n;
n;
Stehen keine kritischen Werte zur Verfügung und ist n hinreichend groß, so kann auch die Prüfgröße K =
K n(n-lX2n + 5j 18
herangezogen werden. Die zu K* gehörige Zufallsvariable unterliegt unter der Unabhängigkeitshypothese approximativ einer N(0,l)-Verteilung. Die Hypothese Ho kann also bei
zum Niveau a verworfen werden. Beispiel: Über die zehn vorliegenden Beobachtungspaare ( x , , y j ) , . . . , ( x 1 0 , y 1 0 ) von (X,Y) = (Temperatur, Luftfeuchtigkeit) soll zunächst der Korrelationskoeffizient X von Kendali als Schätzwert für die Korrelation von Temperatur und Luftfeuchtigkeit ermittelt werden. Ausgehend von Tab. 10.6 werden dazu alle Schritte, die zur Bestimmung der qi, i = 1,...,10, notwendig sind, in nachfolgender Arbeitstabelle, vgl. Tab. 10.9 durchgeführt. Tab. 10.9: Arbeitstabelle zur Berechnung des Kendallschen Rangkorrelationskoeffizienten i R(Xi) ( X i , yi) R(yO Qi 5
1
(14,5
; 42)
1
0
3
2
(15,6;
62)
7
5
1
3
(17,2;
59)
5
3
9
4
(18,1
; 47)
2
0
6
5
(18,7;
65)
8
3
10
6
(19,5
; 61)
6
2
; 68)
9
2
56)
3
0
8
7
(19,7
2
8
(19,9;
7
9
(23,5
; 72)
10
1
10
(26,7
; 59)
4
0
55
16
4 Z
55
10.2 Assoziationsanalyse
195
Die Ränge 4 und 5 für die Realisationen yj = y 4 = 59 wurden dabei zufällig vergeben. So ergibt sich etwa für q 6 der Wert 3, da unterhalb der Rangzahl R ( y 6 ) = 8 in der gegebenen Reihenfolge drei Rangzahlen der Realisationen von Y kleiner als 8 sind (6,3,4). Damit berechnet sich der Korrelationskoeffizient von Kendali zu 10
T= 1
r= 1 10 • (10 - 1 )
416 10-9
= 0,2889.
Zum Niveau a = 0,10 soll noch einmal die Hypothese Ho: Temperatur X ist unabhängig von der relativen Luftfeuchtigkeit Y gegen die Alternative H,: Temperatur X ist nicht unabhängig von der relativen Luftfeuchtigkeit Y getestet werden. Mit dem soeben berechneten Kendallschen Korrelationskoeffizienten ergibt sich für die Teststatistik n(n-l) 10-9 K = —i •T=
0,2889 = 13,0005 ,
so daß wegen (vgl. Tab. 10.8) auch hier die Unabhängigkeitshypothese zum 10% Niveau nicht verworfen werden kann, denn K = 13,0005 > 19 = K „ . , ^ / 2 .
10.2 Assoziationsanalyse Bei einer angestrebten Analyse der Abhängigkeit zwischen zwei diskreten Zufallsvariablen, die jeweils nur „wenige", verschiedene Ausprägungsmöglichkeiten besitzen, so daß bei n beobachteten Paaren „viele" gleiche Werte, d.h. Bindungen auftreten, können die bisher behandelten Methoden der Korrelationsanalyse nicht mehr zur Anwendung kommen. Als Ausgangspunkt der für diesen Fall bereitstehenden Verfahren betrachtet man zunächst die gemeinsame Verteilung des Zufallsvektors (X,Y). Werden die k l verschiedenen Ausprägungsmöglichkeiten mit ( a p b j ) , i = l,...,k, j = l,...,l, bezeichnet, so ordnet man dabei der Übersicht wegen die Einzelwahrscheinlichkeiten p ( x = a i , Y = b j ) = pij für i = l , . . . , k und j = l
1,
welche die gemeinsame Verteilung kennzeichnen sowie die Randwahrscheinlichkeiten P(X = a i ) = X p i j = p , , i = l,...,k, j=i
P(Y = b j ) = i p i j = p , , j = l
1,
¡=i
welche die Randverteilungen von X und Y eindeutig bestimmen, in einer (kxl)Tafel, vgl. Tab. 10.10, an. Dabei gilt
196
10 Abhängigkeitsanalyse
kl
k
1
¡=1 j=l
i=l
j=l
Tab. 10.10: (kxl)-Tafel der gemeinsamen Verteilung zweier (diskreter) Zufallsvariablen X und Y \ Y b, 2 b, • X ai Pn Pn Pi ak Z
Pkl Pl
Pkl
Pk
Pl
1
Werden nun n unabhängige Beobachtungen von (X,Y) gemacht und hält man dabei fest, wie oft die Ausprägungskombination ( a ^ b p eingetreten ist, so lassen sich diese beobachteten absoluten Häufigkeiten, die mit n^, i = 1,..., k, j = 1,..., 1, bezeichnet werden sollen, ebenfalls in einer (kxl)-Tafel, vgl. Tab. 10.11, der sogenannten (kxl)-Kontingenztafel (vgl. Pflaumer, Heine, Härtung (1999), S. 112f), festhalten. Die Randhäufigkeiten
n
=
i
H
bzw. n
i
Snü.
j
=
i = l.~.,k,
k X n ü ' j=i.-.i. i=l
liefern dann gerade die beobachtete Anzahl des Ausprägungswertes a, von X bzw. b. von Y. Insgesamt ist natürlich kl
k
1
i=i j=i
¡=i
j=i
Tab. 10.11: (kxl)-Kontingenztafel Y b, b, 2 X nu ai nu ni. ak S
nki n.i
nw n.i
nk n
Ist k = 2 und 1 = 2 , d.h. weisen die Zufallsvariablen X und Y jeweils nur zwei verschiedene Ausprägungen auf, so heißt die (2x2)-Kontingenztafel auch Vierfeldertafel. Eine Möglichkeit, die Abhängigkeitsstruktur von X und Y in einer (2x2)-Tafel zu charakterisieren, stellt das Y-Maß von Yule dar, das mit
10.2 Assoziationsanalyse
i _ P11P22
197
P12P21
P11P22 + P12P21
gegeben ist. Für dieses gilt -1 5 Beobachtungen vorliegen bzw. nijj > 5 unter der Hypothese zu erwarten sind (Faustregel). Liegt eine Vierfeldertafel vor, d.h. ist k = 2,1 = 2 , so läßt sich die angegebene Formel für die Prüfgröße weitgehend vereinfachen, denn es gilt X2
_ f
y
K
w h
~ m i j ) 2 _ n • ( n „ n 2 2 - n , 2 n 2 1 )2 mij
n,n,n2n2
Beispiel: Aus dem im vorherigen Beispiel bestimmten Assoziationskoeffizienten der Höhe Q - 0,5759
sowie dem zugehörigen Konfidenzintervall ist bereits zu erkennen, daß mit
ziemlicher Sicherheit eine Abhängigkeit zwischen der Rauchgewohnheit X und der Bronchialkatarrherkrankung Y vorliegt. Die Vermutung soll nun noch zum Niveau a = 0,10 signifikant abgesichert werden, d.h. es gilt Ho: py = Pi. • p.j für alle i = 1,2, j = 1,2 , gegen H,: pg * P| • p j für mindestens ein Paar (i,j) zu testen. Mit den bereits in Tab. 10.12 zusammengestellten Häufigkeiten n^, i , j = l , 2 , die beobachtet wurden, ergibt sich für die Prüfgröße der Wert 120 • (35 • 43 - 1 5 • 2 7 ) 2 145200000 — = = 11,5366 . 50 • 62•70•58 12586000 Dieser ist bei einer mit Irrtumswahrscheinlichkeit von höchstens a = 0,10 Entscheidung wegen k = 2 und 1 = 2 mit X
,
=
zu treffenden
X(H)(l-l);l-a ~ JCi-,0,90 ~~ 2,706 zu vergleichen. Da also X
2
= l 1,5366 > 2,706 =
Z ( V,xM> ; i-a.
muß die Unabhängigkeitshypothese zum 10% Niveau, wie erwartet, verworfen werden.
Um den Zusammenhang (die Assoziation) zwischen zwei (diskreten) Zufallsvariablen X und Y mit möglichen Ausprägungen ai,...,ak bzw. bi,...,b| zu schätzen, verwendet man häufig den Pearsonschen Kontingenzkoeffizienten X2 X2+n
wobei i
t - i (riii — m H ) 2
X2 = £ £ ^ ^ W H
mij
mit m s =
n.-n: n
, i = 1,..., k , j = 1,..., 1,
gerade der im Unabhängigkeitstest verwendeten Prüfgroße entspricht. Für C gilt
o 2 Verteilungen lassen sich die Beobachtungen mit Hilfe einer Kontingenztafel übersichtlich anordnen, wie noch zu sehen sein wird. Es wird angenommen, daß die Zufallsvariable Y unter k verschiedenen Bedingungen oder Kategorien (die hier durch die Größe X bestimmt werden sollen) unabhängig voneinander betrachtet wird. Werden die Ausprägungsmöglichkeiten von Y mit bi,...,b k bezeichnet und stellen ai,...,ak die k verschiedenen Bedingungen dar, so wird die Verteilung von Y bzgl. der i-ten Bedingung für i = l,...,k durch die Einzelwahrscheinlichkeit p(Y = b J ) = P ; j , j = i,...,i, bestimmt. Dabei gilt dann natürlich i p* = X p ' j = 1 für alle i = l,...,k . j=i In Tab. 10.15 werden die sich auf diese Weise ergebenden k verschiedenen Verteilungen, je nachdem, welche Kategorie vorliegt, verdeutlicht.
202
10 Abhängigkeitsanalyse
Tab. 10.15; Verteilung von Y unter k verschiedenen Bedingungen Y b, Z bi dingung 1 ai P*i Pu ak
Ph
S
P*.
-
p'kl
1
P*i
k
Bei einer Stichprobe vom Umfang n,. aus der Gesamtheit der i-ten Kategorie, i = l,...,k, wird festgehalten, wie oft für j = l,...,l die Ausprägungsmöglichkeit bj von Y eingetreten ist. Diese absolute Häufigkeit wird mit n;j bezeichnet, so daß sich die auf diese Weise ermittelten Beobachtungswerte in einer (kxl)Kontingenztafel anordnen lassen, vgl. Tab. 10.11. Es sei jedoch bemerkt, daß die Zeilensummen n,.,...,nk. als fest vorgegeben und somit als nicht zufällig angenommen werden. Bei einer Untersuchung der Unabhängigkeit von X und Y ist einzig und allein die Gesamtzahl der Beobachtungen n als vorgegeben anzusehen. Damit bilden die relativen Häufigkeiten n tt • , Pij = — . J = 1 n.
i 1.
Schätzwerte für die Einzelwahrscheinlichkeiten p*, die die Verteilung von Y in der i-ten Kategorie für i = l,...,k kennzeichnen. Um überprüfen zu können, ob signifikante Unterschiede in den Verteilungen unter den k verschiedenen Bedingungen zu verzeichnen sind, d.h. bezogen auf die Einzelwahrscheinlichkeiten, ob die sogenannte Homogenitätshypothese Ho: P*j = P*2j = - = Pkj f ü r
alle
J = 1.-. 1
zugunsten der Alternative Hj: p'j # p*j für mindestens ein Paar i, r mit i * r zum Niveau a verworfen werden kann, muß die Prüfgröße
des Tests auf Homogenität berechnet werden. Dabei ist hier m ( = n,. • V
zu
setzen, denn bei Gültigkeit der Homogenitätshypothese kann p* geschätzt werden durch
10.3 Homogenitätsanalyse
203
£*0 _ £* _ _ ¿"0 _ 11 ) Plj = P 2 j = — = Pkj = n d.h. m
ü = n i . • P h > = "" " J . i = l , . . . , k , j = 1 n
1,
gibt die Schätzung der unter Ho zu erwartenden absoluten Häufigkeit für die Ausprägung bj in der i-ten Kategorie an. Das Entscheidungsverfahren für die Homogenitätshypothese ist demnach identisch mit d e m für d i e Unabhängigkeitshypothese: Ho wird z u m N i v e a u a verworfen, falls X
> X(k-l)(l-l);l-a
gilt. Beispiel: In Tab. 10.16 sind die Ergebnisse einer Statistikklausur, die von Studenten dreier Fachrichtungen geschrieben wurde, zusammengestellt. Tab. 10.16: Klausurergebnisse von Studenten der Fachrichtungen BWL, VWL und Soziologie Klaus urrgebnis nicht 1 2 3 4 bestanden BWL VWL Soziologie
15 8 7
46 38 6
110 40 20
123 98 19
126 76 28
Mit den Ausprägungsmöglichkeiten bj = ' j ' , j = 1,2,3,4 und b 5 ='nicht bestanden' des Klausurergebnisses Y charakterisieren die Einzelwahrscheinlichkeiten P(Y = b p = p'j für die Fachrichtung a, ='BWL' P(Y = b p = p*2j für die Fachrichtung a 2 ='VWL' P(Y = bj) = p 3 j für die Fachrichtung a 3 -'Soziologie', j = 1,...,5, die unterschiedlichen (unabhängigen) Verteilungen von Y. Zum Niveau a = 0,05 soll die Hypothese der Gleichheit der Notenverteilung bei den drei Fachrichtungen, d.h. H«: Pij = P*2j = P*3j f ü r J = 1 gegen die Alternative *
5
*
Iii', p^ * P j f ü r mindestens ein i * i' getestet werden. Geht man davon aus, daß n,. = 420 BWL-Studenten, n 2 . = 260
VWL-
Studenten und nj. = 80 Soziologie-Studenten an der Klausur teilgenommen haben, so ergibt sich die in Tab. 10.17 aufgestellte (3x5)-Kontingenztafel mit den Klausurergebnissen. Da für die Homogenitätshypothese der gleiche Niveau-a-Test wie bei der Unabhängigkeitshypothese zur Anwendung kommt, ergeben sich wegen X2 = 23,2368 > 15,507 = x j U ( M ) ; 1 . a = x l A 9 , , also auch signifikante Unterschiede zum 5% Niveau bei den Verteilungen der Klausurergebnisse in den drei Fachrichtungen vor.
204
10 Abhängigkeitsanalyse
Tab. 10.17: (3x5)-Kontingenztafel; Klausurergebnis und Fachrichtung von n = 760 Studenten Klausurnicht \^rgebnis 3 4 1 2 bestanden Z Fachb b b b, 3 2 4 D5 richtung BWL n „ = 15 n , 3 = 110 n,. = ni2 = 46 n15 = 126 n14 = 123 m n = 16,58 m 12 = 49,74 m, 3 = 93,95 mi4= 132,63 m 1 5 = 127,11 420 ai VWL n2, = 8 n23 = 40 n M = 98 n 22 = 38 n 25 = 76 n2- = m25 = 78,68 260 a2 m21 = 10,26 m 22 = 30,79 m23 = 58,16 m24 = 82,11 n33 = 20 Soziologie n31 = 7 "32 = 6 n 35 = 28 n 3 .= n34 = 19 m3i = 3,16 m 32 = 9,47 m 33 = 17,89 m34 = 25,26 m 35 = 24,21 80 a3 n = 760 n.3 = 170 I n., = 30 n.2 = 90 n.4 = 240 n.5 = 230
In einer (kxl)-Kontingenztafel mit den absoluten Zellenhäufigkeiten n^ und den zugrundeliegenden Zellenwahrscheinlichkeiten p^, i = 1,..., k , j = 1,..., 1, vgl. Tab. 10.11, besagt die totale Gleichverteilung, daß für ein Objekt die Wahrscheinlichkeit, in eine der k • 1 Zellen zu gelangen, für alle Zellen gleich ist, d.h. py = l/(k • 1), was gleichbedeutend damit ist, daß bei insgesamt n beobachteten Objekten in jeder Zelle m^ = n/(k • 1) Objekte zu erwarten sind, also weder Spalten- noch Zeileneffekte auftreten. Die totale Gleichverteilungshypothese Ho: p„ = - i - für alle i = 1,..., k , i = 1,..., 1 wird gegen die Alternative Hi: Pm * —— für mindestens ein Paar (i,j) k-1 getestet mit der bei Gültigkeit von Ho approximativ einer ^-Verteilung mit k • 1 - 1 Freiheitsgraden entstammenden Prüf große
x
— m
MH
ij
—
m i t
m
u = r ~k rl -
Die Hypothese Ho wird zum Niveau a abgelehnt, wenn gilt: X
2
>
2
%kl-l-,l-a •
Beispiel: Es soll überprüft werden, ob ein Roulettekessel fehlerhaft ist. Man beobachtet zunächst einmal 61 Spiele. Einmal kommt die Null, und die Zahlenergebnisse in den restlichen 60 Spielen werden derart festgehalten, daß man notiert, ob die ausgespielte Zahl gerade oder ungerade ist und in welchem Drittel bzw. Dutzend sie liegt. Dabei erhält man Tab. 10.18.
10.3 Homogenitätsanalyse
205
Tab. 10.18: Häufigkeiten n^ der gruppierten Spielergebnisse an einem Roulette-Tisch bei 60 Spielen ohne Auftreten der Null
Naheliegend zu spielen wären nun (gleichzeitig) die Zahlen 25, 27, 29, 31, 33, 35 oder - zur Risikominderung - zusätzlich noch die geraden Zahlen im mittleren Drittel. Gleichverteilung in der vorliegenden Aufgabenstellung bedeutet hier, daß in der angegebenen (2x3)-Kontingenztafel sowohl keine signifikanten Spalteneffekte als auch keine signifikanten Zeileneffekte auftreten. Man spricht dann auch im Unterschied zur bedingten Gleichverteilung, von der totalen Gleichverteilung. Bei der vorliegenden (2x3)-Kontingenztafel, vgl. Tab. 10.18, wird die totale Gleichverteilungshypothese 1 Ho: Pj-u = - für alle i = 1,2, j = 1,2,3 6 getestet gegen die Alternative 1 Hi: P;; * — für mindestens ein Paar (i j). J 6 In n = 60 Spielen (ohne Auftreten der Null) sind bei Gültigkeit von H 4,351 = x52;0,5O = Xu-w-a • Man geht also weiter davon aus, daß es sich um einen fehlerfreien Roulettekessel handelt. Dies hat zur Konsequenz, daß der erwartete Gewinn negativ ist. Fehlerhafte Roulettekessel (Biased Wheels) jedoch können für den Spieler positive Gewinnerwartungen bedeuten, wie wir bereits in Abschnitt 8.5 gesehen haben (vgl. Basieux (1993) und Barnhart (1992)).
ÜBUNGSAUFGABEN l Wie groß ist bei einem symmetrischen Würfel die Wahrscheinlichkeit, a) bei einem Wurf eine 1 oder eine 2, b) bei einem Wurf eine 4 oder eine ungerade Zahl, c) bei einem Wurf eine 3 oder eine ungerade Zahl, d) bei einem Wurf eine Zahl < 3 oder eine ungerade Zahl, e) bei einem Wurf eine Zahl < 3 oder eine gerade Zahl, f) bei zwei Würfen zweimal 6, g) beim ersten Wurf eine 1 und beim zweiten Wurf eine 2, h) bei zwei Würfen eine 1 und eine 2, i) bei zwei Würfen eine 1 oder eine 2, j) bei zwei Würfen mindestens eine 6, k) bei zwei Würfen mindestens eine 1 oder mindestens eine 6 zu weifen?
2 Wie groß ist die Wahrscheinlichkeit, mit zwei Würfen eines symmetrischen Würfels die Augensumme j , j = 2, 3,...,12 zu würfeln? 3 Gegeben sei ein Skatblatt mit 32 Karten. Daraus werde zufällig eine Karte gezogen. Bestimmen Sie die bedingte Wahrscheinlichkeit, daß diese Karte a) Pik As ist, unter der Bedingung, daß sie Pik ist, b) Pik As ist, unter der Bedingung, daß sie ein As ist, c) ein As ist, unter der Bedingung, daß sie Pik ist, d) Pik ist, unter der Bedingung, daß sie ein As ist, e) Pik ist, unter der Bedingung, daß sie Kreuz As ist, 0 Pik ist, unter der Bedingung, daß sie Pik As ist. 4 Es werde zweimal mit einem symmetrischen Würfel geworfen. A sei das Ereignis, daß die Differenz der beiden geworfenen Augenzahlen - 1 , 0 oder +1 ist und B das Ereignis, daß die Summe 5, 6 oder 7 ist. Bestimmen Sie P(A), P(B), P(A|B) und P(B|A). 5 Aus einem gut gemischten Skatspiel (32 Blatt) werden 2 Karten der Reihe nach ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit dafür, daß a) die zweite gezogene Karte ein As ist, b) die zweite Karte ein As ist, wenn bereits der erste Zug ein As geliefert hat?
208
Übungsaufgaben
6 Ein Spieler hat einen Jeton in seiner Tasche. Mit Wahrscheinlichkeit von 50% ist er entweder rot oder schwarz. Es wird ein schwarzer Jeton hinzugefügt. Die Jetons werden gemischt. Ein Jeton wird zufällig aus der Tasche geholt. Er ist schwarz. Wie groß ist die Wahrscheinlichkeit, daß der in der Tasche gebliebene Jeton rot ist? 7 Eine Krankenversicherung ermittelte, daß bei Verkehrsunfällen von Pkw-Fahrern, die angegurtet waren, nur 8% schwere Kopfverletzungen aufwiesen. Bei nicht angeschnallten Fahrern trugen 62% keine Kopfverletzungen davon. Trotz Anschnallpflicht legen immer noch 15% aller Autofahrer keinen Gurt an. Wie groß ist die Wahrscheinlichkeit, daß ein nach einem Unfall mit Kopfverletzung ins Krankenhaus eingelieferter Autofahrer keinen Gurt angelegt hatte? 8 Bei einem Multiple-Choice Test gebe es fünf mögliche Antworten, von denen eine richtig ist. Ein vorbereiteter Student kreuze die richtige Antwort mit Wahrscheinlichkeit 1 an. Die Wahrscheinlichkeit dafür, daß ein Student vorbereitet ist, betrage p. Angenommen, die richtige Antwort ist angekreuzt worden. Wie groß ist die Wahrscheinlichkeit, daß der betreffende Student sich vorbereitet hat? 9 In einer Urne seien zwei rote und drei weiße Kugeln. Wie groß ist die Wahrscheinlichkeit, bei drei Zügen mit Zurücklegen a) lauter rote Kugeln, b) beim ersten und zweiten Zug eine rote, beim dritten Zug eine weiße Kugel, c) eine rote und zwei weiße Kugeln, d) mindestens zwei rote Kugeln, e) höchstens eine weiße Kugel zu erhalten? 10 Ein Student verabredet sich mit seiner Freundin in der Mensa zwischen 12 und 13 Uhr. Beide kommen irgendwann während dieser Zeitspanne zufällig an. Beide warten jeweils 20 Minuten. Wie groß ist die Wahrscheinlichkeit, daß sie sich treffen? 11 Bei einem Spiel mit zwei fairen Würfeln seien folgende Ereignisse wichtig: A: Der erste Würfel zeigt eine gerade Augenzahl B: Der zweite Würfel zeigt eine gerade Augenzahl C: Die Summe der Augenzahlen beider Würfel ist gerade a) Sind die Ereignisse unabhängig? b) Sind die Ereignisse paarweise unabhängig?
Übungsaufgaben
209
12 Von den Studierenden einer Hochschule fahren 60% der Frauen und 70% der Männer mit eigenem Pkw zu den Vorlesungen. Die Anzahl weiblicher und männlicher Studierender stehe dabei im Verhältnis 7:3. Wie groß ist die Wahrscheinlichkeit, daß ein Studierender, der mit eigenem Pkw zur Hochschule kommt, weiblich ist? 13 Anton spielt gegen Berta Tennis. Das Spiel ist beendet, wenn einer der beiden Spieler drei Sätze (und damit das Spiel) gewonnen hat. Die Ausgänge der Sätze seien unabhängig voneinander, und die Erfolgswahrscheinlichkeit für Anton sei in 2 jedem Satz P = "Ja) Wie groß ist die Wahrscheinlichkeit, daß Anton in i) drei Sätzen, ii) vierSätzen, iii) fünf Sätzen gewinnt? b) Wie groß ist die Wahrscheinlichkeit, daß Anton das Spiel gewinnt? c) Wie groß ist die Wahrscheinlichkeit, daß das Spiel in i) drei, ii) vier, iii) fünf Sätzen beendet wird? 14 Bei einer Statistikklausur sind 50% aller Teilnehmer gut vorbereitet, 30% mäßig und 20% schlecht. Von den gut vorbereiteten bestehen alle, von den mäßig vorbereiteten 50% und von den schlecht vorbereiteten 10% die Klausur. a) Wie groß ist die Wahrscheinlichkeit, daß ein Teilnehmer, der die Klausur bestanden hat, nur schlecht vorbereitet war ? b) Die Klausur kann einmal wiederholt werden. Wie groß ist die Wahrscheinlichkeit, beim ersten oder zweiten Versuch zu bestehen, wenn man beide Male schlecht vorbereitet ist ? 15 Ein viermotoriges Flugzeug der "Security-Airlines" hat an jeder Fläche zwei Triebwerke. Die Triebwerke arbeiten unabhängig voneinander, und der Ausfall für ein einzelnes Triebwerk während des Flugs betrage p = 0,1. a) Wie groß ist die Wahrscheinlichkeit, daß i) alle Triebwerke ohne Störung arbeiten, ii) wenigstens ein Triebwerk ohne Störung arbeitet? b) Wie groß ist die Wahrscheinlichkeit, daß das Flugzeug abstürzt, falls es nur dann fliegen kann, i) wenn mindestens zwei beliebige Triebwerke noch arbeiten, ii) wenn an jeder Fläche mindestens ein Triebwerk noch arbeitet?
210
Übungsaufgaben
16 Ermitteln Sie Erwartungswert und Varianz bei einem Wurf eines Würfels. Wie erhält man daraus Erwartungswert und Varianz der Summe der Augenzahlen bei einem Wurf mit drei Würfeln?
17 Die nachstehende Tabelle zeigt die mittlere Gewinnauszahlung beim Lotto 6 aus 49; der Einsatz beträgt l.-DM. Richtige 6 5 mit Zusatzzahl 5 4 3
Gewinnauszahlung (DM) 910895 102032 6117 113 9
Berechnen Sie den Erwartungswert des Gewinnes für den Lottospieler.
18 Ein Würfel wird viermal geworfen. Wie viele Möglichkeiten sind denkbar, daß unter den vier gewürfelten Zahlen a) zweimal die 3, b) zweimal die 2 und einmal die 4, c) mindestens einmal die 1 und genau einmal die 6 auftritt?
19 Das Portefeuille eines Investors soll sich aus den Aktien A und B zusammensetzen, deren Renditen zwei Zufallsvariablen X und Y sind mit E(X) = 0,1, E(Y) = 0,2, Var(X) = 0,04 und Var(Y) = 0,09. Bei welchem Anteil der Aktien A und B im Portefeuille besitzt die Rendite des resultierenden Portefeuilles eine minimale Varianz? Wie hoch ist in diesem Fall die erwartete Rendite? 20
Es wird mit einem fairen Würfel, dessen Seiten mit Augenzahlen von 1 bis 6 numeriert sind, dreimal gewürfelt. a) Berechnen Sie die Wahrscheinlichkeitsverteilung des Medians der drei Augenzahlen (Hinweis: P(Median = 6) =
). 216 b) Wie groß ist die Wahrscheinlichkeit, daß der Median der drei Augenzahlen kleiner als 6 ist? c) Wie groß sind Median, Erwartungswert, Quartilsabstand und Varianz des Medians der Augenzahlen? d) Ein Spieler erhalte die Auszahlung 0, wenn der Median der drei Augenzahlen kleiner oder gleich 3 ist, die Auszahlung 1, wenn der Median größer als 3, aber kleiner als 6 ist und sonst die Auszahlung 10. Wie groß ist der Erwartungswert der Auszahlung bei diesem Spiel?
Übungsaufgaben
211
21 Eine symmetrische Münze wird 5 mal geworfen. a) Man beschreibe den Ereignisraum £2 und definiere auf ihm eine Zufallsvariable X. b) Ermitteln Sie die Wahrscheinlichkeits- und die Verteilungsfunktion von X.
22 Man ermittle und zeichne die Verteilungsfunktion der Summe der Augenzahlen bei dreimaligem Werfen mit einem Würfel. 23 Beim Werfen mit zwei symmetrischen Würfeln erhält man als Auszahlung X das Produkt der Ergebnisse, falls beide Augenzahlen gerade sind; im anderen Falle erhält man nichts. Berechnen Sie E(X) und Var(X). 24 Die gemeinsame Verteilung der Zufallsvariablen X und Y sei gegeben durch P(X = 1, Y = 1) = P(X = 1, Y = 2) = P(X = 2, Y = 2) =
.
a) Man bestimme die Verteilungsfunktionen F(x,y), F, (x), F 2 (y) sowie die Randvertei lungen. b) Sind X und Y unabhängig? Berechnen Sie die Kovarianz. 25 Wie groß ist die Wahrscheinlichkeit bei a) 6 Würfen eines fairen Würfels 6 verschiedene Augenzahlen, b) 4 Würfen eines fairen Würfels 4 verschiedene Augenzahlen zu werfen?
26 Ein EDV-Labor erhält eine Lieferung von 10 PCs, von denen drei Geräte defekt sind. a) Wie groß ist die Wahrscheinlichkeit, daß bei einer zufälligen Entnahme von vier Geräten (ohne Zurücklegen) i) genau ein Gerät, ii) höchstens zwei Geräte, iii) mindestens zwei Geräte defekt sind? b) Stellen Sie die Wahrscheinlichkeits- und die Verteilungsfunktion der Zufallsvariablen tabellarisch dar. 27 Es sei folgende Dichte einer Zufallsvariablen X gegeben: f0,25 - c < x < - l und l < x < c f(x) = [0 sonst. Man bestimme c sowie die Verteilungsfunktion.
212
Übungsaufgaben
28 (X,Y) sei eine zweidimensionale Zufallsvariable mit der Dichtefunktion [0,125 0 < x < 2 und 0 < y < 4 [0
sonst.
a) Man bestimme F(x,y), Fi(x) und F2(y). b) Berechnen Sie den Erwartungswert E(X) und den bedingten Erwartungswert E(X|Y). c) Berechnen Sie die Kovarianz Cov(X,Y).
29
X sei eine Zufallsvariable mit der Dichte cx f(x) =
0
0 < x 0,61) v) P(1 < X < 2) für eine standardnormalverteilte Zufallsvariable X? b) Man bestimme die in a) genannten Wahrscheinlichkeiten für eine normalverteilte Zufallsvariable X mit dem Erwartungswert = - 1 und der 2 Varianz a = 4 . c) Wie groß muß k sein, damit i) P ( X < k) = 10% ii) P ( X > k) = 30% iii) P(0 < X < k) = 25% iv) P ( - k < X < k) = 60% gilt? X sei standardnormalverteilt. d) X sei normalverteilt mit dem Mittelwert ^ = 1 und der Varianz a 2 = 9 . Wie groß muß k sein, damit i) P(X < k) = 70% ii) P(X > k) = 20% iii) P ( - k < X < 2) = 0,5 iv) P ( - l - k < X < - l + k ) = 0,8 gilt?
Übungsaufgaben
213
31 Eine faire Münze wird 400mal geworfen. Wie groß ist die Wahrscheinlichkeit a) mehr als 200mal Kopf b) zwischen 190 und 205mal Kopf zu werfen?
32 a) Ein fairer Würfel wird 50mal geworfen. Wie groß ist die Wahrscheinlichkeit, daß das Würfelergebnis (Summe der Augenzahlen) zwischen 170 und 180 liegt? b) Wie oft muß der Würfel geworfen werden, damit das Würfelergebnis (Summe der Augenzahlen) mit einer Wahrscheinlichkeit von etwa 95% zwischen 155 und 202 liegt?
33 Eine Zufallsvariable Y sei normalverteilt mit dem Erwartungswert
= 50 und der
2
Varianz a = 1. a) Wie groß ist die Wahrscheinlichkeit i) P(48 < Y < 51) ii) P(Y < 48,5) iii) P(Y>51,8) iv) P(Y = 49,4) ? b) Wie groß muß k sein, damit i) P(Y < k) = 20% ii) P(Y > k) = 40% iii) P ( 5 0 - k < Y < 5 0 + k) = 0,9544 iv) P ( - k < Y < k) = 1 gilt?
34 Wird beim Roulette ohne die Null (18 rote und 18 schwarze Zahlen) auf eine Farbe gesetzt, so erhält man im Falle des Erscheinens dieser Farbe als Auszahlung den doppelten Einsatz; erscheint die Gegenfarbe, so ist der Einsatz verloren. Der Einsatz solle 1 Einheit betragen. a) Berechnen Sie Erwartungswert und Varianz des Gewinnes pro Spiel. b) Wie ist der durchschnittliche Gewinn pro Spiel bei n Spielen verteilt? Skizzieren Sie die Wahrscheinlichkeitsfunktion der gesuchten Verteilung für n = 4. c) Durch welche stetige Verteilung läßt sich die Verteilung des durchschnittlichen Gewinns pro Spiel für großes n approximieren? (Begründung!) d) Wie groß ist die Wahrscheinlichkeit, daß der durchschnittliche Gewinn pro Spiel zwischen -0,1 und +0,1 Einheiten für n, = 100, n 2 = 400 und n3 = 900 Spiele liegt?
214
Übungsaufgaben
35 In einem Fahrstuhl mit einer Tragfähigkeit von 500 kg sind maximal 6 Personen zur Beförderung zugelassen. Die Gewichtsverteilung der Bevölkerung sei approximativ normal mit Mittelwert 70 kg und Standardabweichung 15 kg. a) Wie groß ist die Wahrscheinlichkeit, daß die Tragfähigkeit des Aufzugs überschritten wird, wenn sechs zufällig aus der obigen Bevölkerung ausgewählte Personen zusteigen? b) Wie viele Personen darf man höchstens zulassen, damit die Tragfähigkeit mit höchstens 1% Wahrscheinlichkeit überschritten wird?
36 a) Ein Würfel wird 4mal geworfen. Wie groß ist die Wahrscheinlichkeit, daß die Augensumme mindestens 7 beträgt? b) Ein Würfel wird 40mal geworfen. Wie groß ist die Wahrscheinlichkeit, daß die Augensumme mindestens 120 beträgt?
37 Wie groß ist die Wahrscheinlichkeit, daß in einer Familie mit vier Kindern a) 2 Jungen und 2 Mädchen, b) 3 Jungen und 1 Mädchen, c) lauter Jungen sind, wenn man annimmt, daß Jungen- und Mädchengeburten gleich wahrscheinlich sind?
38 Einem Zeitschriftenvertreter gelingt es bei 4 von 100 Haushalten ein Zeitschriftenabonnement zu vermitteln. Da er aber sehr emsig ist, besucht er wöchentlich 800 Haushalte. a) Bestimmen Sie die exakte Verteilung der wöchentlich von dem Vertreter vermittelten Abonnements. b) Wie groß ist die Wahrscheinlichkeit, daß er mehr als 20 Abonnements pro Woche vermittelt? c) Wie groß ist die Zahl der Abonnements, die der Vertreter in 50% seiner Besuchswochen übertrifft?
39 a) Bei einer Ausspielung des Zahlenlottos 6 aus 49 wurden 13983816 zufällig ausgefüllte Tippreihen abgegeben. Wie groß ist die Wahrscheinlichkeit, daß mindestens einmal 6 Richtige getippt werden? b) Wie viele Tippreihen müssen abgegeben werden, damit die Wahrscheinlichkeit für mindestens einmal 6 Richtige 90% beträgt?
Übungsaufgaben
215
40 Die Kurse X und Y der Aktien A und B seien Zufallsvariable mit E(X) = 100, Var(X) = 400, E(Y) = 200 und Var(Y) = 900. Der Korrelationskoeffizient zwischen den Kursen beträgt Pxy = - 0,5. Jemand kauft 200 Aktien A und 100 Aktien B. a) Berechnen Sie Erwartungswert und Standardabweichung des Wertes W des Aktiendepots. b) Mit welcher Wahrscheinlichkeit liegt der Wert W zwischen 30000 DM und 50000 DM, wenn die Aktienkurse ba) normalverteilt bb) beliebig verteilt (aber nicht normalverteilt) sind?
41 Das Merkmal X einer Grundgesamtheit habe folgende Wahrscheinlichkeitsfunktion P(X = i) = j j '
'
=
1.2,3,4,5
[0 sonst Aus dieser Grundgesamtheit wird eine Stichprobe mit Zurücklegen vom Umfang n gezogen. Bestimmen Sie a) E(X) = n und Var(X) = er 2 . b) Die Verteilung der Stichprobenfunktion X sowie ihre Parameter E(X) und Var(X) für n = 2, c) P(2,5 < X < 3,5) für n, = 2 und n2 = 72, d) E(X) und Var(X) für n, = 3 und n 2 = 72. e) Die Verteilung der Stichprobenfunktion S 2 sowie ihre Parameter E(S 2 ) und Var(S 2 ) für n = 2.
42 Die folgende Verteilungsfunktion einer Pareto-Verteilung sei gegeben: F(x) = l - | — x
x > A > 0, a > 1.
Schätzen Sie a aus den Stichprobenergebnissen nach der a) Methode der Momente b) Maximum-Likelihood-Methode.
43 Ein Landwirt soll ein quadratisches Feld bestellen. Um zu wissen, wieviel Saatgut benötigt wird, schätzt er die Anbaufläche, in dem er eine Seite des Feldes dreimal abschreitet. Die Messungen seien unabhängige Wiederholungen der Zufallsvariablen X, (Abschreiten einer Seite) mit dem Erwartungswert ^ und der Varianz CT2. Soll nun der Landwirt zuerst jede einzelne Messung quadrieren und dann den Durchschnitt bilden, oder soll er zuerst die Messungen mittein und dann quadrieren, d.h. soll er als Schätzfunktion
216
Übungsaufgaben
Pi
+ X j +X3) oder F2 =
'X, +X2 + x 3 x 2
für die Fläche F = \i 2 verwenden? a) Berechnen Sie E(F,) und E(F 2 ). Welche der beiden Schätzfunktionen würden Sie hinsichtlich der Verzerrung vorziehen? b) Es werde angenommen, eine Seite werde n mal abgeschritten. Welcher Schätzer ist für n —» °° erwartungstreu?
44 a) Das Gewicht X einer bestimmten Schokoladensorte sei normalverteilt mit bekannter Varianz 16 g2. Bei einer Stichprobe von 25 Tafeln ergab sich ein Durchschnittsgewicht von 102 g. Bestimmen Sie ein 0,98-Konfidenzintervall für den Erwartungswert des Gewichtes X. b) Bei einer Landtagswahl wurden von 4900 bereits ausgezählten Stimmzetteln 490 für die Partei XY registriert. Bestimmen Sie ein 0,97-Konfidenzintervall für den Anteil der Stimmen der XY Partei.
45 Student Omega ermittelte an 9 zufällig ausgewählten Wochentagen des Semesters sorgfältig den durchschnittlichen Benzinverbrauch seines Fahrzeuges auf der Fahrt zur Hochschule. In chronologischer Reihenfolge erhielt er folgende Werte: Fahrt-Nummer 1 Durchschn.Verbrauch auf 100 km, (1) 7
2 9
3
4 8
5 9
6 7 10 12
8 10
9 1 12 13 1
Omega setzt voraus, daß der durchschnittliche Verbrauch normalverteilt ist mit konstantem Erwartungswert und konstanter Varianz und daß die einzelnen Messungen unabhängig voneinander sind. a) Schätzen Sie unter denselben Voraussetzungen den mittleren Verbrauch pro 100 km und die Standardabweichung des Verbrauches pro 100 km. b) Ermitteln Sie das Konfidenzintervall für den Erwartungswert des Verbrauches pro 100 km mit 95% Konfidenzwahrscheinlichkeit.
46 Von den 1000 Einzelhändlern einer Stadt wählte ein Marktforschungsinstitut zufällig 100 Einzelhändler aus und befragte sie nach gewissen Merkmalen. Es ergab sich u.a. in der Stichprobe: * Durchschnittlicher Jahresumsatz 600000 DM mit einer Standardabweichung von 300000 DM * 20 Einzelhändler waren Ausländer. a) Geben Sie ein 95%-Konfidenzintervall für den durchschnittlichen Jahresumsatz aller Einzelhändler dieser Stadt an. b) Geben Sie ein 99%-Konfidenzintervall für den Anteil der ausländischen Einzelhändler in dieser Stadt an.
Übungsaufgaben
217
47 Ein Verlag führt eine Leseranalyse unter den 4 0 0 0 Beziehern einer von ihm herausgegebenen Fachzeitschrift durch. Eine einfache Zufallsstichprobe ohne Zurücklegen vom Umfang n = 4 0 0 ergab unter anderem: * jährliches Durchschnittseinkommen x = 30000 D M mit einer Standardabweichung von s = 6 0 0 0 D M *
Anteil der Leser, die mit der Zeitschrift zufrieden sind p = 7 5 % .
Schätzen sie mit einer Sicherheitswahrscheinlichkeit von 0,95 a) das Durchschnittseinkommen aller Bezieher, b) den Anteil der zufriedenen Leser unter den Beziehern.
48 Aus einer Kontenkartei mit 2000 Kontokarten soll ein Konfidenzintervall zum Niveau von 9 8 % für den Anteil der fehlerhaften Karten ermittelt werden. In die Stichprobe (ohne Zurücklegen) kamen 2 0 0 zufällig ausgewählte Karten. Die Prüfung ergab 20 fehlerhafte Karten.
49 (X, Y ) sei eine zweidimensionale Zufallsvariable mit der Dichte f(x,y) =
fcy
0 < x < y c • P(X > c) gilt.
LÖSUNGSHINWEISE
S>
l6
150 2!-2! 6 6 6 6 1296 b) rrsw r = 2, s = 4, w = {1,3,5,6} s2 a.x 4! 1i a.4 48 —> 48 21 6 6 1296 c) r = 1, s = 6, w = {2,3,4,5} srww srrw srrr 2 4! 1 1 _1i 4! ' n 2! 6 6" l 6 J 2! W
\4
6
+
3!
6
= 12-
16 + 1296
19 Z = Rendite des Portefeuilles Z=a X + (l-a)Y E(Z) = a • E(X) + (1 - a ) • E(Y) Var(Z) = a 2 = a 2 • Var(X) + (1 - a) 2 • Var(Y) = a 2 • 0,04+ ( l - a ) 2 -0,09 = 0,13 • a 2 - 0,18 • a + 0,09
12-
4
1 - + ,41296 1296
244 1296
—> 244
228
Lösungshinweise
dal
— d a
= 0,26
à2aì
a - 0 , 1 8
d a
minimale Varianz, falls a 9 E(Z) = — 13
4 0,1 + — 13
9 = — = 13
17 0,2 = — = 130
f
=
0 , 2 6 > 0
0,692
0,131
20 a)_ i
p O O
1
16
x
S P Ì X . ) 0,074
216 2
0,259
40 216
3
0,500
52 216
4
0,741
52 216
5
0,926
40 216
6
1,000
16 216 1
b) P ( X < 6 )
E(x) =
c)
=
=
3,5
3,5
216 216
16
200
216 ~ 216 3052
E(X 2 )= 216 0,25
= 2
V a r ( x ) = 1,88
Xn •
= 5
Q = 5 - 2
=
3
d) xi 0
1
10
P(x.) 1 2 92 216 16 216
- > E ( X ) = 0 . Ì + I . i 2 _ + 1 0 . ^ v
'
2
216
216
= ^
216
=
U 6 7
Losungshinweise
229
21 a) S2 = {(KKKKK),(KKKXZ),...,(ZZZZZ)}
n(tì) = 2 5 = 32
b) X = Anzahl von Kopf X F(x) P(x) 0 1
1
1
32 5
32 6
32
32 16
10
T Z
32 10
32 26
32 5
32 31
32 1
32 32
32
32
0
x 2 ) =
—
'
V
4
3-35
—
'
V
3
210
b) X
P(x) F(x)
0 35
1 105
2 63
3 7
210 35
210 140
210 203
210 210
210
210
210
210
210
210
27 U d x = I 2?
J A
I I I -c — = 4 4 2 0, 1 3 — x + —, 4 4 J_ 2'
1 1 — x + —, 4 4 1,
> c = 3
x [7,58; 16,42]
'
n-1
2
=
3338_16 15
15
12
,
=
244
Lösungshinweise
60 a) x = 502,5
1800 s2 = ^ ^ 8
s = 15
b) a = 0,05
502,5-2,31 — < u Ho kann zum 5% Niveau nicht verworfen werden 61 H 0 : p > 0,25 gegen H ] : p < 0 , 2 5 m = 12, n = 80, a = 0,05 1 2 - 8 0 0,25 „„„ , ^ z= , = -2,07 < u nn , = -1,645 V80 0,25 0,75 —> Ho kann zum 5% Niveau abgelehnt werden 62 %2-Anpassungstest Ho: X ist binomialverteilt mit p = 0,5 gegen Xi 0 1 2 3 2
Oi 15 35 25 5 80
(Oi-E,) 2
Ei 0,1250-80 0,3750-80 0,3750-80 0,1250-80 80
= 10 = 30 = 30 = 10
25 25 25 25
(Oi-Ej E, 2,50 0,83 0,83 2,50 6,66
T = 6 , 6 6 < 5C(Vi);0,95 = x l , 0 , 9 5 = 7 , 8 1 5
—¥ Ho kann zum 5% Niveau nicht abgelehnt werden (Man geht weiter davon daß es sich um faire Münzen handelt)
Lösungshinweise
245
63 X 2 -Anpassungstest Ho: X ist gleichverteilt mit p = —
6
gegen Hi: X ist nicht gleichverteilt mit p = — Oi
Xi
Ei
(O.-E,)2
(0,-E,)2 E
1 2 3 4 5 6
15 18 26 22 14 25 120
X
20 20 20 20 20 20 120
25 4 36 4 36 25
i
1,25 0,20 1,80 0,2 1,80 1,25 6,5
T = 6,5 < 4 _ 1 ) ; 0 , 9 5 =X52;O,95 =11-07 —> Ho kann zum 5% Niveau nicht abgelehnt werden (Man geht weiter davon aus, daß es sich um einen symmetrischen Würfel handelt)
64 Oii(Eii):
bestanden 1 2 Z
7(11) 13(9) 20
nicht bestanden 16(12) 6(10) 22
Z 23 19 42
Bei Unabhängigkeit gilt z.B. ^ = J ™ = 0,2608 = ^ E 42 42 1764 42 w
V =
U
=
1
10,95 = 11
(7-11)2 (16-12)2 (l3-9)2 (6-10)2 16 16 16 16 —+ —+ —+ — = — + — + — + — = 6,166 11 12 9 10 11 12 9 10
V = 6,166 > X(2-iH2-.)a>.» = x l M = 2,706 —> Nullhypothese der Unabhängigkeit wird zum 10% Niveau abgelehnt (Thema 1 signifikant schwieriger als Thema 2)
246
Lösungshinweise
65 %2- Anpassungstest Ho: Punktzahlen sind N(50,625)-verteilt gegen Hi: Punktzahlen sind nicht N(50,625)-verteilt i
Zi
1 2 3 4 5 I
-1,2* -0,4 0,4 1,2
0,1151 0,3446 0,6554 0,8849 1
oo
(Oi-Ej2
Pi
Oi
Ei
0,1151 0,2295 0,3108 0,2295 0,1151
10 35 51 34 20 150
17,3 34,4 46,6 34,4 17,3 150
Ei 3,08 0,01 0,42 0,00 0,42 3,93
20-50 * z = = —12 ' V625 T = 3,93 < xl. 0 95 = 9,488 —> die Hypothese der Normalverteilung wird zum 5% Niveau nicht verworfen.
66 y: Optionskursveränderung x: Aktienkursveränderung x = 2, y = 5 (*, - x ) 2 0,25
(Xj - x ) ( y i - y ) 1,25
(y. - y ) 2 6,25
-1,5
1
0,5
0,25
1,5 0,25
0,25
Xi
yi
Xj - X
yi - y
-0,5
-2,5
2
1,5 1
2,5 3,5
-1
3
2,5
5,5
0,5
4 5
3,5
10
2,25
7,5
25
3,5
1,5 -0,5
5
1,5
-1,5
0,25
0,75
2,25
i 1
2,25
6
2
5
0
0
0
0
0
2
12
30
0
0
4
11,25
36
11 25 a) b. = — — = 2,8125 4 b0 = 5 - 2 , 8 1 2 5 - 2 = -0,625
Losungshinweise b) i
y¡
y¡
(y¡ - y ¡ )
1
2,5
3,59375
1,1963
1,9775
2
3,5
2,1875
1,7226
7,9102
3
5,5
6,40625
0,8213
1,9775
4 5
10
9,21875
0,6104
17,7979
3,5
3,59375
0,0088
1,9775
5 30
5
0
0
4,3594
31,6406
6 I
4^594
§2 =
=
(y¡ - y ) 2
2
g5
6-2
s = 1,04396 XÍ
: 0
.95=
9,4877
X
4 1,08985 4 1,08985" 9,4877
c) R Y , X
0,7107
XY
0,7107
4,o.O5=
: [0,4595; 6,1340]
11,25
f 11,25 ] \
alternativ: R ? , x Yx
d)s
2
=
W8985
12
:
0,9375 2 =0,8789
4 3594 =1- ' = 0,8789 36 =
0;
2724625
s„ =0,5220 4,0,975
= 2,78
[2,8125 - 2,78 • 0,5220; 2,8125 + 2,78 • 0,5220] = [1,3613; 4,2637] e) y = -0,625 + 2,8125 • 7 = 19,0625
f)i) c = V 1 , 0 8 9 8 5 •2,78 • ^
+
(2
4 ? )
= 7,3516
[-0,625 + 2,8125 • 7 - 7,3516; - 0,625 + 2,8125 • 7 + 7,3516] = [19,0625 - 7,3516; 19,0625 + 7,3516] = [11,71; 26,41] ii) D = Vi,08985 • 2,78 • [19,0625 - 7,9037; 19,0625 + 7,9037] = [11,16; 26,97]
= 7,9037
248
Lösungshinweise
g) Ho: ß, = 0 2
t= t
gegen H,: ß, * 0
8 1 2 5
- ° = 5,388 0,5220 = 46
4;0,995 ' Da t = 5,388 > 4,6 ist der Einfluß der unabhängigen Variable signifikant von Null verschieden (Signifikanzniveau a = 0,01). Aktienkursveränderungen haben also einen statistisch signifikanten Einfluß auf Opti on skurs Veränderungen. Anm.: Mit o bo = 1,1276 ist der Einfluß des Absolutglieds auch zum 10% Niveau nicht signifikant von Null verschieden, da -0,625-0 „eC/1 t = —1 = -0,554 1,1276 ist; die Hypothese, daß das Absolutglied Null ist, kann also nicht verworfen werden. Abschließend wird das Problem mit dem Statistikprogramm STATISTIX (www.statistix.com) in Bruchteilen von Sekunden berechnet, sobald die Daten eingegeben sind. Die einzelnen Ergebnisse des Computerausdrucks können mit Hilfe der Lösung der Übungsaufgabe leicht interpretiert werden, wobei das für die multiple Regression wichtige korrigierte Bestimmtheitsmaß (ADJUSTED RSQUARED) definiert ist als R 2 = 1 - (1 - R 2 ) • - i — = 1 - (1 - 0,8789)- = 0,8486 n- K 4 mit K = Anzahl der Regressoren (vgl. etwa Johnston, DiNardo (1997), S.74).
STATISTIX 4.1
07/09/99, 21:28
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y PREDICTOR VARIABLES
COEFFICIENT
CONSTANT X
STD ERROR
-0.62500 2.81250
1.12760 0.52198
R-SQUARED 0.8789 ADJUSTED R-SQUARED 0.8486 SOURCE
DF
REGRESSION RESIDUAL TOTAL
SS 1 4 5
STUDENT'S T
31.6406 4.35937 36.0000
-0.55 5.39
P 0.6089 0.0057
RESIDUAL MEAN SQUARE (MSE) STANDARD ERROR OF ESTIMATE MS
F
P
31.6406 29.03 0.0057 1.08984
CASES INCLUDED 6 MISSING CASES 0
1.08984 1.04396
Lösungshinweise
67 E(X) = j x f ( x ) d x 0 c
™
= J"xf(x)dx + J x f ( x ) d x 0
c
> Jxf(x)dx C
> Jcf(x)dx C
Da | c - f ( x ) d x = c - | f ( x ) d x = c - P ( X > c ) ist,folgt E ( X ) > c
P(X>c).
249
VERMISCHTE AUFGABEN l Bei einem Schachturnier tragen die Spieler A und B vier Spiele gegeneinander aus. Bei jedem Spiel gilt: A gewinnt mit Wahrscheinlichkeit 1/2, und er verliert mit Wahrscheinlichkeit 1/4. Sonst endet das Spiel mit einem Remis. Die Ergebnisse der Spiele seien voneinander stochastisch unabhängig. a) Wie groß ist die Wahrscheinlichkeit, daß A alle vier Spiele gewinnt? b) Wie groß ist die Wahrscheinlichkeit, daß A dreimal gewinnt und einmal verliert? c) Wie groß ist die Wahrscheinlichkeit, daß A zweimal gewinnt und einmal verliert? d) Sind die Ereignisse „A gewinnt zweimal und verliert zweimal" und „A gewinnt zweimal und spielt zweimal remis" stochastisch unabhängig? 2 Langfristige Beobachtungen ergaben folgende Wahrscheinlichkeiten für die Anzahl Xj der in der Filiale Nr. i einer Kaufhauskette an einem Geschäftstag verkauften Computer: X
P(Xs = x)
0 0,25
1 0,35
2 0,25
3 0,15
für jedes i e {l,2,...,10l}. Die bei verschiedenen Häusern der Kette verkauften Anzahlen von Computern seien stochastisch unabhängig. a) Wie groß ist der Erwartungswert von Xj? b) Wie groß ist die Varianz von X,? c) Wie groß sind Erwartungsweit und Varianz der von den 101 Läden der Kette an einem Geschäftstag durchschnittlich verkauften Anzahl von Computern? d) Wie groß ist annähernd die Wahrscheinlichkeit, daß an einem Geschäftstag von dieser Kette mehr als 100 Computer verkauft werden? 3 Die Fertigungszeit für ein neu konstruiertes Werkstück sei zwar normal verteilt, aber Erwartungswert und Varianz sind noch unbekannt. Es wurden 25 dieser Stücke unabhängig voneinander hergestellt und die dazu benötigten Zeiten bei einem jeden Stück gemessen. Das arithmetische Mittel der gemessenen Zeiten betrug 10 Stunden und die empirische Varianz wurde mit 4 Stunden zum Quadrat berechnet. a) Berechnen Sie das Konfidenzintervall für den Erwartungswert der Fertigungszeit eines Stückes mit der Konfidenzwahrscheinlichkeit 90%. b) Testen Sie zum 10% Signifikanzniveau die Hypothese: Der Erwartungswert der Fertigungszeit eines Stückes ist höchstens gleich 9,4 Stunden gegen die gegenteilige Alternative.
252
Vermischte Aufgaben
4 Eine Maschine benötigt zur Herstellung eines Werkstückes eine als Zufallsvariable aufzufassende Zeit, deren Verteilung unbekannt ist. Die Maschine produziert 900 Stücke unabhängig voneinander, und man stellte fest, daß sie in 360 Fällen nicht mehr als 15 Minuten benötigte. a) Wie groß schätzen Sie die Wahrscheinlichkeit, daß die Maschine zur Herstellung eines Werkstücks nicht mehr als 15 Minuten benötigt, und wie groß ist die Varianz des Schätzers? b) Warum darf die Verteilung des Schätzers in a) durch eine geeignete Normalverteilung angenähert werden? c) Berechnen Sie ein Konfidenzintervall für die in a) gefragte Wahrscheinlichkeit zu einer Konfidenz Wahrscheinlichkeit von 99%. d) Testen Sie zum 1% Signifikanzniveau die Hypothese: Die Wahrscheinlichkeit, mit der die Maschine zur Herstellung eines derartigen Werkstücks höchstens 15 Minuten benötigt, ist gleich 50%.
5 Mittels eines nicht bekannten Auswahlverfahrens werden aus jedem der 1000 Kartons einer Arzneimittellieferung jeweils drei Ampullen ohne Zurücklegen entnommen und überprüft. Jeder Karton enthielt 100 Ampullen. Es ergab sich folgende Tabelle: i 1 2 3 4
Anzahl Xi der einwandfreien Ampullen aus einem Karton 0 1 2 3
Anzahl nj der Kartons mit Xj 696 247 45 12
Testen Sie zum 10% Niveau die Hypothese: Die Anzahl der einwandfreien Ampullen, die aus einem Karton entnommen werden, ist hypergeometrisch verteilt mit 90 einwandfreien Ampullen im Karton.
6 Jede Seite eines „idealen" Würfels wird mit einer anderen Farbe bemalt, eine Seite rot. Der Würfel wird dreimal geworfen. a) Wie groß ist die Wahrscheinlichkeit, daß bei allen drei Würfen die rote Seite oben liegt? b) Wie groß ist die Wahrscheinlichkeit, daß bei allen drei Würfeln dieselbe Farbe oben liegt? c) Wie groß ist die Wahrscheinlichkeit, daß bei allen drei Würfeln eine andere Farbe oben liegt?
Vermischte Aufgaben
253
7 Die Fußballmannschaften der Vereine 1. FC und FV05 einer Stadt tragen in der Saison zwei Spiele gegeneinander aus. Für einen Sieg erhält der Sieger drei Punkte, für ein Unentschieden einen Punkt und für eine Niederlage keinen Punkt. In jedem der beiden Spiele ist die Wahrscheinlichkeit für einen Sieg genauso groß wie diejenige für eine Niederlage, und daß ein Spiel unentschieden ausgeht, hat die Wahrscheinlichkeit 1/2. Die beiden Spielergebnisse sind voneinander stochastisch unabhängig. a) Wie groß ist der Erwartungswert der Punktezahl X des l.FC beim ersten Spiel gegen den FV05? b) Wie groß ist die Varianz von X? c) Wie lautet die Wahrscheinlichkeitsfunktion der Summe Z der Punkte des 1. FC aus beiden Spielen gegen den FV05? d) Skizzieren Sie das Stabdiagramm der Wahrscheinlichkeitsfunktion von Z. e) Wie groß sind Erwartungswert und Varianz von Z?
8 Wenn Bogenschütze Robin auf eine Zielscheibe schießt, kann der Abstand des Treffpunktes vom Scheibenmittelpunkt als eine stetige reelle Zufallsvariable aufgefaßt werden mit der Wahrscheinlichkeitsdichtefunktion _ ^ fc(l-x), für0 < x < 1 [ 0 sonst wobei c eine geeignet zu wählende Konstante ist. a) Berechnen Sie die Konstante c. b) Wie groß ist der Erwartungswert und wie groß ist die Varianz des Abstandes? c) Wie groß ist die Wahrscheinlichkeit, daß der Abstand i) kleiner als 0,2 ist? ii) zwischen 0,1 und 0,2 beträgt? d) Wie groß ist annähernd die Wahrscheinlichkeit, daß von 1000 voneinander unabhängigen Schüssen Robins wenigstens 360 einen Abstand von weniger als 0,2 vom Scheibenmittelpunkt haben? 9 Aus einer Lieferung von 10000 Scheinwerferlampen wurde eine einfache Zufallsstichprobe vom Umfang 225 gezogen und die in der Stichprobe gewählten Lampen wurden überprüft. Es stellte sich heraus, daß 18 der geprüften Lampen defekt waren. a) Schätzen Sie den Anteil der defekten Lampen in der Lieferung. b) Diese Schätzung ist die Realisation einer Zufallsvariablen. Warum kann die Verteilung dieser Zufallsvariablen mittels einer geeigneten Normalverteilung approximiert werden? c) Berechnen Sie ein annäherndes Konfidenzintervall für den Anteil der defekten Lampen in der ganzen Lieferung mit 95% Konfidenzwahrscheinlichkeit. d) Testen Sie zum 5% Signifikanzniveau die Hypothese: Der Anteil der defekten Lampen in der Lieferung ist mindestens 10% gegen die Alternative, daß er kleiner als 10% ist.
254
Vermischte Aufgaben
10 Ein Lebensmittelkonzern läßt den Wohlgeschmack eines neu entwickelten Erzeugnisses von 81 Testpersonen unabhängig voneinander mittels eines ausgeklügelten Punktesystems beurteilen, das gewährleisten soll, daß die Punktzahl einer jeden der 81 Testpersonen normal verteilt ist mit unbekanntem Erwartungswert und unbekannter Varianz. Es realisierte sich eine durchschnittliche Zahl von 99 Punkten bei einer empirischen Varianz (der einzelnen Punktzahlen) von 25 (Punkten zum Quadrat). Von einem alteingeführten Konkurrenzprodukt weiß man, daß der Erwartungswert der Punktzahl einer jeden Testperson gleich 100 ist. a) Berechnen Sie das 95% Konfidenzintervall für den Erwartungswert der Punktzahl des neuen Produktes. b) Testen Sie zum 5% Signifikanzniveau die Hypothese, daß das neue Produkt nicht schlechter schmeckt als das alte, d.h. daß der Erwartungswert der Punktzahl mindestens 100 Punkte beträgt gegen die gegenteilige Alternative. 11 Mittels eines nicht durchschaubaren Auswahlmechanismus werden aus 80 umfangreichen Warenlieferungen jeweils 4 Stücke gezogen und überprüft. Es ergab sich folgende Tabelle: Anzahl der völlig einwandfreien Stücke in einer Stichprobe
Anzahl n, der Stichproben mit x,
Xi
1 2 3 4 5
0 1 2 3 4
5 30 20 15 10
Testen Sie zum 10% Niveau die Hypothese: Die Anzahl der einwandfreien Stücke in einer Stichprobe ist binomialverteilt mit n = 4 und p = 0,5. 12 In einer Autofabrik mit Fünftagewoche rollen an jedem Arbeitstag gleich viele PKW vom Band. Es hat sich herausgestellt, daß 25% der montags und 10% der freitags hergestellten PKW mit Mängeln behaftet sind, während 95% der an anderen Tagen hergestellten PKW keinen Mangel aufweisen. a) Wie groß ist die Wahrscheinlichkeit, daß bei einer Zufallsauswahl aus der Produktion dieses Werkes ein mit einem Mangel behafteter PKW gezogen wird? b) Wie groß ist die Wahrscheinlichkeit, daß bei einer Zufallsauswahl aus der Produktion dieses Werkes ein montags hergestellter PKW gezogen wird unter der Bedingung, daß der PKW mit einem Mangel behaftet ist.
Vermischte Aufgaben
255
13 Durch langfristige Beobachtung wurde festgestellt, daß der Intercity WesterlandStuttgart „Friedrich Schiller", planmäßige Abfahrt aus Dortmund 14.42 Uhr, unter normalen Bedingungen in Stuttgart mit einer Verspätung von höchstens 30 Minuten und niemals zu früh ankommt. Am häufigsten hatte er eine Verspätung von etwa 10 Minuten. Betrachten wir die Verspätung als Zufallsvariable X und sei deren Dichtefunktion „, ^ ic(a + b x - x 2 ) mit 0 < c < b < a und 0 < x < 3 0 f(x) = \ [ 0 für x < 0 oder x > 30 (Es sei also f(30) = 0.). a) Bestimmen Sie die Konstanten a, b und c. b) Wie groß ist der Erwartungswert der Verspätung X? c) Wie groß ist die Wahrscheinlichkeit, daß „Friedrich Schiller" in Stuttgart mit mehr als 20 Minuten Verspätung ankommt? 14 Im Auftrag einer Autozeitschrift sollen die zu erwartenden Kosten pro km zweier PKW-Typen miteinander verglichen werden. Dazu werden 10 PKWs eines jeden Typs Mitarbeitern zur Verfügung gestellt, die alle an ihr Fahrzeug gleiche Anforderungen stellen. Nach jeweils 50000 km liegen folgende Werte vor: Typi
•J-
10
1 2
27 30
j=i 100,0 102,5
wobei x (j = Kosten pro km des j. Fahrzeugs vom Typ i und Xj = Durchschnittskosten pro km der 10 PKW vom Typ i pro Fahrzeug. Es sollen zum 5% Signifikanzniveau die Hypothesen - die Erwartungswerte der Kosten pro km und pro PKW sind für beiden Typen gleich groß der in der Anschaffung teurere Typ 1 hat höhere mittlere Kosten pro km und pro Fahrzeug als Typ 2 getestet werden. a) Welche zusätzlichen Voraussetzungen sind notwendig, damit die Hypothesen auf dem geforderten Niveau aufgrund der obigen Daten mittels einer tverteilten Teststatistik getestet werden können? b) Testen Sie die beiden Hypothesen mittels des geeigneten Verfahrens auf dem verlangten Signifikanzniveau.
256
Vermischte Aufgaben
15 Die Zeit T, in der ein bestimmter Vorgang beendet sein wird, sei wie folgt verteilt:
6 f(t) = ( a - 2 ) 3
-(t-2)(a-t), 0
für 2 < t < a sonst.
Die Hypothese Ho: a = 4 soll gegenüber der Alternative Hi: a = 5 aufgrund einer einzigen Beobachtung getestet werden. Es wird vorgeschlagen, Ho abzulehnen, wenn der einmal zu beobachtende Vorgang länger als drei Zeiteinheiten dauert. a) Wie groß sind die Wahrscheinlichkeit des Fehlers 1. Art, die Wahrscheinlichkeit des Fehlers 2. Art und die Güte des Tests? b) Konstruieren Sie einen Test, der Fehler 1. Art mit Wahrscheinlichkeit 1 vermeidet ( a = 0) und unter dieser Bedingung größtmögliche Trennschärfe besitzt.
16 Bei einer Flaschenbierabfüllanlage sollen mittels eines bestimmten Verfahrens vor dem Abfüllen unbrauchbar gewordene Flaschen aussortiert und noch verschmutzte brauchbare Flaschen wiederum durch die Reinigungsanlage geschickt werden. Das Verfahren sondert 90% der unbrauchbaren Flaschen aus und schickt 80% der brauchbaren, aber noch verschmutzten Flaschen in die Reinigungsanlage. Es hat den Nachteil, daß auch 5% der brauchbaren Flaschen als unbrauchbar aussortiert werden, ob sie nun verschmutzt sind oder nicht. Der Anteil der unbrauchbaren Flaschen an allen zu sortierenden Flaschen sei 6%, der Anteil der völlig einwandfreien Flaschen dagegen 90%. a) Wie groß ist die Wahrscheinlichkeit, daß eine zufällig ausgewählte Flasche von dem Sortierverfahren als unbrauchbar ausgesondert wird? b) Wie groß ist die Wahrscheinlichkeit, daß eine zufällig aus den als unbrauchbar aussortierten Flaschen ausgewählte Flasche auch wirklich unbrauchbar ist? 17 Die Zufallsvariable X sei gemäß der Wahrscheinlichkeitsfunktion fc(x-l)a P(X = x) = • 0
für x = 1,2,3 sonst
verteilt mit dem Erwartungswert ji = 2,8. a) Bestimmen Sie die Konstanten a und c. b) Wie groß ist die Varianz von X?
18 Das Einkommen Y und die Ausgaben für Ausbildung X sollen als stetige Zufallsvariablen betrachtet werden, deren gemeinsame Dichtefunktion wie folgt aussehe: f
(x>y):
i480x~6(x-l)3y_4
,
für 1 < x - 1 < y
0 sonst. (Hinweis: l < x - l » 2 < x . Achten Sie bei den folgenden Berechnungen auf die Grenzen des Bereichs positiver Dichte!)
Vermischte Aufgaben
257
a) Berechnen Sie die Randdichtefunktion, den Erwartungswert und die Varianz von X. b) Berechnen Sie die bedingte Dichtefunktion von Y unter der Bedingung X = x, den bedingten Erwartungswert E(Y|X) und den Erwartungswert von Y. (Hinweis: E(Y) = E(E(Y|X)).) c) Berechnen Sie die Kovarianz Cov(X,Y).
19 Ein Systemwetter kreuzt die Alternativen 0, 1 und 2 gemäß der Wahrscheinlichkeitsfunktion — für x = 0,1,2 P(X = x) = 1 + c + c 0 sonst von Tip zu Tip unabhängig an und hat Erfolg damit. Leider hält er die Größe von c geheim, aber Sie kennen n seiner Tipps. a) Geben Sie für das unbekannte c aufgrund der n bekannten Tipps Xi, X2,...,X„ die Schätzfunktion nach der i) Maximum-Likelihood Methode ii) Methode der Momente an. b) Welcher Schätzwert ergibt sich demnach, wenn x = 1 ist? c) Welche Eigenschaften haben die oben ermittelten Schätzfunktionen?
20 Eine Maschine produziert Kolben, deren Durchmesser X von 10 cm um höchstens ±1 mm abweichen dürfen, sonst sind die Kolben Ausschuß. Setzen wir voraus, daß X normalverteilt ist und daß die Durchmesser der Kolben unabhängig voneinander sind. a) Bei optimaler Einstellung der Maschine werden Kolben mit einem mittleren Durchmesser von 10 cm und 4,55% Ausschuß produziert. Wie groß ist demnach die Standardabweichung von X? b) Es ist nicht sicher, daß die Maschine optimal arbeitet. Aus der laufenden Produktion werden zur Überprüfung zufällig 5 Kolben herausgegriffen und deren Durchmesser gemessen. Es ergab sich: i Xi
1 9,85
2 10,10
3 9,95
4 9,94
5 1 10,06
Berechnen Sie das Konfidenzintervall für den Erwartungswert des Durchmessers mit einer Konfidenzwahrscheinlichkeit von 95%. c) Kann aufgrund dieser Stichprobe auf einem Signifikanzniveau von 5% die Hypothese aufrechterhalten werden, daß der mittlere Durchmesser 10 cm beträgt? d) Kann aufgrund dieser Stichprobe auf einem Signifikanzniveau von 5% die Hypothese verworfen werden, daß die Varianz dieselbe ist wie bei optimaler Einstellung?
258
Vermischte Aufgaben
21 Im Auftrag einer Autozeitschrift sollen die zu erwartenden Kosten pro km Fahrstrecke zweier PKW-Typen miteinander verglichen werden. Dazu werden 10 PKWs eines jeden Typs Mitarbeitern zur Verfügung gestellt, die alle an ihr Fahrzeug gleiche Anforderungen stellen. Nach jeweils 50000 km Fahrstrecke liegen folgende Angaben vor: 10
Typ i
H
1 2
27 30
190,2 180,0
wobei x = Kosten pro km des j. Fahrzeugs vom Typ i und Xj = Durchschnittskosten pro km der 10 PKW vom Typ i pro Fahrzeug. Die einzelnen Messungen seien unabhängig voneinander normalverteilt mit den Mittelwerten (j., und den Varianzen a 2 für i = 1,2. a) Berechnen Sie das Konfidenzintervall für C\2 zum 95% Niveau. b) Testen Sie zum 5% Signifikanzniveau die Hypothese Ho: Q\2 = 20. c) Ist der in b) durchgeführte Test gleichbedeutend mit einem Test der Hypothese Ho: 3 und a > 1 sein sollen. Es sei weiter E(X) = |
und E(Y|X = 1) = 2.
a) Berechnen Sie die Randdichtefunktion von X. b) Berechnen Sie die bedingte Dichtefunktion von Y unter der Bedingung X = x. c) Bestimmen Sie die Konstanten a und c.
32 Die Befragung von 100 zufällig ausgewählten Unternehmen eines großen Landes hinsichtlich ihrer Investitionspläne ergab, daß 20% außer Ersatz- und Rationalisierungsinvestitionen auch Kapazitätserweiterungen planen, 60% Ersatzund Rationalisierungsinvestitionen und 20% ausschließlich Ersatzinvestitionen vornehmen wollen.
262
Vermischte Aufgaben
a) Bestimmen Sie das 0,99-Konfidenzintervall für den Anteil der Unternehmen dieses Landes, die Kapazitätserweiterungen planen. b) Wie viele Unternehmen müßte man befragen, damit bei reiner Zufallsauswahl der Anteil der expansiven Unternehmen mit Wahrscheinlichkeit 99% auf +1% genau angegeben werden kann? c) Ist die Hypothese, der Anteil der erweiternden Unternehmen in diesem Lande ist nur gleich 10%, zum 1% Signifikanzniveau zu verwerfen? 33 Es wird vermutet, daß der Nitratgehalt des Grundwassers in der Umgebung eines Wasserwerkes durch den Einsatz chemischer Düngemittel durch die landwirtschaftlichen Betriebe beeinflußt wird. Bei zehn Probebohrungen erhielt man folgende Kombinationen zwischen Nitratmenge und Düngemitteleinsatz auf den umliegenden Feldern: Düngemittel pro ha in dz Nitratgehalt in mg/1
7
9
10
10
11
12
12
13
13
13
8
9,5
9
9,5
10
10,5
11
10,5
11
11
Es wird ein linearer Zusammenhang zwischen Düngemitteleinsatz und Nitratgehalt des Grundwassers unterstellt, der von einer N(0,ct2) verteilten Störvariable überlagert wird, und es seien die zehn Proben voneinander unabhängig. a) Schätzen Sie die Stärke des linearen Zusammenhangs zwischen Düngemitteleinsatz und Nitratgehalt. b) Schätzen Sie die Koeffizienten der linearen Regression des Nitratgehaltes in Abhängigkeit vom Düngemitteleinsatz. c) Berechnen Sie das Konfidenzintervall für die Steigung der Regressionsgeraden mit 95% KonfidenzWahrscheinlichkeit. d) Überprüfen Sie die Vermutung, daß es einen linearen Zusammenhang zwischen Nitratgehalt und Düngemitteleinsatz gibt, mittels eines geeigneten Tests zum 5% Signifikanzniveau. 34 Dem Sportteil einer Zeitung war zu entnehmen, daß die Anzahl der aufeinanderfolgenden nicht verlorenen Spiele einer bestimmten Fußballmannschaft bis zur nun erfolgten Niederlage gleich 26 ist. Als leidenschaftlicher Fußballanhänger bestreitet Omega, daß die Spielausgänge voneinander unabhängige Zufallsereignisse sind und die Wahrscheinlichkeit für einen Sieg wie für eine Niederlage bei jedem Spiel gleich 1/3 ist. Welche Nullhypothese ist zu testen? Führen Sie einen geeigneten Test zum 5% Signifikanzniveau durch.
Vermischte Aufgaben
263
35 Studentin Alpha und Student Omega essen in einer Mensa. Dort besteht ein Menü aus einem Hauptgericht und drei Beilagen. Es stehen für jedes Menü drei Hauptgerichte und fünf Beilagen zur Auswahl. a) Da Omegas Geschmacksnerven schon sehr abgestumpft sind, stellt er sein Menü rein zufällig - innerhalb der gegebenen Möglichkeiten - zusammen, und es kam schon vor, daß er zum Gulasch drei Schalen Reisbrei ausgewählt hat. Wie groß ist die Wahrscheinlichkeit, daß Omega eine ganz bestimmte Auswahl trifft? b) Alpha wählt auch zufällig, aber sie achtet doch darauf, daß sie stets voneinander verschiedene Beilagen auswählt. Wie viele verschiedene Menüs könnte Alpha zusammenstellen? c) Wie groß ist die Wahrscheinlichkeit, daß Alpha und Omega eines Mittags das gleiche Menü essen, wenn sie unabhängig voneinander auswählen? d) Nach dem gleichen Auswahlprinzip wie Alpha richten sich auch unabhängig voneinander vier Vertreter des Fachbereichs Statistik. Wie groß ist die Wahrscheinlichkeit, daß an einem Mittag wenigstens zwei dieser vier das gleiche Menü essen? 36 Der erwartete Landepunkt einer Jupitersonde hat die Koordinaten (0,0). Die Wahrscheinlichkeit, daß der Abstand R des tatsächlichen Landepunktes vom erwarteten Landepunkt um mehr als r Kilometer abweicht, sei gegeben durch die Funktion k-e^. a) Wie lauten Verteilungs- und Dichtefunktion von R? Bestimmen Sie den Wert der Konstanten k und zeigen Sie, daß Ihre als Verteilungsfunktion ermittelte Funktion alle Eigenschaften einer Verteilungsfunktion hat. b) Wie groß sind Erwartungswert und Varianz von R? c) Wie lautet die bedingte Verteilungsfunktion von R unter der Bedingung, daß die Sonde nicht weiter als 2 km vom Punkt (0,0) entfernt landet? 37 Von den 2000 Unternehmen in der Bundesrepublik, die das Produkt A herstellen, erwarten 1600 im Jahre 2001 eine ungünstigere Geschäftsentwicklung als im Vorjahr. a) Wie groß ist die Wahrscheinlichkeit, daß eine uneingeschränkte Zufallsauswahl aus der Gesamtheit der 2000 Unternehmen vom Umfang 100 zwischen 75 und 85 Unternehmen mit ungünstigeren Geschäftserwartungen enthält? b) Berechnen Sie approximativ die Grenzen des 1,96 • o -Bereichs für den Anteil der Unternehmen mit ungünstigen Geschäftserwartungen in einer reinen Zufallsauswahl vom Umfang 100 aus den 2000 Unternehmen. Nun aber stellte es sich heraus, daß die oben angegebene Zahl von Unternehmen mit ungünstigen Geschäftserwartungen möglicherweise völlig aus der Luft gegriffen ist. Es wurde daher nun tatsächlich eine Stichprobe vom Umfang 100 aus den 2000 Unternehmen gezogen, und es ergab sich, daß 70% der befragten Unternehmen eine ungünstigere Geschäftsentwicklung erwarten.
264
Vermischte Aufgaben
c) Berechnen Sie approximativ das 95,44% Konfidenzintervall für den Anteil der eine ungünstigere Geschäftsentwicklung erwartenden Unternehmen dieser Branche. d) Ist mit dem obigen Stichprobenergebnis zum 4,56% Signifikanzniveau die Hypothese widerlegt, daß die Anzahl der eine ungünstigere Geschäftsentwicklung erwartenden Unternehmen gleich 1600 ist?
38 Student Oeconomicus nimmt an, daß die Ergebnisse seiner Statistikklausuren Realisationen einer normalverteilten Zufallsvariablen mit konstantem Mittelwert und konstanter Varianz sind. Außerdem setzt er aus mancherlei Gründen voraus, daß alle vier Ergebnisse stochastisch unabhängig voneinander sind. Oeconomicus erzielte folgende vier Ergebnisse: Klausur Nr. i Punktzahl in Klausur Nr. i
1
2
3
4
23
31
7
19
I
a) Schätzen Sie unter den von Oeconomicus getroffenen Voraussetzungen den Erwartungswert und die Varianz der Punktzahl. b) Ermitteln Sie das Konfidenzintervall für den Erwartungswert der Punktzahl mit 90% Konfidenzwahrscheinlichkeit. c) Angenommen, Oeconomicus hat nach den beiden letzten nicht bestandenen Klausuren einen weiteren Versuch, und seine Voraussetzungen mögen sinngemäß auch für diesen Versuch gelten, in welchen Intervall liegt dann voraussichtlich das Ergebnis dieses Versuchs mit 90% Wahrscheinlichkeit?
39 Oeconomicus möchte seine Klausurergebnisse mit denjenigen von Alpha vergleichen. Alpha teilt ihm wahrheitsgemäß mit, daß sie in den vier Versuchen eine durchschnittliche Punktzahl von 30 erzielte, und die Summe der Quadrate der Abweichungen der Punktzahlen von diesem Durchschnitt gleich 288 betrug. Die Ergebnisse von Oeconomicus sind: Klausur Nr. i Punktzahl in Klausur Nr. i
1
2
23
31
3
4 19
Oeconomicus nimmt weiter an, daß Alphas Klausurergebnissc und seine eigenen unabhängig voneinander und normalverteilt sind. Helfen Sie Oeconomicus bei diesem Vergleich. a) Testen Sie zum 10% Signifikanzniveau die Hypothese: Die Erwartungswerte der Punktzahlen sind für Oeconomicus und Alpha gleich. b) Berechnen Sie das 95% Konfidenzintervall für die Differenz der Erwartungswerte beider Stichproben unter der Annahme der Gleichheit beider Varianzen.
Vermischte Aufgaben
265
40 Bei einer Multiple-Choice-Aufgabe werden vier Fragenkomplexe mit vier Fragen je Komplex gestellt, die jeweils mit ja oder nein zu beantworten sind. Für jede richtige Antwort innerhalb eines Komplexes erhält man einen Pluspunkt (+1), für jede falsche Antwort innerhalb eines Fragenkomplexes einen Minuspunkt (-1). Für jeden Fragenkomplex erhält man die Differenz aus der Anzahl der Plus- und der Minuspunkte, sofern diese Differenz positiv ist, sonst erhält man null Punkte für diesen Komplex. Die Aufgabenlösung insgesamt wird schließlich mit der Summe der Punktzahlen für die vier Fragenkomplexe bewertet. Student Omega kreuzt die Ja- und die Nein-Alternativen jeweils zufällig und unabhängig voneinander mit gleicher Wahrscheinlichkeit an. a) Definieren Sie eine Zufallsvariable, die den Ausgang der j-ten Frage im i-ten Fragenkomplex (i,j e {1,2,3,4}) beschreibt. b) Wie groß sind Erwartungswert und Varianz der Punktzahl von Omegas Antwort auf Frage j im i-ten Komplex? c) Wie groß sind Erwartungswert und Varianz der Punktzahl, die Omega für den i-ten Fragenkomplex insgesamt erhält? d) Wie groß sind Erwartungswert und Varianz der Punktzahl, die Omega für die gesamte Multiple-Choice-Aufgabe erhält? e) Wie groß ist der Median der Punktzahl für die gesamte Aufgabe? 41 Student Omega trifft im Zeitpunkt T in der Mensa ein, die nur zwischen 12.00 und 13.00 Uhr geöffnet ist. Die Wahrscheinlichkeitsdichtefunktion von T lautet: i c ( 1 2 - t ) ( 1 3 - t ) für 12 < t < 13 f(t)= * [ 0 sonst. a) Wie groß ist die Konstante c? Wenn Omega im Zeitpunkt t eintrifft, ist die Wahrscheinlichkeit, daß er sich dort weniger als y Stunden aufhält, gleich y(2-y) ( 1 3 - t)(t - 1 1 ) Spätestens verläßt Omega die Mensa um 13.00 Uhr, also ist y = 13 - 1 . b) Wie lautet die bedingte Wahrscheinlichkeitsdichtefunktion von Aufenthaltszeit Y unter der Bedingung T = t? c) Wie groß ist der bedingte Erwartungswert von Y bei gegebenem T? d) Wie groß ist der Erwartungswert von Y?
Omegas
42 Bei einem gefälschten Würfel tritt die „6" mit Wahrscheinlichkeit p und die „1" mit Wahrscheinlichkeit 1/3 - p auf, während die übrigen Seiten jeweils mit Wahrscheinlichkeit 1/6 nach oben zu liegen kommen. Wie lautet die Schätzfunktion für p bei n voneinander unabhängigen Würfen mit diesem Würfel a) mit der Maximum-Likelihood Methode, b) nach der Momentenmethode? c) Welche Eigenschaften hat in diesem speziellen Fall die nach der Momentenmethode gewonnene Schätzfunktion? Hinweis zu a): Die Häufigkeit der „1" sei Yi, die Häufigkeit der „6" sei Y 2 .
266
Vermischte Aufgaben
43 Dem Vertreter Rührig gelingt es, durchschnittlich bei 2 von 100 Haushalten ein Zeitschriftenabonnement zu vermitteln. Er ist aber unverdrossen und besucht wöchentlich 900 Haushalte, die er zufällig aus einer Adressenkartei auswählt. a) Wie ist die Anzahl der wöchentlich von Rührig vermittelten Abonnements verteilt? b) Wie groß ist der Erwartungswert und wie groß ist die Standardabweichung der Anzahl der wöchentlichen Abonnementsabschlüsse? c) An wieviel Prozent seiner Besuchswochen vermittelt Rührig mehr als 10 Abonnements? d) Wie groß ist die Abonnementszahl, die Rührig in 50% seiner Besuchswochen übertrifft?
44 Der Hersteller H der Maschine des Typs M verspricht, daß M so eingestellt werden kann, daß der Erwartungswert der Länge der von ihr zu produzierenden Schrauben gleich dem gewünschten Maß ist bei einer Standardabweichung, die nicht größer als 2% des jeweiligen Erwartungswertes ist. Im übrigen kann die Verteilung der Schraubenlänge als normal angesehen werden. Käufer K aus Do will Schrauben herstellen, deren Längen höchstens um ±5 mm von 110 mm abweichen dürfen, sonst sind sie Ausschuß. a) Mit welchem Ausschußanteil muß K bei einer großen Produktion höchstens rechnen, wenn Hs Versprechungen richtig sind? b) K kauft zwei Maschinen dieses Typs M und produziert eine große Stückzahl Schrauben. Leider muß er feststellen, daß bei der einen Maschine zwar im Durchschnitt die Schrauben die gewünschten Länge haben, aber dennoch 8% Ausschuß zu beklagen ist. Wie groß ist die Standardabweichung der Schraubenlänge bei dieser Maschine? c) Die andere Maschine produziert 2% zu kurze und 4% zu lange Schrauben. Wie groß sind Erwartungswert und Standardabweichung der Schraubenlänge bei dieser Maschine?
45 Der Hersteller H der Maschine des Typs M verspricht, daß M so eingestellt werden kann, daß der Erwartungswert der Länge der von ihr zu produzierenden Schrauben gleich dem gewünschten Maß ist bei einer Standardabweichung, die nicht größer als 2% des jeweiligen Erwartungsweites ist. Im übrigen kann die Verteilung der Schraubenlänge als normal angesehen werden. Der Interessent I läßt sich eine Maschine des Typs M vorführen, und es werden unabhängig voneinander vier Schrauben gefertigt mit den Längen: 111,5 mm, 115,5 mm, 103,5 mm, 109,5 mm. a) Wie groß sind schätzungsweise Erwartungswert und Varianz der Schraubenlänge bei dieser Maschine? b) Errechnen Sie das Konfidenzintervall für den Erwartungswert der Schraubenlänge bei dem vorliegenden Stichprobenergebnis mit 95% Konfidenzwahrscheinlichkeit.
Vermischte Aufgaben
267
c) Testen Sie zum 1% Signifikanzniveau die Hypothese: Die Varianz der Schraubenlänge ist kleiner als 4,84 mm 2 , (i) wenn der Erwartungswert unbekannt ist, (ii) wenn der Erwartungswert gleich 110 mm war. 46 Zwei Fußballmannschaften tragen in einer Saison je 40 Meisterschaftsspiele aus. Mannschaft Scharfschuß verlor 10 ihrer Spiele, während Mannschaft Hinkebein 14 mal verlor. Omega, als Anhänger von Mannschaft Hinkebein, behauptet, daß die Wahrscheinlichkeit, mit der Scharfschuß verliert, größer sei als die entsprechende Wahrscheinlichkeit bei Hinkebein. a) Testen Sie die Hypothese, daß Hinkebeins Mißerfolgswahrscheinlichkeit kleiner ist als die Mißerfolgswahrscheinlichkeit von Scharfschuß aus den gegebenen Daten mit höchstens 5% Irrtums Wahrscheinlichkeit mit einem der Ihnen bekannten Testverfahren. b) Welche Voraussetzungen, die diesem Testverfahren zugrunde liegen, sind in diesem Anwendungsfall vermutlich nicht erfüllt? 47 X,,X 2 ,...,X n seien
unabhängig,
identisch
verteilte
Zufallsvariablen
mit
E(Xi) = n und V a r ( X i ) = a 2 , i = l , 2 , . . . , n . a) Zeigen Sie, daß sowohl X,1 = - X , + - X , als auch X, = —X, + —X, 2 2 4 4 erwartungstreue Schätzer für |X sind. Welchen der beiden Schätzer für n würden Sie vorziehen? (Begründung?) b) Zeigen Sie, daß IX, Xi +, -i=2 A _= — 2 2n ein asymptotisch erwartungstreuer Schätzer für n ist. Ist A auch ein konsistenter Schätzer?
48 Das Einkommen X sei (pareto)-verteilt mit F(x) =
1
iA\2
UJ 0
, x>A>0 sonst.
a) Ermitteln Sie die Dichte f(x) und prüfen Sie nach, ob f(x) wirklich eine Dichte ist. b) Zeigen Sie, daß E(X) = 2A ist und E(X 2 ) nicht definiert ist. c) Ermitteln Sie den Modus und den Quartilsabstand der Verteilung. d) Berechnen Sie folgende Wahrscheinlichkeiten: P(500 < X < 1000), F(1000), P(X = 1200), P(300 < X < 450), P(X > 1500), wenn A = 500 ist.
268
Vermischte Aufgaben
e) Schätzen Sie den Parameter A der Verteilung nach der Methode der Momente. Was können Sie über die Eigenschaften des Schätzers bei einer einfachen Stichprobe aussagen?
49 Eine Untersuchung von 40 Menschen der jüngeren Bronzezeit in Niederösterreich (Population A) und von 60 spanischen Westgoten (Population B) im 5. Jh. ergab folgende Altersverteilungen: Alter 20-40 40-60 60-80
A 22 12 6 40
B 28 18 14 60
x A = 4 2 , x B = 4 5 , s A = 2 0 0 , s^ = 240 Prüfen Sie, ob ein signifikanter Unterschied a) bei den beiden Altersverteilungen ( a = 0,05) b) beim Durchschnittsalter ( a = 0,0456) besteht? c) Welche Konsequenzen ergeben sich hinsichtlich des Tests bei der Altersverteilung, wenn die Besetzungszahlen in den Feldern zu gering sind? Glauben Sie, daß im vorliegenden Fall die Besetzungszahlen groß genug sind?
50 a) Eine Zufallsvariable habe folgende Dichtefunktion: fl für 0 < x < 1 f(x) = (0 sonst. Wie lautet die Dichte der transformierten Zufallsvariablen Y = 5X - 10. (Vergessen Sie nicht anzugeben, für welchen Bereich die transformierte Dichte den Wert Null annimmt!) b) Geben Sie ein 0,9974%-Konfidenzintervall für den Korrelationskoeffizienten p der Grundgesamtheit (zweidimensional-normalverteilt) an, wenn eine einfache Stichprobe aus einer normalverteilten Gesamtheit vom Umfang n = 103 den Stichprobenkorrelationskoeffizienten r = 0,5 liefert. c) Es soll das monatliche Durchschnittseinkommen von Studenten mit einer Genauigkeit von ±50 DM durch eine Erhebung festgestellt werden. Berechnen Sie den notwendigen Stichprobenumfang, wenn man sich mit einer Sicherheitswahrscheinlichkeit von 95,44% begnügt. Aus vorigen Untersuchungen weiß man, daß die Standardabweichung etwaCT= 100 beträgt. d) (X,Y) sei normalverteilt mit der Dichte f ( x , y3 ) = - L e V
2
2ji
Ermitteln Sie P(0 < X < 1,28 ; - 3,9 < Y < 0,525).
Vermischte Aufgaben
269
51 Eine stetige Zufallsvariable X habe die Dichte -^-x(a-x) a 0
für0(z) der Standardnormalverteilung N(0,1) z 1 -— 4>(z) = I .— e 2 du iv2n z
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239
0,5279
0,5319
0,5359
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,5714
0,5753
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026
0,6064
0,6103
0,6141
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,6480
0,6517
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772
0,6808
0,6844
0,6879
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,7190
0,7224
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,8106
0,8133
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
0,8365
0,8389 0,8621
1
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
0,8810
0,8830
1,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
0,8997
0,9015
1,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
1,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
1,5
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
1,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
1,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
1,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
1,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
0,9761
0,9767
2
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
2,1
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846
0,9850
0,9854
0,9857
2,2
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,9890
2,3
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
2,4
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
2,5
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
2,6
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9%1
0,9962
0,9963
0,9964
2,7
0,9965
0,9966
0,9967
0,9968
0,9969
0,9970
0,9971
0,9972
0,9973
0,9974
2,8
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979
0,9979
0,9980
0,9981
2,9
0,9981
0,9982
0,9982
0,9983
0,9984
0,9984
0,9985
0,9985
0,9986
0,9986
3
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989
0,9989
0,9990
0,9990
Tabellenanhang 281
Tabelle 4: Quantile U].a der Standardnormalverteilung N(0,1) l-a
Ui-o
l-a
Ul-a
l-a
U|-a
l-a
Ui-a
0,9999
3,7195
0,9975
2,8071
0,965
1,8119
0,83
0,9542
0,9998
3,5402
0,997
2,7478
0,96
1,7507
0,82
0,9154
0,9997
3,4319
0,9965
2,6968
0,955
1,6954
0,81
0,8779
0,99%
3,3528
0,996
2,6521
0,95
1,6449
0,8
0,8416
0,9995
3,2905
0,9955
2,6121
0,945
1,5982
0,79
0,8064
0,9994
3,2390
0,995
2,5758
0,94
1,5548
0,78
0,7722
0,9993
3,1947
0,9945
2,5427
0,935
1,5141
0,76
0,7063
0,9992
3,1560
0,994
2,5121
0,93
1,4758
0,74
0,6433
0,9991
3,1214
0,9935
2,4838
0,925
1,4395
0,72
0,5828
0,999
3,0902
0,993
2,4573
0,92
1,4051
0,7
0,5244
0,9989
3,0619
0,9925
2,4324
0,915
1,3722
0,68
0,4677
0,9988
3,0357
0,992
2,4089
0,91
1,3408
0,66
0,4125
0,9987
3,0115
0,9915
2,3867
0,905
1,3106
0,64
0,3585
0,9986
2,9889
0,991
2,3656
0,9
1,2816
0,62
0,3055
0,9985
2,9677
0,9905
2,3455
0,89
1,2265
0,6
0,2533
0,9984
2,9479
0,99
2,3263
0,88
1,1750
0,58
0,2019
0,9983
2,9290
0,985
2,1701
0,87
1,1264
0,56
0,1510
0,9982
2,9113
0,98
2,0537
0,86
1,0803
0,54
0,1004
0,9981
2,8943
0,975
1,9600
0,85
1,0364
0,52
0,0502
0,998
2,8782
0,97
1,8808
0,84
0,9945
0,5
0,0000
282
Tabellenanhang
Tabelle 5: Quantile tn;1_a der t-Verteilung \l-a n 1
0,995
0,99
0,975
0,95
0,90
63,6559
31,8210
12,7062
6,3137
3,0777
2
9,9250
6,9645
4,3027
2,9200
1,8856
3
5,8408
4,5407
3,1824
2,3534
1,6377
4
4,6041
3,7469
2,7765
2,1318
1,5332 1,4759
5
4,0321
3,3649
2,5706
2,0150
6
3,7074
3,1427
2,4469
1,9432
1,4398
7
3,4995
2,9979
2,3646
1,8946
1,4149
8
3,3554
2,8965
2,3060
1,8595
1,3968
9
3,2498
2,8214
2,2622
1,8331
1,3830
10
3,1693
2,7638
2,2281
1,8125
1,3722
11
3,1058
2,7181
2,2010
1,7959
1,3634
12
3,0545
2,6810
2,1788
1,7823
1,3562
13
3,0123
2,6503
2,1604
1,7709
1,3502
14
2,9768
2,6245
2,1448
1,7613
1,3450
15
2,9467
2,6025
2,1315
1,7531
1,3406
16
2,9208
2,5835
2,1199
1,7459
1,3368
17
2,8982
2,5669
2,1098
1,7396
1,3334
18
2,8784
2,5524
2,1009
1,7341
1,3304
19
2,8609
2,5395
2,0930
1,7291
1,3277
20
2,8453
2,5280
2,0860
1,7247
1,3253
21
2,8314
2,5176
2,07%
1,7207
1,3232
22
2,8188
2,5083
2,0739
1,7171
1,3212
23
2,8073
2,4999
2,0687
1,7139
1,3195
24
2,7970
2,4922
2,0639
1,7109
1,3178
25
2,7874
2,4851
2,0595
1,7081
1,3163
26
2,7787
2,4786
2,0555
1,7056
1,3150
27
2,7707
2,4727
2,0518
1,7033
1,3137
28
2,7633
2,4671
2,0484
1,7011
1,3125
29
2,7564
2,4620
2,0452
1,6991
1,3114
30
2,7500
2,4573
2,0423
1,6973
1,3104
40
2,7045
2,4233
2,0211
1,6839
1,3031
50
2,6778
2,4033
2,0086
1,6759
1,2987
60
2,6603
2,3901
2,0003
1,6706
1,2958
70
2,6479
2,3808
1,9944
1,6669
1,2938
80
2,6387
2,3739
1,9901
1,6641
1,2922
90
2,6316
2,3685
1,9867
1,6620
1,2910
100
2,6259
2,3642
1,9840
1,6602
1,2901
150
2,6090
2,3515
1,9759
1,6551
1,2872 1,2858
200
2,6006
2,3451
1,9719
1,6525
300
2,5923
2,3388
1,9679
1,6499
1,2844
400
2,5882
2,3357
1,9659
1,6487
1,2837
600
2,5841
2,3326
1,9639
1,6474
1,2830
800
2,5820
2,3310
1,9629
1,6468
1,2826
1000
2,5807
2,3301
1,9623
1,6464
1,2824
2,5758
2,3264
1,9600
1,6448
1,2816
»
Tabellenanhang 283
Tabelle 6: Quantile
a
der %2 -Verteilung
0,995
0,99
0,975
0,95
0,9
0,75
0,5
0,25
0,1
0,05
0,025
0,01
1
7,879
6,635
5,024
3,841
2,706
1,323
0,455
0,102
0,016
0,004
0,001
0,000
0,005 0,000
2
10,597
9,210
7,378
5,991
4,605
2,773
1,386
0,575
0,211
0,103
0,051
0,020
0,010
3
12,838
11,345
9,348
7,815
6,251
4,108
2,366
1,213
0,584
0,352
0,216
0,115
0,072
4
14,860
13,277
11,143
9,488
7,779
5,385
3,357
1,923
1,064
0,711
0,484
0,297
0,207
5
16,750
15,086
12,832
11,070
9,236
6,626
4,351
2,675
1,610
1,145
0,831
0,554
0,412
6
18,548
16,812
14,449
12,592
10,645
7,841
5,348
3,455
2,204
1,635
1,237
0,872
0,676
7
20,278
18,475
16,013
14,067
12,017
9,037
6,346
4,255
2,833
2,167
1,690
1,239
0,989
8
21,955
20,090
17,535
15,507
13,362
10,219
7,344
5,071
3,490
2,733
2,180
1,647
1,344
9
23,589 21,666
19,023
16,919
14,684
11,389
8,343
5,899
4,168
3,325
2,700
2,088
1,735
10
25,188 23,209 20,483
18,307
15,987
12,549
9,342
6,737
4,865
3,940
3,247
2,558
2,156
11
26,757 24,725 21,920
19,675
17,275
13,701
10,341
7,584
5,578
4,575
3,816
3,053
2,603
12
28,300 26,217 23,337 21,026 18,549
14,845
11,340
8,438
6,304
5,226
4,404
3,571
3,074
13
29,819 27,688 24,736 22,362
15,984
12,340
9,299
7,041
5,892
5,009
4,107
3,565
19,812
14
31,319 29,141
26,119 23,685 21,064
17,117
13,339 10,165
7,790
6,571
5,629
4,660
4,075
15
32,801 30,578 27,488 24,996 22,307
18,245
14,339 11,037
8,547
7,261
6,262
5,229
4,601
16
34,267 32,000 28,845 26,2% 23,542 19,369
15,338
9,312
7,962
6,908
5,812
5,142
17
35,718 33,409 30,191 27,587 24,769 20,489
16,338 12,792 10,085
11,912
8,672
7,564
6,408
5,697 6,265
18
37,156 34,805 31,526 28,869 25,989 21,605
17,338 13,675 10,865
9,390
8,231
7,015
19
38,582 36,191 32,852 30,144 27,204 22,718
18,338
14,562 11,651
10,117
8,907
7,633
6,844
20
39,997 37,566 34,170 31,410 28,412 23,828
19,337
15,452 12,443
10,851
9,591
8,260
7,434 8,034
21
41,401 38,932 35,479 32,671 29,615 24,935 20,337
16,344 13,240
11,591
10,283
8,897
22
42,796 40,289 36,781
17,240 14,041
12,338
10,982
9,542
8,643
23
44,181 41,638 38,076 35,172 32,007 27,141 22,337
18,137
14,848
13,091
11,689
10,196
9,260
24
45,558 42,980 39,364 36,415 33,196 28,241 23,337
19,037
15,659
13,848
12,401
10,856
9,886
25
46,928 44,314 40,646 37,652 34,382 29,339 24,337
19,939
16,473 14,611
13,120
11,524
10,520
33,924 30,813 26,039 21,337
26
48,290 45,642 41,923 38,885 35,563 30,435 25,336 20,843
17,292
15,379
13,844
12,198
11,160
27
49,645 46,963 43,195 40,113 36,741 31,528 26,336 21,749
18,114
16,151
14,573
12,878
11,808
28
50,994 48,278 44,461 41,337 37,916 32,620 27,336 22,657
18,939
16,928
15,308
13,565
12,461
29
52,335 49,588 45,722 42,557 39,087 33,711 28,336 23,567
19,768
17,708
16,047
14,256
13,121
30
53,672 50,892 46,979 43,773 40,256 34,800 29,336 24,478 20,599
18,493
16,791
14,953
13,787
40
66,766 63,691 59,342 55,758 51,805 45,616 39,335 33,660 29,051
26,509 24,433 22,164
20,707
50
79,490 76,154 71,420 67,505 63,167 56,334 49,335 42,942 37,689 34,764 32,357 29,707
27,991
60
91,952 88,379 83,298 79,082 74,397 66,981 59,335 52,294 46,459 43,188 40,482 37,485
35,534
70
104,22
43,275
100,43 95,023 90,531 85,527 77,577 69,334 61,698 55,329 51,739 48,758 45,442
80
116,32
112,33
106,63
101,88 96,578 88,130 79,334 71,145 64,278 60,391
90
128,30
124,12
118,14
113,15
107,57 98,650 89,334 80,625 73,291 69,126 65,647 61,754
57,153 53,540 51,172 59,196
100
140,17
135,81
129,56
124,34
118,50
109,14 99,334 90,133 82,358 77,929 74,222 70,065
67,328
150
198,36
193,21
185,80 179,58
172,58
161,29
149,33
137,98
128,28
122,69
117,99
112,67
109,14
200
255,26 249,45 241,06 233,99 226,02 213,10
199,33
186,17
174,84
168,28
162,73
156,43
152,24
349,87 341,40 331,79 316,14 299,33 283,14 269,07
260,88
253,91
245,97
240,66
300
366,84 359,91
400
476,61 468,72 457,31 447,63 436,65 418,70 399,33 380,58 364,21 354,64 346,48 337,16
330,90
600
692,98 683,52 669,77 658,09 644,80 622,99 599,33 576,29 556,06 544,18
514,53
800
906,79 895,98 880,28 866,91
851,67 826,60
799,3
1000
1118,9
1057,7
999,3
1107,0
1089,5
1074,7
1030
534,02 522,37
772,67 749,19 735,36 723,51 709,90 700,72 969,5
943,13 927,59 914,26 898,91
888,56
284
Tabellenanhang
Tabelle 7a: 95% - Quantile Fm,„ der F-Verteilung m 4 D 1 2 3 5 6 7 8 9 10 11 1 161,4462 199,4995 215,7067 224,5833 230,1604 233,9875 236,7669 238,8842 240,5432 241,8819 242,9806 2 18,5128 19,0000 19,1642 19,2467 19,2963 19,3295 19,3531 19,3709 19,3847 19,3959 19,4050 9,2766 9,0134 8,9407 8,8867 8,8452 8,7633 3 10,1280 9,5521 9,1172 8,8123 8,7855 6,5914 4 7,7086 6,0942 5,9644 6,9443 6,3882 6,2561 6,1631 6,0410 5,9988 5,9358 5,4094 5 6,6079 5,7861 5,1922 5,0503 4,9503 4,8759 4,8183 4,7725 4,7351 4,7040 6 7 8 9 10
5,9874 5,5915 5,3176 5,1174 4,9646
5,1432 4,7374 4,4590 4,2565 4,1028
4,7571 4;3468 4;0662 318625 3,7083
4,5337 4,1203 3,8379 3,6331 3,4780
4,3874 3,9715 3,6875 3,4817 3,3258
4,2839 3,8660 3,5806 3,3738 3,2172
4,2067 3,7871 3,5005 3,2927 3,1355
4,1468 3,7257 3,4381 3,2296 3,0717
4,0990 3,6767 3,3881 3,1789 3,0204
4,0600 3,6365 3,3472 3,1373 2,9782
4,0274 3,6030 3,3129 3,1025 2,9430
11 12 13 14 15
4,8443 4,7472 4,6672 4,6001 4,5431
3,9823 3,8853 3,8056 3,7389 3,6823
3,5874 3,4903 3,4105 3,3439 3,2874
3,3567 3,2592 3,1791 3,1122 3,0556
3,2039 3,1059 3,0254 2,9582 2,9013
3,0946 2,9961 2,9153 2,8477 2,7905
3,0123 2,9134 2,8321 2,7642 2,7066
2,9480 2,8486 2,7669 2,6987 2,6408
2,8962 2,7964 2,7144 2,6458 2,5876
2,8536 2,7534 2,6710 2,6022 2,5437
2,8179 2,7173 2,6346 2,5655 2,5068
16 17 18 19 20
4,4940 4,4513 4,4139 4,3808 4,3513
3,6337 3,5915 3,5546 3,5219 3,4928
3,2389 3,1968 3,1599 3,1274 3,0984
3,0069 2,9647 2,9277 2,8951 2,8661
2,8524 2,8100 2,7729 2,7401 2,7109
2,7413 2,6987 2,6613 2,6283 2,5990
2,6572 2,6143 2,5767 2,5435 2,5140
2,5911 2,5480 2,5102 2,4768 2,4471
2,5377 2,4943 2,4563 2,4227 2,3928
2,4935 2,4499 2,4117 2,3779 2,3479
2,4564 2,4126 2,3742 2,3402 2,3100
21 22 23 24 25
4,3248 4,3009 4,2793 4,2597 4,2417
3,4668 3,4434 3,4221 3,4028 3,3852
3,0725 3,0491 3,0280 3,0088 2,9912
2,8401 2,8167 2,7955 2,7763 2,7587
2,6848 2,6613 2,6400 2,6207 2,6030
2,5727 2,5491 2,5277 2,5082 2,4904
2,4876 2,4638 2,4422 2,4226 2,4047
2,4205 2,3965 2,3748 2,3551 2,3371
2,3661 2,3419 2,3201 2,3002 2,2821
2,3210 2,2967 2,2747 2,2547 2,2365
2,2829 2,2585 2,2364 2,2163 2,1979
26 27 28 29 30
4,2252 4,2100 4,1960 4,1830 4,1709
3,3690 3,3541 3,3404 3,3277 3,3158
2,9752 2,9603 2,9467 2,9340 2,9223
2,7426 2,7278 2,7141 2,7014 2,6896
2,5868 2,5719 2,5581 2,5454 2,5336
2,4741 2,4591 2,4453 2,4324 2,4205
2,3883 2,3732 2,3593 2,3463 2,3343
2,3205 2,3053 2,2913 2,2782 2,2662
2,2655 2,2501 2,2360 2,2229 2,2107
2,2197 2,2043 2,1900 2,1768 2,1646
2,1811 2,1655 2,1512 2,1379 2,1256
40 50 60 70 80
4,0847 4,0343 4,0012 3,9778 3,9604
3,2317 3,1826 3,1504 3,1277 3,1108
2,8387 2,7900 2,7581 2,7355 2,7188
2,6060 2,5572 2,5252 2,5027 2,4859
2,4495 2,4004 2,3683 2,3456 2,3287
2,3359 2,2864 2,2541 2,2312 2,2142
2,2490 2,1992 2,1665 2,1435 2,1263
2,1802 2,1299 2,0970 2,0737 2,0564
2,1240 2,0733 2,0401 2,0166 1,9991
2,0773 2,0261 1,9926 1,9689 1,9512
2,0376 1,9861 1,9522 1,9283 1,9105
90 100 150 200
3,9469 3,9362 3,9042 3,8884 3,8414
3,0977 3,0873 3,0564 3,0411 2,9957
2,7058 2,6955 2,6649 2,6498 2,6049
2,4729 2,4626 2,4320 2,4168 2,3719
2,3157 2,3053 2,2745 2,2592 2,2141
2,2011 2,1906 2,1595 2,1441 2,0986
2,1131 2,1025 2,0711 2,0556 2,0096
2,0430 2,0323 2,0006 1,9849 1,9384
1,9856 1,9748 1,9428 1,9269 1,8799
1,9376 1,9267 1,8943 1,8783 1,8307
1,8967 1,8857 1,8530 1,8368 1,7886
Tabellenanhang 285
l 2 3 4 5
12 13 14 15 20 30 40 50 100 200 243,9047 244,6905 245,3635 245,9492 248,0156 250,0965 251,1442 251,7736 253,0433 253,6763 254,3129 19,4125 19,4188 19,4243 19,4291 19,4457 19,4625 19,4707 19,4757 19,4857 19,4907 19,4957 8,7447 8,7286 8,7149 8,7028 8,6602 8,6166 8,5944 8,5810 8,5539 8,5402 8,5264 5,9117 5,8911 5,8733 5,8578 5,8025 5,7459 5,7170 5,6995 5,6640 5,6461 5,6281 4,6777 4,6552 4,6358 4,6188 4,5581 4,4957 4,4638 4,4444 4,4051 4,3851 4,3650
6 7 8 9 10
3,9999 3,5747 3,2839 3,0729 2,9130
3,9764 3,5503 3,2590 3,0475 2,8872
3,9559 3,5292 3,2374 3,0255 2,8647
3,9381 3,5107 3,2184 3,0061 2,8450
3,8742 3,4445 3,1503 2,9365 2,7740
3,8082 3,3758 3,0794 2,8637 2,69%
3,7743 3,3404 3,0428 2,8259 2,6609
3,7537 3,3189 3,0204 2,8028 2,6371
3,7117 3,2749 2,9747 2,7556 2,5884
3,6904 3,2525 2,9513 2,7313 2,5634
3,6689 3,2297 2,9276 2,7067 2,5379
11
12 13 14 15
2,7876 2,6866 2,6037 2,5342 2,4753
2,7614 2,6602 2,5769 2,5073 2,4481
2,7386 2,6371 2,5536 2,4837 2,4244
2,7186 2,6169 2,5331 2,4630 2,4034
2,6464 2,5436 2,4589 2,3879 2,3275
2,5705 2,4663 2,3803 2,3082 2,2468
2,5309 2,4259 2,3392 2,2663 2,2043
2,5066 2,4010 2,3138 2,2405 2,1780
2,4566 2,3498 2,2614 2,1870 2,1234
2,4308 2,3233 2,2343 2,1592 2,0950
2,4045 2,2962 2,2064 2,1307 2,0658
16 17 18 19 20
2,4247 2,3807 2,3421 2,3080 2,2776
2,3973 2,3531 2,3143 2,2800 2,2495
2,3733 2,3290 2,2900 2,2556 2,2250
2,3522 2,3077 2,2686 2,2341 2,2033
2,2756 2,2304 2,1906 2,1555 2,1242
2,1938 2,1477 2,1071 2,0712 2,0391
2,1507 2,1040 2,0629 2,0264 1,9938
2,1240 2,0769 2,0354 1,9986 1,9656
2,0685 2,0204 1,9780 1,9403 1,9066
2,0395 1,9909 1,9479 1,9097 1,8755
2,0096 1,9604 1,9168 1,8780 1,8432
21 22 23 24 25
2,2504 2,2258 2,2036 2,1834 2,1649
2,2222 2,1975 2,1752 2,1548 2,1362
2,1975 2,1727 2,1502 2,1298 2,1111
2,1757 2,1508 2,1282 2,1077 2,0889
2,0960 2,0707 2,0476 2,0267 2,0075
2,0102 1,9842 1,9605 1,9390 1,9192
1,9645 1,9380 1,9139 1,8920 1,8718
1,9360 1,9092 1,8848 1,8625 1,8421
1,8761 1,8486 1,8234 1,8005 1,7794
1,8446 1,8165 1,7909 1,7675 1,7460
1,8117 1,7831 1,7570 1,7330 1,7110
26 27 28 29 30
2,1479 2,1323 2,1179 2,1045 2,0921
2,1192 2,1034 2,0889 2,0755 2,0630
2,0939 2,0781 2,0635 2,0500 2,0374
2,0716 2,0558 2,0411 2,0275 2,0148
1,9898 1,9736 1,9586 1,9446 1,9317
1,9010 1,8842 1,8687 1,8543 1,8409
1,8533 1,8361 1,8203 1,8055 1,7918
1,8233 1,8059 1,7898 1,7748 1,7609
1,7599 1,7419 1,7251 1,7096 1,6950
1,7261 1,7077 1,6905 1,6746 1,6597
1,6906 1,6717 1,6541 1,6376 1,6223
40 50 60 70 80
2,0035 1,9515 1,9174 1,8932 1,8753
1,9738 1,9214 1,8870 1,8627 1,8445
1,9476 1,8949 1,8602 1,8357 1,8174
1,9245 1,8714 1,8364 1,8117 1,7932
1,8389 1,7841 1,7480 1,7223 1,7032
1,7444 1,6872 1,6491 1,6220 1,6017
1,6928 1,6337 1,5943 1,5661 1,5449
1,6600 1,5995 1,5590 1,5300 1,5081
1,5892 1,5249 1,4814 1,4498 1,4259
1,5505 1,4835 1,4377 1,4042 1,3786
1,5089 1,4383 1,3893 1,3529 1,3247
90 100 150 200
1,8613 1,8503 1,8172 1,8008 1,7522
1,8305 1,8193 1,7859 1,7694 1,7202
1,8032 1,7919 1,7582 1,7415 1,6918
1,7789 1,7675 1,7335 1,7166 1,6664
1,6883 1,6764 1,6410 1,6233 1,5705
1,5859 1,5733 1,5354 1,5164 1,4591
1,5284 1,5151 1,4752 1,4551 1,3940
1,4910 1,4772 1,4357 1,4146 1,3501
1,4070 1,3917 1,3448 1,3206 1,2434
1,3582 1,3416 1,2899 1,2626 1,1700
1,3020 1,2832 1,2226 1,1885 1,0000
286
Tabellenanhang
Tabelle 7b: 99% - Quantile Fm,n der F-Verteilung n
m 4 5 6 7 8 9 10 11 3 4052,185 4999,340 5403,534 5624,257 5763,955 5858,950 5928,334 5980,954 6022,397 6055,925 6083,399 9 8 , 5 0 1 9 99,0003 99,1640 99,2513 99,3023 99,3314 99,3568 99,3750 99,3896 99,3969 99,4078 34,1161 30,8164 29,4567 28,7100 28,2371 27,9106 27,6714 27,4895 27,3449 27,2285 27,1320 21,1976 17,9998 16,6942 15,9771 15,5219 15,2068 14,9757 14,7988 14,6592 14,5460 14,4523 9,9626 16,2581 13,2741 12,0599 11,3919 10,9671 10,6722 10,4556 10,2893 10,1577 10,0511 1
2
13,7452 12,2463 11,2586 10,5615
10,9249
9,7796
9,1484
7 8 9
9,5465 8,6491 8,0215
8,4513 7,5910 6,9920
7,8467 7,0061 6,4221
8,7459 7,4604 6,6318 6,0569
10
10,0442
7,5595
6,5523
5,9944
11 12 13 14 15
9,6461 9,3303 9,0738 8,8617 8,6832
7,2057 6,9266 6,7009 6,5149 6,3588
6,2167 5,9525 5,7394 5,5639 5,4170
16 17
6,2263 6,1121
5,2922 5,1850
18 19 20
8,5309 8,3998 8,2855 8,1850 8,0960
6,0129 5,9259 5,8490
5,0919 5,0103 4,9382
21 22
8,0166 7,9453
5,7804
23 24 25
7,8811 7,8229 7,7698
5,6637 5,6136 5,5680
4,8740 4,8166 4,7648
26 27 28
7,7213 7,6767 7,6357
4,6365
29 30
7,5977 7,5624
5,5263 5,4881 5,4529 5,4205 5,3903
40 50
7,3142 7,1706
60 70 80
7,0771 7,0114 6,9626
5,1785 5,0566 4,9774 4,9218 4,8807
90 100 150 200 so
6,9251
4,8491
4,0069
6,8953 6,8069 6,7633
4,8239 4,7495 4,7128 4,6052
3,9837 3,9149 3,8810
1 2 3 4 5 6
6,6349
5,7190
4,7181 4,6755
8,2600
8,1017
7,9760
7,8742
6,3707 5,8018
6,9929 6,1776 5,6128
6,8401 6,0288 5,4671
6,6201 5,8143 5,2565
7,7896 6,5381 5,7343 5,1779
5,6364
5,3858
5,2001
5,0567
6,7188 5,9106 5,3511 4,9424
4,8491
4,7716
5,6683 5,4119 5,2053 5,0354 4,8932
5,3160 5,0644 4,8616 4,6950 4,5556
5,0692 4,8205 4,6203 4,4558 4,3183
4,8860 4,6395 4,4410 4,2779 4,1416
4,7445 4,4994
4,6315 4,3875
4,5393 4,2961
4,3021 4,1400 4,0044
4,1911 4,0297 3,8948
4,1003 3,9394 3,8049
4,2198 4,0245 3,8640 3,7299
4,7726 4,6689 4,5790 4,5002 4,4307
4,2016 4,1015
4,0259 3,9267
4,0146 3,9386 3,8714
3,8406 3,7653 3,6987
3,8896 3,7909 3,7054 3,6305 3,5644
3,7804
4,3360 4,2479 4,1708 4,1027
3,6823 3,5971 3,5225 3,4567
3,6909 3,5931 3,5081 3,4338 3,3682
3,6162 3,5185 3,4338 3,3596 3,2941
4,0421
3,8117
3,63%
3,5056
3,3982
3,3098
3,2359
3,9880 3,9392 3,8951
3,7583
3,4530 3,4057 3,3629
3,3458
3,7102 3,6667
3,5866 3,5390 3,4959 3,4568
3,2576 3,2106 3,1681 3,1294
3,1837 3,1368 3,0944
3,2884
3,0941
3,0205 2,9882 2,9585
3,4995 3,4735
3,4210 3,3882 3,3581 3,3303 3,3045
4,3688 4,3134 4,2635 4,2185 4,1774
4,4374
8,4660 7,1914
3,8550
3,6272
4,6009 4,5681 4,5378 4,5097
4,1400 4,1056 4,0740 4,0449 4,0179
3,8183 3,7847
3,5911 3,5580 3,5276
4,3126 4,1994
3,8283 3,7195
3,5138 3,4077
3,2910 3,1864
3,1238 3,0202
4,1259 4,0744
3,6491 3,5997 3,5631
3,3389 3,2907 3,2551
3,1187 3,0712 3,0361
3,5350 3,5127 3,4468 3,4143 3,3192
3,2276
4,0363
3,7816
3,7539 3,7254 3,6990
3,2059 3,1416 3,1100 3,0172
3,3239
3,2558 3,2259 3,1982 3,1726
3,2986 3,2560 3,2172 3,1818 3,1494
4,4624
3,0558
3,0665
3,0618 3,0320 3,0045 2,9791
2,9930 2,8900
2,8876 2,7850
2,8005 2,6981
2,7273 2,6250
2,9530 2,9060 2,8713
2,8233 2,7765 2,7420
2,7185 2,6719 2,6374
2,6318 2,5852 2,5508
2,5587 2,5122 2,4777
3,0091 2,9877 2,9244 2,8933
2,8445
2,7154
2,6109
2,8233 2,7606 2,7298
2,6943 2,6319 2,6012
2,5898 2,5277 2,4971
2,8020
2,6393
2,5113
2,4073
2,5243 2,5033 2,4412 2,4106 2,3209
2,4513 2,4302 2,3681 2,3375 2,2477
3,1195 3,0920
2,9311 2,9057
Tabellenanhang 287
l 2 3 4 5 6 7
12 13 14 15 20 30 40 50 100 200 6106,682 6125,774 6143,004 6156,974 6208,662 6260,350 6286,427 6302,260 6333,925 6349,757 6365,590 99,4187 99,4223 99,4260 99,4332 99,4478 99,4660 99,4769 99,4769 99,4914 99,4914 99,4987 27,0520 26,9829 26,9238 26,8719 26,6900 26,5045 26,4108 26,3544 26,2407 26,1825 26,1252 14,3737 14,3064 14,2486 14,1981 14,0194 13,8375 13,7452 13,6897 13,5769 13,5201 13,4633 9,8883 9,8248 9,7700 9,7223 9,5527 9,3794 9,2912 9,2377 9,1300 9,0754 9,0204 7,7183 6,4691 5,6667 5,1115 4,7058
7,6575 6,4100 5,6089 5,0545 4,6496
7,6050 6,3590 5,5588 5,0052 4,6008
7,5590 6,3144 5,5152 4,9621 4,5582
7,3958 6,1555 5,3591 4,8080 4,4054
7,2286 5,9920 5,1981 4,6486 4,2469
7,1432 5,9084 5,1156 4,5667 4,1653
7,0914 5,8577 5,0654 4,5167 4,1155
6,9867 5,7546 4,9633 4,4150 4,0137
6,9335 5,7024 4,9114 4,3631 3,9618
6,8800 5,6496 4,8588 4,3106 3,9090
4,3974 4,1553 3,9603 3,8002 3,6662
4,3416 4,0998 3,9052 3,7452 3,6115
4,2933 4,0517 3,8573 3,6976 3,5639
4,2509 4,0096 3,8154 3,6557 3,5222
4,0990 3,8584 3,6646 3,5052 3,3719
3,9411 3,7008 3,5070 3,3476 3,2141
3,8596 3,6192 3,4253 3,2657 3,1319
3,8097 3,5692 3,3752 3,2153 3,0814
3,7077 3,4668 3,2723 3,1118 2,9772
3,6555 3,4143 3,2194 3,0585 2,9235
3,6025 3,3608 3,1654 3,0040 2,8684
19 20
3,5527 3,4552 3,3706 3,2965 3,2311
3,4981 3,4007 3,3162 3,2422 3,1769
3,4506 3,3533 3,2689 3,1949 3,1296
3,4090 3,3117 3,2273 3,1533 3,0880
3,2587 3,1615 3,0771 3,0031 2,9377
3,1007 3,0032 2,9185 2,8442 2,7785
3,0182 2,9204 2,8354 2,7608 2,6947
2,9675 2,8694 2,7841 2,7092 2,6430
2,8627 2,7639 2,6779 2,6023 2,5353
2,8084 2,7092 2,6228 2,5466 2,4792
2,7528 2,6530 2,5660 2,4893 2,4212
21 22 23 24 25
3,1729 3,1209 3,0740 3,0316 2,9931
3,1187 3,0667 3,0199 2,9775 2,9389
3,0715 3,0195 2,9727 2,9303 2,8917
3,0300 2,9779 2,9311 2,8887 2,8502
2,8795 2,8274 2,7805 2,7380 2,6993
2,7200 2,6675 2,6202 2,5773 2,5383
2,6359 2,5831 2,5355 2,4923 2,4530
2,5838 2,5308 2,4829 2,4395 2,3999
2,4755 2,4218 2,3732 2,3291 2,2888
2,4189 2,3646 2,3156 2,2710 2,2303
2,3603 2,3055 2,2558 2,2107 2,1694
26 27 28 29 30
2,9578 2,9256 2,8959 2,8685 2,8431
2,9038 2,8715 2,8418 2,8144 2,7890
2,8566 2,8243 2,7946 2,7672 2,7418
2,8150 2,7827 2,7530 2,7256 2,7002
2,6640 2,6316 2,6018 2,5742 2,5487
2,5026 2,4699 2,4397 2,4118 2,3860
2,4170 2,3840 2,3535 2,3253 2,2992
2,3637 2,3304 2,2997 2,2713 2,2450
2,2519 2,2180 2,1867 2,1577 2,1307
2,1930 2,1586 2,1268 2,0974 2,0700
2,1315 2,0965 2,0642 2,0342 2,0062
40 50 60 70 80
2,6648 2,5625 2,4% 1 2,4496 2,4151
2,6107 2,5083 2,4419 2,3953 2,3608
2,5634 2,4609 2,3943 2,3477 2,3131
2,5216 2,4190 2,3523 2,3055 2,2709
2,3689 2,2652 2,1978 2,1504 2,1153
2,2034 2,0976 2,0285 1,9797 1,9435
2,1142 2,0066 1,9360 1,8861 1,8489
2,0581 1,9490 1,8772 1,8263 1,7883
1,9383 1,8248 1,7493 1,6954 1,6548
1,8736 1,7567 1,6784 1,6220 1,5792
1,8047 1,6831 1,6006 1,5404 1,4942
90 100 150
2,3886 2,3676 2,3053 2,2747 2,1847
2,3342 2,3132 2,2508 2,2201 2,1299
2,2865 2,2654 2,2028 2,1721 2,0815
2,2442 2,2230 2,1603 2,1294 2,0385
2,0882 2,0666 2,0028 1,9713 1,8783
1,9155 1,8933 1,8270 1,7941 1,6964
1,8201 1,7972 1,7286 1,6945 1,5923
1,7588 1,7353 1,6648 1,6295 1,5231
1,6231 1,5977 1,5204 1,4811 1,3581
1,5456 1,5184 1,4347 1,3912 1,2472
1,4574 1,4272 1,3314 1,2785 1,0010
8 9 10
11 12 13 14 15 16 17
18
200
288
Tabellenanhang
Tabelle 8: Gammafunktion r ( x )
=
J V '
•
t
x
~ ' d t
0 X
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
1
1,00000
0,99433
0,98884
0,98355
0,97844
0,97350
0,96874
0,96415
0,95973
0,95546
1,1
0,95135
0,94740
0,94359
0,93993
0,93642
0,93304
0,92980
0,92670
0,92373
0,92089
1,2
0,91817
0,91558
0,91311
0,91075
0,90852
0,90640
0,90440
0,90250
0,90072
0,89904
1,3
0,89747
0,89600
0,89464
0,89338
0,89222
0,89115
0,89018
0,88931
0,88854
0,88785
1,4
0,88726
0,88676
0,88636
0,88604
0,88581
0,88566
0,88560
0,88563
0,88575
0,88595
1,5
0,88623
0,88659
0,88704
0,88757
0,88818
0,88887
0,88964
0,89049
0,89142
0,89243
1,6
0,89352
0,89468
0,89592
0,89724
0,89864
0,90012
0,90167
0,90330
0,90500
0,90678
1,7
0,90864
0,91057
0,91258
0,91467
0,91683
0,91906
0,92137
0,92376
0,92623
0,92877
1,8
0,93138
0,93408
0,93685
0,93969
0,94261
0,94561
0,94869
0,95184
0,95507
0,95838
1,9
0,96177
0,96523
0,96877
0,97240
0,97610
0,97988
0,98374
0,98768
0,99171
0,99581
Literaturhinweise Das Verzeichnis beschränkt sich i.a. auf die im Text zitierte Literatur. Ausführliche Literaturangaben findet man in den Lehrbüchern von Härtung; Elpelt; Klösener (1999) und in Bamberg; Baur (1998). Bahrenberg, G; Giese, E: Statistische Methoden und ihre Anwendung in der Geographie. Stuttgart, 1975. Bamberg, G; Baur, F: Statistik. 10. Auflage, München, 1998. Bamberg, G; Coenenberg, C: Betriebswirtschaftliche Entscheidungslehre. 5. Auflage, München, 1989. Barnhart, RT: Beating the wheel: Winning Strategies at Roulette. Secancus, 1992. Basieux, P: Roulette - Die Zähmung des Zufalls. 3. Auflage, München, 1993. Black, F; Scholes, M: The pricing of options and corporate liabilities. Journal of Political Economy 81, 1973, S. 637-659. Blümle, G: Paretos Gesetz. Wirtschaftswissenschaftliches Studium, 1979, Heft 1, S. 17-19. Bortkiewicz, L: Das Gesetz der kleinen Zahlen. Leipzig, 1898. Elpelt, B; Härtung, J: Grundkurs Statistik. 2. Auflage, München, 1992. Epstein, RA: The Theory of Gambling and Statistical Logic. San Diego, 1977. Fisz, M: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1. Auflage, Berlin, 1973. Gardner: aha! Gotcha: paradoxes to puzzle and delight. New York, 1982. Griffin, PA: The Theory of Blackjack. 6. Auflage, Las Vegas, 1999. Hafner, R: Wahrscheinlichkeitsrechnung und Statistik. Wien, 1989. Harnett, DL; Horrell, JF: Data, Statistics and Decision Models with Excel. New York, 1997. Härtung, J; Elpelt, B: Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. 5. Auflage, München, 1995. Härtung, J; Elpelt, B; Klösener, K-H: Statistik. Lehr- und Handbuch der angewandten Statistik. 11. Auflage, München, 1998. Härtung, J; Elpelt, B; Voet, B: Modellkatalog Varianzanalyse. München, 1997. Härtung, J; Heine, B: Statistik-Übungen, Induktive Statistik. 3. Auflage, München, 1996. Heiler, S; Rinne, H: Einführung in die Statistik. 2. Auflage, Meisenheim, 1976. Hertz, DB: Risk Analysis in Capital Investment Harvard Business Review 42, 1964, S. 95-106. Jeske, R: Spaß mit Statistik Aufgaben, Lösungen und Formeln zur Statistik. 2. Auflage, München, 1997. Jockel, K-H; Pflaumer, P: Die Berücksichtigung von Abhängigkeitsstrukturen bei der stochastischen Unternehmensbewertung. Zeitschrift für Betriebswirtschaft 51, 1981, S. 11071125. Jockel, K-H; Pflaumer, P: Stochastische Investitionsrechnung: Ein analytisches Verfahren zur Investitionsrechnung. Zeitschrift für Operations Research 25, 1981, B39-B47. Johnston, J;DiNardo, J: Econometric Methods. 4. Auflage, New York, 1997. Keyfitz, N: Applied Mathematical Demography. New York, 1977. Kohler, H-P: Grundlagen der Bewertung von Optionen und Optionsscheinen. Wiesbaden, 1992. Koken, C: Roulette: Computersimulation & Wahrscheinlichkeitsanalyse von Spiel und Strategien. München, 1984. Krämer, W: Black-Scholes-Formel, in: Siebers, ABJ'; Weigert, MM: Börsenlexikon, München 1995, S. 39-42. Krämer, W: Denkste! Trugschlüsse aus der Welt des Zufalls und der Zählen. Frankfurt, 1995. Kreienbrock, L: Einfuhrung in die Stichprobenverfahren. 2. Auflage, München, 1993. Krelle, W: Präferenz- und Entscheidungstheorie. Tübingen, 1968. Krumbholz, W; Pflaumer, P: Möglichkeiten der Kosteneinsparung bei der Qualitätskontrolle durch Berücksichtigung von unvollständigen Vorinformationen. Zeitschrift für Betriebswirtschaft 52, 1982, S. 1088-1102. Kunert, J; Montag, A; Pöhlmann, S: Das Galtonbrett - Illustration der Normalität. Arbeitsbericht Nr. 33 des FB Statistik der Universität Dortmund, Juli 1999. Lisch, R: Spielend gewinnen? Chancen im Vergleich. 2. Auflage, Berlin, 1984. Loesgen, K-H: A generalization and bayesian interpretation of ridge-type estimation with good prior means, Statistical Papers - Statistische Hefte 31, 1990, S. 147-154.
290
Literaturhinweise
Martens, J: Statistische Datenanalyse mit SPSS für Windows. München, 1999. Menges, G: Grundmodelle wirtschaftlicher Entscheidungen. 2. Auflage, Düsseldorf, 1974. Menges, G: Grundriß der Statistik. Teil 1: Theorie. 2. Auflage, Opladen, 1972. v. Mises, R: Wahrscheinlichkeit, Statistik und Wahrheit. 3. Auflage, Wien, 1951. Müller, M: Determinanten der sekundären Sexualproportion und Verteilung der Geschlechter in den Familien. Diplomarbeit, Dortmund, 1992. Pearson, K: Science and Monte Carlo. The Fortnightly Review 55, 1894, S. 183-193. Pflaumer, P: Einige Bemerkungen zur Bestimmung von Konfidenzintervallen für Anteilswerte bei der Buchprüfung auf Stichprobenbasis. Zeitschrift für betriebswirtschaftliche Forschung 33, 1981, S. 753-761. Pflaumer, P: Investitionsrechnung. 4. Auflage, München, 2000. Pflaumer, P: Methoden der Bevölkerungsvorausschätzung unter besonderer Berücksichtigung der Unsicherheit. Berlin, 1988. Pflaumer, P: Volatilität, in: Siebers, ABJ; Weigert, MM: Börsenlexikon, München 1995, S. 329332. Pflaumer, P: Warrant Valuation, An Empirical Study. Statistical Papers - Statistische Hefte 32, 1991, S. 343-352. Pflaumer, P; Heine, B; Härtung, J: Statistik für Wirtschafts- und Sozialwissenschaften: Deskriptive Statistik. Lehr- und Übungsbuch. München, 1999. Pohlabeln, H: Verteilungsverhalten ausgewählter diskreter Zufallsvariablen und deren Prognose (am Beispiel Fußball-Bundesliga). Diplomarbeit, Dortmund, 1989. Rinne, H: Taschenbuch der Statistik. 2. Auflage, Frankfurt am Main, 1997. Rottmann, K: Mathematische Formelsammlung. 4. Auflage, 1991. Schlittgen, R: Statistische Inferenz. München, 1996. Thorp, EO: Optimal gambling systems for favorable games. Review of the International Statistical Institute 37, 1969, S. 273-293.
Sachverzeichnis a - F e h l e r 123 ß-Fehler 123 X 2 -Anpassungstest 137; 142 % 2 -Unabhängigkeitstest 198 X 2 - ' V e r t e i l u n g 80; 103
zentrale 80 Abhängigkeitsanalyse 183 Ablehnungsbereich 124 Absolutglied 164 Abweichung quadratische 33 abzählbar unendlich 26 Additionstheorem 8; 9 Additivität 8 Aktienkurs 68 Aktienoption 68 Alternativhypothese 123 Annahmebereich 124 A N O V A 155 Anpassungstest 129; 137 Approximationsregeln 98 Assoziationsanalyse 195 Assoziationskoeffizient Yulescher 197 Assoziationsmaß 197 Auswahlsatz 45 Auszahlung erwartete 32 Bayes 11 Bayessches Theorem 19 Behrens-Fisher-Problem 148 Bernoulli, Jacob 1; 11 Bernoulli-Verteilung 40 Bestimmtheitsmaß 166; 172 multiples 172 Betafunktion 84 Bezugskurs 68 Bias 104 Bienayme Gleichung 34; 41 Bindung 189 Binomialkoeffizient 15 Binomialverteilung 39; 43; 46; 98 Black-Scholes 68 Blackjack 32
Bortkiewicz 48 Box-Plot 158 Breite des Konfidenzintervalls 120 Call 68 Cauchy-Verteilung 83 Chevalier de Mere 24 Computersimulation 74 Delphi-Methode 10 Demographie 186 Descriptive Level 127 Determinante 90 deterministisch 1 Dichte 54 bedingte 87 gemeinsame 86; 183 Dichtefunktion 54 bedingte 87 zweidimensionale 86 Differenz 2 gepaarte 151 logarithmische 67 Dreiecksverteilung 76 Durchschnitt 2 Effizienz 104 Einfachregression 163 Einheitsmatrix 174 Einkommensverteilung 79 Einsatz fairer 31 Einstichprobengaußtest 125; 152 Einstichproben-t-Test 153 Elementarereignis 1 Endlichkeitskorrektur 44 Endlichkeitskorrekturfaktor 113;
121 Entscheidungsmodell 162 Entscheidungstheorie statistische 10 Ereignis 1; 3 disjunktes 3 komplementäres 2 paarweise disjunktes 19 sicheres 2; 3 unmögliches 2; 3 unvereinbares 3
292
Sachverzeichnis
Ereignisfeld 3 Ereignisraum 1 Erwartungstreue 102; 104 Erwartungswert 31; 56 bedingter 87 Erwartungswertmodell 68 Experteneinschätzung 10 Exponentialverteilung 70; 105 Ex-post-Prognose 162 Fakultät 13 Faustregel 134 F e h l e r l . Art 123 Fehler 2. Art 123 Fehler mittlerer quadratischer 104 Fehlerquadratsumme 157 Fehlervarianz 165; 171 empirische 167 Fisher, R. A. 155 Fishersche-Z-Transformation 186 Freiheitsgrad 80 F-Test 156 F-Verteilung 83; 117 Galtonbrett 42 Gammafunktion 71; 80; 84 Gaussches Fehlergesetz 60 Gaußtest 127; 131 Gegenwahrscheinlichkeit 8 Geometrische Verteilung 50 Gesamt-Quadratsumme 155 Gesamtstreuung 180 Gesetz der großen Zahlen 94; 103 Gleichverteilung 72 totale 204 Gleichverteilungshypothese totale 204 gleichwahrscheinlich 11 Glücksspiel 32 Grenzwert der relativen Häufigkeit 8 Grenzwertsatz Poissonscher 46 zentraler 59; 94; 115 Grundraum 2 Gütefunktion 126 Häufigkeit absolute 5 bedingte relative 17 relative 5; 30
Häufigkeitsverteilung 85 Histogramm 55 Homogenitätsanalyse 201 Homogenitätshypothese 202 Hotelling-Pabst-Statistik 190 Hypergeometrische Verteilung 42; 43; 98 Hypothese einseitige 129 über den Mittelwert 130 über den Parameter p 133 über die Varianz 132 zweiseitige 129 Intervallschätzung 101 In verse 174 Investitionsrechnung 74 Irrtumswahrscheinlichkeit 108 ko-Bereich 64 Kapitalwert 74 Kaufoption 68 Kendallsche K-Statistik 193 Kendallscher Rangkorrelationskoeffizient 193 Kennzahl 30; 56 Klassenhäufigkeit 138 kleinste Quadrate Methode 107 Kolmogoroffsche Axiome 8 Kolmogoroff-SmirnovAnpassungstest 140; 143 Kombination 13; 14 mit Wiederholung 15 ohne Wiederholung 15 Kombinatorik 3; 13 Komplement 2 Komplementärereignis 3 Konfidenzbereich 108 Konfidenzintervall 108; 110; 165; 167; 168; 176 approximatives 186 für den Korrelationskoeffizienten 187 asymptotisches 112 Breite 120 der Buchprüfung 118 einseitiges 108 für den Anteilswert p 115; 118 für den Erwartungswert 109; 111
Sachverzeichnis
für die Varianz 113 zweiseitiges 109 Konfidenzstreifen 169 Konsistenz 103; 104; 128 Kontingenzkoeffizient Pearson 199 Kontingenztabelle 85 Kontingenztafel 196 Konzentrationsmessung 65 Korrelation 89 Korrelationsanalyse 183 Korrelationskoeffizient Bravais-Pearsonscher 166; 184 Kovarianz 34; 88 Kovarianzmatrix 90 KQ-Methode 163 kritischer Wert 124 Laplace 11 Laplace-Experiment 12 Laplace-Wahrscheinlichkeit 11; 13; 16 Lebensdauer 70 Level attained 127 Likelihood 106 Linearität 161 linksschief 37 log-Likelihood 106 Lognormalverteilung 65 Lotto 32 Matrix inverse 90 Maximum-Likelihood-Methode 105 Maximum-Likelihood-Schätzer 105 Median 58; 66 Mengendiagramm 2 Mengenoperation 2 Rechenregeln 4 Menges 55 Merkmal 85 Meßreihen 144 Methode der kleinsten Quadrate 107; 162 midranks 193 Minimierungsproblem 163; 171 Mises, von 7 Mittel arithmetisches 31; 95 Mittlere Quadratsumme 155
293
ML-Schätzer 105 Modell ökometrisches 161 ökonomisches 161 Modus 58; 66 Moment 36 empirisches 105 zentrales 36 Momentenmethode 105 Monte-Carlo-Simulation 75 Montmort 22 MSE 155 MST 155 Multikollinearität 173 Multinomialverteilung 48 Multiplikationssatz 21 Nachbar nächster 71 Niveau-a-Test 147; 149 über die Differenz 145 Normalengleichungssystem 171 Normalverteilung 59; 81; 94; 98 bivariate 89 zweidimensionale 89 Notwendiger Stichprobenumfang bei der Schätzung von Mittelwerten 120 bei der Schätzung von Anteilen 122 Nullhypothese 123 einelementige 130 zusammengesetzte 130 OC 126 Ökonometrie 161 Operationscharakteristik 126 Option 68 Optionspreis 68 Optionspreistheorie 68 Paradox 18; 52 Parameter 101 Parametertest 130 Pareto-Verteilung 77 Pascal 24 Pearson, Karl 12; 139 Pearson-Clopper-Werte 117 Pearsonscher Kontingenzkoeffizient 199 korrigierter 200
294
Sachverzeichnis
Permanenz 4 Permutation 13 Poe, E. A. 23 Poissonapproximation 136 Poissonverteilung 45; 71; 98 Potenzmenge 3 Probabilität 7 Prognose 162 Prognoseintervall 119; 168 Prognosemodell 162 Prognosestreifen 169 Prüfgröße 124 Prüfverteilung 79 Punktschätzer 108 Punktschätzung 101; 102 p-Wert 127 Quadratsumme 155 Quadratsummenzerlegung 156 Qualitätskontrolle 43 Quantil 57 Quartil oberes 58 unteres 58 quasistetig 53 Randhäufigkeit 85; 196 Randverteilung 49; 85 Rangkorrelationskoeffizient Kendallscher 193 Spearmanscher 189 Rangzahlen 189 Rayleigh-Verteilung 71 Realisation 26 Rechtecksverteilung 72 doppelte 74 rechtsschief 37 Regressand 161; 163; 170 Regression einfache 163 multiple 170 Regressionsanalyse 161 Regressionsfunktion multiple 170; 173 Regressionsgerade 163 Regressor 161; 163; 170 Rencontreproblem von Montmort 22 Rendite 66 Residuum 165 Reststreuung 180
Risikoanalyse 75 Roulette 2; 5; 139 fehlerhaftes 12; 32 Gewinnerwartung 31 nichtsymmetrisches 12 SAS 179 Satz von der totalen Wahrscheinlichkeit 19 Säulendiagramm 27 Schätzen statistisches 101 Schätzfunktion 102 Schätzung nach der Momentenmethode 105 Schätz vektor 173 Schiefe 37; 66 Sexualproportion 51 Sicherheitswahrscheinlichkeit 119 signifikant 12; 124 Signifikanzniveau 123 Simpson-Verteilung 76 Simulationsmodell 162 Spearmanscher Rangkorrelationskoeffizient 189 S-PLUS 179 SPSS 179 SSE 155 SSG 155 SST 155 Stabdiagramm 27 Standardabweichung 33 Standardnormalverteilung 62; 82; 95; 109 Statistics Jokes 83 Statistik deskriptive 30; 34; 55; 101; 162 induktive 101 schließende 101 Statistikprogramm 179 STATISTIX 179 Steiner Verschiebungssatz 33 Sterbewahrscheinlichkeit 7 stetig 53 Stichprobe 101 Stichprobenfehler 104 Stichprobenkorrelation 183 Stichprobenmittelwert 93
Sachverzeichnis
Stichprobenumfang 110 notwendiger 120; 121; 135 Stichprobenvarianz 148 stochastisch 1 Störvariable 161; 163 St-Petersburg-Paradox Streuung 33 erklärte 180 Streuungszerlegung 156 Streuzahlverfahren 120 Studentsche t-Verteilung 82 Studentscher t-Test 131 Symmetrie 11; 59 Test auf Homogenität 202 bei bekannten Varianzen 145 bei unbekannten, aber gleichen Varianzen 147 bei unbekannten und ungleichen Varianzen 148 für die Differenz der Mittelwerte 145; 151; 153 gleichmäßig bester 128 Kolmogoroff-Smirnov- 140 nichtparametrischer 189 zweier abhängiger Meßreihen 150 zweier unabhängiger Meßreihen 144 Testproblem einseitiges 129 zweiseitiges 129 Teststatistik 124 Toleranzintervall 119 Transformation lineare 89 Transponierte 174 Trefferwahrscheinlichkeit 119 Treppenfunktion 29 Tschebyscheff Ungleichung 35; 36; 65; 76; 94 t-Test 153 t-Verteilung 81 Überlebenswahrscheinlichkeit 70 bedingte 70 Unabhängigkeit 21 paarweise 23 stochastische 23; 29; 88; 183
295
Unabhängigkeitshypothese 184; 203 Unabhängigkeitstest 198 Ungleichung von Tschebyscheff 35; 36; 65; 76; 94 Unsicherheit 1 Unverfälschtheit 128 Urne 39; 42 Varianz 33; 56 empirische 81 Varianzanalyse einfache 154 zweifache 159 Varianzanalysetafel 180 Variation 13; 14 mit Wiederholung 15 ohne Wiederholung 15 Variationskomponente 156 Variationszahlverfahren 120 Venn-Diagramm 2; 8 Vereinigung 2 Verschiebungssatz von Steiner 33 Verteilung diskrete 39 eingipflige 58 gedächtnislose 70 gemeinsame 85 geometrische 50 Poisson- 45; 71; 98 Summe der Augenzahlen beim Würfeln 96 Verteilungsfunktion 28 empirische 141 gemeinsame 30; 85 inverse 74 stetige 54 zweidimensionale 85 Vertrauensbereich 108 Vertrauensintervall 108 Verzerrung 104 Vierfeldertafel 196 Volatilität 69 Vorstichprobe 121 Wachstumsmodell 67 Wahrscheinlichkeit 7 a-posteriori 21 a-priori 21 Bayes 11 bedingte 17
296
Sachverzeichnis
geometrische 12 klassische 11 Laplace 11 statistische 11 subjektive 10 totale 19 Wahrscheinlichkeitsbegriff 4 frequentistischer 7 statistischer 7 Wahrscheinlichkeitsfunktion 26 Wahrscheinlichkeitsrechnung 1 Wahrscheinlichkeitsverteilung 26 WeibullVerteilung 71 Wendepunkt 59 Wölbung 37; 61 Y-Maß von Yule 196 Yulescher Assoziationskoeffizient 197 Ziehen mit Zurücklegen 39 ohne Zurücklegen 42 Z-Transformation 186 Zufall 1 zufällig 1 Zufallsexperiment 1;4 Zufallsvariable diskrete 25; 30 exponentialverteilte 70 quasistetige 53 standardisierte 35 stetige 53 zweidimensionale 85 Zufallsvektor 26 diskret verteilter 85 stetig verteilter 86 Zwei stichprobentests 144