196 101 31MB
German Pages 421 [424] Year 2018
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Caspary/Wichmann, Lineare Modelle Chatteijee/Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen/Lorscheid, Statistik-Aufgabensammlung, 2. Auflage Harvey (Übers. Untiedt), Ökonometrische Analyse von Zeitreihen, 2. Auflage Harvey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler/Michels, Deskriptive und Explorative Datenanalyse Naeve, Stochastik für Informatik Oerthel/Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pokropp, Lineare Regression und Varianzanalyse Rinne, Wirtschafts- und Bevölkerungsstatistik Schlittgen, Statistik, 5. Auflage Schlittgen, Statistische Inferenz Schlittgen/Streitberg, Zeitreihenanalyse, 6. Auflage
Statistische Inferenz Von Universitätsprofessor
Dr. Rainer Schlittgen
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Schlittgen, Rainer: Statistische Inferenz / von Rainer Schlittgen. - München ; Wien : Oldenbourg, 1996 (Lehr- und Handbücher der Statistik) ISBN 3-486-23467-6
© 1996 R. Oldenbourg Verlag GmbH, München Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München ISBN 3 - 4 8 6 - 2 3 4 6 7 - 6
Vorwort Das Buch gibt eine an den Anwendungen orientierte Darstellung der statistischen Methoden auf mittlerem Niveau. "Mittleres Niveau" meint dabei, daß das mathematische Rüstzeug, das zum Beispiel Wirtschaftswissenschaftler und Ingenieure in ihrem Grundstudium erwerben, für ein erfolgreiches Durcharbeiten ausreichen sollte. Der Text ist im Rahmen von Vorlesungen entstanden, die ich unter dem Titel 'Statistik nach der Grundausbildung' bzw. 'Statistik für Fortgeschrittene' für Wirtschaftswissenschaftler und Wirtschaftsmathematiker an verschiedenen Universitäten immer wieder gehalten habe. In diesen Kursen konnte ich davon ausgehen, daß die Hörer schon über einige Grundkenntnisse verfügten. Um die Eigenständigkeit des Buches zu gewährleisten, wurden auch die Grundlagen mit aufgenommen. Die hier gewählte Anordnung des Stoffes ist dementsprechend weitgehend die übliche. Der wahrscheinlichkeitstheoretische Vorspann ist jedoch etwas knapper gehalten als sonst. (Da vergleichbare Texte im deutschen Sprachraum äußerst rar sind, ist der Bezug hier die englischsprachige Literatur.) Er reicht jedoch mit Sicherheit aus, um das Studium des Hauptteils ohne Rückgriff auf andere Bücher zu ermöglichen. Insbesondere sollte der Text auch als anwendungsorientierte Einführung in die Statistik für Mathematik- und Statistikstudenten geeignet sein. In meiner Einführung in die Statistik (EinfStat), auf die an mehreren Stellen hingewiesen wird, habe ich einen datenanalytischen Zugang zu den klassischen Methoden dargestellt. Dort werden die wichtigsten Verfahren mit gehöriger Motivation präsentiert. Hier sind die Ausführungen nun auf Konstruktionsprinzipien und Eigenschaften von Methoden ausgerichtet. Die einzelnen, konkreten Verfahren werden dabei eher als Beispiele von übergreifenden methodischen Ansätzen betrachtet. Die Anwendungsorientierung des Buches resultiert aus der Berücksichtigung der entsprechenden methodischen Fragestellungen und Zugänge. Dabei habe ich etliche neuere, sonst kaum in einem solchen Text behandelte methodische Ansätze wie Robustheit von Schätzfunktionen, die Bootstrap-Methode und multiple Tests aufgenommen;
VI diese sind sowohl im R a h m e n der theoretischen Statistik wie auch für die praktische Anwendung von großer Bedeutung. Sigma-Algebren und Meßbarkeit werden zwar angesprochen, da ich meine, daß sie für das Verständnis von Verteilungen grundlegend sind. Jedoch werden maßtheoretische Konzepte nicht weitergehend verwendet. Ich habe Beweise aufgenommen, soweit es das angestrebte Niveau zuließ. Denn Beweise sind hilfreich für ein vertieftes Verständnis. An verschiedenen Stellen habe ich Beweisskizzen gegeben, u m die Grundzüge der Beweise wenigstens durchschimmern zu lassen. A n s t a t t die verschiedenen Ansätze für statistische Rückschlüsse — Likelihood, Bayes- und Entscheidungstheorie — alle anzureißen, habe ich mich entschlossen, lieber den Likelihood-Ansatz tiefer zu verfolgen und in weitergehenden Einzelheiten darzustellen. Der Bayes-Ansatz ist mir wegen der benötigten, in der Praxis aber kaum (nie?) vorhandenen Vorinformation in Gestalt einer a priori Dichte immer suspekt geblieben. Bzgl. der Entscheidungstheorie ist es doch recht still geworden, das Interesse scheint sich weitgehend gelegt zu haben. Lineare Modelle werden hier nicht behandelt. Dazu gibt es ausgezeichnete Spezialliteratur. Auch ist diesen i.d.R. eine eigenständige Vorlesung gewidmet. Diese Seiten hätten wohl kaum den Weg zwischen zwei Buchdeckel geschafft, wenn ich nicht das Glück gehabt hätte, in T h o m a s Noack einen Studenten zu finden, der mit unvergleichlichem Engagement die in einer sehr einfachen Textverarbeitung erstellte, vorläufige Version in LM^X gebracht und die mehrmaligen als fundamental zu bezeichnenden Änderungen in motivierender Weise umgesetzt hätte. Ihm sage ich vor allem Dank. Rainer
Schliügen
Inhaltsverzeichnis 1
Z u f a l l s e x p e r i m e n t e u n d -variablen
1
1.1
Wahrscheinlichkeitsverteilungen
1
1.1.1
Stichprobenraum und Wahrscheinlichkeit
1
1.1.2
Gleichmöglichkeitsmodelle und Kombinatorik
13
1.1.3
Bedingte Wahrscheinlichkeit und Unabhängigkeit . . .
17
1.2
1.3 2
Zufallsvariablen
22
1.2.1
Univariate Zufallsvariablen
22
1.2.2
Multivariate Zufallsvariablen
29
1.2.3
Randverteilungen
34
1.2.4
Bedingte Verteilungen
39
Transformationen von Zufallsvariablen
45
M o m e n t e von Verteilungen
55
2.1
Erwartungswerte
55
2.1.1
Grundlegende Definitionen und Eigenschaften
55
2.1.2
Formparameter von Verteilungen
60
2.1.3
Näherungsweise Bestimmung von Erwartungswerten
.
67
2.2
Momenterzeugende Funktion
70
2.3
Bedingte Erwartungswerte
78
VIII 3
INHALTSVERZEICHNIS
Statistische Modelle
85
3.1
Verteilungsfamilien
85
3.1.1
Grundlagen
85
3.1.2
Einige univariate Verteilungen
88
3.1.3
Multivariate Verteilungen
108
3.1.4
Die multivariate Normalverteilung
110
3.1.5
Exponentialfamilien
113
3.2
Strukturierte Modelle
122
3.2.1
Signal-plus-Rauschen-Modelle
122
3.2.2
Einfaktorielle Varianzanalyse
124
3.2.3
Zweifaktorielle Varianzanalyse
124
3.2.4
Lineare Regressionsmodelle
125
3.2.5
Lineares Regressionsmodell mit stoch. Regressoren
3.2.6
Nichtlineare Regressionsmodelle
128
3.2.7
Poisson-Regression
129
3.2.8
Logistische Regression
130
3.2.9
Log-Lineare Modelle für Kontingenztafeln
132
3.2.10 Generalisierte lineare Modelle 4
5
. .
126
133
Stichproben und Statistiken
135
4.1
Stichproben aus endlichen Grundgesamtheiten
135
4.2
Die mathematische Stichprobe
144
4.3
Der Informationsgehalt von Stichproben
153
4.3.1
Likelihood und Fisher-Information
153
4.3.2
Suffizienz
159
Grenzwertsätze
173
5.1
Formen der Konvergenz
173
5.2
Die Delta-Methode
184
INHALTSVERZEICHNIS 6
Punktschätzung
191
6.0
Ausgangsüberlegungen
191
6.1
Schätzmethoden
192
6.1.1
Substitutionsprinzipien
192
6.1.2
Die Methode der Kleinsten Quadrate
195
6.1.3
Maximum-Likelihood-Methode
200
6.1.4
Numerische Bestimmung von ML-Schätzern
206
6.1.5
M-Schätzer
209
6.1.6
L-Schätzer
214
6.1.7
Dichteschätzung
215
6.2
7
8
IX
Eigenschaften von Schätzfunktionen
218
6.2.1
Konsistenz
218
6.2.2
Erwartungstreue
222
6.2.3
Effizienz
224
6.2.4
Eigenschaften spezieller Klassen von Schätzern
6.2.5
Robustheit
243
6.3
Jackknife und Bootstrap
256
6.4
Auswahl von Schätzern für die Anwendung
263
. . . .
233
Konfidenzschätzung
265
7.1
Grundlagen
265
7.2
Konstruktion von Konfidenzintervallen
268
7.2.1
Die Pivot- und die statistische Methode
268
7.2.2
Konfidenzintervalle auf der Basis der Likelihoodfunkt.
275
7.3
Eigenschaften von Konfidenzintervallen
281
7.4
Konfidenzbereiche für mehrdimensionale Parameter
288
G r u n d z ü g e der T e s t t h e o r i e
295
8.1
Grundlegende Definitionen
295
8.1.1
Das Testproblem
295
8.1.2
Randomisierte Tests
301
8.1.3
Einige gängige Hypothesen
306
X
INHA 8.1.4 8.2
8.3
LTSVERZEICHNIS
Überschreitungswahrscheinlichkeiten
311
Konstruktion von Tests
313
8.2.1
Tests, die von Schätzfunktionen ausgehen
313
8.2.2
Tests und Konfidenzintervalle
316
8.2.3
Likelihood-Quotienten-Tests
317
8.2.4
Der Wald- und der Score-Test
325
8.2.5
Bedingte Tests
330
8.2.6
Permutationstests
332
8.2.7
Rangtests
334
8.2.8
Anpassungstests
343
8.2.9
Testkonstruktion und Testanwendung
345
Gleichmäßig beste Tests
346
8.3.1
Einfache Hypothesen
349
8.3.2
Einseitige Hypothesen
352
8.3.3
Einfache Hypothesen gegen zweiseitige Alternativen
361
8.3.4
GBU Tests in mehrparam. Exponentialfamilien . . . .
369
8.4
Weitere Eigenschaften von Tests
375
8.5
Multiple Tests
379
Anhang
393
Literatur
399
Index
405
Kapitel 1
Zufallsexperimente und -variablen In der Statistik geht es darum, von Daten, den Ergebnissen wiederholter Beobachtungen eines Sachverhaltes, auf die zugehörige Grundgesamtheit oder den diese Daten generierenden Mechanismus zurückzuschließen. Die zugrundeliegenden Beobachtungsvorgänge werden im folgenden als Experimente bezeichnet. Verständlicher weise wird der beabsichtigte induktive Schluß von den Beobachtungen auf den zugrundeliegenden 'Daten-generierenden Mechanismus' nicht ohne einige Voraussetzungen gelingen. Mit der formalen Beschreibung von geeigneten Experimenten und den damit zusammenhängenden Begriffsbildungen befassen wir uns in diesem Kapitel.
1.1
Wahrscheinlichkeitsverteilungen
1.1.1
Stichprobenraum und Wahrscheinlichkeit
Unsere eingangs getroffene Vereinbarung, Beobachtungsvorgänge als Experimente zu bezeichnen, ist sehr großzügig. Danach sind naturwissenschaftliche Experimente genauso enthalten wie einfache Alltagsbeobachtungen. Um die Bezeichnung 'Experiment' zu rechtfertigen, setzen wir wenigstens die Wiederholbarkeit unter gleichen Bedingungen voraus. Erhalten wir bei solchen Wiederholungen jeweils das gleiche exakt vorhersagbare Ergebnis, so ist der induktive Schluß leicht. Wir haben es dann mit einer eindeutigen kausalen Beziehung zu t u n . Unser Interesse gilt jedoch Experimenten, bei denen das Ergebnis gerade nicht exakt vorhersagbar ist.
2
KAPITEL
1. ZUFALLSEXPERIMENTE
UND -VARIABLEN
Definition 1.1.1 Ein Experiment heißt Zufallsexperiment, sofern es folgende Forderungen erfüllt: - Es ist unter gleichen Bedingungen wiederholt durchführbar. - Bei der Durchführung ist nicht exakt vorhersagbar, zu welchem Ergebnis der Beobachtungsprozeß führt. Dies ist jedoch eindeutig. - Es ist vorab angebbar, welche Ergebnisse überhaupt möglich sind. Die Menge der möglichen Ergebnisse u> wird als S t i c h p r o b e n r a u m Q bezeichnet. • Bei einem Zufallsexperiment kommt der die Ergebnisse hervorbringende Mechanismus in der Form zum Tragen, daß geeignete Gesetzmäßigkeiten sich in der Masse der Beobachtungen niederschlagen. Für die Statistik sind dementsprechend die Ergebnisse wiederholter Durchführungen von Zufallsexperimenten relevant. Beispiel 1 . 1 . 2 Die eingängigsten Beispiele für Zufallsexperimente sind Glücksspiele wie das Roulettespiel, Würfeln, Münzwürfe, das Ziehen einer Karte aus einem Stapel gut gemischter Spielkarten. Hierbei handelt es sich um Vorgänge, die in unserem Kulturkreis wohlbekannt sind und die sich wegen ihrer einfachen Struktur besonders zur Illustration von neuen Konzepten eignen. Beim Würfeln läßt sich der Stichprobenraum mit den Zahlen Eins bis Sechs identifizieren: fi = { 1 , 2 , 3 , 4 , 5 , 6 } . Beim Werfen einer 2 DM-Münze kann die Kopfseite oder die Seite mit dem Adler nach oben zu liegen kommen. Wir können also setzen: il = {K, A]. Ein drittes Zufallsexperiment bestehe wieder im Werfen einer 2 DM-Münze, und zwar soll sie sooft geworfen werden, bis zum ersten Mal die Kopf-Seite nach oben zu liegen kommt. Die möglichen Ergebnisse sind dann
u>i = K, lü2 = AK, u>3 = AAK, w4 = AAAK, w5 =
AAAAK,...
und fi ist die abzählbar unendliche Menge fi = {wj, u>2, • • •, uin, . . . } . Beispiel 1.1.3 Ein Zufallsexperiment besteht in der Auswahl einer Person aus einer vorgegebenen, genau spezifizierten Personengruppe mittels Losverfahren. Jede Person stellt hier ein mögliches Ergebnis u der Zufallsauswahl dar. Cl ist die endliche Gesamtheit aller Personen der betrachteten Gruppe. •
•
1.1.
WAHRSCHEINLICHKEITSVERTEILUNGEN
3
Beispiel 1.1.4 Der Blick auf eine Uhr mit sich stetig bewegendem Sekundenzeiger kann als Zufallsexperiment angesehen werden. Das Ergebnis ist die Stellung des Sekundenzeigers. Diese kann in Bogenmaß angegeben werden. Dann besteht aus allen Zahlen im Intervall [0, 2n). m Es ist zwar bei einem Zufallsexperiment nicht möglich, exakt vorherzusagen, welches Ergebnis bei einer Durchführung beobachtet werden wird. Jedoch sind Chancen dafür von Interesse und auch oft ermittelbar, daß ein Ergebnis aus einer Teilmenge von Cl beobachtet werden wird. Wir sagen dann einfach, daß die Teilmenge selbst beobachtet wird. Solche Chancen sind unter zwei Gesichtspunkten von Interesse. Einmal sind sie individuelle Chancen wie die Gewinnchancen bei einem einfachen Glücksspiel; als zweites steht die Chance für die durchschnittliche Häufigkeit mit der eine Teilmenge bei einer großen Anzahl von Wiederholungen des Zufallsexperimentes beobachtet wird. Diese Betrachtungsweise herrscht etwa bei Versicherungen vor, wo weniger das einzelne Schicksal zählt als die Gesetzmäßigkeit, die sich bei einer großen Zahl von Versicherten ergibt. Die Betrachtung der Häufigkeit, mit der eine Teilmenge bei wiederholter Durchführung eines Zufallsexperimentes beobachtet wird, führt dazu, daß man auch Häufigkeiten anderer Teilmengen bestimmen will.
Definition 1.1.5 Sei fi der zu einem Zufallsexperiment gehörige Stichprobenraum. Sei A C i i .
Die absolute Häufigkeit, mit der A bei n Wiederholungen des Zufallsexperimentes eingetreten ist, ist die Anzahl n(A) der Wiederholungen, bei denen ein zu A gehörendes Ergebnis beobachtet wurde. Die r e l a t i v e H ä u f i g k e i t
von A ist h(A) = n(A)/n.
m
Mit der relativen Häufigkeit von A läßt sich auch die des Komplements Ac angeben:
h(Ac) = 1 - h(A). Bei den Häufigkeiten zweier Teilmengen A und B gilt offensichtlich:
h(A U B) = h(A) + h(B) - h(A n B). Weiter gilt: Ä ( f i ) = 1.
Bedenken wir nun die oben angesprochene Verbindung von relativen Häufigkeiten und Chancen, so sollten für die Chancen verschiedener Teilmengen geeignete Berechnungen möglich sein. Da nicht für alle Teilmengen die Chancen
KAPITEL 1. ZUFALLSEXPERIMENTE UND -VARIABL
4
von Interesse oder gar definierbar sind, werden die relevanten als E r e i g n i s s e besonders ausgezeichnet. Zudem wird verlangt, daß aus Ereignissen geeignet abgeleitete Teilmengen wieder Ereignisse sind. D e f i n i t i o n 1.1.6 Ein System 21 von Teilmengen des Stichprobenraumes i) heißt er-Algebra v o n E r e i g n i s s e n , oder kurz E r e i g n i s a l g e b r a , falls gilt: (i) i 2 € 21 (ii)A£2i (iiiM„G2l
=>
AceQl
für n = 1 , 2 , . . .
(1.1.1) =>
U"=i^»GÄ.
Wir sagen, daß das Ereignis A bei einer Durchführung des Zufallsexperimentes eintritt, wenn ein Ergebnis beobachtet wird, das zu A gehört. • Q wird auch als s i c h e r e s Ereignis bezeichnet, da stets ein w G beobachtet wird, m . a . W . Q stets eintritt. Das Ereignis f2 c = 0 tritt nie ein: Jede Durchführung des Zufallsexperimentes führt zu einem Ergebnis. 0 heißt daher auch das u n m ö g l i c h e Ereignis. Aus den drei grundlegenden Eigenschaften einer cr-Algebra lassen sich weitere ableiten. Bevor wir dies tun, seien zur Erinnerung die folgenden Regeln für Mengenoperationen angegeben:
A\B = AC\BC, \JK = iT[An)e, An(Buc) = (AnB)u{An c), A U (B n C ) = (A U B) n (A u C). Satz 1.1.7 Ist 21 eine cr-Algebra, so gilt: (1) 0 G 21 (2)
Au A2
G 21
=»
Ai UA2 G21
(3) J4„ G 21 für n = 1 , 2 , . . . (4)
A, B G21
AUB
=>
| X = i A n G 21
G 21
Beweis: (1) Wegen fic = 0 gilt (1) aufgrund von (ii).
(1.1.2)
1.1.
WAHRSCHEINLICHKEITSVERTEILUNGEN
5
(2) Wir setzen An = 0 für n > 3. Dann ist Acn G 21 für n = 1 , 2 , . . . und es gilt CO
[J An =
A1\JA2e 3. Dann ist An £ 21 für n = 1 , 2 , . . . und aufgrund von (iii) auch oo A\C\A'1= P) e 21. n=l • B e i s p i e l 1.1.8 Sei fi = {1,2,3} und A = {1,2}. Dann sind 2lj = {0, {1, 2}, {3}, £7} und 2l 2 = {0,{1},{2}, {3}, { l , 2 } , { l , 3 } , { 2 , 3 } , f i } •
P(,4) < P ( ß )
P(j4) < 1
(6) ( F o r m e l v o n S y l v e s t e r ) : F ü r jede endliche Folge A\,...,
An von Ereignissen aus 21 gilt:
P(A1U...UÄn)
n
n
i=i
l 0 folgt P(A) < P (B). (5) Wegen A c f i folgt mit P(íí) = 1 aus (4) dann P(A) < 1. (6) Wir zeigen dies durch vollständige Induktion. Sei n = 2. Dann gilt Ai U A2 = Ai U (A{ n A2). Somit gilt wegen A\ n (A\ D A2) = 0 dann P(AIUA2)
P(Ac1r\A2)
=
P(v4i) +
=
P^O + Pi^J-P^inXa).
Die Behauptung gelte nun für beliebiges, festes n: P(AiU...UA„) n
n— 1 n
:=1 +(-i)"
1 = 1 j = i' + l +I
-P(A,n...nA„).
Zu zeigen ist dann, daß die Formel auch für n + 1 richtig ist. Es gilt P(¿i U...LM„+i) =
P(i4i U . . . U An) + P ( A n + i ) - P ( ( ¿ i U . . . U An) n An+1)
=
X > ( * ) - £ ¿ ¿=1 ¿ = 1 j=i +1
+ .......
10
KAPITELL ZUFALLSEXPERIMENTE UND-V +(-l)" •P(A1D...DAn) +P{An+1) - P((^li n An+1) u . . . u (An n +1
Nun läßt sich die Induktionsvoraussetzung auf den letzten Term der rechten Seite anwenden: P((v4! n J 4 B + i ) u . . . u ( A n r M B + i ) ) n n—1 n = E i=i ¿=i j =i+i
r\Aj n . 4 n + i ) + . . . - . . .
Damit erhalten wir: P(j4I U . . . U j4 n +i) n+1 n—1 n
= J2p(A')-E ¿=1
+(-i)
n+1
E P(AinAj) + .......
: = 1 j =¿ + 1
n - E P (Ai n t=l
• P(A, n . . . n
n— 1 n
=
An+1)
+ E E nAj n yln + i ) + . . . - . . . ¿=1 j=i+l +(-i)»+1 . p ( i 1 n . . . n i „ n i „ + 1 ) n+1 n n+1 1=1
E
+ .......
1 = 1 ;=t'+l
+(-i)n+2-P(>l1n...n4+1). (7) Die zweite Form der Bonferroni-Ungleichung erhalten wir, indem in (8) + 2 = . . . = % gesetzt werden. Die erste Form ergibt sich daraus durch den Ubergang zu den Komplementen.
B = A B = A C\A , B = A f\ A\C\ ...
C1 (8) Seien 1 u 2 2 z 3 Dann gilt 5,- C Ai für i = 1, 2, 3 , . . . und wegen (4) P(5,-) < P ( J 4 i ) für pMn). ¿ = 1 , 2 , 3 , . . . Somit ist ! P ( B n ) < E^i Weiterhin gilt B, n Bj = 0 für i ± j . Also folgt oo
oo
n=l
n=l
P(An) = P(Bn) = Ep(ßn) < E
1.1. WAHRSCHEINLICHKEITSVERTEIL
UNGEN
11
Auf die in den beiden folgenden Beispielen angegebenen Wahrscheinlichkeitsverteilungen werden wir im folgenden immer wieder zurückkommen. Beispiel 1.1.15 Sei fi ein Stichprobenraum und A ein uns interessierendes Ereignis. Die von A erzeugte tr-Algebra ist 21 = A, Ac}. Durch Festlegung von P(^4) = p erhalten wir eine Wahrscheinlichkeitsverteilung auf { f l , 2 l } . • Beispiel 1.1.16 Sei ß eine abzählbare Ergebnismenge, d.h. Sl = • • •} und 21 = Durch Festlegung von P ( { w , } ) = p,- mit J ^ j Pi = 1 erhalten wir eine Wahrscheinlichkeitsverteilung auf mit P(j4) = E A P ( { w , } ) für jedes ,4e oo gegen 1 geht. B e w e i s : Siehe Feiler (1968).
•
Satz 1.1.22 Sei eine Urne mit N gleichartigen, durchnumerierten Kugeln gegeben, formal = {1 , . . . , N } . Die Anzahl der unterschiedlichen Ergebnisse beim Ziehen von n Kugeln sind dann Nn beim Ziehen mit Zurücklegen, d.h. von fli = { ( w i , . . . , w n )|
G ii};
1.1. WAHRSCHEINLICHKEITSVERTEIL
UNGEN
15
- TV • (TV — 1) • . . . • (N — n + 1) beim Ziehen ohne Zurücklegen, d.h. von ÍÍ2 = {(wi,. . .,w„)| uii £ SI, u>i ± Uj für i ± j } . B e w e i s : Wir betrachten zunächst das Ziehen mit Zurücklegen. Für die 1.Kugel gibt es TV Möglichkeiten. Zu jeder dieser TV Möglichkeiten gibt es bei der zweiten Kugel wiederum TV Möglichkeiten. Bei zwei Kugeln gibt es also N + ... + N = N- N = N2 Möglichkeiten. Zu jeder dieser TV2 Möglichkeiten gibt es bei der dritten Kugel abermals TV Möglichkeiten. Bei drei Kugeln gibt es also N2 + N2 + . . , + TV2 = TV• TV2 = TV3 Möglichkeiten, u.s.w.. Allgemein sind es wie behauptet TV" mögliche Ergebnisse. Beim Ziehen ohne Zurücklegen gibt es für die erste Kugel wie in der eben betrachteten Situation TV Möglichkeiten. Für die zweite bleiben noch TV — 1 übrig.Bei zwei Kugeln gibt es daher zu jeder ersten möglichen Kugel TV — 1 für die zweite. Das sind (TV - 1) + . . . + (TV - 1) = TV • (TV - 1) Möglichkeiten. Bei n ausgewählten Kugeln sind das schließlich N • (TV — 1) • . . . • (TV — n + 1) mögliche Ziehungen. • Die Ergebnisse wiederholter Ziehungen haben wir als Tupel (wi, .. ., u n ) angegeben. Bei dieser Darstellung ist implizit vereinbart, daß die Reihenfolge wesentlich ist. Beispielsweise unterscheidet sich das Tupel (1, 2, 3) von (3, 2, 1) und (1,3,2). Man bezeichnet daher auch die beiden im Satz angesprochenen Ziehungsarten als Z i e h u n g e n m i t B e r ü c k s i c h t i g u n g der A n o r d n u n g . Beispiel 1.1.23 In Computern werden Informationen durch endliche Folgen, die aus Nullen oder Einsen bestehen, dargestellt. Die Anzahl der unterschiedlichen Zeichen, wenn einem 8 Stellen zur Verfügung stehen, entspricht der Anzahl der Ziehungen mit Zurücklegen von 8 Kugln aus einer Urne, die zwei Kugln enthält. Es sind also TV = 2, n = 8. Demnach können mit einer Folge, die aus 8 Nullen oder Einsen besteht, 2 8 = 256 mögliche Zeichen dargestellt werden. • Beispiel 1.1.24 Vier Stühle stehen nebeneinander. Auf wieviele Arten können sich vier Personen auf die vier Stühle setzen, wenn auf jedem der Stühle genau eine Person sitzen soll? Hier handelt es sich um dais Ziehen ohne Zurücklegen. Es ist TV = n = 4. Daher gilt: 4 • . . . • (4 — 4 + 1) = 4! = 24. Vier Personen können sich also auf 24 Arten auf vier Stühle setzen, wobei auf jedem Stuhl genau eine Person sitzt. • Im letzten Beispiel wird deutlich, daß wir beim Ziehen ohne Zurücklegen im Fall n = TV gerade die Anzahl TV! aller Anordnungen oder P e r m u t a t i o n e n
16
KAPITEL
1. ZUFALLSEXPERIMENTE
UND
-VARIABLEN
von N unterscheidbaren Elementen erhalten. Häufig spielt die Reihenfolge, in der die einzelnen Kugeln gezogen werden, keine Rolle. Dann interessiert man sich für die Anzahl der unterschiedlichen Ergebnisse, wobei alle als identisch angesehen werden, die sich nur durch die Anordnung unterscheiden. Satz 1.1.25 Sei eine Urne mit N gleichartigen, durchnumerierten Kugeln gegeben, formal Q = {1,.. ., N}. Es gibt (%) Teilmengen vom Umfang n, d.h. mögliche Ergebnisse beim Ziehen ohne Zurücklegen von n Kugeln, wenn die Reihenfolge nicht berücksichtigt wird. Beweis: Beim Ziehen ohne Zurücklegen erhielten wir als Anzahl der möglichen Ergebnisse N • (N — 1) • ... • [N — n + 1), wenn die Anordnung von Bedeutung ist. Wie wir im Beispiel eben gesehen haben, gibt es n! unterschiedliche Ergebnisse, die sich nur durch die Anordnung unterscheiden. Es sind also für die Anzahl der n-Teilmengen einfach die Gesamtzahl der Tupel dadurch zu dividieren: N • (N - 1) •...
-(N - n + 1)
TV! n\(N — n)!
Beispiel 1.1.26 Um das Jahr 2000, so hat der geniale Mathematiker Turing prophezeit, würden Computer in der Lage sein, Menschen in einem als 'Turing-Test' bezeichneten Fragespiel hinters Licht zu führen. Turing hatte vorgeschlagen, Computer hinter einen Vorhang zu stellen; ein Mitspieler, der nicht wissen dürfe, ob sich ein Mensch oder eine Maschine hinter dem Vorhang verberge, könne dann auf dem "Tippwege" Fragen an den Unsichtbaren richten. Wenn der Fragesteller nicht zu entscheiden vermöge, ob hinter dem Vorhang ein Mensch oder eine Maschine verborgen sei, so komme dem Computer das Prädikat einer 'denkenden Maschine' zu. In einer '100-Meter-Version des Turingschen Marathonlaufes' (Spiegel 47/1991, S.332) wurden zwei Menschen und sechs Computerprogramme hinter Vorhängen versteckt. Acht Bürger durften Fragen aus eng begrenzten Wissnsgebieten an die Verborgenen richten, sich aber nicht untereinander verständigen. Ihnen war verraten worden, daß an mindestens zwei Plätzen Menschen säßen. Wenn ein Bürger davon ausging, daß genau zwei Menschen und sechs Maschinen dabei waren, wie groß ist die Chance daß er durch einfaches Raten die richtige Zuordnung trifft? Es sind alle möglichen Anordnungen zu bestimmen. Dieses Problem ist gleichwertig damit, daß aus einer Urne mit acht Kugeln zwei ohne Zurücklegen
1.1. WAHRSCHEINLICHKEITSVERTEIL
UNGEN
17
gezogen werden. Die Reihenfolge spielt keine Rolle. Daher sind es (®) = 49 mögliche Anordnungen. Die gesuchte Wahrscheinlichkeit ist also 1/49. •
1.1.3
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Das Konzept der bedingten Wahrscheinlichkeit hat seinen Ursprung in einer einfachen experimentiellen Situation. Wenn bei einem Experiment bekannt ist, daß das Ereignis gewisse Randbedingungen erfüllt, welche Wahrscheinlichkeitsverteilung gibt dann die Chancen für die entsprechenden Ereignisse an? Zur Lösung werden zunächst die Häufigkeiten zweier Ereignisse A und B betrachtet. Es wird die Teilfolge ausgewählt, bei der jeweils B beobachtet wurde. Das sei die Randbedingung. Nun richtet sich die Frage auf die relative Häufigkeit, mit der A in dieser Teilfolge auftrat. Formal ergibt sie sich zu
n(Ar\B)/n(B). Wegen n(ACiB)/n(B)
= h(AC\B)/h{B)
wird folgende Definition nahegelegt:
D e f i n i t i o n 1.1.27 (ii,2l, P) sei ein Wahrscheinlichkeitsraum, B G 21 mit P ( B ) > 0. Dann heißt = ™
(M.10)
die b e d i n g t e W a h r s c h e i n l i c h k e i t von A gegeben B.
m
Wie m a n leicht sieht, ist P( | 5 ) eine Wahrscheinlichkeitsverteilung über ( ß , 2 l ß ) , falls P ( ß ) > 0. 2lß ist dabei die auf B eingeschränkte er-Algebra:
2 =
{Ai~\B\A 2 Ereignisse übertragen. Satz 1.1.29 Seien (fi, 21, P) ein Wahrscheinlichkeitsraum und A\, nisse mit P(yli n A2 n . . . n A1-1) > o. Dann gilt
• • •, An £ 21 Ereig-
1.1. WA HRSCHEINLICHKEITSVERTEIL P(YII n
19
UNGEN
N... N AN)
= p ( A N \ A I n A2 n . . . n A •P(A2\AI)
N
•
P(AN^1 \AX n A2 n . . . n AN_2) • . . .
•
(1.1.11)
Beweis: Aus P(yli n A2 n . . . n AN_i) > 0 folgt mit A^ D A2 n . . . f~l .4„_i C AX n A2 n . . . n A{, für 1 < i < n - 2: P ( J 4 i n ^ 2 n . . . n J 4 I ) > o. Also gilt p(j4i n J 4 2 n . . . n y l „ ) P(yi1nyi2n...nyiri) p ( J 4 I n ^ n . - . n AN-\) '
-PIAL)
P(A1)
=
P ( J 4 i n ^ n . . . n A„_i) P(>li n A2 n . . . n AN-2) ' "
\A\ n A2 pi . . . n yi n _i) • P(A„_iMi n A2 n . . . n AN.2)
•...
• P ^ O - P ^ ) .
Satz 1.1.30 (Formel von Bayes) Sei (Í2, 21, P) ein Wahrscheinlichkeitsraum. AI,..., gung von f2 bilden, d.h. für i ± j
AI C\AJ = 0
und
AN 6 21 mögen eine Zerle-
AI U . . . U AN = Í2.
Zudem sei P(J4¿) > 0 (i = 1 , . . . , n). Dann gilt für B 6 21 der Satz der totalen Wahrscheinlichkeit: n
P(B) = ^ P ( 5 | ^ ) P ( ^ ) I=i
(1.1.12)
und, falls P(-B) > 0, die Formel von Bayes: PMI m
.
J
M
L
Beweis: Es ist nach Definition P(J4,-|B) = P(J4¡ N B)/P(B). eine Zerlegung von Q bilden, gilt weiter: P (B)
=
P ( ß n i i ) + ... + P ( 5 n i „ )
=
P(S|yl 1 )P( J 4 1 ) + . . . + P(J3|yl n )P( J 4 n )
i i n
Weil
»
ALT...,AN
20
KAPITEL
1. ZUFALLSEXPERIMENTE
=
P(BnA.)
UND
-VARIABLEN
Damit folgt: P(A\B)
P(B\A1)P(Al)
+ ...+
P(B\An)P(Any
m
Die heute als Formel von Bayes bezeichnete Beziehung stammt in dieser Form nicht von T h o m a s Bayes (1702-1761). Man erhält sie aber über eine geeignete Verallgemeinerung seiner Ideen. Beispiel 1.1.31 Wenn codierte Nachrichten gesendet werden, gibt es bisweilen Ubertragungsfehler. Beim Morsen kann aus einem gesendeten Punkt ein Strich bzw. aus einem Strich in Punkt beim Empfänger werden. Die Morsezeichen kommen in etwa im Verhältnis 3:4 (Punkte zu Strichen) vor, d.h. wir können ausgehen von P(Punkt
gesendet)
3 = —,
P(Strich
gesendet)
4 = —.
Treten Vertauschungen aufgrund von Störungen jeweils mit der Wahrscheinlichkeit 1/8 auf, so erhalten wir mit der Bayesschen Formel: P(Punkt =
gesendet\Punkt
P(Punkt
empf angen\Punkt
Nun wissen wir, daß P(Punkt Weiter ist P(Punkt =
P(Punkt P(Punkt
empf angen\Punkt
empfangen)
P(Punkt
gesendet)
P(Punkt
gesendet)
empfangen
n (Punkt
gesendet)
f ) Strich
gesendet)
empf angen\Punkt
=
P(Punkt empfangen\Strich 7 3 1 4 _ 25 8 7 8 7 ~ 56 Zusammen gibt dies: P(Punkt
gesendet)
empfangen) = 7/8.
empfangen)
+P(Punkt =
empfangen)
gesendet\Punkt
gesendet)?(Punkt
gesendet)
gesendet)?(Strich
gesendet)
empfangen)
—
7 8
3 / 7 _ 21 25/56 25'
1.1. WAHRSCHEINLICHKEITSVERTEIL
UNGEN
21
Aus dem Wissen, daß das Ereignis B eintritt, bzw. eingetroffen ist, ergibt sich offensichtlich keine Konsequenz für die Wahrscheinlichkeit von A, wenn P ( X | ß ) = P(j4), oder, äquivalent: p ^ n ß ) = P(v4) • P ( ß ) . In diesem Fall werden A und ß stochastisch unabhängig genannt. Die letzte Gleichung wird dabei als Definitionsgleichung genommen, weil sie ohne die Bedingung P ( ß ) > 0 auskommt und weil sie sich geeignet verallgemeinern läßt. D e f i n i t i o n 1.1.32 (ii,2l, P) sei ein Wahrscheinlichkeitsraum. Ai,...,An s t i s c h u n a b h ä n g i g , wenn p ^
n . . . n 4 ) = P ( ^ J • P (At2) •...•
6 21 heißen stocha-
p(Aik)
(1.1.14)
Falls (nur) P(j4,- n Aj) = P(j4j) • P ( A j ) für 1 < i,j Ereignisse paarweise unabhängig.
< n gilt, heißen die •
für alle Teilfolgen Ail,...,
Aik von
A\,..An.
Sind Ai,...,An stochastisch unabhängig, so sind sie auch paarweise unabhängig. Die Umkehrung gilt nicht. B e i s p i e l 1.1.33 Das Zufallsexperiment bestehe im zweimaligen Würfeln. Bei jeder Durchführung werden die Augenzahlen der Würfe notiert. Dann ist Q. — {(i,j)\i,j = 1 , . . . , 6}, 01 ist die Potenzmenge von Cl. Eine geeignete Wahrscheinlichkeitsverteilung ist wieder die Gleichverteilug:
Dabei sind |f2|, die Anzahl der Elemente von Q bzw. A. Konkret werden drei Ereignisse betrachtet: Ai
=
{ ( l , i ) | j = 1, •. .,6},
A2
=
{(¿,l)|i=l>...,6},
=
{(i,i)\i=
1,...,6};
KAPITEL
22
1. ZUFALLSEXPERIMENTE
UND-VARIABLEN
Für diese Ereignisse gilt: P(^4,) = 6/36 = 1/6. Weiter ist für i ^ j:
P(AI n AJ) = P({(1,1)}) = 1 = P{A¡) • P(AJ) Ai, A2, A3 sind damit paarweise unabhängig. Wegen
p(A, n i 2 n AS) = P({(i,i)}) = ¿ # P(i4i) • p(a 2 ) • P(A3) sind sie aber nicht stochastisch unabhängig.
•
Die stochastische Unabhängigkeit vereinfacht die Berechnung von Wahrscheinlichkeiten der Form P(AI fl . . . fl AN) stark bzw. ermöglicht sie erst. Dementsprechend spielt in der Statistik die Voraussetzung der Unabhängigkeit eine zentrale Rolle.
1.2
Zufallsvariablen
1.2.1
Univariate Zufallsvariablen
In vielen Fällen interessieren bei einem Zufallsexperiment (Í2,2l, P) nicht die Ergebnisse u> selbst, sondern numerische Werte, die den Ergebnissen zugeordnet sind und darüber festgelegte Ereignisse. Grundlegend sind dabei Ereignisse, die sich in der Form "der Wert liegt in einem vorgegebenen Intervall" ausdrücken lassen. Da die kleinste, alle Intervalle umfassende er-Algebra die Boreische cr-Algebra 03 ist, erscheint die folgende Definition plausibel. D e f i n i t i o n 1.2.1 (íí,21, P) sei ein Wahrscheinlichkeitsraum. Eine Abbildung X : Q —• M heißt (eindimensionale) Zufallsvariable falls für alle B G ÍB* gilt: {X G B} := X'^B)
= {w|u; €
fi,
£ B} € 21.
(1.2.1)
Wir setzen {a < X < b] := {X € ( x, so gilt: l i m ^
F(x'n)
=
F(x)
B e w e i s : Wir beweisen nur die erste Aussage von (3). Sei dazu xi, X2, • • • eine Folge reeller Zahlen mit xn < x n + i und limn_>oo xn = oo. Um den Satz 1.1.17 anwenden zu können, wird An := (—oo,r n ] gesetzt. Es gilt: OO Ai C A2 C • . . und | J An = n = l
Mit dem Satz 1.1.17 folgt: lim F{xn) n—»oo
=
limPx((-oo,*n]) = P* M(-oo,a:n] n—»oo \ / \t =l /
=
P*(M)=1.
•
Die Aussage 2 des Satzes können wir sogar präzisieren zu P ( x i < X < x2) =
F(x2)-F(x1).
Damit lassen sich alle Wahrscheinlichkeiten für Intervalle durch die Verteilungsfunktion angeben. Wahrscheinlichkeiten für Ereignisse A, die auf kompliziertere Weise aus Intervallen resultieren, wollen wir im folgenden durch eA)=
f dF(x)
(1.2.4)
JA
angeben. Für Intervalle A = (a, 6] schreiben wir auch
J
b
dF(x)
-
J dF(x)
- F(b) -
F(a).
Insbesondere gilt für die Vereinigung von paarweise disjunkten Intervallen ( a i . & i ] , . . . , (ajt, 6jt], A = U*=i( a «> k
J
dF(x)
= J 2 j dF(x) oo (5) l i m * , - , - « , (6) Fix)
( i = l , . . . , k )
• • -,Xk) = F(oo, . . . , oo) = 1.
F ( x i , . . . ,x
k
)
=
F i x
-oo,...,
...,
u
x
k
= 0,
)
(¿ = 1 , . . .
ist rechtsseitig stetig in jeder Komponente i.
B e w e i s : Wir beweisen nur (2). Zur Vereinfachung der Schreibweise setzen wir (JTj, ^ 2 ) = i X , Y ) . Die folgenden Rechnungen werden durch eine Skizze verdeutlicht:
y
(21,2/2) ( - 0 0 , Xi] x (yi,
ix 2,2/2)
( x , , x 2 ] x (2/1,1/2]
y2]
(-OO, X!] x ( - 0 0 , 1 / 1 ]
(xi, x2] x (-00,2/1]
X\
X2
X
A b b i l d u n g 1 . 2 . 2 : Zur bivariaten Verteilungsfunktion
F i x
2
, y
=
2
)
=
PiX
P(X
< x
PiX
=
Mit
Pixi