Statistische Inferenz [Reprint 2018 ed.] 9783486789225

Maßgebliches Lehrwerk der Statistik im Hauptstudium.

170 100 31MB

German Pages 421 [424] Year 2018

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Vorwort
Inhaltsverzeichnis
1. Zufallsexperimente Und -Variablen
2. Momente Von Verteilungen
3. Statistische Modelle
4. Stichproben Und Statistiken
5. Grenzwertsätze
6. Punktschätzung
7. Konfidenzschätzung
8. Grundzüge Der Testtheorie
Anhang
Literatur
Index
Recommend Papers

Statistische Inferenz [Reprint 2018 ed.]
 9783486789225

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Caspary/Wichmann, Lineare Modelle Chatteijee/Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen/Lorscheid, Statistik-Aufgabensammlung, 2. Auflage Harvey (Übers. Untiedt), Ökonometrische Analyse von Zeitreihen, 2. Auflage Harvey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler/Michels, Deskriptive und Explorative Datenanalyse Naeve, Stochastik für Informatik Oerthel/Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pokropp, Lineare Regression und Varianzanalyse Rinne, Wirtschafts- und Bevölkerungsstatistik Schlittgen, Statistik, 5. Auflage Schlittgen, Statistische Inferenz Schlittgen/Streitberg, Zeitreihenanalyse, 6. Auflage

Statistische Inferenz Von Universitätsprofessor

Dr. Rainer Schlittgen

R. Oldenbourg Verlag München Wien

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Schlittgen, Rainer: Statistische Inferenz / von Rainer Schlittgen. - München ; Wien : Oldenbourg, 1996 (Lehr- und Handbücher der Statistik) ISBN 3-486-23467-6

© 1996 R. Oldenbourg Verlag GmbH, München Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München ISBN 3 - 4 8 6 - 2 3 4 6 7 - 6

Vorwort Das Buch gibt eine an den Anwendungen orientierte Darstellung der statistischen Methoden auf mittlerem Niveau. "Mittleres Niveau" meint dabei, daß das mathematische Rüstzeug, das zum Beispiel Wirtschaftswissenschaftler und Ingenieure in ihrem Grundstudium erwerben, für ein erfolgreiches Durcharbeiten ausreichen sollte. Der Text ist im Rahmen von Vorlesungen entstanden, die ich unter dem Titel 'Statistik nach der Grundausbildung' bzw. 'Statistik für Fortgeschrittene' für Wirtschaftswissenschaftler und Wirtschaftsmathematiker an verschiedenen Universitäten immer wieder gehalten habe. In diesen Kursen konnte ich davon ausgehen, daß die Hörer schon über einige Grundkenntnisse verfügten. Um die Eigenständigkeit des Buches zu gewährleisten, wurden auch die Grundlagen mit aufgenommen. Die hier gewählte Anordnung des Stoffes ist dementsprechend weitgehend die übliche. Der wahrscheinlichkeitstheoretische Vorspann ist jedoch etwas knapper gehalten als sonst. (Da vergleichbare Texte im deutschen Sprachraum äußerst rar sind, ist der Bezug hier die englischsprachige Literatur.) Er reicht jedoch mit Sicherheit aus, um das Studium des Hauptteils ohne Rückgriff auf andere Bücher zu ermöglichen. Insbesondere sollte der Text auch als anwendungsorientierte Einführung in die Statistik für Mathematik- und Statistikstudenten geeignet sein. In meiner Einführung in die Statistik (EinfStat), auf die an mehreren Stellen hingewiesen wird, habe ich einen datenanalytischen Zugang zu den klassischen Methoden dargestellt. Dort werden die wichtigsten Verfahren mit gehöriger Motivation präsentiert. Hier sind die Ausführungen nun auf Konstruktionsprinzipien und Eigenschaften von Methoden ausgerichtet. Die einzelnen, konkreten Verfahren werden dabei eher als Beispiele von übergreifenden methodischen Ansätzen betrachtet. Die Anwendungsorientierung des Buches resultiert aus der Berücksichtigung der entsprechenden methodischen Fragestellungen und Zugänge. Dabei habe ich etliche neuere, sonst kaum in einem solchen Text behandelte methodische Ansätze wie Robustheit von Schätzfunktionen, die Bootstrap-Methode und multiple Tests aufgenommen;

VI diese sind sowohl im R a h m e n der theoretischen Statistik wie auch für die praktische Anwendung von großer Bedeutung. Sigma-Algebren und Meßbarkeit werden zwar angesprochen, da ich meine, daß sie für das Verständnis von Verteilungen grundlegend sind. Jedoch werden maßtheoretische Konzepte nicht weitergehend verwendet. Ich habe Beweise aufgenommen, soweit es das angestrebte Niveau zuließ. Denn Beweise sind hilfreich für ein vertieftes Verständnis. An verschiedenen Stellen habe ich Beweisskizzen gegeben, u m die Grundzüge der Beweise wenigstens durchschimmern zu lassen. A n s t a t t die verschiedenen Ansätze für statistische Rückschlüsse — Likelihood, Bayes- und Entscheidungstheorie — alle anzureißen, habe ich mich entschlossen, lieber den Likelihood-Ansatz tiefer zu verfolgen und in weitergehenden Einzelheiten darzustellen. Der Bayes-Ansatz ist mir wegen der benötigten, in der Praxis aber kaum (nie?) vorhandenen Vorinformation in Gestalt einer a priori Dichte immer suspekt geblieben. Bzgl. der Entscheidungstheorie ist es doch recht still geworden, das Interesse scheint sich weitgehend gelegt zu haben. Lineare Modelle werden hier nicht behandelt. Dazu gibt es ausgezeichnete Spezialliteratur. Auch ist diesen i.d.R. eine eigenständige Vorlesung gewidmet. Diese Seiten hätten wohl kaum den Weg zwischen zwei Buchdeckel geschafft, wenn ich nicht das Glück gehabt hätte, in T h o m a s Noack einen Studenten zu finden, der mit unvergleichlichem Engagement die in einer sehr einfachen Textverarbeitung erstellte, vorläufige Version in LM^X gebracht und die mehrmaligen als fundamental zu bezeichnenden Änderungen in motivierender Weise umgesetzt hätte. Ihm sage ich vor allem Dank. Rainer

Schliügen

Inhaltsverzeichnis 1

Z u f a l l s e x p e r i m e n t e u n d -variablen

1

1.1

Wahrscheinlichkeitsverteilungen

1

1.1.1

Stichprobenraum und Wahrscheinlichkeit

1

1.1.2

Gleichmöglichkeitsmodelle und Kombinatorik

13

1.1.3

Bedingte Wahrscheinlichkeit und Unabhängigkeit . . .

17

1.2

1.3 2

Zufallsvariablen

22

1.2.1

Univariate Zufallsvariablen

22

1.2.2

Multivariate Zufallsvariablen

29

1.2.3

Randverteilungen

34

1.2.4

Bedingte Verteilungen

39

Transformationen von Zufallsvariablen

45

M o m e n t e von Verteilungen

55

2.1

Erwartungswerte

55

2.1.1

Grundlegende Definitionen und Eigenschaften

55

2.1.2

Formparameter von Verteilungen

60

2.1.3

Näherungsweise Bestimmung von Erwartungswerten

.

67

2.2

Momenterzeugende Funktion

70

2.3

Bedingte Erwartungswerte

78

VIII 3

INHALTSVERZEICHNIS

Statistische Modelle

85

3.1

Verteilungsfamilien

85

3.1.1

Grundlagen

85

3.1.2

Einige univariate Verteilungen

88

3.1.3

Multivariate Verteilungen

108

3.1.4

Die multivariate Normalverteilung

110

3.1.5

Exponentialfamilien

113

3.2

Strukturierte Modelle

122

3.2.1

Signal-plus-Rauschen-Modelle

122

3.2.2

Einfaktorielle Varianzanalyse

124

3.2.3

Zweifaktorielle Varianzanalyse

124

3.2.4

Lineare Regressionsmodelle

125

3.2.5

Lineares Regressionsmodell mit stoch. Regressoren

3.2.6

Nichtlineare Regressionsmodelle

128

3.2.7

Poisson-Regression

129

3.2.8

Logistische Regression

130

3.2.9

Log-Lineare Modelle für Kontingenztafeln

132

3.2.10 Generalisierte lineare Modelle 4

5

. .

126

133

Stichproben und Statistiken

135

4.1

Stichproben aus endlichen Grundgesamtheiten

135

4.2

Die mathematische Stichprobe

144

4.3

Der Informationsgehalt von Stichproben

153

4.3.1

Likelihood und Fisher-Information

153

4.3.2

Suffizienz

159

Grenzwertsätze

173

5.1

Formen der Konvergenz

173

5.2

Die Delta-Methode

184

INHALTSVERZEICHNIS 6

Punktschätzung

191

6.0

Ausgangsüberlegungen

191

6.1

Schätzmethoden

192

6.1.1

Substitutionsprinzipien

192

6.1.2

Die Methode der Kleinsten Quadrate

195

6.1.3

Maximum-Likelihood-Methode

200

6.1.4

Numerische Bestimmung von ML-Schätzern

206

6.1.5

M-Schätzer

209

6.1.6

L-Schätzer

214

6.1.7

Dichteschätzung

215

6.2

7

8

IX

Eigenschaften von Schätzfunktionen

218

6.2.1

Konsistenz

218

6.2.2

Erwartungstreue

222

6.2.3

Effizienz

224

6.2.4

Eigenschaften spezieller Klassen von Schätzern

6.2.5

Robustheit

243

6.3

Jackknife und Bootstrap

256

6.4

Auswahl von Schätzern für die Anwendung

263

. . . .

233

Konfidenzschätzung

265

7.1

Grundlagen

265

7.2

Konstruktion von Konfidenzintervallen

268

7.2.1

Die Pivot- und die statistische Methode

268

7.2.2

Konfidenzintervalle auf der Basis der Likelihoodfunkt.

275

7.3

Eigenschaften von Konfidenzintervallen

281

7.4

Konfidenzbereiche für mehrdimensionale Parameter

288

G r u n d z ü g e der T e s t t h e o r i e

295

8.1

Grundlegende Definitionen

295

8.1.1

Das Testproblem

295

8.1.2

Randomisierte Tests

301

8.1.3

Einige gängige Hypothesen

306

X

INHA 8.1.4 8.2

8.3

LTSVERZEICHNIS

Überschreitungswahrscheinlichkeiten

311

Konstruktion von Tests

313

8.2.1

Tests, die von Schätzfunktionen ausgehen

313

8.2.2

Tests und Konfidenzintervalle

316

8.2.3

Likelihood-Quotienten-Tests

317

8.2.4

Der Wald- und der Score-Test

325

8.2.5

Bedingte Tests

330

8.2.6

Permutationstests

332

8.2.7

Rangtests

334

8.2.8

Anpassungstests

343

8.2.9

Testkonstruktion und Testanwendung

345

Gleichmäßig beste Tests

346

8.3.1

Einfache Hypothesen

349

8.3.2

Einseitige Hypothesen

352

8.3.3

Einfache Hypothesen gegen zweiseitige Alternativen

361

8.3.4

GBU Tests in mehrparam. Exponentialfamilien . . . .

369

8.4

Weitere Eigenschaften von Tests

375

8.5

Multiple Tests

379

Anhang

393

Literatur

399

Index

405

Kapitel 1

Zufallsexperimente und -variablen In der Statistik geht es darum, von Daten, den Ergebnissen wiederholter Beobachtungen eines Sachverhaltes, auf die zugehörige Grundgesamtheit oder den diese Daten generierenden Mechanismus zurückzuschließen. Die zugrundeliegenden Beobachtungsvorgänge werden im folgenden als Experimente bezeichnet. Verständlicher weise wird der beabsichtigte induktive Schluß von den Beobachtungen auf den zugrundeliegenden 'Daten-generierenden Mechanismus' nicht ohne einige Voraussetzungen gelingen. Mit der formalen Beschreibung von geeigneten Experimenten und den damit zusammenhängenden Begriffsbildungen befassen wir uns in diesem Kapitel.

1.1

Wahrscheinlichkeitsverteilungen

1.1.1

Stichprobenraum und Wahrscheinlichkeit

Unsere eingangs getroffene Vereinbarung, Beobachtungsvorgänge als Experimente zu bezeichnen, ist sehr großzügig. Danach sind naturwissenschaftliche Experimente genauso enthalten wie einfache Alltagsbeobachtungen. Um die Bezeichnung 'Experiment' zu rechtfertigen, setzen wir wenigstens die Wiederholbarkeit unter gleichen Bedingungen voraus. Erhalten wir bei solchen Wiederholungen jeweils das gleiche exakt vorhersagbare Ergebnis, so ist der induktive Schluß leicht. Wir haben es dann mit einer eindeutigen kausalen Beziehung zu t u n . Unser Interesse gilt jedoch Experimenten, bei denen das Ergebnis gerade nicht exakt vorhersagbar ist.

2

KAPITEL

1. ZUFALLSEXPERIMENTE

UND -VARIABLEN

Definition 1.1.1 Ein Experiment heißt Zufallsexperiment, sofern es folgende Forderungen erfüllt: - Es ist unter gleichen Bedingungen wiederholt durchführbar. - Bei der Durchführung ist nicht exakt vorhersagbar, zu welchem Ergebnis der Beobachtungsprozeß führt. Dies ist jedoch eindeutig. - Es ist vorab angebbar, welche Ergebnisse überhaupt möglich sind. Die Menge der möglichen Ergebnisse u> wird als S t i c h p r o b e n r a u m Q bezeichnet. • Bei einem Zufallsexperiment kommt der die Ergebnisse hervorbringende Mechanismus in der Form zum Tragen, daß geeignete Gesetzmäßigkeiten sich in der Masse der Beobachtungen niederschlagen. Für die Statistik sind dementsprechend die Ergebnisse wiederholter Durchführungen von Zufallsexperimenten relevant. Beispiel 1 . 1 . 2 Die eingängigsten Beispiele für Zufallsexperimente sind Glücksspiele wie das Roulettespiel, Würfeln, Münzwürfe, das Ziehen einer Karte aus einem Stapel gut gemischter Spielkarten. Hierbei handelt es sich um Vorgänge, die in unserem Kulturkreis wohlbekannt sind und die sich wegen ihrer einfachen Struktur besonders zur Illustration von neuen Konzepten eignen. Beim Würfeln läßt sich der Stichprobenraum mit den Zahlen Eins bis Sechs identifizieren: fi = { 1 , 2 , 3 , 4 , 5 , 6 } . Beim Werfen einer 2 DM-Münze kann die Kopfseite oder die Seite mit dem Adler nach oben zu liegen kommen. Wir können also setzen: il = {K, A]. Ein drittes Zufallsexperiment bestehe wieder im Werfen einer 2 DM-Münze, und zwar soll sie sooft geworfen werden, bis zum ersten Mal die Kopf-Seite nach oben zu liegen kommt. Die möglichen Ergebnisse sind dann

u>i = K, lü2 = AK, u>3 = AAK, w4 = AAAK, w5 =

AAAAK,...

und fi ist die abzählbar unendliche Menge fi = {wj, u>2, • • •, uin, . . . } . Beispiel 1.1.3 Ein Zufallsexperiment besteht in der Auswahl einer Person aus einer vorgegebenen, genau spezifizierten Personengruppe mittels Losverfahren. Jede Person stellt hier ein mögliches Ergebnis u der Zufallsauswahl dar. Cl ist die endliche Gesamtheit aller Personen der betrachteten Gruppe. •



1.1.

WAHRSCHEINLICHKEITSVERTEILUNGEN

3

Beispiel 1.1.4 Der Blick auf eine Uhr mit sich stetig bewegendem Sekundenzeiger kann als Zufallsexperiment angesehen werden. Das Ergebnis ist die Stellung des Sekundenzeigers. Diese kann in Bogenmaß angegeben werden. Dann besteht aus allen Zahlen im Intervall [0, 2n). m Es ist zwar bei einem Zufallsexperiment nicht möglich, exakt vorherzusagen, welches Ergebnis bei einer Durchführung beobachtet werden wird. Jedoch sind Chancen dafür von Interesse und auch oft ermittelbar, daß ein Ergebnis aus einer Teilmenge von Cl beobachtet werden wird. Wir sagen dann einfach, daß die Teilmenge selbst beobachtet wird. Solche Chancen sind unter zwei Gesichtspunkten von Interesse. Einmal sind sie individuelle Chancen wie die Gewinnchancen bei einem einfachen Glücksspiel; als zweites steht die Chance für die durchschnittliche Häufigkeit mit der eine Teilmenge bei einer großen Anzahl von Wiederholungen des Zufallsexperimentes beobachtet wird. Diese Betrachtungsweise herrscht etwa bei Versicherungen vor, wo weniger das einzelne Schicksal zählt als die Gesetzmäßigkeit, die sich bei einer großen Zahl von Versicherten ergibt. Die Betrachtung der Häufigkeit, mit der eine Teilmenge bei wiederholter Durchführung eines Zufallsexperimentes beobachtet wird, führt dazu, daß man auch Häufigkeiten anderer Teilmengen bestimmen will.

Definition 1.1.5 Sei fi der zu einem Zufallsexperiment gehörige Stichprobenraum. Sei A C i i .

Die absolute Häufigkeit, mit der A bei n Wiederholungen des Zufallsexperimentes eingetreten ist, ist die Anzahl n(A) der Wiederholungen, bei denen ein zu A gehörendes Ergebnis beobachtet wurde. Die r e l a t i v e H ä u f i g k e i t

von A ist h(A) = n(A)/n.

m

Mit der relativen Häufigkeit von A läßt sich auch die des Komplements Ac angeben:

h(Ac) = 1 - h(A). Bei den Häufigkeiten zweier Teilmengen A und B gilt offensichtlich:

h(A U B) = h(A) + h(B) - h(A n B). Weiter gilt: Ä ( f i ) = 1.

Bedenken wir nun die oben angesprochene Verbindung von relativen Häufigkeiten und Chancen, so sollten für die Chancen verschiedener Teilmengen geeignete Berechnungen möglich sein. Da nicht für alle Teilmengen die Chancen

KAPITEL 1. ZUFALLSEXPERIMENTE UND -VARIABL

4

von Interesse oder gar definierbar sind, werden die relevanten als E r e i g n i s s e besonders ausgezeichnet. Zudem wird verlangt, daß aus Ereignissen geeignet abgeleitete Teilmengen wieder Ereignisse sind. D e f i n i t i o n 1.1.6 Ein System 21 von Teilmengen des Stichprobenraumes i) heißt er-Algebra v o n E r e i g n i s s e n , oder kurz E r e i g n i s a l g e b r a , falls gilt: (i) i 2 € 21 (ii)A£2i (iiiM„G2l

=>

AceQl

für n = 1 , 2 , . . .

(1.1.1) =>

U"=i^»GÄ.

Wir sagen, daß das Ereignis A bei einer Durchführung des Zufallsexperimentes eintritt, wenn ein Ergebnis beobachtet wird, das zu A gehört. • Q wird auch als s i c h e r e s Ereignis bezeichnet, da stets ein w G beobachtet wird, m . a . W . Q stets eintritt. Das Ereignis f2 c = 0 tritt nie ein: Jede Durchführung des Zufallsexperimentes führt zu einem Ergebnis. 0 heißt daher auch das u n m ö g l i c h e Ereignis. Aus den drei grundlegenden Eigenschaften einer cr-Algebra lassen sich weitere ableiten. Bevor wir dies tun, seien zur Erinnerung die folgenden Regeln für Mengenoperationen angegeben:

A\B = AC\BC, \JK = iT[An)e, An(Buc) = (AnB)u{An c), A U (B n C ) = (A U B) n (A u C). Satz 1.1.7 Ist 21 eine cr-Algebra, so gilt: (1) 0 G 21 (2)

Au A2

G 21



Ai UA2 G21

(3) J4„ G 21 für n = 1 , 2 , . . . (4)

A, B G21

AUB

=>

| X = i A n G 21

G 21

Beweis: (1) Wegen fic = 0 gilt (1) aufgrund von (ii).

(1.1.2)

1.1.

WAHRSCHEINLICHKEITSVERTEILUNGEN

5

(2) Wir setzen An = 0 für n > 3. Dann ist Acn G 21 für n = 1 , 2 , . . . und es gilt CO

[J An =

A1\JA2e 3. Dann ist An £ 21 für n = 1 , 2 , . . . und aufgrund von (iii) auch oo A\C\A'1= P) e 21. n=l • B e i s p i e l 1.1.8 Sei fi = {1,2,3} und A = {1,2}. Dann sind 2lj = {0, {1, 2}, {3}, £7} und 2l 2 = {0,{1},{2}, {3}, { l , 2 } , { l , 3 } , { 2 , 3 } , f i } •

P(,4) < P ( ß )

P(j4) < 1

(6) ( F o r m e l v o n S y l v e s t e r ) : F ü r jede endliche Folge A\,...,

An von Ereignissen aus 21 gilt:

P(A1U...UÄn)

n

n

i=i

l 0 folgt P(A) < P (B). (5) Wegen A c f i folgt mit P(íí) = 1 aus (4) dann P(A) < 1. (6) Wir zeigen dies durch vollständige Induktion. Sei n = 2. Dann gilt Ai U A2 = Ai U (A{ n A2). Somit gilt wegen A\ n (A\ D A2) = 0 dann P(AIUA2)

P(Ac1r\A2)

=

P(v4i) +

=

P^O + Pi^J-P^inXa).

Die Behauptung gelte nun für beliebiges, festes n: P(AiU...UA„) n

n— 1 n

:=1 +(-i)"

1 = 1 j = i' + l +I

-P(A,n...nA„).

Zu zeigen ist dann, daß die Formel auch für n + 1 richtig ist. Es gilt P(¿i U...LM„+i) =

P(i4i U . . . U An) + P ( A n + i ) - P ( ( ¿ i U . . . U An) n An+1)

=

X > ( * ) - £ ¿ ¿=1 ¿ = 1 j=i +1

+ .......

10

KAPITELL ZUFALLSEXPERIMENTE UND-V +(-l)" •P(A1D...DAn) +P{An+1) - P((^li n An+1) u . . . u (An n +1

Nun läßt sich die Induktionsvoraussetzung auf den letzten Term der rechten Seite anwenden: P((v4! n J 4 B + i ) u . . . u ( A n r M B + i ) ) n n—1 n = E i=i ¿=i j =i+i

r\Aj n . 4 n + i ) + . . . - . . .

Damit erhalten wir: P(j4I U . . . U j4 n +i) n+1 n—1 n

= J2p(A')-E ¿=1

+(-i)

n+1

E P(AinAj) + .......

: = 1 j =¿ + 1

n - E P (Ai n t=l

• P(A, n . . . n

n— 1 n

=

An+1)

+ E E nAj n yln + i ) + . . . - . . . ¿=1 j=i+l +(-i)»+1 . p ( i 1 n . . . n i „ n i „ + 1 ) n+1 n n+1 1=1

E

+ .......

1 = 1 ;=t'+l

+(-i)n+2-P(>l1n...n4+1). (7) Die zweite Form der Bonferroni-Ungleichung erhalten wir, indem in (8) + 2 = . . . = % gesetzt werden. Die erste Form ergibt sich daraus durch den Ubergang zu den Komplementen.

B = A B = A C\A , B = A f\ A\C\ ...

C1 (8) Seien 1 u 2 2 z 3 Dann gilt 5,- C Ai für i = 1, 2, 3 , . . . und wegen (4) P(5,-) < P ( J 4 i ) für pMn). ¿ = 1 , 2 , 3 , . . . Somit ist ! P ( B n ) < E^i Weiterhin gilt B, n Bj = 0 für i ± j . Also folgt oo

oo

n=l

n=l

P(An) = P(Bn) = Ep(ßn) < E

1.1. WAHRSCHEINLICHKEITSVERTEIL

UNGEN

11

Auf die in den beiden folgenden Beispielen angegebenen Wahrscheinlichkeitsverteilungen werden wir im folgenden immer wieder zurückkommen. Beispiel 1.1.15 Sei fi ein Stichprobenraum und A ein uns interessierendes Ereignis. Die von A erzeugte tr-Algebra ist 21 = A, Ac}. Durch Festlegung von P(^4) = p erhalten wir eine Wahrscheinlichkeitsverteilung auf { f l , 2 l } . • Beispiel 1.1.16 Sei ß eine abzählbare Ergebnismenge, d.h. Sl = • • •} und 21 = Durch Festlegung von P ( { w , } ) = p,- mit J ^ j Pi = 1 erhalten wir eine Wahrscheinlichkeitsverteilung auf mit P(j4) = E A P ( { w , } ) für jedes ,4e oo gegen 1 geht. B e w e i s : Siehe Feiler (1968).



Satz 1.1.22 Sei eine Urne mit N gleichartigen, durchnumerierten Kugeln gegeben, formal = {1 , . . . , N } . Die Anzahl der unterschiedlichen Ergebnisse beim Ziehen von n Kugeln sind dann Nn beim Ziehen mit Zurücklegen, d.h. von fli = { ( w i , . . . , w n )|

G ii};

1.1. WAHRSCHEINLICHKEITSVERTEIL

UNGEN

15

- TV • (TV — 1) • . . . • (N — n + 1) beim Ziehen ohne Zurücklegen, d.h. von ÍÍ2 = {(wi,. . .,w„)| uii £ SI, u>i ± Uj für i ± j } . B e w e i s : Wir betrachten zunächst das Ziehen mit Zurücklegen. Für die 1.Kugel gibt es TV Möglichkeiten. Zu jeder dieser TV Möglichkeiten gibt es bei der zweiten Kugel wiederum TV Möglichkeiten. Bei zwei Kugeln gibt es also N + ... + N = N- N = N2 Möglichkeiten. Zu jeder dieser TV2 Möglichkeiten gibt es bei der dritten Kugel abermals TV Möglichkeiten. Bei drei Kugeln gibt es also N2 + N2 + . . , + TV2 = TV• TV2 = TV3 Möglichkeiten, u.s.w.. Allgemein sind es wie behauptet TV" mögliche Ergebnisse. Beim Ziehen ohne Zurücklegen gibt es für die erste Kugel wie in der eben betrachteten Situation TV Möglichkeiten. Für die zweite bleiben noch TV — 1 übrig.Bei zwei Kugeln gibt es daher zu jeder ersten möglichen Kugel TV — 1 für die zweite. Das sind (TV - 1) + . . . + (TV - 1) = TV • (TV - 1) Möglichkeiten. Bei n ausgewählten Kugeln sind das schließlich N • (TV — 1) • . . . • (TV — n + 1) mögliche Ziehungen. • Die Ergebnisse wiederholter Ziehungen haben wir als Tupel (wi, .. ., u n ) angegeben. Bei dieser Darstellung ist implizit vereinbart, daß die Reihenfolge wesentlich ist. Beispielsweise unterscheidet sich das Tupel (1, 2, 3) von (3, 2, 1) und (1,3,2). Man bezeichnet daher auch die beiden im Satz angesprochenen Ziehungsarten als Z i e h u n g e n m i t B e r ü c k s i c h t i g u n g der A n o r d n u n g . Beispiel 1.1.23 In Computern werden Informationen durch endliche Folgen, die aus Nullen oder Einsen bestehen, dargestellt. Die Anzahl der unterschiedlichen Zeichen, wenn einem 8 Stellen zur Verfügung stehen, entspricht der Anzahl der Ziehungen mit Zurücklegen von 8 Kugln aus einer Urne, die zwei Kugln enthält. Es sind also TV = 2, n = 8. Demnach können mit einer Folge, die aus 8 Nullen oder Einsen besteht, 2 8 = 256 mögliche Zeichen dargestellt werden. • Beispiel 1.1.24 Vier Stühle stehen nebeneinander. Auf wieviele Arten können sich vier Personen auf die vier Stühle setzen, wenn auf jedem der Stühle genau eine Person sitzen soll? Hier handelt es sich um dais Ziehen ohne Zurücklegen. Es ist TV = n = 4. Daher gilt: 4 • . . . • (4 — 4 + 1) = 4! = 24. Vier Personen können sich also auf 24 Arten auf vier Stühle setzen, wobei auf jedem Stuhl genau eine Person sitzt. • Im letzten Beispiel wird deutlich, daß wir beim Ziehen ohne Zurücklegen im Fall n = TV gerade die Anzahl TV! aller Anordnungen oder P e r m u t a t i o n e n

16

KAPITEL

1. ZUFALLSEXPERIMENTE

UND

-VARIABLEN

von N unterscheidbaren Elementen erhalten. Häufig spielt die Reihenfolge, in der die einzelnen Kugeln gezogen werden, keine Rolle. Dann interessiert man sich für die Anzahl der unterschiedlichen Ergebnisse, wobei alle als identisch angesehen werden, die sich nur durch die Anordnung unterscheiden. Satz 1.1.25 Sei eine Urne mit N gleichartigen, durchnumerierten Kugeln gegeben, formal Q = {1,.. ., N}. Es gibt (%) Teilmengen vom Umfang n, d.h. mögliche Ergebnisse beim Ziehen ohne Zurücklegen von n Kugeln, wenn die Reihenfolge nicht berücksichtigt wird. Beweis: Beim Ziehen ohne Zurücklegen erhielten wir als Anzahl der möglichen Ergebnisse N • (N — 1) • ... • [N — n + 1), wenn die Anordnung von Bedeutung ist. Wie wir im Beispiel eben gesehen haben, gibt es n! unterschiedliche Ergebnisse, die sich nur durch die Anordnung unterscheiden. Es sind also für die Anzahl der n-Teilmengen einfach die Gesamtzahl der Tupel dadurch zu dividieren: N • (N - 1) •...

-(N - n + 1)

TV! n\(N — n)!

Beispiel 1.1.26 Um das Jahr 2000, so hat der geniale Mathematiker Turing prophezeit, würden Computer in der Lage sein, Menschen in einem als 'Turing-Test' bezeichneten Fragespiel hinters Licht zu führen. Turing hatte vorgeschlagen, Computer hinter einen Vorhang zu stellen; ein Mitspieler, der nicht wissen dürfe, ob sich ein Mensch oder eine Maschine hinter dem Vorhang verberge, könne dann auf dem "Tippwege" Fragen an den Unsichtbaren richten. Wenn der Fragesteller nicht zu entscheiden vermöge, ob hinter dem Vorhang ein Mensch oder eine Maschine verborgen sei, so komme dem Computer das Prädikat einer 'denkenden Maschine' zu. In einer '100-Meter-Version des Turingschen Marathonlaufes' (Spiegel 47/1991, S.332) wurden zwei Menschen und sechs Computerprogramme hinter Vorhängen versteckt. Acht Bürger durften Fragen aus eng begrenzten Wissnsgebieten an die Verborgenen richten, sich aber nicht untereinander verständigen. Ihnen war verraten worden, daß an mindestens zwei Plätzen Menschen säßen. Wenn ein Bürger davon ausging, daß genau zwei Menschen und sechs Maschinen dabei waren, wie groß ist die Chance daß er durch einfaches Raten die richtige Zuordnung trifft? Es sind alle möglichen Anordnungen zu bestimmen. Dieses Problem ist gleichwertig damit, daß aus einer Urne mit acht Kugeln zwei ohne Zurücklegen

1.1. WAHRSCHEINLICHKEITSVERTEIL

UNGEN

17

gezogen werden. Die Reihenfolge spielt keine Rolle. Daher sind es (®) = 49 mögliche Anordnungen. Die gesuchte Wahrscheinlichkeit ist also 1/49. •

1.1.3

Bedingte Wahrscheinlichkeit und Unabhängigkeit

Das Konzept der bedingten Wahrscheinlichkeit hat seinen Ursprung in einer einfachen experimentiellen Situation. Wenn bei einem Experiment bekannt ist, daß das Ereignis gewisse Randbedingungen erfüllt, welche Wahrscheinlichkeitsverteilung gibt dann die Chancen für die entsprechenden Ereignisse an? Zur Lösung werden zunächst die Häufigkeiten zweier Ereignisse A und B betrachtet. Es wird die Teilfolge ausgewählt, bei der jeweils B beobachtet wurde. Das sei die Randbedingung. Nun richtet sich die Frage auf die relative Häufigkeit, mit der A in dieser Teilfolge auftrat. Formal ergibt sie sich zu

n(Ar\B)/n(B). Wegen n(ACiB)/n(B)

= h(AC\B)/h{B)

wird folgende Definition nahegelegt:

D e f i n i t i o n 1.1.27 (ii,2l, P) sei ein Wahrscheinlichkeitsraum, B G 21 mit P ( B ) > 0. Dann heißt = ™

(M.10)

die b e d i n g t e W a h r s c h e i n l i c h k e i t von A gegeben B.

m

Wie m a n leicht sieht, ist P( | 5 ) eine Wahrscheinlichkeitsverteilung über ( ß , 2 l ß ) , falls P ( ß ) > 0. 2lß ist dabei die auf B eingeschränkte er-Algebra:

2 =

{Ai~\B\A 2 Ereignisse übertragen. Satz 1.1.29 Seien (fi, 21, P) ein Wahrscheinlichkeitsraum und A\, nisse mit P(yli n A2 n . . . n A1-1) > o. Dann gilt

• • •, An £ 21 Ereig-

1.1. WA HRSCHEINLICHKEITSVERTEIL P(YII n

19

UNGEN

N... N AN)

= p ( A N \ A I n A2 n . . . n A •P(A2\AI)

N



P(AN^1 \AX n A2 n . . . n AN_2) • . . .



(1.1.11)

Beweis: Aus P(yli n A2 n . . . n AN_i) > 0 folgt mit A^ D A2 n . . . f~l .4„_i C AX n A2 n . . . n A{, für 1 < i < n - 2: P ( J 4 i n ^ 2 n . . . n J 4 I ) > o. Also gilt p(j4i n J 4 2 n . . . n y l „ ) P(yi1nyi2n...nyiri) p ( J 4 I n ^ n . - . n AN-\) '

-PIAL)

P(A1)

=

P ( J 4 i n ^ n . . . n A„_i) P(>li n A2 n . . . n AN-2) ' "

\A\ n A2 pi . . . n yi n _i) • P(A„_iMi n A2 n . . . n AN.2)

•...

• P ^ O - P ^ ) .

Satz 1.1.30 (Formel von Bayes) Sei (Í2, 21, P) ein Wahrscheinlichkeitsraum. AI,..., gung von f2 bilden, d.h. für i ± j

AI C\AJ = 0

und

AN 6 21 mögen eine Zerle-

AI U . . . U AN = Í2.

Zudem sei P(J4¿) > 0 (i = 1 , . . . , n). Dann gilt für B 6 21 der Satz der totalen Wahrscheinlichkeit: n

P(B) = ^ P ( 5 | ^ ) P ( ^ ) I=i

(1.1.12)

und, falls P(-B) > 0, die Formel von Bayes: PMI m

.

J

M

L

Beweis: Es ist nach Definition P(J4,-|B) = P(J4¡ N B)/P(B). eine Zerlegung von Q bilden, gilt weiter: P (B)

=

P ( ß n i i ) + ... + P ( 5 n i „ )

=

P(S|yl 1 )P( J 4 1 ) + . . . + P(J3|yl n )P( J 4 n )

i i n

Weil

»

ALT...,AN

20

KAPITEL

1. ZUFALLSEXPERIMENTE

=

P(BnA.)

UND

-VARIABLEN

Damit folgt: P(A\B)

P(B\A1)P(Al)

+ ...+

P(B\An)P(Any

m

Die heute als Formel von Bayes bezeichnete Beziehung stammt in dieser Form nicht von T h o m a s Bayes (1702-1761). Man erhält sie aber über eine geeignete Verallgemeinerung seiner Ideen. Beispiel 1.1.31 Wenn codierte Nachrichten gesendet werden, gibt es bisweilen Ubertragungsfehler. Beim Morsen kann aus einem gesendeten Punkt ein Strich bzw. aus einem Strich in Punkt beim Empfänger werden. Die Morsezeichen kommen in etwa im Verhältnis 3:4 (Punkte zu Strichen) vor, d.h. wir können ausgehen von P(Punkt

gesendet)

3 = —,

P(Strich

gesendet)

4 = —.

Treten Vertauschungen aufgrund von Störungen jeweils mit der Wahrscheinlichkeit 1/8 auf, so erhalten wir mit der Bayesschen Formel: P(Punkt =

gesendet\Punkt

P(Punkt

empf angen\Punkt

Nun wissen wir, daß P(Punkt Weiter ist P(Punkt =

P(Punkt P(Punkt

empf angen\Punkt

empfangen)

P(Punkt

gesendet)

P(Punkt

gesendet)

empfangen

n (Punkt

gesendet)

f ) Strich

gesendet)

empf angen\Punkt

=

P(Punkt empfangen\Strich 7 3 1 4 _ 25 8 7 8 7 ~ 56 Zusammen gibt dies: P(Punkt

gesendet)

empfangen) = 7/8.

empfangen)

+P(Punkt =

empfangen)

gesendet\Punkt

gesendet)?(Punkt

gesendet)

gesendet)?(Strich

gesendet)

empfangen)



7 8

3 / 7 _ 21 25/56 25'

1.1. WAHRSCHEINLICHKEITSVERTEIL

UNGEN

21

Aus dem Wissen, daß das Ereignis B eintritt, bzw. eingetroffen ist, ergibt sich offensichtlich keine Konsequenz für die Wahrscheinlichkeit von A, wenn P ( X | ß ) = P(j4), oder, äquivalent: p ^ n ß ) = P(v4) • P ( ß ) . In diesem Fall werden A und ß stochastisch unabhängig genannt. Die letzte Gleichung wird dabei als Definitionsgleichung genommen, weil sie ohne die Bedingung P ( ß ) > 0 auskommt und weil sie sich geeignet verallgemeinern läßt. D e f i n i t i o n 1.1.32 (ii,2l, P) sei ein Wahrscheinlichkeitsraum. Ai,...,An s t i s c h u n a b h ä n g i g , wenn p ^

n . . . n 4 ) = P ( ^ J • P (At2) •...•

6 21 heißen stocha-

p(Aik)

(1.1.14)

Falls (nur) P(j4,- n Aj) = P(j4j) • P ( A j ) für 1 < i,j Ereignisse paarweise unabhängig.

< n gilt, heißen die •

für alle Teilfolgen Ail,...,

Aik von

A\,..An.

Sind Ai,...,An stochastisch unabhängig, so sind sie auch paarweise unabhängig. Die Umkehrung gilt nicht. B e i s p i e l 1.1.33 Das Zufallsexperiment bestehe im zweimaligen Würfeln. Bei jeder Durchführung werden die Augenzahlen der Würfe notiert. Dann ist Q. — {(i,j)\i,j = 1 , . . . , 6}, 01 ist die Potenzmenge von Cl. Eine geeignete Wahrscheinlichkeitsverteilung ist wieder die Gleichverteilug:

Dabei sind |f2|, die Anzahl der Elemente von Q bzw. A. Konkret werden drei Ereignisse betrachtet: Ai

=

{ ( l , i ) | j = 1, •. .,6},

A2

=

{(¿,l)|i=l>...,6},

=

{(i,i)\i=

1,...,6};

KAPITEL

22

1. ZUFALLSEXPERIMENTE

UND-VARIABLEN

Für diese Ereignisse gilt: P(^4,) = 6/36 = 1/6. Weiter ist für i ^ j:

P(AI n AJ) = P({(1,1)}) = 1 = P{A¡) • P(AJ) Ai, A2, A3 sind damit paarweise unabhängig. Wegen

p(A, n i 2 n AS) = P({(i,i)}) = ¿ # P(i4i) • p(a 2 ) • P(A3) sind sie aber nicht stochastisch unabhängig.



Die stochastische Unabhängigkeit vereinfacht die Berechnung von Wahrscheinlichkeiten der Form P(AI fl . . . fl AN) stark bzw. ermöglicht sie erst. Dementsprechend spielt in der Statistik die Voraussetzung der Unabhängigkeit eine zentrale Rolle.

1.2

Zufallsvariablen

1.2.1

Univariate Zufallsvariablen

In vielen Fällen interessieren bei einem Zufallsexperiment (Í2,2l, P) nicht die Ergebnisse u> selbst, sondern numerische Werte, die den Ergebnissen zugeordnet sind und darüber festgelegte Ereignisse. Grundlegend sind dabei Ereignisse, die sich in der Form "der Wert liegt in einem vorgegebenen Intervall" ausdrücken lassen. Da die kleinste, alle Intervalle umfassende er-Algebra die Boreische cr-Algebra 03 ist, erscheint die folgende Definition plausibel. D e f i n i t i o n 1.2.1 (íí,21, P) sei ein Wahrscheinlichkeitsraum. Eine Abbildung X : Q —• M heißt (eindimensionale) Zufallsvariable falls für alle B G ÍB* gilt: {X G B} := X'^B)

= {w|u; €

fi,

£ B} € 21.

(1.2.1)

Wir setzen {a < X < b] := {X € ( x, so gilt: l i m ^

F(x'n)

=

F(x)

B e w e i s : Wir beweisen nur die erste Aussage von (3). Sei dazu xi, X2, • • • eine Folge reeller Zahlen mit xn < x n + i und limn_>oo xn = oo. Um den Satz 1.1.17 anwenden zu können, wird An := (—oo,r n ] gesetzt. Es gilt: OO Ai C A2 C • . . und | J An = n = l

Mit dem Satz 1.1.17 folgt: lim F{xn) n—»oo

=

limPx((-oo,*n]) = P* M(-oo,a:n] n—»oo \ / \t =l /

=

P*(M)=1.



Die Aussage 2 des Satzes können wir sogar präzisieren zu P ( x i < X < x2) =

F(x2)-F(x1).

Damit lassen sich alle Wahrscheinlichkeiten für Intervalle durch die Verteilungsfunktion angeben. Wahrscheinlichkeiten für Ereignisse A, die auf kompliziertere Weise aus Intervallen resultieren, wollen wir im folgenden durch eA)=

f dF(x)

(1.2.4)

JA

angeben. Für Intervalle A = (a, 6] schreiben wir auch

J

b

dF(x)

-

J dF(x)

- F(b) -

F(a).

Insbesondere gilt für die Vereinigung von paarweise disjunkten Intervallen ( a i . & i ] , . . . , (ajt, 6jt], A = U*=i( a «> k

J

dF(x)

= J 2 j dF(x) oo (5) l i m * , - , - « , (6) Fix)

( i = l , . . . , k )

• • -,Xk) = F(oo, . . . , oo) = 1.

F ( x i , . . . ,x

k

)

=

F i x

-oo,...,

...,

u

x

k

= 0,

)

(¿ = 1 , . . .

ist rechtsseitig stetig in jeder Komponente i.

B e w e i s : Wir beweisen nur (2). Zur Vereinfachung der Schreibweise setzen wir (JTj, ^ 2 ) = i X , Y ) . Die folgenden Rechnungen werden durch eine Skizze verdeutlicht:

y

(21,2/2) ( - 0 0 , Xi] x (yi,

ix 2,2/2)

( x , , x 2 ] x (2/1,1/2]

y2]

(-OO, X!] x ( - 0 0 , 1 / 1 ]

(xi, x2] x (-00,2/1]

X\

X2

X

A b b i l d u n g 1 . 2 . 2 : Zur bivariaten Verteilungsfunktion

F i x

2

, y

=

2

)

=

PiX

P(X

< x

PiX

=

Mit

Pixi