189 54 10MB
German Pages 295 [296] Year 2007
Wahrscheinlichkeitstheorie Einführung
von
Universitätsprofessor Dr. Georg Bol
6., überarbeitete Auflage
Oldenbourg Verlag München Wien
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
© 2007 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Wirtschafts- und Sozialwissenschaften, [email protected] Herstellung: Anna Grosser Satz: DTP-Vorlagen des Autors Coverentwurf: Kochan & Partner, München Gedruckt auf säure- und chlorfreiem Papier Druck: Grafik + Druck, München Bindung: Thomas Buchbinderei GmbH, Augsburg ISBN 978-3-486-58435-6
Vorwort Die vorliegende Einführung in die Wahrscheinlichkeitstheorie entstand aus Aufzeichnungen zu einem zweisemestrigen Statistikkurs, den der Autor wiederholt für Studenten der Wirtschaftswissenschaften, vornehmlich des Wirtschaftsingenieurwesens an der Universität Karlsruhe gehalten hat 1 . Dabei war es die Intention, die Grundlagen zu vermitteln, die in den Spezialvorlesungen des Hauptstudiums (z.B. Statistische Methoden im Marketing, Qualitätskontrolle, Zuverlässigkeitstheorie. Risikotheorie, Portfoliotheorie. ...) benötigt werden, und dabei an die stochastische Denkweise heranzuführen. Das Problem, das sich dabei jedem Dozenten stellt, ist es, einerseits mathematisch korrekt vorzugehen, aber andererseits den Hörer nicht zu überfordern, der (in der Regel) nicht über tieferliegende mathematische Vorkenntnisse und Vertrautheit mit abstrakten mathematischen Begriffen verfügt. Wir haben versucht, diese Schwierigkeit dadurch zu überwinden, daß immer dort, wo elementare Beweise möglich sind, diese auch gegeben werden, daß aber, wenn schwereres mathematisches Geschütz erforderlich wäre, statt eines Beweises der Sachverhalt anschaulich dargestellt wird. (Dennoch kann das Buch natürlich nicht als Entspannungslektüre empfohlen werden.) Eine Frage bleibt dabei weiter umstritten: Soll man σ-Algebren (s.§ 2) explizit einführen oder, wie dies gerade in Lehrbüchern für wirtschaftswissenschaftliche Fakultäten häufig praktiziert wird, diesen Begriff nur andeuten oder ganz übergehen? Wir haben uns dazu entschlossen, im § 1 mit den einführenden Beispielen in die Problematik einzuführen und dann bei der Einführung des Wahrscheinlichkeitsraums eine exakte Definition anzugeben. Wir weisen aber dort - wie auch hier - darauf hin, daß bei einer ersten Lektüre dieser Punkt und auch alles, was mit Meßbarkeit von Abbildungen zu tun hat, getrost übergangen werden kann. So ist diese Einführung gedacht für Leser, die über die mathematischen Grundkenntnisse der Differential- und Integralrechnung verfügen und keine Abneigung gegenüber Mathematik verspüren. Durch viele Abbildungen und Beispiele soll das Verständnis so erleichtert werden, daß das Buch nicht nur als Begleitlektüre zu einer Vorlesung, sondern auch zum Selbststudium geeignet ist. Leser, die nach (oder auch während oder statt) der Lektüre interessiert sind, den Stoff mathematisch zu vertiefen, seien z.B. auf die Standardwerke Bauer (1991), (1992) und Rohatgi (1976) verwiesen. Leser, denen es noch an der Motivation zur Statistik fehlt, wird empfohlen, beispielsweise G. Kennedy (1982), „Einladung zur Statistik" zu lesen. Danken muß ich in erster Linie den Hörern meiner Vorlesungen und den Tutoren der Übungen, die mich durch ihre Fragen und Kritik auf die Punkte hingewiesen haben, die besondere Schwierigkeiten bereiten, mich aber auch ' D e r Bereich „Deskriptive Statistik" dieser Vorlesung wurde bereits 1989 veröffentlicht, der d r i t t e Teil „Grundlagen der schließenden Statistik" ist in Arbeit und wird hoffentlich bald folgen.
VI
Einführung in die Wahrscheinlichkeitstheorie
ermutigt haben, in der Arbeit fortzufahren. Besonderen Dank schulde ich Frau cand. Wi-Ing. Monika Kansy und Herrn stud. inf. Thomas Niedermeier, die sich die Mühe gemacht haben, sich in Ii^TfrX einzuarbeiten und den Text zu schreiben. Trotz ständiger Korrekturwünsche haben sie nie die Geduld verloren. Herrn Dipl.-Ing. Jörn Basaczek bin ich dankbar für die mühsame Arbeit, ein Register zu erstellen. Den Herren Dipl. Wi-Ing. Wolfgang Bea und Dipl. Wi-Ing. Johannes Wallacher danke ich sehr für viele Verbesserungsvorschläge, Auswahl von und Lösungen zu Übungsaufgaben und die mühevolle Anfertigung der Zeichnungen. Dem Verlag schulde ich Dank für die reibungslose Zusammenarbeit. Georg Bol
Vorwort zur fünften Auflage Wesentliche Änderungen wurden gegenüber der dritten und nahezu unveränderten vierten Auflage nicht vorgenommen. Natürlich wurden die bekannt gewordenen Fehler beseitigt. Dabei möchte ich insbesondere Herrn Kollegen Stefan Huschens aus Dresden für eine große Zahl an Hinweisen danken, aber auch von etlichen meiner Studierenden wurde ich auf Fehler aufmerksam gemacht, wofür ich selbstverständlich immer dankbar bin. Natürlich erwarte ich nicht, dass diese Auflage fehlerfrei ist, weswegen ich jede(n) Leser(in) herzlich bitte, mich auf Fehler bzw. unklare oder schwer verständliche Stellen hinzuweisen. Neben diesen Korrekturen wurden noch folgende Ergänzungen vorgenommen: Bei den Verteilungen wurde darauf hingewiesen, wie mit dem Tabellenkalkulationsprogramm Excel von Microsoft Werte der Verteilungen ermittelt werden können. Weiter haben wir den Abschnitt über bedingte Wahrscheinlichkeiten durch die graphische Darstellung mit Hilfe des Einheitsquadrats ergänzt. Für die Änderung und Ergänzung der Druckvorlage danke ich den studentischen Hilfskräften unseres Lehrstuhls Susanne Wiedemann und Kamil Akdag. Dem Oldenbourg-Verlag und hier vor allem Herrn Weigert bin ich für die - wie immer - gute Zusammenarbeit dankbar. Georg Bol
Inhaltsverzeichnis
1 Einführende Beispiele
1
2 D a s wahrscheinlichkeitstheoretische Grundmodell: D e r Wahrscheinlichkeitsraum
19
3 Zufallsvariablen
35
4 Diskrete Verteilungen
49
5 Stetige Verteilungen
59
6 Lage- und Streuungsparameter
73
7 Funktion und Transformation einer Zufallsvariablen
97
8 Bedingte Wahrscheinlichkeiten,
Unabhängigkeit von Ereignissen
115
9 Mehrdimensionale Zufallsvariablen
139
10 Randverteilung, bedingte Verteilung und
Unabhängigkeit von Zufallsvariablen
1 1 Die
n - f a c h e unabhängige Wiederholung eines Experiments
149
173
12 Kennzahlen mehrdimensionaler Zufallsvariablen
183
13 Funktion und Transformation mehrdimensionaler Zufallsvariablen 14 Grenzwertsätze
2189 19
Einführung in die Wahrscheinlichkeitstheorie
viii
Α Lösungen zu den Übungsaufgaben
236
ß Abkürzungen
277
C Referenzen
279
D Namen- und Sachregister
281
1
Einführende Beispiele
Mit den Beispielen dieses Paragraphen werden mehrere Ziele verfolgt. In erster Linie soll deutlich gemacht werden, wie das intuitive Verständnis von Wahrscheinlichkeit in eine formale Darstellung übertragen werden kann. Dabei soll insbesondere - und das ist das zweite Anliegen - die Analogie zur Häufigkeitsverteilung in der deskriptiven Statistik deutlich werden. Am Beispiel eines klassierten stetigen Merkmals soll weiter offengelegt werden, dass diese formale Darstellung mit einfachen Strukturen nicht zu bewältigen ist. Dies ist auch der Grund dafür, dass erst im Jahre 1933 durch Kolmogoroff 1 eine axiomatische Begründung der Wahrscheinlichkeitstheorie vorgelegt wurde, die sich allgemein durchgesetzt hat. obwohl die Beschäftigung mit Wahrscheinlichkeitstheorie eine lange Tradition hat. Insgesamt gesehen sollen diese Beispiele also klar machen, warum die Definition eines Wahrscheinlichkeitsraumes gerade so formuliert wird, wie sie in § 2 erfolgt, und damit auch Anschauungsmaterial für die doch recht abstrakte und und für viele erfahrungsgemäß schwer zu erfassende Darstellung des wahrscheinlichkeitstheoretischen Modells liefern.
1.1
Beispiel („Qualitätskontrolle")
Eine Warenpartie, bestehend aus Ν = 10000 Blitzlichtbirnen, wird einem Händler zu einem bestimmten Preis angeboten. Der Händler hat keine Erfahrung mit diesem Produkt, ist also ungewiss darüber, wieviele der Blitzlichtbirnen versagen. 2 In Relation zum Gesamtumfang von 10000 sprechen wir dann vom Ausschussanteil
ρ = — · Anzahl der schlechten Teile. Ν
(1) w
Der Ausschussanteil ρ ist also dem Händler unbekannt. Eine Kontrolle aller 1 2
Kolmogoroff, A.N., 1903-1987, russ. Mathematiker Q u a l i t ä t s m e r k m a l ist hier die Funktionsfähigkeit mit den Ausprägungen „funktioniert" und „funktioniert nicht".
Einführung in die Wahrscheinlichkeitstheorie
2
Teile, eine sogenannte Voll- oder Totalkontrolle kommt nicht in Frage, da jedes Birnchen nur einmal funktioniert, eine Funktionsprüfung demnach das Teil unbrauchbar macht („zerstörende Kontrolle"). Neben einem Verzicht auf Kontrolle kommt also höchstens eine Stichprobenkontrolle in Betracht. 3 Der Händler entschließt sich zu einer Stichprobe vom Umfang 150. Er entnimmt der Partie „zufällig" 150 Birnen und stellt fest, dass drei von diesen nicht funktionieren. Damit erhält er einen Ausschussanteil in der Stichprobe von 2 %. Welche Information liefert ihm dies? Kann er davon ausgehen, dass auch die Gesamtpartie einen Ausschussanteil von - zumindest ungefähr - 2 % enthält? Welche „Sicherheit" besteht für ein solches Ergebnis? Zunächst sollten wir versuchen, einige Begriffe näher zu präzisieren. Was bedeutet beispielsweise „zufällige" Entnahme? Intuitiv wird man sagen, dass bei der Entnahme keine Systematik bzw. Regelmäßigkeit vorliegen sollte. Betrachtet man alle denkbaren Möglichkeiten für eine Auswahl von 150 Exemplaren aus 10000, so erhält man eine Zahl von /10000\ _ 10000! V 150 ) ~ 150! 9850! verschiedenen Stichproben. Diese Zahl ist von der Größenordnung ΙΟ 300 , also sehr, sehr groß, aber dennoch endlich. Liegt keinerlei Systematik bei der Entnahme vor, so ist keine dieser Stichproben gegenüber der anderen bevorzugt, sie haben alle dieselbe Chance, sie sind „gleich wahrscheinlich". Zur Abkürzung schreiben wir Ω für die Menge aller Stichproben und ω Ε Ω für eine Stichprobe (also ein Element) in Ω. ω G Ω ist damit eines der möglichen „Ereignisse" bei dem durchgeführten Kontrollverfahren. Die Gesamtwahrscheinlichkeit, die auf die einzelnen Ereignisse, sprich Stichproben, zu verteilen ist, legen wir willkürlich mit 1 fest, sie wird auf 1 normiert. Da alle Stichproben gleichwahrscheinlich sind, haben wir die Gesamtwahrscheinlichkeit von 1 gleichmäßig auf die (1°5Q°) Stichproben zu verteilen. Jede einzelne Stichprobe erhält damit die Wahrscheinlichkeit 1 (ΊΟΟΟΟΝ · V 150 )
Bei der Auswertung der ausgewählten Stichprobe hat sich der Händler darauf beschränkt, die Anzahl der schlechten, nicht funktionierenden Blitzlichtbirnchen in der Stichprobe festzustellen. Er ist dabei intuitiv - und, wie man beweisen kann 4 , zu recht - davon ausgegangen, dass in dieser Zahl die relevante Information der Stichprobe über den unbekannten Ausschussanteil der 3
4
Auch bei nicht zerstörender Kontrolle ist eine Totalkontrolle häufig aus wirtschaftlichen G r ü n d e n nicht sinnvoll. siehe „Induktive Statistik" (2003).
3
1 Einführende Beispiele
Gesamtpartie enthalten ist. Wie sieht diese Information aus? Bezeichnen wir diesen Ausschussanteil mit p, so ist Μ := ρ • Ν = ρ • 10000 die Anzahl der schlechten Blitzlichtbirnen in der Partie. Wieviele verschiedene Stichproben gibt es dann mit exakt 3 schlechten Blitzlichtbirnchen? Es sind genau die Stichproben, bei denen wir 3 aus den Μ schlechten und 147 aus den verbleibenden 10000 — Μ guten Blitzlichtbirnchen auswählen. Beides beeinflusst sich gegenseitig nicht, d.h. wir erhalten
•
(λ37)
verschiedene Möglichkeiten, die schlechten auszuwählen.
und
•
( 10 °i47 Λ ί )
verschiedene Möglichkeiten, die guten auszuwählen,
und damit
(Λ3/)(100°°"μ)
verschiedene Stichproben mit exakt 3 schlechten Blitzlichtbirnen.
Jede dieser Stichproben hat nach der Überlegung oben die Wahrscheinlichkeit 1 TToöSöV· l 150 )
Die Wahrscheinlichkeit für das Ereignis, genau 3 schlechte Blitzlichtbirnchen in der Stichprobe vorzufinden, erhalten wir somit, indem wir die Wahrscheinlichkeiten für die einzelnen, verschiedenen Stichproben mit genau 3 schlechten Birnchen aufaddieren: V 3 A
147
)
\ 150 )
Diese Wahrscheinlichkeit hängt natürlich von Μ und damit von ρ ab. Einzelne Werte sind in der folgenden Tabelle angegeben:
4
Einführung in die Wahrscheinlichkeitstheorie
Μ
Ρ
Wahrscheinlichkeit für genau 3 schlechte Teile in der Stichprobe
0
0
0
5
0.0005
0.00003
10
0.001
0.00036
25
0.0025
0.00549
50
0.005
0.03227
100
0.01
0.12630
200
0.02
0.22800
500
0.05
0.03595
1000
0.1
0.00010
Damit hat der Händler jedenfalls einen Überblick, mit welchem Ausschussanteil in der Gesamtpartie sinnvollerweise noch zu rechnen ist, zumindest wenn er akzeptiert, dass unwahrscheinliche Ereignisse eben auch selten auftreten. Dennoch - oder vielleicht gerade deswegen - muss an dieser Stelle deutlich darauf hingewiesen werden, dass auch bei dem Ergebnis von nur drei schlechten Teilen in der Stichprobe die Extremfälle (a) genau 3 schlechte Teile in der Gesamtpartie und (b) genau 147 gute Teile in der Gesamtpartie nicht ausgeschlossen werden können. Sie sind theoretisch möglich, aber eben sehr unwahrscheinlich. Fassen wir die Vorgehensweise zur Analyse des Stichprobenergebnisses kurz zusammen: 1. Die Gesamtheit der Stichproben wurde in einer Menge Ω zusammengefasst. 2. Jeder Einzelstichprobe ω £ Ω (einem „Elementarereignis") wird als Wahrscheinlichkeit 5 1 c 5
r
_ r
1 ^
zugewiesen. Mit # wird „Anzahl der Elemente in" abgekürzt.
1 Einführende Beispiele
5
3. Einer Teilmenge Α von Stichproben (einem - zusammengesetzten - „Ereignis"), hier die Teilmenge aller Stichproben mit genau 3 schlechten Teilen (das Ereignis, genau 3 schlechte Teile in der Stichprobe vorzufinden), wird als Wahrscheinlichkeit die Summe der Wahrscheinlichkeiten ihrer Elemente zugewiesen, also Wahrscheinlichkeit von A : # A • -——.
(2)
Mathematisch formalisiert erhalten wir das abstrakte Wahrscheinlichkeitsmodell, bestehend aus einer nichtleeren Menge („Grundgesamtheit") Ω und einer Zuordnung, die jeder Teilmenge von Ω eine Zahl zwischen 0 und 1 zuordnet, d.h. eine Abbildung Ρ : Ρ(Ω) [0,1] mit P(A) =
(3)
•ρ(Ω) bezeichne dabei die Potenzmenge von Ω, d.h. die Menge aller Teilmengen von Ω. Ρ steht für das englische Wort für Wahrscheinlichkeit (probability).
1.2
Beispiel („Telefonverbindung")
In der Hauptgesprächszeit versuchen wir, eine Telefonverbindung nach einem schlecht zu erreichenden Land herzustellen. Aus Erfahrung wissen wir, dass nur in einem Drittel aller Wählversuche eine Verbindung zustande kommt. Wenn wir also häufiger eine Verbindung benötigen, werden wir feststellen, dass wir
• zu einem Drittel direkt eine Verbindung erhalten, • bei den verbleibenden zwei Drittel zu einem Drittel beim zweiten Versuch. also in | · | aller Fälle, • bei den verbleibenden vier Neunteln (§ + 5 · § = §) wiederum zu einem Drittel beim dritten Versuch, also in | · ( | ) 2 aller Fälle • etc.
Wir können also bei sehr vielen Gesprächsabsichten erwarten, dass die relative Häufigkeit der Wählversuche wie in der folgenden Tabelle verteilt ist:
6
Einführung in die Wahrscheinlichkeitstheorie
rel. Häufigkeit (hypothetisch 6 )
Anzahl der Wählversuche 1
1 3
2
HD HD2 HD3
3 4
1
k
( 2 \
3 ' \3/
k
-
1
Summieren wir alle relativen Häufigkeiten auf, so erhalten wir '2\k 3
to
1
{ 3 )
1
3
= 1.
1 - i
Der theoretisch mögliche Fall, dass nie eine Verbindung zustande kommt (Anzahl der Wählversuche ist unendlich), hat damit die relative Häufigkeit 0. Betrachten wir die Anzahl der Wählversuche bis zur Verbindung als das relevante Ereignis, so ist die Menge aller möglichen Ereignisse gegeben durch Ω = {1,2,3, ...,οο}. Interpretiert man die relative Häufigkeit auch als Wahrscheinlichkeit, hat die Anzahl k die Wahrscheinlichkeit Pk
'2\k~1 V3/ V3/
3
und die Möglichkeit, keine Verbindung zu erhalten, die Wahrscheinlichkeit Poo = 0. Wie in Beispiel 1.1 kann man für eine Teilmenge Α von Ω dann P{Ä) = Y ^ p k keA
(4)
setzen. Also zum Beispiel für das Ereignis, nach höchstens drei Versuchen eine Verbindung zu erhalten:
fc=1 6
Z^3V3; k=ι
3
3
3
3
13/
27
Die Angabe der relativen Häufigkeiten b e r u h t natürlich auf theoretischen Überlegungen. Bei empirischen Untersuchungen kann schon aus zeitlichen G r ü n d e n die Anzahl der W ä h l versuche nicht beliebig groß werden.
1 Einführende Beispiele
7
Der Unterschied zu Beispiel 1.1 besteht im wesentlichen darin, dass die Grundgesamtheit nicht endlich ist und dass den Einzelereignissen ω ζ Ω keine übereinstimmende Wahrscheinlichkeit zugeordnet wird.
1.3
Beispiel („Häufigkeitsverteilung")
Anhand der Daten der Bar-Code-Kassen eines Drogeriemarktes wurde für die Anzahl der Artikel, die die Kunden am Montag, 10. März 1997 zwischen ΙΟ00 und I I 0 0 Uhr einkauften, folgende Häufigkeitsverteilung festgestellt:
Anzahl Artikel
Häufigkeit der Kunden absolut relativ
1
2
0.0067
2
10
0.0333
3
25
0.0833
4
42
0.1400
5
53
0.1757
6
53
0.1767
7
44
0 1467
8
31
0.1033
9
19
0.0633
10
11
0.0333
11 und mehr
10
0.0333
Σ
300
1
Ein Mitarbeiter beobachtet eine zufällig ausgewählte Person und stellt die Anzahl der von dieser ausgesuchten (und später bezahlten) Artikel fest. Wie groß ist die "Wahrscheinlichkeit", dass die Anzahl k ist (k = 0 . 1 . 2 . . . . ) ? Dieses "Kaufverhalten" eines Kunden beabsichtigt die Firmenleitung bei der Planung der Kassenbelegung einzusetzen. Wählt man als Grundgesamtheit Ω die statistische Masse der Kunden, so ist Ν = 300 und bei gleicher Chance für jeden Kunden, ausgewählt zu werden, hat ein spezieller Kunde die Chance Bezeichnen wir mit A d i e Teilmenge der Kunden, die genau k Artikel gewählt haben, so ist die Chance, gerade einen dieser Kunden zu erhalten, abhängig von der Anzahl h^ = der
Einführung in die Wahrscheinlichkeitstheorie
8
Kunden in der Teilmenge Ak, nämlich hk •
300
Für k = 1 also = 2 = 3 ...; die Wahrscheinlichkeit für k Artikel entspricht also gerade der relativen Häufigkeit. Die vorangegangenen Beispiele mit der Identifizierung von (bei 1.2 hypothetischen) relativen Häufigkeiten und Wahrscheinlichkeiten legt nahe, dieselbe Überlegung auch allgemein durchzuführen. Gehen wir aus von einer statistischen Masse S und einem Merkmal auf dieser statistischen Masse mit den Merkmalsausprägungen 01,02,03,..., deren Anzahl durchaus auch unendlich sein kann. Belassen wir es zunächst einmal bei höchstens abzählbar vielen, wir können sie also, wie angedeutet, durchnumerieren. Die Merkmalsausprägung Ofc wurde mit der relativen Häufigkeit ρ(α^) beobachtet und, wenn die statistische Masse S aus Ν Elementen besteht, so ist die absolute Häufigkeit h{ak) =p{ak) • N. Identifizieren wir wie in Beispiel 1.2 und dem Drogeriemarktbeispiel oben relative Häufigkeiten mit Wahrscheinlichkeiten, so ergibt sich folgendes Wahrscheinlichkeitsmodell. Grundgesamtheit ist die Menge Μ = {αι,θ2,..·} der Merkmalsausprägungen. Einer speziellen Merkmalsausprägung o/. wird die Wahrscheinlichkeit (5)
zugeordnet. Einer Teilmenge Α von Μ wird analog zu oben die Wahrscheinlichkeit (6)
akEA zugewiesen. Wegen dieser Summenbildung ist es erforderlich, sich auf höchstens abzählbar viele Merkmalsausprägungen zu beschränken. Konvergenzprobleme treten nicht auf, da die statistische Masse S endlich ist, und damit in dieser Summe nur endlich viele Summanden von 0 verschieden sind. Auch auf andere Weise kommen wir zu diesem Modell. Betrachten wir die Situation, dass wir zufällig eine statistische Einheit aus S herausgreifen. Dazu haben wir Ν verschiedene Möglichkeiten und analog zu Beispiel 1.1 bilden wir das Wahrscheinlichkeitsmodell mit • der Grundgesamtheit Ω = S,
1 Einführende Beispiele
9
• der Abbildung P : r m - + [ 0 , 1 ] mit P ( A ) =
=
Interessieren wir uns nun dafür, welche Merkmalsausprägung wir bei dieser zufällig herausgegriffenen Einheit feststellen, so erhalten wir für eine Merkmalsausprägung dfc genau h(ak) verschiedene statistische Einheiten mit der Merkmalsausprägung akMit Ak = {u) € Ω|ω trägt Merkmalsausprägung ak} ist P(Ak)
= ^
= jrh(ak)=p(ak).
(7)
Die Wahrscheinlichkeit, die Merkmalsausprägung ak bei dieser zufälligen Entnahme zu beobachten, entspricht damit hier genau dem Wert der Wahrscheinlichkeit der Merkmalsausprägung ak im ersten Modell, also der relativen Häufigkeit der Merkmalsausprägung ak.
1.4
Beispiel („Häufigkeitsverteilung eines stetigen Merkmals")
Bei einem stetigen Merkmal ist die Menge der Merkmalsausprägungen nicht mehr abzählbar. Da die statistische Masse aber endlich ist, können wir Merkmalsausprägungen, die nicht aufgetreten sind, bei der Betrachtung zunächst unbeachtet lassen. Sei Μ = {ai,...,Ofc} die Menge der beobachteten Merkmalsausprägungen mit den relativen Häufigkeiten p(a\), ...,p(ak). Wir verwenden d a n n die Grundgesamtheit Ω = R und für A C R setzen wir P{A) = Σ akeA
p{ak).
Schwieriger wird es, wenn wir die Häufigkeitsverteilung nur noch klassiert vorliegen haben, ζ. B. in Form der Summenhäufigkeitsfunktion 7 S F : R —> [0,1]. SF ist eine Näherung der empirischen Verteilungsfunktion und damit SF(a) ein Näherungswert für die relative Häufigkeit des Auftretens von Merkmalsausprägungen mit Höchstwert a . Als Grundgesamtheit bietet sich Ω = R wie oben an. Problematisch wird jetzt die Definition der Abbildung Ρ für beliebige Teilmengen reeller Zahlen. F ü r halboffene Intervalle (—oo, α] liefert die Summenhäufigkeitsfunktion SF mit SF(a) einen Näherungswert für die relative Häufigkeit und damit die 7
S. z.B. „Deskriptive Statistik" (2004), S. 58 ff.
Einführung in die Wahrscheinlichkeitstheorie
10
Wahrscheinlichkeit: p((-oo,a])
=SF(a).
(8)
Analog zu Beispiel 1.3 kann jetzt P((—oo,a\) = SF(a) interpretiert werden als Wahrscheinlichkeit dafür, bei der zufälligen Entnahme von einer Einheit aus der statistischen Masse einen Merkmalswert von höchstens α zu beobachten; allerdings gilt diese Interpretation nur näherungsweise, da die Summenhäufigkeitsfunktion nur eine Näherung des wahren Sachverhaltes, z.B. ausgedrückt durch die empirische Verteilungsfunktion, ist.
1.4.1
Zahlenbeispiel
Eine Produktionsanlage stelle zylindrische Bauteile mit einem Solldurchmesser von 100.0 mm her. Dieser Solldurchmesser ist mit einer Toleranz von 0.5 mm einzuhalten. Um die Präzision der Anlage kennenzulernen wird eine Probeserie von 1000 Stück erstellt und durchgemessen. Dabei wurde für jedes Teil der Durchmesser festgehalten, der die grösste Abweichung vom Sollwert aufwies. War also bei einem Teil der maximal gemessene Durchmesser 100.15 und der minimale 99.70 mm, so wurde 99.70 notiert. Bei dem Toleranzbereich von 99.50 bis 100.50 mm ist das Teil also der Spezifikation entsprechend, wenn der notierte Wert in diesen Bereich fällt. Die Messgenauigkeit betrug 0.05 mm. Die Messung erfolgte so, dass letztlich die Häufigkeitsverteilung für folgende Klassen vorlag: über 99.10 bis einschließlich 99.15 über 99.15 bis einschließlich 99.20 usw. Die Ergebnisse sind in der Häufigkeitstabelle 1.1 und in Abbildung 1.1 dargestellt. Aus der Häufigkeitstabelle wird ersichtlich, dass bei den 1000 produzierten Teilen ein Anteil von 1.5 % vorliegt, der die geforderte Genauigkeit beim Durchmesser nicht aufweist, wenn wir davon absehen, dass ein Teil mit einem Messwert von 99.50 dabei als nicht korrekt interpretiert wird. Es sind nämlich 9 Teile mit einem zu geringen Durchmesser und 6 Teile, deren Durchmesser zu groß ist. Betrachtet man die Summenhäufigkeitsfunktion SF, so gibt der Funktionswert SF(x) zum Argument χ an, wie groß der Anteil der produzierten Einheiten ist, deren Durchmesser 8 den Wert χ nicht überschreitet.
Nach der oben angegebenen Vorschrift.
1 Einführende Beispiele
Durchmesser über bis einschließlich 99.10 99.15 99.15 99.20 99.20 99.25 99.25 99.30 99.35 99.30 99.35 99.40 99.40 99.45 99.45 99.50 99.50 99.55 99.55 99.60 99.60 99.65 99.65 99.70 99.70 99.75 99.75 99.80 99.80 99.85 99.85 99.90 99.95 99.90 99.95 100.00
11
absolute Häufigkeit 1 0 0 1 0 1 2 4 5 10 17 25 41 55 68 80 94 97
Durchmesser über bis einschließlich 100.00 100.05 100.05 100.10 100.10 100.15 100.15 100.20 100.20 100.25 100.25 100.30 100.30 100.35 100.35 100.40 100.40 100.45 100.45 100.50 100.55 100.50 100.55 100.60 100.60 100.65 100.65 100.70 100.70 100.75 100.75 100.80 100.80 100.85 100.85 100.90
absolute Häufigkeit 101 94 82 66 54 41 23 15 9 8 4 1 0 0 0 1 0 0
Tabelle 1.1: Häufigkeitstabelle der Durchmesser
Abbildung 1.1: Histogramm zur Häufigkeitstabelle 1.1
Als Nutznießer der Produktionsanlage gehen wir davon aus, dass die .,Erfahrung" aus 1000 produzierten Einheiten ausreichend ist und die Überlegung gerechtfertigt ist, dass jede weitere produzierte Einheit zumindest näherungsweise dieselbe Eigenschaft hat wie ein zufällig aus den bisher produzierten herausgegriffenes Exemplar. Dies bedeutet, dass relative Häufigkeiten Wahrscheinlichkeiten entsprechen wie in 1.3. Zu einer reellen Zahl α gibt SF(a)
Einführung in die Wahrscheinlichkeitstheorie
12
Abbildung 1.2: Summenhäufigkeitsfunktion zur Häufigkeitstabelle 1.1
wie schon erwähnt die relative Häufigkeit der Einheiten mit einem Merkmalswert von höchstens a an 9 . SF(a) ist also auch die Wahrscheinlichkeit, bei einem zufällig aus den 1000 herausgegriffenen Exemplar einen Durchmesser von höchstens α zu messen. Dem Bereich von — oo bis α ist damit die Wahrscheinlichkeit SF(a) zugeordnet:
P((—oo, α]) = SF(ot). Sicherlich wird uns aber auch für andere Teilmengen der reellen Zahlen interessieren, wie groß die Wahrscheinlichkeit ist, einen Messwert in dieser Teilmenge zu erhalten. Beispielsweise ist es für den Erfolg der Unternehmung wesentlich zu wissen, wie groß die Wahrscheinlichkeit ist, ein Teil zu produzieren, dessen Durchmesser außerhalb des Toleranzbereiches liegt. Bei einem Sollwert von 100.0 mm und zulässiger Abweichung von ± 0 . 5 mm ist dies der Bereich von —oo bis unter 99.50 und von über 100.50 bis oo, also ( - o o , 9 9 . 5 0 ) U (100.50, oo). Diese Wahrscheinlichkeit ist aus der Summenhäufigkeitsfunktion nicht direkt ablesbar. Die Frage lautet also: Wie kann für eine Teilmenge Α der reellen Zahlen die Wahrscheinlichkeit dafür festgelegt werden, dass bei einer zufälligen Entnahme der Merkmalswert in A liegt? Dazu können wir die Eigenschaften heranziehen, die eine Festlegung von Wahrscheinlichkeiten sinnvollerweise haben sollte. 9
Wie wir aus der deskriptiven Statistik wissen, gilt dies nur näherungsweise, da die Summenhäufigkeitsfunktion eine Näherung der empirischen Verteilungsfunktion ist.
13
1 Einführende Beispiele
Als erstes haben wir die Gesamtwahrscheinlichkeit willkürlich mit 1 festgelegt („normiert"). Daraus ergibt sich, dass dem Komplement einer Teilmenge (dem Rest) die Differenz zu 1 als Wahrscheinlichkeit zugeordnet wird. Für das Komplement von (—oo, α] in den reellen Zahlen - (α, +oc) - hilft damit folgende Überlegung weiter: Beide Intervalle zusammen ergeben die Menge aller reellen Zahlen: ( - 0 0 , q] U (α,+οο) = R ,
(9)
und sie haben auch keine Elemente gemeinsam: ( - o o , α] Π ( α , + o c ) = 0.
(10)
Da die relative Häufigkeit insgesamt 1 ist. bleibt damit für (α, +oc·) nur der Rest 1 SF{a):
p((q,+OO))
= 1 - SF(a).
(11)
In unserem Beispiel ist 0.994 die Wahrscheinlichkeit dafür, ein Teil mit einem Durchmesser < 100.50 zu produzieren bzw. aus den 1000 produzierten zufällig auszuwählen. Demnach ist 1 — 0.994 = 0.006 die Wahrscheinlichkeit, ein Exemplar mit einem Durchmesser > 100.50 zu erhalten. Als zweites sollte sich die Wahrscheinlichkeit, die wir einer Teilmenge zuordnen. wenn wir einen Teilbereich aus der Teilmenge entfernen, gerade um die Wahrscheinlichkeit dieses Teilbereichs verringern: Die Wahrscheinlichkeit, ein Teil mit einem Durchmesser < 99.50 zu produzieren, ist in unserem Beispiel 0.009. Die Wahrscheinlichkeit für einen Messwert < 100.50 ist 0.994. Damit wird die Wahrscheinlichkeit, eine Einheit mit einem Messwert > 99.50 und < 100.50 zu bekommen gerade 0.994 - 0.009 = 0.985. Auf diese Weise haben wir die Wahrscheinlichkeit für einen Messwert im Toleranzbereich gefunden, wenn wir davon absehen, dass der Wert 99.50 auch noch zulässig ist: P((99.50,100.50]) = 0.985 Oder allgemein: Es ist ( a , ß ] = (—oo,/?] \ (—οο,α]; so dass sich P((a,ß})
=
P((-oo,/3]\(-oo.q])
Einführung in die Wahrscheinlichkeitstheorie
14
=
p((-oo,/?))-p((-oo,a])
=
SF(ß) - SF(a)
(12)
in natürlicher Weise ergibt. Außerdem ist Wahrscheinlichkeit additiv, d.h. wenn wir verschiedene Möglichkeiten zusammenfassen, so addieren sich die Wahrscheinlichkeiten: Seien also Α und Β disjunkte Teilmengen, so ist die Wahrscheinlichkeit der Zusammenfassung Ali Β gerade die Summe der Wahrscheinlichkeiten von A und Β, d.h. AHB = P(AU B) = P(A)+P(B). (13) Entsprechend dieser Regel ist die Wahrscheinlichkeit für einen Wert im Toleranzbereich P([99.50,100.50]) = P({99.50}) + P((99.50,100.50]). Wie groß ist also P({99.50}), d.h. die Wahrscheinlichkeit für eine Produkteinheit mit einem Durchmesser von genau 99.50? Diese Frage ist schwieriger zu beantworten. Zu diesem Zweck verallgemeinern wir die Regel (13) auf ein unendliches aber abzählbares System von Teilmengen (Ai),i = 1,2,3,..., bei dem sich keine zwei Teilmengen überschneiden, d.h. die Teilmengen paarweise disjunkt sind: Ai Π J4J = 0 für i φ j. Dann wird analog oo i= 1
oo i=l
(Da man sinnvollerweise Monotonie im Sinne von Ad Β=> P(A) < P(B)
(15)
hat, ergeben sich auch keine Konvergenzprobleme, denn Ρ(Ω) = 1 ist dann eine obere Schranke.) Ein offenes Intervall lässt sich als Vereinigung einer Folge von halboffenen Intervallen darstellen , wie wir am Beispiel des Intervalls (0,1) sehen: Setzt man A1 = (0, ±],A2 = i = 1, 2,3,..., so ist
f],
= (§, f] usw., also Ai = ( ^ - ,
OO 1 1 9 L U < = ( 0 , 2 ] U ( - , - ] U . . . = (0,l) i=1
für
(16)
15
1 Einführende Beispiele
da jede Zahl zwischen 0 und 1 von einer der Teilmengen überdeckt wird. Die Zahl 1 gehört aber keiner der Teilmengen an. Damit kann man P((0,1)) berechnen: k P((0,1)) = Σ P(Ai) = lim Σ P(Ai)· k—*oc ' i=1 t= l Da P{Ai) = P ( ( ^ ,
=
i= 1
(17)
- S F ( ^ ) ist, gilt
i=l
X
V
und Jim Σ ρ ( Α Ϊ ) = hm ^
( ^ y )
- SF(0) = SF(1) - SF(0).
(19)
wegen der Stetigkeit von SF. Analog gilt dann auch P((a,ß))=SF(ß)-SF(a).
(20)
In dieser Weise ist Ρ für beliebige offene Intervalle erklärt, und mit der Komplementbildung erhalten wir auch eine Definition für beliebige abgeschlossene Intervalle: p(k/3])
Bemerkenswerterweise
=
1-p((-oc,q)U(/3,+oc))
=
1 - ( p ( ( - o o , a ) ) + p((/?.+oc)))
=
1 - (SF(a)
=
SF(ß)
ergibt
sich
SF(/3))
- SF(a).
P((a, ß]) = SF(ß) und
+ 1-
- SF(a)
(21)
= P([a. ß\)
(22)
damit P({a})
= = =
P([a,ß}\(a,ß}) P(\a,ß})-P((a,ß}) 0.
(23)
Einführung in die Wahrscheinlichkeitstheorie
16
Die Wahrscheinlichkeit für einelementige Teilmengen ist also 0. Wegen (14) ist dann aber für alle abzählbaren Teilmengen A P(A) = 0,
(24)
also z.B. auch für die Menge der rationalen Zahlen. Die Wahrscheinlichkeit, ein Teil mit einem Durchmesser von exakt 99.50 zu erhalten, ist demnach 0, 0.985 die Wahrscheinlichkeit für einen Durchmesser im Toleranzbereich und 1 - 0.985 = 0.015 die Wahrscheinlichkeit für einen Wert außerhalb des Toleranzbereichs. Die Wahrscheinlichkeit für zwei, drei und mehr Einzel werte ist dann ebenfalls 0, solange nicht mehr als abzählbar viele Einzelwerte zusammengefasst werden. M a n beachte: D i e s e Tatsache ist einer der Gründe dafür, dass es nicht genügt, Wahrscheinlichkeiten für die E l e m e n t e der Grundgesamtheit anzugeben. I m R a h m e n dieses Beispiels (und auch für die bei A n w e n d u n g e n wichtige Klasse der s t e t i g e n Verteilungen, s. § 5) erhält m a n als Wahrscheinlichkeit für einzelne E l e m e n t e 0, und erst, w e n n mehr als abzählbar viele E l e m e n t e zusammengefasst werden, kann sich eine positive Wahrscheinlichkeit ergeben. Es ist also gewissermaßen eine „kritische Masse" erforderlich. Durch die angewandten Methoden lässt sich die Menge der Teilmengen, für die Ρ erklärt ist, immer weiter vergrößern. Man kann aber Teilmengen konstruieren, für die es so nicht möglich ist, eine Wahrscheinlichkeit sinnvoll zu erklären. Diese Teilmengen sind kompliziert und erfordern mathematische Kenntnisse, die über diese Einführung hinausgehen (vgl. z.B. Bauer (1992), S.52). Ist die Grundgesamtheit die Menge R der reellen Zahlen (und so dann auch beim R n ) , so ist es - wie im Beispiel dargelegt - nicht immer möglich, Ρ für die gesamte Potenzmenge in sinnvoller Weise zu definieren. Man muss sich also auf ein Mengensystem in der Potenzmenge beschränken. Dieses Mengensystem hat die folgenden Eigenschaften: 1. Ω und 0 gehören zu dem Mengensystem. 2. Zu jeder Teilmenge Α gehört auch das Komplement dazu. 3. Zu jeder abzählbaren Folge Ai,i = 1,2,3,... von paarweise disjunkten oo Teilmengen Ai gehört auch die Vereinigung |J Ai dieser Teilmengen 1= 1
zum Mengensystem. „Kern" dieses Mengensystems sind die Halbgeraden (—οο,α],α G R.
1 Einführende Beispiele
17
Dieses Beispiel kann man auch verallgemeinern, indem man an Stelle der Summenhäufigkeitsfunktion SF eine beliebige stetige Funktion F wählt, die monoton steigt mit lim F(a) = 0 und lim F(a) = 1. α—» — oc et—* + oc Zusammenfassung von § 1: Gemeinsam an den Wahrscheinlichkeitsmodellen der vier aufgeführten Beispiele ist: • eine nichtleere Menge als Grundgesamtheit, • ein Mengensystem von Teilmengen der Grundgesamtheit, mit denen die zufälligen Ereignisse erfasst werden. • eine Abbildung P , die jedem Ereignis, also jeder Teilmenge des Mengensystems eine Wahrscheinlichkeit zuordnet, das „Wahrscheinlichkeitsmaß". Mengensystem und Wahrscheinlichkeitsmaß müssen natürlich gewisse Eigenschaften erfüllen, damit eine in sich stimmige Interpretation als Wahrscheinlichkeitsmodell gegeben ist. Mit diesen Eigenschaften beschäftigen wir uns im nächsten Paragraphen detaillierter. Die Beispiele zeigen, wie wir für einen Zufallsvorgang ein mathematisches Modell erhalten, mit dessen Hilfe Berechnungen möglich werden. Die einzelnen Schritte sind dabei entsprechend den aufgeführten Punkten: 1. Die Festlegung der Grundgesamtheit als Zusammenfassung aller Einzelabläufe bzw. Einzelergebnisse ("Elementarereignisse") bei dem Zufallsvorgang. 2. Die Erfassung der in Frage kommenden zusammengesetzten Ereignise. Ein zusammengesetztes Ereignis ist dabei eine Auswahl von Elementarereignissen, also eine Teilmenge der Grundgesamtheit. 3. Die Ermittlung der Wahrscheinlichkeit für jedes zusammengesetzte Ereignis.
1.5
Beispiel: Werfen eines Würfels
1. Das Ergebnis bei dem Wurf mit einem Würfel ist die Augenzahl der nach oben zeigenden Seite. Die Menge der Elementarereignisse ist also die Menge der Zahlen von 1 bis 6: {1,2,3,4,5,6}.
18
Einführung in die Wahrscheinlichkeitstheorie
2. Zusammengestzte Ereignisse sind die Teilmengen der Zahlen von 1 bis 6. Beispiel für ein Ereignis ist etwa: "Augenzahl geradzahlig" = {2,4,6} oder "Augenzahl größer 3" = {4,5,6} Jede Teilmenge kann von Interesse sein, so dass das Mengensystem der Ereignisse aus allen Teilmengen besteht. 3. Bei einem korrekten Würfel ist die Wahrscheinlichkeit für jede der Augenzahlen übereinstimmend und damit g. Für ein zusammengesetztes Ereignis ergibt sich die Wahrscheinlichkeit aus der Multiplikation der Anzahl der enthaltenen Elementarereignisse mit der Wahrscheinlichkeit g eines Elementarereignisses z.B. Wahrscheinlichkeit für "Augenzahl geradzahlig" = 3 |
=
2
Das wahrscheinlichkeitstheoretische
Grundmo-
dell: Der Wahrscheinlichkeitsraum
Nach den Überlegungen von § 1 besteht ein wahrscheinlichkeitstheoretisches Modell aus drei Komponenten: • Grundgesamtheit, • Mengensystem der „Ereignisse". • Wahrscheinlichkeitsmaß Ρ mit gewissen Eigenschaften. Sei Ω die Grundgesamtheit. Von Ω verlangen wir nur. dass sie nichtleer ist, also mindestens ein Element enthält. Das Mengensystem der „Ereignisse" ist ein System von Teilmengen der Grundgesamtheit Ω, ist also selbst eine Teilmenge ν4(Ω) von der Potenzmenge "Ρ(Ω) von Ω. In Beispiel 1.4 ist dieses Mengensystem verschieden von der Potenzmenge, d.h. eine echte Teilmenge der Potenzmenge. Vom Mengensystem ^4(Ω) verlangen wir die drei Eigenschaften 1.-3. von Seite 16. Wir sprechen dann von einer σ-Algebra l .
2.1
Definition
Sei Ω ψ 0. Eine Teilmenge ^4(Ω) der Potenzmenge ·Ρ(Ω) heißt σ-Algebra. wenn sie folgende Eigenschaften erfüllt: 1. Ω 6 Α(Ω), 2. Α e Α(Ω) = > Ω\ Λ e Λ(Ω), 3. Ai e Λ(Ω) für 2 = 1,2,3,... = > 1
CC |J Ατ e Λ(Ω). i=l
Für das weitere Verständnis der Wahrscheinlichkeitstheorie ist es „im ersten Anlauf" nicht unbedingt erforderlich, dass man alle Details der Eigenschaften einer σ-Algebra verstanden hat. Wesentlich ist zunächst, dass man sich darüber klar wird, dass Wahrscheinlichkeiten für Teilmengen der Grundgesamtheit erklärt sind (vgl. die Bemerkungen im Beispiel 1.4 auf Seite 9).
Einführung in die Wahrscheinlichkeitstheorie
20
Die dritte Eigenschaft heißt auch σ-Vollständigkeit,
sie besagt, dass das Men-
gensystem abgeschlossen ist gegenüber abzählbaren Vereinigungen. Aus diesen drei Eigenschaften ergeben sich eine Fülle weiterer, von denen wir einige wichtige in dem folgenden Hilfssatz zusammenstellen:
2.2
Hilfssatz
Sei Λ ( Ω ) C V(ß)
eine
σ-Algebra.
Dann gilt:
1. 0 G
Α(Ω) OO
2. Ai G Α(Ω)
für i = 1,2,3,...
f | Ai
e
Α(Ω)
i= 1
3. A,B
e Α(Ω)
=>
Α(Ω)
B\Ae
4. Bi e ,Α(Ω) für i = 1,2,3,..., dann existieren At
e Α(Ω), i =
1,2,3,...
mit Ai Π Aj = 0 für i ψ j und
UB
i
i=l
(1)
= \jAi i= 1
Beweis: 1. Nach Eigenschaft 1 ist Ω € ^4(Ω). Dann ist nach Eigenschaft 2 das Komplement von Ω in Α ( Ω ) 0 = Ω \ Ω £ Α(Ω).
(2)
2. Nach den Regeln der Mengenlehre gilt ADB oder allgemeiner
(3)
= Ω\((Ω\Α)υ(Ω\Β))
oo
Π ^ i=1
oo
= Ω \ υ ( Ω \ ^ ) . i—1
(4) oo
Nach Eigenschaft 2 ist Ω \ At Λ(Ω)
€ -Α(Ω) für alle i, damit
nach 3 und damit P| A i € ^4(Ω) wiederum nach 2. i—l
(J (Ω \ A i ) R eine Funktion. X ist genau dann Zufalls variable, wenn ^ ( ( - o o . a ] ) G Α{Ω)
für alle α G R
(9)
gilt. Ziel der Überlegungen war es, Teilmengen des Bildbereiches von X eine Wahrscheinlichkeit zuzuordnen. Dies ist jetzt ohne Schwierigkeiten möglich. Sei nämlich X : (Ω, .Α(Ω), .Ρ)—> R eine Zufallsvariable. Für eine Boreische Menge Ü C R ist dann
(10) und damit durch Ρ eine Wahrscheinlichkeit zugeordnet: P(X~1(R))
Wahrscheinlichkeit
des Urbildes von R bei X.
W i r setzen jetzt (11)
Px(R)=P{X~\R)) und erhalten so ein Wahrscheinlichkeitsmaß Ρχ 1. Px(R)=P(X~1(R))>
auf ( R . C), denn
0.
2. Seien Riti = 1 , 2 , 3 , . . . Boreische Mengen mit Ri Π R3 = 0 für i ^ Dann gilt X~1(Rl) G A(Q) für alle i und X~1{Rl)nX-1(RJ)
Ferner ist χ-χ(
( j Ri) i=l
PxOjRi) i=l
=
{LÜ\X(U)) G Ri} Π {ii)|X(a·') G Rj}
=
{ω\Χ(ω)
=
0 für i φ j.
= U X~l{Ri) i-1
=
P(X-i(UR i~\ DC
=
J2P(X-\R1)) i= 1
j.
ξι Ri Π Rj} (12)
und damit
t
)) =
P({Jx-i(Rl)) i=l DC
= Y/Px(R1).
(13)
i=ι
3. P x ( R ) = P ( X - 1 ( R ) ) = P ( n ) = l. Px hat also, wie behauptet, die Eigenschaften eines Wahrscheinlichkeitsmaßes auf ( R . £ ) . Es gilt:
Einführung in die Wahrscheinlichkeitstheorie
40 3.5
Satz
Sei X : (Ω,Λ(Ω),Ρ) -> R eine Zufallsvariable. Dann ist Ρ χ : £ [0,1] mit PX(R) = für R e L ein Wahrscheinlichkeitsmaß auf (R, £ ) , (R, C, Ρχ) ein Wahrscheinlichkeitsraum. Ρχ heißt Wahrscheinlichkeitsverteilung der Zufallsvariablen X.
3.6
Beispiele
1. In der Kontrollsituation des Beispiels 1.1 haben wir den Laplaceschen Wahrscheinlichkeitsraum der verschiedenen Stichproben vom Umfang 150. Interessiert hat uns aber die Wahrscheinlichkeit für eine bestimmte Anzahl schlechter Teile in der Stichprobe. Setzen wir Χ{ω) =
Anzahl schlechter Teile in der Stichprobe ω.
Dann ist X : (Ω, V(ü), P) { 0 , 1 , 2 , . . . , 150} C R eine Zufallsvariable, da A{il) = Ρ(Ω) ist, Messbarkeit also trivialerweise vorliegt. Sei k e {0,1,2, ...,150}, so ist
Px({k})
=
P(X~1m))
=
Ρ{{ω\ω hat genau k schlechte Elemente})
= P({w\X(U)
= k})
hat genau k schlechte Elemente} #Ω _—
(M\ /10000-M\ IfcJl 150 —fc ) /10000Λ ' V 150 )
/14\ V )
wie wir schon dort berechnet haben. Unsere Konstruktion ist also widerspruchsfrei. Sei nun R € £ , dann ist es - X nimmt ja nur Werte in { 0 , . . . , 150} an - nur wesentlich, welche k in R liegen: 150 k= 0 keR Es gilt also:
150 Px(R) = J 2 P x m ) k = 0
keR
(16)
41
3 Zufallsvariablen
Interessiert man sich beispielsweise für die Wahrscheinlichkeit höchstens 3 schlechte Einheiten in der Stichprobe vorzufinden, so setzt man R = {0,1,2,3} und erhält 3 (M\ f110000-Μ \ ( " K 1 5 0 —fc ! P*(Ä) = £ P x ( { f c } ) = E / 1 0 0 0 0 \ V 150 ) k=0 k=0
(17)
2. Bei der Untersuchung einer Abfüllanlage erhielt man die Summenhäufigkeitsfunktion aus Abbildung 3.1:
Abilldung 3.1: Summenhäufigkeitsfunktion zu Beispiel 3.6 2. Dabei ist α das Sollgewicht. Die formale Darstellung ist also 0 SF(x)
^(x — a + d) 1
χ < a—d a—d < χ < a+ d
(18)
a+ d < χ
Damit erhält man analog zum Beispiel 1.4 den Wahrscheinlichkeitsraum (R, P ) mit P((-oo,a]) = SF(a). (19) Bei einem Untergewicht entsteht dem Unternehmen durch Strafen und Imageverlust ein Schaden, der um so höher ist, je größer das Untergewicht ist. Der Schadensverlauf wird durch folgende Funktion wiedergegeben:
Einführung in die Wahrscheinlichkeitstheorie
42
(χ — α)2 χ < a V(x) =
(20)
χ> a
0
Der Abfüller möchte nun wissen, mit welchen Verlusten er rechnen muss. Dazu betrachten wir die Funktion V : R —> R. Für a G R ist
^((-οο,α]) =
5
a < 0
α, oo)
a = 0
[α — y/ä, oo)
a > 0
also in allen drei Fällen eine Boreische Menge: V : (R, C, eine Zufallsvariable. Für a > 0 erhält man iV((-oo,a])
(21)
Ρ)
R ist
=
P(V-\(-oo,a})
=
P([a — \fä, oo))
=
1 — P((—oo, α — \fä))
=
1 - SF(a - yfa)
_ ~
( 1 — ^ (a — \Jol — a + d) falls y/ä < d \ 1 falls d < yfä
(22)
Für α < 0 gilt P v ((-oo,Q]) = Ρ ί ν - ^ ί - ο ο , α ] ) ) = P(0) = 0,
(23)
und für α = 0 iV((-oo,0])
=
P(V-1((-oo,0]))=P([a,))
=
1 — P((—oo, α]) = 1 — SF(a)
-
>-ϊ-5·
(24)
Das heißt: Mit Wahrscheinlichkeit | hat der Abfüller keinen Schaden zu erwarten, mit Wahrscheinlichkeit ι
1
2d
Μ
/Z\
=
2d,
=
1 2
VS ~2d
einen Schaden von höchstens α für 0 < a < d2 und mit Wahrscheinlichkeit 1 einen Schaden von höchstens d2. Zieht man bei diesen Werten die Wahrscheinlichkeit ab, keinen Schaden - genauer einen Schaden der Höhe 0 - zu haben, so erhält man
43
3 Zufallsvariablen
£
0 oo die Binomialverteilung. Falls Ν groß gegenüber η ist, kann man also die Binomialverteilung als Näherung für die hypergeometrische Verteilung verwenden. Als Richtwert für die Beziehung zwischen η und Ν gilt: τι < 0.05 · Ν, bzw. wenn keine große Genauigkeit verlangt wird oder die Näherung ohnedies überprüft wird: η < 0.1 · TV. Werte der Binomialverteilung findet man in vielen Tabellenwerken (z.B. Owen (1962)) oder mit Hilfe von Software. Bei der Berechnung mit einem Taschenrecher ist wie bei der hypergeometrischen Verteilung für großes η auf die Genauigkeit zu achten. Bei Excel erhält man Wahrscheinlichkeitswerte mit der Funktion BINVERT. Entsprechend Formel (11) ist η mit Anzahl der Versuche, m mit Anzahl der Erfolge und ρ mit Erfolgswahrscheinlichkeit bezeichnet. Wird im Feld kumuliert falsch (bzw. 0) eingegeben, erfolgt die Berechnung von Einzelwerten entsprechend (11), bei Eingabe von wahr (bzw. 1) erfolgt die Berechnung der Verteilungsfunktion an der Stelle m. Vorteile der Binomialverteilung:
• Ν geht in die Verteilung nicht ein. • Die Berechnung von Potenzen ist wesentlich einfacher als von Binomialkoeffizienten oder Fakultäten. • Die Werte sind für alle ρ € [0,1] und nicht nur für Brüche jf definiert.
Einführung in die Wahrscheinlichkeitstheorie
54
4.
Poissonverteilung
Eine weitere Vereinfachung erhält man aus der Binomialverteilung, wenn η sehr groß und ρ sehr klein wird. Poisson 4 betrachtete 1837 den Grenzübergang η —> oo, ρ —> 0 mit np = λ als feste Größe. Setzen wir in die Binomialverteilung pn = ^ ein, so erhalten wir für η —> oo:
lim ( n ) p ™ ( l - p n ) n - m n—>oo \ m J =
=
A™ A n m n ( n - l ) . . . ( n - m + l ) n^oo nm ml η \m \ — · e _ A , da lim (1 - - ) " = e" A ist. ml n—>oo η
Eine Zufallsvariable X heißt poissonverteilt verteilt) , wenn
A n (13)
mit Parameter A,
(Po{\)-
\m P{X = m) = — · e~x fürTO= 0 , 1 , 2 , . . . TO gilt. Zahlenbeispiel:
λ = np = 5 · 0.1 = 0.5 TO
0
1
2
3
4
5
P{X = to)
0.607
0.303
0.076
0.013
0.002
10~ 4
Die Poissonverteilung kann nach dieser Grenzwertbetrachtung als Näherung für die Binomialverteilung verwendet werden, wenn η groß und ρ klein ist. Als Kriterium wird häufig η > 50, ρ < 0.1 angegeben. Da ρ klein sein soll, wird die Poissonverteilung auch als „Verteilung der seltenen Ereignisse" bezeichnet. Neben ihrer Bedeutung als Näherung der Binomialverteilung wird die Poissonverteilung auch zur Beschreibung radioaktiver Zerfallsprozesse, als Verteilung für die Anzahl von Fehlern an einer Produkteinheit und in der Warteschlangentheorie 5 für die formale Darstellung der Anzahl in einem bestimmten Zeitintervall angekommener Kunden benutzt. Werte der Poissonverteilung erhalten wir aus Tabellen oder mit Hilfe von Software. Bei Excel gibt es hierzu die Funktion POISSON. Dabei ist m 4 5
Poisson, Simeon Denis, 1781-1840, franz. Mathematiker. Die Warteschlangentheorie beschäftigt sich mit der Analyse von Wartezeit und Länge der Warteschlange bei Systemen, in denen Objekte in — meist unregelmäßigen Abständen eintreffen und auf ihre Bearbeitung je nach der vorliegenden Situation des Systems warten müssen (s. z.B. Bunday, B.D. (1986): Basic Queueing Theory).
4 Diskrete Verteilungen
55
mit X und Λ als Mittelwert bezeichnet. Die Benutzung von kumuliert ist analog wie bei der Funktion BINVERT (s. bei der Binomialverteilung), d.h. bei Eingabe von wahr werden Werte der Verteilungsfunktion berechnet.
Bei den Verteilungen von 1 . - 4 . nimmt die Zufallsvariable nur ganze Zahlen > 0 an. Nur bei 4. ist die Anzahl der Werte unendlich. Analog zur Bezeichnungsweise bei Merkmalen sprechen wir hier von diskreten Zufallsvariablen.
4.1
Definition
Sei X : (Ω, Α(ίϊ),Ρ)
-> R eine Zufallsvariable.
X heißt diskret, wenn es Zahlen a\, ct2, • · · € R gibt mit Χ(ω) G {etil* = 1, 2, 3 , . . . } für alle ω e Ω. Durch eine Transformation kann man die Werte α* in die Zahlen 0 , 1 , 2 . . . . überführen, so dass in der Praxis bei diskreten Zufallsvariablen i.a. die Werte 0 , 1 , 2 . 3 . . . . gewählt werden, wenn die Werte bei den weiteren Berechnungen keine Rolle spielen.
4.2
Folgerung
Ist Ω endlich oder abzählbar unendlich, so ist jede Zufallsvariable X : ( Ω . Λ ( Ω ) , Ρ ) -> R diskret. 4.3
Satz
Sei X : (Ω., Α(Ω), P) —> R eine diskrete Zufallsvariable mit Werten α, und Qi Φ ocj für i φ j 6 . Sei pt := P(X = at) für i = 1 , 2 . 3 , . . . , dann gilt: 1. Pi > 0 für i = 1 , 2 , 3 , . . . OC 2.
= 1.
2=1 6
D.h. kein a i ist doppelt aufgeführt.
Einführung in die Wahrscheinlichkeitstheorie
56
Beweis: 1. folgt unmittelbar aus Eigenschaft 1 eines Wahrscheinlichkeitsmaßes. 2. Wegen Χ(ω) € { α ϊ , a2,a3,...}
ist oo
Χ-Ι({αι,α2,α3,...}) =
(14)
i=l
und damit oo ΣΡίχ-1«*}) i=1
oo =
p(U^_1({«i}) i=l
=
Ρ(Ω)
=
1.
(15)
Umgekehrt gilt aber auch:
4.4
Satz
Seien a i , a 2 , « 3 , . . . € R mit α* φ ctj für i φ j . Sei ferner (pi) eine Folge mit 1. Pi > 0 OO 2-
= 1, 2=1
dann gibt es einen Wahrscheinlichkeitsraum (Ω, A(Q),P) und eine Zufallsvariable X : (Ω, ^4(Ω), Ρ ) —> R mit den Werten αϊ, a 2 , Q 3 , . . . und P(A: = a i ) = P i f ü r t = l , 2 , 3 , . . . .
(16)
Verteilungen diskreter Zufallsvariablen entsprechen also eindeutig Folgen reeller Zahlen mit den Eigenschaften 1 und 2. Der Beweis wird dem Leser als Übungsaufgabe überlassen, ebenso wie die Überprüfung der Eigenschaften 1 und 2 in den Verteilungen 1.-4. Die Verteilungsfunktion einer diskreten Zufallsvariablen mit den Werten c*i, i = 1, 2, 3 , . . . hat damit die typische Gestalt aus Abbildung 4.2. Sie ähnelt damit in ihrem Verlauf einer empirischen Verteilungsfunktion. Die „Höhe einer Treppenstufe" entspricht der Wahrscheinlichkeit, mit der dieser Wert angenommen wird. An den Sprungstellen nimmt die Funktion den höheren Wert an.
57
4 Diskrete Verteilungen
1.0-
•
•
0.5-
—
I «1
1 «2
1 «3
1 «4
1 «5
Abbildung 4.2: Verteilungsfunktion einer diskreten Zufallsvariablen.
Einführung in die Wahrscheinlichkeitstheorie
58
Übungsaufgaben zu § 4 1. Die Anzahl der LKW, die pro Minute an einem Grenzübergang ankommen und abgefertigt werden, ist poissonverteilt mit Parameter Λ = 1. Berechnen Sie die Wahrscheinlichkeit, dass in einer Minute (a) genau ein, (b) mindestens ein, (c) höchstens ein LKW ankommt. 2. In einer Vorlesung befinden sich 100 Studenten. Unter diesen 100 gibt es 10 Studenten, die das Studienfach wechseln wollen. Wie groß ist die Wahrscheinlichkeit dafür, dass von 20 zufällig herausgegriffenen Studenten (a) ein Student, (b) zwei Studenten, (c) drei Studenten wechseln wollen? Uberlegen Sie sich, welche Wahrscheinlichkeit am größten sein dürfte, bevor Sie die Wahrscheinlichkeiten berechnen. 3. Im Wareneingang einer Unternehmung werden Transistoren auf ihre Funktionsfähigkeit hin untersucht. Bei einer Warenpartie von Ν = 100 wird eine Stichprobe vom Umfang η — 10 gezogen. Aus langjähriger Erfahrung weiss man, dass im Mittel 3 % der Transistoren fehlerhaft sind. Die Warenpartie wird abgelehnt, wenn mindestens 1 Transistor in der Stichprobe defekt ist. (a) Berechnen Sie die Wahrscheinlichkeit, dass die Warenpartie abgelehnt wird, wenn die Stichprobe ohne Zurücklegen gezogen wird. (b) Ein Mitarbeiter schlägt vor, die Stichprobe mit Zurücklegen zu ziehen, weil dies den Rechenaufwand vermindere. Berechnen Sie die Wahrscheinlichkeit, die Warenpartie abzulehnen für diesen Fall, und vergleichen Sie das Ergebnis mit (a). (c) Ein weiterer Mitarbeiter schlägt vor, den Umfang der Warenpartie auf Ν = 1000 zu erhöhen. Überprüfen Sie, ob für diese Warenpartie der Unterschied zwischen Ziehen ohne Zurücklegen und mit Zurücklegen ins Gewicht fällt.
5
Stetige Verteilungen
Ein Merkmal wird üblicherweise als stetig bezeichnet, wenn der Bereich der Merkmalsausprägungen die Menge aller reellen Zahlen oder zumindest ein Intervall, d.h. also ein kontinuierlicher Bereich aus diesen, ist. Häufig wird man dann eine Klassierung vornehmen und erhält ein Histogramm und die zugehörige Summenhäufigkeitsfunktion. Bekanntlich können wir die Summenhäufigkeitsfunktion durch Integration über das Histogramm ermitteln. Eine ähnliche Beziehung wie zwischen Histogramm und Summenhäufigkeitsfunktion benutzen wir bei Zufallsvariablen zur Definition von Stetigkeit.
5.1
Definition
Sei X : (Ώ., Α(Ω,), P) R eine Zufallsvariable mit Verteilungsfunktion Fx : R —» [0,1]. X heißt stetig, wenn es eine Funktion f x : R —» R gibt mit α (1) — DC
Die Beziehung zwischen / und F wird durch die Abbildungen 5.1 und 5.2 verdeutlicht. Sie entspricht in ihren wesentlichen P u n k t e n ganz der entsprechenden Abbildung mit Histogramm und Summenhäufigkeitsfunktion. Aus der Integralrechnung wissen wir, dass
a f f ( x ) dx stetig in α ist. Es gilt
damit:
5.2
Folgerung
Die Verteilungsfunktion einer stetigen Zufallsvariablen ist stetig. 1
Damit wird natürlich auch die Integrierbarkeit von f x gefordert.
60
Einführung in die Wahrscheinlichkeitstheorie
Abbildung 5.1: Dichtefunktion
Abbildung 5.2: Zugehörige Verteilungsfunktion
61
5 Stetige Verteilungen
5.3
Bemerkung
An Beispiel 3.6 2. sieht man, dass es Zufallsvariablen gibt, die weder diskret noch stetig sind. In Abbildung 3.2 ist ersichtlich, dass die Verteilungsfunktion eine Unstetigkeitsstelle in 0 hat. Dies liegt daran, dass P(V = 0) > 0 ist. Andererseits hat die Verteilungsfunktion aber nicht den typischen Verlauf wie bei einer diskreten Zufallsvariablen. Es handelt sich hier also um eine Mischform von diskret und stetig. Mischformen von stetigen und diskreten Zufallsvariablen werden wir im folgenden nicht behandeln.
5.4
Folgerung
Sei X eine stetige Zufallsvariable, dann gilt für alle a £ R
P(x
= a) = 0.
(2)
Beweis:
P(X = a )
=
P{X R mit
j ^ i x - a )
α < χ < ψ
( 6 ^ ( b - x )
ψ < χ < 0
, 0
(10)
sonst
Zugehörige Verteilungsfunktion ist:
χ
0
Abbildung 5.9: Dichtefunktion der Standardnormalverteilung
Für μ = 0 und σ2 = 1 erhält man speziell die lung" Ν (0,1) mit der Dichte
5
„Standardnormalvertei-
Gauß, Carl Friedrich, 1777-1855, dt. Mathematiker und Astronom.
Einführung in die Wahrscheinlichkeitstheorie
70
Die Verteilungsfunktion der Standardnormalverteilung wird mit Φ bezeichnet. Wir werden später sehen, dass man den Verlauf der Verteilungsfunktion einer Normalverteilung mit den Parametern μ und σ 2 leicht aus der Verteilungsfunktion Φ ermitteln kann. Die Stadardnormalverteilung ist wohl in allen Tabellenwerken zur Statistik tabelliert (s. auch in „Induktive Statistik" (2003)). Bei Excel gibt es hierzu die Funktion S T A N D N O R M V E R T , wobei das Argument mit Ζ bezeichnet ist. Die Funktion liefert Werte der Verteilungsfunktion. Die Berechnung der Werte zu anderen Parameterwerten kann wie erwähnt mit Hilfe der Standardnormalverteilung erfolgen (s. § 7). Bei Excel gibt es dafür aber auch die Funktion N O R M V E R T , die zum Argument χ und den Parameterwerten Mittelwert (μ) und Standardabwn ( σ ) Werte der Dichtefunktion (kumuliert = falsch(O) bzw. der Verteilungsfunktion (kumuliert = wahr (1)) berechnet.
Daneben gibt es noch eine Vielzahl weiterer Verteilungen. Einige davon sind: F-Verteilung, %2-Verteilung, Student-t-Verteilung, Gamma- bzw. Erlang-Verteilung 6 .
6
Diese sind in der „Induktiven Statistik" (2003) beschrieben. Dort sind auch Tabellen zur Student-t-Verteilung und x 2 -Verteilung wiedergegeben.
5 Stetige Verteilungen
71
Übungsaufgaben zu § 5 1. Die Zufallsvariable X h a b e folgende Dichtefunktion: a ( l — (x + 2) 2 ) ι \ f Ix{X)
_ ~
ι '
α
für
—3 < χ < —1
— x2
(1 ) für — 1 < χ < 1 a ( l — (x — 2) 2 ) für l < x < 3 b sonst
(a) B e s t i m m e n Sie die K o n s t a n t e n α und b. (b) B e s t i m m e n Sie die Verteilungsfunktion der Zufallsvariablen X . 2. Eine etwas modifizierte Form der Exponentialverteilung besitze die Dichtefunktion
mit Ia(x)y
'
—
,„
1
1 0
für
χ > a sonst
(a) Berechnen Sie die Verteilungsfunktion dieser Exponentialverteilung. (b) Machen Sie sich a n h a n d einer Skizze die B e d e u t u n g des zusätzlichen P a r a m e t e r s α klar. 3. B e s t i m m e n Sie die Dichtefunktion einer ,,Trapezverteilung".
Abbildung 5.11: Dichtefunktion einer Trapezverteilung
6
Lage- und Streuungsparameter
Wegen der Analogie zwischen den Häufigkeitsverteilungen von Merkmalen und Wahrscheinlichkeitsverteilungen liegt es nahe, in analoger Weise wie in der deskriptiven Statistik Kenngrößen zur Beschreibung und Charakterisierung von Wahrscheinlichkeitsverteilungen zu bilden. Bei der Berechnung müssen wir - wie dort - zwischen diskreten und stetigen Zufallsvariablen unterscheiden, wobei im zweiten Fall die Dichte als Analogon zum Histogramm benutzt wird. Zur Berechnung von Flächen wird dann die Integralrechnung herangezogen. Auch die Bezeichnungen entsprechen denen der deskriptiven Statistik.
A. Lageparameter
6.1 6.1.1
Modalwert Definition
1. Sei
X
: (Ω, ^4(Ω),
Modalwert
Ρ )
(Modus)
P ( X
=
—> R eine diskrete Zufallsvariable. von X, wenn
xmod)
=
Ρ{{ω
€ Ω
>
Ρ{Χ
=
I Χ (ω)
=
xmod
ε ΓΙ heißt
xmod})
χ)
(1)
für alle χ £ R gilt. 2. Sei X : (Ω, τ1(Ω), Ρ ) —> R eine stetige Zufallsvariable mit Dichte /. Xmod, € R heißt Modalwert von X , wenn f{xmod)
gilt.
=
max
f { x )
(2)
74
Einführung in die Wahrscheinlichkeitstheorie
6.1.2
Bemerkung
Modalwerte sind damit wie in der deskriptiven Statistik nicht notwendig eindeutig bestimmt. Eine Verteilung wird als unimodal 1 bezeichnet, wenn sie nur einen Modalwert besitzt. 6.1.3
Beispiele
1. In den Zahlenbeispielen zur hypergeometrischen, Binomial- und Poissonverteilung aus § 4 ist jeweils m = 0 Modalwert. Bei anderen Konstellationen der Steuergrößen Ν, Μ, η bzw. ρ, η bzw. Λ erhält man andere Modalwerte. Beispielsweise erhält man bei der Binomialverteilung für η = 10 und ρ = 0.5 einen Modalwert von m = 5 und bei der Poissonverteilung für Λ = 10 den Modal wert m = 10. 2. Modalwerte der geometrischen Verteilungen von § 5 sind dort aus den Graphiken der Dichtefunktionen leicht abzulesen. Bei der Exponentialverteilung ist offensichtlich χ = 0 der Modal wert für jede Wahl des Parameters Λ. Bei der Normal Verteilung ist der Parameter μ auch Modalwert.
6.2
Median (Zentralwert)
Auch hier - wie in der deskriptiven Statistik - ist der Grundgedanke, dass die Verteilung durch den Median „halbiert" wird.
6.2.1
Definition
xz heißt Median (Zentralwert) einer Zufallsvariablen X, falls P(X >x*)>\
1
und
ρ
(
χ
< χζ) > \
(3)
gilt. Analog zur Bestimmung des Medians bei einer Häufigkeitsverteilung in der deskriptiven Statistik, besteht die Aufgabe zunächst darin, die Stelle zu finden, in der die Verteilungsfunktion erstmals den Wert 0.5 erreicht oder überschreitet. Der Unterschied besteht danach darin, dass wir für den Fall, dass der Wert 0.5 angenommen wird, auf eine weitere Spezifizierung (im Gegensatz 1
Häufig wird darüber hinaus bei Unimodalität gefordert, dass nur e i n lokales Maximum besteht, was eine stärkere Forderung ist.
6 Lage- und Streuungsparameter
75
zur deskriptiven Statistik) verzichten und jede der Stellen mit Funktionswert 0.5 als Median bezeichnen. Bei einer stetigen Zufallsvariable X, deren Verteilungsfunktion F x darüber hinaus in der Menge {x e R|0 < Fx(x) < 1 } streng monoton ist, ist der Median damit eindeutig durch die Forderung Fx(x) = 0.5 bestimmt. Im diskreten Fall ist die Charakterisierung wie in der deskriptiven Statistik aufwendiger. Dass die Bestimmung des Zentralwerts mit Hilfe der Verteilungsfunktion darauf hinausläuft, die Stelle zu finden, an der die Verteilungsfunktion den Wert 0.5 erreicht oder überschreitet, ergibt sich formal aus folgendem: Die Forderung P(X < xz) > | ist gleichbedeutend mit F(xz)
>
Andererseits ist wegen P { X
x
z
)
z
)
+
P { X
=
x
)
=
P { X > x
z
)
P { X < x
z
) < \ .
z
+
P { X
>
x
z
)
+
P { X
=
x
z
1
=
) >
1
-
(4) (5)
gleichwertig mit
Wegen P(X \
gleichwertig zu
P x ( x )
< 2
Man erhält also den
6.2.2
Hilfssatz
xz ist genau dann Median von X , wenn
ist.
P ( X
x
\
gilt 2 . Mit anderen Worten: Die Verteilungsfunktion hat im Median einen Wert von mindestens 0.5, links davon einen Wert von höchstens 0.5. Dies bedeutet 1. für diskrete Zufallsvariablen: Gesucht ist
x* = min{x\Fx(x) > - } .
(8)
Gilt Fx (χ*) > I , so ist χ* eindeutig bestimmter Median (Abbildung 6.1).
m10
0.5
xz
X
Abbildung 6.1: Median einer diskreten Zufallsvariablen (eindeutig) Gilt F x ( x * ) = i , so ist der Median nicht notwendig eindeutig. Alle i e R mit Fx(x)
= i sind Mediane von X, sowie min{a: | Fx(x) i€R
> 2
(siehe Abbildung 6.2). Z.B. sind für die Grundgesamtheit {1,2,3,4} mit Wahrscheinlichkeit jeweils | alle Zahlen aus dem Intervall [2,3] Mediane. 2
Um den Median eindeutig festzulegen und die Definition formal einfacher zu gestalten wird der Median häufig auch durch die Forderung
xz = inf{x e R|Fx(x)
definiert. Dies bedeutet offensichtlich eine Spezialisierung gegenüber den Forderungen 1. und 2.
77
6 Lage- und Streuungsparameter
F(x)
,0
05
00
X.
X Abbildung 6.2: Median einer diskreten Zufallsvariablen (nicht eindeutig)
2. für stetige Zufallsvariablen: Da Fx als stetige Funktion mit
lim Fx{x) x—* — oc
= 0 und
lim F\(χ) x—* + oc
—1
alle Werte zwischen 0 und 1 annimmt, existiert mindestens ein χ mit Fx(x) = Jede reelle Zahl χ e Η mit F\(x) = ^ ist Median von X.
6.2.3
Beispiele
1. Binomialverteilung In Tabellenwerken (z.B. Owen, D.B. (1962)) ist meist die kumulative Binomialverteilung wiedergegeben, d.h. die Werte
m=0
(9)
für verschiedene Werte von n, c und p. Zu gegebenem η und ρ suchen wir c minimal mit F „ i P ( c ) > Z.B. erhalten wir für η = 10 und ρ = 0.25 den Median xz = 2, für η = 10 und ρ = 0.5 xz = 5. Für η = 13 und ρ = 0.5 erhalten wir folgende Werte:
Einführung in die Wahrscheinlichkeitstheorie
78
χ Abbildung 6.3: Median einer stetigen Zufallsvariablen (nicht eindeutig)
c
C
0
1
2
3
4
5
6
0.0001
0.0017
0.0112
0.0461
0.1334
0.2905
0.5000
7
8
9
10
11
12
13
0.7095
0.8666
0.9539
0.9888
0.9983
0.9999
1.0000
Tabelle 6.1 Kumulative Binomialverteilung für η = 13, ρ = 0.5. Damit ist hier der Median nicht eindeutig, jede Zahl von 6 bis 7 einschliesslich ist Median. Für ρ > ~ ist die Verteilung meist nicht tabelliert, da die Beziehung (n\pm(l-p)n~m \m J
= ( 71 \ n \n — mj
m
(l-q)
m
mit q = 1 — ρ
(10)
gilt. Damit ist dann F
nAc)
=
Σ ί ^ ^ α - Ρ Γ - " m=0 ^ '
=
l-Fn,,(n-c-l).
1
(11)
6 Lage- und Streuungsparameter
79
Aus (11) folgt für ungerades n . p = 0.5 und c = Fn,0.5
=
1
—
/2n-n + l-2 1 1 - fn.o.5 I 2
=
l - i V 0 .
~ ^rc.1—0.5
5
-
^~ 1
( ^ )
(12)
und daraus Fn.oJ
7
^ - ) = 2-
Wie bei η = 13 gilt also allgemein für ungerades η und ρ = 0.5. dass jede Zahl von ^ bis ^ Median ist. 2. Poissonverteilung Mit Tabellen für die kumulative Poissonverteilung ist das Vorgehen analog zur Binomialverteilung in Beispiel 6.2.3 1. Beispielsweise erhält man für Λ = 2 1
F\(l)
=
λ* V—e" k=0 2
Fx(2)
=
^
A
= 0.460
Xk =
und
0.6767.
fc=0
Median ist also xz = 2. 3. Exponentialverteilung Aus der Bedingung F(x) = | erhalten wir F{x) = l-e~x*
= \
(13)
und damit e~Xx
=
1 2
—\x
=
In
X —
1 Λ
1 2 ~ In 2.
(14)
Für die geometrischen Verteilungen aus § 5 und die Normalverteilung erhält man den Median aus folgendem Hilfssatz:
Einführung in die Wahrscheinlichkeitstheorie
80
6.2.4
Hilfssatz
Sei X stetige Zufallsvariable mit Dichte /. Ist / symmetrisch um μ, d.h. f ( ß — χ ) — /(μ + χ )
für alle χ G R ,
so ist μ Median.
Beweis: Wegen der Symmetrie folgt j+00f(x)dx 1=
ι
f(x)dx
=
J μ f(x)dx+
=
ι -00
f(x)dx
J+oo f(x)dl +
μI
μ
J
f(x)dx
μ
f{x)dx+
-00
j
f{x)dx
—00
μ =
2
J
f(x)dx
(15)
und damit Ρ ( μ ) = D a die Dichte der Normalverteilung offensichtlich symmetrisch um μ ist, gilt 6.2.5
Folgerung
Median der Normal Verteilung mit den Parametern μ und σ 2 ist μ.
6.3
Erwartungswert
Aus einer Häufigkeitsverteilung wird das arithmetische Mittel als gewichtetes Mittel der Merkmalsausprägungen berechnet. Gewichte sind dabei die relativen Häufigkeiten: χ = ^ a • p(a) a€M
M: Menge der Merkmalsausprägungen
Ersetzt man entsprechend der Analogie aus § 3 die Merkmalsausprägungen durch die Werte einer diskreten Zufallsvariablen und die relativen Häufigkeiten durch die zugehörigen Wahrscheinlichkeiten, so erhält man 00
Σ α ί · Ρ ( Χ = αΟ·
(16)
6 Lage- und Streuungsparameter
81
Da P(X = Qj) > 0 für alle i gelten kann (wie z.B. bei der Poissonverteilung), ist die Konvergenz dieser Reihe im Gegensatz zur Situation beim arithmetischen Mittel nicht gesichert. Außerdem sollte das Ergebnis, d.h. der Grenzwert, nicht von der Reihenfolge der Summation abhängen. Dies ist dann gewährleistet, wenn die Reihe absolut konvergiert.
6.3.1
Definition
Sei X eine diskrete Zufallsvariable mit den Werten at,i = 1, 2, 3 , . . . . α* φ a j 00 für i φ j . Konvergiert Σ
k l P { X
=
R lässt sich E ( X ) auch durch E { X ) = Χ ( ω ) Ρ(ω) berechnen. Dies entspricht einer Aufteilung der S u m m a n d e n von (17) und einer Änderung der Summationsreihenfolge.
82
Einführung in die Wahrscheinlichkeitstheorie
(s. unten bei Beispiele 6.3.5). Bei 100000 Fahrzeugen muss man also mit 70000 Fehlern rechnen. Der Aufwand für Nachbesserung beträgt damit 700000 Minuten oder 11666 Stunden bzw. 1445 Arbeitstage zu 8 Stunden. Das Berechnungsprinzip des Erwartungswertes einer diskreten Zufallsvariablen ist leicht zu merken: Jeder Wert wird mit der Wahrscheinlichkeit, mit der er angenommen wird, multipliziert. Diese Produkte werden aufsummiert. Man beachte aber: Nicht zu jeder diskreten Zufallsvariablen muss ein Erwartungswert existieren.
6.3.3
Beispiel „Petersburg-Paradoxon"
Ein Spiel bestehe im aufeinanderfolgenden Werfen einer Münze, bis erstmals Kopf oben liegt. Ist dies beim k-ten Mal der Fall, erhält der Spieler einen Betrag in Höhe des 2 fc -fachen der Münze ausbezahlt. Mit anderen Worten heißt dies: Bei jedem Versuch, bei dem Kopf nicht oben liegt, verdoppelt sich der Auszahlungsbetrag. Welchen Einsatz wird ein Spieler bereit sein zu zahlen, um an dem Spiel teilnehmen zu dürfen? Analog zu Beispiel 1.2 berechnet sich die Wahrscheinlichkeit dafür, dass beim fc-ten Versuch erstmals Kopf oben liegt: P(k) = Damit ergibt sich für die erwartete Auszahlung die Forderung nach der Konvergenz von
Diese Reihe wächst aber über jede Grenze. Geht man davon aus, dass der Erwartungswert dem arithmetischen Mittelwert bei häufiger Durchführung des Zufallsexperiments entspricht, so sollte ein Spieler bereit sein, einen beliebig hohen Einsatz zu riskieren, denn bei häufiger Teilnahme wird er im Mittel mit einer höheren Auszahlung rechnen können. Empirische Überprüfungen haben aber gezeigt, dass Personen, denen dieses Spiel angeboten wurde, sich nicht so verhalten. Bei stetigen Zufallsvariablen ist die erforderliche „Summation" überabzählbar, auch haben einzelne Punkte χ € R die Auftretenswahrscheinlichkeit 0. Man ersetzt daher die Summation durch Integration und die Gewichtung erfolgt durch die Dichtefunktion.
83
6 Lage- und Streuungsparameter 6.3.4
Definition
Sei X eine stetige Zufallsvariable mit Dichte f . Existiert +
3C
I
1*1 - f ( x ) d x ,
so heißt
+
OC
J
E { X ) =
χ
• f ( x ) d x
(18)
— 3C
Erwartungswert
6.3.5
von
X .
Beispiele
1. Bernoulliverteilung E { X )
=
0 · Ρ { Χ
=
=
1 · ρ = ρ.
0) +
1 · Ρ ( Χ
=
1)
(19)
2. Binomialverteilung E ( X )
=
Σ
-
m=0
,Ο
v
m
p
m
d-p)
7i =
E
m=
^
m
1
U m \ u( n' —
v
Pm(l~P)n~m
'
m=0 ^
=
m )M\
'
n-p.
3. Poissonverteilung
(20) oo
,£
DC
\ K — 1
84
Einführung in die Wahrscheinlichkeitstheorie
4. Exponentialverteilung
+00 E ( X )
=
J
x f ( x ) d i
0 J
+00 Odx+
J
x \ e ~
X x
d x
oo
lim ( —xe a—»oc V
e~Xxdx
00
/
e~Xxdx
0
lim
( ~ \ e ~
X x
" )
a—>00 V Λ 0/ 1 (22) Λ' Für die geometrischen Verteilungen und die Normalverteilung ergibt sich der Erwartungswert aus dem Analogon zu 6.2.4.
6.3.6
Hilfssatz
Sei X stetige Zufallsvariable mit Dichte / , symmetrisch um μ. Dann ist μ Erwartungswert von X, falls ein Erwartungswert existiert. Beweis:
+oc
E ( X )
=
J
x f { x ) d x
— OO
oo
μ =
J
x f ( x ) d x +
J
—00 oo =
x f ( x ) d x
μ
00
J(μ
-
y)f{ß
-
y)dy
0 00 =
+
j ( μ
+
0
J(v-y
+ ß + y)f{ß + y)dy
0 00 L
2 · a J f(v + y)dy 0
y ) f ( ß +
y)dy
6 Lage- und Streuungsparameter
=
85
2 · μ · - = μ,
da + 00
oc
1= J f{x)dx
=
oo
J f{ß~y)dy ο
+ j / ( μ + y)dy ο
oc
2 • / /(μ + y)dy 0 gilt.
6.3.7
Folgerung
Sei X normalverteilt mit den Parametern μ und σ2, so ist μ Erwartungswert von X.
B. Streuungsparameter Wichtigster Streuungsparameter bei Zufallsvariablen ist die Varianz. Sie wird analog berechnet wie in der deskriptiven Statistik als gewichtetes Mittel der quadrierten Abweichungen vom Erwartungswert.
6.4
Varianz
6.4.1
Definition
1. Sei X eine diskrete Zufallsvariable mit den Werten 0:1,02,0:3,..., α; φ ctj für i φ j, und dem Erwartungswert E(X). Dann heißt 00
Var(X)
= ]>>, i=1
- E(X))2P{X
= ai)
(23)
Varianz von X, falls diese Reihe konvergiert 4 . 2. Sei X eine stetige Zufallsvariable mit Dichte / und Erwartungswert E{X). Dann heißt +00
Var{X) 4
= J ( χ - E(X))2 f(x)dx
Analog wie beim Erwartungswert kann die Varianz auch nach der Formel Σω£Ω
~
E
W)
2
P
M
berechnet werden.
(24)
86
Einführung in die Wahrscheinlichkeitstheorie
Varianz von X, falls dieses Integral existiert. Die positive Wurzel der Varianz wird wie in der deskriptiven Statistik als Standardabweichung bezeichnet.
6.4.2
Beispiele
1. Bernoulliverteilung
Var(X)
=
(0 — p)2P(X
=
p2{l-p)
=
p(l -p)(p+
=
p(l-p)·
2. Binomialverteilung (E(X)
= 0) + (1 — p)2P(X
+
— 1)
{l-p)2p 1
-p)
= np, siehe 6.3.5 2.)
Var(X)
m=0 m=0 έ
™2 t
V
u - p)n"ra -
2n
p Σ
m
(z)
p m { 1
-
p )
n—m
m=0 1
(26) m=0
m=0
m=0
2p' np(n — \)p + np — n2^2
— np +np 2
np(l-p).
2 2„ 2
— n p'
(27)
6 Lage- und Streuungsparameter
87
Dabei wurde bei (26) die Umformung aus 6.3.5 benutzt und bei (27), dass (n — l)p der Erwartungswert einer B(n — l,p)-verteilten Zufallsvariablen ist. Bei η = 10 und ρ = 0.1 bzw. 0.5 erhalten wir die Wahrscheinlichkeitsverteilung
k
P(X ρ = 0.1
= k) p = 0.5
0 1 2 3 4 5 6 7 8 9 10
.3487 .3874 .1937 .0574 .0112 .0015 .0001 10~ 6 io-7 10" 9 10-io
.0010 .0098 .0439 .1172 .2051 .2461 .2051 .1172 .0439 .0098 .0010
Tabelle 6.2: Binomialverteilung für η = 10, ρ = 0.1 und ρ — 0.5. Man erkennt, dass für ρ = 0.1 bei niederen Werten von k hohe Wahrscheinlichkeiten vorliegen, während bei ρ = 0.5 die Wahrscheinlichkeiten gleichmäßiger auf alle, bevorzugt aber mittlere Werte von k verteilt sind. Dies kommt auch bei den Werten 10 · 0.1 · 0.9 = 0.9 bzw. 10 · 0.5(1 — 0.5) = 2.5 für die Varianz zum Ausdruck. Je mehr die Wahrscheinlichkeiten bei einigen wenigen Werten konzentriert sind und je enger diese liegen, desto kleiner die Varianz. 3. Poissonverteilung
Var{X)
,Xk
= k=0
oo V ( f c 2 -2fcA + A^ 2λ, *,,_ β _ λ
^ k =0 00
STk2^e~x k=0
k\
\k - 2 X - E ( X )+ \
Xk
ST(k(k-l) + k ) - e k=1
x
oo
oc
k=2
k= 1
- \
2
Einführung in die Wahrscheinlichkeitstheorie
88
OO
\fc—
=
fc=2 V λ2 + Λ - Λ 2
=
Λ.
2 y
(28)
4. Exponentialverteilung
-t-oo
Kar(X)
=
J (x - j)2f(x)dx — OO
oo
= J(x- j)2\e~Xxdx ο
oo
=j
oo
Λx2e~Xxdx - 2 · jJ
oo
x\e~Xxdx + ^ J *e~Xx
OO
+
(29)
/
Weiter erhalten wir
oo
J x2\e~Xxdx ο
oo =
z2(-e-Ax)|J 0
oo oo
-
J -e~Xx2x dx
u-ο "Ii
2 - ^ / x\e~Xxdx
(30)
Λ2Damit ist Var(X)
=
=
(31)
Aus Abbildung 5.7 wird ersichtlich, dass bei kleinem λ die Dichtefunktion flach und mit überall niedrigen Werten verläuft, die Wahrscheinlichkeit - an der Fläche unter der Kurve zu erkennen - also ziemlich gleichmäßig verteilt ist, während bei großen Werten von λ die Dichtefunktion vom Wert Λ an der Stelle 0 rasch abnimmt, die Wahrscheinlichkeit ist also im Bereich nahe 0 konzentriert. Dies wird auch durch
6 Lage- und Streuungsparameter
89
die Varianz von p-, also einem hohen Wert für kleines Λ (z.B. 100 für λ = 0.1) und einen niedrigen Wert für großes λ (z.B. 0.01 für λ = 10) deutlich. 5. Gleichverteilung auf [a, b\ + OC V a r ( X )
=
J (
x
- l ± * ) 2 f (
) d x
x
— OG
b )2-.
/ χ) = 1 - P{T < x) = 0.95 oder P(T < x) = 0.05, also das 0.05-Quantil von T. Aus 1 - ε ~ 1 0 ^ χ = 0.05 erhalten wir zo.os = - 1 0 M n 0 . 9 5 = 512.9. Gewährt der Hersteller eine Garantie von 500 Stunden, so muss er bei rund 5 % aller verkauften Pumpen mit einer Inanspruchnahme der Garantie rechnen. Zur Bestimmung von α-Quantilen stellt Excel Funktionen zur Verfügung. Bei der Binomialverteilung ist dies die Funktion KRITBINOM, die zum angegebenen α das kleinste c liefert mit
(39) m=0 Dabei ist η als (Anzahl der ) Versuche, ρ als Erfolgswahrsch(einlichkeit) und α mit Alpha bezeichnet. Der angegebene Wert c ist demnach ein a-Quantil. Im Fall F n , p (c) = α (Überprüfung mit BINOMVERT) sind alle reellen Zahlen χ mit c < χ < c + 1 ebenfalls a-Quantile. Für die Standardnormalverteilung berechnet STANDNORMINV zum angegebenen Wert α (als Wahrsch bezeichnet) das α-Quantil. Für andere Paramaterwerte bei der Normalverteilung kann die Funktion NORMINV benutzt werden. Zu beachten ist bei Excel, dass bei manchen analog bezeichneten Funktionen (z.B. CHIINV) nicht das α-Quantil zum eingegebenen Wert Wahrsch, sondern das (1 — a)-Quantil berechnet wird. Dies kann durch Eingabe der Werte a = 0.05 und a = 0.95 leicht überprüft werden.
6.6
Momente höherer Ordnung
Eine naheliegende Verallgemeinerung von Erwartungswert (bzw. Varianz) erhalten wir dadurch, dass wir ein mit den Wahrscheinlichkeiten gewichtetes Mittel der fc-ten Potenzen bilden:
6 Lage- und Streuungsparameter
93
Seien wieder o.{ die Werte der diskreten Zufallsvariablen X , so heißt
6
OC
E(Xk) = J 2 a ^ P ( X = at) i=1
(40)
k-tes Moment von X. 7 F ü r eine stetige Zufallsvariable X mit Dichte f x lautet der entsprechende Ausdruck + OC
E(X
k
xkfx(x)dx.
) := J
(41)
— oc
Der Erwartungswert ist also das 1-te Moment. Benutzen wir diese Schreibweise, so kann die Varianz auch einfacher geschrieben werden (vgl. die analoge Beziehung in der deskriptiven Statistik).
6.6.1
Hilfssatz
Sei X eine Zufallsvariable, und es existiere E(X) Var(X)
= E(X
P { X = a
i
2
und Var(X).
Dann gilt
) - (E(X))2.
(42)
Beweis:
Var(X) OC
=
Y
j
{ a
l
- E { X ) )
2
)
1=1
oc =
+ (E(X))2)P(X
- 2atE{X) i=l oc
=
Σ
=
Qi)
oc 2
a P(X
= at)
- 2E(X)
i= 1 =
E{X2)
=
E(X
oc
£
ατΡ(Χ
i=l - 2E{X) 2
•E { X ) +
= α,) + (E(X))
2
£
P(X
=
α,)
i= 1
(E{X))2
) - (E(X))2.
Bei einer stetigen Zufallsvariablen können wir ganz analog vorgehen. 6 7
Zur Schreibweise E(Xk) vgl. die Bemerkung 7.15 in § 7. Wie beim Erwartungswert wird verlangt, dass die Reihe bzw. das unbestimmte Integral absolut konvergiert.
Einführung in die Wahrscheinlichkeitstheorie
94
Wie bei der Varianz können wir vor dem Potenzieren der Werte zunächst noch das „Zentrum" der Verteilung, d.h. den Erwartungswert, abziehen. Man erhält so das k-te zentrale Moment der Verteilung: oo Y/(al-E(X))kP(X i=l bzw.
= al)
(43)
+00 j ( x - E ( X ) ) k f x ( x ) dx, —00
(44)
falls diese Ausdrücke absolut konvergieren. Die Varianz ist demnach das 2-te zentrale Moment. Kennen wir die Folge der fc-ten Momente (oder der k-ten zentralen Momente), so liegt natürlich sehr viel detailliertere Information vor, als wenn wir uns nur auf die beiden Kennzahlen Erwartungswert und Varianz stützen. Man kann sogar zeigen, dass die Wahrscheinlichkeitsverteilung unter recht allgemeinen Annahmen durch die Folge der Momente eindeutig bestimmt ist. Bei praktischen Anwendungen werden wir auf höhere Momente nur dann zurückgreifen (müssen), wenn keine Klarheit über den Verteilungstyp (z.B. Binomialverteilung, Exponentialverteilung, Normalverteilung, etc.) besteht. Es besteht dann die Möglichkeit, anhand von Daten die fc-ten Momente (bzw. zentralen Momente) für einige k beginnend mit k = 1 zu „schätzen" und diese Werte beim weiteren Vorgehen zu benützen.
Zusammenfassung: Wir haben eine Reihe von Kenngrößen für Zufallsvariablen kennengelernt, die analog gebildet werden wie in der deskriptiven Statistik. Am wichtigsten sind dabei der Erwartungswert und die Varianz, die bei einigen Fragestellungen - wie z.B. bei der Beurteilung der künftigen Rendite von Geldanlagen und Investitionen - Ansätze für Lösungsmethoden liefern. Eine vollständige Beschreibung der Wahrscheinlichkeitsverteilung erlauben sie jedoch höchstens dann, wenn außerdem der Verteilungstyp festgelegt ist. In der deskriptiven Statistik wurde untersucht, wie diese Kenngrößen auf eine Merkmalstransformation reagieren. Eine analoge Untersuchung bei Zufallsvariablen werden wir im nächsten Paragraphen durchführen.
6 Lage- und Streuungsparameter
95
Übungsaufgaben zu § 6 1. Die Zufallsvariable X habe folgende Dichtefunktion: fxW
a{x2 + 2x + §) b
für
0< χ < 1 sonst
(a) Bestimmen Sie die Parameter α und b. (b) Geben Sie die Verteilungsfunktion der Zufallsvariablen X an. (c) Berechnen Sie den Erwartungswert und die Varianz von X. 2. Die diskrete Zufallsvariable X habe folgende Wahrscheinlichkeitsverteilung:
(a) Geben Sie c explizit an. (b) Berechnen Sie den Erwartungswert der Zufallsvariablen X. 3. Die sogenannte Pareto 8 -Verteilung hat folgende Dichtefunktion:
(a) Welche Beziehung muss zwischen k,7 und c gelten? Bestimmen Sie die Verteilungsfunktion. (b) Berechnen Sie die a-Quantile der Pareto-Verteilung für α = 0.1,0.5,0.9. (c) Berechnen Sie den Erwartungswert und die Varianz der ParetoVerteilung. 4. Die diskrete Zufallsvariable X habe die Verteilungsfunktion F x mit den Werten Fx{xi) = 1 - 2 für die Sprungstellen mit den Werten Xj = 1,2 Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariablen
8
Pareto, Vilfredo, 1848-1923, Ital. Ökonom und Soziologe.
7
Funktion und Transformation einer Zufallsvariablen
Häufig hat das Eintreten zufälliger Ereignisse Konsequenzen. So wird bei der Wareneingangskontrolle eine Warenpartie zurückgewiesen, wenn bei einer Stichprobenkontrolle zu viele schlechte Teile in der Stichprobe sind. Eine Maschine wird möglicherweise erhöhten Verschleiß haben, wenn die Maße eines Bauteils nicht stimmen und dadurch zuviel Spiel vorhanden ist. Ein Unternehmen kann überraschend hohe Gewinne machen, wenn der Dollarkurs fällt (wobei wir hier den Dollarkurs als Ergebnis eines Zufallsprozesses ansehen). In all diesen Fällen können wir die Konsequenzen als abhängig von dem Wert einer Zufallsvariable betrachten: Die Entscheidung über die Warenpartie hängt ab von der Anzahl schlechter Teile in der Stichprobe, die Lebensdauer der Maschine vom Maß des Bauteils (und natürlich anderen Größen), der Gewinn der Firma vom Dollarkurs. Wenn wir die Konsequenzen durch eine oder mehrere Zahlen ausdrücken können, werden diese selbst dadurch zur Zufallsvariable und es stellt sich die Frage, wie die Wahrscheinlichkeitsverteilung dieser Zufallsvariable ermittelt werden kann. Variablen werden üblicherweise ja auch als Argument von Funktionen benutzt. Es bietet sich also an, dasselbe auch für Zufallsvariablen durchzuführen. Allerdings haben wir eine Zufallsvariable selbst schon als Funktion definiert. Ein einfaches „Einsetzen" einer Zufallsvariablen statt einer anderen Variablen in eine Funktion ist also nicht möglich. Sei X \ (Ω, -ι4(Ω), Ρ) —> R eine Zufallsvariable und g : R —> R eine Funktion. Dann können wir die Funktionen hintereinander ausführen: g ο Χ(ω)
= g(X(u>))
für alle ω e Ω.
(1)
W i r erhalten somit eine Funktion g οX :Ω Ist g°X
.A(Q)-.£-messbar, so ist goX:
R.
(2)
( Ω , Α ( Ω ) , Ρ ) —> R e i n e Zufallsvariable.
Die Messbarkeit verlangt, dass das Urbild jeder Boreischen Menge Β bei g o X ein Ereignis im Wahrscheinlichkeitsraum ist, d.h. { ω € Ω | g ο Χ (ω) Ε Β} £ Λ(Ω). Dies ist dann erfüllt, wenn g £-£-messbar ist, d.h. wenn jedes Urbild einer
Einführung in die Wahrscheinlichkeitstheorie
98
Boreischen Menge Β bei der Funktion g eine Boreische Menge ist: = {x e R | g(x) e B} e C für alle Β e C.
7.1
(3)
Satz
Sei X : (Ω, Α(Ω), Ρ) —> R eine Zufallsvariable, g : R —» R C-C-messbar, so ist g ο X : (Ω, Α(Ω),Ρ) R Zufallsvariable.
Beweis:
Sei Β Ε C. Dann ist g 1(B) G £, da 5 £-£-messbar ist, und damit X 1(g 1(B)) G Α(Ω), da X Zufallsvariable ist. Da (goX)-1(B) = X " 1 ^ - 1 ^ ) ) gilt, ist 1 (g ο X)~ (B) e Α(Ω) für alle Boreischen Mengen B. Statt der korrekten Schreibweise g ο X wird häufig die Bezeichnung g(X) benutzt, die verschleiert, dass es sich um die Hintereinanderausführung zweier Funktionen handelt.
7.2
Bemerkungen
1. Hat X nur Werte in einem Bereich D c R . s o genügt es auch, dass g nur in D definiert ist. Da g dann außerhalb von D beliebig fortgesetzt werden kann, kann dieser Fall auf die obige Situation zurückgeführt werden. 2. Die Messbarkeit ist keine starke Forderung an die Funktion g. So erfüllen z.B. alle stückweise stetigen Funktionen diese Voraussetzung, was für praktische Anwendungen in der Regel ausreichen dürfte. Im folgenden wollen wir untersuchen, wie sich die Wahrscheinlichkeitsverteilung von g(X) aus der Wahrscheinlichkeitsverteilung von X ermitteln lässt. Sei X : (Ω, Α(Ω),Ρ) i j. Dann gilt P(g(X) = y)
—> R diskret mit Werten xiti = 1, 2 , 3 , . . . , Xi ^ Xj für =
Ρ({ω\9(Χ(ω))
=
υ}) 1
= =
Ρ({ω\Χ(ω)ε9~ (ν)}) Ρ({ω\Χ(ω) e {Xi\i = 1 , 2 , 3 , . . . : g{Xi) = j/}}) 00 (4)
7 Funktion und Transformation einer Zufallsvariablen
Σ
ρ
( χ
=
99
^)·
Die Wahrscheinlichkeit bei g(X) den Wert y zu erhalten entspricht also genau der Summe der Wahrscheinlichkeiten für die Werte χ bei X , deren Funktionswert bei g y ist, also für die Werte χ mit g(x) = y.
7.3
Beispiel
Eine Warenpartie von Produkteinheiten wird in folgender Weise kontrolliert: Es werden zufällig 100 Teile „mit Zurücklegen" (vgl. § 4) entnommen und kontrolliert. Werden insgesamt mehr als 3 schlechte Teile gefunden, so wird die Warenpartie abgelehnt. Andernfalls wird sie akzeptiert. Es soll die Frage beantwortet werden, mit welcher Wahrscheinlichkeit eine Warenpartie mit 5 % Ausschussanteil akzeptiert wird. Sei X die Anzahl der schlechten Teile in der Stichprobe. X ist - wie gesehen binomialverteilt: (5)
Setzen wir χ = 0,1,2,3 sonst
(6)
so besagt g(X) g(X)
= 1 = 0
die Partie wird angenommen, die Partie wird abgelehnt.
W i r erhalten η (7) k = 0
9W = 1
Für η = 100 und ρ = 0.05 ist
(8)
100
Einführung in die Wahrscheinlichkeitstheorie
Eine Partie mit 5 % Ausschussanteil wird also mit rund 26 % Wahrscheinlichkeit akzeptiert.
Sei X stetig mit Dichte / χ , so gilt Fg{x){a)
=
P(g(X)
= =
< a) Ρ({ω\9(Χ(ω)) D, g
Beispielsweise können wir für D = R + und die Funktion g(x) = χ2 die Umkehrfunktion χ = g~l (y) = ^/y für y > 0 verwenden. 2. Nimmt g nur Werte in einem Bereich D' an, beispielsweise nur Werte in einem Intervall [α, 6], so kann auch g(X) nur Werte in diesem Bereich annehmen. Damit ist die Umkehrfunktion nur auf D' definiert. Ist g invertierbar und differenzierbar, so setzen wir a = inf g{x), xeR
b = supg(x)
(24)
und man erhält als Dichte von g(X) (wiederum nur endlich viele Nullstellen von g')\
3 4
Dann sprechen wir von der T r a n s f o r m a t i o n einer Zufallsvariablen. Invertierbare Funktionen g : R —
= x3. Dann gilt
die Dichte
fJ XM Kyy)) = i \ Mit
3x2
y
> 0 und
9\g-\y))
=
g'(x)
- τ τ ψ \y)
=
=
-ν
—
2
·
~ für χ > 0. j j , also
(
2 8
)
Damit ist für a > 0
F
g { x )
( a )
=
P ( g ( X ) < a )
=
J
f x ( x ) d x
g(x)4-Klasse-Streifen h a t d e m n a c h die Breite 0.2. Jeder Streifen wird durch waagrechte Linien so unterteilt, dass die e n t s t e h e n d e n Flächen gerade den Wahrscheinlichkeiten für das gemeinsame E i n t r e t e n von Modell und M o t o r v a r i a n t e entsprechen. Der /1-Klasse-Streifen wird also so unterteilt, dass die Flächeninhalte 0.08 für ^4-Klasse komnbiniert mit M o t o r v a r i a n t e Λ/χ. 0.05 für yl-Klasse kombiniert mit M o t o r v a r i a n t e M2 und 0.07 für yl-Klasse kombiniert mit Motorvariante Λ/3 entstehen. Die K a n t e n l ä n g e des ersten Rechtecks ergibt sich somit aus der Gleichung 5
Für eine ausführliche Darstellung und Diskussion von graphischen Modellen sei auf Bea(1995) verwiesen. Dort wird auch über empirische Befunde beim Training bedingter Wahrscheinlichkeiten mit diesen Darstellungsformen berichtet. Da dabei das Einheitsq u a d r a t am besten abgeschnitten hat, wird hier auch dieses ausgewählt.
Einführung in die Wahrscheinlichkeitstheorie
128
P(A η Ml) = 0.08 = Kantenlänge · P(A)
(33)
d.h.
Kantenlänge =
= P(MX \ A) = ^
= 0.4.
(34)
Damit entsprechen die Proportionen bei der Unterteilung in Abbildung 8.2 gerade den bedingten Wahrscheinlichkeiten.
P(A)-0.2
P(B)= 0,3
P(C)=0,35
P(D)=0.15
Abbildung 8.2: Einheitsquadrat zu Beispiel 8.15
Der Flächeninhalt der Fläche "P(AflMi)" ist das Produkt P{M1 | A)-P(A) = 0.4 · 0.2. Die Wahrscheinlichkeit für die Motorvariante M\ entspricht dem Flächeninhalt der schraffierten Fläche entsprechend dem Satz von der totalen Wahrscheinlichkeit.
Ρ (Μι)
= = =
Ρ(ΑίΐΜι)+Ρ(ΒηΜι)^ P(C η Ml) + P(D Π Ml) P(Mi | A) • P(A) + P(Mi B) • P(B) + P(Mi | C) • P(C) 4 P(Mi | D) • P(D) 0.08 + 0.1 + 0.1 + 0.03
(35)
8 Bedingte Wahrscheinlichkeiten, Unabhängigkeit von Ereignissen
=
129
0.31
Die bedingte Wahrscheinlichkeit P(A\M\) ist das Verhältnis aus dem Flächeninhalt der Fläche "P(A Π Μι)" zur gesamten schraffierten Fläche.
Liegen also allgemein die Ereignisse A\ vor mit
An und die Ereignisse Β ι , . . . , Bm
Ω = Αι U . . . U An
und
At Π A2 = 0
für
iφ j
(36)
Ω = Bi U . . . U Bm
und
Βτ Π Β0 = 0
für
ιφ j,
(37)
sowie
so ergibt sich die Abbildung 8.3. Die Aufteilung der einzelnen Streifen für die Ereignisse Ai erfolgt entsprechend den bedingten Wahrscheinlichkeiten P(Bj\Ai)·
Ρ(Α,)
P(A„)
ΡίΑ^ηθ,)
P(B,|A n )
P|B,|A,| PfA.'B] j
P(An^m) P(BJAt)
P(B m |A n )
P(A1^Bm )
Abbildung 8.3: Einheitsquadrat zur Darstellung bedingter Wahrscheinlichkeiten Die Unabhänigkeit von zwei Ereignissen Α und Β lässt sich mit dem Einheitsquadrat ebenfalls veranschaulichen. Dazu setzen wir Αι = Α und A2 = Ω\>1
130
Einführung in die Wahrscheinlichkeitstheorie
(also das Komplement zu A\, d.h. "nicht A") und ebenso Βχ — Β und B2 = Ω\Β. Damit ergibt sich das Einheitsquadrat aus Abbildung 8.4.
P(A)
P(i\A)
P(AnB) Ρ{(Ω\Α)οΒ)
Abbildung 8.4: Einheitsquadrat bei zwei Ereignissen Α und Β
Unabhängigkeit von Α und Β liegt vor, wenn die horizontale Trennlinie durchläuft (s. Abb. 8.5). In diesem Fall stimmt der Inhalt P { B ) der schraffierten Fläche wegen der Kantenlänge 1 des Einheitsquadrats mit der bedingten Wahrscheinlichkeit P(B\A) überein:
P(B\A) = P(A DB) + P((Ü\A) n ß ) = P(B)
(38)
Der Begriff der Unabhängigkeit lässt sich ausgehend von der Definition für zwei Ereignisse auf mehr Ereignisse verallgemeinern.
8.16
Definition
Sei (Ω, Α(Ω),Ρ) ein Wahrscheinlichkeitsraum. Eine endliche oder abzählbar unendliche Familie (Ai),i £ I C Ν von Ereignissen heißt unabhängig, wenn
8 Bedingte Wahrscheinlichkeiten, Unabhängigkeit von Ereignissen
IIIPI
131
P(A)
A b b i l d u n g 8.5: Einheitsquadrat bei zwei unabhängigen Ereignissen Α und Β
für beliebig ausgewählte endlich viele Ereignisse A i ^ . . . . , A i n
P(An
η A12 η . . . η Ain)
= P(AU
)·...·
P(Ain)
(39)
gilt.
Bemerkung: 1. Für den Nachweis der Unabhängigkeit von η Ereignissen Αχ
An
genügt es nicht zu überprüfen, dass
Ρ(Α1η...ηΑη)
= Ρ(Α1)·...·Ρ(Αη)
(40)
gilt. Diese Gleichung ist z.B. immer dann richtig, wenn eines der Ereignisse unmöglich ist (P(Ai)
= 0). Vielmehr muss außerdem für j e d e
Auswahl von 2 , 3 , . . . , n — 1 Ereignissen die entsprechende Gleichung erfüllt sein. 2. A u s der Definition ergibt sich, dass aus der Unabhängigkeit der Ereignisse (i4i). i £ I , die Unabhängigkeit für j e zwei Ereignisse A , . A/. folgt. A u s der Unabhängigkeit folgt also die paarweise Unabhängigkeit. Die Umkehrung gilt aber nicht. A u s der Unabhängigkeit von j e zwei Ereignissen folgt nicht notwendig die Unabhängigkeit der ganzen Familie von Ereignissen, wie folgendes Beispiel zeigt.
Einführung in die Wahrscheinlichkeitstheorie
132 8.17
Beispiel
Mit einem Würfel wird zweimal gewürfelt. Betrachtet werden die Ereignisse A: Augenzahl beim ersten Wurf gerade, Β: Augenzahl beim zweiten Wurf gerade, C: Summe der Augenzahlen ist ungerade. Offensichtlich gilt P(A) = P{B) = P(C) = 1
(41)
und P{AOB)
= P{AnC)
=P{Br\C)
=
(42)
d.h. die Ereignisse sind paarweise unabhängig. Andererseits ist P(AnBnC)
8.18
= 0^l-
(43)
„Türenproblem"
Im Zusammenhang mit bedingten Wahrscheinlichkeiten darf ein Beispiel 6 nicht fehlen, das in den letzten Jahren für erhebliche Diskussionen gesorgt hat, aber eigentlich einer alten Problemstellung von Joseph Bertrand 7 entspricht. In der Fernseh(werbe)show „Geh' auf's Ganze" 8 überlässt der Moderator, Joerg Dräger, der Mitspielerin 9 die Wahl zwischen drei Türen. Hinter einer der drei Türen befindet sich der Hauptgewinn, der in den Besitz der Mitspielerin übergeht, wenn diese die richtige Tür wählt. Nach der Wahl der Mitspielerin lässt Herr Dräger eine der anderen Türen öffnen und zwar wählt er so, dass sich hinter der geöffneten Tür nicht der Hauptgewinn befindet. Die Kandidatin hat dann die Möglichkeit ihre ursprüngliche Wahl zu revidieren und zur verbleibenden Tür zu wechseln. Ist dies sinnvoll? Oder mit anderen Worten: Ist die Information, die der Moderator durch das Öffnen der Tür gibt, 6
7 8 9
Auf die Problemstellung w u r d e ich durch die Anfrage eines meiner Studenten a u f m e r k s a m gemacht. Dr. T h o m a s Christ, damals Mitarbeiter am Lehrstuhl h a t mich auf den schönen Artikel von Ian Stewart im S p e k t r u m der Wissenschaft, November 1991, hingewiesen. Außerdem b e n u t z t G. von Randow (1994) das Problem, das auch als „Ziegenproblem" bezeichnet wird, als Aufhänger zu einem Taschenbuch über das Denken in Wahrscheinlichkeiten. Schließlich sei auch auf die schöne Analyse der Fragestellung in N. Henze(1995) a u f m e r k s a m gemacht. Joseph B e r t r a n d , 1822 - 1900, französischer M a t h e m a t i k e r . Die Serie ist inzwischen abgesetzt. U m die Formulierung zu vereinfachen, nehmen wir im folgenden an, dass es sich um eine D a m e handelt.
8 Bedingte Wahrscheinlichkeiten, Unabhängigkeit von Ereignissen
133
(anscheinend oder scheinbar) wertlos?
Vor einigen Jahren hat die amerikanische Journalistin Marilyn vos Savant (im Guiness - Buch der Rekorde übrigens 1991 als Person mit dem höchsten jemals gemessenen Intelligenz - Quotienten vermerkt) in ihrer Kolumne „Fragen Sie Marilyn" als Antwort auf die gestellte Frage behauptet, dass sich die Chancen der Kandidatin bei einem Wechsel der Tür verdoppeln, und damit einen Sturm der Entrüstung und eine umfangreiche Diskussion des Problems ausgelöst.
Die Beteiligten unterteilten sich dabei in ..Wechslerinnen" (die den Empfehlungen von Marilyn folgen wollten), „Randomisiererinnen" (die zufällig eine der verbleibenden Türen auswählen wollten) und ..Standhafte" (die bei der ursprünglichen Wahl bleiben wollten) 10 . Uber die Proportionen der Aufteilung ist nichts bekannt. Diese Diskussion wäre vermutlich nicht entstanden, wenn sie gleich - und nicht erst später, um ihre Argumentation intuitiv verständlicher zu machen - die Anzahl der Türen auf eine Million erhöht hätte, wobei dann der Moderator wieder nach Wahl der Kandidatin alle bis auf eine der verbleibenden Türen und zwar solche ohne den Hauptgewinn dahinter öffnet. Vermutlich würde wohl jede intuitiv zu dieser Tür wechseln, obwohl der Hauptgewinn wie bei drei Türen sowohl hinter der gewählten als auch hinter der verbliebenen Tür sein kann. Wie lässt sich diese Situation analysieren? Zunächst versehen wir die Türen mit den Ziffern 1. 2 und 3. Aus Symmetriegründen können wir annehmen, dass der Hauptgewinn hinter Tür 1 ist. Da die Kandidatin dies aber nicht weiß, wird sie eine der Türen zufällig auswählen, wobei jede mit derselben Wahrscheinlichkeit (nämlich j ) ausgewählt wird. Mit Wahrscheinlichkeit | wählt sie also die richtige, mit Wahrscheinlichkeit | eine falsche Tür. Beim Moderator muss man jetzt diese beiden Fälle unterscheiden: Fall 1:
Wählt die Kandidatin die richtige Tür, kann der Moderator zwischen den verbleibenden Türen wählen.
Fall 2:
Wählt die Kandidatin eine der falschen Türen, muss der Moderator die verbleibende falsche Tür öffnen. Der Hauptgewinn ist dann hinter der dritten Tür.
10
unter Verwendung der Bezeichnungen von N. Henze (1995).
Einführung in die Wahrscheinlichkeitstheorie
134
Da Fall 1 mit Wahrscheinlichkeit | eintritt, ist die Wahrscheinlichkeit der „Standhaften", den Hauptgewinn zu treffen unabhängig davon, welche Tür der Moderator wählt. Die „Wechslerin" hingegen verliert im Fall 1, gewinnt aber im Fall 2. Die Wahrscheinlichkeit für Fall 2 ist aber also doppelt so hoch wie die Gewinnwahrscheinlichkeit der „Standhaften". Die „Randomisiererin" wählt in beiden Fällen mit Wahrscheinlichkeit ^ eine der noch geschlossenen Türen, so dass die Wahrscheinlichkeit die richtige Tür zu treffen 1 1 1 2_ 1 2 ' 3+ 2 ' 3 ~ 2 ist. Was hat dies mit bedingten Wahrscheinlichkeiten zu tun? Die Wahl von Kandidatin und Moderator können wir als die Menge aller Paare ( l ü i , l ü 2 ) mit ωχ ψ ω2,ωι € {1,2,3},ω2 G {2,3} darstellen. Wir erhalten also die Grundgesamtheit Ω = {(1,2), (1,3), (2,3), (3,2)}. Da die Kandidatin zufällig wählt, gilt für die Wahl der Tür mit Ziffer i (Κ = i) P(K = i)
=
i Ο
für i = l,2,3,
also P(K = 1)
=
P({(1,2),(1,3)}) = |
P(K = 2)
=
P({(2,3)}) = i
P(K = 3)
=
P({( 3,2)}) = |
Die Wahl des Moderators (Μ = j) hängt von der Wahl der Kandidatin ab. Die bedingten Wahrscheinlichkeiten sind, wenn der Moderator in Fall 1 mit gleicher Wahrscheinlichkeit zwischen den Türen wählt:
P(M = 2\K = 1) =
P(M — 3\K = 1)) = ^
P(M = 2\K = 3)
P(M = 3\K = 2)) = 1
=
Damit gilt P({(1,2)})
=
P{M = 2\K=l)-P{K=l)
=
\-l-=l-
135
8 Bedingte Wahrscheinlichkeiten, Unabhängigkeit von Ereignissen
1)·Ρ(Κ=1)=1-·1-=1-
^({(1,3)})
Ρ(Μ = 3\Κ =
^({(2,3)})
P(M = ?,\Κ = 2)·Ρ{Κ
Λ{(3,2)})
1·1-=13 1 P(M = 2\K = 3) · P(K = 3) = 1 · i = ~ = 2) =
und weiter
8.19
Ρ (Wechslerin gewinnt)
P({(2.3).(3.2)}) = i + i = ?
^ ( S t a n d h a f t e gewinnt)
1 P({(1.2).(1.3)}) = i
+
I = l
Mehrstufige oder gekoppelte Experimente
Probleme in der Art des Türenproblems lassen sich auch als mehrstufige oder gekoppelte Experimente modellieren 11 . In diesem Beispiel handelt es sich um zwei Stufen. In der ersten Stufe wählt die Kandidatin, in der zweiten Stufe der Moderator, wobei seine Möglichkeiten von der Wahl der Kandidatin abhängt. Je nach der Wahl der Kandidatin liegt eine unterschiedliche Wahrscheinlichkeitssituation vor. Allgemeiner formuliert bedeutet dies, dass wir für die zweite Stufe eine (endliche oder abzählbar unendliche) Menge von Wahrscheinlichkeitsräumen (Ω,. Α(Ω,ί), P ^ , ί = 1 , 2 . 3 . . . vorliegen haben. In der ersten Stufe wird nach einem Zufallsgesetz einer dieser Wahrscheinlichkeitsräume ausgewählt. d.h. die Wahrscheinlichkeitsräume (Ω;, ,Α(Ω;). Pi) sind Elementarereignisse eines Wahrscheinlichkeitsraums (Ω.. Α(Ω). P). Der Einfachheit wegen setzen wir Ω = { 1 . 2 . 3 , . . . } , wir identifizieren also den Wahrscheinlichkeitsraum mit seinem Index, und beschränken uns auf die Situation Α(Ω) = V(ft). d.h. für jedes i gibt es ein pi £ [0.1] mit P({i}) = PiIn unserem Beispiel nehmen wir die nach der Wahl der Kandidatin verbleibenden Türen als Grundgesamtheit der einzelnen Wahrscheinlichkeitsräume in der zweiten Stufe, also {2, 3}, {1.3} bzw. {1.2}.
Sei wieder o.B.d.A. 1 die richtige Tür, so gilt für die Wahl des Moderators bei Grundgesamtheit
{2, 3} :
Ρι(2)=ρ.
P\(3) = 1 — ρ
mit ρ £ [0.1] nach dem „Geschmack" des Moderators, Grundgesamtheit 11 11
{1,3}:
vgl. z.B. N. Henze, 1995, § 3.
P 2 (3) = 1.
P 2 ( l ) = 0.
Einführung in die Wahrscheinlichkeitstheorie
136
und Grundgesamtheit
{1,2} :
P 3 ( 2 ) = 1,
P 3 ( 1) = 0.
Ein Elementarereignis des mehrstufigen Experiments besteht also in der Auswahl eines Wahrscheinlichkeitsraumes und einem Element aus dessen Grundgesamtheit, formal also (i,Lüi),
i e
{1,2,3,...},
u>£üJi.
(44)
Sei A i ein Ereignis im Wahrscheinlichkeitsraum (Ω^, A(Q.i), P i ) so setzen wir P
{ { i } x
g
A
i
) = p
i
- P
l
{ A
i
(45)
)
und erhalten auf diese Weise ein Wahrscheinlichkeitsmaß auf der Grundgesamtheit ttg = { ( ί , ω ί ) \i = 1 , 2 , 3 , . . .
€ Ω;}
(46)
der Ausgänge des zweistufigen Experiments. Zum Nachweis, dass es sich wirklich um ein Wahrscheinlichkeitsmaß handelt, betrachten wir zunächst die σ - Algebra, die von den Mengen {i} χ
At,
Ai
e Α(Ωί)
(47)
erzeugt wird. Da { ζ } χ 0 = 0 ist, können wir jedes Element der σ-Algebra als k
|J{z}x^
mit Ai ε ^Ι(Ωί)
(48)
i=1
schreiben, wobei k ε Ν im Fall von endlich vielen Wahrscheinlichkeitsräumen in der zweiten Stufe und sonst oo ist. Damit setzen wir k
=
(49) i=1
und ^4(Ω 3 ) ist σ - Algebra. Setzen wir
k
η
P9(|J{t}x4i) = $>iPi(j4i) i= 1 i=l so gilt offensichtlich
fc
Ps(|J{t}xA) i=l
> o,
(50)
8 Bedingte Wahrscheinlichkeiten, Unabhängigkeit von Ereignissen
Ρ3(Ω9)
=
P( ϋ { ζ } χ Ω 0
137
(51)
t=l
k =
j > - i
= i
i= 1
und die σ - A d d i t i v i t ä t ergibt sich aus der σ - A d d i t i v i t ä t der P;. Sei B j das Ereignis, dass der Wahrscheinlichkeitsraum (Ω^·, A ( Q j ) , P j ) für die zweite Stufe ausgewählt wird, d.h. B j = { j } χ Ω^, so gilt für A = { j } χ A j
V
W
x Aj)
pg({j}
Pj =
=
pj
Pj(Aj) Pj
P M j ) .
Die Modellierung des mehrstufigen Experiments erfolgt demnach gerade so, dass das bedingte Wahrscheinlichkeitsmaß unter der Bedingung, dass ein spezieller Wahrscheinlichkeitsraum ausgewählt wird, gerade mit dem Wahrscheinlichkeitsmaß dieses speziellen Wahrscheinlichkeitsraums übereinstimmt.
Einführung in die Wahrscheinlichkeitstheorie
138 Übungsaufgaben zu § 8
1. In der Skifabrik Blizzle bestand die gesamte Produktionspalette im Winter 87/88 aus den Modellen L, Α und S. Der Anteil des Modells L an der Gesamtproduktion betrug 40 %. Die gesamte Ausschussquote im Winter 87/88 betrug 10 %. Die Ausschussquoten waren bei Modell L: 7%
Modell A: 9%
Modell S: 15%
(a) Geben Sie den zugrundeliegenden Wahrscheinlichkeitsraum an. (b) Berechnen Sie den prozentualen Anteil der Modelle Α und S an der Gesamtproduktion im Winter 87/88. (c) Bestimmen Sie die Wahrscheinlichkeit, dass ein fehlerhafter Ski vom Modell S stammt. 2. Ein Elektrogeschäft verkauft im Monat Mai Mikrowellengeräte der Firmen Α, Β und C. Die Modelle Β und C hatten eine übereinstimmende Reklamationsquote, da die Modelle baugleich sind. Die Reklamationsquote insgesamt war 2,5 % höher als bei den Geräten Β und C, bei Modell Α um 4 Prozentpunkte höher. (a) Man bestimme mit wahrscheinlichkeitstheoretischen Methoden den Anteil der Geräte der Marke Α am Verkauf. (b) Wenn die Reklamationsquote insgesamt bei 12,5 % lag, wie hoch ist dann die Wahrscheinlichkeit, dass ein reklamiertes Gerät von der Marke Α ist. 3. Ein Reisebüro bietet in der Sparte „Erlebnis" Reisen in 3 verschiedene Länder Α, Β und C an. Man will nun den Anteil, der insgesamt mit diesen Reisen unzufriedenen Kunden ermitteln. Aus Erfahrung weiß man, dass 20 % aller Kunden, die nach Land Α fahren, mit Land Α unzufrieden sind; bei Land Β und C analog jeweils 10 %. Weiterhin ist bekannt, dass ein Kunde, der sich nach einer Reise beschwert, in 40 % aller Fälle in Land Α Urlaub gemacht hat. (a) Bestimmen Sie mit wahrscheinlichkeitstheoretischen Methoden die Reklamationsquote in der Sparte „Erlebnis". (b) Bestimmen Sie die Anteile der Erlebnisreisen in die Länder Α, Β und C, soweit es möglich ist. 4. Student R aus Aufgabe 4 zu § 2 beschließt, seinen Immatrikulationsversuch an diesem Tag nach χ Fehlversuchen abzuschließen, wenn die Wahrscheinlichkeit; nach χ Fehlversuchen noch erfolgreich zu sein, unter | sinkt. Nach wievielen vergeblichen Bemühungen wird er seinen Versuch aufgeben? 5. Man behandle Beispiel 8.8 als mehrstufiges Experiment.
9
Mehrdimensionale Zufallsvariablen
Analog zur Untersuchung bei mehreren Merkmalen auf einer statistischen Masse fassen wir mehrere Zufallsvariablen auf einem Wahrscheinlichkeitsraum zusammen. Die modellmäßige Erfassung von Problemstellungen in der Praxis erfolgt häufig durch mehrere Zufallsvariablen, deren Eigenschaften gemeinsam untersucht werden. Dementsprechend werden dann auch Ereignisse, deren Wahrscheinlichkeit zu bestimmen ist. durch das simultane Auftreten von Eigenschaften dieser Zufallsvariablen beschrieben.
9.1
Definition
Sei (Ω,Α(Ω).Ρ) ein Wahrscheinlichkeitsraum. X x , . . . , X f c : (Ω,Α(Ω).Ρ) — R jeweils Zufallsvariable. Dann heißt X = (Χχ Xk) k-dimensionale Zufallsvariable X : (Ω, A(Q),P) —> R fc . Die Forderung, dass Xi für i = 1 ,...,k Zufallsvariable ist, beinhaltet die Messbarkeit von Xi bezüglich der Boreischen Mengen, d.h. X~1(B) e A(Q) für alle Boreischen Mengen Β C R. Es stellt sich die Frage, ob X : Ω —• R^ y l ^ - Z ^ - m e s s b a r ist. Dazu ist zu überprüfen, ob für a.b €Ük mit α* < bi für i = 1 k X-^ia^DzAiQ) (1) ist für jeden Quader {a.b} := {x eüh
\ a% < Xi < bt.i = 1
k}.
(2)
da ja diese Quader die σ-Algebra Ck erzeugen 1 .
9.2
Satz
Sei >1(Ω) σ-Algebra auf Ω. X = ( Λ χ , . . . , Λ*.) : Ω —» R fc ist genau dann .4^)-£ f c -messbar, wenn Xi >l^)-,£-messbar ist für i = 1 , . . . , k. 1
Vgl. Fußnote auf Seite 38.
Einführung in die Wahrscheinlichkeitstheorie
140
Beweis:
„ = > " Sei X messbar, α, β € R mit α < β. Dann ist Μ = R χ ... χ R χ (α,β] χ R . . . χ R
(3)
eine Boreische Menge und X-^M)
=
{ω\Χ(ω)ζΜ}
=
{ω\Χί(ω)&(α,β}}
=
Λ·Γΐ((α)/9])€^(Ω).
(4)
Also ist Xi j4(0)-jC-messbar. Sei X{ messbar für i = 1 , . . . , k, so ist zu gegebenem Quader (α, b] mit a,i < bi für i = 1,..., k χ-χ((α,6])
= =
=
{ω e Ω|Χί(ω) e Κ Λ ] für i = k flHXiHeioi.hi]} i=l k flxr^ioi.ÄiDe^n), i= 1
l,...,k} (5)
da X _ 1 ( ( a j , 6j]) e Λ(Ω) wegen der Messbarkeit von Xi für i — 1 , . . . , k ist.
Damit ist es gleichgültig, ob in der Definition die Messbarkeit von X : Ω —• R fc oder von Xi für i = 1 , . . . , k gefordert wird.
9.3
Folgerung
Sei X : ( Ω , Λ ( Ω ) , Ρ ) -> R k fc-dimensionale Zufallsvariable, Ρ χ : C k ->• [0,1] definiert durch PX{B) = P{X~\B)). (6) Dann ist (R fc , Ck, Ρχ) ein Wahrscheinlichkeitsraum. Px heißt lichkeitsverteilung von X.
Wahrschein-
Die Wahrscheinlichkeitsverteilung entspricht der mehrdimensionalen Häufigkeitsverteilung. Sie lässt sich aber wie im eindimensionalen Fall nur bei endlichem Wertebereich in Form einer Tabelle angeben. Eine weitere Möglichkeit, die Wahrscheinlichkeitsverteilung anzugeben, besteht durch eine entsprechend verallgemeinerte Verteilungsfunktion.
141
9 Mehrdimensionale Zufallsvariablen
9.4
Definition
Sei X : (Ω,Α(Ω),Ρ) —> R fc eine fc-dimensionale Zufallsvariable. Z u q = ( q i , . . . , Qfc) G R fc ist {x G R fc | Xi < cti für i = 1 , . . ., k} =: ( - o o , a] G Ck und damit P(X~l{(—oo,α]))
(7)
definiert. Die Abbildung F : R fc
[0,1] mit
F(a) = P(X-\(-oc,a}))
(8) (9)
= Px({-oo,a])
heißt Verteilungsfunktion von X. Anstelle von
((—oo,α])) schreibt man auch
F(a) = P{X
< α) = P(Xx
< ax. X2 < a2,...,
und analog für F ( X _ 1 ( { a ; } ) mit χ = (χι....
Xk < ak)
(10)
.x^) G R fc
P(X = x) = P(X1=xl,...,Xk=xk).
(11)
Mit Hilfe der Verteilungsfunktion lassen sich nun beispielsweise für fc-dimensionale Quader die Wahrscheinlichkeiten berechnen.
9.5
Beispiel
Sei X : (Ω,^4(Ω),Ρ) —* R 2 zweidimensionale Zufallsvariable mit Verteilungsfunktion F. Dann ist Px(((ai,a2),(bl,b2)]) =
P ( ( - o o , (öj, 6 2 )]) - P((-oo.
(ai,b2)})
- P((—oc, ( 6 l a 2 )])
+ P ( ( —oo, (αϊ,a 2 )]) =
F((bub2))
-F((al,b2))-F((b1.a2))
(12) +
F((a1.a2))
entsprechend der Abbildung 9.1 2 . Wie im eindimensionalen Fall wird wieder unterschieden zwischen diskreten und stetigen Zufallsvariablen, wobei auch hier Mischformen möglich sind, die wir nicht weiter verfolgen werden. 2
Anhand (12) kann man auch erkennen, dass nicht jede monotone Funktion F Verteilungsfunktion ist : (9) wird z.B. negativ, wenn F(bi,b2) = F(ai,f>2) = ^ ( ^ 1 . 1 2 ) j=- 0 und F ( a i , a 2 ) = 0 ist. Dies ist auch bei monotonem F möglich.
142
Einführung in die Wahrscheinlichkeitstheorie
Ρ*((-οο,(&ιΛ)])
b2
dl
a2
Ρχ({—οο,
(6ι,α2)])
Ρχ((-oo,
a2
Ol
öl
b2
bi
(αι,α2)])
b1
Ργ(((αι,α2),(61,62)])
a2
«χ
&1
'
Abbildung 9.1: Zur Berechnung von Ρ χ ( ( ( α ι , α 2 ) , (&i,&2)]) aus der zweidimensionalen Verteilungsfunktion von X
143
9 Mehrdimensionale Zufallsvariablen
9.6
Definition
Eine fc-dimensionale Zufallsvariable X : (Ω. Α(Ω). P) —> R fc heißt diskret, wenn Χ(Ω) = {xz G R fc | i e /}, wobei / C K . also endlich oder abzählbar unendlich, ist.
Bemerkung: X ist offensichtlich genau dann diskret, wenn Χ ι , . . . . X t diskrete (eindimensionale) Zufallsvariablen sind. Dabei ist Χ(Ω) genau dann unendlich, wenn Χ, (Ω) für mindestens ein j unendlich ist.
9.7
Beispiel
Wie in Beispiel 8.12 betrachten wir die Gesamtproduktion eines Konsumartikels einer Firma über einen bestimmten Zeitraum, der an den Wochentagen Mo. Di.... hergestellt wurde. Sei Ω wie oben das Laplace-Experiment mit der Menge aller produzierten Exemplare als Grundgesamtheit. Sei ΧΧ : Ω —> R definiert durch 1 2 3 4 5
XiM =
ω ω ω ω ω
wurde wurde wurde wurde wurde
am am am am am
Mo Di Mi Do Fr
produziert produziert produziert produziert produziert
(13)
und Χι : Ω —» R definiert durch 0
ω ist in Ordnung
1
ω ist Ausschuss.
(14)
Χ2(ω) = Als Wertebereich von X erhält man damit X(Q)
=
{(1.0), (1.1), (2,0), (2,1), (3,0), (3,1), (4.0), (4.1). (5.0). (5.1)}.
Für jede Kombination aus Χ(Ω) ist nun eine Wahrscheinlichkeit festgelegt: Px({(i,k)})
= =
3
3
P(X-\i,k))
P{{lü e Ω I Λ"ι(ω) = ί,χ2{ω) = k}) _1
(15)
Korrekt müsste es heißen X ( { ( i . f c ) } ) als Urbildmenge der einelementigen Teilmenge {(i,/c)} von Χ ( Ω ) . Für eine bessere Lesbarkeit verzichten wir auf einen Teil der Klammern.
144
Einführung in die Wahrscheinlichkeitstheorie
Nach § 8 erhalten wir folgende Werte
i =
κ
—
1
2
3
4
5
0
0.196
0.246
0.1975
0.198
0.1478
1
0.003
0.003
0.0025
0.002
0.0022
Diese Werte ergeben sich entweder direkt aus der Tabelle der absoluten Häufigkeiten oder aus der zweiten Tabelle durch folgende Überlegung: 0.015 =
(16)
Mit P{A ΓΊ Mo) = Ρχ({(1,1)}) = 0.016 · 0.2 ist Ρ({ω\Χι(ω) = 1,Χ2{ω) = 1}) = 0.003.
(17)
Eine andere Überlegung liefert dasselbe Ergebnis: Sei Ν die Gesamtstückzahl der Wochenproduktion, dann ist 0.2 · Ν die Montagsstückzahl mit einem Ausschussanteil von 0.016, also wurden 0.016 · 0.2 • TV schlechte Einheiten am Montag produziert; Division durch Ν liefert die relative Häufigkeit.
9.8
Definition
Sei X : (Ω, Α(Ω),Ρ) —> R fc eine fc-dimensionale Zufallsvariable mit Verteilungsfunktion F. X heißt stetig, wenn es eine integrierbare Funktion / : R fc —> R gibt mit Olk
Ol
a k ) = J ... J f(xi,...,xk) — oo —oo
F(a!,...,
dxx ...dxk
(18)
für alle reellen Zahlen α χ , . . . , f heißt Dichte(funktion) gilt:
von X oder gemeinsame Dichte von X\,...,
/ ( x i , . . . , Xfc) > 0 für alle x\,...,
xk G R,
Xk, falls (19)
9 Mehrdimensionale Zufallsvariablen
145
2. Ist F an der Stelle α = ( α ϊ , . . . , den Variablen α ϊ , . . . , ctk, so gelte
&-mal partiell differenzierbar nach
dkF da\dct2 • • •f(a). dak
(20)
Die Forderungen 1. und 2. entsprechen genau den Forderungen an eine Dichte im eindimensionalen Fall. Es geht also darum, willkürliche und dadurch irreführende Festlegungen der Dichte an einzelnen Stellen zu vermeiden. Notwendige Eigenschaft einer Dichte ist analog zum eindimensionalen Fall: -t-oc
+
3C
j ... J f(xl,...,xk)dxl...dxk = 1. 9.9
(21)
Beispiele
1. Gleichverteilung auf einem Rechteck: Gegeben sei ein Rechteck mit den Koordinaten (α, c), (6, c), (α, d), (b, d)
x2
d-
Xl Abbildung 9.2: Zur Gleichverteilung über einem Rechteck
Als Dichtefunktion / : R 2 —> R verwenden wir analog zur eindimensionalen Gleichverteilung
tf
/ ( X 1
\ /C
'X2)=
0
α < χι < b,c < x2 < d sonst
(22)
. .
Einführung in die Wahrscheinlichkeitstheorie
146
wobei C noch geeignet zu bestimmen ist. Da +00 +00 J
J f(xi,x2)dx2dxi
= l
(23)
— oo —OO
gelten muss, ergibt sich für C die Forderung +00 +00 l = j
J
b
f(xu
x2)dx2dx1
= j C{d-c)dxi=C{d-c){b-a).
— 00 —00
(24)
a
Damit ist C = , also der Kehrwert des Flächeninhalts des Rechtecks. Man erhält damit
F(a i,a2)
=
2. X = (X1,X2)
(d-c)(b-a) ' ( Q l b^(ai-o) jh^{a2-c) 1 0
- c)
a 40 I X = 0) = 1. P(Y < 20 I X = 1) + P(20 < Y < 40 | X = 1) + P(Y > 40 | X = 1) = 1.
Daraus resultiert Tabelle 10.4.
Alter Geschlecht männlich weiblich
< 20
[20,40]
> 40
0.2 0.1
0.3 0.2
0.5 0.7
Σ 1 1
Tabelle 10.4: Bedingte Wahrscheinlichkeiten des Alters zu Beispiel 10.10
Mit der Beziehung P(Y = yj \X = x)
x=x) P(X=x)
und damit P(Y = yi, X = x) = P(Y = yj \X = x). P(X = x)
kann die gemeinsame Wahrscheinlichkeitsverteilung von (X,Y) angegeben werden (s. Tabelle 10.5). Z.B. ist P{X = 0, Y < 20) = P{Y < 20 | X = 0) · P(X = 0) = 0.2 · 0.6 = 0.12.
10 Randverteilung, bed. Verteilung und Unabhängigkeit von Zufallsvariablen
Alter
< 20
[20,40]
> 40
männlich
0.12
0.18
0.3
0.6
weiblich
0.04
0.08
0.28
0.4
0.16
0.26
0.58
1
Σ
Geschlecht
Σ
161
Tabelle 10.5: Gemeinsame Wahrscheinlichkeitsverteilung von Geschlecht und Alter aus Beispiel 10.10
Bei stetigen Zufallsvariablen ist diese Vorgehensweise nicht durchführbar, da bei einer stetigen Zufallsvariablen X für jede reelle Zahl χ € R P(X = x) = o
(39)
gilt. Wenn wir also die bedingte Verteilung von Y unter der Bedingung X = χ bei stetigem X einführen wollen, so betrachten wir zunächst besser einen Bereich um χ mit positiver Wahrscheinlichkeit und verwenden diesen als Bedingung. Sei also ε > 0 und [χ,χ + ε] ein solcher Bereich 2 , d.h. für das Ereignis Αε = „X € [χ, χ + ε]" = {ω e Ω|χ < Χ {ω) < χ + ε}
(40)
gelte Ρ(Αε)
= Ρ{χ < Χ < χ + ε) φ 0.
(41)
Damit ist dann wieder ein Wahrscheinlichkeitsmaß unter der Bedingung Αε = ,.χ < X < χ + ε" definiert, und wir können die Wahrscheinlichkeitsverteilung von Y bezüglich dieses bedingten Wahrscheinlichkeitsmaßes bilden. Betrachten wir die Verteilungsfunktion von dieser Wahrscheinlichkeitsverteilung. Sie sei mit F y ^ bezeichnet: FY\AM
=
P(Y
i,..., iün) € Ω" | uji £ A. jjj beliebig für j φ ;}
=
Ωχ...χΩχ^χΩχ...χΩ.
(2)
Für das Wahrscheinlichkeitsmaß P ^ auf Ω η fordern wir also P(n){.,Ui e Au) = Ρ ( η ) ( Ω χ . . . χ Ω χ ^ χ Ω χ . . . χ Ω ) = P{A) für i = l.....n.
11.5
(3)
Beispiel
Wird die Roulettekugel fünfmal hintereinander geworfen, so ist die Wahrscheinlichkeit beim dritten Wurf eine 17 zu erhalten, mit ^ genauso groß, wie
Einführung in die Wahrscheinlichkeitstheorie
176
bei einem einmaligen Wurf eine 17 zu erhalten. Unabhängigkeit der einzelnen Würfe bedeutet dann weiter, dass die Wahrscheinlichkeit für 8 im ersten, 23 im zweiten, 17 im dritten, 3 im vierten und 31 im letzten Wurf sich als Produkt der Wahrscheinlichkeiten ergibt, d.h. wir erhalten (^y) 5 Etwas allgemeiner können wir auch das Ereignis betrachten „Zahl beim dritten Wurf im letzten Drittel". Sei die Zahl beim dritten Wurf und A = { 2 5 , . . . , 36}, so kann dies mit e A u abgekürzt werden. Entsprechend können wir dann auch die Kombination ωι
im zweiten Drittel (ωι € { 1 3 , . . . , 24})
Lü2 =
0
Wz
im dritten Drittel (ω.3 G { 2 5 , . . . , 36})
CJ4
im ersten Drittel (0)4 G { 1 , . . . , 12}) im zweiten Drittel (ω^ G { 1 3 , . . . , 24})
betrachten und erhalten als Wahrscheinlichkeit dafür wegen der Unabhängigkeit 12
1
12
12
12
37 ' 37 ' 37 ' 37 ' 37 ' Legen wir jetzt wie im Beispiel für jedes i ein Ereignis Ai fest, i — 1 , . . . , n, so erhalten wir das - kombinierte - Ereignis „ω, € Ai,i = 1 , . . . , n"
=
{ ( ω ι , . . . ,ωη) G Ω™ | ω, G Ai für i = 1 , . . . , η}
=
Αχ χ Α2
Χ
. . . χ Αη.
(4)
Wegen der Unabhängigkeit der Durchführungen werden wir verlangen, dass P
w
U e i „ i
= l,...,n")
=
Ρ(„ωχ e A!«) •... • Ρ(„ωη ε Anu) η π
=
i= 1
^
(5)
)
gilt. Damit ist p(n) für alle Teilmengen A\ χ . . . χ A n , Ai Ereignis in Ω für i = 1 , . . . , n, eindeutig festgelegt. Teilmengen dieser Art sind von ganz spezieller Gestalt, und es ist keineswegs so, dass diese alle praktisch relevanten Ereignisse darstellen. Dies wird am Beispiel Ω = R deutlich. Wichtige Ereignisse in R sind u.a. Intervalle, nehmen wir also für η = 2 als Αχ das Intervall [ α ι , β ι ] und als A2 das Intervall [021/^2]· Dann ist Ai χ A2
= =
{{xi,x2) {{xi,x2)
G R 2 I χ ι G [ a u ß i ] , x 2 e [a 2 l / ö 2 ]} e R
2
I ai < χι < ßi,a2 R mit g(x
ι,...,χ
η
1 η
) = -
so ist Y d i e H i n t e r e i n a n d e r a u s f ü h r u n g g oY
n
V
'
xz
,
(4)
i= ι
m i t Y = ( Y i . . . . ,Yn)
von Y u n d
g, also eine Funktion von Y (vgl. auch § 7). Wie dort schreiben wir auch g ( Y \ , . . . . Y n ) . in diesem Fall also g ( Y
u
. . . , Y
n
) = Y
= - Τ Yi. η ' i= 1
(5)
Einführung in die Wahrscheinlichkeitstheorie
190
Beispiele von Funktionen: τι
η
1. Summe : Σ Yi und arithmetisches Mittel : ^ Σ Y l i= 1 i=l 2. Maximum : m a x { Y i , . . . , Yn} 3. Minimum : min{Yi,... ,Yn} 4. Spannweite (Range): R ( Y . . . , Yn) = ma x { U
Y
u
. . . , Y
n
} -
min^,...
, Y
n
}
η
5. Produkt : Υ 1 · . . . · Υ η =
JJYJ i=
1
Für die weiteren Überlegungen ist es dann von Interesse, soweit irgend möglich, die Wahrscheinlichkeitsverteilung der Funktion von Y \ , . . . , Y aus der Wahrscheinlichkeitsverteilung von Y = ( Y i , . . . ,Yn) zu ermitteln, im Beispiel n
n
des arithmetischen Mittels also die Verteilung von Υ = ^ ^ Yi bei bekann»=i ter Verteilung von Y = (Y\, . . , Y ) . Bereitet dies Schwierigkeiten, so wird man versuchen, zumindest Kennzahlen wie Erwartungswert und Varianz für g ( Y i , . . . , Y n ) zu berechnen. n
13.1
Beispiel
Betrachten wir das Beispiel 11.5 der fünfmaligen Durchführung eines Wurfes der Roulettekugel. Dabei setzen wir jedes Mal 10 DM auf das mittlere Drittel. Wie im Beispiel 11.2 sei das Ergebnis „1. Drittel" mit 1, „2. Drittel" mit 2, „3. Drittel" mit 3 und „Zahl 0" mit 0 bezeichnet. Die fünf Versuche gemeinsam betrachtet werden damit durch eine fünfdimensionale Zufallsvariable Y = (Yi, Y2, Y3, Y4, Y5) erfasst, wobei Yi gerade den i-teri Versuch beschreibt. Die Auszahlung, die wir erhalten, hängt vom zufälligen Ergebnis der fünf Würfe ab und ist damit selbst eine Zufallsvariable. Bei einmaliger Durchführung ist die Auszahlung 30 beim Treffen einer Zahl im mittleren Drittel und sonst 0. Sei (2/1,2/2,2/3,2/4,2/5) das Ergebnis der fünf Würfe, so ist die Auszahlung 5 · l Z weites Drittel (Vi),
5(2/1,2/2,2/3,2/4,2/5) =
i=l wobei ί
1-zweites Drittel
1
\ 0
ζ
=
2
sonst
13 Funktion und Transformation mehrdimensionaler Zufallsvariablen
191
ist. Die Auszahlung ist also eine Funktion der Einzelergebnisse. D a m i t sind insgesamt die Auszahlungen 0, 30, 60, 90, 120, 150 möglich. Die Auszahlung 150 erhalten wir nur, wenn jedesmal das mittlere Drittel getroffen wird, d.h. (2/1,2/2,2/3,2/4,2/5) = ( 2 , 2 , 2 , 2 , 2 ) . Dieses Ereignis h a t die Wahrscheinlichkeit = 0.34 5 . 120 wird uns insgesamt ausbezahlt, wenn viermal das mittlere Drittel erscheint, das Ergebnis des verbleibenden Versuchs spielt keine Rolle.
· - - ,>5) = Wahrscheinlichkeit (12) 4 . J_ V 37 / 37
(0,2,2,2,2) (1,2,2,2,2)
(M)5
(3,2,2,2,2)
(ü)5 /Ί2\4 1 V 37/ ' 3 7
(2,0,2,2,2) (2,1,2,2,2) (2,3,2,2,2) (2,2,0,2,2)
(ü)5 /12\4 1 137/ ' 3 7
(2,2,1,2,2)
(ü)5
(2,2,3,2,2)
(Ρ)" (12\4 1 V 37 / ' 3 7
(2,2,2,0,2) (2,2,2,1,2)
(Ρ)5
(2,2,2,3,2)
(i)5 / 12 λ 4 1 V 37 / ' 3 7
(2,2,2,2,0) (2,2,2,2,1)
(i)
(2,2,2,2,3)
(II)5
5
Durch Aufaddieren dieser Wahrscheinlichkeiten erhalten wir die Wahrscheinlichkeit für eine Auszahlung von 120. Wir betrachten also alle Einzelergebnisse (2/1-2/2,2/3,2/4,2/5) v o n [Yi.Y2,Y3,Y4,Y5) bei denen die Auszahlung, also der Funktionswert ) = 120) 37 V 3 7 /
\37
4
5
'
12 Λ ( 1 .37 7 l 37
_ +
2
12 ' 37
192
Einführung in die Wahrscheinlichkeitstheorie
• -iVM Analog ergibt sich
P(g(Y1,Y2,Y3,Y4,Y5)
= 90)
5 \ / l W l 2 A V\Z1J
. ,
3
+ 5
V377
'
zweimal die Null
3 7
/
\\37J
5Wl2\
3
'
o 2
J_fl2A4
4 +
J _ 12
37
2
.
W
(12
4
"
' U ?
keine Null / 12 x
37 37 ^
l + 48 + 576 _
K2j\37J
(5\ +
- 3 7 l 3 7 j
einmal die Null
5λ ( 1 2 λ 3 ( ( 1 Ϋ 2/V
4
4
2N
'1,37,
/5\/12\3 /
12x
\2J\37j
37
\
2
und weiter
P(g(Yi,Y2,Y3,Yi,Y5)
= 3Q)
P(g(Y1,Y2,Y3,Y4,Y5)
= 0)
=
5 ·g
(l
-
=
Die Auflistung aller Kombinationen, deren Funktionswert übereinstimmt ist offensichtlich häufig mühsam. Das Ergebnis in diesem Beispiel (Binomialverteilung Β (5, ) legt nahe, dass dieses Ergebnis auch einfacher zu erhalten sein dürfte (wie?). Die Beziehung zwischen den Wahrscheinlichkeitsverteilungen von g(Yi,...,Yn) und von Y = ( Y j , . . . , Yn) ist vom Prinzip wie im eindimensionalen Fall: Sei g : R " —> R f c , Β P(g(Y1:...,Yn) = =
G Ck\
also ein Ereignis für g (Yu
....
Yn).
g B ) | # i H , . . . , F „ M )
Ρ ( { ω £ Ω | (Vi ( ω ) , . . . ,Υη(ω))
e B
})
= y GR
71
(6) mit g(y)
G Β }).
Sei nun Y diskret mit Werten yj £ R™, j G J C N . D a n n ist Ρ ( { ω G Ω I (Y1 Η , . . . , Υη(ω))
=
tf
, j G J , mit g t f ) G Β } )
£ jeJ:g(yi)eB
P{Y
=
tf).
(7)
13 Funktion und Transformation mehrdimensionaler Zufallsvariablen
193
Entsprechend gilt für stetiges Y mit Dichtefunktion f y . P(g(Yu...,Yn)eB)
= J...Jf
Y
{ y ... .yn)dVl
... dyn.
^
{yl9(y)eB}
13.2
Satz
Sei Y = {Yl.....Yn) n-dimensionale Zufallsvariable, g : R n l ^ ' - m e s s b a r . Dann gilt :
Rfc
£"-
1. für diskretes Y mit Werten yj t)
P
(
m
m
T
i