197 24 75MB
German Pages 298 [336] Year 1976
J. A. ROSANOW STOCHASTISCHE P R O Z E S S E
MATHEMATISCHE L E H R B Ü C H E R U N D MONOGRAPHIEN
HERAUSGEGEBEN VON D E R AKADEMIE D E R WISSENSCHAFTEN DER DDR ZENTRALINSTITUT FÜR MATHEMATIK UND MECHANIK
I. ABTEILUNG
MATHEMATISCHE L E H R B Ü C H E R BAND 28
STOCHASTISCHE P R O Z E S S E VON
J. A. ROSANOW
AKADEMIE-VERLAG • B E R L I N 1975
J. A. ROSANOW
STOCHASTISCHE PROZESSE EINE EINFÜHRUNG
In deutscher Sprache herausgegeben von Dr. U W E K Ü C H L E R
AKADEMIE-VERLAG • B E R L I N 1975
K). A. PoaaHOB CjiyiaftHtie n p o q e c c u Erschienen im Verlag Nauka, Moskau Deutsche Übersetzung: Dipl.-Math. Jürgen Franz, Dr. Lothar Partzsch
Erschienen im Akademie-Verlag, 108 Berlin, Leipziger Straße 3—4 © Akademie-Verlag, Berlin, 1975 Lizenznummer: 202 • 100/407/75 Gesamtherstellung: V E B Druckhaus „Maxim Gorki", 74 Altenburg Bestellnummer: 762 123 4 (6160) • LSV 1074 Printed in GDR EVP 5 4 , -
VORWORT Dieses Buch entstand parallel zu einer Vorlesung über die Theorie stochastischer Prozesse, die ich am Moskauer physikalisch-technischen Institut in den Jahren 1969 bis 1970 gehalten habe. Ich hoffe, daß es für alle Leser von Nutzen sein wird, die die grundlegenden Ergebnisse und Methoden der Theorie der stochastischen Prozesse kennenlernen wollen. Ich möchte hiermit J . W . P R O C H O R O W herzlich danken, der das Manuskript des Buches durchgesehen und mit einer Reihe wertvoller kritischer Bemerkungen mich veranlaßt hat, das gesamte Material noch einmal gründlich zu durchdenken und viele Änderungen anzubringen. Außerdem möchte ich auch O. W. W I S K O W , dem Redakteur dieses Buches, für die von ihm geleistete Arbeit meinen Dank aussprechen. J . A . ROSANOW
INHALTSVERZEICHNIS I.
Einführung in grundlegende Begriffe der Wahrscheinlichkeitstheorie
1.
Der Baum der Elementarereignisse, der Wahrscheinlichkeitsbegriff
1 1
1.1. Versuche mit gleichwahrscheinlichen Ausgängen 1.2. Der Baum der Elementarereignisse 1.3. Grundlegende Eigenschaften der Wahrscheinlichkeit, die Additivität und die Stetigkeit 1.4. Modell und Wirklichkeit
1 8 12 17
2. Unabhängigkeit und bedingte Wahrscheinlichkeiten 2.1. Der Begriff der Unabhängigkeit 2.2. Bedingte Wahrscheinlichkeiten
19 19 23
3.
Zufallsgrößen und Wahrscheinlichkeitsverteilungen, die Unabhängigkeit
26
3.1. 3.2. 3.3. 3.4. 3.5.
Diskrete und stetige Wahrscheinlichkeitsverteilungen Die gemeinsame Wahrscheinlichkeitsverteilung zweier Zufallsgrößen Abbildungen von Zufallsgrößen Bedingte Wahrscheinlichkeitsverteilungen Mehrdimensionale Zufallsgrößen
26 29 34 37 38
4. 4.1. 4.2. 4.3. 4.4. 4.5.
Der Erwartungswert einer Zufallsgröße Definition und Eigenschaften des Erwartungswertes Momente, Streuung und TSCHEBysCHEWsche Ungleichung Bedingte Erwartungswerte Der Abstand im quadratischen Mittel und der Korrelationskoeffizient Einige Konvergenzsätze
40 40 45 48 52 56
5.
Unbegrenzte Versuchsreihen mit unabhängigen Versuchen und Gesetze der großen Zahlen
62
5.1. Gesetze der großen Zahlen 5.2. Wahrscheinlichkeit und Häufigkeit
62 65
II. Einige Wahrscheinlichkeitsverteilungen
68
1.
68
Zufällige Auswahl und zufällige Aufteilung
1.1. Kombinatorische Formeln 1.2. Einige Wahrscheinlichkeitsverteilungen für unabhängige Teilchen im Phasenraum 2.
Die PoissoNsche Verteilung, homogene Ereignisströme und Verweilzeiten in einem Zustand
68 73 82
VIII
Inhaltsverzeichnis
2.1. PoissoNsche Verteilung von Teilchen 2.2. Die Zeit bis zum Eintreten eines zufälligen Ereignisses 3.
Das ÜERNOTTLLische Versuchsschema und die BROWnsche Bewegimg, damit zusammenhängende Wahrscheinlichkeitsverteilungen
82 87 94
3.1. Das BERNOumsche Versuchsschema und die Binomialverteilung, Approximation der Binomialverteilung durch die PoissoNsche Verteilung und durch die Normalverteilung 94 3.2. Die BROWNsche Bewegung, die Wahrscheinlichkeitsverteilung des Maximums und des Zeitpunktes seines ersten Erreichens 101 4.
Normalverteilungen und mit Normalverteilungen zusammenhängende Wahrscheinlichkeitsverteilungen 109
4.1. Mehrdimensionale Normalverteilungen 109 4.2. Die Schätzung der Parameter einer Normalverteilung, die ^-Verteilung und die 5.
STUDENT-Verteilung
117
Wahrscheinlichkeitsverteilungen und charakteristische Funktionen
123
5.1. Charakteristische Funktionen und ihre grundlegenden Eigenschaften 5.2. Konvergenz von Wahrscheinlichkeitsverteilungen
123 130
I I I . Stochastische Prozesse
139
1.
139
Definitionen und Beispiele
1.1. Allgemeine Definition stochastischer Prozesse
139
1.2. MARKOWsche P r o z e s s e
140
2.
MARKOWsche Ketten, Klassifikation der Zustände, stationäre Verteilungen . . . .
144
2.1. 2.2. 2.3. 2.4.
Übergangswahrscheinlichkeiten Rekurrente und transiente Zustände Mittlere Verweilzeit in einem Zustand, Klassifikation der Zustände Ein Ergodensatz (Konvergenz gegen die stationäre Wahrscheinlichkeitsverteilung)
144 149 153 157
3.
MARKOWsche Ketten mit stetiger Zeit
165
3.1. Differentialgleichungen f ü r die Übergangswahrscheinlichkeiten 3.2. Ergodizitätskoeffizient und Konvergenz gegen die stationäre Verteilung
165 171
4.
174
Verzweigungsprozesse
4.1. Eine Differentialgleichung für die erzeugende Funktion 4.2. Aussterben und Explosion von Verzweigungsprozessen
174 181
5.
182
Einige stochastische Prozesse in der Bedienungstheorie und Irrfahrten
5.1. Erneuerungsprozesse 182 5.2. Folgen von Summen unabhängiger Zufallsgrößen, Verteilung des Maximums . . . 188 5.3. Stochastische Prozesse in Systemen mit einem Bedienungsgerät 196 6.
Stochastische Prozesse in linearen Systemen
203
6.1. 6.2. 6.3. 6.4.
Einige einführende Bemerkungen Das stochastische Integral Konvergenz gegen einen stationären Prozeß Prozesse mit Brechungseffekt
203 207 211 213
Inhaltsverzeichnis 7.
Stationäre Prozesse
IX 218
7.1. Spektraldarstellung stationärer Prozesse und FouRiER-Transformation 7.2. Lineare Transformationen, Beispiele
218 227
8.
235
Diffusionsprozesse
8.1. Stochastische Prozesse, die als stochastisches Integral im Sinne von ITO darstellbar sind 235 8.2. Die KOLMOGOBOWschen Differentialgleichungen 247 IV. Prognose und Filtration stochastischer Prozesse
254
1.
Die Aufgabe der besten Approximation, Beispiele
254
2.
Prognose und Filtration stationärer Prozesse
261
2.1. Die Aufgabe der linearen Prognose 2.2. Lineare Filtration (Schätzen des Mittelwertes)
261 265
3.
272
Bedingte Erwartungen und einige Aufgaben der Prognose und Filtration
3.1. Ergänzende Bemerkungen zu den bedingten Erwartungen 272 3.2. Die Rolle der a-posteriori-Wahrscheinlichkeiten in einigen Aufgaben der Prognose und Filtration 278
KAPITEL I EINFÜHRUNG IN GRUNDLEGENDE BEGRIFFE DER WAHRSCHEINLICHKEITSTHEORIE 1. Der Raum der Elementarereignisse, der Wahrscheinlichkeitsbegriff 1.1. Versuche mit gleichwahrscheinlichen Ausgängen Zur Einführung betrachten wir einige einfache Versuche, bei denen nicht von vornherein bekannt ist, mit welchem Ergebnis sie enden werden, sondern bei denen man nur weiß, mit welcher Wahrscheinlichkeit dieser oder jener Versuchsausgang eintritt. Das Werfen einer Münze Man wirft eine symmetrische Münze und beobachtet, welche Seite nach dem Wurf oben liegt. Als Ergebnis erscheint, abhängig vom Zufall, die Zahl oder das Wappen. Das Werfen eines Spielwürfels Dieser Versuch ist ein Bestandteil vieler populärer Kinderspiele, wie zum Beispiel „Wirf raus". Dabei werfen die Spieler nacheinander einen regelmäßigen Würfel, den sogenannten Spielwürfel, dessen Flächen durch die Zahlen 1,2, . . . , 6 numeriert sind. Nach jedem Wurf liegt, abhängig vom Zufall, eine der Flächen oben, mit anderen Worten, es tritt eine der Augenzahlen a — 1,2,..., 6 auf. Jeder Spieler rückt dann seine Spielfigur, wenn die Spielregel nichts anderes vorschreibt, so viele Schritte weiter, wie viele Augen er gewürfelt hat. Ein etwas komplizierterer Versuch wird in folgendem bekannten Glücksspiel durchgeführt. Jeder Spieler wirft zwei Spielwürfel, und es gewinnt derjenige, bei dem die Summe der gewürfelten Augen am größten ist. Als zufälliges Ergebnis tritt bei jedem solchen Wurf mit zwei Würfeln eine der möglichen Kombinationen (o, b) auf, wobei a die Augenzahl des ersten und b die Augenzahl des zweiten Würfels ist. Ein Roulettespiel Man stelle sich eine schwere Scheibe vor, die horizontal gelagert ist und sich leicht um ihre vertikale Achse drehen läßt. Sie sei in N regelmäßige, durch die Zahlen 1,2, . . . , N numerierte Sektoren unterteilt, und entlang des Scheibenrandes befinde sich eine gleichmäßige Rinne, in der eine kleine, frei bewegliche Kugel liege (vgl. Abb. 1). I n jeder Spielrunde wird die Scheibe in Drehungen versetzt, so daß die Kugel in der Rinne rollt. Nach dem Anhalten der Scheibe
2
I. Grundlegende Begriffe
bleibt auch die Kugel liegen, und zwar, abhängig vom Zufall, in einem der Sektoren mit den Nummern 1,2, ..., N. J e nach dem vorher vereinbarten Spiel erhält der Spieler dann einen entsprechenden Gewinn.
—r" Abb. 1
Alle beschriebenen Versuche (das Werfen einer Münze oder eines Spielwürfels, das „Werfen" einer Kugel beim Roulettespiel) haben folgende Eigenschaften gemeinsam: — der Ausgang des Versuches ist zufällig, — es gibt eine gewisse endliche Anzahl von möglichen, sich gegenseitig ausschließenden Versuchsausgängen, — alle Versuehsausgänge sind gleichwahrscheinlich. Besitzt ein Versuch diese drei Eigenschaften, so nennt man ihn einen Versuch mit einer endlichen Anzahl gleichwahrscheinlicher Ausgänge. Diese Versuchsausgänge heißen Elementarausgänge oder Elementarereignisse, sie werden im weiteren mit a> bezeichnet. Wir betrachten irgendeinen Versuch mit einer endlichen Anzahl gleichwahrscheinlicher Ausgänge und bezeichnen durch N die Gesamtanzahl der Elementarereignisse. Jedes dieser Ereignisse besitzt die Wahrscheinlichkeit —, da sie sämtlich gleichwahrscheinlich sind. ^ Es sei A ein Ereignis, das in Abhängigkeit vom zufälligen Ausgang a> des Versuches entweder eintritt oder nicht eintritt. Mit N(A) werde die Gesamtanzahl der Elementarereignisse bezeichnet, deren Eintreten das Eintreten von A nach sich zieht. Das Ereignis A ist natürlich um so w a h r s c h e i n l i c h e r 1 ) , je größer die Zahl jV(^L) ist. Die Wahrscheinlichkeit des Ereignisses A, bezeichnet mit P ( A ) , wird deshalb proportional zur Größe iV(v4) gesetzt, genauer, diese Wahrscheinlichkeit wird durch (1.1)
definiert. x
) Intuitiv sollte man die Aussage „Das Ereignis A ist wahrscheinlicher als das Ereignis B" so deuten, daß bei vielfacher Wiederholung eines entsprechenden Versuches das Ereignis A häufiger als das Ereignis B eintreten wird.
1. Raum der Elementarereignisse
3
Zum Beispiel ist die Wahrscheinlichkeit dafür, daß nach dem Werfen einer Münze das Wappen oben liegt, gleich —, und die Wahrscheinlichkeit dafür, daß 2 beim Werfen eines Spielwürfels eine gerade Augenzahl erscheint, ebenfalls gleich —. Dagegen ist die Wahrscheinlichkeit dafür, daß beim Werfen zweier Spiel2 Würfel das Ereignis A : „Die Summe der Augenzahlen ist größer als 10" eintritt, gleich — . Die Anzahl N aller möglichen Elementarausgänge co, d. h. aller mög12 liehen Kombinationen (a, b) ist nämlich hier gleich 36 (a,b = 1, . . . , 6), und die Anzahl der Ausgänge, bei denen das Ereignis A eintritt, d. h., bei denen a + 6 > 10 gilt, gleich 3. (Das Ereignis A tritt genau bei den Versuchsausgängen (5, 6), (6, 5) und (6, 6) ein.) Wir betrachten noch einmal das oben beschriebene Roulettespiel. Nach dem Anhalten der Scheibe hat die Kugel eine bestimmte Lage, die man, sofern man die Kugel als Punkt auf dem Kreis ansieht, durch ihre Winkelkoordinate co (0 co 2tz) beschreiben kann. Der zufällige Punkt co fällt in jeden der N gleichen Sektoren, in die die Scheibe unterteilt ist, mit ein und derselben Wahrscheinlichkeit—. Nimmt man ferner N an, die Wahrscheinlichkeit P(^4) dafür, daß o> in einen Sektor A = [co', co"] (vgl. Abb. 2) fällt, sei für alle Sektoren mit gleichem Öffnungswinkel co" — co' dieselbe, so ist P(^4) bestimmt, und zwar gilt
Die Rinne, in der sich die Kugel bewegt, habe die Länge L. Wickelt man diese Rinne auf das Intervall [0, L] der reellen Achse —oo < x < + oo ab, so kann man neben co auch den zufälligen Punkt £ = a>
betrachten. Dieser Punkt 2n fällt in irgendein Teilintervall [x', x"] von [0, L] mit einer Wahrscheinlichkeit, die nur von der Länge x" — x' dieses Intervalles abhängt und gleich x" — x' ist. L Die Größe £ hängt vom Zufall ab, mit anderen Worten, sie ist eine Zufallsgröße. Die Wahrscheinlichkeit dafür, daß sie einen Wert aus dem Intervall [x', x"\ annimmt (nachfolgend mit P{x' 5S | x"} bezeichnet), kann mit Hilfe eines Integrals ausgedrückt werden: X (1.2) wobei der Integrand P((x), der im weiteren Wahrscheinlichkeitsdichte (oder kurz Dichte) der Zufallsgröße | genannt wird, für die hier betrachtete Zufallsgröße f
I . Grundlegende Begriffe
die Gestalt für 0 ¿ x Vi(x)
^L, (1.3)
=
0
für x < 0 ,
x > L
besitzt. Die Zufallsgröße £ heißt aufgrund der speziellen Form ihrer Wahrscheinlichkeitsdichte gleichmäßig auf [0, L] verteilt.
y-(y)] y'(y) dy = J pn(y) dy v Vi) B
dy2.
Dabei bedeutet die Funktion Pw,(yi> y^ = p ^ d f i i V f 2/2)' n(yi> Vi)] l^l-1
(i.7)
nach der oben angegebenen Definition die gemeinsame Wahrscheinlichkeitsdickte der Zufallsgrößen und rj2. Es gilt nämlich 2/2) ^ 0,
00 00 J f pmt(yu —00—00
y2) Ayl dy2 = 1 .
1.2. Der Baum der Elementarereignisse Es seien zwei Zufallsgrößen und | 2 mit der gemeinsamen Wahrscheinlichkeitsdichte gegeben. Wir stellen uns in diesem Zusammenhang irgendeinen Versuch vor, bei dem der zufällige Punkt f 2 ) beobachtet wird. Die „Elementarausgänge" eines solchen Versuches bestehen jeweils darin, daß die Zufallsgrößen £2 bestimmte Werte xu x2 annehmen. Sie können durch ent-
8
I . Grundlegende Begriffe
eine umkehrbar eindeutige Abbildung der (ar„ a;2)-Ebene in die (yu y2)-Ebene ist, und die Funktionaldeterminante dfi dfx dXj dx2 m =
dq>2 d dj s» 1 -
0(2d ^ n ) ,
r - i 1 mit 0(x) = — j e 2dw. X 1¡2n J 1l2n —00
In der angegebenen Näherungsgleichung übersteigt der mögliche Fehler nicht den Wert — W i r wählen nun = (ojlt co 2 ,...) definieren, wobei o»! ein Elementarausgang aus Qx, besitzt. Es sei bekannt, daß das Ereignis A2 eingetreten ist; es sei jedoch unbekannt, welchen Elementarausgang CD der Versuch ergeben hat. Wie groß ist die Wahrscheinlichkeit für das Eintreten des Ereignisses A1 unter dieser neuen Bedingung, daß A2 eingetreten ist? Es ist klar, daß unter der neuen Bedingung insgesamt nur N(A2) verschiedene Elementarausgänge (von denen jeder zum Eintreten des Ereignisses A2 führt) möglich sind. Wenn die Anzahl derjenigen Elementarausgänge aus der Gesamtanzahl der eo £ A2 bezeichnet, die das Eintreten des Ereignisses implizieren, dann ist es naheliegend, die Wahrscheinlichkeit des Ereignisses Au N(A A2) unter der Bedingung, daß das Ereignis A2 eingetreten ist, als Quotienten -—— zu definieren (vgl. mit Formel (1.1)). Die Anzahl N(AlA2) stimmt mit der Anzahl aller Elementarausgänge überein, die zum gleichzeitigen Eintreten der beiden Ereignisse Al und A2, d. h. zum Eintreten von A1 n A2, führen. Berücksichtigt man die Beziehungen
so kann man die oben definierte Wahrscheinlichkeit für das Eintreten des Ereignisses A1 unter der Bedingung, daß A2 eingetreten ist (im Weiteren mit P(A1\A2) bezeichnet) durch die Formel (2 4)
'
ausdrücken. Dieser Quotient hat auch im allgemeinen Fall Sinn, sofern nur P(A 2 ) > 0 gilt; die durch sie definierte Größe P(Al\A2) heißt die bedingte Wahrscheinlichkeit des Ereignisses A1 unter der Bedingung, daß das Ereignis A2 eingetreten ist. Da der Begriff der bedingten Wahrscheinlichkeit sehr wichtig ist, erklären wir ihn noch einmal anhand eines anderen Modells. Der dabei zugrundeliegende Versuch bestehe darin, daß beobachtet wird, in welchen Teil eines gewissen Phaäenraumes X ein zufälliger Punkt £ fällt. Der „Zufallsmechanismus" wirke dabei folgendermaßen. Die Wahrscheinlichkeit dafür, daß der Punkt | in das Gebiet A er X (Ereignis A) fällt, sei dem Volumen dieses Gebietes proportional, wobei das Volumen als Integral einer nichtnegativen integrierbaren Funktion p(x) über das 3 Rosanow
24
I. Grundlegende Begriffe
Gebiet A definiert ist: P(4) =
-w>
I p(x) da;.
Dabei bezeichne V das Volumen des gesamten Phasenraumes: V
=
J
x
p(x)
dx.
Es sei bekannt, daß der zufällige Punkt £ in ein gewisses Gebiet A2 (Ereignis A2) gefallen ist. Wie groß ist die Wahrscheinlichkeit dafür, daß unter dieser neuen Bedingung der Punkt f in irgendeinem Gebiet A1 liegt? Es ist klar, daß der Punkt | nur dann in dem Gebiet Ax liegen kann unter der Bedingung, daß er in A2 gefallen ist, wenn der Durchschnitt A, n A2 nicht leer ist. Dabei liegt S unter der genannten Bedingung genau dann in Au wenn sich | in Ax n A2 befindet. Die Wahrscheinlichkeit dafür ist dem entsprechenden Volumen J p(x) dx proportional. Folglich ist die bedingte Wahrscheinlichkeit dafür, iinii daß der zufällige Punkt £ in dem Gebiet Ax liegt, unter der Bedingung, daß er in das Gebiet A2 gefallen ist, gleich V(A2)
J" p{x) dx
mit
V(A2)
A^nA,
= jp{x)
dx.
At
Man sieht, daß auch hier die Wahrscheinlichkeit
mit dem Quotienten
P(A>)
Ausgehend von der bedingten Wahrscheinlichkeit P(Ax\A2) kann man den folgenden Unabhängigkeitsbegriff einführen: Das Ereignis A, heißt unabhängig von dem Ereignis A2, wenn die Wahrscheinlichkeit des Eintretens von At sich beim Eintreten des Ereignisses A2 nicht ändert, genauer, wenn die bedingte Wahrscheinlichkeit P ^ i ^ ü ) mit der ursprünglichen Wahrscheinlichkeit des betrachteten Ereignisses Aj übereüistimmt, d. h. wenn gilt P(Ai I A2) =
PiAj).
Diese Gleichung ist aber wegen (2.4) mit der Gleichung (2.2) identisch, mit anderen Worten, dieser Unabhängigkeitsbegriff fällt mit den oben eingeführten zusammen. Um die Wahrscheinlichkeit P(4) irgendeines mit einem komplizierten Versuch Q verbundenen Ereignisses A zu berechnen, ist es häufig zweckmäßig, folgendermaßen vorzugehen. Man nimmt an, daß ein bestimmtes Ereignis B eingetreten ist, wobei B so gewählt wird, daß sich unter dieser neuen Bedingung der Versuch vereinfacht und es möglich ist, die bedingte Wahrscheinlichkeit P(A | B) zu bestimmen. Wir wollen diese Vorgehensweise mathematisch präziser formulieren.
2. Unabhängigkeit und bedingte Wahrscheinlichkeiten
25
Es sei Bu B2,... ein sogenanntes vollständiges System von Ereignissen, d. h., im betrachteten Versuch tritt eines und nur eines der Ereignisse Bu B2,... ein (mit anderen Worten, diese Ereignisse sind disjunkt und ihre Vereinigung stellt das sichere Ereignis dar). Definiert man die bedingten Wahrscheinlichkeiten P(A | Bk) des uns interessierenden Ereignisses A unter den verschiedenen Bedingungen Bk, k = 1 , 2 , . . . , so kann man die Wahrscheinlichkeit P(^4) des Ereignisses A nach der folgenden sogenannten Formel für die totale Wahrscheinlichkeit berechnen: ?{A) =Z?{A\Bk) k
?{Bk).
(2.5)
Diese Formel kann man leicht herleiten. Man stellt dazu das Ereignis A als Vereinigung der disjunkten Ereignisse Ak = ABk, k = 1 , 2 , . . . , dar A =AUBk k
=
k
{J{ABk),
und wendet das Additionstheorem für Wahrscheinlichkeiten (siehe (1.12)) an. Daraus ergibt sich P(^) =2?{ABk). k Drückt man die Summanden P(ABk) durch bedingte Wahrscheinlichkeiten aus, schreibt man also P(ABk) = P(A | Bk) P(Bk), dann erhält man die Gleichung (2.5). Um die Möglichkeiten zu illustrieren, die die Verwendung der Formel für die totale Wahrscheinlichkeit bietet, geben wir ein Beispiel an. Beispiel (Wahrscheinlichkeit für den Ruin eines Spiders): Wir betrachten folgendes Spiel. Vor dem Werfen einer Münze versucht der Spieler das Ergebnis des Wurfes, also „Zahl" oder „Wappen", zu erraten. Wenn seine Vermutung sich als richtig erweist, erhält er eine Mark, anderenfalls muß er den gleichen Betrag bezahlen. Sein Anfangskapital sei x Mark. Er stellt sich zum Ziel, solange zu spielen, bis er einen Betrag von a Mark (a > x) erreicht hat. Das Spiel wird beendet, wenn der Spieler entweder die vorher festgelegte Summe a erzielt hat oder ruiniert ist, d. h., sein Anfangskapital verspielt ist. Wie groß ist die Wahrscheinlichkeit dafür, daß der Spieler am Ende ruiniert ist und somit auch nicht die gewünschte Summe von a Mark erreicht hat? Diese Wahrscheinlichkeit hängt natürlich vom Anfangskapital x und von der Zielsumme a ab. Es sei p(x) die Wahrscheinlichkeit dafür, daß der Spieler, wenn er noch ein Kapital von x Mark besitzt, im weiteren Verlauf des Spieles ruiniert wird. Mit dieser Bezeichnung ist dann p(x + 1) bzw. p{x — 1) die Wahrscheinlichkeit des Ruins, wenn er im ersten Durchgang gewonnen bzw. verloren hat. Nach einem gewonnenen Spiel ist nämlich das Kapital gleich x + 1 und nach einem verlorenen gleich x — 1 Mark. Es bezeichne nun B1 das Ereignis, daß der Spieler im ersten Durchgang gewinnt, B2 das Ereignis, daß er verliert, und A das Ereignis, daß er schließlich ruiniert wird. Die bedingten Wahrscheinlichkeiten des Ruins sind in den von uns ver3«
26
I. Grundlegende Begriffe
wendeten Bezeichnungen durch die Formeln P(A | BJ = p(x + 1)
und
P(A | B2) = p(x - 1)
darstellbar. Die Ereignisse JSj und B2 bilden ein vollständiges System von Ereignissen, weil der Spieler im ersten Spiel entweder gewinnt oder verliert. Dabei gilt P(JBj) = P(ß 2 ) = — • Die Formel für die totale Wahrscheinlichkeit ermöglicht es, 2 folgende Beziehung für die gesuchte Wahrscheinlichkeit p(x) aufzustellen: p(x) = — [p(cc + 1) + p(x — 1)] für alle x = i , a 2
— 1.
Man kann offensichtlich festlegen: p(0) = 1, p(a) = 0 . Die Lösung / der Gleichung f(x+
1) =2f(x)
- f ( x - 1),
« = 1,2,...,
der für 1 ^ x ^ a — 1 die Wahrscheinlichkeit p(x) genügt, läßt sich rekursiv aus yü = /(0) und y1 = /(1) für alle x = 2, 3 , . . . bestimmen. Es kann demzufolge auch nur eine Lösung bei gegebenen „Anfangsbedingungen" y0 = /(0) und Vi — /(1) existieren. Wie man leicht herleiten kann, hat diese Lösung die Form /(«) = 2/« — (2/i — */o) x . Für 2/0 = 1 und yx = p(l) erhalten wir p(x) = 1 - (1 - p(l)) z. Wenn wir berücksichtigen, daß p(a) = 1 — (l — p(l)) a = 0 gilt, so folgt daraus p(l) = 1
—, und schließlich ergibt sich a X p(x) = 1 , x = 0 , 1 , . . . , a. a
3. Zufallsgrößen und Wahrscheinlichkeitsverteilungen, die Unabhängigkeit 3.1. Diskrete und stetige Wahrscheinlichkeitsverteilungen Ein wahrscheinlichkeitstheoretisches Modell wird durch einen geeigneten Raum Q von Elementarereignissen und durch vorgegebene Wahrscheinlichkeiten P(.4) von Ereignissen A c Q beschrieben. Bei der Betrachtung irgendeiner Zufallsgröße f im Rahmen eines solchen Modells setzt man stets voraus, daß sie in bestimmter Weise vom Zufall (genauer gesagt, von den Elementarausgängen
L,
und der zufällige Punkt auf dem Kreis der Länge L, der die Kugellage beim Roulettespiel (siehe Abschn. 1.1.) angibt, durch ein und dieselbe wahrscheinlichkeitstheoretische Gesetzmäßigkeit beschrieben. Wir betrachten jetzt irgendeine Zufallsgröße f und setzen voraus, daß es eine endliche oder abzählbar unendliche Anzahl von x-Werten gibt, die £ mit den entsprechenden Wahrscheinlichkeiten P e (x) = P{£ = *}
(2'P i (®) = l)
annimmt. Damit ist gleichzeitig gesagt, daß die Zufallsgröße £ mit Wahrscheinlichkeit Eins irgendeinen dieser «-Werte annimmt (diese »-Werte sind faktisch die einzig möglichen Werte für £). Eine solche Zufallsgröße nennt man eine diskrete Zufallsgröße. Ihre Wahrscheinlichkeitsverteilung heißt analog diskrete Wahrscheinlichkeitsverteilung. Für beliebige Zahlen x', x" mit x' si x" gilt P{«'
=£Pt(x). x'
(3.2)
28
I. Grundlegende Begriffe
Dabei erstreckt sich die Summation über die endliche oder abzählbar unendliche Menge aller «-Werte zwischen x' und x", für die Ps(x) größer als Null ist. Eine Zufallsgröße f heißt stetig, wenn sie eine Wahrscheinlichkeitsdichte pi(x) besitzt, d. h. (vgl. (1.2)) wenn es eine nichtnegative Funktion Pe(x) mit OO J P({x) dx = i — 00
gibt, so daß die Beziehung x" P{x' ^ f ^ x"\ = J p({x) dx x'
(3.3)
für beliebige x', x" mit x' iS x" gilt. Die Wahrscheinlichkeitsverteilung einer stetigen Zufallsgröße £ nennt man ebenfalls stetig und die entsprechende Dichte von f auch Dichte der Wahrscheinlichkeitsverteilung von Eine stetige Zufallsgröße f nimmt jeden festen Wert x nur mit Wahrscheinlichkeit Null an: x" P{| = x) = lim j pe(x) dx = 0. x'-*x—Q x' Darüber hinaus gilt für beliebige Punkte x, in denen die Funktion Pt(x) stetig ist, die Beziehung P{x' ^ f ^ x") ~ pt(x) Ax für x' x 5i x" und Ax = x" — x' -> 0. Es sei f irgendeine Zufallsgröße. Natürlich braucht | weder diskret noch stetig zu sein (siehe das Beispiel auf Seite 37). Ihre Wahrscheinlichkeitsverteilung beschreibt man ganz allgemein mit Hilfe der sogenannten Verteilungsfunktion Fe(x) = P{f ^ x\, - o o < x < oo. Für beliebige Zahlen x', x" mit x'
(3.4)
x" gilt dann
?{x' < | ^ x"} =• F((x")
- Ft(x' -
0),
wobei Fs(x — 0) den Grenzwert lim F((x — h) bezeichnet. h-*o A>0
Die durch (3.4) definierte Funktion Ft{x) ist nichtnegativ, monoton wachsend (genauer: nichtfallend), von rechts stetig1) (Fe{x) = Fs(x + 0)), und es gilt lim F({x) = 0, X-+— 00 x)
lim F((x) X-K50
= 1.
In der Literatur wird die Verteilungsfunktion F einer Zufallsgröße X häufig auch in der
Form F(x) gebers).
— P {X < x] definiert. In diesem Fall ist F von links stetig (Anm. des Heraus-
3. Zufallsgrößen und Verteilungen
29
Wir leiten die aufgezählten Eigenschaften aus der Additivität und der Stetigkeit der Wahrscheinlichkeit ab. Dazu sei xn, n = 1,2,..., eine monoton fallende, gegen x konvergente Zahlenfolge. Dann ergibt sich das Ereignis (f ^ x) gerade als Durchschnitt aller Ereignisse der monoton abnehmenden Folge {f ig xn), d. h., es gilt {f =nif n Aufgrund der Stetigkeitseigenschaft der Wahrscheinlichkeit gilt dann n-*oo
Insbesondere folgt für x„ - » — oo, daß der Durchschnitt H [I Ss xn\ das unmögn liehe Ereignis ist, und deshalb lim P{f x„] = 0 gilt. Die Vereinigimg der monon-H» ton wachsenden Folge von Ereignissen {| xn\ mit xn -> + o o ist das sichere Ereignis {f < + o o | , und folglich gilt lim P{f iS xn] = 1 . f»-*oo Weiterhin ist das Ereignis (f rS x"\ die Vereinigung der disjunkten Ereignisse {£ 5S x] und {x < | ^ x"\, so daß die Beziehungen ?{x < £ ^
x")
= P{£ ^
x"}
- Pff ^
x]
x"\
= F((x")
-
und P{x' ^
$ ^
x"}
=
U m ?{x < £ ^ x-*x'—0
Fc(x'
-
0)
gelten. Wir vermerken noch, daß für eine diskrete Zufallsgröße f die Gleichung F((x)
= Z P
(
{ y ) ,
vSx
und für eine stetige Zufallsgröße f die Beziehung F((x)
X
= f pe(y)
dy
— 00
besteht, wobei pi(x) die entsprechende Wahrscheinlichkeitsdichte ist. Sie stimmt in den Punkten x, in denen sie stetig ist, mit der Ableitung der Verteilungsfunktion F((x) überein: pt(x)=Ft'(x).
(3.5)
3.2. Die gemeinsame Wahrscheinlichkeitsverteilung zweier Zufallsgrößen Wir betrachten zwei Zufallsgrößen und f2> deren Werte vom jeweiligen Elementarausgang a> ein und desselben Versuches abhängen. Als formales Modell kann man den Versuch verwenden, der darin besteht, daß die Zufallsgrößen und f 2 beobachtet werden. Mit anderen Worten, man kann
3. Zufallsgrößen und Verteilungen
29
Wir leiten die aufgezählten Eigenschaften aus der Additivität und der Stetigkeit der Wahrscheinlichkeit ab. Dazu sei xn, n = 1,2,..., eine monoton fallende, gegen x konvergente Zahlenfolge. Dann ergibt sich das Ereignis (f ^ x) gerade als Durchschnitt aller Ereignisse der monoton abnehmenden Folge {f ig xn), d. h., es gilt {f =nif n Aufgrund der Stetigkeitseigenschaft der Wahrscheinlichkeit gilt dann n-*oo
Insbesondere folgt für x„ - » — oo, daß der Durchschnitt H [I Ss xn\ das unmögn liehe Ereignis ist, und deshalb lim P{f x„] = 0 gilt. Die Vereinigimg der monon-H» ton wachsenden Folge von Ereignissen {| xn\ mit xn -> + o o ist das sichere Ereignis {f < + o o | , und folglich gilt lim P{f iS xn] = 1 . f»-*oo Weiterhin ist das Ereignis (f rS x"\ die Vereinigung der disjunkten Ereignisse {£ 5S x] und {x < | ^ x"\, so daß die Beziehungen ?{x < £ ^
x")
= P{£ ^
x"}
- Pff ^
x]
x"\
= F((x")
-
und P{x' ^
$ ^
x"}
=
U m ?{x < £ ^ x-*x'—0
Fc(x'
-
0)
gelten. Wir vermerken noch, daß für eine diskrete Zufallsgröße f die Gleichung F((x)
= Z P
(
{ y ) ,
vSx
und für eine stetige Zufallsgröße f die Beziehung F((x)
X
= f pe(y)
dy
— 00
besteht, wobei pi(x) die entsprechende Wahrscheinlichkeitsdichte ist. Sie stimmt in den Punkten x, in denen sie stetig ist, mit der Ableitung der Verteilungsfunktion F((x) überein: pt(x)=Ft'(x).
(3.5)
3.2. Die gemeinsame Wahrscheinlichkeitsverteilung zweier Zufallsgrößen Wir betrachten zwei Zufallsgrößen und f2> deren Werte vom jeweiligen Elementarausgang a> ein und desselben Versuches abhängen. Als formales Modell kann man den Versuch verwenden, der darin besteht, daß die Zufallsgrößen und f 2 beobachtet werden. Mit anderen Worten, man kann
30
I. Grundlegende Begriffe
als Raum der Elementarereignisse die Euklidische Ebene E2 verwenden; jedes Elementarereignis d i = xlt£2 = ^2) wird dabei als Punkt (xu x2) 6 E2 angesehen und die Abhängigkeit der Zufallsgrößen und f 2 vom Elementarausgang {xx, x2) € E2 wird formal durch die Gleichungen ii(x1, x2) = xx, £2(^1) xz) = xz definiert. Den „Zufallsmechanismus" eines solchen Versuches beschreibt man durch die gemeinsame Wahrscheinlichkeitsverteilung, d. h. durch die Gesamtheit der Wahrscheinlichkeiten Pfar/ ^
^ a ; x j ^
< x2"\
aller möglichen Ereignisse der Form A — (x/ x", x2 sS f 2 x2"}. Wir vermerken, daß man $j und f 2 auch als Koordinaten eines zufälligen Vektors £ = (lu | 2 ) mit folgender Wahrscheinlichkeitsverteilung auffassen kann: Die Wahrscheinlichkeit dafür, daß £ in irgendein Rechteck der Form A = [Xi, Xi'] x [x2, x2"] fällt, ist gleich P{£ 6 A}=
P f o ' ^ Si ^ X i " , ^ £2
».").
Für diskrete Zufallsgrößen und | 2 ist die gemeinsame Wahrscheinlichkeitsverteilung durch die Wahrscheinlichkeiten P
(iJ,(.xu
x
2) =
p
f f i = xi> £2 = x*)>
< a'i>
fl.fl(xi, x2) dxy dx2 A'
^ ff Pfi.f.fo. x i ) da;i d «2 A
32
I. Grundlegende Begriffe
Weil für Ä c A das Ereignis (£ € A ' \ im Ereignis {f £ A ] enthalten ist, haben wir P{f 6 A \ ^ P(| € A ' ) , und deshalb gilt
P(£ 6 A} ^ f f p(l,(t(xu
x2) d»! dx2 — e.
A
Ganz analog kann man unter Verwendung eines entsprechenden Vielecks A " , das dem Gebiet A umschrieben ist ( A c A " ) , folgende Ungleichung erhalten:
P{f € A} ^ JJ pM,(Xi,
x2) dLc! dx2 + 8.
A
Da e eine beliebige positive Zahl ist, folgt hieraus, daß die Gleichung
P { £ e A ) = f f PtutjFi»x*)
dx
i
A
gelten muß, was zu beweisen war. Unter der Voraussetzung, daß die Zufallsgrößen und eine stetige gemeinsame Wahrscheinlichkeitsverteilung mit der Dichte p^jjixi, x2) besitzen, ist jede einzelne von ihnen auch stetig, d. h. sie besitzt eine Wahrscheinlichkeitsdichte. Es ist nämlich unschwer nachzuprüfen, daß bei Verwendung der Formel (3.8) für x2 - —oo, x2" = oo bzw. Xi = — oo, = oo die Funktionen + 00
bzw.
PtMl) =—/ 00Pti.tÁXU P(,M
+ 00
x
dx
2 (3.10)
x
dx
= / Ph,(Á i> z) i
Wahrscheinlichkeitsdichten für bzw. f 2 sind. Die Umkehrung dieser Aussage ist im allgemeinen falsch, d. h., für zwei Zufallsgrößen und f 2 , die die Wahrscheinlichkeitsdichten pSl{xi) bzw. pit(x2) besitzen, braucht die Dichte der gemeinsamen Verteilung nicht zu existieren. Zum Beispiel ist das für = f 2 der Fall,
3. Zufallsgrößen u n d Verteilungen
33
dann gilt nämlich für jedes Gebiet A die Beziehung P{(£lf l 2 ) € A\
= f pti(x)
dz,
B
wobei B die Menge auf der a^-Achse bezeichnet, die man als Bild des Durchschnittes von A mit der Winkelhalbierenden = x2 bei der Abbildung (zly x2)
Abb. 9
Zwei Zufallsgrößen und £2 heißen voneinander unabhängig (oder kurz unwenn für beliebige Intervalle [«/, x,"] und [x2',x2"] die Ereignisse {Xi 5S f j si Xi'} und {x2 gj f2 ^ x2'\ unabhängig sind, d. h. wenn gilt
abhängig),
P(*i' < ii ^
x,' ^ St ^ *»") = P{afx' ^ ^ ^ »,"J P{* 2 ' ^ f 2 ^ z 2 "}.
Man überzeugt sich leicht davon, daß zwei diskrete Zufallsgrößen f j und f 2 genau dann voneinander unabhängig sind, wenn die gemeinsame Wahrscheinlichkeitsverteilung der Beziehung genügt. Sind und | 2 zwei stetige voneinander unabhängige Zufallsgrößen, so ergibt sich für alle Intervalle [a;/, a;,"] und [ar2', a;2"] die Gleichung Xx"
P{»i' ^ fi ^ «i">
^ f 2 ^ ^2"} = /
Xi xi'
Xi'
Vtfrl)
da;
i
/ Xi
^,(«2)
xi'
= / / [2>fl(«i) Pis(«2)l d^i d«2Man sieht, daß dann auch die Dichte existiert, und zwar gilt PmSxI>
x
»)
1, «2) der gemeinsamen Verteilung
= Pfi^i) Pt.M
•
(3-12)
Auch die Umkehrung ist leicht zu zeigen: Wenn die Dichte p(l,it(xi, x2) der gemeinsamen Verteilung in der Form (3.12) dargestellt werden kann, dann sind die Zufallsgrößen und f 2 voneinander unabhängig.
34
I. Grundlegende Begriffe
3.3. Abbildungen yon Zufallsgrößen Uns interessiert in diesem Abschnitt, wie sich die Wahrscheinlichkeitsverteilungen von Zufallsgrößen bei gewissen Abbildungen verändern. In Abschnitt 1.1. wurde gezeigt, daß durch eine umkehrbar eindeutige Abbildung y = cp{x) (mit {x) nicht mehr umkehrbar eindeutig ist.
Beispiel: Wir betrachten die Abbildung erhalten wir die Beziehung (vgl. Abb. 10) ?{y'
^
ri ^
y")
=
P\—x"
^
| ^
—x' =
J Pt(x) —X y-
=
y
-x'} +
?[x'
^
+
/
f ^
rj =
£2
x"}
x"
x"
d«
Für die Zufallsgröße
z2.
Pi(%)
d
x
= J
[?>i(—+
2>f(«)]
da;
1
Somit ist die Wahrscheinlichkeitsdichte der Zufallsgröße rj gleich ./-u p M
[ p t ( - V y ) =
+
1
M M ] — F > 2 Yy
o
f ü r
für
y
< 0.
Weiterhin wurde in Abschnitt 1.1. gezeigt, daß für zwei Zufallsgrößen und £2 mit der gemeinsamen Wahrscheinlichkeitsdichte p(liit(xu x2) bei einer umkehrbar eindeutigen Abbildung y1 = ^(a:,, x2), y2 — 2/2), y2(2/i, 2/2)] l-^"1 di/2-
(3.13)
— 00
Beispiel: Es seien und f 2 zwei voneinander unabhängige Zufallsgrößen mit den Dichten pi(x) bzw. p2{x). Gesucht ist die Wahrscheinlichkeitsverteilung ihres Quotienten —. £2 s Zunächst vermerken wir, daß die Größe rj1 — — mit Wahrscheinlichkeit £2 Eins endliche Werte annimmt, da f 2 = 0 nur mit Wahrscheinlichkeit Null gilt. Wir betrachten die Abbildung V1 =•
• y2= x 2
|»7i = y - , ij2 = i 2 j ;
für ihre Funktionaldeterminante |/| gilt |/[_1 = |«/2| • Die gemeinsame Wahrscheinlichkeitsdichte 2/2) der Zufallsgrößen rj1 und rj2 kann in jedem der Gebiete y2 < 0 bzw. y2 > 0 mit Hilfe der Formel (1.7) gefunden werden: Pw,(y\> yi) = |
Pityiy*) £2(2/2) 2/2 für
y2 > 0,
Pi (2/12/2) Pi(y2) 2/2 für
y2
1 . Für die Wahrscheinlichkeitsverteilung der Summe tj = £ 1 + fa erhalten wir aus der Formel (3.15) die sogenannte Dreieckverteilung mit der Dichte (vgl. Abb. 11) für
j dx = y Pv(y) =
J dx =2 v-i
—y
0 ^ y
• • • > Vn)
und f ü r stetige Zufallsgrößen durch die Wahrscheinlichkeitsdichte
Pm JVl, --^Vn) gegeben. Um einheitliche Bezeichnungen zu erreichen, schreiben wir im weiteren anstelle 0/i> • • • j yn) einfach y. Aus dem gleichen Grund ersetzen wir das Ereignis B durch die Zufallsgröße rj, die beim Eintreten von B gleich 1 und sonst gleich 0 ist. Offenbar gilt M(| | B) = M(f | y) für y = 1. Natürlich besitzt der bedingte Erwartungswert M(| | y) bei festgehaltenem Wert y alle oben angegebenen Eigenschaften eines Erwartungswertes. Speziell gilt für jede Konstante k die Gleichung M (i£ | y) = km
I V),
für die Summe zweier Zufallsgrößen f j und i 2 die Beziehung M(f, + h | y) = M(f t I y) + M(| 2 1 y) usw. (vgl. (4.2)—(4.11)). Wir vermerken insbesondere folgende Eigenschaften: a) wenn die Zufallsgröße £ nicht von der Zufallsgröße rj abhängt, dann gilt M(f | y) = Mi; b) wenn die Zufallsgröße
(4.17)
nicht von dem Paar (f 2 , v) abhängt, dann ist M ( « , | i ? ) = M(f1)M(f1|iJ).
(4.18)
50
I. Grundlegende Begriffe
Die Gleichung (4.17) ist offensichtlich. Gleichung (4.18) erhält man auf dieselbe Weise, wie die Beziehung (4.6), weil unter der Hypothese {rj = y] die Zufallsgrößen Si und | 2 ebenfalls wieder tinabhängig sind. Für die bedingte gemeinsame Verteilung von und | 2 gilt nämlich JW*..
*) =
= W P U ^ y )
=
PeSxi) P ( S X 2 , y)
im Fall diskreter Zufallsgrößen, und * i *> =
=
vM
w«*») - ^ Vr,{y)
*,.
im Fall stetiger Zufallsgrößen mit der gemeinsamen Dichte ^„{,.,(^1, y)Natürlich bleibt die Gleichung (4.18) auch dann richtig, wenn rj = {r]l, ...,rj n ) ein zufälliger Vektor ist und y = (yl, ...,y„) gesetzt wird. Wir wenden uns nun der sogenannten Formel des totalen Erwartungswertes zu, die eine zu (2.5) analoge Form besitzt: Mf = 2 " M ( f \Bk) P(B k ). k Dabei sei Bu B2,... ein vollständiges System von paarweise disjunkten Ereignissen. Vom gleichen Typ sind auch die Formeln M£ =
+f y= —
M(f | y) Pn{y) oo
für diskrete Zufallsgrößen r\ mit der Verteilung Pn{y) bzw. + 0O
Mi=
f M(f | y) Vv{y) dy — 00
für stetige Zufallsgrößen rj mit der Wahrscheinlichkeitsdichte pn{y). Diese Gleichungen folgen unmittelbar aus der Definition des bedingten Erwartungswertes. Man kann den bedingten Erwartungswert M(f | y) auch als Funktion der Variablen y auffassen. Wenn überdies anstelle von y in M(f | y) für jedes cu £ ß der Wert der Zufallsgröße rj eingesetzt wird, dann ist M(| | rj) eine Zufallsgröße, die eine bestimmte Funktion von rj darstellt. Die Zufallsgröße M(£ | rj) bezeichnen wir im folgenden als bedingte Erwartung der Zufallsgröße £ unter der Hypothese rj. Mit dieser Schreibweise erhält die Formel des totalen Erwartungswertes die Form M[M(f | >?)] = Mi.
(4.19)
Wir geben noch die sogenannte Formel der iterierten bedingten Erwartung1) an, die die Gleichung (4.19) auf den Fall verallgemeinert, daß die ursprüngliche Ausführlicher kann sich der Leser darüber z. B . in dem bereits früher zitierten Buch von und A. W . S k o r o c h o d informieren (s. Fußnote auf Seite 1 6 ) .
1.1. Gichmajt
4. Erwartungswert einer Zufallsgröße
51
Wahrscheinlichkeitsverteilung selbst eine bedingte Verteilung ist. Die erwähnte Formel lautet M[M(i b ) | C] = M(£ | 0 und gilt für jede (ein- oder mehrdimensionale) Zufallsgröße f, die eine Funktion von tj ist. Weiterhin sei folgende wichtige Gleichung erwähnt. Ist k=1 n-»oo
Satz 5. Es sei £„, n = 1 , 2 , . . . , eine Folge von Zufallsgrößen, die mi< WaArscheirdichkeit Eins gegen eine gewisse Zufallsgröße f konvergiert. Weiterhin sei rj eine Zufallsgröße mit endlichem Erwartungswert (M \rj\ < oo), und es gelle ||„| ^ rj für n — 1 , 2 , . . . . Dann besitzen auch die Zufallsgrößen f„ und f endliche Erwartungswerte, und es gilt die Beziehung lim Mi,, = M£.
5. Unbegrenzte Versuchsreihen mit unabhängigen Versuchen und Gesetze der großen Zahlen 5.1. Gesetze der großen Zahlen Es sei Ii, ¿2,...
(5.1)
eine Folge u n a b h ä n g i g e r , identisch verteilter Zufallsgrößen (d. h. unabhängiger Zufallsgrößen mit ein und derselben Wahrscheinlichkeitsverteilung). Zur Veranschaulichung stelle man sich vor, daß eine Reihe unabhängiger und gleichartiger Versuche Qu ü2,... durchgeführt und in jedem Versuch ük die entsprechende Zufallsgröße k = 1 , 2 , . . . , beobachtet wird. Wir setzen voraus, daß die Erwartungswerte a = und die Streuungen a2 = D 2 ft , £ = 1 , 2 , . . . , existieren und betrachten den „empirischen" Mittelwert 1
»
n k=i
Ä n
62
I. Grundlegende Begriffe
n Die Partialsummen ^
n = 1 , 2 , . . . , bilden nämlich eine monoton wachsende
Folge, deren Erwartungswerte
w = 1 , 2 , . . . , beschränkt sind: M l z i k ) g j ? M f t < 00. \i=i / t=i Nach Satz 4 existiert dann mit Wahrscheinlichkeit Eins der endliche Grenzwert lim ¿ e n-*oo t=l
und es gilt M lim n-voo k=l
k
=S(t, t" 1
= l i m M | ¿ f t 1 = lim n-+co |_Jfc=1 n-Mx> k=1 n-»oo
Satz 5. Es sei £„, n = 1 , 2 , . . . , eine Folge von Zufallsgrößen, die mi< WaArscheirdichkeit Eins gegen eine gewisse Zufallsgröße f konvergiert. Weiterhin sei rj eine Zufallsgröße mit endlichem Erwartungswert (M \rj\ < oo), und es gelle ||„| ^ rj für n — 1 , 2 , . . . . Dann besitzen auch die Zufallsgrößen f„ und f endliche Erwartungswerte, und es gilt die Beziehung lim Mi,, = M£.
5. Unbegrenzte Versuchsreihen mit unabhängigen Versuchen und Gesetze der großen Zahlen 5.1. Gesetze der großen Zahlen Es sei Ii, ¿2,...
(5.1)
eine Folge u n a b h ä n g i g e r , identisch verteilter Zufallsgrößen (d. h. unabhängiger Zufallsgrößen mit ein und derselben Wahrscheinlichkeitsverteilung). Zur Veranschaulichung stelle man sich vor, daß eine Reihe unabhängiger und gleichartiger Versuche Qu ü2,... durchgeführt und in jedem Versuch ük die entsprechende Zufallsgröße k = 1 , 2 , . . . , beobachtet wird. Wir setzen voraus, daß die Erwartungswerte a = und die Streuungen a2 = D 2 ft , £ = 1 , 2 , . . . , existieren und betrachten den „empirischen" Mittelwert 1
»
n k=i
Ä n
5. Gesetze der großen Zahlen
63
den man in Anschluß an die Durchführung der Versuche Q u ü 2 , . • • zahlenmäßig n angeben kann. Für die Summe Sn = £ f t ergeben sich die Beziehungen k=1 S 1 " M — = — 2" Mit = a n n ¿=1 und
S /Ä \2 1 " a2 D 2 — = M [ — — a ) = -zj X D % = - . n \n / n ic= i n
Folglich gilt — 2 f* — ® = —z: — 0 W A=1 \n
für » -> oo.
1 Das bedeutet, daß der empirische Mittelwert — ^ n k=1 gegen den Erwartungswert a konvergiert: lim — £ £k = B-wo W Ar=l
a
(5.3)
im quadratischen Mittel
•
Somit ist für jede Zahl e > 0 die Wahrscheinlichkeit dafür, daß sich der empirische 1 " Mittelwert — £ um höchstens e von dem Erwartungswert a unterscheidet, fast gleich Eins, sofern n genügend groß ist. Das heißt, es gilt für jede noch so kleine Zahl d > 0 die Beziehung
UÄ*=»
I
J
wenn nur n hinreichend groß ist. Dabei gilt aufgrund der Ungleichung folgende Abschätzung:
|
ns 2
J
TsCHEBYSCHEWSohen
(5.4)
I n der Praxis wird die Möglichkeit, daß ein sehr geringwahrscheinliches Ereignis eintritt, stets vernachlässigt. Aus dieser Sicht ist also das Eintreten des f| 1 » I ) Ereignisses 4— X — a > ej. (dessen Wahrscheinlichkeit höchstens gleich dem [|»fc=i | J kleinen Wert oo.
(6.6)
Beweis 1 ). Ohne Beschränkung der Allgemeinheit kann man a = 0 setzen. Nach der Ungleichung von T S C H E B Y S C H E W gilt für beliebiges e > 0 die Beziehung w2cr2 •
I
I
S
oo mit Wahrscheinlichkeit Eins die Grenzbeziehung 8
2
— — > 0 . Mit der Bezeichnung m2 Vm =
mai -1 ra'+lgfcSfm+l)1
+
*) Der hier angegebene Beweis stammt von J . W. PROCHOROW.
65
5. Gesetze der großen Zahlen
ist leicht zu sehen, daß p j | 2 s2 | > £ 1 ^m ! J
) ^ ' " i " ' (k - m2) ff2 V -i i— I *=m>+l m4«2
^ ^ " ' p i l m£ t=m'+l {| 2m
2mg2 mV
> el ^
4g2 1 e2 m 2
und m=i
II m? |
e2 m =i m 2
J
< oo
gilt. Folglich können mit Wahrscheinlichkeit Eins nur endlich viele der Ereignisse Bm = J — > el, m = 1, 2 , . . . , eintreten. Für jedes n gibt es ein m mit I M i m2 n (m + l) 2 . Offenbar gilt ¿7» w
m"
, Vm "t" 2„ > m
und aufgrund der bereits bewiesenen Aussagen konvergiert die rechte Seite dieser Ungleichung oo mit Wahrscheinlichkeit Eins gegen Null. Daraus ergibt g für m sich, daß — -> 0 für n oo mit Wahrscheinlichkeit Eins richtig ist. Somit ist n der Satz bewiesen. Als Spezialfall dieses Satzes ergibt sich folgende wichtige Aussage, die man häufig ebenfalls als das starke Gesetz der großen Zahlen bezeichnet 1 ): Für jede Folge unabhängiger, identisch verteilter Zufallsgrößen f2> • • •, die einen endlichen Erwartungswert a besitzen, gilt mit Wahrscheinlichkeit Eins 1 " lim — = n-*oo W fc=l
(5.7)
5.2. Wahrscheinlichkeit und Hänfigkeit Wir betrachten ein mit irgendeinem zufälligen Versuch verbundenes Ereignis A und setzen voraus, daß dieser Versuch mehrmals durchgeführt werden kann und daß die nunmehr entstehenden einzelnen Versuche ü2,... unabhängig sind. Vergleiche beispielsweise mit W . F E L L E R : An introduction to probability theory and its applications, Vol. I, New York—London—Sydney 1966, wo nicht vorausgesetzt wird, daß die Zufallsgrößen ( v f2> • • • eine endliche Streuung £ 1 ^m ! J
) ^ ' " i " ' (k - m2) ff2 V -i i— I *=m>+l m4«2
^ ^ " ' p i l m£ t=m'+l {| 2m
2mg2 mV
> el ^
4g2 1 e2 m 2
und m=i
II m? |
e2 m =i m 2
J
< oo
gilt. Folglich können mit Wahrscheinlichkeit Eins nur endlich viele der Ereignisse Bm = J — > el, m = 1, 2 , . . . , eintreten. Für jedes n gibt es ein m mit I M i m2 n (m + l) 2 . Offenbar gilt ¿7» w
m"
, Vm "t" 2„ > m
und aufgrund der bereits bewiesenen Aussagen konvergiert die rechte Seite dieser Ungleichung oo mit Wahrscheinlichkeit Eins gegen Null. Daraus ergibt g für m sich, daß — -> 0 für n oo mit Wahrscheinlichkeit Eins richtig ist. Somit ist n der Satz bewiesen. Als Spezialfall dieses Satzes ergibt sich folgende wichtige Aussage, die man häufig ebenfalls als das starke Gesetz der großen Zahlen bezeichnet 1 ): Für jede Folge unabhängiger, identisch verteilter Zufallsgrößen f2> • • •, die einen endlichen Erwartungswert a besitzen, gilt mit Wahrscheinlichkeit Eins 1 " lim — = n-*oo W fc=l
(5.7)
5.2. Wahrscheinlichkeit und Hänfigkeit Wir betrachten ein mit irgendeinem zufälligen Versuch verbundenes Ereignis A und setzen voraus, daß dieser Versuch mehrmals durchgeführt werden kann und daß die nunmehr entstehenden einzelnen Versuche ü2,... unabhängig sind. Vergleiche beispielsweise mit W . F E L L E R : An introduction to probability theory and its applications, Vol. I, New York—London—Sydney 1966, wo nicht vorausgesetzt wird, daß die Zufallsgrößen ( v f2> • • • eine endliche Streuung P{A) n
für n —> oo,
so daß in einer langen Reihe unabhängiger Versuche die relative Häufigkeit
(5.8) n(A)
n des Eintretens des Ereignisses A praktisch mit der Wahrscheinlichkeit dieses Ereignisses zusammenfällt: ^
m P(4).
(5.9)
Diese Gesetzmäßigkeit, die durch zahlreiche, in der Praxis gewonnene Erfahrungen bestätigt wird, gibt uns die Möglichkeit, in Anwendungen die Wahrscheinlichkeit n(A) P(.4) irgendeines Ereignisses A experimentell durch P(^4) zu schätzen 71 (vgl. das Beispiel auf Seite 17f). In der unten angegebenen Tabelle 1 (sie wurde aus dem bereits zitierten Buch von W . FELLES entnommen) sind die Ergebnisse von 1 0 0 Versuchsreihen zu je 100 Versuchen aufgeführt, in denen eine symmetrische Münze je einmal geworfen wurde. Aus dieser Tabelle erkennt man, daß in jeder Versuchsserie die relative Häufigkeit n(A) für das Auftreten von „Wappen" (Ereignis A) n t mit großer Genauigkeit mit der Wahrscheinlichkeit P(^4) — — übereinstimmt.
5. Gesetze der großen Zahlen
67
Tabelle 1 Anzahl der Versuche
Absolute Häufigkeiten von „Zahl" bei jeweils 100 Versuchen
Absolute Häufigkeiten von „Zahl" bei jeweils 1000 Versuohen
0 - 1000 - 2000 - 3000 - 4000 - 5000 — 6000 - 7000 - 8000 — 9000 — 10000
54 46 53 65 46 54 41 48 48 46 40 53 49 49 48 54 43 52 58 51 51 50 52 50 58 40 54 55 50 48 47 57 48 51 51 49 44 52 50 46 49 50 45 52 52 48 47 47 45 47 41 51 49 59 50 55 53 52 46 52 44 51 48 51 45 47 46 52 47 48 59 57 47 41 51 48 59 51 52 55
501 485 509 536 485 488 500 497 494 484
51 53 53 45 53 49 52 55 53 41 47 51 53 50 46 54 45 48 39 41
KAPITEL II
EINIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 1. Zufällige Auswahl und zufällige Aufteilung 1.1. Kombinatorische Formein Für die Berechnung von Wahrscheinlichkeiten sind oftmals kombinatorische Formeln von Nutzen. Wir geben deshalb im folgenden die wichtigsten von ihnen an. Kombinationen von Elementen aus mehreren Mengen Es seien r beliebige Mengen gegeben. Die erste Menge enthalte nx Elemente die zweite n2 Elemente bu b2,..., b„t usw. Die r-te Menge bestehe schließlich aus nT Elementen c1; c 2 ,..., c„r. Wie viele verschiedene Kombinationen (a,b,c) zu je r Elementen kann man bilden, wenn in jeder Kombination aus jeder Menge genau ein Element enthalten sein soll? Zwei Kombinationen (a, b,..., c) und (ä,b,c) werden dabei als verschieden angesehen, wenn mindestens eines der Paare a und ä, b und b,..., c und c aus unterschiedlichen Elementen besteht. Die gesuchte Anzahl aller derartigen Kombinationen ist N = to, n2 ••• nT (1.1) (für r = 2 ist die Formel (1.1) leicht einzusehen, für beliebiges r kann ihre Gültigkeit mit Hilfe der Methode der vollständigen Induktion nachgewiesen werden). Die AusuxM von Elementen mit Zurücklegen Aus einer Menge von n verschiedenen Elementen alt a2, ...,«„ werden nacheinander r Elemente ausgewählt. Dabei wird jedes entnommene Element aufgeschrieben und anschließend wieder zurückgelegt. Als Ergebnis einer solchen Auswahl erhält man eine Kombination der Form («;,> ait, •••.«.,)• Zwei derartige Kombinationen (a^, ait, ..., air) und (ajt, ajt, ..., air) werden hier als verschieden angesehen, wenn in irgendeinem Schritt nicht die gleichen Elemente ausgewählt wurden, d. h. wenn ait =j= ajk für mindestens eine Zahl k gilt. Man kann jede Kombination (a,t, ait,..., air) als Kombination von r Elementen ansehen, für die das &-te Element aus einer Menge Ak stammt und wobei alle r
1. Zufällige Auswahl und zufällige Aufteilung
69
Mengen Ak untereinander gleich, und zwar gleich der ursprünglich betrachteten Menge {«,, a2, ...,«„} sind. Aus Formel (1.1) ergibt sich dann die Anzahl aller möglichen Kombinationen der angegebenen Form zu N=n'.
(1.2)
Die Anzahl der möglichen Aufteilungen von r Elementen auf n Zellen, die Auswahl von Elementen ohne Zurücklegen Es seien r verschiedene Elemente gegeben, die auf n (n ¿zr) Zellen aufzuteilen sind. Wir fordern zusätzlich, daß dabei auf jede Zelle höchstens ein Element entfallen darf. Numeriert man sowohl die Elemente als auch die Zellen, so kann man jede Aufteilung durch eine Kombination der Form (ilt i2,..., ir) beschreiben. Hierbei bezeichnet ik die Nummer der Zelle, in die dasfc-teElement (k = 1 , 2 , . . . , r) gelegt wird. Man kann annehmen, daß die r Elemente nacheinander auf die n Zellen aufgeteilt werden. Das erste Element in der Kombination (ilt i2,..., iT) kann dann in jede der n möglichen Zellen fallen. Für die Zellennummer i2 des zweiten Elementes verbleiben noch n — 1 Möglichkeiten usw. Das r-te Element kann man schließlich in einer der n — r + 1 noch nicht besetzten Zellen plazieren. Aufgrund der Formel (1.1) existieren N =n{n - 1) ••• (n - r + 1)
(1.3)
verschiedene Aufteilungen von r unterschiedlichen Elementen auf n Zellen. Es seien n verschiedene Elemente a 1; a2,..., an gegeben, von denen r Elemente ausgewählt werden sollen. Wieviele solche Auswahlmöglichkeiten gibt es? Man kann r Elemente auswählen, indem man sie alle gleichzeitig entnimmt und dann in gewisser Reihenfolge anordnet. Man kann sie aber auch nacheinander herausgreifen, ohne daß ein einmal entnommenes Element wieder zurückgelegt wird. Als Ergebnis erhält man dann eine Kombination der Form (o
r„! r2! ... r„! weil r! ri!r2!
...rn\
gerade die Anzahl aller möglichen Aufteilungen von r Teilchen in n Gruppen zu rj, r2,... bzw. r„ Teilchen ist (vgl. Formel (1.6)). Es ist verständlich, daß für einen Beobachter die Rosinen bei einer Aufteilung auf die n Zellen nicht unterscheidbare Teilchen darstellen. Von diesem Standpunkt aus sind alle Verteilungen (i|, i2, ir), bei denen auf die erste Zelle r, Teilchen, auf die zweite r2 Teilchen, ... und auf die w-te Zelle rn Teilchen entfallen, nicht unterscheidbar. Deshalb brauchte man von Anfang an nur von solchen Verteilungen zu sprechen, die durch die Zahlen r, der auf die i-te Zelle entfallenden Teilchen beschrieben werden, und nicht von den oben betrachteten Kombinationen ( » i , i r ) . Wenn man alle derartigen Verteilungen (r1, ...,rn) als gleichwahrscheinlich ansieht, dann wird jeder Ausgang (ru ...,rn) nicht mehr die oben angegebene Wahrscheinlichkeit r\
sondern eine gewisse andere besitzen, die wir im folgenden berechnen wollen. Jede Verteilung ( r 1 ; . . r „ ) kann schematisch als Aufteilung von r Sternchen (Rosinen) zwischen senkrechten Strichen (die n Zellen repräsentieren) dargestellt werden: 1 2 n | * . . . * | * . . . * | . . . | * . . . * |.
1. Zufällige Auswahl und zufällige Aufteilung
75
Folglich ist die Anzahl aller Verteilungen ( r u . . . , r„) gleich der Anzahl der Möglichkeiten, (n — 1) Striche und r Sternchen in einer Reihe anzuordnen. Diese Zahl ist aber offenbar gleich der Anzahl der Möglichkeiten, aus n + r — 1 Elementen 7i — 1 auszuwählen, also gleich In + r — 1\ _ (n + r - 1)! (n - 1)! r\ \ » - 1 / Jeder spezielle Ausgang (r1,...,
rn) wird deshalb die Wahrscheinlichkeit (w — l ) ! r ! (n + r - 1)!
besitzen. Welche der beiden angegebenen Wahrscheinlichkeitsverteilungen für Teilchen im Phasenraum ist nun die richtige? Wir nehmen an, der oben beschriebene Zufallsmechanismus (das mehrfache Durchkneten des Teiges) wirke derart, daß jede der einzelnen Rosinen mit der gleichen Wahrscheinlichkeit in jede der n Zellen gelangt, und zwar praktisch unabhängig von der Bewegung der anderen Rosinen. Dann ist die Wahrscheinlichkeit der Verteilung (rlt ...,r„) gleich dem Wert r! rx\r2\
...rn\
es liegt also die erste der beiden betrachteten Verteilungen vor. Besonders anschaulich ist das im Fall n = r = 2. Jede der beiden Rosinen gelangt (unabhängig von der anderen) mit der Wahrscheinlichkeit — in eine der beiden Zellen, und es gilt ^ P(2,0) = P(0,2) = 1 , 4
P(l,l)=i 2
Die möglichen Verteilungen (2, 0), (0, 2) und (1,1) sind also keineswegs gleichwahrscheinlich, wie bei der zweiten oben betrachteten Wahrscheinlichkeitsverteilung angenommen wurde. Ist das Volumen der einzelnen Zellen kleiner als das Volumen aller Teilchen, d. h. aller Rosinen, so ist das oben beschriebene Modell mit gleichwahrscheinlichen Verteilungen ( i j , . . . , ir) offenbar nicht mehr geeignet, die Verteilung der Rosinen im Teig zu charakterisieren, denn beispielsweise können in einer Zelle schon nicht mehr alle Teilchen untergebracht werden. Wir betrachten ein neues Modell und nehmen an, daß die ausgewählten Zellen sehr klein (im Vergleich zur Größe der Rosinen) sind, und zwar so klein, daß in jede höchstens ein Teilchen paßt. Unter dieser Einschränkung kann man jede Teilchenverteilung durch eine Kombination (ilt..., iT) beschreiben, wobei die Zahlen ik die Nummern der be-
76
II. Wahrscheinlichkeitsverteilungen
setzten Zellen angeben (natürlich muß man r ^n
voraussetzen). Die Gesamt-
anzahl der unterschiedlichen Verteilungen ist gleich der Anzahl
der mög-
lichen Aufteilungen von r ununterscheidbaren Elementen auf n Zellen, wobei in jede Zelle höchstens ein Element paßt. Wenn man annimmt, daß alle möglichen Verteilungen gleichwahrscheinlich sind (das ist in dem von uns betrachteten Modell mit den Rosinen der Fall), dann ist die Wahrscheinlichkeit jeder speziellen Verteilung (¿j,..., ir) gleich (n — r)! r\ ~n! Die Frage nach der Verteilung unabhängiger Teilchen im Phasenraum (Rosinen im Teig) kann nun folgendermaßen gestellt werden: Man wählt irgendeinen Bereich des Phasenraumes mit dem Volumen v aus und fragt, wie groß die Wahrscheinlichkeit dafür ist, daß auf diesen Bereich eine gewisse Anzahl von Teilchen entfällt. Wir zerlegen gedanklich den Phasenraum in so kleine Zellen, daß in jede von ihnen höchstens ein Teilchen paßt. So wie oben stellen wir uns auf den Standpunkt, daß alle möglichen Verteilungen (iu ..., ir) der Teilchen, wobei ik die Nummer der vom A-ten Teilchen besetzten Zelle bezeichnet, gleichwahrscheinlich sind. Wenn wir die besetzten und die freien Zellen als weiße bzw. schwarze Kugeln ansehen, dann kann man sich den Phasenraum als einen Kasten vorstellen, der r weiße und n — r schwarze Kugeln enthält, und in dem die Kugeln mehrmals sorgfältig durchmischt wurden (r ist die Anzahl aller Teilchen im Phasenraum, n ist die Anzahl aller Zellen, und es gilt n ¿:r). Es seien m die Anzahl der Zellen im ausgesuchten Bereich v des Phasenraumes und f die vom Zufall abhängige Anzahl der Teilchen, die in diesen Bereich fallen (d. h., | ist die Anzahl der besetzten unter den m Zellen des Bereiches v). Die Wahrscheinlichkeit P({k) dafür, daß diese Teilchenanzahl £ gleich k ist (0 ^ k ^ ra) fällt nun mit der Wahrscheinlichkeit dafür zusammen, daß sich bei zufälliger AusWahl von m Kugeln aus einem Kasten mit r weißen und n — r schwarzen Kugeln unter den auf gut Glück herausgenommenen genau £ = k weiße Kugeln befinden. Der Ausdruck „auf gut Glück herausgenommen" bedeutet hier, daß beim Herausgreifen von ra Kugeln jede Kombination mit gleicher Wahrscheinlichkeit auftritt, mit anderen Worten, wenn alle n vorhandenen Kugeln durchnumeriert werden, dann erscheint jede Kombination (jx,..., jm) von Kugeln mit gleicher Wahrscheinlichkeit. Die Anzahl N aller Möglichkeiten, aus den n Kugeln ra auszuwählen, ist
Uns interessiert das Ereignis A, daß unter den m herausgegriffenen Kugeln genau k weiße sind.
1. Zufällige Auswahl und zufällige Aufteilung
77
Wir wollen die Wahrscheinlichkeit dieses Ereignisses angeben. Da die BeN( A) ziehung P(^4) = gilt, berechnen wir zunächst die Anzahl N(A) aller Auswahlmöglichkeiten, bei denen das Ereignis A eintritt. Das kann nun folgendermaßen geschehen. Wir teilen eine Menge von n Kugeln gedanklich in zwei Mengen, und zwar in eine mit r weißen und in eine mit n — r schwarzen Kugeln. Wählt man aus den n Kugeln m beliebig aus, so sind genau dann k dieser m Kugeln weiß, wenn aus der ersten Menge k und aus der zweiten m — k ausgewählt werden. . . . , a r alle weißen und mit bl, ..., bn_T alle schwarzen Wir bezeichnen mit Kugeln. Dann kann jede Auswahl a = fa , aik) von k weißen und b — (bj, •"> bjm_k) von n — k schwarzen Kugeln als Paar (a, b) angesehen werden, und die Zahl N(A) stimmt mit der Anzahl der Paare überein, die man aus den verschiedenen Elementen a und b bilden kann. Die Gesamtanzahl der Elemente a, d. h. die Anzahl aller Möglichkeiten, aus den r vorhandenen weißen Kugeln k auszuwählen, ist gleich r! k\ (r — k)\
(
Tb
T
\
).
Produkt Folglich ist die Anzahl N(A) der verschiedenen Paare (a, b) gleich dem m—kj
(ifc) (m-jfc)' Da es insgesamt ( W J Möglichkeiten gibt, aus n Kugeln irgendwelche m Kugeln
W
auszuwählen, erhalten wir für die gesuchte Wahrscheinlichkeit P(A) den Wert
P(^) =
{ k ) (w -
k)
(m) Wir haben somit praktisch die Wahrscheinlichkeitsverteilung der Zufallsgröße | gefunden, die die (zufällige) Anzahl der weißen Kugeln in einer auf gut Glück gezogenen Stichprobe (Los) vom Umfang m angibt (bzw. die gleich der Anzahl der Teilchen im betrachteten Bereich des Phasenraumes ist): n —r . „ , 1 m — Lkl Pe(k) = ' ' ) ,
OH C)
k=0,...,m
(1.8)
78
II. Wahrscheinlichkeitsverteilungen
(die Zahlen n, r und m sind fest vorgegeben). Diese Verteilung ist bekannt als hypergeometrische Wahrscheinlichkeitsverteilung. Um die Bedeutung dieser Verteilung zu unterstreichen, betrachten wir ein weiteres Beispiel. Beispiel (Stichprobenkontrolle in der Produktion): Es sei ein großes Los irgendwelcher Teile gegeben, die entweder einwandfrei oder unbrauchbar sein können. Es ist klar, daß die Kontrolle jedes einzelnen Teiles nicht immer möglich ist (z. B. kann es vorkommen, daß die Prüfung eines Teiles dieses für die weitere Verwendung unbrauchbar macht). In diesem Fall wird eine sogenannte Stichprobenkontrolle durchgeführt. Dabei wählt ein Kontrolleur auf zufällige Weise m Teile aus dem gesamten Los aus, überprüft sie, und wenn die Zahl der Ausschußteile unter ihnen eine gewisse kritische Zahl m* übersteigt, dann wird das gesamte Los als nicht den Qualitätsansprüchen genügend ausgesondert. Was geschieht nun bei einer derartigen Kontrolle, welche Lose werden ausgesondert und mit welcher Wahrscheinlichkeit passiert das? Wenn das gesamte Los aus n Teilen besteht (wobei r von ihnen Ausschuß seien), dann wird die Wahrscheinlichkeit dafür, daß unter den auf gut Glück ausgewählten m Teilen gerade k Ausschußteile sind, offenbar durch die Formel (1.8) angegeben. Hierbei bedeutet £ die zufällige Anzahl der Ausschußteile in der zur Prüfung ausgewählten Stichprobe vom Umfang m. In der ursprünglich betrachteten Aufgabe über die Verteilung der Teilchen im Phasenraum waren die Anzahl der vorhandenen Teilchen r und das Volumen v des betrachteten Bereiches des Phasenraumes (Gesamtvolumen F) vorgegeben. r Bequemer ist es, nicht die Werte r und V, sondern die mittlere Anzahl A = — der v Teilchen in einer Volumeneinheit anzugeben. Das gibt Tins, wie wir im weiteren sehen werden, die Möglichkeit, die Verteilung der Teilchen auch für einen unendlich großen Phasenraum (genauer, bei V oo und r -> oc) zu finden. Im Hinblick darauf besitzt die Formel (1.8) den Nachteil, die „überflüssigen Parameter" n und m zu enthalten. Weiter unten werden wir zeigen (vgl. auch den folgenden Abschnitt 2.1.), daß die Teilchenanzahl f in dem betrachteten Bereich des Phasenraumes näherungsweise eine PoiSSONscÄe Wahrscheinlichkeitsverteilung besitzt, sofern v im Vergleich zur Größe eines einzelnen Teilchens genügend groß ist: P (i) « Ä
kl
Genauer gesagt gilt Folgendes. Wenn n,m,r-> übergang die Größe V
e- 1 »
oo, und wenn bei diesem Grenzm n
konstant bleibt (a ist die mittlere Teilchenanzahl in einem Gebiet vom Volumen v), dann gilt für die durch Formel ,(1.8) definierten Wahrscheinlichkeiten Ps(k)
79
1. Zufällige Auswahl und zufällige Aufteilung
die folgende Grenzaussage (vgl. Formel (1.13)): l i m P({k)=^-e~a, kl
¿=0,1,....
(1.9)
Wir stellen uns im folgenden wieder einen Kasten (oftmals auch als ,,Urne" bezeichnet) mit r weißen und n — r schwarzen Kugeln vor. Bisher wurden unter Anwendung unseres „Urnenmodells" m Kugeln ohne Zurücklegen ausgewählt. Wir betrachten ein analoges Modell, das aber im Vergleich zum vorangehenden folgenden Unterschied aufweist: Nachdem eine Kugel entnommen ist, wird diese in die Urne zurückgelegt (Auswahl mit Zurücklegen). Wie groß ist die Wahrscheinlichkeit dafür, daß sich unter den m herausgegriffenen Kugeln genau k weiße befinden? Wir nehmen an, daß jede Kugel in der Urne mit einer Nummer versehen ist. Dann kann jede Stichprobe vom Umfang m durch eine Folge (i¡,..., im) beschrieben werden, wobei ip die Nummer der p-ten herausgenommenen Kugel darstellt. Es gibt bei der Auswahl mit Zurücklegen für ip genau n mögliche Werte {ip = 1, 2 , . . . , n). Folglich ist die Gesamtanzahl der unterschiedlichen Stichproben (iu ... ,im) gleich nm, und diese sind alle gleichwahrscheinlich. Wir betrachten nun die Stichproben, die genau k (Je Sí m) weiße Kugeln enthalten und berechnen zunächst die Anzahl derjenigen Kombinationen (»,, . . . , im), bei denen an gewissen festen Stellen m u . . . , m k die Nummern weißer Kugeln stehen (d. h. solcher Stichproben, bei denen die Kugeln imi,..., imjc weiß und die übrigen m — k Kugeln schwarz sind). Für die Wahl jeder der weißen Kugeln iMi,..., imic gibt es r verschiedene Möglichkeiten (r ist die Gesamtanzahl der in der Urne befindlichen weißen Kugeln). Ebenso existieren für jede schwarze Kugel n — r Möglichkeiten. Deshalb gibt es r*(m — r)m~k unterschiedliche Stichproben (»!, ..., im), bei denen sich die k weißen Kugeln an den festen Stellen ra,, . . . , mk
(
Wb \
} ver-
kj
schiedene Weisen aus den m Stellen auswählen. Somit ist die Gesamtanzahl der Stichproben (¿,, . . . , im) mit k weißen Kugeln gleich ( ^ j
rk n
( ~~ r)m~k- Die Wahr-
scheinlichkeit dafür, daß sich unter m ausgewählten Kugeln genau k weiße befinden, ist also gleich dem Wert f
wobei die Zahl p = — mit der Wahrscheinlichkeit übereinstimmt, beim Entra nehmen einer Kugel eine weiße zu erhalten. Somit besitzt die Zufallsgröße f, die die Anzahl der weißen Kugeln in einer Stichprobe (mit Zurücklegen) vom Umfang m angibt, die Wahrscheinlichkeits-
80
II. Wahrscheinlichkeitsverteilungen
Verteilung Pe(k)
k = 0, 1,..., m.
pr
(1.10)
Dabei stellt p die Wahrscheinlichkeit dafür dar, daß man beim Herausgreifen einer Kugel eine weiße zieht. Diese Wahrscheinlichkeitsverteilung heißt Binomialverteilung1) oder Bebnoulliscäc Verteilung. Man kann leicht zeigen, daß bei einer großen Anzahl n von Kugeln und einem kleinen Stichprobenumfang m die Auswahl ohne Zurücklegen und die Auswahl mit Zurücklegen praktisch dasselbe Resultat ergeben, d. h., die Wahrscheinlichkeit dafür, daß k weiße Kugeln herausgenommen wurden, ist in beiden Fällen annähernd dieselbe. Das wird durch die Grenzbeziehung /%\ / » — »i\ \k)\m — kj
TO!
k\ (m — k)\
'»J(»i — 1) ••• (»i —fc+ 1)' n(n — 1) ••• (n — k f 1)
C) X
n2(n2 — 1)••• (w2 — m + k + 1) (n — k) (n-k—i)---(n- • TO - 1)
TO!
k\(m-k)\
pk(i — p)m-k
bestätigt. Dabei wurde nx = r und n2 = n — r gesetzt (vgl. Formeln (1.8) und (1.10)), und angenommen, daß bei unbeschränkt wachsender Gesamtanzahl n der Kugeln der Anteil p = — der in der Urne befindlichen weißen Kugeln konstant n bleibt. (Wir erinnern daran, daß p die Wahrscheinlichkeit dafür angibt, bei einer auf gut Glück aus der Urne ausgewählten Kugel eine weiße zu erhalten). Wir haben oben gezeigt, daß die Anzahl £ der weißen Kugeln in einer Stichprobe mit Zurücklegen vom Umfang TO eine Binomialverteilung besitzt. Für ihren Erwartungswert M£ gilt • p\ 1 fr=i k\(m — k)\
„
v
"t1 i=0
(to-1)!
p>(l — p)™-1-' j'-(m - 1 - ;)!
mp\p -f (1 — p)]™-1 = mp
(1.11)
Welche Verteilung wird sich nun für die Anzahl der weißen Kugeln in einer StichT
probe vom Umfang m ergeben, wenn einerseits der Anteil p — — aller weißen n k = 0 , . . . , m, sind die Binomialkoeffizienten in der Formel m lm\ * ( \ , (P + 9)m= E ( , )p'!qm-k k=: o U i m
(q = l-p).
1. Zufällige Auswahl und zufällige Verteilung
81
Kugeln in der Urne kleiner wird (p -> 0) und sich andererseits der Umfang m der Stichprobe derart vergrößert (m oo), daß die mittlere Anzahl a — mp der weißen Kugeln in der Stichprobe konstant bleibt? Es gelten die Beziehungen P,(0) = (1 - p)m = und P t (4) Pf(4-1)
Kr
i kl pH i - p)m-k \ ) / m
a - (4 - 1) p 4(1-p)
-p)
a
k
für jede feste Zahl k = 1,2, . . . , also
W ^ - e - » ,
(1.12)
Pf(4)-*-er-, kl
Folglich hat die Zufallsgröße £ im Grenzfall die Wahrscheinlichkeitsverteilung Pt(4)=^e-,
4=0,1,....
(1.13)
Diese Verteilung heißt PoissoNscÄe Verteilung1). Obwohl im Grenzfall der Stichprobenumfang unendlich groß ist (m -> oo) und die Anzahl f der in der Srichprobe vorkommenden weißen Kugeln eine beliebig große (aber endliche) Zahl sein kann, ist ihre mittlere Anzahl Mf endlich, und 1 ) Für die Differenz der Verteilungsfunktion von Binomial- und PoissoNscher Verteilung ergibt sich folgende Abschätzung:
sup *
IC)
x £
pHI-P)
m-k £ t î < k=0
voneinander unabhängig, und jede von ihnen besitzt die gleichmäßige Wahrscheinlichkeitsverteilung mit der Dichte 1 p{x)
=
für
x
e
V ,
w \
0
(2.i)
sonst.
Dabei bezeichnet | V\ das Volumen des Bereiches F. Mit A kennzeichnen wir die mittlere Anzahl der Teilchen je Volumeneinheit:
\V\
Es sei i(v) die Anzahl der Teilchen, die in irgendeinen Bereich v cz V fallen. Wir werden zeigen, daß bei unbegrenzter Vergrößerung des „Phasenraumes" V und gleichzeitiger Erhöhung der Teilchenanzahl r (und zwar so, daß die mittlere Teilchenanzahl pro Volumeneinheit konstant gleich X bleibt), die Wahrscheinlichkeitsverteilung der Zufallsgröße £(v) sich einer PoissoNschen Verteilung als Grenzverteilung nähert: P|f(t>) = k) = i Ä
erW,
k = 0,1,...
(2.2)
82
II. Wahrscheinlichkeitsverteilungen
zwar gleich a: M i
— e-° =
V k
=
a
Y
— e-° = o.
(1.14)
Für die Streuung D2f erhalten wir D 2 f = M(£ -
a) 2 = M|2 -
= «2* ( ¿ - i ) =
a
2
+
a
—
a
2
a2 = V
*=1
r (fc-1)!
=
&
—
e~»
-
a2
a
(¿-1)! (1.15)
a .
2. Die Poissonsche Verteilung, homogene Ereignisströme und Yerweilzeiten in einem Zustand 2.1. Poissonsche Verteilung yon Teilchen Wir betrachten noch einmal die Aufgabe, die Verteilung irgendwelcher Teilchen zu bestimmen. Dazu stellen wir uns vor, daß in einen gewissen Bereich V des euklidischen Raumes auf gut Glück und unabhängig voneinander r Teilchen geworfen werden. Wenn die Lage des &-ten Teilchens (k = 1,..., r) angibt, dann sind die vektorwertigen Zufallsgrößen fj, . . . , ! > voneinander unabhängig, und jede von ihnen besitzt die gleichmäßige Wahrscheinlichkeitsverteilung mit der Dichte 1 p{x)
=
für
x
e
V ,
w \
0
(2.i)
sonst.
Dabei bezeichnet | V\ das Volumen des Bereiches F. Mit A kennzeichnen wir die mittlere Anzahl der Teilchen je Volumeneinheit:
\V\
Es sei i(v) die Anzahl der Teilchen, die in irgendeinen Bereich v cz V fallen. Wir werden zeigen, daß bei unbegrenzter Vergrößerung des „Phasenraumes" V und gleichzeitiger Erhöhung der Teilchenanzahl r (und zwar so, daß die mittlere Teilchenanzahl pro Volumeneinheit konstant gleich X bleibt), die Wahrscheinlichkeitsverteilung der Zufallsgröße £(v) sich einer PoissoNschen Verteilung als Grenzverteilung nähert: P|f(t>) = k) = i Ä
erW,
k = 0,1,...
(2.2)
83
2. PoissQMche Verteilung
(dabei bedeutet |v| das Volumen des Bereiches v), und daß darüber hinaus für paarweise disjunkte Bereiche vu ..., vn die Beziehung P{fK) =
« » , ) = kn\ =
(2.3)
gilt. Aus den Formeln (2.2) und (2.3) ergibt sich, daß für paarweise disjunkte Bereiche vu ...,v„ die Zufallsgrößen £(v,),..., i(v„) voneinander unabhängig sind. Anschaulich ist das klar. Bei unendlich vielen voneinander unabhängigen Teilchen beeinflußt nämlich die in einen Bereich vl gefallene (endliche) Anzahl von Teilchen nicht die Anzahl derjenigen Teilchen, die in zu v1 disjunkte Bereiche v2, ...,vn fallen. Wir leiten nun die Formel (2.3) her und halten dafür zunächst V und r fest. Offenbar fällt jedes der vorhandenen r Teilchen in den Bereich »j c F mit der IH entsprechenden Wahrscheinlichkeit pi = y^-, i = 0 , 1 , . . . , n. Dabei sei i>0 der zu Vx u v2 u ••• u vn komplementäre Bereich von V: v0 = V\ (i>x u ••• u vn). Die r Teilchen (deren Lage durch die Zufallsgrößen gu . . . , f r beschrieben wird) werden inTO-j- 1 Gruppen zu je kl;..., k„ und k0 Teilchen so aufgeteilt, daß + + = k und k0 = r — k gilt. Die Anzahl aller möglichen derartigen Aufteilungen ist r' gleich — ——— (siehe (1.6)). Das Ereignis |£(i>i) = ku ..., £(»„) = k„) tritt ÄJ! ••• kn\ka\ genau dann ein, wenn kx der Teilchen in den Bereich vu k2 der Teilchen in den Bereich v2 usw. fallen (die restlichen k0 = r — k Teilchen befinden sich dann im Bereich v0). Ein einzeln betrachtetes Teilchen fällt unabhängig vom Verhalten der anderen Teilchen in den Bereich v; mit der oben angegebenen Wahrscheinlichkeit Pi, i = 0 , 1 , . . . ,TO.Folglich ist die Wahrscheinlichkeit dafür, daß eine bestimmte Gruppe von k{ Teilchen in vu eine andere bestimmte Gruppe von k2 Teilchen in v2 fällt, usw., gleich dem Produkt pikip2' • • • Pnk"Pok'- Wie bereits gesagt, gibt es r\ k1!---k„!k0l Möglichkeiten, die r Teilchen in (to + 1) Gruppen so einzuteilen, daß sich in der 7-ten Gruppe gerade kj Teilchen befinden. Jede dieser Einteilungen tritt beim Werfen der r Teilchen mit der eben angegebenen Wahrscheinlichkeit Pikl ••• pnk"p0k' auf. Deshalb besitzt das mit der Vereinigung aller dieser Einteilungen übereinstimmende Ereignis (K^) = kx,..., £(vn) = &„) die Wahrscheinlichkeit (2.4)
pik>---pak"p0k'-
H
Gemäß der SimLiNGschen Formel gilt R! ~ i^Tcri* e~r
und
(R — ÄT) ! — ]/2Ji(r — k) (r — k)r~k
e-(r~k).
84
II. Wahrscheinlichkeitsverteilungen
Bei festen k 1 } . . . , kn ergibt sieh für r —> oo k l/r - k
±
'
(r - k j
=
(
1 +
r-
kj
wi ök
i = 1,..., n,
und =
Für r
^ _ it>ii + - + it>,iy-* = | i _ ¿(M + -
+ Koy-
T
oo und konstantes X = — erhalten wir als Resultat W\
d. h., als Grenzbeziehung ergibt sich die Formel (2.3). Die PoissoNsche Verteilung wird durch einen einzigen Parameter X, 0 < X < oo, charakterisiert; er gibt die mittlere Teilchenanzahl je Volumeneinheit an:
M
(vgl. (1.14)).
Die genannte Verteilung besitzt folgende spezifische Eigenschaften: a) die Zufallsgrößen £(%),..., £(v„) sind für paarweise disjunkte Bereiche v t , . . . , v „ voneinander unabhängig, b) die Wahrscheinlichkeit dafür, daß eine bestimmte Anzahl von Teilchen in einen Bereich v fällt, hängt nicht von der Lage des Bereiches v im Phasenraum, sondern nur von seinem Volumen ab, c) die Wahrscheinlichkeit dafür, daß in einen Bereich mit einem kleinen Volumen |i>| genau ein Teilchen fällt, ist bis auf Größen höherer Ordnung proportional zu |w|: P|f(t>) = 1} = l \ v \ e - W = i \ v \ + o(M), die Wahrscheinlichkeit dafür, daß mehr als ein Teilchen in den Bereich mit dem Volumen |v| fallen, ist für |«| - > 0 eine Größe höherer Ordnung: Pif(0) > 1}
k=2
k !
2. Poissc>Nsche Verteilung
85
Wir werden im folgenden nachweisen, daß jede Teilchenverteilung, die den eben angeführten Bedingungen a), b) und c) genügt, eine PoissoNsche Verteilung ist. Dafür genügt es, die Gültigkeit der Formel (2.2) zu zeigen. Aufgrand der Bedingung a) folgt dann nämlich sofort die allgemeinere Formel (2.3). Der Bereich v wird ebenso wie im Abschnitt 1.2. (vgl. Formel (1.9) und die darauffolgenden Überlegungen) in kleine Zellen Ak, k = 1 , . . . , n, mit dem VoluM men \Ak\ = — zerlegt. Aufgrund der Bedingungen a) und b) ist die W a h r n scheinlichkeit des Ereignisses \Z(Ait) = l,Z = l , . . . , i ; K J J = 0 ,
l=k+l,...,n)
f ü r alle Kombinationen (iu...,ik), ..., in) dieselbe, und zwar gleich dem Produkt ( P f f ^ i ) = l))*(P{f(Ji) =0})«-". Infolge der Bedingung c) übersteigt f ü r w —> oc die Wahrscheinlichkeit dafür, d a ß in irgendeine Zelle mehr als ein Teilchen fällt, nicht die Summe
Vereinbart man die Bezeichnung j» = P{f(Jx) = 1} = a M n so erhält man folglich für n
+
0
/1\ \n)
oo (vgl. (1.13))
P(f(») = i ) «* 2 P{f(J„)=l, ("I u) =
I = 1
i(^,)=0,
l = 4 + l,...,»f
J (P{f(A) = 1))* (P{£(J,) = o»»-*
(
Tb \
dJ^
) pk( 1 — Tp)n-i fü — e-°. kf k\ Dabei wurde a =np = k\v\ gesetzt. Wir vermerken noch die folgende, ebenfalls charakteristische Eigenschaft der PoiSSONSchen Verteilung: Unter der Bedingung, daß r Teilchen in einen gewissen Bereich V fallen, ist ihre Wahrscheinlichkeitsverteilung im Inneren dieses Bereiches genau dieselbe, als ob die Teilchen einzeln und unabhängig voneinander auf gut Glück in den
86
II. Wahrscheinlichkeitsverteilungen
Bereich V geworfen werden. Genauer gesagt, die vektorwertigen Zufallsgrößen f i r > die die Lage der Teilchen in V angeben, sind voneinander unabhängig und gleichmäßig auf dem Bereich V (d. h. mit der Wahrscheinlichkeitsdichte (2.1)) verteilt. Die bedingte Wahrscheinlichkeit P{l(Vi) = ku ..., £(vn) = kn [ £(F) = r} ist nämlich für beliebige paarweise disjunkte Bereiche vu ...,vn gleich P f ^ ) = i „ . . . , { ( » , ) = kn, £(«„) = ko) P{f(F) = r } l + !»ol)
4,!
k„\ W\Y r\ r!
jM — JfcJifco!
Pl"1 ''' PnknPok°
Aus einem Vergleich mit (2.4) folgt die Behauptung. Beispiel (Prozeß des radioaktiven Zerfalls): Bekanntlich geht das chemische Element Radium (Ra) durch radioaktiven Zerfall im Verlaufe der Zeit in das Element Radon (Rn) über. Die zerfallenden Atomkerne des Radiums strahlen sogenannte «-Teilchen (Atomkerne des Elementes Helium (He)) aus. Der Zerfall eines einzelnen Ra-Atoms erfolgt unabhängig vom Zustand der anderen Atome der Materie, und die «-Strahlen stellen einen Strom mit einer großen Anzahl unabhängiger Teilchen dar. Aufgrund der obigen Überlegungen kann man erwarten, daß die Verteilung der «-Teilchen in der Zeit eine PoiSSONSche ist, d. h., die Wahrscheinlichkeit dafür, daß die Anzahl |(zl) der in einem Zeitintervall A ausgestrahlten a-Teilchen gleich k ist, hat den Wert P||(^)=ib}=iiÄeJMI, fc!
¿=0,1,....
(2.5)
Dabei bezeichnet \A | die Länge des betrachteten Zeitintervalls A und /. die mittlere Anzahl von «-Teilchen, die pro Zeiteinheit ausgestrahlt werden: Mg(/1)
Diese Erwartung ist durch experimentelle Untersuchungen weitgehend bestätigt worden1). (Ausführlicher wird der Prozeß des radioaktiven Zerfalls in dem folgenden Abschnitt 2.2. betrachtet werden.) 1)
Siehe z. B. das bereits zitierte Buch von W .
FELLER.
2. PoissQNsche Verteilung
87
Natürlich tritt die PoissoNsche Verteilung nicht nur bei der Untersuchung eines homogenen Stromes von unabhängigen Teilchen auf. Als weiteres Beispiel kann man hier den homogenen Strom der Forderungen anführen, der in irgendein Bedienungssystem einläuft (z. B. kommen an einer Tankstelle Kraftwagen an, treffen in einem Auskunftsbüro Anfragen ein, wird in einer Telefonzentrale der Strom der erfolglosen Anrufe der Teilnehmer registriert usw.). Ganz allgemein können irgendwelche homogenen Ströme von unabhängigen Ereignissen betrachtet werden, die in ihrem zeitlichen Verlauf registriert werden: Die Zeitpunkte des Eintretens dieser Ereignisse können als „Teilchen" interpretiert werden, die zufällig auf der reellen Geraden (der Zeitachse) verteilt sind. Angenommen, für die Anzahl £(A) der Ereignisse im Zeitintervall A gelten die oben angegebenen Bedingungen a), b) und c): a) Die Zufallsgrößen £ ( / ! ] ) , . . . , £(An) sind für paarweise disjunkte Zeitintervalle A u . . . , A „ unabhängig; b) die Wahrscheinlichkeit für irgendeine Anzahl von Ereignissen im Intervall A hängt nicht vom Anfangspunkt der Zeitachse ab (bzw. hängt nicht von der Lage des Intervalls A auf der Zeitachse ab); c) die Wahrscheinlichkeit für das Eintreten eines Ereignisses in einem kleinen Zeitintervall A ist zur Länge \A | dieses Intervalls proportional, und die Wahrscheinlichkeit für das Eintreten von mehr als einem Ereignis ist bezüglich \A \ eine Größe höherer Ordnung. Dann heißt dieser Ereignisstrom ein PoiSSONScAer Ereignisstrom; die Wahrscheinlichkeitsverteilung von £(A) wird durch die Formel (2.5) beschrieben.
2.2. Die Zeit bis zum Eintreten eines zufälligen Ereignisses Eine Münze werde je Zeiteinheit einmal geworfen, und zwar so lange, bis zum ersten Mal das Wappen erscheint. Die Versuchsdauer (d. h. die Wartezeit auf das Ereignis „Wappen") ist natürlich eine Zufallsgröße. Für einen Beobachter, der auf das Erscheinen des Wappens wartet, ist dabei aufgrund der Unabhängigkeit der einzelnen Münzwürfe die Situation zu einem beliebigen Zeitpunkt t > 0 wahrscheinlichkeitstheoretisch dieselbe wie zum Anfangszeitpunkt t = 0 : die Wahrscheinlichkeit, nach einem Zeitpunkt t mindestens noch eine Zeitdauer s warten zu müssen, ist gleich der Wahrscheinlichkeit, vom Anfangszeitpunkt ausgehend mindestens noch s-mal nur Zahlen zu werfen. Genauer, bezeichnet r die Anzahl der Würfe, bis zum erstenmal das Wappen erscheint, ist also r die Wartezeit, dann gilt die Gleichung P{t > t + s | r > f) = P(r > s}. (2.6) Diese Beziehung wird folgendermaßen bewiesen. F ü r beliebige t = 0 , 1 , . . . tritt das Ereignis (t > t\ genau dann ein, wenn bei t voneinander unabhängigen Münz7 Kosanow
2. PoissQNsche Verteilung
87
Natürlich tritt die PoissoNsche Verteilung nicht nur bei der Untersuchung eines homogenen Stromes von unabhängigen Teilchen auf. Als weiteres Beispiel kann man hier den homogenen Strom der Forderungen anführen, der in irgendein Bedienungssystem einläuft (z. B. kommen an einer Tankstelle Kraftwagen an, treffen in einem Auskunftsbüro Anfragen ein, wird in einer Telefonzentrale der Strom der erfolglosen Anrufe der Teilnehmer registriert usw.). Ganz allgemein können irgendwelche homogenen Ströme von unabhängigen Ereignissen betrachtet werden, die in ihrem zeitlichen Verlauf registriert werden: Die Zeitpunkte des Eintretens dieser Ereignisse können als „Teilchen" interpretiert werden, die zufällig auf der reellen Geraden (der Zeitachse) verteilt sind. Angenommen, für die Anzahl £(A) der Ereignisse im Zeitintervall A gelten die oben angegebenen Bedingungen a), b) und c): a) Die Zufallsgrößen £ ( / ! ] ) , . . . , £(An) sind für paarweise disjunkte Zeitintervalle A u . . . , A „ unabhängig; b) die Wahrscheinlichkeit für irgendeine Anzahl von Ereignissen im Intervall A hängt nicht vom Anfangspunkt der Zeitachse ab (bzw. hängt nicht von der Lage des Intervalls A auf der Zeitachse ab); c) die Wahrscheinlichkeit für das Eintreten eines Ereignisses in einem kleinen Zeitintervall A ist zur Länge \A | dieses Intervalls proportional, und die Wahrscheinlichkeit für das Eintreten von mehr als einem Ereignis ist bezüglich \A \ eine Größe höherer Ordnung. Dann heißt dieser Ereignisstrom ein PoiSSONScAer Ereignisstrom; die Wahrscheinlichkeitsverteilung von £(A) wird durch die Formel (2.5) beschrieben.
2.2. Die Zeit bis zum Eintreten eines zufälligen Ereignisses Eine Münze werde je Zeiteinheit einmal geworfen, und zwar so lange, bis zum ersten Mal das Wappen erscheint. Die Versuchsdauer (d. h. die Wartezeit auf das Ereignis „Wappen") ist natürlich eine Zufallsgröße. Für einen Beobachter, der auf das Erscheinen des Wappens wartet, ist dabei aufgrund der Unabhängigkeit der einzelnen Münzwürfe die Situation zu einem beliebigen Zeitpunkt t > 0 wahrscheinlichkeitstheoretisch dieselbe wie zum Anfangszeitpunkt t = 0 : die Wahrscheinlichkeit, nach einem Zeitpunkt t mindestens noch eine Zeitdauer s warten zu müssen, ist gleich der Wahrscheinlichkeit, vom Anfangszeitpunkt ausgehend mindestens noch s-mal nur Zahlen zu werfen. Genauer, bezeichnet r die Anzahl der Würfe, bis zum erstenmal das Wappen erscheint, ist also r die Wartezeit, dann gilt die Gleichung P{t > t + s | r > f) = P(r > s}. (2.6) Diese Beziehung wird folgendermaßen bewiesen. F ü r beliebige t = 0 , 1 , . . . tritt das Ereignis (t > t\ genau dann ein, wenn bei t voneinander unabhängigen Münz7 Kosanow
88
II. Wahrscheinlichkeitsverteilungen
würfen kein einziges Mal das Wappen auftritt. Also gilt P { T > I )
= ( 1
-p)',
t=
0,1,....
(2.7)
Dabei ist p die Wahrscheinlichkeit für das Auftreten des Wappens in einem beliebigen einzelnen Münzenwurf (für eine symmetrische Münze gilt p = —). Wir erhalten somit ^ P{r > t + a | r > t) =
^l+t]
= (1 ~ PY = PI* >
P{rp
Die Gleichung (2.6) für sich betrachtet ist charakteristisch für Wartezeiten r bis zum Eintreten solcher Ereignisse A, bei denen die Länge der bereits gewarteten Zeit keinerlei Einfluß auf die Wahrscheinlichkeitsverteilung der noch verbleibenden Zeit bis zu ihrem Eintreten ausübt. Für solche Wartezeiten r, für die oben ein einfaches Beispiel angegeben wurde, gilt P(r > i) = e - " ,
f^O,
(2.8)
wobei X (A 0) ein gewisser Parameter ist. Bei diskreter Zeit t = 0 , 1 , . . . kann man mit p = 1 — e~l die Formel (2.8) in der Form (2.7) schreiben. Die Wahrscheinlichkeitsverteilung der Wartezeit r ist für diskrete Zeit t eine sogenannte geometrische Verteilung: Px(k) = e-A f) schreiben, und es gilt px(t) = FT'(t). Eine solche Verteilung nennt man eine Exponentialverteilung. Für den genannten Parameter % gibt es eine einfache wahrscheinlichkeitstheoretische Interpretation, — ist die mittlere Wartezeit: oo i - = Mr = = Ij tp,(t) tp,( dt.
(2.11)
Wir leiten nun die Formel (2.8) aus der Beziehung (2.6) her, wobei wir voraussetzen, daß r den Wert 0 nur mit Wahrscheinlichkeit Null annimmt und daß die Zufallsgröße r im Fall stetiger Zeit für i ¡5: 0 eine stetige Wahrscheinlichkeitsdichte besitzt. Wir definieren eine Funktion f(t) durch /( t + s\ = P{t > 8} P{r > t], und folglich ergibt sich für die Funktion f(t) die Beziehung f(s + t) = f(s) f(t)
{s, t ^ 0)
oder, anders geschrieben, log f(s + t)=
log f(s) + log /(«)
mit /(0) = P{r > 0) = 1. Für diskrete Zeit t = 0 , 1, . . . erhalten wir daraus, daß log f(t) (mit log /(0) = 0) eine lineare Funktion ist, d. h. daß log/(f) = < l o g / ( l ) gilt, und daß folglich mit der Bezeichnung p = 1 — /(1) = P(t = 1} die Gleichung f(t) = (1 — p)' = e~" besteht. Für stetige Zeit t folgt unter der Voraussetzung, daß die Dichte pt(t) = —f'(t + 0), i ;> 0 , existiert, durch Differentiation nach s die Gleichung f'(t + s) _ f'(s) f(t + *)
f(s) '
Daraus ergibt sich für s = 0 die Beziehung
m m
=
_
A
mit —X = /'(0) t}, t 0 , ist. Also gilt f(t) = e~u. Damit ist (2.8) bewiesen. Beispiel (Modell des radioaktiven Zerfalls): Wir hatten bereits weiter oben erwähnt, daß die Verteilung der vom Element Radium ausgestrahlten ¡x-Teilchen eine PoiSSONSche Verteilung ist. Wir setzen nun voraus, daß die Umwandlung von Radium Ra in Radon Rn (wobei gleichzeitig a-Teilchen ausgestrahlt werden), derart vor sich geht, daß sich im Zeitintervall (t0, ix) jedes einzeln betrachtete Ra-Atom mit einer gewissen, nur von der Länge t = tt — t0 des Zeitintervalls abhängenden Wahrscheinlichkeit p = p(t) in ein Rn-Atom umwandelt. Erfolgte bis zum Zeitpunkt tx der Übergang Ra - > Rn nicht, so betrachten wir als neuen Ausgangszeitpunkt. Die Umwandlung des Ra-Atoms tritt nun auf Grund unserer Voraussetzung in der folgenden Zeitspanne s = t2 — tl mit der entsprechenden Wahrscheinlichkeit p(s) ein. Offenbar genügt die Zeit r bis zum Zerfall Ra - > Rn eines bestimmten Ra-Atoms (wenn man mit dem Zeitpunkt t0 7*
90
II. Wahrscheinlichkeitsverteilungen
beginnt) der Beziehung (2.6), da die bedingte Wahrscheinlichkeit P{r > t + s | r > S}) gleich 1 — p(s), und folglich besitzt die Wartezeit r eine Exponentialverteilung (2.8). Wir wollen hier noch die physikalische Bedeutung der zugehörigen Konstante X erklären. Wir wissen bereits, daß — die mittlere Wartezeit bis zum Zerfall 1 Ra R n irgendeines bestimmten einzelnen Atoms ist (vgl. (2.1)). Hierbei wird natürlich angenommen, daß die Konstante X f ü r alle Ra-Atome übereinstimmt. E s sei n0 die Radiummenge (genauer, die Anzahl der Ra-Atome) zum Anfangszeitpunkt i 0 . Jedes einzelne Ra-Atom zerfällt während der folgenden Zeit t mit der Wahrscheinlichkeit p(t) = 1 - e-A«. Wenn £(t) die Anzahl der in dieser Zeit zerfallenen Ra-Atome bezeichnet (|(t) stimmt mit der Anzahl der bis zur Zeit t ausgestrahlten «-Teilchen überein), dann gilt f ü r den Mittelwert Mi(t) die Gleichung M m = n0p(t) = « 0 ( 1 -
e-").
Nach der Zeit t sind also im Mittel noch n{t) = M(n0 - £(()) = n 0 - Mi(t) = n„ e~Xi Radiumatome vorhanden. Die exponentielle Abhängigkeit von t k a n n nicht nur durch den Exponenten X, sondern auch durch die sogenannte Halbwertszeit T charakterisiert werden. Die Halbwertszeit T ist als diejenige Zeit definiert, nach der gerade die Hälfte des Ausgangsmaterials zerfallen ist. F ü r das Auffinden von T benutzt man die Gleichung « m - T log 2 woraus sich T = —— ergibt (experimentell wurde ermittelt, daß f ü r Radium A die Halbwertszeit T = 1590 J a h r e beträgt). Wir betrachten jetzt ein allgemeines Modell f ü r einen PoissoNSchen Ereignisstrom. Bei diesem Modell wird vorausgesetzt, daß unabhängig davon, wann und wieviele Ereignisse bis zum gegenwärtigen Zeitpunkt i 0 eingetreten sind, im Zeitintervall (i0, tj) genau k Ereignisse mit der Wahrscheinlichkeit W - « , k\ eintreten werden.
fc
= 0,1,...,
{ t = t
1
- Q
2. PoissoNsche Verteilung
91
Es ist klar, daß die zufällige Wartezeit (nach dem Zeitpunkt f„) auf das nächstfolgende Ereignis eine Exponentialverteilung mit dem Parameter A besitzt: PFA -
t )=
=
P(F(I0, h )
0} =
e -
l t
.
(2.12)
Dabei bedeuten xx die Eintrittszeit des ersten nach dem Zeitpunkt t 0 eintretenden Ereignisses und f ( t 0 , t t ) die Anzahl der im Zeitintervall (t0, i,) eintretenden Ereignisse. Der Parameter X dieser Exponentialverteilung ist der gleiche wie in dem Poisscmschen Strom, von dem wir ausgegangen waren (A ist die mittlere Anzahl der je Zeiteinheit ankommenden Ereignisse). Als Folgerung ergibt sich für PoissoNsche Ereignisströme, daß auch nach sehr langem Warten auf das Eintreten des nächsten Ereignisses, dieses im folgenden Zeitintervall ( t u t 2 ) mit derselben Wahrscheinlichkeit 1 — e~Xa, s = t 2 — h , eintritt, als ob überhaupt keine Wartezeit verstrichen und tx gleich dem Anfangszeitpunkt der Beobachtung wäre: e-i t + « | ^ - t 0 > t) = — = e ~ l s = P{ti - t 0 > « } . e Es seien r u . . . , r„ die zufälligen Zeitpunkte, zu denen die aufeinanderfolgenden Ereignisse des betrachteten PoissoNschen Stromes eintreten. Weiterhin sei ein beliebiger Zeitpunkt mit T| ^ • • • die Intervallängen zwischen dem Eintreten der Ereignisse in einem PoissoNschen Strom sind, dann stellt die Zufallsgröße Sn die Wartezeit bis zum Eintreten des n-ten Ereignisses dar: Sn = r„ — t0. Offenbar besteht das Ereignis {&„ sS t\ gerade darin, daß bis zur Zeit t mindestens n Ereignisse eingetreten sind. Die Verteilungsfunktion der nichtnegativen Größe S„ hat die Gestalt n—1 (U\t = 1 -
V
k-0
i^O.
k\
Wenn man diesen Ausdruck nach t differenziert, erhält man die entsprechende Wahrscheinlichkeitsdichte. Sie besitzt die Form
p(t)
=
(»-!)!
e""
0
für
f^O,
für
t < 0.
(2.16)
Die dadurch gegebene Wahrscheinlichkeitsverteilung gehört zur Familie der sogenannten ,,Gamma- Verteilungen" (einige von ihnen werden wir weiter unten noch kennen lernen). Die Dichte einer allgemeinen „Gamma-Verteilung" wird durch folgende Formel gegeben:
p(t)
=
^"•He-"
für
t ^ 0, (2.17)
r( genau ¿-mal ein „Erfolg" eintritt. Die Anzahl der unterschiedlichen Ausgänge co, die die gleiche Anzahl k von „Erfolgen" enthalten, ist gleich der Anzahl der Möglichkeiten, aus einer Menge von n Elementen eine ¿-elementige Teilmenge auszuwählen, also gleich
Alle diese Ausgänge co haben ein und dieselbe Wahrscheinlichkeit P(to) = pk qn~k, so daß das Ereignis {! = k) die Wahrscheinlichkeit
besitzt. Die Wahrscheinlichkeitsverteilung der Zufallsgröße £ ergibt sich somit durch die Formel (3.1)
3. BERNOULLisches Versuchsschema, BROWNsche Bewegung
95
Hierbei handelt es sich um eine Binomialverteilung (Abb. 12), wie sie bereits weiter oben (vgl. (1.10)) bei der Betrachtung des Urnenschemas aufgetreten ist. Dort war das Ziehen einer weißen Kugel ein „Erfolg" und das Ziehen einer schwarzen Kugel ein „Mißerfolg". Eine Binomialverteilung wird durch zwei Parameter gekennzeichnet, und zwar durch die Wahrscheinlichkeit p eines einzelnen Erfolges und durch die Versuchsanzahl n.
Abb. 12. Die Punkte in der Zeichnung stellen die Binomialwahrscheinlichkeiten Pj(fc) = I I X p l ( i -p)"-", k = 0 , 1 , . . . , n, für n = 20 und für p = 0,1; 0,3; 0,5 dar. W
Es ist mitunter nützlich zu wissen, daß die Zufallsgröße f die Summe aus n unabhängigen Zufallsgrößen f „ . . . , ist, die folgendermaßen definiert sind: = 1, wenn im k-ten Versuch ein „Erfolg", und ffc = 0 , wenn in diesem Versuch ein „Mißerfolg" auftritt. Es ist also f = f i + ••• + * . .
(3.2)
Wenn man berücksichtigt, daß Min = p und mk
= Mfc» -
(Mit)» = p — p2 = p(l
— p) = pq
gilt, dann erhält man unter Verwendung von (3.2) für den Erwartungswert Mf und die Streuung D2£ der Zufallsgröße f die folgenden Werte: M£=m2>,
DH ^ n p q .
(3.3)
Bei einer großen Anzahl n von Versuchen und einer verhältnismäßig kleinen Wahrscheinlichkeit p, wenn also jeder „Erfolg" ein relativ seltenes Ereignis ist, die mittlere Anzahl a = v/p der „Erfolge" jedoch nicht verschwindend klein ist, gilt PfOfcJwJ-er-,
¿ = 0 , 1 , ...,
(3.4)
96
II. Wahrscheinlichkeitsverteilungen
wobei a — np die mittlere Anzahl der Erfolge ist (vgl. (1.12)). Diese Beziehung stellt eine Approximation der Binomialverteilung durch eine PoiSSONSche Verteilung dar (vgl. Abb. 13).
Abb. 13. Die Punkte in der Zeichnung stellen die PoissoNSchen Wahrscheinlichkeiten P((k)
A*
= — e - *, k = 0, 1, ..., für die Parameterwerte X = 2, 6, 10 dar (X = np für n = 20 und kl p = 0,1; 0,3; 0,5; vgl. Abb. 12).
In Anwendungen dient das BEENOULLische Versuchsschema oft zur experimentellen Bestimmung der Wahrscheinlichkeit V = P U) eines interessierenden Ereignisses A (A ist der „Erfolg" im einzelnen Versuch). Man führt n unabhängige gleichartige Versuche durch und beobachtet in jedem Versuch, ob A eintritt oder nicht. Als empirische Schätzung der Wahrscheinlichkeit p = P(.4) verwendet man das Verhältnis der Anzahl der „Erfolge" zur Gesamtanzahl der Versuche n(A)( 1 • \ (3.5) P™ = — Z h • n \ n *=i / Aufgrund des Gesetzes der großen Zahlen gilt n(A) p — lim , 7— i >00 W und für die mittlere quadratische Abweichung der vom Beobachter verwendeten n{A) Schätzung der unbekannten Wahrscheinlichkeit P(^l) von ihrem wahren Wert p erhält man die Gleichung n{A)
- V
- l f r
3. BERNOULLisches Versuchsschema, BROWNsche Bewegung
97
n Dabei ist S„ = V mir eine neue Bezeichnung für die Anzahl der „Erfolge" bei «:=i n unabhängigen Versuchen. Also besitzt in der Darstellung
n
\
die Zufallsgröße S„* =
n
Erwartungswert Null und die Streu-
ung Eins. Daraus folgt insbesondere, daß die wahrscheinliche Abweichung des n(Ä) 1 Quotienten vom unbekannten Wert p die Ordnung — h a t . Eine genauere in » Aussage ist in dem folgenden Satz enthalten. Satz (Grenzwertsatz von Moivbe-Laplace) : Für n -> oo konvergieren die Wahrscheinlichkeitsverteilungen der Zufallsgrößen 8„* gegen eine Wahrscheinlichkeitsverteilung, und zwar gilt für beliebige feste Zahlen x', x" (x' 5S x") die Beziehung r' x ' lim P[x' ^ Sn* sS x"\ = - j — f e ~ T dx. n~*ao 271 J x'
(3.6)
Die Verteilung (3.6) heißt Normalverteilung oder auch GAUSSscAe Verteilung, sie besitzt die Dichte 1 p{x) = - = = - e 2 , —oo + o o
98
II. Wahrscheinlichkeitsverteilungen
gleichmäßig in x (x' Formel erhalten wir
x ^ x") vorliegen. Unter Verwendung der STiRLiNGschen ]/2nn n"
Ps!(k) • 1 =
Weiterhin gilt
pfc
k k" er" ]lln{n — k) (n - k)n~k e-in~k}
¡ ^
, /
n
lnp\k / nq \"~k
I!k(n-k) \ T /
np
n
t np
\n-kj ~ k _ 1 nq
] / P x, V nq
und unter Ausnutzung der Beziehung In (1 + *„) ~ 01 = P f min f(«) < 01 = 1, \o J losäsSi J die folgendes aussagt. Ein im Punkt x — 0 startendes BROWNsches Teilchen hat sich während jeder noch so kleinen Zeitspanne t mit Wahrscheinlichkeit Eins bereits sowohl oberhalb als auch unterhalb vom Ausgangszustand x = 0 aufgehalten. Betrachtet man die Trajektorie eines BROwisrschen Teilchens in Abhängigkeit von der Zeit (d. h. betrachtet man das Bild der Funktion £ = £(t), t 0), so kann man aus dem genannten Sachverhalt ableiten, daß diese stetige Trajektorie in jedem beliebig kleinen Zeitintervall (0, t) das Niveau x — 0 unendlich oft schneidet und damit also unendlich oft sowohl positive als auch negative Werte annimmt (mit anderen Worten, ein BROWnsches Teilchen kehrt unendlich oft in seinen Ausgangszustand x = 0 zurück). Die als stetig vorausgesetzte Trajektorie £(u), 0 ^ u ^ i, eines BßoWNSchen Teilchens nimmt ihr absolutes Maximum in irgendeinem Punkt r, 0 ¿L r ^ t, an (sollten mehrere Punkte vorliegen, in denen sie ihren größten Wert annimmt, so betrachten wir stets den ersten von ihnen). Wir wollen die Wahrscheinlichkeitsverteilung der Zufallsgröße T ermitteln. Dafür setzen wir voraus, daß die gemeinsame Verteilungsdichte der Zufallsgrößen r und £ = £(r) (f = max £(«•)) existiert. Wir weisen nach, daß diese 0 gttgl Dichte notwendig folgende Gestalt besitzt: pTi{s,x)=
1 x - 2— s, n y«(< —• s)— «e
0,,)_1 ist.) Jede Wahrscheinlichkeitsverteilung mit einer Dichte der Form (4.10) heißt normal oder G a u s s s c ä (vgl. Abb. 17). Darüberhinaus bezeichnet man Zufallsgrößen deren gemeinsame Wahrscheinlichkeitsverteilung normal (oder GAtrsssch) ist, ebenfalls als normal oder GAtrsssch. Man kann leicht zeigen, daß GATJSSBche Zufallsgrößen . . . , £ „ bei jeder beliebigen nichtausgearteten linearen Transformation wieder in GAirsssche Zufallsgrößen r j l t r j n übergehen. Um sich davon zu überzeugen, setzen wir n
?'=i Dann ergibt sich für die Wahrscheinlichkeitsdichte der Zufallsgrößen rj u ...,r\„ eine Formel vom Typ (4.10): „(2/i
4. Normalverteilung
mit
113
n ä i — 2 c i } 7=1
und
a
i >
» =
1,
(•h1 = te)"1 [bui] (cj,)-1; \&\ bezeichnet die Determinante der Matrix R = {ö^)-1 (vgl. Formel (1.7) in Kapitel I für die Transformation von Wahrscheinlichkeitsdichten).
Abb. 17. Allgemeine Form der zweidimensionalen Normalverteilung (mit der Wahrscheinlichkeitsdichte p ( x ) ) ; in der Zeichnung sind einige Schnittlinien der Fläche z = p ( x ) mit verschiedenen Ebenen angegeben.
Es seien £0, | „ ..., f„ GAUsssche Zufallsgrößen. Gesucht sei die bedingte Wahrscheinlichkeitsverteilung der Zufallsgröße f 0 bei festgehaltenen Werten von •••> • Wir betrachten dafür noch einmal wie in Kapitel I, Abschnitt 4.4., eine Zufallsgröße n £o = o + 2 ¿ k { h ~ «*) > a
k=l
wobei ak = Mik, k = 0 , 1 , . . . , n, gilt und die Koeffizienten 6U ...,£„ dem System 2
B
k j
t
k
= R
o
i
,
j
=
l , . . . , n ,
(4.12)
k= 1
linearer Gleichungen genügen. Die Größe | 0 stellt die Projektion von f 0 auf den n
Raum aller Zufallsgrößen der Form £ ck£k dar (vgl. Kapitel I, Formel (4.32)). *= i
114
II. Wahrscheinlichkeitsverteilungen
Die nichtausgeartete lineare Transformation % = fo — !o>
V k - è k — o-k)
A = 1,...,»,
liefert GAUSSsche Zufallsgrößen r]0, r ] l t . . . , rj„, f ü r die aufgrund von (4.12) f ü r jedes k = 1, . . . , n die Beziehung Mi?oVk = 0 gilt. Ihre Kovarianzmatrix hat folglich die Form
Mo «)• wobei er2 = Mr}02 gesetzt wurde und R = {ify} die Kovarianzmatrix der Zufallsgrößen ?7i, ...,r) n bezeichnet. Die zu R inverse Matrix b läßt sich leicht ermitteln. E s gilt V2 0 ] b = 0 R-1} Deshalb besitzt die gemeinsame Wahrscheinlichkeitsdichte der GAUSSschen Zufallsgrößen rj0, rj u . . . , rjn die Gestalt =
1A
n -1
2
"'
j
expi—^ ¿ b ^ y X .
(4.13)
Wir erkennen, daß diese Dichte das Produkt aus der Wahrscheinlichkeitsdichte 00
oo
pv,{y) =/•••/?w — 00 —oo
1 d
rmiV'•••>y«)
Vi •••
=
e
\2n a
2
(4-14)
°'
der Zufallsgröße rj0 und der gemeinsamen Wahrscheinlichkeitsdichte 00 Vnv nSv*> •••,yn)
= J — 00 =
,„(y> 2/i> •••> y«) &y ^
r
ex
P | ~ Y •? i
i j y i y
\
(4-15)
der Zufallsgrößen rj u . . . , rjn ist. Hieraus folgt, daß tj 0 nicht von r/j, ...,r) n abhängt. Deshalb hat die bedingte Wahrscheinlichkeitsverteilung von rj0 (bei beliebigen festgehaltenen Werten von r j u . . . , r ] n ) dieselbe Normalverteilungsdichte pVa(y) wie in Formel (4.14).
4. Normalverteilung
115
Uns interessierte eigentlich die Zufallsgröße f 0 = t]0 + | 0 , wobei die Beziehungen n lo = «0 + 2 ¿kVk fc= 1 und Vk=h
— ak,
k =
l,...,n,
gelten. Es ist klar, daß sich die Zufallsgröße f 0 unter der Bedingung (fx = xlt ..., i„ = x„] von »70 genau durch den konstanten Wert *o=ao
n + Z k=1
— ak)
unterscheidet. Folglich besitzt die bedingte Wahrscheinlichkeitsdichte von f 0 unter der Bedingung = xu ..., g„ = xn\ die Form
Pdx I
• • •» x » ) =
~
=
\2n a
e
2o '
,
— oo < a; < + o o .
(4.16)
Das ist die Wahrscheinlichkeitsdichte einer Normalverteilung mit dem Erwartungswert ¿o = M(f 0 | xu
x„) = J xp(t(x | xu ...,x„) dx = a0 + £ &k(xk — ak) — 00
und der Streuung ff2 = M Zo ~ »o ~ 2 *k(£k ~ *k) k=1 Damit haben wir die bedingte Verteilung der Zufallsgröße f 0 bei festgehaltenen Werten von | B _! und f „ gefunden und gleichzeitig folgende wichtige Eigenschaften hergeleitet: — Sind GAUsssche Zufallsgrößen unkorreliert, dann sind sie auch unabhängig. — Wenn die (n + l)-dimensionale Zufallsgröße (f 0 , in •••> in) eine Normalverteilung besitzt, dann ist auch die um eine Dimension verringerte Zufallsgröße ..., f „ ) normalverteilt. Es gilt insbesondere, daß jede einzelne Komponente ..., | n eine Normalverteilung der Form (4.3) besitzt (vgl. (4.13)—(4.15)). In der Praxis hat man es häufig mit Zufallsgrößen zu tun, die die Summe einer großen .Anzahl unabhängiger Komponenten darstellen. Es zeigt sich, daß solche Zufallsgrößen unter sehr allgemeinen Bedingungen normalverteilt sind. Diese fundamentale Aussage der Wahrscheinlichkeitstheorie wird durch zentrale Orenzwertsätze ausgedrückt, deren spezielle Formulierung von den jeweils gestellten Voraussetzungen abhängt. (Ein sehr spezieller zentraler Grenzwertsatz
116
II. Wahrscheinlichkeitsverteilungen
ist der Satz von M o i v b e - L a p l a c e . ) Als Beispiel sei hier der zentrale Grenzwertsatz für Summen Sn=2Sk
fr=1
unabhängiger Zufallsgrößen Bedingung
f
2
>
• • • > genannt, die der sogenannten
t_
— 2;M|f*-a»|»->0 Bn3
für » - > oo
L j a p o t t o w -
(4.17)
(ak = M£t, fc = l , 2 , . . . ; 2?„ = ]/D2$„) genügen. Für die Wahrscheinlichkeitsverteilung der normierten Summe S„ — MS„ l/ws«
gilt nämlich unter der Bedingung (4.17) folgende Grenzbeziehung1): x"
r i lim ?{x' < S* ^ x"} = - — / e y2jr
2
J x'
dz.
(4.18)
Besitzen alle Zufallsgrößen f2> ••• die gleiche Wahrscheinlichkeitsverteilung und bezeichnet Fh(x) = P{ä„* x) die Verteilungsfunktion von Sn*, so gilt folgende Abschätzung für die Geschwindigkeit der angegebenen Konvergenz, gegen die Normalverteilung: sup
IF„(x) - 0(x)\ x(x) = 2xp(x2) = 2 2 r
n l~
x2 e
2
,
0 ^
x
»/2-1 -"•(t) besitzt. Unter Berücksichtigung, daß p2(x) = 0 für x < 0 gilt, ergibt sich für die
£
Wahrscheinlichkeitsdichte des Quotienten rj = — die folgende Darstellung (vgl. auch Formel (3.14) in Kapitel I ) : 00
Vn{y) = / Pi(yx) 2>2(*) « da;. 0 Wenn wir in dieser Gleichung den oben angegebenen Ausdruck für p2(x) und die Beziehung 1 »'*' = - = e f2n
Pi(yx)
2
— 00
i t f,(m) = i
Bj(n
+
i)
=
p
i k
( n )
k i
k Tj(n),
k
s u p pa(n
+
1)
=
sup £
i
i
^ sup
Pik
i
p
p
i k
k j
(n)
k
=
.
k
Es gilt folglich die Ungleichungskette r,( 1) ^ r,(2) ^ ••• ^ r,(») ^ ••• ^ Rf (n) ^ ••• ^ Rf (2) ^ .8,(1). Für beliebige Zustände * und ß besteht die Beziehung -
Z P f i k ( n k
k
wobei
) =
{p*k(n0 )
Vßk( no))
-
+
Differenzen
(pak {n0 )
a,ß
k
bezeichnet, für die
)
0 ,
p
l k
{n
0
)
die Summierung über alle negativen
—
pßk {n0 ))
1 —
=
k(n
0
).
k
Wir können nun Differenzen von der Form R,(k) — 0
=
bedeutet. Es gilt
Pßk(n0)
sup
Rj(n
Pßkfao))
k
—
pak (n0 )
~
k
positiv ist und entsprechend
Pßk(n0)
(p.k(no)
k
die Summierung über alle diejenigen k
—
0
— r,(w0) = supp«,(w0) - inf p
ß j
(n
0
wie folgt abschätzen:
)
f
s
+
n)
und R j ( n
0
u p {P*j{n0 ) a,ß
=
—
rj(n
-
0
+
Pßj{n0)) ^
n)
=
sup a,ß
sup [p
a j
[n
(pak (n0 )
Ii
0
+
n)
—
-
p
ß j
pßk (n0 ))
(n
0
+
=
1 —
n))
*.ß =
{p*k( n ( » ) - r , ( » ) ) .
Durch wiederholtes Anwenden dieser Abschätzung ergibt sich R j ( N n
Die Folge r,(ii),
0
n
)
-
r j ( N n
0
)
^ (l -
k(n0 )Y
für jedes
N
= 1,2,....
— 1 , 2 , i s t monoton wachsend und die Folge
Rj(ri),
k(n0 )
100
I H . Stochastische Prozesse
Rj(n) für jedes n gilt. Aus der soeben 2 , . . . , ist monoton fallend, wobei hergeleiteten Abschätzung für die Differenzen R j ( N n 0 ) — r;(iVw0) folgt insbesondere, daß die beiden Folgen den gleichen Grenzwert besitzen, den wir mit p,* bezeichnen wollen: Pj* = lim r,j(n) = lim Rj(n). n—x»
Des weiteren gilt |P
i j
(n) -
p,*\
^
n-x»
r,-(») ^ (l -
Rj(n) -
k { n
0
) f . ~ \
und für jede beliebige Anfangsverteilung pf, j = 1, 2 , h a b e n wir |P j ( n ) -
p * \
Ii
= \ y p i ° Pij(n)-
Pj* |
^ Z P i " i
p,*\
I
IPij(n)-
^
2 {
p ^ B j i n ) -
r,(n))
Diese Ungleichungen lassen sich in der Form (2.22) schreiben, wenn man C =
1 —
-
k(n0 )
und
D = — Inw0
1
1 —
k(nQ )
setzt. Wir zeigen nun, daß die Grenzwahrscheinlichkeiten pf *, j = 1 , 2 , . . . , dem Gleichungssystem (2.18) genügen. Zunächst gilt Z Pi* ^ 1 > da für jedes m }
Z P>* n=—*oUm Z Pj(n) ^ 1 o j 2 P i * P i i , i
7=1,2,....
(2.23)
Durch Summation über j folgt aus (2.23) Z V i * i
^ Z Z p > * P a i i
=
Z P i * Z P ü i i
=
Z P i * > i
es muß also in (2.23) notwendigerweise für alle j das Gleichheitszeichen stehen.
2. MABKOWsche Ketten mit diskreter Zeit
161
Abschließend überlegen wir uns, daß alle pf positiv sind und £ pf = 1 gilt. Man überzeugt sich leicht davon, daß ' 1 " Pi* = lim pa{n) = lim — £ Pa(k) n—w» n—xjo % Jt=l gilt. Also folgt p f = — , / = 1, 2 , . . . , und da nach Voraussetzung1) sämtliche Zustände positiv-rekurrent sind, erhalten wir Pi*= — > 0 ,
¿ = 1,2,...
f*i
(2.24)
(fij bezeichnet die mittlere Rückkehrzeit in den Zustand j — vgl. (2.17)). Wählen wir nun speziell Pi° = P
i
*
»
= 1,2,...,
i
als Anfangsverteilung, so genügt diese, da sie sich nur durch den konstanten Faktor ^ Pi*j~x v o n P>*> » = 1 , 2 , . . . , unterscheidet, offenbar dem Gleichungssystem (2.18) Pi° =ZPi°Pij,
0 für alle i gilt, d. h., wenn jedes Buch mit positiver Wahrscheinlichkeit herausgenommen wird, dann ist jeder Zustand von jedem anderen aus erreichbar, alle Zustände sind positivrekurrent und bilden eine abgeschlossene Klasse. In m Schritten gelangt man von jedem Zustand ( i x , . . . , im) in jeden anderen (j1,..., jm) mindestens mit der Wahrscheinlichkeit fiPi... pm (dieses Produkt ist die Wahrscheinlichkeit des Überganges von (¿i, . . . , im) nach ( j x , . . . , jm), wenn im ersten Schritt das Buch Nr. jm, im zweiten Schritt das Buch Nr. j' m _ x ,..., im m-ten Schritt das Buch Nr. gewählt werden). Folglich ist der Ergodizitätskoeffizient k{m) positiv (k(m) 2g J>\Pz • • • pm, vgl. (2.20)) und im Laufe der Zeit stellt sich die stationäre Wahrscheinlichkeitsverteilung ein. Wir wollen die stationäre Wahrscheinlichkeitsverteilung berechnen und betrachten zunächst den Spezialfall m = 2. Es gibt dann nur die beiden Zustände (1,2) und (2,1), die Übergangswahrscheinlichkeiten lauten P( 1.2). (1.2) — P(2.1). (1.2) = P 1>
^(1.2). (2.1) — i>(2.1). (2.1) — Vi >
und die Übergangsmatrix P hat die Gestalt
Für die Übergangswahrscheinlichkeiten in zwei Schritten erhalten wir 2>(2,1)P(2.1).(2.1)(») = Pi{v\lfi)
+
?> Pi >
und somit stellt sich bereits nach dem ersten Schritt die stationäre Verteilung ein. Es sei nun m beliebig. Wir bezeichnen analog zum Fall m = 2 mit im)_ Wi die Wahrscheinlichkeit des Überganges vom Zustand ( ¿ j , . . . , im) in den Zustand Oi> •••> im)- Bereits weiter oben haben wir uns überlegt, daß _ P{h
imUh
im)
für
\0
(;,, . . . , j
m
) =
(»*,
...)
sonst
gilt, wobei die Anordnung ( j i , . . . , jm) = (ik,...) aus ( i t , . . . , i m ) durch Herausnehmen und Voranstellen von ik (und entsprechendes „Weiterrücken" der anderen Zahlen) entsteht. Die stationäre Wahrscheinlichkeitsverteilung p*^ im) erhält man als Lösung des folgenden Gleichungssystems (vgl. (2.18)): «i P*n
M
=
Ph 2
P*
(2-25)
h-t.h.j*--)'
NatürUch wird man sich dafür interessieren, mit welcher Wahrscheinlichkeit ein betrachtetes Buch oben liegt, nachdem sich nach hinreichend großer Schrittzahl die stationäre Verteilung „praktisch" eingestellt hat (d. h., wenn sich die Zustandswahrscheinlichkeiten ..im) d e s Bücherstapels nicht mehr ändern). Die Wahrscheinlichkeit p^ dafür, daß das Buch mit der Nummer i oben liegt, erhalten wir aus Pi*
=
2
P*u,
¿m)>
wobei die Summation über alle Zustände zu bilden ist, bei denen an der ersten Stelle die Zahl i steht. Unter Benutzung von (2.25) erhalten wir Pi*
=
2
Pi 2
P*i
w
=
Vi 2 .
P*u.....im)
=Pi>
=
1 , • • •,
m,
d . h. die Wahrscheinlichkeit pf dafür, daß im stationären Gleichgewicht das Buch mit der Nummer i zuoberst liegt, ist gleich der Wahrscheinlichkeit pit mit der dieses Buch aus dem Stapel herausgegriffen wird. Ein Buch wird folglich mit um so größerer Wahrscheinlichkeit oben liegen, je häufiger es herausgenommen wird. Beispiel 2 (zufälliges Wandern): Wir betrachten einen Prozeß des zufälligen Wanderns, bei dem das Teilchen in jedem Schritt mit der Wahrscheinlichkeit pi vom Punkt i in den Nachbarpunkt j = i -f- 1 und mit der Wahrscheinlichkeit qi = 1 — Pi in den Punkt j = 0 gelangen kann, dabei setzen wir 0 < pi < 1 f ü r
164
III. Stochastische Prozesse
jedes i = 0 , 1 , . . . voraus. Offenbar sind alle Zustände miteinander verbunden und entweder sämtlich, rekurrent oder transient, im rekurrenten Fall sind sie alle null-rekurrent oder alle positiv-rekurrent. Zur Zeit 0 befinde sich das Teilchen im Zustand 0. Die Wahrscheinlichkeit dafür, daß das Teilchen in den nächsten n Schritten den Zustand 0 nicht wieder erreicht, beträgt püpx ... p„_j — dieses Ereignis tritt nämlich genau dann ein, wenn aufeinanderfolgend die Zustände 0 -> 1 —> n durchlaufen werden. Damit erhält man für die Wahrscheinlichkeit, daß der Zustand 0 nie wieder erreicht wird, den Wert oo JJpk = limp 0 p! ...p„. k~0
n—x»
Im Fall limp 0 pi ••• Pn = 0 ist der Zustand i = 0 rekurrent, im anderen Fall n-*oo gilt für die Rückkehrwahrscheinlichkeit v die Beziehung v = 1 — lim PqPx —pn n—>oo
< 1,
und i = 0 ist transient. Dieses Resultat läßt sich auch anders herleiten. Es sei vn die Wahrscheinlichkeit dafür, genau nach n Schritten zum ersten Mal in den Zustand 0 zurückzukehren (n = 1 , 2 , . . . ) . Offenbar gelangt das Teilchen genau dann nach n Schritten zum ersten Mal wieder in den Zustand 0, wenn in den ersten n — 1 Schritten aufeinanderfolgend die Zustände 0 1 - > • • • - > « — 1 durchlaufen werden und im ra-ten Schritt der Übergang n — 1 - » 0 erfolgt. Also gilt Vi=l—Po,
v„=p0---pn^2(i—p„.1),
ra
= 2,3,....
oo Die Rückkehrwahrscheinlichkeit v in den Zustand 0 ist die Summe v = £ vn n=1 und beträgt n V = lim £ vk n—X» ¿=1 = lim [(1 - p0) + i>o(l — P\) H b Po • • • - 2>n-l)] »—xx>
= 1 — limpoPi ••• Pn-ln—*oo Im transienten Fall, d. h. bei v < 1, wandert das Teilchen für n -> oo mit Wahrscheinlichkeit 1 nach + o o ; im rekurrenten Fall kehrt es unendlich oft in jeden Zustand zurück. Für die mittlere Rückkehrzeit fi in den Anfangszustand i = 0 erhalten wir den Ausdruck 00 [X = 2 nvn = (1 — p0) + 2y 0 (l - Pi) + Zpop^l — p2) n=l + npopt ••• p„-2(t — Pn—\) H = ! + ? > » + 2>o2>i H
b i>oPi •'' Pn-1 H
>
3. MAKKOwsche Ketten mit stetiger Zeit
165
insbesondere sind im Fall 00
/* = 1 + ZPoPl
•••Pn-1 < OO
n-1
sämtliche Zustände positiv-rekurrent. Sind speziell die Wahrscheinlichkeiten 1 — pt des Überganges von i nach 0 bezüglich i „gleichmäßig positiv", d. h., gibt es ein 0 mit 1 — Pi ¿1 d für alle t = 0 , 1 , . . . , so erhalten wir für den Ergodizitätskoeffizienten k(l) die Beziehung ifc(l) ^ inf (1 - P i ) ^ d > 0 i
(vgl. (2.20)) und somit auch eine Abschätzung der Geschwindigkeit bei der Konvergenz gegen die stationäre Verteilung p*, j = 0 , 1 , . . . (vgl. (2.22)). Letztere genügt dem Gleichlingssystem (2.18), das in diesem Fall die Form =
Pi*=P*-iPM>
1,2,...,
besitzt. Wir erhalten zunächst und aus
Pi* = Po*Po,
1 = SP»*
schließlich
n-0
Po* = —, fi
P*
= Po*PoPi,---,Pn*=
= Po* (l + 2
\
n-l
p1*=^,...,p ¡1
Po*Po • • • Pn-1>
Po ••• A-i)
n
*=
P
°-
/
= Po*fi
P n
(i
- 1,....
(2.26)
3. Markowsche Ketten mit stetiger Zeit 3.1. Differentialgleichungen für die Übergangswahrscheinlichkeiten Wir betrachten einen homogenen MARKOwschen Prozeß £(£), t £ T = [0, oo), mit endlich oder abzählbar unendlich vielen möglichen Zuständen 1, 2, ... und setzen voraus — dies ist der einzige Unterschied zu den im vorhergehenden Abschnitt betrachteten MARKOWschen Ketten —, daß der Parameter t (die Zeit) in einer „stetigen Menge" T = [0, oo) variiert, der Übergang zwischen zwei einzelnen Zuständen also zu einem behebigen Zeitpunkt t möglich ist. Wir interpretieren einen stochastischen Prozeß wieder als physikalisches System, dessen Phasenzustand zur Zeit t durch f(,«»={; (0
i,j = 1,2,...,
(3.1)
(3-2) für i =|= j
gesetzt haben. Wir nehmen nun an, daß sämtliche Übergangswahrscheinlichkeiten j); ; (t), i,j = 1 , 2 , . . . , den folgenden Bedingungen1) genügen (vgl. (2.5) ff.): 1 — Pa{At) = Aj At + o(At) Pij(A()
wobei üi^f1
=^At
+ o(At),
(3.3)
? =M,
0 gilt und A;, A;,-, i,j = 1 , 2 , . . . , gewisse Konstanten
o für At
sind (A,- nennen wir Änderungsintensität des Zustandes i und A;i, i =)= j, Übergangsintensität von i nach j). Wir setzen im weiteren A,^ - —A^, i ~ 1, 2 , a u s (3.3.) folgt damit £ Xif = 0, i = 1, 2, .... j Satz 1. Der betrachtete MAKKOWscAe Prozeß besitze nur endlich viele Zustände und erfülle die Bedingungen (3.3). Dann sind die Übergangswahrscheinlichkeiten Pij(t) nach t differenzierbar und genügen den Differentialgleichungen P'iß) =ZhkPkAf),
i,? = 1 , 2 , . . . , « > 0 ,
(3.4)
i, j = 1,2, . . . , < > 0,
(3.5)
k
p'iß) = 2 Vi*( tj = e-^'-«, Offenbar hängt der Übergang in den Zustand 0 und die weitere Entwicklung des Systems nicht von seinem Verhalten bis zur Zeit t1 ab. Speziell erfolgt im Zeitintervall [ 8 0 daß die Differentialgleichungen (3.5) folgendermaßen geschrieben werden können: Pw(f) + (¿o + ¿i) Poo(0 =
h,
Pn(t) + (A0 + A,) Pn(t)
V
=
Unter Berücksichtigung der Anfangsbedingungen p00(0) = i>n(0) = 1 ergeben sich die Lösungen zu
^ = i1 - TJT)e_(Wl)i + TTT' *»
oo die Wahrscheinlichkeiten £>;,(£) exponentiell schnell gegen ihre Grenzwerte konvergieren. Das gleiche gilt auch infolge der Abschätzung (3.9) im (allgemeinen) Fall von m Geräten. Die stationären Wahrscheinlichkeiten p * können mittels der Gleichungen (3.11) berechnet werden, die hier folgendermaßen lauten: -AoPo* + M * = 0 *oP*-i ~ & +
Pk* + ß + 1)
1 =0,
1 ^ k< m
hPm-l — mtym* = 0 . Wir erhalten k = 0 , 1 , . . . , m.
(Diese Ausdrücke für die stationären Wahrscheinlichkeiten nennt man E r l a n g sche Formeln). 4. Verzweigungsprozesse 4.1. Eine Differentialgleichung für die erzeugende Funktion Wir stellen uns vor, daß eine gewisse Menge von Teilchen vorhanden ist, die im Verlaufe der Zeit neue Teilchen vom gleichen Typ hervorbringen können. Dieser „Geburtenprozeß" besitze dabei die folgende Eigenschaft: Ein jedes der zum Ausgangszeitpunkt vorhandenen Teilchen erzeugt in der Zeit t unabhängig von den anderen Teilchen und allen Ereignissen, die vor dem Ausgangszeitpunkt stattgefunden haben, n Teilchen mit einer für alle Teilchen gleichen Wahrscheinlichkeit p„{t). Wir bezeichnen mit £(t) die Anzahl der zur Zeit t vorhandenen Teilchen (t 0). Der Prozeß f(i), t ^ 0 , ist dann offenbar ein MARKOWscher Prozeß. Ein Prozeß von dieser Art heißt Verziveigungsprozeß1). Das beschriebene Modell kann in den Anwendungen bei der Beschreibung vieler realer Prozesse zugrunde gelegt werden (z. B. fotochemische Reaktionen, Kernprozesse usw.).
174
HI. Stochastische Prozesse
k besetzten Geräten in der Zeit t frei wird, beträgt (l — A At — o (At))*, da die Geräte unabhängig voneinander bedienen. Folglich ergibt sich für die Wahrscheinlichkeit des Überganges von k nach k — 1, d. h. für die Wahrscheinlichkeit des Freiwerdens genau eines Gerätes, der Ausdruck 1 — (l — k At — o(At)Y = Xk At + o(At). Die Wahrscheinlichkeit für andere Zustandsänderungen in einem Zeitintervall der Länge At ist klein von höherer Ordnung bezüglich At, also o(At), insbesondere folgt Xk = — kkk = (20 + kX) (vgl. (3.3)). Im Fall m = 1 haben wir die Übergangswahrscheinlichkeiten Pij(t), t 0, explizit berechnet (vgl. S. 169); aus diesen Formeln ersieht man unmittelbar, daß für t - > oo die Wahrscheinlichkeiten £>;,(£) exponentiell schnell gegen ihre Grenzwerte konvergieren. Das gleiche gilt auch infolge der Abschätzung (3.9) im (allgemeinen) Fall von m Geräten. Die stationären Wahrscheinlichkeiten p * können mittels der Gleichungen (3.11) berechnet werden, die hier folgendermaßen lauten: -AoPo* + M * = 0 *oP*-i ~ & +
Pk* + ß + 1)
1 =0,
1 ^ k< m
hPm-l — mtym* = 0 . Wir erhalten k = 0 , 1 , . . . , m.
(Diese Ausdrücke für die stationären Wahrscheinlichkeiten nennt man E r l a n g sche Formeln). 4. Verzweigungsprozesse 4.1. Eine Differentialgleichung für die erzeugende Funktion Wir stellen uns vor, daß eine gewisse Menge von Teilchen vorhanden ist, die im Verlaufe der Zeit neue Teilchen vom gleichen Typ hervorbringen können. Dieser „Geburtenprozeß" besitze dabei die folgende Eigenschaft: Ein jedes der zum Ausgangszeitpunkt vorhandenen Teilchen erzeugt in der Zeit t unabhängig von den anderen Teilchen und allen Ereignissen, die vor dem Ausgangszeitpunkt stattgefunden haben, n Teilchen mit einer für alle Teilchen gleichen Wahrscheinlichkeit p„{t). Wir bezeichnen mit £(t) die Anzahl der zur Zeit t vorhandenen Teilchen (t 0). Der Prozeß f(i), t ^ 0 , ist dann offenbar ein MARKOWscher Prozeß. Ein Prozeß von dieser Art heißt Verziveigungsprozeß1). Das beschriebene Modell kann in den Anwendungen bei der Beschreibung vieler realer Prozesse zugrunde gelegt werden (z. B. fotochemische Reaktionen, Kernprozesse usw.).
4. Verzweigungsprozesse
175
Es seien zu einem gewissen Ausgangszeitpunkt s, z. B . s = 0, genau k Teilchen vorhanden. Wir bezeichnen mit £¡(0 die Anzahl derjenigen zur Zeit t vorhandenen Teilchen, die vom i-ten Teilchen abstammen (i = 1, 2 , . . . , k). Folglich gilt für die Gesamtanzahl £(i) m = m + ••• + m Entsprechend der zu Beginn dieses Abschnittes getroffenen Voraussetzung sind die Zufallsgrößen f , ( i ) , . . . , £k(t) unabhängig und identisch verteilt: P{f,(0 = » ) =P»(t),
» = 0,1,....
Wir setzen nun weiterhin voraus, daß sich in jedem kleinen Zeitintervall der Länge At ein (beliebiges) Teilchen mit der Wahrscheinlichkeit pn{At)=knAt
» + 1,
+ o{At),
in n neue Teilchen verwandelt und mit der Wahrscheinlichkeit p^At) = 1 — A At + o(At) unverändert bleibt. Ferner gelte mit der Bezeichnung Aj = — A die Gleichung
k=0 und die Übergangswahrscheinlichkeiten p„(t) = pln{t) mögen den Kolmogorowschen Differentialgleichungen genügen (vgl. (3.4)): •J7 Pn(t) = I hVkn(t), dt k
n = 0, 1, . . . .
Dabei seien ptn(t) die Übergangswahrscheinlichkeiten des MAEKOWschen Verzweigungsprozesses |(i), t 0, (pim(t) ist also die Wahrscheinlichkeit dafür, daß k Teilchen im Verlaufe der Zeit t genau n Teilchen erzeugen). Wir werden im weiteren die folgenden erzeugenden Funktionen benutzen: F(t,z) =Zpn(t) Fk{t,z)
=
T
n=0
z• z".
Für jede komplexe Zahl z mit \z\ < 1 gilt S a n=0
W
= 4r
n—0
2Vn{t)*n=ZhZpU*)2", k=0 n=0
(4-2>
176
HI. Stochastische Prozesse
woraus sich eine Differentialgleichung für die erzeugenden Funktionen F(t, z). Fk(t, z) ergibt: -^-F(t,z) di
(4.3) k
Die durch (4.2) definierten Funktionen F(t, z) und Fk(t, z), k = 0 , 1, . . . , lassen sich bei festem z als Erwartungswerte von Zufallsgrößen schreiben: F(t,z) = Mz(, Fk{t,z) =
i =
l,...,k,
MzW,
dabei ist f,(i) die Anzahl der vom i-ten Teilchen in der Zeit t erzeugten Teilchen k und | ( t ) = £i(t). Da die Zufallsgrößen ¿¡¡(t), i = 1 , . . . , k, voneinander unab¿=i hängig sind, folgt ^ ^ M 2 f i ( ( ) + ... + { t ( ( ) = M z f i ( ( ) und mithin erhalten wir Fk(t, z) = [F(t, z ) f ,
k = 1,2,....
(4.4)
Die Gleichung (4.3) ist eine Differentialgleichung für F(t, z) und wegen F0(t, z) = 1 können wir sie in der Form 4-F(f,z)=ZltF*Q,*)
(4-5)
schreiben. Wir stellen uns nun auf den Standpunkt, daß wir von dem zu betrachtenden Verzweigungsprozeß !( 0 und « < x0 < 1 verlaufen, schneiden also die Achse t — 0 in einem gewissen Punkt (0, z) mit 0 sS z < 1 (vgl. Abb. 22, a); mithin ist x(t) = 1 die einzige, durch den Punkt (0, 1) verlaufende Lösung. Im anderen Fall f du > oo (4.11) J /(«) schneidet für hinreichend großes t0 > 0 die Lösungskurve t = « ( 0 ) «=t+x
(mit v(t) hatten wir die Anzahl der Erneuerungen im Zeitintervall [0, t] bezeichnet). Offenbar gilt wegen JJ„(0)
— bei u -> oo für jedes beliebige beschränkte
Intervall (t, t -f s] die Beziehung n(t + s) — n(t)
-> —
für t -> oo;
(5.9)
— e-'.
(5.10)
aus (5.8) erhalten wir sogar die Abschätzung + s) -
n(t)\ -
—
i«
Die Beziehung (5.9) besagt, daß nach hinreichend langer „Prozeßdauer" die mittlere Anzahl der Erneuerungen während einer Zeitspanne s ungefähr gleich — ist, wobei (i die mittlere Betriebszeit eines Gerätes bezeichnet. Wir hatten vereinbart, daß ein zur Zeit t (i ist dabei ein Vielfaches von h) arbeitendes Gerät frühestens nach dem weiteren Verlauf der Zeit h (ohne Beschränkung der Allgemeinheit hatten wir h = 1 angenommen) ersetzt wird. Die Zeit rj(t), während der das Gerät nach dem Zeitpunkt t noch arbeiten wird, definieren wir durch die Beziehung V(t) = &— oo
für
n
oo.
Also existiert eine (vom Zufall abhängende) Zahl v, so daß Sn < 0 für alle n ¡ä v gilt. Daraus folgt, daß das Maximum £=max(30,Sl,...)
(5.21)
der Trajektorie der Irrfahrt eine endliche Zufallsgröße ist und mit dem maximalen Wert der Folge S0, S , , S , übereinstimmt.
m . Stochastische Prozesse
188
stetig verteilte Summanden | 2 , . . . (mit der Dichte p{x)) die Wahrscheinlichkeitsverteilungen der Zufallsgrößen m=*~Sm,
vit) = S,(thl
- t
im schwachen Sinne gegen eine Grenzverteilung mit der Dichte v*(x)
wobei
güt.
00 0(x) = J p(y) dy X
=
ß und
0 ^ a; < oo, oo oo p = j xp(x) dx = J 0(x) da; 0 0
(5.18)
(5.19)
5.2. Folgen von Summen unabhängiger ZufaJIsgröfien, Verteilung des Maximums Es sei Sk> fc = 1 , 2 , . . . , eine Folge voneinander unabhängiger, identisch verteilter Zufallsgrößen. Wir werden im weiteren einige allgemeine Eigenschaften der Folge der Partialsummen S
n
=Zh, *=i
n = 1,2,...,
(5.20)
betrachten. Anschaulich kann man sich dabei vorstellen, daß ein Teilchen auf der reellen Geraden eine „zufällige Wanderung" (man nennt einen solchen Prozeß auch Irrfahrt) durchführt, wobei es sich im n-ten Schritt um die Größe |„ weiterbewegt. Die Summe S„ gibt an, wie weit sich das Teilchen nach dem w-ten Schritt gegenüber dem Ausgangspunkt 80 — 0 verschoben hat. Wir setzen voraus, daß die Zufallsgrößen , f 2 , • • • einen von Null verschiedenen Erwartungswert a besitzen, ohne Beschränkung der Allgemeinheit sei a = Mfi < 0. Nach dem Gesetz der großen Zahlen konvergiert —— gegen a, und folglich gilt n mit Wahrscheinlichkeit 1 die Beziehung 8n->— oo
für
n
oo.
Also existiert eine (vom Zufall abhängende) Zahl v, so daß Sn < 0 für alle n ¡ä v gilt. Daraus folgt, daß das Maximum £=max(30,Sl,...)
(5.21)
der Trajektorie der Irrfahrt eine endliche Zufallsgröße ist und mit dem maximalen Wert der Folge S0, S , , S , übereinstimmt.
5. Prozesse in der Bedienungstheorie
189
Weiter unten werden wir einen Zusammenhang der Wahrscheinlichkeitsverteilung dieser Zufallsgröße £ mit einem gewissen Erneuerungsprozeß Sa*, St*,... herstellen, wobei letzterer mit Hilfe der Irrfahrt Sa, St,... (vgl. auch (5.31)) konstruiert wird. Aus dieser Tatsache werden wir explizite Formeln (vgl. (5.37), (5.40), (5.41)) herleiten, die dann zum Studium von Bedienungsprozessen genutzt werden. Zur Herleitung einer Gleichung für die Verteilungsfunktion _Fj(z) der Zufallsgröße £ setzen wir $ 0 = 0 , S1 = f 2 , = ¡2 + ••• und l = max
(80,Slf...).
Offenbar stimmen die Wahrscheinlichkeitsverteilungen der beiden Zufallsgrößen f und C überein. Bei beliebigem z 0 tritt das Ereignis {£ sS z} genau dann ein, wenn Ii ^ z und C ^ z — Ii gilt. Da £ nicht von ^ abhängt, gilt für jedes feste £t = x (x ^ z) P(C ^ z - fx Ifx) = ^{(z -
f.),
wobei ^ ( z ) = PIC ^ z} = J'j(z) die Verteilungsfunktion der Zufallsgröße £ bezeichnet. Wir erhalten somit
\Ft{z
-
j) I,)
für > z, für f i ^ z.
Diese Beziehung können wir auch kürzer in der Form p i c ^ z i f x i =Ft{*-e
i)
schreiben, da £ eine nichtnegative Zufallsgröße ist und folglich ihre Verteilungsfunktion f c (z) für z sS 0 gleich Null wird. Unter Benutzung der Formel der totalen Wahrscheinlichkeit (vgl. Formel (4.20) aus Kap. I ) erhalten wir schließlich für die Funktion Fc(z) die Gleichung Fc(z) = MFt(z -
z ^ 0.
(5.22)
Für den Fall diskreter Zufallsgrößen I i , f 2 > ••• bedeutet dies Ft(z) = 2 Fdz x£z
x) P(l{x) = Z PsM Ȋo
y) Fdy);
(5.23)
besitzt jede der Zufallsgrößen £ t , ... dagegen die Wahrscheinlichkeitsdichte p(l(x), so folgt aus (5.22) die Gleichung 2 OO Fc(z) = f F((z - x) p(i(x) dx = / ph(z -
y) Ft{y) dy.
(5.24)
190
H L Stochastische Prozesse
Wir werden uns nun überlegen, daß das Ereignis (f = 0) mit positiver Wahrscheinlichkeit q > 0 eintritt: q = Fc(0) > 0 (5.25) (d. h., mit der Wahrscheinlichkeit q > 0 gelangt ein bei x = 0 startendes Teilchen überhaupt nicht auf die positive Halbachse x > 0). Wir führen den Nachweis indirekt. Es sei z0 das Infimum aller z mit F((z) > 0 . Infolge unserer Voraussetztingen gilt entweder z0 > 0 oder z0 — 0 und ^{(0) = 0 . Im Fall z0 > 0 folgt für beliebige z mit 0 ^ z < z0 aus Gleichung (5.22) Fc(z) = M F t ( z - ft) = 0 .
Wegen Fc(z — > 0 für z — > z 0 , kann diese Gleichung nur dann richtig sein, wenn mit Wahrscheinlichkeit 1 die Ungleichung z — I, ^ z 0 , d. h. 2g z — z0 gilt. Da z beliebig in 0 z < z0 variieren kann, folgt hieraus f t S: 0 mit Wahrscheinlichkeit 1. Dies widerspricht jedoch der zu Anfang getroffenen Voraussetzung a = M& < 0. Folglich muß also z0 = 0 gelten. Analog führt man im Fall z0 = 0 die Annahme F((0) = 0 zum Widerspruch zur Bedingung Mfj < 0. Mit der Wahrscheinlichkeit p = 1 — q nimmt die Zufallsgröße £ positive Werte an. Dies bedeutet, daß das Teilchen bei der betrachteten Irrfahrt mit der Wahrscheinlichkeit p früher oder später auf den positiven Teil der reellen Achse gelangt. Wir bezeichnen mit f , * den Ort des Teilchens, an dem es sich befindet, wenn es zum ersten Mal das Intervall (0, oo) betritt. Die Zufallsgröße f i * „existiert" nur mit Wahrscheinlichkeit p: P{fi* € (0, oo)} = p
(=1
-q)
(wenn nicht definiert ist, werden wir sagen, daß „verschwindet"; dies geschieht mit der Wahrscheinlichkeit 2 = 1 — p). Wir bezeichnen mit T1 den Zeitpunkt des ersten Erreichens von (0, oo). Es gilt r t = vj*, wobei diejenige Schrittzahl ist, bei der die gesamte bisherige Verschiebung SZi des Teilchens gegenüber dem Ausgangspunkt S0 = 0 erstmalig positiv wird:
Sn — SQ SS 0 8ri - S0 =
für alle n < r,
und
> 0.
Wir setzen S i * = S T i . Nach dem Zeitpunkt t j erfolgen die Bewegungen des Teilchens — wegen der streng MARKOWschen Eigenschaft — nach den gleichen Verteilungsgesetzen, wie nach dem Anfangszeitpunkt r 0 = 0. Insbesondere wird mit der gleichen Wahrscheinlichkeit p = 1 — q das Teilchen zu einem gewissen Zeitpunkt r 2 (d. h., nach einer vom Zufall abhängenden Anzahl v2* von Schritten: I> * = T — T I ) erstmalig weiter rechts vom neuen „Ausgangspunkt" S t * zu liegen kommen. Diesen Punkt bezeichnen wir analog mit S2* = STt (v2* ist diejenige Anzahl von Schritten, die das Teilchen nach dem Zeitpunkt T1 ausführt, bis es erstmalig gegenüber 8j* eine positive Verschiebung erfährt: S„ — Sx* sS 0 2
2
191
6. Prozesse in der Bedienungstheorie
für alle n < r 2 , STt — Sx* = f 2 * > 0). Beginnen wir nun zum Zeitpunkt r 8 = j>x* + v 2 *, so spielt sich alles noch einmal genauso ab: Mit Wahrscheinlichkeit p gelangt das Teilchen zu einem gewissen Zeitpunkt r 3 (d. h., nach einer gewissen zufälligen Schrittzahl v3* = r 3 — r 2 ) erstmahg in einen bezüglich S2* weiter rechts gelegenen Punkt S3* — STi (v3* ist diejenige Schrittzahl, bei der die Verschiebung des Teilchens nach dem Zeitpunkt r 2 in bezug auf S2* erstmalig positiv wird: S„ — S2* sS 0 für alle n < r 3 und Stt — S2* = £ 3 * > 0). Wir setzen diesen Prozeß fort und gelangen somit zu einer Folge S„* = STo von Partialsummen Ä —1
» = 1,2,...
(5.26)
Dabei ist £ k *, k = 1, 2 , . . . , eine Folge positiver Zufallsgrößen, und gibt die Verschiebung des Teilchens (gegenüber Sk*) zu demjenigen Zeitpunkt rk+1 an, bei dem diese Verschiebung erstmalig positiv wird: S„ — Sk* ^ 0 für alle n < rk+l, Sr* +l ~ S k * = i* k + 1 > 0 . Da die Zufallsgrößen f i , . . . voneinander unabhängig sind und ein und dieselbe Wahrscheinlichkeitsverteilung besitzen, erfolgt die Bewegung des Teilchens nach dem Verlassen von Sk* unabhängig von seinem Verhalten vor dem Zeitpunkt Tic und wird durch die gleichen Gesetze beschrieben wie die Bewegung eines Teilchens, das bei 8 0 * = 0 startet. Folglich sind die Zufallsgrößen , £2*,... ebenfalls voneinander unabhängig und identisch verteilt. In der Terminologie des vorangegangenen Abschnittes 5.1. bildet die Folge Sn*, TO = 1 , 2 , . . . , einen Erneuerungsprozeß. Dabei „existiert" der erste Erneuerungszeitpunkt Sx* nur mit der Wahrscheinlichkeit p = P{$!* € (0, oo)); allgemeiner, bei Existenz der Zeitpunkte ,..., S*_l ist der folgende Erneuerungszeitpunkt S„* wiederum nur mit der gleichen Wahrscheinlichkeit p definiert: P{S„\i€(0, oo) | 8 n * € (0, oo)}
=p.
Hieraus folgt für die Wahrscheinlichkeit P(/S* +1 € (0, oo)} dafür, daß der (n -f- l)-te Erneuerungszeitpunkt existiert, die Beziehung P t ä + i 6 (0, oo)} = P{Ä* +1 € (0, oo) | Sn* e (0, oo)} P{SR* € (0, oo)} = 3»P{/S.*€(0,oo)}, und damit Da die Reihe
00
P(Ä„* 6 (0, oo)} = p»,
n = 1,2,..., n = 1, 2 , . . .
(5.27)
P(ä„* € (0, oo)} konvergiert, treten nach dem Lemma von n=l B o r e l - C a n t e l l i mit Wahrscheinlichkeit 1 nur endlich viele der Ereignisse {/S„* 6 (0, oo)} ein, d. h., der Erneuerungsprozeß S„*, n = 1, 2 , . . . , bricht nach einer endlichen (vom Zufall abhängenden) Schrittzahl ab. Dabei tritt mit der Wahrscheinlichkeit q — 1 — p im Zeitintervall [0, oo) überhaupt keine Erneuerung auf, mit der Wahrscheinlichkeit p( 1 — p) erfolgt genau eine Erneuerung usw.
192
HI. Stochastische Prozesse
Allgemein bricht der Erneuerungsprozeß S„*, n — 1,2,..., nach der n-ten Erneuerung mit der Wahrscheinlichkeit — p) ab. Wir setzen SQ* = 0 und zählen auch 80* als Erneuerungszeitpunkt. Für die Anzahl N der Erneuerungen im unendlichen Intervall [0, oo) erhalten wir dann eine geometrische Wahrscheinlichkeitsverteilung : P{# ^ n) = P ^ . ! € (0, oo)} = p^, P{iV = n] = qp"-1, » = 1,2,.... (5.28) Wir bezeichnen für jedes 0 ^ x < oo mit N(x) die Anzahl der Erneuerungen im Zeitintervall [0, x\. Offenbar gilt und für den Mittelwert M(x) = MN(x) (vgl. (5.5)) erhalten wir M(x) = Z
> n) = J " P{S„* € [0, »]}.
n=0
n=0
(5.29)
Für die Gesamtanzahl N der Erneuerungen gilt M N = 2 P { N > n ) = £ p n =—. n=0 n=0 i
(5.30)
Die uns interessierende Größe f = max (0, S1, S2,...) stimmt mit dem maximalen Wert der monoton wachsenden Folge 0, S f , S2*,..., d. h. mit dem letzten Erneuerungszeitpunkt t , überein. Dabei gilt für jedes x > 0
und weiter
P(0 < c ^ »} = Z Pf-^ = n, n>l
P{iV = » , s:_t
6 [0, *]) = PIS^
€ [0, *]),
€ [0, x] | N = n} P{N = »},
wobei das Ereignis [N = » ) darin besteht, daß £ (0, oo)) eintritt und die »-X Größe f„* „verschwindet". Der Wert S*_1 = £ h* hängt jedoch nicht von £„* k= 1 ab (fj*, i2*> ••• ist eine Folge voneinander unabhängiger Zufallsgrößen), woraus sich P t ö - i 6 [0, *] I N = n) =
! € [0, x] |
6 (0, oo))
ergibt. Mittels (5.27), (5.28) erhalten wir weiter P&S!-i € [0, x] |
6 (0, oo)) P[N = n)
Unter Berücksichtigung der Gleichung (5.29) folgt schließlich Ft(x)=qM(x)
(q=Fc(
0)).
(5.31)
5. Prozesse in der Bedienungstheorie
193
Für die Funktion M(x), die die mittlere Anzahl der Erneuerungen im Zeitintervall [0, x] angibt, besteht die Beziehung (5.29). Dabei gilt P{S
und für n > 1 ist P{£
b
*
€
0
[0,
*
€
[0,*]}
= i
T 0
* ( « )
x]} = F"*(x),
=
0
i ,
^
x < oo,
die Verteilungsfunktion einer Summe voneinander unabhängiger, identisch verteilter Zufallsgrößen f,*, £2*> •••> £»*• Bei bekannter Verteilungsfunktion F*(x) = Pjfj* ^ x) sind wir also im Prinzip in der Lage, die Funktion M(x) = % Fn*{x), n=0
0 ^ x < oo,
(5.32)
zu bestimmen. (Es gilt Fn*(x) = 0 für x < 0, n — 1, 2 , . . . ) Wir wollen nun eine Beziehung herleiten, mit deren Hilfe man im Fall exponentialverteilter Ausgangsgrößen fi, f 2 , . . . die Wahrscheinlichkeitsverteilung der Zufallsgröße Si* (vgl. (5.35) und die darauffolgenden Betrachtungen) explizit bestimmen kann. Für die vorgegebene Irrfahrt (5.20) ist der Ort des Teilchens, den es beim ersten Erreichen des Intervalls (0, oo) einnimmt. Es gilt = STi, wobei rl die Anzahl der Schritte bis zum ersten Betreten von (0, oo) bezeichne. Für jedes gilt Pfa =», £t*>x} = P{Ät ^0,...,£„_! >«}. Bei festgehaltenen Si ^ 0 , s S 0 besteht das Ereignis [r, —n, > x} gerade darin, daß £„ = Sn — /S„_t > x — $„_! gilt. Folglich erhalten wir, wenn wir mit F(i(x) die Verteilungsfunktion von £ l f mit s^so} die Indikatorfunktion1) des Ereignisses (/Sj sS 0, . . . ,
oo wobei für die Konstante p = 2J n=l p
=pe~lx,
x )
(5.35)
x ^ O ,
wegen Bn = P{t! = n,
= P ^ * > 0) = 1 -
q =
1
-
> 0 ) die Gleichung
^(0)
gilt.
Wir betrachten nun ausführlicher den Fall, daß die Zufallsgrößen f , , f 2 , . . . stetig sind; für den diskreten Fall verlaufen die Überlegungen analog. Nach (5.35) besitzen im Spezialfall, bei dem die Dichte p (x) auf der positiven Halbachse die Gestalt p {x) = AI er *, x >0, (j
1
h
hat, die Zufallsgrößen exponentielle Form:
| 2 * , . . . ebenfalls eine Dichte, und zwar hat diese eine =pXe-lx,
p*(x)
(5.36)
x > 0 ,
wobei sich die Dichte p*(x) von der Dichte einer gewöhnlichen Expönentialverteilung nur durch den Faktor p unterscheidet. (Es sei daran erinnert, daß die Zufallsgröße fi* mit der Wahrscheinlichkeit q = 1 — p „verschwindet".) Wir wissen aber (vgl. (2.16) in Kap. II), daß eine Summe von n voneinander unabhängigen Zufallsgrößen f,*, ...,£„*, die alle exponentialverteilt mit der Dichte (5.36) sind, die Wahrscheinlichkeitsdichte (As)"-1 p«*(x)
=
p«A
/
'
(n — 1)!
e~'x,
x >
0,
besitzt. Die Dichte p"*(x) ist bekanntlich die Ableitung der Verteilungsfunktion und daraus folgt unmittelbar, daß
F"*(x),
m(x)
=
oo 2" Vn*{x)
oo e-ix2
=
n=l
J
o=0
(v}x\n — L =
P*
x > 0 ,
oo die
Ableitung
der
F u n k t i o n
M{x)
=
£
F"*(x)
darstellt.
Aus
J f ( 0 ) =
1 ergibt
n = 0
d a m i t X M(x)
=
1
+
1 J
o
mit)
dt
=
(1
— 9
-
p e~lx).
q =
1 -
p.
sich
6. Prozesse in der Bedienungstheorie
195
Unter Verwendung von (5.31) erhalten wir schließlich die folgende Aussage: Die Verteilungsfunktion des Maximums f = max (0, St, S2,. •.) besitzt die Gestalt Fc(x) = 1 - (1 - q) e~iqx, x^O, (5.37) wobei die Wahrscheinlichkeit q = F((0) aus der Gleichung (5.24) bestimmt werden kann: o q = / (1 - (1 - q) e*«) ph(x) dx. (5.38) — 00
Ist speziell die Wahrscheinlichkeitsdichte von f j für x ^ 0 auch von exponentieller Gestalt, d. h. gilt ph(x) =B{ie»x,
x • • • >
Sn' = £„
+ ••• +
ij
die gleiche gemeinsame Verteilung wie die Zufallsgrößen
S1 = su
=
+ h,
S» = £i + ••• + £»
besitzen. Hieraus folgt, daß das Ereignis
Bn = \s,
> 0
iSr. > o |
die gleiche Wahrscheinlichkeit wie A„ hat (n = 1 , 2 , . . . ) , da A„ in der Form An = jiS,' > 0 , S „ ' > 0) geschrieben werden kann. Das Eintreten von B„ bedeutet aber, daß in den ersten n Schritten das Teilchen nicht ein einziges Mal in das Gebiet x sS 0 gelangt, d. h., es gilt B„ — {v0 > n). Somit folgt wegen P ( j B „ ) = P (A„), n = 1 , 2 , . . . , für den Erwartungswert der Zufallsgröße v0 aus ( 5 . 4 2 ) die Gleichung M»0 = ^ P(v0 > n ) = 2 P(4.) = womit
(5.41)
bewiesen ist.
B= 0
B= 0
1
5.3. Stochastische Prozesso in Systemen mit einem Bedienungsgerät Wir nehmen an, daß an einem Bedienungssystem zu den zufälligen Zeitpunkten , . . . Forderungen eintreffen. Dabei soll das gleichzeitige Eintreffen mehrerer Forderungen nicht möglich sein und die Zwischenräume = t 2 — rl t f 2 = t3 — r 2 , . . . , zwischen den Zeitpunkten , r 2 , . . . , sollen voneinander unabhängige, identisch verteilte Zufallsgrößen sein. Weiterhin setzen wir voraus, daß für die Bedienung der ra-ten Forderung die Zeit rj„ benötigt wird (n = 1 , 2 , . . . ) und , r j 2 , . . . , voneinander unabhängige, identisch verteilte Zufallsgrößen sind, die auch von den Zeitpunkten , r 2 , . . . nicht abhängen. Man verbindet damit die Vorstellung, daß rj„ die „reine" Bedienungszeit der w-ten Forderung ist und berücksichtigt nicht die zufällige Wartezeit zwischen dem Eintreffen der w-ten Forderung bis zum Beginn ihrer Bedienung. T
1
, T
2
197
5. Prozesse in der Bedienungstheorie
Die Gesamtzeit, die die n-te Forderung im Bedienungssystem verweilt, beträgt entsprechend unseren Bezeichnungen -f- rln • Wir nehmen an, daß im Fall £„ + rj„, d. h. wenn die (n + l)-te Forderung so spät eintrifft, daß das Bedienungsgerät frei ist, die Bedienung sofort beginnt, daß also = 0 gilt. Im Fall |„ < + fjn ist das Gerät zum Zeitpunkt r B + 1 = r„ + noch infolge der Bedienung der vorhergehenden Forderungen besetzt, und die (n + l)-te Forderung muß eine Zeit der Länge = + V» ~ bis zum Beginn ihrer Bedienung warten. Uns interessieren die Gesetzmäßigkeiten eines bereits längere Zeit laufenden Bedienungsprozesses (der sich sozusagen „eingearbeitet" hat), insbesondere die Wahrscheinlichkeitsverteilung der Wartezeit der n-ten Forderung für w oo. Wir setzen und
Sa=ZAk,
n = 1,2,....
fc=I
(5.43)
Wir hatten bemerkt, daß die Zufallsgrößen mit den voneinander unabhängigen Zufallsgrößen A„ (n = 1 , 2 , . . . ) in folgender Weise verknüpft sind:
= i0 ^
'
für jr„ +
A„>0.
Wir wollen nun die Folge \, > • • • mit der Folge iS\, ^ » • • • vergleichen. Dazu bezeichnen wir mit v0,v1,... aufeinanderfolgend diejenigen Werte von n, für die = 0 (w 1) gilt. Das Ereignis {v0 = 1} besteht dann darin, daß 0) eintritt, und aus (5.44) ist ersichtlich, daß für alle n mit 1 n < v0 — 1 die Beziehung 3f?n+x = S„ besteht, wobei {>>0 = w) = {Sj > 0 , . . . , /Sm_| > 0,8m
iS 0),
m>
1,
(5.45)
gilt. Folglich kann man für jedes m mit 1 n m bei Gültigkeit von v0 = m die Beziehung zwischen und S„ formal in folgender Weise aufschreiben: = Sn - min (0, St,...,
Sn);
(5.46)
unter der genannten Bedingung gilt nämlich min ( 0 , S l t . . . , Sn) = 0 . Für m sS w < Vj und m = v0 erhalten die Größen in jedem Schritt n den gleichen Zuwachs An wie auch Sn: — Jfm+] — S„ — Sm > 0, wobei jem+l = 0
und
8 m = min (0, 8lt
...,S„)
gilt. Somit erhalten wir auch hier = 8„ — min (0, S1;..., Sn). Für n =vl gilt + A„ = ( — oo
—n
wobei 0k = ^(Ai+i) — , k = —n, ...,n, gesetzt wurde und das Zeichen ~ bedeuten soll, daß bei einer immer feineren Zerlegung des Frequenzbandes —A„ A ^ An in Intervalle Ak = (At, A^+i), k = —n, ...,n, die Beziehung $(t) = lim
ri—voo
J ; eiht 0k n
(7.10)
(für max |Ai+1 — A*| -> 0, A„ oo) gilt. Je Für ein beliebiges Frequenzintervall At ^ A ^ A2 ist der stationäre Prozeß U0=feiu
i. i,
dtf>(A),
(7.11)
sofern Z) = (Ai, A2) ein kleines Intervall ist, näherungsweise eine harmonische Schwingung der Frequenz A mit Aj A 5S Aj (je kleiner ¿1 ist, um so genauer ist dies bei festem Zeitintervall t0 ¿Z t ^ ti der Fall), dessen mittlere Energie durch M |^(i)|2 = / /(A) dA h gegeben ist. Die Gesamtenergie des stationären Prozesses beträgt 00 M|f(t)l a =/ /(A)dA.
(7.12)
221
7. Stationäre Prozesse
Somit charakterisiert also die Spektraldichte die Energieverteilung des betrach00
teten Prozesses £((A) auf die einzelnen Anteile der Form
¡¡¿(t)
¿0(1.).
h
Wir betrachten einen stationären Prozeß t m
=
J
(7.13)
w(t-s)dri(s),
— 00
der sich im Verlaufe der Zeit als Ausgangsprozeß eines stabilen Systems mit der Gewichtsfunktion w{t) bei Einwirkung einer homogenen zufälligen Störung f](t) (vgl. den Satz im vorhergehenden Abschnitt 6, S. 213) einstellt. Wir hatten den stationären Prozeß (7.13) durch Grenzübergang erhalten: t f (i) =
lim
J
«0->—OO U
w(t
— s)
dv{s);
dabei wurde der Anfangspunkt t0 der „Inbetriebnahme" des Systems in die unendlich ferne Vergangenheit verlegt. Für beliebige i 0 Sa 5 Ss ' charakterisieren die Zuwächse t
»?( / o At
=
y) 0 gilt. Hieraus ist ersichtlich, daß die Funktion u(s, x) der Differentialgleichung du — +a ds
du 1 8hi \-—b— + Uu=0 dx 2 dx*
(8.34)
genügt. Überdies folgen aus der Definition von u(s, x) für x = ct beziehungsweise x =• c2 (dann ist r = s) die Gleichungen u(s, cx) = u(s, c2) = 1.
KAPITEL IV
PROGNOSE UND FILTRATION STOCHASTISCHER PROZESSE 1. Die Aufgabe der besten Approximation, Beispiele Die Mehrzahl der Aufgaben der Prognose, Filtration stoehastischer Prozesse besteht in folgendem: Auf der Grundlage der Kenntnis eines stochastischen Prozesses rj(t) in einem bestimmten Zeitintervall a i 5S 6 soll eine gewisse unbekannte Zufallsgröße £ möglichst gut geschätzt werden. Dabei ist gewöhnlich £ = £(i) der Wert zum gegenwärtigen (oder auch „zukünftigen") Zeitpunkt t eines anderen Prozesses, der in gewisser Weise mit dem „beobachteten" Prozeß r](t) zusammenhängt. Das einfachste Problem dieser Art hatten wir bereits in Kapitel I, Abschnitt 4. betrachtet. Dort sollte eine beste Approximation der Zufallsgröße £ durch Linearti kombinationen der Gestalt £ ckVk gefunden werden, wobei rjk, k = 1 , . . . , « , *=• l gewisse gegebene Zufallsgrößen waren. Mit anderen Worten, es war eine Zufallsn große è = 2 c*0% gesucht, so daß n llf - III = min f — 2 ckVk (1.1) k=l güt. Wir hatten den (n -f- l)-dimensionalen linearen Raum H' aller Linearkombinationen rj = £ ckrjk (mit rj0 = £; c 0 , . . . , c„ sind beliebige reelle Zahlen) mit dem Skalarprodukt ( V l , V 2 ) =M( V l V 2 )
(1.2)
und dem entsprechenden Abstand \\Vi - 17.11 = VMfo, -
(1.3) n eingeführt. Die durch (1.1) definierte Zufallsgröße | == ^ cfyk ist dann geometrisch *=i gesehen der Fußpunkt des Lotes vom Punkt £ 6 H' auf den Unterraum L aller n Zufallsgrößen r) = £ ckrjk. Er ist eindeutig dadurch definiert, daß die Differenz fr=i £ — | senkrecht auf dem Unterraum L steht: ( £ - 1 , ^ = 0,
n
eL.
(1.4)
1. Aufgabe der besten Approximation
255
Diese Bedingung ist äquivalent zu dem folgenden linearen Gleichungssystem für die Koeffizienten c f , . . . , c„°: S
Vi) = (I, Vi),
j =
(1.5)
Wir betrachten nun allgemein die Aufgabe der Approximation einer Zufallsgröße | durch eine Zufallsgröße t] aus einer gewissen Menge L, die eine sogenannte Hyperebene bildet. (Eine Hyperebene ist eine Teilmenge L von H', so daß für jedes Element rj0d L die Größen A = rj — rj0, rj £ L, einen linearen Raum bilden, das heißt, eine Menge, die mit zwei beliebigen Elementen Alt A2 auch die Linearkombinationen c1A1 + c2A2 — c 1 ; c2 sind dabei beliebige reelle Zahlen — enthält.) Wir nennen die Zufallsgröße | £ L eine beste Approximation für wenn III - III = min llf U6I
erfüllt ist.
V\\
(1.6)
Abb. 24
Lemma. Die Bedingung (1.6) ist äquivalent zu (l-l,»? —0 = 0
für alle v € L.
(1.7)
Ehe wir diese Behauptung beweisen, wollen wir (1.7) geometrisch interpretieren. Wir bezeichnen mit L den linearen Baum aller Elemente v\ — rj £ L. Die Beziehung (1.7) besagt, daß das Skalarprodukt der Elemente f — | und A = r] — | für alle A aus L gleich 0 ist, das heißt, die Differenz f — | steht senkrecht auf dem Unterraum £ (siehe Abb. 24). Man nennt die Größe | die Projektion der Zufallsgröße f auf die Hyperebene L und die Differenz £ — § das Lot aus dem Punkte | auf L. Ist die Hyperebene L selbst ein linearer Raum (L = L), so ist die Bedingung (1.7) äquivalent zu (1.4). B e w e i s des Lemmas: Es sei | £ L eine beste Approximation für f. Dann gilt offenbar | | f - | | | = min H l J||, wobei das Minimum über alle Differenzen A =?? — £, rj a L, genommen wird. Die Menge dieser Differenzen bildet jedoch einen linearen Raum L. Insbesondere 18 Koeanow
256
IV. Prognose und Filtration
enthält L mit A auch alle Elemente XA, wobei A eine beliebige reelle Zahl ist. Für beliebiges festes A 4= 0 setzen wir und erhalten
= III — Iii2»
B=(£-t,A),
C = \\A\\*
min ||| — | — >Ld|| = min (A 2 + 2J5A + WC2) = A2. x x
Offenbar wird das Minimum der quadratischen Form A2 + 2BX + /l2C2 im Punkte X = 0 erreicht. Folglich ist der Koeffizient B gleich Null, das heißt (1.7) ist erfüllt. Umgekehrt folgt bei Gültigkeit dieser Bedingung für eine beliebige Größe rj £ L III - v\\2 = lltf ~i)-(V-
Dil2 = WS - I II2 + 2 •••>'?») existiert, die also der Bedingung (1.6) genügt, wobei das Minimum dieses Mal über alle möglichen Zufallsgrößen rj = (rj1, ..., rjn) ist durch I = M(| \rjlt ...,rj n ) gegeben. Dabei bezeichnet M(| | rj1,..., Vi >•••>*?» •
(1.8)
rjn) die bedingte Erwartung von | bei gegebenen
257
1. Aufgabe der besten Approximation
B e w e i s : Die Menge L aller Zufallsgrößen der Form rj = ?'») £ L,
und es gelten
I 2 = [M(f | V l , . . . , r]«)f ^
|
,...,r,a)
Vl
und M£2 ^ M[M(f2 | V l , . . . , V n ) ] = MI 2 < oo. Um zu zeigen, daß diese Zufallsgröße | = 9J0(»?i, ...,rjn) die absolut beste Approximation für f darstellt, haben wir die Gültigkeit von (1.7) nachzuweisen. Diese Beziehung bedeutet in unserem Fall, daß M[(f-|)
%)] =0
für beliebige Zufallsgrößen
= M(zl0 I f ! , . . . , £„_!)
berechnen. Die gemeinsame Wahrscheinlichkeitsdichte Aü,..., i lautet ¿„Syyn~i) =
(2d)" 0
für ~d
yk ^ d,
der Ausgangsgrößen k = 0 , . . . , n — 1,
sonst.
Die Zufallsgrößen f 0 , . . . , |rn_1 ergeben sich aus A0,A„-t durch die Transformation £0 = A0, = Ak — A0, k = 1 , . . . , n — 1; für die Dichte der gemeinsamen Wahrscheinlichkeitsverteilung von £ 0 , . . . , £„_x erhalten wir damit den
259
1. Aufgabe der besten Approximation
Ausdruck
P(t
für • • • > xn-\)
0
^ ß,
sonst
mit « = max (—d, —d — xlt ß = min (d,d — x1; ...,d
—d — xn_x), —
xn-x).
Die Funktionaldeterminante der angegebenen Transformation ist nämlich gleich 1 und die Ungleichung « 0 ^ x0 ^ ß ist äquivalent zu 1c =0, n — 1. Daraus folgt für die gemeinsame Dichte der Zufallsgrößen ^ , ..., die Beziehung oo P(x
fn-ii^l' •••> Xn-1) = f Pt,
fn-i^O > xl> •••> xrt-l)
— oo
ß-OC
für ß,
0
so daß sich für die bedingte Wahrscheinlichkeitsdichte p(a(x0) x1;..., xn_x) der Ausdruck 1
PiSxa I xi> •••>xn-i)
=
ß — Oi
0 ergibt. Die gesuchte Funktion • • • > xn-i)
= f
xoP(„(xo
für ck ^ ß für x > ß
lautet also oc + ß I X1 > • • • ' xn-i) da;« =
Der zugehörige optimale Gerätekomplex ist dann folgendermaßen gegeben: Z = wobei bzw. X* den kleinsten bzw. größten Wert unter den gegebenen Zufallsgrößen X 0 , . . . , X„_j bezeichnet. ( X ist also das arithmetische Mittel der beiden extremalen Werte der Folge X0, ..., X„_,.) 19*
260
IV. Prognose und Filtration
Man erhält nämlich «
=
T = JL
Y
- d
-
( Z *
-
Z
ß
) ,
0
= d - { X *
-
X0)
und mit
X = 9?o(fl > • P• • >\ ?n-l) — mit
"
0 1 +
'
Z* = min(X 0 ,..., Za-i),
ß
X
2
*=+~X * 2
Z* = max (Z 0 ,..., Z ^ ) .
Interessant ist hier ein Vergleich der entsprechenden Fehler j -
n—1 2
und
à*
i=o
n
â =
J
{à*
+
A*)
wobei wir A*
=
m i n
(Alf...,
A„),
A*
=
x(A1,...,An)
m a
gesetzt haben, bei der besten linearen und bei der absolut besten Approximation. Setzt man zum Beispiel d = -^j-, so erhält man 2
(X) auf der negativen Halbachse t si 0 gleich Null. Offenbar genügt die durch (2.11) definierte Funktion (p0{iX) der Bedingung oo
f |0ic(K) durch m
VokW = 2 akjy>j{X), /=i
k = 1 , . . . , m,
(2.34)
gegeben sind. Die Funktionen y>j(X), j = 1 , . . . , m , liegen im linearen Baum LT(f), folglich gehören auch i > vi) = E °ki da = I * J=1
10
*ur {
k
'
für 1 4= k.
Für jede Funktion