226 52 56MB
German Pages 840 Year 1998
StatistikTaschenbuch Von
Professor Dr. Karl Bosch 3., verbesserte Auflage
R. Oldenbourg Verlag München Wien
Zum Andenken an meinen Sohn Jürgen.
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Bosch, Karl: S t a t i s t i k - T a s c h e n b u c h / von Karl Bosch. - 3., verb. Aufl. - M ü n c h e n ; W i e n : O l d e n b o u r g , 1998 ISBN 3-486-24670-4
© 1 9 9 8 R. O l d e n b o u r g V e r l a g R o s e n h e i m e r Straße 145, D - 8 1 6 7 1 M ü n c h e n T e l e f o n : ( 0 8 9 ) 4 5 0 5 1 - 0 , Internet: h t t p : / / w w w . o l d e n b o u r g . d e D a s W e r k e i n s c h l i e ß l i c h aller A b b i l d u n g e n ist urheberrechtlich geschützt. Jede V e r w e r t u n g a u ß e r h a l b d e r G r e n z e n des U r h e b e r r e c h t s g e s e t z e s ist o h n e Z u s t i m m u n g des V e r l a g e s unz u l ä s s i g und strafbar. Das gilt i n s b e s o n d e r e für V e r v i e l f ä l t i g u n g e n , Ü b e r s e t z u n g e n , M i k r o v e r f i l m u n g e n u n d die E i n s p e i c h e r u n g und B e a r b e i t u n g in elektronischen S y s t e m e n . G e d r u c k t auf säure- u n d c h l o r f r e i e m Papier Druck: Grafik + Druck, München B i n d u n g : R. O l d e n b o u r g G r a p h i s c h e Betriebe G m b H , M ü n c h e n ISBN 3-486-24670-4
Kapitelverzeichnis
Kapitel I :
Beschreibende (deskriptive) S t a t i s t i k . . .
1
Kapitel II :
Wahrscheinlichkeiten
85
Kapitel III :
Diskrete Zufallsvariable und Verteilungen
128
Kapitel I V :
Stetige Zufallsvariable
191
Kapitel V :
Allgemeine Zufallsvariable
299
Kapitel V I :
Grenzwertsätze
325
Kapitel V I I :
Statistische Methoden (Schlußweisen)
Kapitel VIII :
Statistische Methoden bei speziellen
. . 337
Parametern und Verteilungen
401
Kapitel I X :
Varianzanalyse
495
Kapitel X :
Regressionsanalyse
589
Kapitel X I :
Nichtparametrische (verteilungsfreie) statistische Methoden
669
Anhang
753
Literaturverzeichnis
753
Tabellenanhang
761
Register
795
Inhaltsverzeichnis Vorwort Kapitel I :
XXV Beschreibende (deskriptive) Statistik
. . .
1
1.
Eindimensionale Darstellungen
1
1.1.
Merkmalstypen
1
1.2. 1.2.1. 1.2.2. 1.2.3. 1.2.4.
Häufigkeitsverteilungen bei diskreten Merkmalen Absolute und relative Häufigkeiten Strichliste und Häufigkeitstabelle Graphische Darstellungen Die empirische Verteilungsfunktion
1.3. 1.3.1. 1.3.2. 1.3.3. 1.3.4.
Häufigkeitsverteilungen bei Klassenbildungen Klasseneinteilung Häufigkeiten bei Klassenbildungen Histogramme bei Klassenbildungen Empirische Verteilungsfunktion bei einer Klassenbildung .
. . . .
1.4. Lageparameter von Häufigkeitsverteilungen 1.4.1. Der Modalwert (häufigster Wert) 1.4.2. Das arithmetische Mittel (Mittelwert) 1.4.3. Gewichtete (gewogene) arithmetische Mittel 1.4.4. Der Median (Zentralwert) 1.4.5. Quantile 1.4.6. Das geometrische Mittel 1.4.7. Gewichtete (gewogene) geometrische Mittel 1.4.8. Das harmonische Mittel 1.4.9. Gewichtete harmonische Mittel 1.4.10. Vergleich der verschiedenen Mittelwerte 1.5. 1.5.1. 1.5.2. 1.5.3. 1.5.4. 1.5.5. 1.5.6. 1.5.7. 1.5.8. 1.5.9.
Streuungsmaße (Streuungsparameter) von Häufigkeitsverteilungen Die Spannweite Der Quartilsabstand und Quantilsabstände Mittlere Abstände Varianz und Standardabweichung Der Variationskoeffizient Vergleich mittlerer Abstand und Standardabweichung . . . Momente einer Häufigkeitsverteilung Die Schiefe einer Häufigkeitsverteilung Der Exzeß einer Häufigkeitsverteilung
4 4 5 6 10
.
11 11 12 12 14 14 15 15 17 18 22 24 25 26 27 27 28 28 28 29 30 33 33 34 34 35
VIII
Inhaltsverzeichnis
1.6. 1.6.1. 1.6.1.1. 1.6.1.2. 1.6.1.3. 1.6.2.
Konzentrationsmaße Die Lorenzkurve Die Lorenzkurve bei Einzel werten (einer Beobachtungsreihe) Die Lorenzkurve bei Häufigkeitsverteilungen Die Lorenzkurve bei Klasseneinteilungen Der Gini-Koeffizient (das Lorenzsche Konzentrationsmaß) .
35 36 36 39 39 40
2.
Zweidimensionale Darstellungen
41
2.1. 2.1.1. 2.1.2. 2.1.3.
Zweidimensionale Häufigkeitsverteilungen Zweidimensionale Beobachtungsreihen Häufigkeitstabellen (Kontingenztafeln) Bedingte Häufigkeitsverteilungen
42 42 44 48
2.2. 2.2.1. 2.2.2. 2.2.2.1. 2.2.2.2. 2.2.2.3. 2.2.2.4. 2.2.3. 2.2.3.1. 2.2.3.2. 2.2.3.3.
Korrelationsrechnung Kovarianz und Korrelationskoeffizient Der Rangkorrelationskoeffizient von Spearman Bestimmung der Rangzahlen Allgemeine Formel für den Rangkorrelationskoeffizienten . . Praktische Berechnung von r s bei Rangzahlen ohne Bindungen Formel beim Auftreten von Bindungen Der Rangkorrelationskoeffizient von Kendall (Kendalls T) . Kendalls r bei Rangzahlen ohne Bindungen Kendalls r * bei Bindungen in der y-Reihe Kendalls r** bei Bindungen in beiden Reihen
51 52 56 57 58 60 60 62 63 65 66
2.3. 2.3.1. 2.3.2. 2.3.3. 2.3.4. 2.3.5. 2.3.6. 2.3.7. 2.3.8.
Regressionsrcchnung Die Regressionsgerade von y bezüglich x Die Regressionsgerade von x bzgl. y Regressionsgerade durch einen festen (vorgegebenen) Punkt . Regressionspolynome Regressionsparabel Regressionspolynome durch einen vorgegebenen Punkt . . Beliebige von Parametern abhängige Regressionsfunktionen Transformationen zur Berechnung von Regressionsfunktionen
70 70 75 77 78 79 80 81 82
K a p i t e l II :
Wahrscheinlichkeiten
85
1.
Zufallsexperimente und zufällige Ereignisse
85
2.
Relative Häufigkeiten von Ereignissen
88
3. 3.1.
Wahrscheinlichkeiten von Ereignissen Die historische Entwicklung des Wahrscheinlicheitsbegriffs
.
89 89
Inhaltsverzeichnis
IX
3.2. 3.2.1. 3.2.2. 3.2.3. 3.2.3.1. 3.2.3.2. 3.2.3.3. 3.2.3.4. 3.2.3.5. 3.2.3.6. 3.2.4. 3.2.4.1. 3.2.4.2. 3.2.4.3. 3.2.4.4.
Wahrscheinlichkeiten Axiomatische Definition einer Wahrscheinlichkeit . . . . Der klassische Wahrscheinlichkeitsbegriff nach Laplace . . Kombinatorik Produktregel der Kombinatorik (das allgemeine Zählprinzip) Anordnungsmöglichkeiten (Permutationen) Auswahlmöglichkeiten unter Berücksichtigung der Reihenfolge Auswahlmöglichkeiten ohne Berücksichtigung der Reihenfolge Zusammenstellung der Formeln aus der Kombinatorik . . Urnenmodelle Geometrische Wahrscheinlichkeiten und Simulationen . . . Geometrische Wahrscheinlichkeiten auf Intervallen . . . . Erzeugung von Zufallszahlen Geometrische Wahrscheinlichkeiten in der Ebene . . . . Flächenberechnungen mit Hilfe von Simulationen . . . .
91 91 94 95 96 96 97 98 99 100 103 103 104 105 106
4. 4.1. 4.2. 4.3.
Bedingte Wahrscheinlichkeiten Bedingte relative Häufigkeiten Definition der bedingten Wahrscheinlichkeit Satz von der totalen Wahrscheinlichkeit - Bayessche Formel
107 108 109 112
5. 5.1. 5.2.
Unabhängige Ereignisse Unabhängigkeit bei zwei Ereignissen Unabhängigkeit bei mehreren Ereignissen
115 115 116
6. 6.1. 6.2. 6.3. 6.4. 6.4.1. 6.4.2.
Unabhängige mehrstufige Zufallsexperimente Unabhängige zweistufige Zufallsexperimente Unabhängige mehrstufige Zufallsexperimente Unabhängige Wiederholungen eines Zufallexperiments . Spezielle Verteilungen Die Binomialverteilung Die geometrische Verteilung
117 117 118 119 120 120 123
7.
Das Bernoullische Gesetz der großen Zahlen
K a p i t e l III :
. .
123
D i s k r e t e Zufallsvaxiable
128
1.
Definition einer Zufallsvariablen
128
2. 2.1. 2.2. 2.3. 2.3.1.
Eindimensionale diskrete Zufallsvaxiable Verteilung einer diskreten Zufallsvariablen Verteilungsfunktion einer diskreten Zufallsvariablen Lageparameter diskreter Zufallsvariabler Modalwert einer diskreten Zufallsvariablen
128 128 131 133 133
.
.
.
Inhaltsverzeichnis
2.3.2. 2.3.3. 2.3.4.
Erwartungswert einer diskreten Zufallsvariablen Der Median einer diskreten Zufallsvariablen Quantile einer diskreten Zufallsvariablen
2.4. 2.4.1. 2.4.2. 2.4.3. 2.4.4. 2.4.5. 2.4.6.
Streuungsparameter Varianz und Standardabweichung Die Tschebyscheffsche Ungleichung Momente einer diskreten Zufallsvariablen Der Variationskoeffizient einer diskreten Zufallsvariablen Die Schiefe der Verteilung einer diskreten Zufallsvariablen Der Exzeß der Verteilung einer diskreten Zufallsvariablen
3. 3.1. 3.2. 3.3. 3.4. 3.5. 3.5.1. 3.5.2. 3.6. 3.7. 3.8.
Paare diskreter Zufallsvariabler Die gemeinsame Verteilung Die gemeinsame Verteilungsfunktion Bedingte Verteilungen und bedingte Erwartungswerte . Unabhängige diskrete Zufallsvariable Funktionen zweier diskreter Zufallsvariabler Das Produkt zweier diskreter Zufallsvariabler Die Summe zweier diskreter Zufallsvariabler Kovarianz und Korrelationskoeffizient Die Regressionsgerade Regressionsfunktionen
4.
Mehrdimensionale diskrete Zufallsvariable
161
5.
Erzeugende Funktionen
162
6.
Charakteristische Funktionen
165
7. 7.1. 7.2. 7.3. 7.4. 7.5. 7.6.
Spezielle diskrete Verteilungen Die gleichmäßige Verteilung Die Binomialverteilung Die geometrische Verteilung Die negative Binomialverteilung Die hypergeometrische Verteilung Die Poisson-Verteilung
168 168 169 176 179 181 184
Kapitel IV:
. . . .
.
133 139 141
. . .
.
S t e t i g e Zufallsvaxiable
1. 1.1. 1.2.
Eindimensionale stetige Zufallsvariable Dichte einer stetigen Zufallsvariablen Verteilungsfunktion einer stetigen Zufallsvariablen
1.3. 1.3.1. 1.3.2.
Lageparameter einer stetigen Zufallsvariablen Der Modalwert einer stetigen Zufallsvariablen Der Erwartungswert einer stetigen Zufallsvariablen
142 143 145 146 147 147 147 148 148 150 151 152 153 154 155 156 159 161
191
. . . .
191 191 193
.
195 195 196
.
.
Inhaltsverzeichnis
1.3.3. 1.3.4. 1.4. 1.4.1. 1.4.2. 1.4.3. 1.4.4. 1.4.5. 1.4.6. 1.5. 1.6.
Der Median einer stetigen Zufallsvariablen Quantile einer stetigen Zufallsvariablen Streuu ngsparameter stetiger Zufallsvariabler Varianz und Standardabweichung Die Tschebyscheffsche Ungleichung Momente einer stetigen Zufallsvariablen Der Variationskoeffizient einer stetigen Verteilung Die Schiefe einer stetigen Verteilung Der Exzeß einer stetigen Verteilung Gestutzte Verteilungen Mischverteilungen
203 204 206 206 208 209 209 210 210 210 213
2. 2.1. 2.2. 2.3. 2.4. 2.5. 2.5.1. 2.5.2. 2.5.3. 2.5.4. 2.5.5. 2.6. 2.7.
Zweidimensionale stetige Zufallsvariable Die gemeinsame Dichte Die gemeinsame Verteilungsfunktion Unabhängige stetige Zufallsvariable Bedingte Dichten und bedingte Erwartungswerte . . . . Funktionen einer stetigen zweidimensionalen Zufallsvariablen Das Produkt zweier stetiger Zufallsvariabler Die Summe zweier stetiger Zufallsvariabler Der Quotient zweier stetiger Zufallsvariabler Zweidimensionale Funktionen Die Differenz zweier stetiger Zufallsvariabler Kovarianz und Korrelationskoeffizient Die Regressionsgerade zweier stetiger Zufallsvariabler . . .
216 216 219 222 223 229 229 231 234 236 237 237 241
3.
Mehrdimensionale stetige Zufallsvariable
242
4.
Charakteristische Funktionen
245
5. 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.7.1. 5.7.2. 5.7.3. 5.7.4. 5.7.5. 5.7.6 5.8.
Spezielle stetige Verteilungen Die gleichmäßige Verteilung Die Exponentialverteilung Die Gammaverteilung Die Erlang-Verteilung Allgemeine Lebensdauerverteilungen Die Weibull-Verteilung Normalverteilungen Die Standard - Normalverteilung - N(0; 1) - Verteilung Die allgemeine Normalverteilung Die gestutzte Normalverteilung Die logarithmische Normalverteilung Die zweidimensionale Normalverteilung Die n - dimensionale Normalverteilung Testverteilungen
248 248 252 257 259 260 261 262 262 266 270 275 278 284 287
. . . .
.
.
X11
Inhaltsverzeichnis
5.8.1. 5.8.2. 5.8.3.
Die Chi-Quadrat-Verteilung Die t-Verteilung Die F-Verteilung
Kapitel V :
287 291 293
Allgemeine Zufallsvaxiable
299
1. 1.1. 1.2. 1.2.1. 1.2.2. 1.2.3. 1.2.4. 1.2.5. 1.2.6. 1.2.7.
Eindimensionale Zufalls variable Verteilungsfunktion einer Zufallsvariablen Kenngrößen einer Zufallsvariablen Erwartungswert, Varianz und Standardabweichung . . . . Die Jensensche Ungleichung Die Tschebyscheffsche Ungleichung Momente einer Zufallsvariablen Der Median einer Zufallsvariablen Quantile einer Zufallsvariablen Charakteristische Funktionen
299 299 303 304 309 311 312 312 313 313
2. 2.1. 2.2. 2.3. 2.3.1. 2.3.2. 2.4.
Zweidimensionale beliebige Zufallsvariable Die gemeinsame Verteilungsfunktion Unabhängige Zufallsvariable Funktionen zweier Zufallsvariabler Das Produkt zweier Zufallsvariabler Die Summe zweier Zufallsvariabler Kovarianz und Korrelationskoeffizient
315 315 317 317 318 319 319
3.
Mehrdimensionable Zufallsvariable
322
Grenzwertsätze
325
1.
Das schwache Gesetz der großen Zahlen
325
2.
Das starke Gesetz der großen Zahlen
329
3.
Der zentrale Grenzwertsatz
332
Kapitel VI :
Kapitel VII :
Statistische Methoden (Schlußweisen) . . 337
1.
Definition eier Stichprobenfunktion (Statistik)
338
2. 2.1. 2.2. 2.3. 2.4. 2.5.
Punkt-Schätzung für einen Parameter Allgemeine Schätzfunktionen Erwartungstreue (unverzerrte) Schätzfunktionen Die Verzerrung (der Bias) einer Schätzfunktion Konsistente Schätzfunktionen Wirksamste (effiziente) Schätzfunktionen
339 339 340 340 341 342
. . . .
Inhaltsverzeichnis
XIII
2.6. 2.7. 2.7.1. 2.7.2. 2.7.3. 2.7.4. 2.8. 2.9. 2.10.
Die Ungleichung von R a o - C r a m e r Maximum-Likelihood-Schätzung Die Likelihood-Funktion einer diskreten Verteilung . . . . Die Likelihood-Funktion einer stetigen Verteilung . . . . Das Maximum-Likelihood-Prinzip Eigenschaften der Maximum-Likelihood-Schätzungen . . . Die Momentenmethode Kleinste-Quadrate-Schätzer Schätzung einer unbekannten Verteilungsfunktion . . . .
342 346 346 346 347 349 350 351 351
3. 3.1. 3.2. 3.3. 3.4. 3.4.1.
351 351 353 355 357
3.4.2. 3.5.
Konfidenzintervalle für einen Parameter Allgemeine Konfidenzintervalle Konfidenzintervalle nach Clopper-Pearson im stetigen Fall Konfidenzintervalle nach Clopper-Pearson im diskreten Fall Konfidenzintervalle bei großem Stichprobenumfang n . . . Konfidenzintervalle bei regulären Maximum-LikelihoodSchätzungen Allgemeine asymptotische Konfidenzintervalle Konfidenzintervalle für die Differenz zweier Parameter . .
357 358 359
4. 4.1. 4.2.
Konfidenzbereiche Konfidenzbereiche für ein- oder mehrdimensionale Parameter Konfidenzstreifen für eine stetige Verteilungsfunktion . . .
360 360 361
5. 5.1. 5.1.1. 5.1.2. 5.1.3. 5.1.4. 5.1.5. 5.1.6. 5.1.7. 5.2.
Parametertests Test eines einzigen Parameters Nullhypothesen und Alternativen Testdurchführung Irrtumswahrscheinlichkeiten Gütefunktion und Operationscharakteristik Interpretation der Entscheidungsregeln Aufstellung der Nullhypothese Bestimmung der kritischen Grenzen Test auf eine bestimmte Differenz zweier Parameter (Zweistichproben-Tests)
362 362 362 363 363 364 367 367 367
Anpassungstests Chi-Quadrat-Anpassungstests Der Chi-Quadrat-Anpassungstest für die Wahrscheinlichkeiten p j , p 2 , . . . , p r einer Polynomialverteilung . . . . Der Chi-Quadrat-Anpassungstest für eine beliebige Verteilung Kolmogorow-Smirnow-Einstichproben-Test Vergleich des Kolmogorow-Smirnow-Tests mit dem Chi-Quadrat-Test
370 371
6. 6.1. 6.1.1. 6.1.2. 6.2. 6.3.
369
371 374 377 383
XIV
7. 7.1. 7.2. 7.3. 7.4.
Inhaltsverzeichnis
Unabhängigkeits- und Homogenitätstests - Kontingenztafeln Der Chi-Quadrat-Unabhängigkeitstest Der exakte Test von Fisher bei Vierfeldertafeln Der Chi-Quadrat-Homogenitätstest - Test auf Gleichheit mehrerer Verteilungen Der Kolmogorow-Smirnow-Zweistichproben-Test
Kapitel VIII : 1. 1.1. 1.1.1. 1.1.2. 1.1.3. 1.2. 1.2.1. 1.2.2. 1.3. 1.3.1. 1.3.2. 1.4. 1.4.1. 1.4.1.1. 1.4.1.2. 1.4.2. 1.4.2.1. 1.4.2.2. 1.4.2.3. 1.5. 2. 2.1. 2.1.1. 2.1.2. 2.2. 2.3. 2.3.1.
384 384 388 391 394
Statistische M e t h o d e n bei speziellen Parametern und Verteilungen . . . .
Erwartungswerte Schätzung eines beliebigen Erwartungswerts Schätzung aus einer einfachen (unabhängigen) Stichprobe Schätzung aus einer unabhängigen Stichprobe mit verschiedenen bekannten Varianzen Schätzung aus einer abhängigen Stichprobe mit gleichen Varianzen und identischen Korrelationskoeffizienten . . Konfidenzintervalle für den Erwartungswert p Konfidenzintervalle für /x bei bekannter Varianz er2 . . . Konfidenzintervalle für fj, bei unbekannter Varianz er2 . . Test eines Erwartungswertes p Test eines Erwartungswertes p bei bekannter Varianz er2 . Test eines Erwartungswertes ß bei unbekannter Varianz |qi-q2---q 1
Kapitel I: Beschreibende
(deskriptive)
25
Statistik
Der mittlere Preissteigerungsfaktor ist also das geometrische Mittel der einzelnen Preissteigerungsfaktoren. Hieraus erhält man die mittlere prozentuale Preissteigerung als 100 • (q — 1) %. Mit Hilfe des geometrischen Mittels können also mittlere prozentuale Steigerungen berechnet werden.
1.4.7. Gewichtete (gewogene) geometrische Mittel
n Mit den Gewichten w ; , 0 < w ; < 1 für alle i und E w ; = 1 erhält man das i=1 gewichtete (gewogene) geometrische Mittel xgw =
x™ 1 • X2w2 .. ... x^n
fü r X; > 0 für alle i.
Wj = w 2 = ... = w n = jj ergibt das gewöhnliche geometrische Mittel. Das gewöhnliche geometrische Mittel x g sämtlicher n Werte x 1 , x 2 , . . . , x n der Urliste stimmt überein mit dem mit den relativen Häufigkeiten gewichteten geometrischen Mittel der verschiedenen Merkmalsausprägungen a i i a 2 > •••) a m Zusammenfassen von Beobachtungsreihen Gegeben sind m verschiedene Beobachtungsreihen mit den Umfängen n k und den geometrischen Mitteln y g k für k = 1, 2 , . . . , m. Die Beobachtungsreihen werden zu einer einzigen Reihe x zusammengefaßt mit m n = Gesamtumfang: X) n k k=l Produkt aller n Beobachtungswerte: (y j ) " 1 • (y j ) " 2 ' •••' (y g j " " 1 ' Zieht man hieraus die n-te Wurzel, so erhält man das geometrische Mittel der gesamten Reihe x als gewichtetes geometrisches Mittel der geometrischen Mittel der einzelnen Teilreihen mit den Gewichten w k = ^ , also
= (y g ,i) W l • (y g ,2) W2 • - • (y g ,m) Wm
mit wk = ^ ,
n
= £
k=l
nk .
Beispiel (mittlere Preissteigerung): Für ein bestimmtes Produkt betrug während 4 Jahren die mittlere Preissteigerung 3,1 %, während der nachfolgenden 5 Jahre 3,45 % und in den letzten 6 Jahren 3,61 %. Gesucht ist die mittlere Preissteigerung in den gesamten 15 Jahren. Die mittleren Preissteigerungsfaktoren betragen der Reihe nach 1,031; 1,0345 und 1,0361. Hier handelt es sich um die geometrischen Mittel von drei Beobachtungsreihen, die zu einer gesamten Reihe vereinigt werden sollen. Mit n j = 4; n 2 = 5; n 3 =: 6; n = 15 lautet nach der obigen Formel
26
Kapitel I: Beschreibende
(deskriptive)
Statistik
der über die 15 Jahre gemittelte mittlere Preissteigerungsfaktor 4_ _5_ _6_ q g = 1,031 15 • 1,034515 • 1,0361 15
»
1,0342.
Die mittlere Preissteigerung betrug somit während der 15 Jahre ungefähr 3,42 % pro Jahr.
1.4.8 Das harmonische Mittel Das harmonische Mittel kann nur berechnet werden, wenn die n Beobachtungswerte entweder alle positiv oder alle negativ sind. Es ist erklärt durch y
n h - ü . 1!
-
n m h ia.l m h„(a ; )
_
£ Jq
Ei
j=
_
-
mm
E j=i
"J
h n (aj) = absolute,
r
n(
a
1 r n (a.)
'
-J
j ) = relative Häufigkeit von aj .
Das harmonische Mittel ist der Kehrwert (reziproke Wert) des arithmetischen Mittels der reziproken Beobachtungswerte. Beispiel (Durchschnittspreis beim Kauf für gleiche Beträge zu verschiedenen Preisen): Von einer Ware werde n-mal zu verschiedenen Preisen für den gleichen Betrag c gekauft. Zwischen den gekauften Mengen Mj und den zugehörigen Preisen p ; pro Mengeneinheit gilt also die Beziehung M; • p ; = c (konstant). In Abhängigkeit vom Preis lautet dann die Menge M; = c/p ; . Damit gilt Gesamtpreis:
n•c
Gesamtmenge:
M=
n
i=i
n
M- =
i=l
5: •
Hieraus erhält man den Durchschnittspreis n-c M
_ n — 1 , 1 , Pl
+
P2
_ =. 1 ~ Ph ' Pn
Beim Kauf zu verschiedenen Preisen für jeweils gleiche Beträge ist der Durchschnittspreis das harmonische Mittel der n Einzelpreise.
Kapitel I: Beschreibende
1.4.9. Gewichtete harmonische Mittel Mit den Gewichten w ; , 0
k
= 1,2,.—,m
mit n = £ "k > k=i
sie sind also proportional zu den Umfangen der einzelnen Teilreihen.
1.4.10. Vergleich der verschiedenen Mittelwerte Direkt miteinander vergleichen lassen sich nur das harmonische, das geometrische und das arithmetische Mittel, falls sämtliche Beobachtungswerte positiv sind. Dabei gilt x h < x g < x , falls nicht alle Beobachtungswerte gleich sind mit x ; > 0 ; x h = x g = x = Xj für Xj = x 2 = ... =
XJJ
> 0 .
Die gleiche Beziehung gilt auch für die entsprechenden gewichteten Mittelwerte, falls bei allen drei Mittelwertsbildungen die gleichen Gewichte benutzt werden. Der Median läßt sich mit den übrigen Mittelwerten nicht vergleichen. Er kann größer oder kleiner als das arithmetische, geometrische oder harmonische Mittel sein.
28
Kapitel
I: Beschreibende
(deskriptive)
Statistik
1.5. Streuungsmaße (Streuungsparameter) von Häufigkeitsverteilungen Die in Abschnitt 1.4 behandelten Lageparameter allein liefern noch nicht genügend Information über die Häufigkeitsverteilung. Die meisten dieser Lageparameter liegen zwar im "Zentrum" der Verteilung, sie machen jedoch keine Aussage darüber, ob alle oder wenigstens die meisten der Beobachtungswerte in ihrer Nähe oder weiter weg liegen. Man möchte jedoch gerne wissen, wie stark die Beobachtungswerte um diese Lageparameter streuen. Die Abweichungen der Beobachtungswerte von einem Lageparameter werden durch sog. Streuungsparameter (Streuungsmaße) beschrieben. Sie können nur von Beobachtungswerten quantitativer Merkmale berechnet werden, deren Ausprägungen metrisch skaliert sind (reelle Zahlen). Je kleiner diese Streuungsmaße sind, umso besser wird die Häufigkeitsverteilung durch den entsprechenden Lageparameter beschrieben.
1.5.1. Die Spannweite Die Spannweite (Range) R einer Beobachtungsreihe ist der Abstand des größten vom kleinsten Beobachtungswert, also R = Xj n j — x^jj = größter minus kleinster Beobachtungswert. Beispiel (Zensuren): Hier lautet die Spannweite R = 6 — 1 = 5. Die Spannweite beschreibt den gesamten Streubereich der Beobachtungswerte und ist für Maßstabsbetrachtungen auf der x-Achse wichtig. Die Spannweite hängt vom kleinsten und größten Beobachtungswert ab. Sie ist daher sehr empfindlich gegenüber Ausreißern. Die Spannweite ist nur für metrisch oder ordinal skalierte Merkmale berechenbar, falls den ordinal skalierten Merkmalen Zahlen zugeordnet werden.
1.5.2. Der Quaxtilsabstand und Quantilsabstände Zwichen dem oberen Quartil, dem 75 %-Quantil und dem unteren Quartil, dem 25 % - Quantil liegen mindestens 50 % der Beobachtungswerte. Daher beschreibt der Quartilsabstand *0,75 - *0,25 die Länge des Bereichs, in dem mindestens 50 % der Beobachtungswerte liegen. Im Gegensatz zur Spannweite ist der Quartilsabstand nicht empfindlich gegenüber Ausreißern.
Kapitel I: Beschreibende
(deskriptive)
Statistik
29
Zwischen dem 5 %- und dem 95 %-Quantil liegen mindestens 90 % der Beobachtungswerte. Somit beschreibt die Differenz x
o,95 — x0,05
die Größe des Bereichs, in dem mindestens 90 % der Werte liegen. Die Quantilsdifferenz X
l-a ~
x
a ' 0 < Qf < 0,5
ergibt die Länge eines Bereichs, der mindestens 100 • (1 — 2a) % aller Werte der Urliste enthält.
1.5.3. Mittlere Abstände Mittlere Abstände lassen sich nur bei quantitativen Merkmalen bestimmen. Von einem festen Zahlenwert c hat der Beobachtungswert den Abstand |x5 — cj. Der mittlere Abstand (mittlere absolute Abweichung) von c ist de =
i n ÄEI*i-c| 1=1
=
> m H E h n( a j) • l a r c l j=l
m E r n ( a j) • l a j - c l j=l
mit h n (aj) = absolute, r n (aj) = relative Häufigkeit von aj . Für c = x erhält man den mittlerenm Abstand vom Mittelwert x als m i n 1 d x = n E l x i~ x l = n E M a p • l a j - x | = E '„(«0 • h - x | i=l j=l j=l mit h n (aj) = absolute, r n (aj) = relative Häufigkeit von aj . c = x ergibt den mittleren Abstand vom Median i n i m m d x = n E l*i-x| = n E M a j ) • | a j - x | = £ r n ( a j ) • |a.-x| i=l j=l j=l mit h n (aj)=absolute, r n (aj)=relative Häufigkeit von aj . Für die mittleren Abweichungen gilt allgemein d - < d c für jede beliebige Konstante c . Der mittlere Abstand ist bezüglich des Medians am kleinsten. Insbesondere gilt d~ < d R .
30
Kapitel I: Beschreibende
(deskriptive)
Statistik
Beispiel (Zensuren): Bei den Zensuren erhält man den mittleren Abstand vom Mittelwert x = 3,08 als d^ = i
(3 • 2,08 + 5 • 1,08 + 8 • 0,08 + 6 • 0,92 + 2 • 1,92 + 1 • 2,92)
= 0,9824. Der mittlere Abstand vom Median x = 3 beträgt d - = i ( 3 - 2 + 5- l + 8- 0 + 6- l + 2- 2 + l - 3 ) = 0,96.
1.5.4. Varianz und Standardabweichung Das wohl am häufigsten benutzte Streuungsmaß ist die Varianz bzw. die Standardabweichung. Zu ihrer Berechnung werden nicht die Abstände, sondern die Quadrate der Abstände vom Mittelwert x benutzt. Zunächst wäre es naheliegend, die Summe der Abstandsquadrate durch n zu teilen, also die mittlere quadratische Abweichung vom Mittelwert zu berechnen. Aus Anwendungsgründen dividiert man die Quadratsumme jedoch nicht durch n, sondern durch n—1. Der Hauptgrund dafür liegt in der Tatsache, daß in der beurteilenden Statistik die unbekannte Varianz einer Zufallsvariablen durch die Varianz einer geeigneten Beobachtungsreihe geschätzt wird. Bei der Division durch n—1 ist diese Schätzung erwartungstreu. Dann erhält man im Mittel richtige Schätzwerte. Division durch n würde im Mittel einen zu kleineren Wert liefern. Bei einem großen Beobachtungsumfang n ist es jedoch unwesentlich, ob durch n oder durch n—1 dividiert wird. Wichtig ist dieser Unterschied bei kleinen Umfangen n. Bei einer Division durch 4 anstatt durch 5 erhält man einen um 25 % größeren Wert (vgl. Kap. VIII Abschnitt 2). Die Varianz s 2 einer Beobachtungsreihe X j , x 2 , . . . , x,, ist erklärt durch s2
= = i
=
i W . I ^ W - n x * ) ,
x = Mittelwert; h n (aj) = absolute Häufigkeit von aj . Die Gleichheit der beiden Ausdrücke der ersten Zeile läßt sich durch Ausquadrieren und Zusammenfassen beweisen. Der Vorteil bei der Benutzung des rechten Ausdrucks besteht darin, daß zur Berechnung der Varianz mit einem Rechner die Beobachtungswerte nicht gespeichert werden müssen. Es genügt, die Werte der Reihe nach einzugeben und nur ihre Summen und Quadratsummen zu bilden. Die Summe der Beobachtungswerte wird
Kapitel
I: Beschreibende
(deskriptive)
Statistik
31
anschließend durch n dividiert, was den Mittelwert x ergibt. Mit Hilfe der Quadratsummen berechnet man dann nach der rechten Seite der ersten Zeile die Varianz. Die Berechnung nach der zweiten Zeile erfolgt bei Häufigkeitsverteilungen. Die Varianz verschwindet genau dann, wenn alle n Beobachtungswerte übereinstimmen. Dann tritt in der gesamten Urliste n-mal der gleiche Merkmalswert auf, der dann mit sämtlichen Mittelwerten übereinstimmt. In einem solchen Fall gibt es keine Streuung. Die quadratischen Abstandssummen sind bezüglich des Mittelwertes x an kleinsten im Gegensatz zum mittleren Abstand, der bezüglich des Medians x minimal wird. Für jede beliebige Zahl c gilt allgemein E (*i-c)2 i=l
= =
E[(Xi-x) + (x-c)]2 i=l E(Xi-x)2+ 2 ¿ ( x ; - x ) - ( x - c ) + n-(x-c)2 , i=l V *1 — 1
also der
=0
Steinersche Verschiebungssatz (x-—c) 2 = E ( X j - x ) 2 + n - ( x - c ) 2 i=l i=i
für jede Konstante c.
Für c — x folgt hieraus folgt ¿ . E (x;-x)2 > ¿ r i i=l " * i=l
(*i-x)
2
= s2
für x * x
Die Standardabweichung (Streuung)
ist die (positive) Quadratwurzel aus der Varianz. Sie besitzt die gleiche Dimension wie die Beobachtungswerte x ; und der Mittelwert x. Beispiel (Zensuren): Mit dem Mittelwert x = 3,08 besitzen die Zensuren die Varianz s 2 = i - ( 3 - l 2 + 5 - 2 2 + 8 - 3 2 + 6 - 4 2 + 2 - 5 2 + 1 • 6 2 - 2 5 • 3,08 2 )=1,66 und die Standardabweichung s ss 1,28841. Lineare Transformation Die Beobachtungsreihe x j , x 2 , . . . , x n besitze den Mittelwert x und die Varianz s£. Die linear transformierte Reihe y ; = a-f-bx; für i = l,2,...,n
32
Kapitel I: Beschreibende
(deskriptive)
Statistik
hat dann wegen y = a + b x die Varianz s
y
=
¿ 1
=
b 2
£
(y
" i
£
i ~
F)2
= 5=T
(a +
bx
i -
a
-bi)2
=b2'sx-
Damit gilt s
a+bx =
b2
' SX i
s
a+bx = lbl ' SX 5 a, b 6 R.
Eine Parallel Verschiebung (a beliebig, b = 1) ä n d e r t die Varianz und S t a n -
dardabweichung nicht. Falls alle Werte mit b multipliziert werden, ändert sich die Varianz um den Faktor b 2 und die Standardabweichung um den Faktor |b|. Zusammenfassung von Beobachtungsreihen Gegeben seien m Beobachtungsreihen mit den Umfangen nj, n 2 ,..., n m , den Mittelwerten F n ^ f - i F m u n d den Varianzen s 2 , ,... Diese m Beobachtungsreihen werden zu einer einzigen Reihe x zusammengefaßt. Nach Abschnitt 1.4.3 besitzt die Gesamtreihe den Mittelwert _ x
m
=
£ k=l
nt _ n--yk
m mit
n
=
E nk • k=l
Ihre Varianz lautet
s 2 = ¿ (1 vE K - l ) - ^ " k=l
t "k-y^-n-x2) . k=l '
Diese Formel ist elementar beweisbar. Aus einer Klasseneinteilung läßt sich die Varianz nicht mehr exakt bestimmen, da keine Information über die Verteilung der Werte innerhalb der Klassen vorliegt. Wie bei der Mittelwertbildung könnte man für sämtliche Werte einer Klasse die Klassenmitte wählen und die Varianz s 2 dieser Werte als Näherungswert für die Varianz der Urliste benutzen. Im allgemeinen erhält man bei dieser Näherung jedoch zu große Werte, d.h. die Varianz der Urliste wird hierdurch überschätzt. Bei gleichen Klassenbreiten b kann diese Überschätzung jedoch korrigiert werden durch die sog. Sheppardsche Korrektur b 2 /12 mit
Kapitel
s
korr
I: Beschreibende
(deskriptive)
33
Statistik
~ s2— Y2 , b = konstante Klassenbreite.
Mit diesen korrigierten Varianzen dürfen jedoch keine statistischen Tests durchgeführt werden.
1.5.5. Der Variationskoeffizient Die Standardabweichung s wird bezüglich des Mittelwertes x berechnet. Sie beschreibt, wie stark die Beobachtungswerte um den Mittelwert schwanken. Die tatsächliche Größe des Mittelwertes spielt dabei keine Rolle. Jede Parallelverschiebung der Beobachtungswerte ergibt die gleiche Standardabweichung, auch wenn dabei der Mittelwert noch so groß wird. Daher ist es manchmal sinnvoll, die Standardabweichung in Relation zum Mittelwert zu setzen. Für positive Merkmalswerte lautet der _
Variationskoeffizient:
s
Der Variationskoeffizient bleibt als dimensionslose Größe von Maßstabsänderungen unberührt.
1.5.6. Vergleich des mittleren Abstands mit der Standardabweichung Aus der Cauchy—Schwarzschen Ungleichung n £ hl-N i=l
t-f
'
h n ( a j ) = absolute Häufigkeit von aj . Der Exzeß vergleicht eine eingipflige Verteilung mit der Dichte der Normalverteilung. Ist der Exzeß positiv, so ist das Maximum der Häufigkeitsverteilung größer als das der Normalverteilung. Bei negativem Exzeß ist es kleiner. I m ersten Fall ist die Häufigkeitsverteilung "spitzer" als eine Normalverteilung, im zweiten Fall "stumpfer".
1.6. K o n z e n t r a t i o n s m a ß e Falls zu einem bestimmten Zeitpunkt ein relativ kleiner Anteil der Bevölkerung einen hohen Anteil an einem Gesamtbestand (z.B. Einkommen, Vermögen oder Wertpapierbesitz) hat, spricht man von einer Konzentration. Allgemein soll die Aufteilung der Summe der n Beobachtungswerte Xj, x 2 , ...JXJ, auf die verschiedenen Merkmalsträger untersucht werden. Dabei möchte man vor allem wissen, ob diese Summe ungefähr gleichmäßig ver-
36
Kapitel I: Beschreibende
(deskriptive)
Statistik
teilt ist oder ob sie auf wenige Merkmalsträger konzentriert ist. Die einzelnen Beobachtungswerte dürfen dabei nicht negativ sein. Das untersuchte Merkmal muß dabei quantitativ sein.
1.6.1. Die Lorenzkurve Ein wichtiges graphisches Hilfsmittel zur Feststellung einer Konzentration ist die sog. Lorenzkurve. Sie soll in den nachfolgenden Unterabschnitten für eine Beobachtungsreihe, Häufigkeitsverteilung und Klasseneinteilung behandelt werden. 1.6.1.1. Die Lorenzkurve bei Einzelwerten (einer Beobachtungsreihe) Die Beobachtungswerte seien bereits der Größe nach geordnet mit positiver Summe n 0 < < x 2 < ... < x n mit J^Xj > 0. i=l Die Träger der ersten k Beobachtungswerte besitzen den relativen Anteil an den gesamten n Merkmalsträger von uk =
|
für k = 1,2 ,..., n . n
x Der relative Anteil dieser k Merkmalsträger an der Gesamsumme i 1=1 beträgt k x; Vk = — für k = 1, 2 , . . . , n . £*i i=l Multipliziert man diese beiden Werte mit 100, so erhält man jeweils den prozentualen Anteil.
In einem Koordinatensystem mit der Abszisse u und der Ordinate v werden die Punkte (u k , v k ) eingetragen. Der Koordinatenursprung (0,0) wird noch zusätzlich hinzugenommen. Dadurch erhält man n+1 Punkte mit den Koordinaten (0 ,0), ( u j , V l ), (u 2 , v 2 ),..., ( u n _ ! , v n _ 1 ), (u n , v n ) = (1,1). Auf beiden Koordinatenachsen werden also die relativen Anteile eingetragen. Manchmal wählt man auch die prozentualen Anteile, was nur den Maßstab ändert. Verbindet man diese n+1 Punkte durch einen Streckenzug, so entsteht die sog. Lorenzkurve für die Einzelwerte. Beispiel: 10 verschiedene Betriebe stellen von einem Produkt jährlich folgende Mengen (in Millionen Tonnen) her 5 5 5 10 10 20 25 30 50 90 .
Kapitel
I: Beschreibende
(deskriptive)
Statistik
37
Auf der u—Achse werden die relativen Anteile der ersten k Merkmalsträger an der Gesamtmenge der 10 Merkmalsträger eingetragen, also die Zahlen 0,1; 0 , 2 ; . . . ; 0,9; 1. Die Gesamtproduktion beträgt 250 (Mio t). Die relativen Anteile der ersten k Merkmalsträger an dieser Gesamtsumme erhält m a n als k v k = J 5 5 E x j für k = 1 , 2 , . . . , 10. Die 11 Punkte, die als Streckenzug die Lorenzkurve ergeben, lauten der Reihe nach ( 0 ; 0 ) , (0,1 ; 0,02), (0,2 ; 0,04), (0,3 ; 0,06), (0,4 ; 0,1), (0,5 ; 0,14), (0,6 ; 0,22), (0,7 ; 0,32), (0,8 ; 0,44), (0,9 ; 0,64), (1;1).
Lorenzkurve bei einer Konzentration
Die Lorenzkurve verläuft zunächst sehr flach und steigt am Ende steil an. Der Grund dafür liegt in der Tatsache, daß bei den letzten beiden Be-
38
Kapitel I: Beschreibende
(deskriptive)
Statistik
trieben eine Konzentration stattfindet. Diese beiden Betriebe produzieren zusammen 56 %, der letzte allein gar 36 % der Gesamtproduktion. Eigenschaften der Lorenzkurve Der Punkt (u k , v k ) der Lorenzkurve bedeutet, daß auf die 100 • u k % ersten Beobachtungswerte 100 • v k % der Gesamtsumme entfällt. Falls mehrere aufeinanderfolgende Punkte (u k , v k ) auf einer Geraden liegen, sind die Beobachtungswerte dieser Merkmalsträger identisch. Ist (u k , v k ) eine Knickgrößer als x k . Dann stelle, so ist der nachfolgende Beobachtungswert entfällt auf die k Merkmalsträger mit den k kleinsten Werten 100 • v k % der Gesamtsumme. Falls alle n Beobachtungswerte gleich sind, also für Xj — X2 = ... = haben alle n Merkmalsträger den gleichen Anteil. Dann liegt keine Konzentration vor. Die Lorenzkurve stimmt in diesem Fall überein mit der Diagonalen, die vom Punkt (0,0) zum Punkt (1,1) führt.
Lorenzkurve bei gleichen Meßwerten (x, = x2 =... = x n )
Kapitel
I: Beschreibende
(deskriptive)
Statistik
39
Wenn nicht alle Beobachtungswerte gleich sind, liegt die Lorenzkurve unterhalb dieser Diagonalen. Bei großer Konzentration ist die Lorenzkurve am Anfang sehr flach und steigt an Ende stärker an. Je mehr sie von der Diagonalen abweicht, umso größer ist die Konzentration. Ein zugehöriges Maß wird in Abschnitt 1.6.2 angegeben. Im Falle Xj = x 2 = = x n _ 1 = 0 und Xj, > 0 ist die gesamte Summe beim letzten Merkmalsträger konzentriert. Bei dieser vollständigen (maximalen) Konzentration ist die Lorenzkurve bis zur Stelle v n — 1 = identisch gleich Null und steigt danach geradlinig auf 1 an. 1.6.1.2. Die Lorenzkurve bei Häufigkeitsverteilungen (gruppierten Daten) Die m verschiedenen Merkmalswerte seien der Größe nach geordnet durch a j < a 2 < a 3 < ... < a m . h n (aj) sei die absolute und r n (aj) die relative Häufigkeit von aj . In Analogie zur Bezeichnung aus Abschnitt 1.6.1.1 ist dann u
k 1 k k = £ r„(aj) = R £ hn(aj) j=l j=l
für
k = 1, 2 ,..., m
der relative Anteil derjenigen von den n Merkmalsträgern mit den k kleinsten Ausprägungen. Diese Merkmalsträger haben an der Gesamtsumme den relativen Anteil k h n(aj)"aj vk = ^ für k = 1 , 2 , . . . , m . £ hn(aj)"aj j=i Die m + 1 Punkte (0,0), ( U J . V J ) , (u 2 ,v 2 ),...., ( u m _ 1 , v m _ 1 ) , (1,1) werden geradlinig miteinander verbunden. Der so entstehende Streckenzug ist dann die Lorenzkurve. 1.6.1.3. Die Lorenzkurve bei Klasseneinteilungen In der amtlichen Statistik werden oft Klasseneinteilungen bekanntgegeben, die neben Klassenhäufigkeiten auch noch die Summen der Werte (Merkmalssummen) der einzelnen Klassen enthalten. Mit Hilfe der absoluten bzw. relativen Klassenhäufigkeiten läßt sich für jeden Klassenendpunkt (rechter Randpunkt) der Wert der Lorenzfunktion berechnen. Dazu benötigt man folgende Werte
40
Kapitel
uk k
I: Beschreibende
(deskriptive)
Statistik
= Summe der ersten k relativen Klassenhäufigkeiten ; _
—
Summe der Beobachtungswerte der ersten k Klassen Summe sämtlicher Beobachtungswerte
Mit diesen Größen wird wie in Abschnitt 1.6.1.1 und 1.6.1.2 die Lorenzkurve gezeichnet.
1.6.2. Der Gini-KoefGzient (das Lorenzsche Konzentrationsmaß) Je stärker die Lorenzkurve von der Diagonalen abweicht, je mehr sie also "durchhängt", umso größer ist die Konzentration. Sie hängt vom Inhalt der von der Lorenzkurve und der Diagonalen aufgespannten Fläche ab. Diese Fläche heißt Konzentrationsfläche. Im nachfolgenden Bild ist auf der rechten Seite die Lorenzkurve bei einer vollständigen Konzentration dargestellt.
Konzentrationsflächen
Als Konzentrationsmaß wählt man nicht den Inhalt der Konzentrationsfläche, sondern setzt diese Fläche in Beziehung zur Gesamtfläche unterhalb der Diagonalen. Diese Gesamtfläche besitzt den Inhalt 0,5. Der GiniKoeffizient ist definiert durch _
Inhalt der Fläche zwischen der Diagonalen und der Lorenzkurve Inhalt der Fläche unterhalb der Diagonalen
= 2F , F = Flächeninhalt zwischen Lorenzkurve und Diagonalen. Bei einer vollständigen Konzentration liegt unterhalb der Lorenzkurve ein rechtwinkliges Dreieck mit der Grundseite i und der Höhe 1, also mit dem Flächeninhalt Zwischen der Diagonalen und der Kurve liegt somit die
Kapitel I: Beschreibende
(deskriptive)
Statistik
41
Fläche mit dem Inhalt 1/2 — l / 2 n . Diese Lorenzkurve besitzt dann den maximalen Gini-Koeffizienten P
_ max -
9 11
K — n—1 n 2n' — '
Falls keine Konzentration vorhanden ist, also im Falle gleichmäßiger Verteilung, verschwindet der Gini-Koeffizient. Allgemein gilt daher 0 < G < Elementare Rechnung ergibt die Darstellung
G =
2
5 i ' „
X i x
i=l
n+1 — —jj—
(bei einer Beobachtungsreihe)
i
= Yi ( ( u k — 1 + U k ) • m — ~ | ~~ 1 (bei Häufigkeitsverteilungen). k=1 V £ ^n( a j) ' a j '
Beispiel: Für die Beobachtungsreihe 5 5 5 10 10 20 25 30 50 90 erhält man den Gini-Koeffizienten q U
2 • 2005 _ U 10-250 10
=
Q504
'
2. Zweidimensionale Darstellungen In diesem Abschnitt sollen gleichzeitig zwei Merkmale am gleichen Individuum untersucht werden. Die Beobachtungsreihe (Urliste) besteht dann aus Paaren von Merkmalswerten, die zweidimensional dargestellt werden können. Dabei interessiert vor allem, ob die beiden Merkmale voneinander abhängig sind, ob sie sich also gegenseitig beeinflussen oder nicht. Die Abhängigkeit zweier Merkmale wird in der Korrelationsrechnung untersucht. In der Regressionsrechnung soll festgestellt werden, ob ein vorhandener Zusammenhang in funktionaler Form beschrieben werden kann.
42
Kapitel I: Beschreibende
(deskriptive)
Statistik
2.1. Zweidimensionale Häufigkeitsverteilungen 2.1.1. Zweidimensionale Beobachtungsreihen An n Beobachtungseinheiten (Individuen oder Merkmalsträger) werden die Ausprägungen von zwei Merkmalen festgestellt. Das erste Merkmal wird mit X oder A, das zweite mit Y oder B bezeichnet. Beim i-ten Merkmalsträger besitze das Merkmal X die Ausprägung x ; und das Merkmal Y die Ausprägung y ; für i = l , 2 , . . . , n . Diese Merkmalswerte können übersichtlich dargestellt werden in der Tabelle Beobachtungseinheit
2
1
. .. i
Xj (Ausprägung des Merkmals X)
Xj
x2 .
..
y ; (Ausprägung des Merkmals Y)
yi
y2
.. y ;
•
Xj
... n ...
X„
-
y
n
Da beide Merkmalsausprägungen x ; und y; jeweils am gleichen Merkmalsträger gemessen wurden, gehören sie zusammen. Man nennt sie auch verbundene Werte. Diesen Zusammenhang bringt man dadurch zum Ausdruck, daß beide Werte zu einem geordneten Paar (x ; , y j zusammengefaßt werden. Alle n Paare zusammen bilden die zweidimensionale Beobachtungsreihe (Urliste oder Stichprobe) (x, y) = ( ( X l ,
yi),
(x 2 , y 2 ) , . . . , (x„, y n )) .
Beispiel (Körperlänge und Körpergewicht): Von 20 zufällig ausgewählten Personen wurde die Körperlänge x (in cm) und das Körpergewicht y (in Kg) festgestellt. Die auf ganze Zahlen gerundeten Meßwerte sind in der nachfolgenden Tabelle zusammengestellt. Nr.
Körpergröße [cm]
Körpergewicht [Kg]
Nr.
Körpergröße [cm]
Körpergewicht [Kg]
1 2 3 4 5 6 7 8 9 10
170 162 171 178 175 165 169 173 182 176
74 61 68 81 73 62 71 73 83 78
11 12 13 14 15 16 17 18 19 20
160 167 171 163 179 170 173 168 177 166
59 69 72 65 76 75 71 72 75 71
Kapitel 1: Beschreibende
(deskriptive)
Statistik
43
Da beide Merkmale quantitativ sind, können die Zahlenpaare als Punkte in einem kartesischen Koordinatensystem dargestellt werden. Dabei werden auf der Abszisse die Ausprägungen des Merkmals X, also die Körpergrößen und auf der Ordinate die Ausprägungen des Merkmals Y, die Gewichte abgetragen. Die Beobachtungseinheit mit der Nummer i liefert das Wertepaar (xj, y ; ) in dieser Merkmalsebene. Diese Darstellung als Punktwolke nennt man auch Streuungsdiagramm. y (Körpergewicht)
80
-
70 -
fin DU
J
x (Körperlänge)
160 Streuungsdiagramm
170
180
Falls beide Merkmale quantitativ oder wenigstens ordinal skaliert sind, ist eine Darstellung der zweidimensionalen Beobachtungsreihe in einem solchen Streuungsdiagramm nur dann sinnvoll, wenn von den Beobachtungspaaren kaum welche übereinstimmen. Dies ist bei stetigen Merkmalen der Fall, falls die Merkmalsausprägungen nur genau genug gemessen werden. Beim Runden werden immer wieder gleiche Paare auftreten, besonders
44
Kapitel I: Beschreibende
(deskriptive)
Statistik
dann, wenn der Versuchsumfang n sehr groß ist. Falls mehrere Meßpaare gleich sind, tritt in der Merkmalsebene der gleiche Punkt öfters auf. Dies muß evtl. durch Angabe der Häufigkeit besonders festgehalten werden.
2.1.2. Häufigkeitstabellen (Kontingenztafeln) Falls beide Merkmale jeweils nur endlich viele Ausprägungen besitzen, werden insbesondere bei großem Umfang n in der Beobachtungsreihe gleiche Paare auftreten. Wie bei der Behandlung eines einzigen Merkmals ist es in einem solchen Fall sinnvoll, die Beobachtungsreihe in einer Häufigkeitstabelle übersichtlich darzustellen. Das Merkmal X (A) besitze die m Ausprägungen a 1 , a 2 , . . . , a m und das Merkmal Y (B) die 1 Ausprägungen bj, b 2 , . . . , bj. Dann gibt es insgesamt m • 1 verschiedene geordnete Merkmalspaare, nämlich ( a j , b k ) für j = 1, 2 , . . . , m und k = 1 , 2 , . . . , 1. Jedes Paar aus der Beobachtungsliste stimmt dann mit einem dieser Paare überein. Die Anzahl derjenigen Paare aus der Beobachtungsreihe, die mit (aj, bjJ übereinstimmen, heißt die absolute Häufigkeit von (aj, b k ). Man bezeichnet sie mit h
n( a j> b k) =
h
jk
für j = 1,2 ,..., m ; k = 1, 2 , . . . , 1 .
Der Übersicht halber läßt man den Index n weg. Die absolute Häufigkeit des Merkmalpaares (aj, b k ) ist also die Anzahl derjenigen Paare (xj, y-) der Urliste, für die x ; = aj und y; = b k ist. Division durch n ergibt die relative Häufigkeit r
jk =
r
h: k h n (a:, b k ) n ( a j - b k ) = -fT = Ti für j = 1 , 2 , . . . , m; k = l , 2 ,..., 1.
Für die Summen aller m • 1 Häufigkeiten (Doppelsummen) gilt allgemein m l
E E hjk = n und
m l
E E rjk = 1 .
j=i k=i j=i k=i Die Paare der Merkmalsausprägungen zusammen mit ihren absoluten bzw. relativen Häufigkeiten heißt Häufigkeitsverteilung der beiden Merkmale. Eine Häufigkeitsverteilung läßt sich in einem rechteckigen Schema, der sog. Kontingenztafel übersichtlich darstellen. Dazu trägt man in die erste Spalte die m Ausprägungen a-p a 2 ,... , a m des Merkmals X (A), also des Spaltenmerkmals und in die erste Zeile die 1 Ausprägungen b j , b 2 , . . . , b ] des Zeilenmerkmals Y (B) ein. Dadurch entste-
Kapitel I: Beschreibende
(deskriptive) Statistik
45
hen in dem S c h e m a m • 1 Plätze für die absoluten Häufigkeiten h j k bzw. die relativen Häufigkeiten rj k . Dabei werden diese Häufigkeiten an der Stelle eingetragen, an der sich die Zeile von a: mit der Spalte von b k kreuzt.
w
b2
.
.
bk
l
hn
h 12
"
•
hlk
a2
h 21
h22
.
•
hj2
•
V i
h m2
h-i
h. 2
a
a
j
am
Summe
h
ü
.. .
b,
.
h„
h 2k
•' •
h 21
•
hjk
.
hjl
•
•
h mk
•
^ml
.
.
h. k
•
.. .
h.
Summe hr h2.
h.. = n
Kontingenztafel für die absoluten Häufigkeiten.
W
b2
.
.
b,,
.. •
b,
l
rll
r 12
•
.
rlk
.. •
rll
a2
r 21
r 22
•
.
r2k
.. •
r21
j
rjl
r j2
*
.
rjk
..
rml
r m2
•
•
r mk
r. 2
.
•
r "k
a
a
a in „ Summe
r'l
Summe rl-
r2.
•
r jl
r j-
•
•
r ml
rm"
•
•
r "l
r.. = 1
Kontingenztafel für die relativen Häufigkeiten. Strichliste W i e im eindimensionalen Fall läßt sich auch hier eine Strichliste anfertigen. D a z u benutzt man das S c h e m a der Kontingenztafel und trägt für jeden Beobachtungswert einen Strich ein und zwar an derjenigen Stelle, an welcher die absolute Häufigkeit steht.
46
Kapitel I: Beschreibende
{deskriptive)
Statistik
Randverteilungen Aus den gemeinsamen Häufigkeiten lassen sich die Häufigkeiten der Ausprägungen der einzelnen Merkmale sehr einfach berechnen. Die Merkmalsausprägung a j tritt in der zweidimensionalen Beobachtungsreihe genau dann auf, wenn x ; = aj ist. Die Häufigkeiten dieser Paare stehen alle in der j-ten Zeile der Kontingenztafel, also neben a j . Summation dieser Häufigkeiten ergibt die Häufigkeiten für aj . Absolute Häufigkeit von a?: J 1 h (a:) = hju = h:. J J k=i
(Zeilensummen)
für j = 1, 2 , . . . , m .
Relative Häufigkeit von a=: 1 r = Jr r (aJ; ) = ik i k=i
(Zeilensummen)
für j = 1 , 2 , . . . , m .
Absolute Häufigkeit von t ^ : m h n (bj c ) = hjk = h-k (Spaltensummen) für k = 1, 2 , . . . , 1. j=i Relative Häufigkeit von b^ : m r = r, r n (bj c ) = ik k (Spaltensummen) für k = 1 , 2 , . . . , 1. j=i Bei der Summation über den Zeilenindex k (Zeilensummen) wird dieser Index durch einen Punkt ersetzt. Entsprechend wird bei der Summation über den Spaltenindex j (Spaltensummen) verfahren. Diese Bezeichnung hat den Vorteil, daß sie sehr übersichtlich ist. Summation über beide Indizes ergibt die Summe aller m • 1 Häufigkeiten mit m l S Z) hj k = n (Gesamtsumme) ; j=i k=i j=i k=i J m 1 m l r r.. = i- = Y, r -k = Z) IZ r ik ~ 1 (Gesamtsumme). j=i k=i j=i k=i In der letzten Spalte der Kontingenztafeln sind die absoluten bzw. relativen Häufigkeiten des Spaltenmerkmals X und in der letzten Zeile die des Zeilenmerkmals Y eingetragen. Die Summen dieser Spalte und Zeile ist immer gleich h.. = n bzw. r.. = 1. h.. =
m
h:. = J
1
h. k =
Beispiel (Mathematik- und Statistikzensuren): 100 Studierende schrieben jeweils eine Klausur in Mathematik und Statistik. Für beide Klausuren wurden die Noten 1 , 2 , 3 , 4 , 5 verteilt. Beide Merkmale X (Zensur in Mathematik) und Y (Zensur in Statistik) besitzen also die gleichen fünf Ausprägungen. Die Ergebnisse der beiden Zensuren für die 100 Teilnehmer
Kapitel I: Beschreibende
(deskriptive)
Statistik
47
sind in der nachfolgenden Kontingenztafel für die absoluten Häufigkeiten zusammengestellt.
Y Zensur in Statistik 2 3 4 5
X
1
1
2
3
2
1
0
8
2
6
9
5
3
0
23
3
2
12
14
8
2
38
4
0
6
8
9
3
26
5
2
1
1
1
0
5
12
31
30
22
5
100
Summe
Summe
Kontingenztafel für die absoluten Häufigkeiten In der letzten Spalte stehen als Zeilensummen die Häufigkeiten der Mathematikzensuren, in der letzten Zeile als Spaltensummen die Häufigkeiten der Statistikzensuren. Die Summe dieser Häufigkeiten ergibt jeweils die Gesamtanzahl n = 100. Klasseneinteilung: Falls eines oder beide Merkmale sehr viele verschiedene Ausprägungen besitzen wie z. B. bei stetigen Merkmalen, benutzt man wie in Abschnitt 1.3 für das entsprechende Merkmal eine Klasseneinteilung. Dabei kann es durchaus vorkommen, daß nur für eines der beiden Merkmale eine Klassenbildung möglich oder sinnvoll ist wie z.B. bei der Untersuchung der Körpergröße in Abhängigkeit vom Geschlecht. Anstelle der einzelnen Merkmalswerte benutzt man dann die Merkmalsklassen und stellt dafür wie in Abschnitt 2.1.2 Kontingenztafeln auf. Vierfeldertafel: Falls beide Merkmale jeweils nur zwei Ausprägungen besitzen, gibt es insgesamt vier gemeinsame Häufigkeiten. Dann nennt man die zugehörige Kontingenztafel eine Vierfeldertafel. Beispiel: Von 1000 ausgewählten Personen ließen sich 190 gegen Grippe impfen. Von den geimpften erkrankten danach 16 und von den nicht geimpften 121 an Grippe. Hier werden also gleichzeitig zwei Merkmale untersucht mit den Ausprägungen G (geimpft) und G (nicht geimpft) sowie E (erkrankt) und E (nicht erkrankt). Nachfolgend ist die Vierfeldertafel für die absoluten Häufigkeiten dargestellt.
48
Kapitel 1: Beschreibende
(deskriptive)
Statistik
E (erkrankt)
E (nicht erkrankt)
Summe
16
174
190
G (nicht geimpft)
121
689
810
Summe
137
863
1000
G (geimpft)
2.1.3. Bedingte Häufigkeitsverteilungen Bei einem der beiden Merkmale interessiere man sich nur noch für eine bestimmte fest vorgegebene Ausprägung, während die Ausprägungen des anderen Merkmals beliebig sein dürfen. Weil die Ausprägung des einen Merkmals dann immer konstant ist, erhält man eine eindimensionale Häufigkeitsverteilung. Man nennt eine solche Verteilung eine bedingte Häufigkeitsverteilung und zwar die Verteilung eines Merkmals unter der Bedingung, daß die Ausprägungen des anderen Merkmal gleich einem vorgegebenem Wert sind. In der Urliste oder Häufigkeitstabelle sollen nur noch diejenigen Paare betrachtet werden, bei denen das Spaltenmerkmal X immer die Ausprägung a: besitzt. Variabel sind dann nur die Ausprägungen des Merkmals Y. Die absoluten Häufigkeiten der Ausprägungen des Merkmals Y unter der Bedingung, daß X den festen Wert aj annimmt, stehen in der j-ten Zeile (neben aj) der Kontingenztafel. Die bedingte absolute Häufigkeit des Y-Merkmalswertes b k unter der Bedingung, daß X die die Ausprägung aj annimmt, bezeichnen wir mit h n (b| £ | aj). Damit gilt h n (b k | aj) = hj k für k = 1,2,..., 1 und jedes j mit
l 0 heißen die Beobachtungspspaare positiv korreliert. Die Punktwolke verläuft dann von links nach rechts mit steigender Tendenz. Für r < 0 sind die Beobachtungspaare negativ korreliert. Die Punktwolke hat dann von links nach rechts fallende Tendenz. Die Beobachtungspaare sind unkorreliert, wenn r = 0 ist. Im Falle der Unkorreliertheit lassen die Punkte keine einheitliche Tendenz erkennen. Liegt r in der Nähe von 0, so heißen die Beobachtungspaare schwach korreliert. In den nachfolgenden Abbildungen sind einige Punktwolken mit den dazugehörigen Korrelationskoeffizienten abgebildet.
56
Kapitel 1: Beschreibende
(deskriptive)
Statistik
Beispiel (Körpergröße und Körpergewicht s. Abschnitt 2.1.1): Hier erhält man folgende Parameter x = 170,75 ; s x « 5,964 ; y = 71,45 ; s y « Kovarianz: s X y ss 33,54; Korrelationskoeffizient: r «s 0,902.
6,236.
Der Korrelationskoefizient liegt nahe bei Eins. Die beiden Merkmale sind stark positiv korreliert. Die Punkte liegen sehr nahe auf einer steigenden Geraden. Diese Regressionsgerade ist in Abschnitt 2.3.2 abgebildet.
2.2.2. Der RangkorrelationskoefGzient von Spearman Bei Merkmalen, die nur nach einer ordinalen und nicht nach einer metrischen Skala geordnet werden können, kann man den Korrelationskoeffizien-
Kapitel I: Beschreibende
(deskriptive)
Statistik
57
ten von Bravais-Pearson nicht verwenden. Der Rangkorrelationskoeffizient von Spearman benutzt nicht die Merkmalsausprägungen x ; und y ; selbst, sondern die ihnen zugeordneten Rangzahlen. 2.2.2.1. Bestimmung der Rangzahlen Die eindimensionale Beobachtungsreihe z = (zj,z 2 ,...,z n ) bestehe aus Ausprägungen eines ordinal skalierten Merkmals, so daß zwischen ihnen eine natürliche Rangordnung (Reihenfolge) besteht. Bezüglich dieser Rangordnung werden die Werte wie bei der Bestimmung des Medians der Größe nach aufsteigend geordnet Z
(l) ^ Z(2) ^ Z(3) ^
^ Z(n) •
Jedem Beobachtungswert z; wird als Rang R; = R(z;) die Platznummer zugewiesen, die Z; in der geordneten Reihe einnimmt. Falls alle n Werte z; verschieden sind, ist diese Rangzuordnung aus den Platznummern l , 2 , . . . , n eindeutig. Tritt jedoch eine Merkmalsausprägung öfters auf, so wird jeder Ausprägung dieser Gruppe das arithmetische Mittel derjenigen Ränge zugewiesen, welche die gleichen Beobachtungswerte einnehmen. In einem solchen Fall spricht man von sog. Bindungen. Beispiel: Die Beobachtungsreihe z = (8; 5; 4; 3; 9; 2; 7; 1) geht über in die geordnete Reihe mit den Platznummern
1
2 2
1
3 4 5 7 8 9 3 4 5 6 7 8 .
Daraus erhält man die eindeutig bestimmten Rangzahlen R j = R(8) = 7 ;
R 2 = R(5) = 5; R 3 = R(4) = 4; R 4 = R(3) = 3;
R 5 = R(9) = 8 ;
R 6 = R(2) = 2; R 7 = R(7) = 6; R 8 = R(l) = 1.
b) Die Beobachtungsreihe
z = (2; 4; 1; 2; 1; 5)
geht über in die geordnete Reihe
1
1
2
2
4
5
mit den Platzziffern
1
2
3
4
5
6
1,5
1,5
3,5
3,5
5
6.
und den gemittelten Rangzahlen Hieraus erhält man die Rangzahlen
R t = R(2) = 3,5 ; R 2 = R(4) = 5 ; R 3 = R(l) = 1,5 ; R 4 = R(2) = 3,5 ; R 5 = R(l) = 1,5 ; R 6 = R(5) = 6.
58
Kapitel I: Beschreibende
(deskriptive)
Statistik
2.2.2.2. Allgemeine Formel für den RangkorrelationskoefEzienten Gegeben sei eine Beobachtungsreihe zweier ordinal skalierter Merkmale (x, y) = ( ( x j ,
yi),
(x 2 , y 2 ), ...,
(XJJ,
yj).
Zunächst werden in jeder der beiden getrennten Reihen x = (xj, x 2 , ..., x j
und
y =
(y t , y 2 , ..., y n )
die Rangzahlen R ; = R(x ; ) und R ; = R(y ; ) der einzelnen Merkmalsausprägungen berechnet. Für die Rangsummen der n Beobachtungswerte erhält man allgemein, also auch bei mittleren Rängen (Bindungen) t R(x ; ) = i=l
£ R ( y i ) = 1 + 2 + 3 + .... + n = " ' ( " + 1 ) . i i=l
Division durch n ergibt den Mittelwert der Ränge als R(x) - R(y) = Berechnet man den gewöhnlichen Korrelationskoeffizienten (nach BravaisPearson) von den Rangpaaren, also von der metrisch skalierten zweidimensionalen Reihe (R(x), R(y)) = ((R(xj), R ( y i ) ) , (R(x 2 ), R(y 2 )), ..., (R(x n ), R ( y n ) ) ) , so erhält man den Spearmanschen Rangkorrelationskoeffizienten E rr
S --
r
R(x)R(y) --
rp-n ^ ( E
:
R ^ R ^ - n R « ! ^ )
i=l
/ " R 2 (x s ) - n [R(x)] 2 ) • ( E
" TT" R (y;) - n [R(x)] 2 )
E R(xj) R(y;) - Q ( n + 1 ) 2 i=i *
_ j ( E
R
2
W-
f(n+i)2)-( E
R 2 ( y i ) - f (n+l)2) '
Da der Spearmansche Rangkorrelationskoeffizient r s gleich dem BravaisPearsonschen Korrelationskoeffizienten der Rangpaare ist, gilt - 1 < rs < + 1 . r s = + 1 ist genau dann erfüllt, wenn die Ränge völlig gleichsinnig verlaufen also für R(x ; ) = R(y;) für i = 1 , 2 , . . . , n.
Kapitel I: Beschreibende
(deskriptive)
Statistik
59
Im Falle r g = — 1 verhalten sich die Rangnummern vollständig gegensinnig. Falls sie bei den x-Werte steigen, fallen sie bei den y-Werten und umgekehrt. Liegt r g in der Nähe von + 1, so liegt eine starke positive Rangkorrelation vor. Wenn x ; einen hohen (niedrigen) Rangplatz hat, so hat meistens auch yj einen hohen (niedrigen) Rangplatz und umgekehrt. Falls r s in der Nähe von —1 liegt, so ist eine starke negative Rangkorrelation vorhanden. Hohen (niedrigen) Rängen der x-Werte entsprechen dann meistens niedrige (hohe) Ränge der y-Werte und umgekehrt. Ist r s ungefähr gleich Null, so besteht fast keine Rangkorrelation. Der Rangkorrelationskoeffizient ist ein MaS für den linearen Zusammenhang der Rangzahlen der beiden beobachteten Merkmalswerte. Beispiel (Mathematik- und Statistikzensuren, s. Abschnitt 2.1.2): Zur Berechnung des Rangkorrelationskoeffizienten müssen zunächst die Rangnummern der Zensuren bestimmt werden. Da eine Häufigkeitstabelle gegeben ist, sind für die einzelnen Gruppen Durchschnittsränge zu berechnen. Der Durchschnittsrang einer Merkmalsausprägung ist das arithmetische Mittel aus der ersten und der letzten Platzziffer der entsprechenden Gruppe. Bei der Mathematikzensur besitzt z. B. die Note 4 die erste Platzziffer 8 + 2 3 + 3 8 + 1 = 70 und die letzte Platzziffer 70+25= 95. Das arithmetische Mittel dieser beiden Zahlen 82,5 ist der mittlere Rang für diese Merkmalsausprägung. In den nachfolgenden Tabellen sind alle mittlere Ränge angegeben. a) Durchschnittsränge der Noten in Mathematik: Zensur
1
2
3
4
5
Häufigkeiten
8
23
38
26
5
4,5
20
50,5
82,5
98
mittlerer Rang
b) Durchschnittsränge der Noten in Statistik: Zensur
1
2
3
4
5
Häufigkeiten
12
31
30
22
5
mittlerer Rang
6,5
28
58,5
84,5
98
60
Kapitel I: Beschreibende
(deskriptive)
Statistik
Zur Berechnung des Rangkorrelationskoeffizienten dürfen in der Formel für den gewöhnlichen Korrelationskoeffizienten (nach Bravais-Pearson) nicht die Merkmalswerte selbst, sondern deren Rangzahlen eingegeben werden. Elementare Rechnung ergibt den Spearmanschen Rangkorrelationskoeffizienten
r s « 0,307.
Die Zensuren selbst ergeben den Korrelationskoeffizienten von Bravais-Pearson
r «
0,281.
Diese beiden Korrelationskoeffizienten unterscheiden sich nicht wesentlich. 2.2.2.3. Praktische Berechnung von r s bei Rangzahlen ohne Bindungen Falls beide Merkmalsausprägungen jeweils nur verschiedene Rangzahlen besitzen (Rangzahlen ohne Bindung), läßt sich der Rangkorrelationskoeffizient wesentlich einfacher berechnen. Für diesem Fall kann die obige Formel nach einigen Umformungen übergeführt werden in die einfachere Formel
rs =
1—
e.ElRW-Riyi)]2 1-1 5 , falls keine Bindungen vorhanden sind. "(n-l)
Beispiel: Bei einem Tanzturnier mußten sich zwei Wertungsrichter A und B bei zehn Tanzpaaren für eine eindeutig bestimmte Wertungsreihenfolge entscheiden. Dabei vergaben sie folgende Plätze: Paar Nr.
1
2
3
4
5
6
7
8
9
10
R(xj) von A
8
10
6
1
4
9
5
7
3
2
R(yj) von B
6
10
8
3
2
7
1
9
5
4
R(x;)-R(yi)
2
0
-2
-2
2
2
4
-2
-2
-2
Der Spearmansche Rangkorrelationskoeffizient lautet 6-48 = 1,, « 0,709. 10-(100-1) 2.2.2.4. Formel beim Auftreten von Bindungen Falls Bindungen vorhanden sind, also Durchschnittsränge auftreten, darf
Kapitel I: Beschreibende
fdeskriptive)
Statistik
61
die obige Formel nicht verwendet werden. Beim Auftreten von Durchschnittsrängen bleibt zwar die Summe aller Ränge gleich —^—- . Weil jedoch Ränge übereinstimmen, wird deren Quadratsumme und somit ihre Varianz kleiner. Aus diesem Grund muß die obige Formel korrigiert werden. Die Korrektur hängt von der Anzahl der Bindungen und den Häufigkeiten für gleiche Ränge ab. Falls bei großem Umfang n nur wenige Bindungen vorhanden sind, liefert die obige Formel noch einen brauchbaren Näherungswert. Bei mehreren Bindungen muß jedoch die nachfolgende Formel benutzt werden. Falls Bindungen (gleiche Durchschnittsränge) auftreten, gilt _
r
n ( n 2 - 1) - 6 ± [R(Xi) - R(y;)] 2 - J(B X + B y ) i=l t
8
^ [ n ( n 2 - 1) — B x ] • [n(n2— 1) - B y ]
mit B x = E bj(b? - 1) ; B y = £ c k (c 2 - 1) ; j k bj = Anzahl der x- Werte mit gleichem Rang in der j-ten Gruppe ; c^ = Anzahl der y- Werte mit gleichem Rang in der k-ten Gruppe. Summiert wird über die Anzahl der Gruppen mit Bindungen. Beispiel: Die Klausuren von 10 Studierenden wurden unabhängig voneinander von zwei Dozenten bewertet. Dabei wurden die in der nachfolgenden Tabelle angegebenen Punkte vergeben. Die Punkte des ersten Dozenten sind bereits der Größe nach sortiert. Da die vergebene Punktzahl doch etwas willkürlich sein kann, sollen für die Bewertungen nur die Ränge, also die Leistungsreihenfolge benutzt werden. Dozent A
14
14
18
22
22
22
25
25
30
39
Dozent B
12
15
21
21
21
21
27
27
32
41
R( Xj ) (A)
1,5
1,5
3
5
5
5
7,5
7,5
9
10
R f o ) (B)
1
2
4,5
4,5
4,5
4,5
7,5
7,5
9
10
R ( X i ) - R ( y i ) 0,5 - 0 , 5 - 1 , 5 0,5
0,5
0,5
0
0
0
0
62
Kapitel I: Beschreibende
(deskriptive)
Statistik
Die Quadratsumme der Rangdifferenzen beträgt E [ R ( x i ) - R(y;)] 2 = 3,5 . i=l Beim Dozenten A gibt es drei Gruppen mit Bindungen mit den Umfangen 2, 3 und 2, beim Dozenten B zwei Gruppen mit den Umfangen 4 und 2. Daraus ergeben sich die Korrekturgrößen B x = 2- 3 + 3- 8 + 2- 3 = 36; B y = 4 - 1 5 + 2- 3 = 66. Mit n(n2— 1) = 10 • 99 = 990 erhält man den Rangkorrelationskoeffizienten r
sb
=
990 - 6 - 3 , 5 - 0,5-(36 + 66) 1r , , ^ [990 - 36] • [990 - 66]
«0,9778.
Es liegt also eine sehr starke positive Rangkorrelation vor. Die Leistungsabstufungen sind somit bei beiden Dozenten fast gleich.
2.2.3. Der RangkorrelationskoefEzient von KendaE (Kendalls r) Der Rangkorrelationskoeffizient von Kendall kann von ordinal skalierten Merkmalswerten berechnet werden. Er benutzt wie der Spearmansche Korrelationskoeffizient nur die Rangzahlen. Zur Berechnung des Kendallschen Rangkorrelationskoeffizienten müssen die n Beobachtungspaare (x;, zunächst nach steigenden x W e r t e n , also nach den Rangzahlen der x-Werte geordnet werden. Um nicht unnötig viele Bezeichnungen einführen zu müssen, gehen wir davon aus, daß die Beobachtungsreihe bereits in dieser Reihenfolge dargestellt ist. Die zweidimensionale Reihe (xj,
yi
) , (x 2 , y 2 ) , . . . , (x ; , y ; ) , . . . , ( x n , y n )
sei also bereits nach aufsteigenden x-Werten, also nach wachsenden Rangzahlen der x-Werte geordnet mit Xj < x 2 < •• - < Xj < .... < Xn
(aufsteigende x-Werte).
Im allgemeinen sind darin die y-Werte nicht der Größe nach geordnet. R(y ; ) sei der Rang von y ; für i = 1 , 2 , . . . , n. Die Formel für den Kendallschen Korrelationskoeffizienten hängt davon ab, ob bei den Rangzahlen Bindungen (Durchschnittsränge) vorkommen oder ob die Rangzahlen der jeweiligen Merkmalsausprägungen alle verschieden sind.
Kapitel I: Beschreibende
(deskriptive)
Statistik
63
2.2.3.1. Kendalls r bei Rangzahlen ohne Bindung In diesem Abschnitt setzen wir voraus, daß sowohl die Rangzahlen der xWerte als auch die der y-Werte jeweils alle verschieden sind. Dies ist im allgemeinen bei stetigen Merkmalen der Fall, falls genau genug gemessen wird. Dann können keine Bindungen auftreten. In der obigen Beobachtungsreihe gelte XJ < x 2
0 .
Diese Funktion nähert sich immer mehr der " Sättigungsgrenze" a. Die drei Parameter a , b und c sollen wieder so bestimmt werden, daß das Streuungsdiagramm möglichst gut durch diese Funktion angepaßt wird. Allgemein betrachten wir eine von den 1 Parametern a j , a 2 , . . . , a j abhängige Regressionsfunktion y = f (a l t a 2 , . . . , aj, x) . Mit den 1 Parameterwerten ist die Regressionsfunktion dann eindeutig bestimmt. Nach dem Gaußschen Prinzip der kleinsten Quadrate erhält man die optimalen Parameter durch die Minimierung der Summe der vertikalen Abstandsquadrate n
Q(aj, a 2 ,..., a,) = £ fri ~ f(ai> a 2 ,..., a,, x j ] . i=l Falls die Funktion f nach allen 1 Parametern stetig differenzierbar ist, erhält man die Parameter evtl. durch Auflösen des Gleichungssystems
1
' ^ ' **'1 l1 i'J
ôak
-
u
für k = 1, 2 ,..., 1.
Beispiel (exponentielles Wachstum): Für die Regressionsfunktion beim exponentiellen Wachstum (s. oben) f(a, b, c, x) = a — b - e - c x
y=
lauten die partiellen Ableitungen
da
-
1 •
~
'
db
~
'
Öf
_L.„,.-CX
de
~
Hiermit erhält man die nichtlinearen Gleichungen
82
Kapitel I: Beschreibende
na - b- E e a.£e"
C X i
ab-Ex-e
cx
CX;
(deskriptive)
> -
b
-
.£e~
Eyj 2 c x
b2 • E
x
Statistik
= 0 i-
i'e
Eve"" 2CX
'-
b
1
=0
"Exiyi'e
° Xi =
Dieses nichtlineare Gleichungssystem ist nicht geschlossen lösbar. Man kann es allerdings mit Hilfe numerischer Verfahren (Iterationsverfahren) auf einem Computer lösen.
2.3.8. Transformationen Durch eine geeignete Transformation (Substitution) kann die Berechnung einer Regressionsfunktion manchmal so vereinfacht werden, daß für die transformierten Beobachtungswerte eine bereits bekannte einfachere Formel benutzt werden kann. Beispiel (Rückführung auf eine Regressionsgerade): a) Zur Bestimmung der Parameter der Regressionsfunktion y = a + bx5 muß nicht das umfangreiche Gleichungssystem für Polynome fünften Grades (r = 5) gelöst werden. Durch Einführung der neuen Variablen z = x 5 geht die Regressionsfunktion über in die Regressionsgerade y = a -(- bz. Für die transformierten Werte z; = xf können nach Abschnitt 2.3.1 unmittelbar die Parameter der Regressionsgeraden von y bezüglich z berechnet und in die obige Formel übernommen werden. b) Die Parameter der Regressionsfunktion y = a +
x
4
können mit Hilfe der Transformation z = geraden bestimmt werden.
x
ebenfalls aus der Regressions-
Beispiel (Logarithmieren): Zur Bestimmung der beiden Parameter c und b der Regressionsfunktion y = cxb;
c,x>0
könnte man beide Seiten logarithmieren mit lny = lnc + b • lnx .
Kapitel I: Beschreibende
(deskriptive)
Statistik
83
Mit den beiden transformierten Variablen w = lny und z = Inx geht die obige Potenzfunktion über in die Geradengleichung w =
lnc + bz = a + bz.
Falls die beiden Parameter aus der Formel für die Regressionsgeraden bes t i m m t werden, entsteht bei der Rücktransformation ein gewisses Problem. Den logarithmierten Werten wird nach dem Prinzip der kleinsten vertikalen Abstandsquadrate eine Gerade optimal angepaßt. Der Parameter a könnte zwar prinzipiell zurücktransformiert werden auf c = e a . Die so entstandene Potenzfunktion
besitzt jedoch nicht mehr die Eigenschaft, daß die Summe der vertikalen Abstandsquadrate der Beobachtungspaare (x;, yj) von dieser Kurve minimal ist. Diese Eigenschaft geht bei dieser Transformation des Logarithmierens verloren. Man könnte die rücktransformierte Funktion höchstens als Näherung für die gesuchte Regressionsfunktion verwenden.
Kapitel II : Wahrscheinlichkeiten Die Wahrscheinlichkeit eines Ereignisses ist ein Maß für die Chance des Eintretens des Ereignisses bei der Durchführung des entsprechenden Zufallsexperiments. Ereignisse mit einer großen Wahrscheinlichkeit werden im allgemeinen oft, Ereignisse mit einer kleinen Wahrscheinlichkeit entsprechend selten eintreten.
1. Zufallsexperimente und zufällige Ereignisse Unter einem Zufallsexperiment versteht man ein Experiment, bei dem vor jeder Durchführung nicht mit absoluter Sicherheit vorausgesagt werden kann, welches der möglichen Ergebnisse bei der bevorstehenden Versuchsdurchführung tatsächlich eintreten wird. Die Ergebnisse eines Zufallsexperiments werden mit kleinen Buchstaben bezeichnet z.B. mit a , b , c oder u . Die Ergebnismenge Q besteht aus allen möglichen Ergebnissen des Zufallsexperiments. Bereits vor der Versuchsdurchführung muß die Ergebnismenge eindeutig feststehen. Von einem Zufallsexperiment verlangt man im allgemeinen, daß es beliebig oft wiederholbar ist. Ein (zufälliges) Ereignis ist eine Zusammenfassung von bestimmten Versuchsergebnissen, also eine Teilmenge der Ergebnismenge Q. Der Zusatz zufällig wird meistens weggelassen. Unter einem Ereignis versteht man also immer ein zufälliges Ereignis. Ereignisse bezeichnet man mit großen Buchstaben. Ein Ereignis, das nur ein einziges Element enthält, heißt Elementarereignis. Das Elementarereignis E = {x} ist eine einelementige Menge. Es darf nicht mit dem Element (Ergebnis) x verwechselt werden. Man sagt: Bei der Versuchsdurchführung tritt das Ereignis A ein, wenn das Ergebnis u des Zufallsexperiments Element von A ist, also für U E A . Das Ereignis Q enthält alle möglichen Versuchergebnisse. Es tritt immer ein und heißt daher das sichere Ereignis. Die leere Menge 0 enthält kein Versuchsergebnis. Aus diesem Grund heißt 0 das unmögliche Ereignis, das nie eintreten kann. In der Sprache der Ereignisse lassen sich die Operationen der Mengenlehre anschaulich interpretieren.
86
Kapitel II:
Wahrscheinlichkeiten
Das Ereignis A H B
=
A B ( " A und B " , der Durchschnitt von A und B )
tritt genau dann ein, wenn sowohl A als auch B, also beide gleichzeitig eintreten. Es g i l t A n B = {oj| u 6 A und u g B } . ( " A oder B " oder die Vereinigung von A und B ) tritt
D a s Ereignis A U B
genau dann ein, wenn mindestens eines der beiden Ereignisse A und B eintritt. Es ist A U B =
{ w | u> e A oder w g B }
=
u liegt in mindestens
einer der beiden Mengen A und B } . Bei der hier benutzten " o d e r " - B e z i e hung handelt es sich nicht um ein ausschließendes " o d e r " . Man läßt auch zu, daß Li gleichzeitig zu beiden Mengen A und B gehört. D a s Ereignis A ( " A nicht", das Komplement bzw. das Komplementärereignis v o n A ) tritt genau dann ein, wenn A nicht eintritt. Dabei gilt A = { w | U> e i i und LI f. A } . Das Ereignis A \ B = A f l B ( " A , aber B nicht", die Differenz von A und B ) tritt genau dann ein, wenn A , aber nicht B eintritt mit A \ B = { u e A und D £ B } . A C B ( " A zieht B nach sich" oder A ist Teilmenge von B ) bedeutet, daß m i t d e m Ereignis A auch das Ereignis B eintritt. Aus u> e A folgt u e B . A und B heißen unvereinbar (disjunkt oder elementenfremd), wenn sie beide nicht gleichzeitig eintreten können. Dies ist genau dannn der Fall, wenn
gilt A n B = 0. n
D a s Ereignis P| A ; = A j PI A 2 fl.... f l A n (Durchschnitt von n Ereignissen) i=l tritt genau dann ein, wenn alle n Ereignisse gleichzeitig eintreten. Es ist HA; = H i=l
weAjfüri =
1,2,...,n}.
n
Das Ereignis (J A ; = A j U A 2 U .... U A n (Vereinigung von n Ereignissen) i=l tritt genau dann ein, wenn von den n Ereignissen A j , A 2 , . . . , A n
mindes-
tens eines eintritt. Es ist n
(J A ; = { w | u g A j für mindestens ein i } . i—1 Entsprechend wird der Durchschnitt und die Vereinigung von abzählbar unendlich vielen Ereignissen definiert als oo f l A ; = A j n A 2 n .... n A; n i=l oo U A ; = A j U A 2 U .... U A ; U i=l
(alle A j treten ein) ;
(mindestens ein A j tritt ein).
Kapitel //: Wahrscheinlichkeiten
87
In der Sprache der Ereignisse lassen sich z. B. die Regeln v o n de M o r g a n sehr anschaulich erklären. Das Ereignis A U B tritt genau dann ein, wenn das Ereignis A U B nicht eintritt. Dann darf von den beiden Ereignissen A und B keines eintreten. Somit müssen Ä und B gleichzeitig, also der Durchschnitt Ä fl B eintreten. Damit gilt
A ü B = ÄnB. Das Ereignis A fl B tritt genau dann ein, wenn das Ereignis A H B nicht eintritt. Beide Ereignisse A und B dürfen also gleichzeitig nicht eintreten. Somit muß mindestens eines nicht eintreten. Dies ist nur dann der Fall, wenn die Vereinigung A U B eintritt. Daher gilt
AHB =
ÄUB.
Nachfolgend sind einige Regeln für die Mengenoperationen zusammengestellt
A u B = BUA ; AflB = BflA ; (AUB)UC = AU(BUC) ; ( A n B ) n c = An(BnC) ; A D ( B ü C ) = (AHB) U (ADC); AUB
= Ä fl B ; A n B
=
AnÄ
= 0 ; A U Ä = fi;
ÄUB
(Regeln von de Morgan) ;
A = AB U AB = ( A H B ) U ( A n B ) ; A = (J AB;, falls die Bj paarweise unvereinbar sind, d.h. für B; n Bk = 0 für i ^ k und U B; = Q .
Ein Ereignissystem ist eine Menge von Teilmengen von Q. Falls die Ergebnismenge Q endlich oder abzählbar unendlich ist, können alle Teilmengen von Q in das Ereignissystem aufgenommen werden. Bei Ergebnismengen mit überabzählbar vielen Elementen ist es jedoch aus mathematischen Gründen oft nicht möglich, sämtliche Teilmengen von Q als Ereignisse zuzulassen. Man kann jedoch immer ein Ereignissystem auswählen, das alle Ereignisse enthält, für die man sich praktisch interessiert. Im stetigen Fall gibt es z. B. immer zulässige Ereignissysteme, welche die Intervalle enthalten und abgeschlossen sind gegenüber den Operationen der Komplementbildung und der Durchschnitts- und Vereinigungsbildung von endlich oder abzählbar unendlich vielen Ereignissen. Solche Systeme nennt man SigmarAlgebren.
88
Kapitel II:
Wahrscheinlichkeiten
2. Relative Häufigkeiten von Ereignissen Das gleiche Zufallsexperiment werde n-mal durchgeführt. Bei jedem Einzelversuch soll festgestellt werden, ob das Ereignis A oder dessen Komplement A eingetreten ist. Wie in Kapitel I Abschnitt 1.2.1 ist die absolute Häufigkeit h n (A) des Ereignisses A die Anzahl der Versuche, bei denen A eingetreten ist. Die relative Häufigkeit r n (A) =
^ stellt den relativen Anteil der Ver-
suche dar, bei denen A eingetreten ist. 100 • r n (A) ist der prozentuale Anteil dieser Versuche in der Gesamtserie. Die relative Häufigkeit besitzt folgende Eigenschaften: 0 < r n (A) < 1 für jedes Ereignis A (Nichtnegativität) ; r n (ii) = 1
(Normierung) ;
r n (A U B) = r n (A) + r n (B), falls A n B = 0 (Additivität bei unvereinbaren (disjunkten) Ereignissen) ; oo oo r n ( | J Aj) = r n (Aj) für paarweise unvereinbare Ereignisse i—1 i—1 mit Aj n A k = 0 für i / k (a-Additivität) . Die relative Häufigkeit einer Vereinigung paarweise disjunkter Ereignisse ist gleich der Summe der relativen Häufigkeiten.
Stabilisierung der relativen Häufigkeiten Falls das gleiche Zufallsexperiment sehr oft unabhängig und unter denselben Bedingungen durchgeführt wird, stellt man in den meisten Versuchsserien einen gewissen Stabilisierungseffekt fest. Die relativen Häufigkeiten r n (A) schwanken für große n in der Regel sehr wenig um einen festen Zahlenwert. Diesen Sachverhalt, der schon seit langer Zeit bekannt ist, nennt man Gesetz der großen Zahlen. Doch wird es immer wieder Ausnahmeserien geben, auch wenn der Versuchsumfang n noch so groß gewählt wird. Solche Ausnahmeserien sind zwar immer möglich, sie treten jedoch im allgemeinen mit wachsendem n seltener auf. Ganz ausschließen kann man sie jedoch nicht.
Kapitel II: Wahrscheinlichkeiten
89
0,5-
» n
0 Stabilisierungseffekt
3. Wahrscheinlichkeiten von Ereignissen In diesem Abschnitt sollen die verschiedenen Wahrscheinlichkeitsbegriffe zusammengestellt werden.
3.1. Die historische Entwicklung des Wahrscheinlicheitsbegriffs Bereits vor 200 Jahren benutzten vor allem französische Mathematiker einen Wahrscheinlichkeitsbegriff zur Untersuchung der Chancen bei Glücksspielen. Dabei handelt sich um die sog. klassische Wahrscheinlichkeit. Die Wahrscheinlichkeit eines Ereignisses A wurde nach folgender Formel berechnet: "Anzahl der für A günstigen Fälle geteilt durch die Anzahl der insgesamt möglichen Fälle". Ebenfalls wurden schon seit langer Zeit Wahrscheinlichkeiten mit Hilfe der Längen- und Flächenberechnung bestimmt. Dabei handelt es sich um sog. geometrische Wahrscheinlichkeiten. Bei stetigen Merkmalen hat schon der deutsche Mathematiker C.F Gauß (1777-1855) bei der Fehler- und Ausgleichsrechnung Wahrscheinlichkeiten berechnet. Die von ihm benutzte Methode ist bekannt unter dem Namen Gaufische Glockenkurve. Es gibt also schon seit einiger Zeit verschiedene Begriffe der Wahrscheinlichkeit. Dennoch konnte man mit ihrer Hilfe sehr viele Probleme nicht lö-
90
Kapitel II:
Wahrscheinlichkeiten
sen wie z. B. die Berechnung von Wahrscheinlichkeiten beim Werfen eines verfälschten Würfels. Aus diesem Grund wurde immer wieder versucht, den Wahrscheinlichkeitsbegriff zu erweitern. Zuerst wollte Richard von Mises (1883-1953) im Jahre 1931 auf Grund des bekannten Stabilisierungseffekts die Wahrscheinlichkeit P(A) eines Ereignisses A als Grenzwert der relativen Häufigkeiten definieren durch P(A) = lim r„(A) . n—*oo Der Ansatz war aus folgenden Gründen zum Scheitern verurteilt: a) Dieser Grenzwert existiert im mathematischen Sinne gar nicht. b) Auch wenn dieser Grenzwert existieren würde, könnte man ihn mit Hilfe einer Beobachtungsreihe auch gar nicht bestimmen. Irgendwann müßte j a jede Versuchsserie abgebrochen werden ohne sicher zu sein, daß die relativen Häufigkeiten nahe genug bei dem Grenzwert sind. Aus verschiedenen Serien würde man dann auch verschiedene "Wahrscheinlichkeiten" für das gleiche Ereignis A erhalten. Zur Entwicklung einer mathematisch fundierten Theorie benötigt man jedoch eine objektive, eindeutig bestimmte Wahrscheinlichkeit. Im Jahre 1933 ist es dem russischen Mathematiker A.N. Kolmogorow (1909-1987) erstmals gelungen, den Wahrscheinlichkeitsbegriff mathematisch widerspruchsfrei zu verallgemeinern. Dabei verlangt man von einer solchen Verallgemeinerung, daß ihre Einschränkung auf bereits bekannte Modelle den dort bereits verwendeten Wahrscheinlichkeitsbegriff ergibt. Kolmogorow hat die Wahrscheinlichkeit axiomatisch eingeführt. Ahnlich wie in der Geometrie verlangt er von einer allgemeinen Wahrscheinlichkeit, daß sie gewisse Eigenschaften (Axiome) erfüllt. Mit Hilfe dieser Axiome kann man zwar den genauen Wert einer Wahrscheinlichkeit noch nicht berechnen, doch ist es möglich, mit ihrer Hilfe eine Theorie zu entwickeln, mit der unbekannte Wahrscheinlichkeiten beliebig genau geschätzt werden können. Dies geschieht in der beurteilenden Statistik. Als Axiome werden typische Eigenschaften benutzt, welche die relativen Häufigkeiten sowie die klassische und die geometrische Wahrscheinlichkeit erfüllen. Zuerst soll dieser axiomatische allgemeine Wahrscheinlichkeitsbegriff behandelt werden. Durch Spezialisierung (Einschränkung) erhält man dann daraus die klassische und die geometrische Wahrscheinlichkeit.
Kapitel II: Wahrscheinlichkeiten
91
3.2. Wahrscheinlichkeiten In diesem Abschnitt sollen die verschiedenen Wahrscheinlichkeitsbegriffe und Methoden zu ihrer Berechnung zusammengestellt werden.
3.2.1. Axiomatische Definition einer Wahrscheinlichkeit Eine auf einem System von Ereignissen definierte reellwertige Mengenfunktion P heißt eine Wahrscheinlichkeit, wenn sie die folgenden Bedingungen (Axiome) erfüllt: (Kl)
0 < P(A) < 1 für jedes Ereignis A
(K2)
P(íí) = 1
(Normierung) ;
(K3)
P(A U B) = P(A) + P(B), falls A ("I B = 0
(Additivität) ;
(K3')
oo
P( U A¡) = i=i
(Nichtnegativität) ;
oo
"YJ P(A¡) für paarweise unvereinbare Ereignisse i=l A¡ n A k = 0 für i k (a-Additivität).
Die Wahrscheinlichkeit der Vereinigung abzählbar vieler paarweise unvereinbarer Ereignisse ist gleich der Summe der Wahrscheinlichkeiten dieser Ereignisse. Bemerkungen: 1.) Falls man gleichzeitig nur endlich viele Ereignisse betrachtet, genügt das Axiom (K3) der Additivität bei zwei unvereinbaren Ereignissen. Damit kommt man bei endlichen Ergebnismengen Q aus. 2.) Das Axiom (K3') benötigt man zur gleichzeitigen Betrachtung von abzählbar unendlich vielen Ereignissen, falls die Ergebnismenge Q nicht endlich ist. 3.) Aus dem Axiomensystem können die Wahrscheinlichkeiten von Ereignissen nicht direkt berechnet werden. Es ist jedoch möglich, mit ihrer Hilfe eine allgemeine mathematische Theorie zu entwickeln, mit der Wahrscheinlichkeiten beliebig genau geschätzt werden können. Interpretation einer Wahrscheinlichkeit Das Ereignis A besitze bei einem Einzelexperiment die Wahrscheinlichkeit p = P(A). Das Zufallsexperiment werde n-mal unabhängig unter den gleichen Bedingungen durchgeführt. Dann tritt für große n im allgemeinen das
92
Kapitel Ii:
Wahrscheinlichkeiten
Ereignis A ungefähr n • p-mal ein. Damit liegt die relative Häufigkeit des Ereignisses A in der Nähe von p . Für große n gilt also in der Regel die Näherung rn(A) «
P(A).
Aus diesem Grund kann eine unbekannte Wahrscheinlichkeit p durch die relative Häufigkeit in einer genügend großen unabhängigen Versuchsserie geschätzt werden. Aussagen über die Güte solcher Schätzungen werden in der beurteilenden Statistik gemacht. Folgerungen aus den Axiomen Aus den den drei Axiomen ( K l ) , ( K 2 ) und (K3) können unmittelbar die folgenden Eigenschaften abgeleitet weden: P(0) = 0 ; P(Ä) = 1 - P(A) ; aus A C B folgt P ( A )
)). Diese Zufallsvariable bezeichnet man mit Y = g ( X ) . Sie besitzt einen Erwartungswert, falls folgende Reihen absolut konvergieren: E
(Y)
= E j =
E j
yj• p ( Y = y j ) =
E j
yj • E P(X = • : g(*i)=yj
E g(xi).p(x = x i ) = E 1 i:g(*i)=yj
X;)
g(xi)-P(x = x i ) .
D a m i t gilt allgemein der Funktionssatz: Es sei X eine diskrete Zufallsvariable mit dem Wertebereich W . Ferner sei y = g ( x ) eine beliebige reelle Funktion. Dann besitzt die Zufallsvariable Y = g ( X ) genau dann einen Erwartungswert und zwar E(Y)=
E(g(X)) =
E i
g(xi)-P(X = x i ) ,
falls diese Reihe absolut konvergiert mit E
|g(Xi)|.P(X = X j ) < o o .
Lineare Transformation Alle Realisierungen x ; der Zufallsvariablen X werden gemäß y ; = a + b x ; , a,b 6 R linear transformiert. Durch die Übertragung der Wahrscheinlichkeiten P ( Y = y;) = P ( Y = a + bx ; ) = P ( X = x ; ) erhält man eine diskrete Zufallsvariable Y . Sie heißt lineare Transformation. Man bezeichnet sie mit Y = a + b X . Ihre Verteilung lautet ( y ; = a + bxj ; P ( X = x ; ) ) , x ; 6 W ( X ) . Falls X den Erwartungswert E ( X ) besitzt, erhält man den Erwartungswert der linearen Transformation als E ( Y ) = E ( a + b X ) = E (a+bXi) • P ( X = X ; ) = a E P ( X = x ; ) + b £ x i i i = a + b • E(X).
= l
r
P(X=X;) E(X)
Kapitel
III: Diskrete
Zufallsvariable
137
Damit wird auch der Erwartungswert linear transformiert durch E(a+bX) = a + b • E(X).
Erwartungswert einer Summe Aus dem Ergebnis u des Zufallsexperiments werden gleichzeitig die Realisierungen zweier Zufallsvariabler X(w) und Y(w) berechnet. Dann wird durch Z(u>) = X(u>) + Y(oj) eine neue Zufallsvariable Z erklärt. Z = X + Y ist die Summe der beiden Zufallsvariablen X und Y. Die Verteilung der Summenvariablen Z kann aus der gemeinsamen Verteilung der beiden Zufallsvariablen X und Y (s. Abschnitt 3.1) bestimmt werden. Zur Berechnung des Erwartungswertes von Z benötigt man jedoch die gemeinsame Verteilung nicht. Wenn X den Wert x ; und Y den Wert yj annimmt, so ist die Realisierung von X + Y gleich der Summe x ; + yj . Allgemein ist der Erwartungswert einer Summe gleich der Summe der Erwartungswerte. Die Additivität des Erwartungswertes kann auf mehrere Summanden übertragen werden. Zusammen mit den Eigenschaften der linearen Transformation gelten allgemein die Eigenschaften des Erwartungswertes: Die Zufallsvariablen X und Y sollen die Erwartungswerte E(X) und E(Y) besitzen. Dann besitzt auch die Summenvariable X + Y einen Erwartungswert und es gilt E(X + Y) = E(X) + E(Y)
(Additivität des Erwartungswertes);
E(aX + bY) = a • E(X) + b • E(Y) für a , b 6 R
(
n
(Linearität des Erwartungswertes); \
J^XjJ =
n
E(Xj), falls die einzelnen Erwartungswerte E(Xj) existieren für i = 1, 2 ,..., n . Beispiel (Augensummen): a) Beim Werfen eines idealen Würfels beschreibe die Zufallsvariable X die Augenzahl mit P(X = i) = 1/6 für i = l , 2,..., 6. Die Zufallsvariable X besitzt den Erwartungswert 1=1
1=1
E(X) = i - ( l + 2 + 3 + 4 -(- 5 + 6) = 3,5. Der Erwartungswert 3,5 gehört nicht zum Wertebereich von X. b) Mit n idealen Würfeln werde gleichzeitig oder mit einem Würfel n-mal nacheinander geworfen. Die Zufallsvariable S n der Augensumme läßt sich
138
Kapitel
III: Diskrete
Zufallsvariable
darstellen als Summe Sn =
n i=i
X ; , Xj beschreibt die Augenzahl beim i-ten Wurf.
Aus E(Xj) = 3,5 und der Additivität des Erwartungswertes erhält man E(S n ) = 3,5-n . Symmetrische Verteilungen Die Verteilung der diskreten Zufallsvariablen X heißt symmetrisch bezüglich des Punktes x = s, wenn der Wertevorrat zu dieser Stelle symmetrisch liegt, und die beiden von s gleich weit entfernten Werte die gleiche Wahrscheinlichkeit besitzen. Dann läßt sich der Wertebereich darstellen in der Form W = {s ± zv s ± z 2 , s ± z 3 , } mit P(X = s + z;) = P(X = s — z;) für alle symmetrisch zu s gelegenen Wertepaare. Der Erwartungswert E(X) der zu s symmetrisch verteilten Zufallsvariablen X existiere. Dann besitzen die beiden Zufallsvariablen X — s und — (X — s) die gleiche Verteilung und somit auch den gleichen Erwartungswert. Aus E(X-s) = -
E(X-s)
folgt 0 = E(X - s) = E(X) - s ,
also E(X) = s.
Damit gilt E(X) = s, s = Symmetrie-Stelle, falls E(X) existiert. Daß man bei symmetrischen Verteilungen auf die Existenz des Erwartungswertes nicht verzichten kann, zeigt das Beispiel (symmetrische Verteilung ohne Erwartungswert): Die diskrete Zufallsvariable X besitze die Verteilung W = { ± 2 n , n = 1,2,3
} ; P ( X = 2 n ) = P( X = - 2 n ) =
für alle n. Sie ist symmetrisch zu s = 0. Wegen V - L - I . V
Z-, n=l
9n+l
t
-
4
Z ^ k=0
± —- 1 . 2 - 1
nk 1
4
2
besitzen alle Werte zusammen die Wahrscheinlichkeit Eins. Aus 2 n • P(X = 2 n ) = i ;
( - 2 n ) • P(X = - 2 n )
= - i
Kapitel III: Diskrete
Zufallsvariable
139
folgt £
| X i | - P ( X = Xj) = o o .
Die in der Definition des Erwartungswertes geforderte Bedingung der absoluten Konvergenz ist hier nicht erfüllt. Durch verschiedene Summationsreihenfolgen der Produkte x ; • P(X = x ; ) können verschiedene Summenwerte erzeugt werden. a) Falls man jeweils einen positiven und einen negativen Wert paarweise zusammenfaßt, enstehen lauter Nullen als Summanden. Dann verschwindet auch die Summe. Der Erwartungswert würde in diesem Fall mit dem Symmetriepunkt s = 0 übereinstimmen. b) Nimmt man in der Summationsreihenfolge zuerst k positive (bzw. negative) Werte und danach paarweise jeweils einen positiven und einen negativen, so erhält man als Summe den Wert k/2 (bzw. — k/2). c) Faßt man jeweils zwei positive und einen negativen Wert zusammen, so entsteht die Summe oo. d) Durch Zusammenfassen von jeweils zwei negativen und einem positiven Wert entsteht die Summe — oo. Durch verschiedene Summationsreihenfolgen entstehen verschiedene Summen. Damit kann die Zufallsvariable X keinen Erwartungswert besitzen, da dieser von der Summationsreihenfolge unabhängig sein sollte.
2.3.3. Der Median einer diskreten Zufallsvaxiablen Der Erwartungswert E(X) einer diskreten Zufallsvariablen ist wie der Mittelwert x einer Beobachtungsreihe empfindlich gegenüber einem Ausreißer, falls dieser nicht eine sehr kleine Wahrscheinlichkeit besitzt und damit in der entsprechenden Stichprobe sehr selten vorkommt. Aus diesem Grund führt man auch bei Zufallsvariablen den Median ein, der mehr im Zentrum der Wahrscheinlichkeitsmasse liegt. Der Zahlenwert p heißt Median (Zentralwert) der Zufallsvariablen X, wenn die beiden gleichwertigen Bedingungen erfüllt sind: a)P(X±
und
P(X>£)>i.
b)P(X O
>
;
P ( X > ( a ) < 1—a .
a) Mindestens 100 a % der Wahrscheinlichkeitsmasse ist auf Werte konzentriert, welche kleiner oder gleich dem a-Quantil sind und mindestens 100 • (1-a) % der Wahrscheinlichkeitsmasse liegt bei den Werten, die größer oder gleich dem a-Quantil sind. b) Höchstens 100 a % der Wahrscheinlichkeitsmasse liegt links vom a Quantil und höchstens 100 • (1—a) % der Wahrscheinlichkeitsmasse rechts vom a-Quantil. Der Median ist das 0 , 5 - Quantil. Es gilt also p = £ 0
5
.
Bestimmung der Quantile aus der Verteilungsfunktion a) Die Verteilungsfunktion F ( x ) besitze an keiner Stelle den Wert a . Dann ist das a-Quantil eindeutig bestimmt. Es ist derjenige Wert der Zufallsvariablen, bei dem die Verteilungsfunktion von unter a auf über a springt. b) Die Verteilungsfunktion nehme an der Stelle x 0 den Wert a an, es gelte also F ( x 0 ) = a . Dann erfüllt jeder Zahlenwert zwischen x 0 und dem nächstgrößeren Wert aus dem Wertebereich W die Bedingungen eines a-Quantils. Alle Werte auf der entsprechenden Treppenstufe könnte man dann als a Quantil wählen. Im allgemeinen wählt man jedoch den Mittelpunkt dieser Treppenstufe, also das arithmetische Mittel der beiden Randpunkte als a Quantil.
142
Kapitel III: Diskrete Zufallsvariable
F(x)J
F(x)J
Bestimmung des Quantiis Z.x aus der Verteilungsfunktion F
Beispiel (Multiple-Choice, s. Kap. II Abschnitt 6 . 4 . 1 ) : Bei dem MultipleChoice-Test beschreibe die Zufallsvariable X die Anzahl der richtigen Antworten, die man durch zufalliges Ankreuzen jeweils einer Antwort erhält. Die Zufallsvariable X besitzt den Median Das 0,25-Quantil lautet £ 0
25
= 1.
Das 0,99-Quantil wurde dort bereits berechnet als £ 0
2.4.
'¡1=1.
99
= 5.
Streuungsparameter
W i e bei Häufigkeitsverteilungen in der deskriptiven Statistik führt man auch für die Verteilung einer diskreten Zufallsvariablen Streuungsparameter ein. Analog zu Kap. I Abschnitt 1.5.3 könnte man die Abstände der Werte x ; vom Erwartungswert /x = E ( X ) oder vom Median p. berechnen und davon den Erwartungswert bilden, also E(|X-H) -
£
l x i — 1*\" P ( X = Xj) ;
E(|X-3)=
£
|X; — p | • P ( X = Xj) .
Diese Streuungsmaße machen zwar Aussagen über die Abweichungen der W e r t e der Zufallsvariablen von dem entsprechenden Lageparameter, sie besitzen aber im Gegensatz zur Varianz kaum Eigenschaften, die für die Anwendungen nützlich sind. Aus diesem Grund ist das am häufgsten verwendete Abweichungsmaß die Varianz bzw. die daraus berechnete Standardabweichung. Dabei zeigt sich wie in der deskriptiven Statistik, daß die Erwartungswerte der Abweichungen E ( | X — u n d E(|X—p |) immer kleiner als die Standardabweichung sind. Mit der Standardabweichung stimmen sie nur dann überein, wenn die Zufallsvariable X nur eine einzige Realisierung besitzt, also bei deterministischen Zufallsvariablen.
Kapitel III: Diskrete
Zufallsvariable
143
2.4.1. Varianz und Standardabweichung Die diskrete Zufallsvariable X besitze die Verteilung (x ; , P(X = Xj)), X; e W und den Erwartungswert ß = E(X). Dann heißt im Falle der Existenz Var(X) = D 2 (X) = c 2 = £
( x ^ ß ) 2 P(X = X;)
die Varianz und die positive Quadratwurzel a chung der diskreten Zufallsvariablen X.
er2 die Standardabwei-
Die Varianz ist gleich dem Erwartungswert der Zufallsvariablen also
(X—ß)2,
Var(X) = E((X—¿i) 2 ) . Nur bei deterministischen Zufallsvariablen verschwindet die Varianz. Durch Umformung erhält man Var(X) = £
(x? - 2/xx; + /x 2 )-P(X = x ; )
= £ x 1 2 -P(X = x i ) - 2 ^ E x i - P ( X = x i ) + i i
ß
2
=ß
= £
x 1 2 -P(X = x i ) -
ß
2
Z P(X = Xj) i =1
.
Damit gilt die für die praktische Rechnung nützliche Formel Var(X) = ' ^ ( X )
'
.
Elementare Rechnung ergibt den Erwartungswert des quadratischen Abstands als Q ( a , ß ) = V a r ( Y ) • ( l - p ) . Damit gilt 2
Die Regressionsgerade von Y bezüglich X lautet: =
' K
- E(X);
ß y
= E(Y) .
heißt Regressionskoefiizient.
Die Steigung ß =
Die geschätzte Zufallsvariable Y hat wegen E ( Y ) = ßy = E ( Y ) den gleichen Erwartungswert wie die Ausgangsvariable Y . Der Erwartungswert des vertikalen Abstandquadrates lautet: Q ( A , ß) = E ( ( Y — Y ) 2 ) = V a r ( Y ) • (1—p 2 ).
Das Bestimmtheit8mafi Das Bestimmtheitsmaß wird ähnlich wie in der beschreibenden Statistik (Kap. I Abschnitt 2.3.1) berechnet mit Hilfe der Zerlegung ( Y - ^ )
2
(Y-//Y)]2
=
[(Y-Y) +
=
(Y-Y)2 +
( Y - ß y )
2
+
2(Y—Y) •
( Y — ß y ) .
Mit Y — Y - Y — ßy — ß(X — ¿¿x) und Y — ßy = ß(X — ß%) erhält man für das gemischte Produkt (Y — Y ) • (Y —
ß y )
=
ß { Y
E ( ( Y - Y) • (Y - py)) =
—
ß y )
• (X —
-
ß-%)
ß
2
(X —
ßy;)2
;
ß- Cov(X, Y ) - ß2 • Var(X) (Cov(X, Y ) ) 2 _
(Cov(X, Y ) ) 2
Var(X)
_
Var(X)
Damit erhält man aus der obigen Zerlegung Var(Y) =
E((Y—//Y)2)
=
E((Y-,I
=
Var(Y)
Y
)2) + E((Y-Y)2) .
+
Varianz der Residuen.
Kapitel
III: Diskrete
Zufallsvariable
161
Division durch Var(Y) ergibt _ ~
Var(Y) Var(Y)
+
Varianz der Residuen _ R , Var(Y) - n+v .
Dabei ist B = tt—tttt das BestimmtheitsmaB. Es stellt den Anteil der Var(Y) durch die Regressionsgerade geschätzten Zufallsvariablen Y an der Gesamtvarianz der Zufallsvariablen Y dar. Wegen _
E((Y-A,y)2) Var(Y)
_ E(/?MX-^x)) ~
Var(Y)
_ ~
Var(X) _ P
' Var(Y) ~
2 P
ist das BestimmtheitsmaB gleich dem Quadrat des Korrelationskoeffizienten der beiden Zufallsvariablen X und Y. U ist das UnbestimmtheitsmaB.
3.8. Regressionsfunktionen Weitere Regressionsfunktionen wie z. B. Regressionsparabeln oder Regressionspolynome können ebenfalls nach der in Abschnitt 3.7 benutzen Methode der Minimierung des Erwartungswertes des Quadrats des vertikalen Abstands, also durch Minimierung von E((Y—Y) 2 ) bestimmt werden. Die in Kap. I Abschnitt 2.3 behandelten Modelle der deskriptiven Statistik können direkt auf Zufallsvariable übertragen werden. Dabei müssen die Parameter der Stichprobe ersetzt werden durch die entsprechenden Parameter der Zufallsvariablen.
4. Mehrdimensionale diskrete Zufallsvariable Durch das Ergebnis u eines Zufallsexperiments sollen gleichzeitig die Realisierungen Xk(w), k = l , 2 , . . . , n von n Zufallsvariablen bestimmt sein. Die n Realisierungen stellen ein n-tupel (Xjfw), X2(w) ,X n (u>))eR n dar. Durch die gemeinsamen Wahrscheinlichkeiten p(x1
= xv x 2 = x 2 ,.... X n = XJJ) = p ( n {« g a\ x h
= xj)
für alle möglichen Wertekombinationen ist die gemeinsame Verteilung der n Zufallsvariablen bestimmt.
162
Kapitel III: Diskrete
Zufallsvariable
Bei der Bestimmung der Randverteilungen für die einzelnen Zufallsvariablen treten (n — 1)-fache Summen auf, die im allgemeinen sehr unübersichtlich sind. In der Regel benutzt man zur übersichtlicheren Darstellung die gemeinsame Verteilungsfunktion F ( X l , x 2 , . . . , x j = P(X x < x 1 ; X 2 < x 2 ,..., X n < x j = P( h { X ( « ) < x j . i=i Läßt man in dieser Funktion n — 1 Variable gegen unendlich gehen, so erhält man die Verteilungsfunktion der einzelnen Zufallsvariablen, also F j ( X l ) = F ( x j ,+00,.... ,+00) , F 2 (x 2 ) = F(+oo, x 2 , +oo,....,+oo), - F n K ) = F ( + o o , . . . , + 0 0 , x n ). Die n Zufallsvariablen X j , X 2 , . . . , X n sind unabhängig, wenn die gemeinsame Verteilungsfunktion gleich dem Produkt der einzelnen Verteilungsfunktionen ist, also für F ( x i , x 2 , . . . , x n ) = F j t x j ) • F 2 (x 2 ) •.... • F n (x n ) . Gleichwertig damit ist bei diskreten Zufallsvariablen die Bedingung P(X x =
Xl,
X 2 = x 2 ,..., X n = x n ) = P ( X j =
Xl)
•
• P(Xn = xn)
für alle möglichen Wertekombinationen.
5. Erzeugende Funktionen Erzeugende Funktionen können nur von Zufallsvariablen berechnet werden, deren Wertevorrat aus nichtnegativen ganzen Zahlen besteht. Falls die ganze Zahl k nicht zum Wertevorrat gehört, setzt man P(X = k) = 0. Damit ist W darstellbar als W = { 0 , 1 , 2 , 3 , . . . . } . Die Zufallsvariable X besitze die Verteilung (k, P(X = k)), k = 0, 1 , 2 , . . . Durch 00
.
G(x) = £ x k • P(X = k) , x 6 R k=o wird die sog. erzeugende Funktion der Zufallsvariablen X definiert. Für |x| < 1 ist |G(x)|
36 sein. Falls p in der Nähe von Null oder Eins liegt, muß für die Approximation n entsprechend größer gewählt werden. Die Zufallsvariable X n ist diskret, die normalverteilte dagegen stetig. Daher benutzt man für ganzzahlige k j , k 2 und k die Stetigkeitskorrektur P(k x < X n < k 2 ) = P(ki - I < X „ < k 2 + I ) ; P ( X n = k) = P ( k - i < X
n
< k + I).
Über die Standardisierung erhält man dann mit der Verteilungsfunktion $ der Standard-Normalverteilung die
174
Kapitel III: Diskrete
Zufallsvariable
globale Approximation für n p (1 — p) > 9 :
$ ist die Verteilungsfunktion der Standard-Normalverteilung. Beispiel (Münzwurf): Eine ideale Münze werde 1000-mal geworfen. Die Zufallsvariable X beschreibe dabei die Anzahl der Wappen mit E(X) = 1000 • ± = 500 ; Var(X) = 1000 • ± • ± = 250. Gesucht ist eine Konstante c mit P(500 — c < X < 500 + c) « 0,95. Die Standardisierung liefert mit Hilfe der Approximation durch die Normalverteilung 0,95 « P ( 5 0 0 - c < X < 500 + c)
V -^25Ü J
V
>1250 )
c+ 05 ^250
~
' Hieraus erhält man den gerundeten Wert c « 30,5.
Damit erhält man P(470 < X < 530) »
-
1 « 0,9463;
P(469 < X < 531) » 2 - < i > Q M j -
1 « 0,9537.
Aus dem Mittelwertsatz der Integralrechnung folgt mit der Dichte der Normalverteilung k+0,5 (u — np) 1 P(X„ = k) « , ~~ 2np(l - p ) d u ^27rnp(l-p) J e ~
1
,e
(k-np) 2 2np(l-p)
Kapitel III: Diskrete
Zufallsvariable
175
Damit gilt die lokale Approximation für n p ( l — p ) > 9 :
(k — np)
für k = 0 , 1 , 2 , . . . ,n.
Wegen dieser Eigenschaft kann das Histogramm der Binomialverteilung für große n durch die Dichte einer Normalverteilung approximiert werden. Dies ist die Aussage des lokalen Grenzwertsatzes. Approximation der Binomialverteilung durch die Poissonverteilung Falls die Wahrscheinlichkeit p klein ist, kann für große n die Binomialverteilung durch eine Poisson-Verteilung approximiert werden (vgl. Abschnitt 7.6). In der Binomialverteilung konvergiere n gegen unendlich und zwar so, daß n p = A immer konstant bleibt. Aus n - » o o folgt dann p —•0. Damit erhält man für die charakteristische Funktionen 4>n(t) der binomialverteilten Zufallsvariablen X n mit p = ^ den Grenzwert lim (peit+l-p)n = n-too n p=A
lim ( l + £ ( e u - 1 ) ) " = n-»oo * '
eA " ( e " - 1 )
Die Folge der charakteristischen Funktionen konvergiert somit gegen die charakteristische Funktion der Poisson - Verteilung mit dem Parameter A. Für große n und kleine p gilt die Näherung (£)-pk-(l-p)n-k
«
T '
e
"
n P
fiirk
= 0,1,2,3,
Diese Approximation ist für n > 50 und p < 0,1 brauchbar .
Darstellung der Binomialverteilung durch die F-Verteilung Die Verteilungsfunktion der Binomialverteilung lautet an jeder ganzzahligen Stelle m F(m,p)=
£
(jj)-pk-(l-p)n"k
für m = 0 , 1 , . . . , n.
Differentiation nach dem Parameter p ergibt
176
Kapitel III: Diskrete Zufallsvariable
=
o
=
m—1 i y üi D k=o k! (n — k — 1)!
=
.
-
- i ) f ( . - k>! ^ - c - p r -
m! (n — m — 1)!
k
d - D ) ^
n
, ~
n m (1—~ 1
P)
H T ^ b r y .
k - 1
m —
m - y ¿ 0
pN'-p)"-
1
-'
_» . , Dkn-Din~k k! (n - k - 1)! P ^
_ 1
*
Nach K a p . I V Abschnitt 5.8.3 läßt sich die Verteilungsfunktion F ( m , p) der Binomialverteilung mit Hilfe der F-Verteilung mit 2 ( m + l ) und 2(n — m ) Freiheitsgraden darstellen. D a m i t gilt allgemein An jeder Stelle m = Binomialverteilung
0 , 1 , 2 , . . . , n gilt für die Verteilungsfunktion der
m / \ i i F ( m , p ) = £ (k)-P - ( l - p ) n _ k=0 d F
(
m
'P)
n!
=
dp
die
m(1 _
m! (n — m — 1)!
U
Darstellung
p )
n-m-l.
P)
F (Vm , p)' = 1 — F 2(m + l ) ; 2 ( n - m ) \ m ( n+ ^l m1 -. P p/y Für die Wahrscheinlichkeiten der Binomialverteilung folgt hieraus P(X = m ) = = F
(m)' Pm "
P) n
_ m
p { n ~ m . ^ _ 2 m ; 2 ( n - m + l ) \ m + 1 1 - pj
F
( n ~ m • p ^ 2(m + 1) ; 2(n - m)\m + 1 1 - p /
für m = 0 , 1 , . . . , n.
7.3.
Die
geometrische
Verteilung
Eine unabhängige Versuchsserie werde so lange durchgeführt, bis das Ereignis A erstmals eintritt. Bei einem Einzelversuch besitze A die Wahrscheinlichkeit p P ( A ) > 0. Die Realisierung der Zufallsvariablen X sei die Anzahl der dazu benötigten Versuche.
Kapitel
III: Diskrete
Zufallsvariable
177
Der Wertebereich W = {1,2,3,....} ist abzählbar unendlich. Nach Kap. II Abschnitt 6.4.2 gilt P(X = k) = p - ( l - p ) k _ 1
für k = 1,2,....
Die Zufallsvariable X heißt geometrisch verteilt mit dem Parameter p. Den Erwartungswert und die Varianz von X berechnet man mit Hilfe der erzeugenden Funktion aus Abschnitt 5. Sie lautet G(x)
=
£ x k p ( l - p ) k _ 1 = p x - f : [x(l-p)]k-1 k=l k=l
= ^ i . ^
1
- " »
1
= - T O
'
Differentiation ergibt r,/vx
_
[l-(l~p)x]-p + p(l-p)x [1-(1-P)x]2
G"(x) =
2p(l-p) [l-(l-p)x]3 '
G'(l) =
J;
G"(l) =
p [l-(l-p)x]2 '
^ I f i
H
P
Daraus erhält man E(X) = G'(l) = _ Var(X) =
_
1i .
G " ( l ) + G'(l) - [G'(l)] 2 = 2 — 2p + p — 1 _ 2
—
p2
+ " r yP
p2
1—p 2
P P Das Ereignis (X > n) tritt genau dann ein, wenn bei den ersten n Versuchen jeweils das Komplement A eintritt, also bei der Serie vÄ, Ä,..., Ä. ' n-mal Damit gilt P(X > n) = ( l - p ) n und F(n) = P(X < n) = 1 - ( l - p ) n , n = 1 , 2 , . . . .
178
Kapitel III: Diskrete Zufallsvariable
Zusammenfassung: Eine mit dem Parameter p geometrisch verteilte Zufallsvariable X mit P ( X = k) = p - ( l — p ) k " 1 für k
1,2,:!,...
besitzt die Kenngrößen Erwartungswert:
E(X)
Varianz:
Var(X)
Verteilungsfunktion:
F(n)
- 1 . P ' 1-P. " P2 ' P ( X < n) = 1 - ( 1 --p) n , n =
1,2,3,...
Beispiel ("Mensch ärgere Dich nicht"): Beim Spiel "Mensch ärgere Dich nicht" darf man erst starten, wenn die erste Sechs geworfen wird. Die Zufallsvariable X, welche die Anzahl der benötigten Würfe beschreibt, ist geometrisch verteilt mit p = g, falls der Würfel ideal ist. Die Wahrscheinlichkeiten lauten: P ( X = 1) = | ; P(X = k-l-1) = P(X = k),k = 2,3,.... In der nachfolgenden Abbildung ist das Stabdiagramm dieser geometrischen Verteilung graphisch dargestellt. Wegen E(X) = 6 muß man im Mittel bis zum Start sechsmal werfen. Die Wahrscheinlichkeit, daß mehr als 10 Würfe benötigt werden, lautet P ( X > 10) =
«
0,1615.
P (X*= k)
0,1 -
0
1
2
I I II
5
10
Stabdiagramm einer geometrischen Verteilung
Mit Hilfe der dritten und vierten Ableitung der erzeugenden Funktion erhält man die Schiefe:
E((X-,)3) 1 ist dieser Faktor kleiner als Eins. Beim Ziehen ohne Zurücklegen ist die Varianz kleiner als beim Ziehen mit Zurücklegen. Diese Eigenschaft ist auch plausibel, da man beim Ziehen ohne Zurücklegen mehr Information über die Grundgesamtheit erhält als beim Ziehen mit Zurücklegen. Beim Ziehen mit Zurücklegen können j a gleiche Elemente öfters gezogen werden. Für n = N verschwindet beim Ziehen ohne Zurücklegen die Varianz. Dabei handelt es sich um eine Totalerhebung, bei der die Realisierung der Zufallsvariablen immer gleich M ist (deterministische Zufallsvariable). Die Erwartungswerte sind für n < N in beiden Modellen gleich. Zusammenfassung: Die Zufallsvariable X sei hypergeometrisch verteilt mit ( M W P ( X = k) =
A
k
N-M \ x~k
für
0 < k < min(n,M)
0 < n—k < N — M ; n < N Dann besitzt X die Kenngrößen Erwartungswert: Varianz:
E(X) = n • M ; Var(X) =
n
• M • (1 - M ) • N-n N—1 "
Vergleich der hypergeometrischen Verteilung mit der Binomialverteilung Bei sehr großen Grundgesamtheiten spielt es kaum eine Rolle, ob ohne oder mit Zurücklegen gezogen wird, da sich ja die Zusammensetzung der Grundgesamtheit nach den einzelnen Zügen kaum ändert. Dann kann die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden. Bei festgehaltenem n gilt nämlich für N—»oo mit M = p fest
lim M=NP
( *I VH N t r k* ) 7 = ( " Y p k - ( l - p ) n - k
V
(2 ) v '
v
y
für k = 0 , 1 , . . . , n.
184
Kapitel III: Diskrete
Zufallsvariable
7.6. Die Poisson-Verteilung Falls in einer Binomialverteilung n sehr groß und p sehr klein ist, können die Wahrscheinlichkeiten der Binomialverteilung durch die einer PoissonVerteilung approximiert werden. Es gilt der Grenzwertsatz für Binomialverteilungen: In der Binomialverteilung konvergiere n gegen unendlich und zwar so, daß n p = A immer konstant bleibt. Aus n—>00 folgt daher p—»0. Dann gilt für k = 0 , 1 , 2 , 3,
Hm ( 2 ) . p k . ( l - p ) n - k = n p=A
Für große n und kleine p gilt somit die Näherung (£)-pk-(l-p)n-k
«
für k = 0 , 1 , 2, 3 ,
Diese Approximation ist brauchbar für n > 50 und p < 0,1. Beweis: Mit p = ^ gilt für jedes k (n).p
k
_ —
.(l-pr
=
k
n C - l M n - ^ D . g ^ . A ) ^
n ( n - l ) . . . ( n - k + l) n-n-...-n
/ k' l
n/
/ _ V
^N-k n/
Für festes k gilt lim ( 1 — ^ ) = 0 für jedes i = 1, 2 , . . . , k — 1. n—»ocA ' lim ( l n—>ocA
'
= 1 und lim ( l n—>ocA
'
= e_A .
Daraus folgt unmittelbar die Behauptung Jim(£)-pk-(l-p)n-k=
§.e~A
np=A Wegen
£ ^ • e_A k=0 k -
=
eA•e~A = 1
für k = 0 , 1 , 2 , 3 , . . . .
Kapitel III: Diskrete Zufallsvariable
185
werden durch P(X = k) =
für k = 0 , 1 , 2 , 3 ,
Wahrscheinlichkeiten einer diskreten Zufallsvariablen X definiert mit dem abzählbar unendlichen Wertebereich W = { 0 , 1 , 2 , 3 , . . . . } . Die Zufallsvariable X mit der Verteilung ^k ,
• e - ^ , k = 0,1,2,3,
heißt Poisson-verteilt mit dem
Parameter A. Sie ist nach dem französischen Mathematiker S. D. Poisson (1781- 1840) benannt. Zur Berechnung der Wahrscheinlichkeiten eignet sich die Rekursionsformel: P(X = k + 1 ) = r ^ T - P ( X = k) für k = 0 , 1 , 2 , . . .
mit P(X = 0) = e _ A .
Die Zufallsvariable X besitzt den Erwartungswert EiX^Ek-fr.e-*
=
e-M
^
= A.
Ferner gilt wegen k 2 = k (k — 1) + k „ E(X2) =
oo ik , oo >k . Ek'.^.e"* = £ (k(k-l)+k)-^--e-A K K k=l " k=l " oo >k . oo \k . = E k(k-l).^-e-A + £ k-p--e K" K" k=2 k=l v =
o oo
e
= E(X) = A
\k—2
"k?2 ( b ) i
„
+
A
=
A2 +
-
A
Hieraus folgt Var(X) = E ( X 2 ) - [E(X)] 2 = A. Bei der Poisson-Verteilung stimmen also Erwartungswert und Varianz überein. Zusammenfassung: Eine mit dem Parameter A > 0 Poisson-verteilte Zufallsvariable X hat die Verteilung (k,^.e-A),k = 0,l,2,3, und die Kenngrößen Erwartungswert:
E(X) = A ;
Varianz:
Var(X) = A.
186
Kapitel III: Diskrete Zufallsvariable
Nach dem obigen Grenzwertsatz kann eine Binomialverteilung mit kleinem p und großem n durch die Poisson-Verteilung mit A = np approximiert werden. Aus diesem Grund beschreibt eine Poisson-Verteilung oft die Häufigkeit, mit der ein bestimmtes Ereignis innerhalb einer bestimmten Zeitspanne eintritt. Meistens handelt es sich dabei um seltene Ereignisse. Daher bezeichnet man die Poisson-Verteilung auch als Verteilung seltener Ereignisse. Der Parameter A hängt dabei von der gewählten Zeitspanne ab. Er wird geschätzt durch den Mittelwert x einer unabhängigen Stichprobe. Viele Zufallsvariable, die in den Praxis vorkommen, sind näherungsweise Poisson-verteilt z. B. - die Anzahl der während einer bestimmten Zeiteinheit an einem Postoder Bankschalter ankommenden Kunden; - die Anzahl der bei einem Gewitter innerhalb von fünf Minuten gezählten Blitze; - die Anzahl der pro Zeiteinheit zerfallenden Atome eines bestimmten spaltbaren Materials; - die Anzahl der während eines Fußballspiels geschossenen Tore. Beispiel: Die Zufallsvariable X der Anzahl der in einer Telefonzentrale zu einer bestimmten Tageszeit während einer Minute ankommenden Anrufe sei Poisson-verteilt mit dem Erwartungswert E(X) = 4,1. Die Wahrscheinlichkeiten lauten dann P(X = k) = ^ - - e "
4
'
1
fürk = 0 , 1 , 2 , 3 ,
Mit P ( X = 0) = e - 4 ' 1 = 0,0166 (gerundet) erhält man mit Hilfe der Rekursionsformel P(X = k + l ) = i ^ - r - e - 4 . 1 die gerundeten Wahrscheinlichkeiten Werte k
0
Wahrscheinlichkeiten 5 0,1600
6 0,1093
0,0166 7 0,0640
1 0,0679
2 0,1393
8 0,0328
9 0,0150
3 0,1904 10 0,0061
4 0,1951 11 0,0023
Die Wahrscheinlichkeit dafür, daß pro Minute mehr als 5 Gespräche ankommen, beträgt P(X > 5) = 1 -
P(X < 5) » 0,2305.
Kapitel III: Diskrete Zufallsvariable
187
Das Stabdiagramm der Verteilung ist in der nachfolgenden Abbildung graphisch dargestellt. P (X = k)
0,2 -
0,1 -
0
1
2
3
4
5
6
7
8
9
10
11
Stabdiagramm einer Poisson-Verteilung
Die Summe zweier unabhängiger Poisson-verteilter Zufallsvariabler ist wieder Poisson-verteilt. Summen unabhängiger Poisson-Verteilungen: X und Y seien unabhängige Poisson-verteilte Zufallsvariable mit den Pametern E(X) = X und E(Y) = fi. Dann ist die Summe Z = X+ Y ebenfalls Poisson-verteilt mit dem Parameter A + ß. Beweis: Der Wertevorrat von Z ist W — {0, 1 , 2 , 3 , gesetzten Unabhängigkeit folgt
}. Aus der voraus-
P(X = k, Y = j) = P(X = k) • P(Y = j) für alle k, j. Für jedes m e W gilt P(X + Y = m ) =
£
P(X = k, Y = j )
k+j=m
m =
£ P ( x = k ) - P ( Y = j) k+j=m
~k=o
k!
(m-k)!
=
-
£ P(X = k)-P( Y = k=0 e
¿0
m - k )
k!-(m-k)! •
Mit der Binomialentwicklung
folgt aus der obigen Gleichung unmittelbar die Behauptung
188
Kapitel III: Diskrete
P(X + Y = m ) =
Zufallsvariable
( A + / | ) r n , e - ( A + ^) fa r m = 0 , 1 , 2 , m!
Die Poisson-Verteilung besitzt die charakteristische Funktion £ k=l
m =
e
i t k . A ^ e. - A 4k!r K"
eAeit-e-A
=
=
_ f = E M k=l
e ^ ' "
1
(^
U
k!
)
C -A
k
)
und die erzeugende Funktion G ( x ) =
g
x
k . £ .
k=l
e
- A
g
=
^
k=l
k!
=
e h
,
e
- »
=
(
»(,..),
k!
Aus der erzeugenden und charakteristischen Funktion folgt unmittelbar das oben direkt bewiesene Additionstheorem für unabhängige Poisson-Verteilungen. Mit Hilfe der Ableitungen der erzeugenden bzw. der charakteristischen Funktion erhält man ebenfalls den Erwartungswert, die Varianz sowie die Schiefe:
E((X-^)3) 3 CT
_
!
>[Ä
und den
2.
Neben der Dichte f ist in der nachfolgenden Abbildung die Verteilungsfunktion F skizziert. F ist überall differenzierbar, da die Dichte f an jeder Stelle stetig ist.
o
1
Verteilungsfunktion
1.3.
Lageparameter stetiger Zufallsvariabler
Die für eine diskrete Zufallsvariable definierten Lageparameter können unmittelbar auf stetige Zufallsvariable übertragen werden.
1.3.1. Der Modalwert einer stetigen Zufallsvariablen Jeder Wert x M o d 6 R, für den die Dichte f(x) maximal ist, heißt Modalwert oder Modus der stetigen Zufallsvariablen X. Der Modus ist im allgemeinen nicht eindeutig bestimmt. Falls die Dichte an der Stelle des Modalwerts stetig ist, besitzen Intervalle mit gleicher, aber sehr kleiner Länge in der Nähe des Modalwerts die größte Wahrscheinlichkeit. Bei kleinem Ax ist die Wahrscheinlichkeit P(x < X < x+Ax) für x = x M o d am
Kapitel IV: Stetige
196
Zufallsvariable
größten, falls f an der Stelle x M o d stetig ist. Die Wahrscheinlichkeitsmasse ist in der Nähe des Modus stärker konzentriert als in anderen Bereichen. Falls es nur einen einzigen Modalwert gibt, heißt die Verteilung eingipflig oder uiiimodal. Bei dem oben behandelten Beispiel der Dreiecksverteilung ist x M o d = 1 der einzige Modalwert. Die Verteilung ist eingipflig.
1.3.2. Der Erwartungswert einer stetigen Zufallsvariablen Die Zufallsvariable X besitze die Dichte f (x). Dann heißt +°o // = E ( X ) =
xf(x)dx — oo
der Erwartungswert von X, falls das Integral absolut konvergiert, also für +oo | |x| • f (x) dx < oo . — oo Falls die Dichte f ( x ) außerhalb eines beschränkten Intervalls verschwindet, also bei beschränktem Variationsbereich, existiert der Erwartungswert immer. Die absolute Konvergenz des Integrals muß nur für solche Zufallsvariable gefordert werden, bei denen der Variationsbereich nicht beschränkt ist. Die Bedingung der absoluten Konvergenz ist genau dann erfüllt, wenn gilt +00
- oo x f ( x ) d x < oo und
o
0
xf(x)dx = — j o
x f ( x ) d x < oo.
- oo
Die absolute Konvergenz des Integrals hat zur Folge, daß das Integral +oo x f ( x ) d x immer den gleichen endlichen Wert ergibt, unabhängig davon, — oo in welcher Reihenfolge Integrationswege zusammengefaßt werden. Beipiel:
fix) = i 10
^ —x — sonst
Sie besitzt den Erwartungswert E(X) = J 2 x 2 d x = | . 6 0
¡ s t Dichte einer Zufallsvariablen X.
Kapitel IV: Stetige Zufallsvariable
197
Beispiel (Cauchy-Verteilung; Zufallsvariable ohne Erwartungswert): Die Dichte der Cauchy-Verteilung lautet +00 1 f(x) = 7T(1+X2) Es gilt +00
x eR
mit
f ( x ) d x = 1.
+00 xf(x)dx U
,1 -dx = lim i - f - ^ j d x a-00 J l-f"X 7T(Hx 2 )t U
= ¿ - l i m ( l n ( l + a 2 ) - l n l ) = 00 .
• dx = — 00 .
Entsprechend ist
Daher besitzt die Zufallsvariable X mit dieser Dichte f(x) keinen Erwartungswert. Die Funktion x • f (x) ist ungerade. Daher gilt für jedes a > 0 +a
+a xf(x)dx
=
7r(l+X )
dx =
0.
Damit erhält man zwar den sog. Cauchyschen Hauptwert des Integrals als +a lim a—»00
ir(l+x')
dx
=0.
Dieser Hauptwert kann jedoch nicht der Erwartungswert der Zufallsvariablen X sein, da eine andere Zusammensetzung des Intergrationsweges einen anderen Integralwert ergibt, z. B. +2a lim . a—»oo _J
a x
„ dx = 00 und lim 7r(l+x ) a—»00
•2a
7T(1+X2
• dx = — 00.
Interpretation des Erwartungswertes Das entsprechende Zufallsexperiment werde sehr oft unabhängig durchgeführt, wobei die Realisierungen der Zufallsvariablen X zu einer Stichprobe x zusammengefaßt werden. Dann gilt für das arithmetische Mittel x dieser Stichprobe für große n die Näherung x ss E(X) .
198
Kapitel IV: Stetige
Zufallsvariable
Funktion einer stetigen Zufallsvariablen Es sei y = g (x) eine reelle Funktion. Durch Y = g (X) wird eine Zufallsvariable Y erklärt, falls für jedes y e R das Ereignis {LJ e fi| g (X(w)) < y} eine Wahrscheinlichkeit besitzt. Dann lautet die Verteilungsfunktion von Y G(y) = P(Y < y) = P ( { u e Q\ g(X(«)) < y}) . Die Zufallsvariable Y = g(X) muß nicht stetig sein. Falls z. B. die Funktion g(x) auf A C R mit P(X € A) > 0 konstant ist, ensteht durch eine solche "Zusammenfassung" ein diskreter Anteil der Zufallsvariablen Y. Allgemein muß Y = g(X) weder stetig noch diskret sein. Sie kann aus einem diskreten und stetigen Anteil zusammengesetzt sein (vgl. Kap.V Abschnitt 1). Transformationssatz: Die Zufallsvariable X sei stetig mit der Dichte f(x). Ferner sei die Funktion y = g (x) im Variationsbereich von X stetig differenzierbar und stelle dort eine eineindeutige Transformation dar. Dies ist z. B. der Fall, wenn g (x) stückweise streng monoton ist. Dann besitzt die Zufallsvariable Y = g(X) die Dichte f(g_1(y))-
dg-1(y) dy
f(h(y))-[h'(y)|
mit der Umkehrfunktion x = h (y) = g
x
(y) • y = g(x).
Die Zufallsvariable Y = g(X) besitzt genau dann einen Erwartungswert und zwar E(Y) = E(g(X)) = | g ( x ) f ( x ) d x , falls dieses Integral absolut konvergiert mit +oo | g ( x ) | - f ( x ) d x < 00 .
Beweis: Im Intervall [xj,x 2 ] sei g'(x) ^ 0. Dann erhält man mit Hilfe der Substitution y = g ( x ) ; yi = g K ) ; y 2 = g(x 2 ) ; X = g _ 1 ( y ) = h(y) ; dx = h'(y)dy x y 2 2 P(x x < x < X2) =
f(x)dx =
f(h(y))-h'(y)dy .
Kapitel IV: Stetige
Zufallsvariable
199
a) Im Intervall [xj,x 2 ] sei g'(x) > 0. Dann ist auch h'(y) > 0 und y 2 > y j mit f(h(y))-h'(y)dy =
P(yi 0
1 y-a E-fiV5)
f«
b b .
F(x) ist eine Verteilungsfunktion mit F(a) = 0 und F(b) = 1. Man nennt sie eine gestutzte Verteilungsfunktion. Die Zufallsvariable X, welche die Verteilungsfunktion F mit F(x) = P ( X < x) besitzt, heißt gestutzte Zufallsvariable. Sie besitzt die gestutzte Dichte f(x) f(x)
=
F(b)-F(a) 0
für a < x < b sonst.
Der Wertebereich der gestutzten Zufallsvariablen X ist das abgeschlossene Intervall [a,b]. Die gestutzte Dichte entsteht aus der Ausgangsdichte f(x) dadurch, daß sie außerhalb der Ränder gleich Null gesetzt und sonst mit F(b) ^ F(a) wird. Dann besitzt die von f(x) und der x-Achse eingeschlossene Fläche den Inhalt Eins. Mit b = oo und F(oo) = 1 erhält man eine Verteilung, die an der Stelle a nur einseitig nach unten gestutzt ist. Der Wertebereich der an der Stelle a nach unten gestutzten Zufallsvariablen X ist das Intervall [a,oo). Sie besitzt die
212
Kapitel
IV: Stetige
Zufallsvariable
nach unten gestutzte Verteilungsfunktion
F(x) =
P ( X < x| a < X )
=
für x < a ,
0 F(x)-F(a) l-F(a)
für x > a
und die nach unten gestutzte Dichte
f(x)
=
0
für x < a ,
f(x) l-F(a)
für x > a .
Eine an der Stelle b nur nach oben gestutzte Verteilung erhält man mit a = — oo und F( — oo) = 0. Der Wertebereich der an der Stelle b nach oben gestutzten Zufallsvariablen X ist das Intervall ( —oo,b]. Sie besitzt die nach oben gestutzte Verteilungsfunktion
F(x) =
P ( X < x| X < b)
=
F(x) F(b)
für x < b ,
1
für x > b
und die nach oben gestutzte Dichte
f(x)
=
f(x) F(b)
für x < b ,
1
für x > b .
In der nachfolgenden Abbildung sind zwei- und einseitig gestutzte Dichten dargestellt.
Zweiseitig gestutzte Dichte
Kapitel IV: Stetige Zufallsvariable
213
f(x)
Linksseitig gestutzte Dichte
Rechtsseitig gestutzte Dichte
Erwartungswert und Varianz einer beidseitig gestutzten Zufallsvariablen X lauten b 1 E(X) = xf(x)dx ; F(b) - F ( a )
Var(X)
1 F(b) - F ( a )
( x - E ( X ) ) f(x)dx
1 F(b)-F(a)
x 2 f ( x ) d x - [E(X)] 2 = E(X 2 ) - [E(X)] 2 .
Entsprechend erhält man die Parameter der einseitig gestutzten Verteilungen.
1.6. Mischverteilungen Ein bestimmter Abfüllvorgang werde von zwei verschiedenen Maschinen durchgeführt, die nicht gleich gut arbeiten. Die Zufallsvariable der Füllmenge besitze bei der ersten Maschine die Verteilungsfunktion F j ( x ) und die Dichte f j ( x ) , bei der zweiten Maschine dagegen F 2 (x) und f 2 (x). Die erste Maschine fülle u i j % der Gesamtproduktion, die zweite Maschine den Rest ab. Die abgefüllten Produkte werden gemischt, so daß nicht mehr feststellbar ist, von welcher der beiden Maschinen der Abfüllvorgang durchgeführt wurde. Die Zufallsvariable X beschreibe die Füllmenge eines zufällig aus der Gesamtmenge ausgewählten Produkts. Aj sei das Ereignis, daß die Abfüllung eines zufallig ausgewählten Produkts von der i-ten Maschine durchgeführt wurde mit a
l =
P(Aj) = ^
; a 2 = P(A 2 )
=
214
Kapitel IV: Stetige
Zufallsvariable
Mit der vollständigen Ereignisdisjunktion Aj, A 2 erhält man aus dem Satz von der vollständigen Wahrscheinlichkeit die Verteilungsfunktion F der Zufallsvariablen X in der Form F(X) = P(X < x) = P(X < x| Aj) • P(Aj) + P(X < x| A 2 ) • P(A 2 ) =
a
i F i ( x ) + a2F2(x) •
Wegen a^ + a 2 = 1 ist die Verteilungsfunktion F(x) der Mischung gleich der mit den Mischungsverhältnissen gebildeten Linearkombination der beiden einzelnen Verteilungsfunktionen. Hieraus erhält man die Dichte der Mischung als f(x) = a j f j ( x ) + a 2 f 2 ( x ) , a j > 0, a 2 > 0, a j + a 2 = 1. Eine Verteilung mit einer solchen Dichte nennt man Misch Verteilung von zwei stetigen Verteilungen. Im nachfolgenden Bild ist die Dichte einer Mischverteilung zweier Normalverteilungen dargestellt. Sie ist im Gegensatz zu den beiden Ausgangsverteilungen zweigipflig.
Mischungen zweier Normalverteilungen
Diese Mischung von zwei Komponenten kann unmittelbar auf n Komponenten übertragen werden. Gegeben seien die Dichten f; (x) mit den zugehörigen Verteilungsfunktionen Fj(x) von n stetigen Zufallsvariablen X ; für i = 1,2,... ,n. Dann heißt n
f(x)
=
n
£ ai^i(x) aj > 0 und ^ ¡ = 1 i=l i=l Dichte einer Mischverteilimg und die zugehörige Verteilungsfunktion F(x) =
t *iFi(x) i—1
Verteilungsfunktion einer Mischverteilung.
Kapitel IV: Stetige Zufallsvariable
215
Die Zufallsvariablen X ; sollen den Erwartungswert //j = E ( X ; ) und die Varianz 0 erhält man definitionsgemäß die bedingte Wahrscheinlichkeit . , _ t-wr ~ , P ( Y < y | x < X < x + Ax)
=
Pix < X < x + Ax, Y < y) I p 7 < x X < x + ' A X ) x+Ax y
f(u,v)dvdu x+Ax
fj(u)du Falls die Dichte f (u,v) an der Stelle x stetig ist mit f j ( x ) ^ 0, folgt hieraus nach der Regel von Bernoulli-L'Hospital und dem Mittelwertsatz der Integralrechnung mit dem Grenzübergang Ax—>0 die Beziehung f(x,v)dv F(y|X = x) = lim P ( Y < y| x < X < x + Ax) = • Ax—»0
y
fi(x)
f(x, v ; fl(x)
dv.
Für f : ( x ) ^ 0 heißt die so definierte Funktion F(y|X = x) = P ( Y < y|X=x) die bedingte Verteilungsfunktion von Y unter der Bedingung (X = x). Bei festem x stellt sie eine Verteilungsfunktion dar. Ihre Dichte f(y|x) = ^ .' .
heißt bedingte Dichte von Y unter der Bedingung (X = x).
Entsprechend ist im Falle der Existenz F(x|Y = y ) = =
P(X0
=
f ( " . y ) du f 2 (y)
die bedingte Verteilungsfunktion von X unter der Bedingung (Y = y) und f(x|y) =
f (x, y) .' . die bedingte Dichte von X unter der Bedingung (Y = y). t2(.y)
Definitionsgemäß gilt y F 2 ( y ) = P ( Y < y) =
y f 2 (v)dv =
+00
[ f(x,v)dxdv
Kapitel IV: Stetige Zufallsvariable
+00
(
1
y
+oo -oo
I
y
225
Ì
f(x,v)dv>dx = - oo
)
oo
+oo
=
F(y|X = x ) . f 1 ( x ) d x . - oo
Entsprechend erhält man +oo F ^ x ) = P(X < x) =
F(x|Y = y ) . f 2 ( y ) d y .
Zusammenfassung: Die zweidimensionale stetige Zufallsvariable (X,Y) besitze die gemeinsame Dichte f ( x , y ) und die Randdichten fj(x) bzw. f 2 (y). Ferner seien P ( Y < y | X = x) =
f(x,v) dv fi(x)
und P(X < x | Y = y) =
f ( u . y ) du f 2 (y)
die bedingten Verteilungsfunktionen. Dann gilt +oo F ^ x ) = P(X < x) = | P(X < x | Y = y) • f 2 ( y ) d y ; - oo +oo F2(y)=
P(Yy)dxdy
~
^x
'
+00
y«
J
f(x>y)d
dy
- 00 - 00
= f 2 (y) +00 -
ßY
H
+00
+OO +OO f(x,y)dy
dx +
ßxßx
~ 00
f(x, y)dxdy
- 00 - 00
=1
= f x (x) +00 +00
xyf(x,y)dxdy-^Y
=
E(X • Y) — E(X) • E(Y) .
Damit gilt auch für zweidimensionale stetige Zufallsvariable Cov(X, Y ) = E ( X - Y ) - E(X) • E(Y). Entsprechend erhält man Cov(aj + b j X , a 2 + b 2 Y) = bj • b 2 • Cov(X, Y ) für a j , a 2 , bj , b 2 e IR ; C o v ( X j + X 2 , Y ) = Cov(Xj , Y ) + Cov(X 2 , Y ) ; C o v i X . Y ^ Y ^ = Cov(X, Y j ) + C o v ( X , Y 2 ) . Der Korrelationskoeffizient p der beiden Zufallsvariablen ist definiert durch p=p(X,
Y) =
Cov(X, Y) ^Var(x)->[VS(Y)
T
X Y X ' aY
für cr x , (Ty > 0.
Beispiel (Stabproblem I, vgl. Abschnitt 2.2): Beim Stabproblem I sind im Modell A die beiden Zufallsvariablen X j und Y j unabhängig. Damit gilt c o v i X ^ Y , ) = pCX^Yj) = 0. Beim Modell B besitzen die beiden Zufallsvariablen X 2 und Y 2 die gemeinsame Dichte . . . _ (2 für 0 < x < y < 1 HX,yJ " 10 sonst
239
Kapitel IV: Stetige Zufallsvariable
und die beiden Randdichten m _ / 2 ( 1 - X ) W - I O
für 0 < x < 1 sonst '
_ / 2 y für 0 < y < l W - \ 0 sonst 1 9 sowie die Erwartungswerte E ( X 2 ) = j und E ( Y 2 ) = j . Aus
f
E(X*) =
J 2X (1 — x)
f M
X—1
= 2x__iY4 3 2
2
o
= i; x=o — 6
E ( Y * ) = J2y 3 dy
=
i
folgt Var(X2) = I - l
E(X2-Y2)=
= i ;
Var ( Y 2 ) =
f 2 x y d y l>dx =
j
= i . 9 ~ 18
2 1
2 x x
. f I _ x i W \2 2/
1 - 1 = 1 2 4 4'
=
Daraus erhält man COV(X2,Y2) o ( X
) -' Y 2/
= 1/36 1/lg
E(X2 • Y 2 ) — E(X2) • E(Y2) --
1 2
=
1-1.2
=
'
W i e bei diskreten gilt auch bei stetigen Zufallsvariablen p(a 1 + b 1 X , a 2 + b 2 Y ) =
=
±p(X,Y)
für a x , a 2 , b j , b 2 e R, b j , b 2 ^ 0. Dabei steht + für b j • b 2 > 0
und — für bx • b 2 < 0.
Die in Kap. III Abschnitt 3.6 angegebene Abschätzung für den Korrelationskoeffizienten kann dierekt übernommen werden, da sie nur die Linearität des Erwartungswertes benutzt. Für die Standardisierungen X * = ,),
x 2 ( w ),..., X
» )
€ G } ) = j . . . | f ( x „ x 2 ,..., x j dx 1 dx 2 ...dx n . G
Die gemeinsame Wahrscheinlichkeit muß für jeden Quader erklärt sein durch b
i
n
P(aj < X j < b 1 , . . . , a n < X n < b n ) = für alle a ; < b; , i = l , 2 , . . . , n .
f(Xl,x2,...,xjdxjdxj-.dx,, ai
Aus der Dichte erhält man die Verteilungsfunktion der n-dimensionalen Zufallsvariablen ( X j , X 2 ,..., X n ) F(X1,X2, x
3
,...,xj =
P(X
1
b .
=
0
a
b
Verteilungsfunktion
a -t- b Wegen der Symmetrie der Dichte f zurAchse s = —^— sind Erwartungswert fi und Median ß gleich mit E
=
p = ? = ^
.
Ferner erhält man das k-te zentrale Moment als
E x
(( -")k) = b M ( * - ^ ) k d x a
1 b-a
1 k+:
1 b-a
1 A> — a k+1 | V 2
rrK-^r
X—b
Mk+1
r -
+
in — h\ Für ungerades k gilt (—g-SJ das zentrale Moment.
(b — n\
= ( g
L\k+1
( 2
1
)
)
+
M •
diesem Fall verschwindet
/u _ \ k+1 =
—
1 g
)
' Dann lautet das zentrale Mo-
ment E((X-^)k)= Somit gilt allgemein
jiy (
für gerades k.
F f i (^T^)11 0
k = 2 ergibt die Varianz Var(X) =
für
serades
k
;
für ungerades k. (b — a")2 —^
250
Kapitel IV: Stetige
Zufallsvariable
Zusammenfassung: Eine in [a, b], a < b gleichmäßig verteilte Zufallsvariable X besitzt die Kenngrößen ~ a+ b Erwartungswert und Median: E(X) = u = ; 2 Varianz:
Var(X) =
zentrale Momente:
E^(X —
=
0 J I t=o 0 ist f (t) tatsächlich Dichte. Die Verteilungsfunktion lautet , . _ / 0 "( l-e-
F ( t )
A t
für t < 0 , für t > 0 .
Kapitel IV: Stetige Zufallsvariable
253
M i t der partiellen I n t e g r a t i o n erhält m a n den Erwartungswert E(T)
=
Ate
dt =
_ i u
te"*
-
4
+
Ì e -
1 A '
A t
N o c h m a l i g e partielle I n t e g r a t i o n ergibt hiermit E(T2)
=
t-Ate
- A t
dt
±te~
+
+
A t
t e
-
A t
+ i e -
A t
dt
= 0
A
+
A
2e
+
A
2_
2e
A2'
Hieraus folgt Var(T)
=
E ( T 2 ) - [E(T)]2
=
i
Die D i c h t e f n i m m t an der Stelle t = 0 den größten W e r t an. D a h e r ist der Modalwert
t jyj o d
Den Median l - e " * ?
Für A =
ß =
=
0.
erhält m a n aus der Verteilungsfunktion durch i
; e -
A
?
=
i
;
- A ? =
In ( I ) =
- In2 ; ß =
0 , 5 ; 1 und 2 sind die Dichten in der nachfolgenden
graphisch dargestellt.
^
Abbildung
254
Kapitel IV: Stetige Zufallsvariable
Dichten von Exponentialverteilungen
Eigenschaften der Exponentialvertcilung Für jedes t und h > 0 folgt aus der Definition der bedingten Wahrscheinlichkeit t+h jA-e-Audu P(t < T < t + h) _ t P(Tt) _ " P(T>t) ~ l-F(t) t+h j A - e- - AA uu dj u l+h t J A - e - A ( t + u)du = A t eMit der Substitution t + u = v, du = dv, geht dieses Integral über in h \ Vdv J" A • e = P(0 < T < h ) = F ( h ) - F ( 0 ) . o Damit gilt für eine exponentialverteilte Zufallsvariable T
P(Tt)
=
P(0 < T < h)
für jedes h > 0
und t > 0.
Kapitel IV: Stetige Zufallsvariable
255
Falls die Zufallsvariable T die Lebensdauer eines Geräts oder eines Maschinenteils beschreibt, besagt diese Gleichung folgendes: Beim Erreichen eines jeden Alters t ist die bedingte Verteilung der weiteren Lebensdauer gleich der Verteilung der Lebensdauer eines neuen Geräts. Die bedingte Verteilung der weiteren Lebensdauer ist also unabhängig vom erreichten Alter. Bei solchen Geräten findet somit keine Alterung statt. Mit h = At > 0 geht die obige Gleichung über in • f T < . + A.| T > t) =
:P
"^
| '„ + '"> =
F
" t _A'f>( - " " • F(A.) - HO)-
Division durch At ergibt F(t + At) - F(t) At[l — F(t)]
_ F(At) - F(0) ~ At
Grenzübergang At—»0 liefert F'(t) l_F(t)
_
f(t) = F'(0) = f(0) = A . l-F(t)
Dabei ist F'(0) = f(0) die rechtsseitige Ableitung. Umgekehrt ist jede nichtnegative Zufallsvariable T mit einer stetigen Dichte, welche diese Differentialgleichung erfüllt, exponentialverteilt. Zum Beweis dafür nehmen wir an, die Zufallsvariable T besitze die Verteilungsfunktion G(t) mit G(0)= 0 und der stetigen Dichte g(t) = G'(t) mit T=G(t) =
g(0)
=
A
'
Integration ergibt für t > 0
îi^foH"-
o Wegen G(0) = 0 erhält man hieraus — Infi — G(t)] = A t mit der Lösung G(t) = 1 - e
- A t
für t > 0.
Da die Zufallsvariable T nichtnegativ ist, gilt G(t) = 0 für t < 0. Damit ist die Behauptung bewiesen. Für kleine At gilt für eine exponentialverteilte Zufallsvariable T die Näherung
2 56
Kapitel IV: Stetige
Zufallsvariable
™ » x P ( t < T < t + At|T>t) -
P ( t < T < t + At) P(T>t)
Ä
A
"At-
Die Wahrscheinlichkeit dafür, daß die Realisierung der Zufallsvariablen T im nachfolgenden Intervall der Länge At eintritt, ist bei kleinen At ungefähr proportional zur Länge At. Dies ist eine typische Eigenschaft der Exponentialverteilung. A ist die konstante zeitunabhängige Ausfallrate. Auf Grund dieser Eigenschaft sind viele Zufallsvariable wenigstens näherungsweise exponentialverteilt. Beispiele dafür sind: — die Lebensdauer (Betriebsdauer) elektronischer Geräte, die kaum einem mechanischen Verschleiß ausgesetzt sind — die Dauer von Telefongesprächen — die Differenz der Ankunftszeiten zweier nacheinander an einem Bankschalter ankommenden Kunden. Die Exponentialverteilung spielt in der Theorie der Warteschlangen eine wichtige Rolle. Charakteristische Funktion der Exponentialverteilung Da die Realisierungen der Zufallsvariablen T mit t bezeichnet wurden, sei u die Variable in der charakteristischen Funktion. Sie lautet +00 =
+00
eiutA-e-Atdt = A
e
-(A-iu)t
d t
0 _ A _ e - ( A - i u ) t |t=oo I t=o A — iu
_
A — iu '
Differentiation ergibt
*' = T T^; (A — 1 u) ,¿,00(0) =
Ak
= ik-E(Tk)
=
(A — 1 u)
für k = 1 , 2 , 3 , . . . .
Hieraus erhält man die Momente E(T k ) = M A
;+
für k = 1 , 2 , 3 , . . . .
Kapitel IV: Stetige Zufallsvariable
257
Durch elementare Rechnung erhält man die Schiefe:
A3-e((T-±)3)
=
2
A4-E((T-±)4)
- 3
=
und den Exzeß:
Summen
6.
n
T j unabhängiger mit dem gleichen Parameter A exponentiali=l verteilter Zufallsvariabler sind Erlang-verteilt (s. Abschnitt 5.4). Für A = i ist diese Summe Chi-Quadrat-verteilt mit 2n Freiheitsgraden (s. Abschnitt 5.8.1). Zusammenfassung: Eine mit dem Parameter A > 0 exponentialverteilte Zufallsvariable T besitzt die Kenngrößen: Erwartungswert:
E(T) = I ;
Varianz:
Var(T) =
k-tes Moment:
E(T K ) =
Schiefe = 2 ;
ExzeS = 6 .
Median:
£ = ^
Modalwert: t M o d ^
; =
für k = 1 , 2 , 3 , . . . .
5.3. Die Gammaverteilung Eine Zufallsvariable T mit der zweiparametrigen Dichte
{ 0
A ,tn-i.e-At T(n) heißt gammaverteilt. Dabei ist
für t < 0; für t > 0; A , n > 0
oo r(n) =
|un-1-e-udu
o die Gammafunktion. Dabei muß n nicht ganzzahlig sein.
0;
258
Kapitel IV: Stetige Zufallsvariable
Mit der Substitution u = At, du = Adt, geht dieses Integral über in oo r(n) = j A n - t n - 1 - e - A t d t . 0
oo J" f (t) dt = 1 . 0 Für n = 1 ist die Gammaverteilung die in Abschnitt 5.2. behandelte Exponentialverteilung. Die charakteristische Funktion der Gammaverteilung lautet Daher ist f ( t ) tatsächlich eine Dichte mit
v>(u)=
j V - ^ - ^ - ' ^ d t . o (A — iu)t = x, (A — iu)dt = dx geht dieses Integral
Mit der Substitution über in
oo ^
0 Differentiation ergibt
*»(») =
B i ^ ^ - i u ) - " -
2
.
=
•
Die k-te Ableitung lautet allgemein *«(„)
=
^(k)(0)
=
+
ju)—'"
mit -k. n - ( n + l ) - . . . - ( n + k - I ) Ak
=
,k
^
Zusammenfassung Eine mit den Parametern n und A gammaverteilte Zufallsvariable T besitzt die Kenngrößen: k-te. Moment : E ( T k ) = " ' ( » + 1 ) • •••• (n + k - 1) f ü r A Erwartungswert:
E(T) = ^ ;
Varianz: Var(T) = \
.
k =
1,2,3,...
Kapitel IV: Stetige Zufallsvariable
259
5.4. Die Erlang-Verteilung Die Zufalls variablen T j , T 2 ,... , T n seien unabhängig und alle mit dem gleichen Parameter A exponentialverteilt . Dann heißt die Summe T
=
t T; ¡=1
Erlang-verteilt mit den Parametern n und A. Nach Abschnitt 5.2 besitzen die Zufallsvariablen T ; die charakteristische Funktion ^T.(u) =
X3H
fÜri
=
1
'2'-'n-
Wegen der Unabhängigkeit ist die charakteristische Funktion der Summe T gleich dem Produkt der einzelnen charakteristischen Funktionen, also
• x W - ( A ) " = ('-*)""• Dies ist aber gerade die charakteristische Funktion der Gamma-Verteilung aus Abschnitt 5.3 mit ganzzahligem n. T(n) = (n — 1)! ergibt die Dichte der Erlang-Verteilung 0
für t < 0 ,
, " , •t (n-1)! A
n - 1
-e
_ A t
für t > 0; A , n > 0 .
Die Verteilungsfunktion lautet für F„(t)
=
1 -e
+ .... +
-At
(At)"
t < 0
für t > 0
Die Kenngrößen erhält man aus Abschnitt 5.3 E(T) =
a ;
Var(T) =
iL .
Für A = i ist die Erlang-Verteilung eine Chi-Quadrat-Verteilung mit 2n Freiheitsgraden (s. Abschnitt 5.8.1).
260
Kapitel IV: Stetige
Zufallsvariable
5.5. Allgemeine Lebensdauerverteilungen Die Zufallsvariable T beschreibe eine Lebensdauer. Sie besitze die Verteilungsfunktion P ( T < t) = F (t) mit F(0) = 0. F(t) sei mit Ausnahme der Stelle t = 0 überall stetig differenzierbar mit der Dichte F'(t) = f(t). Im Punkt 0 existiere die rechtsseitige Ableitung f(0). In der Darstellung in Abschnitt 5.2 der Exponentialverteilung soll anstelle der Konstanten A > 0 eine beliebige nichtnegative, integrierbare Funktion a ( t ) gewählt werden mit t lim a(u)du = oo . t-»oo J o Damit erhält man für die Verteilungsfunktion F(t) die Bedingung
Die Funktion a(t) heißt Ausfallrate. Bei einer Exponentialverteilung (Abschnitt 5.2) ist die Ausfallrate konstant, also a(t) = A für alle t. Falls ein Ausfall zum Zeitpunkt t noch nicht stattgefunden hat, ist die Wahrscheinlichkeit dafür, daß der Ausfall im nachfolgenden Zeitintervall der Länge At stattfindet, ungefähr gleich a(t) • At. Mit At—»0 erhält man aus der obigen Gleichung die Differentialgleichung
F(0) = 0 ergibt
o mit der Lösung F(t) =
t
- Ja(u)du 1—e 0 für t > 0 und F(t) = 0 f ü r t < 0 .
Häufig wird die Funktion a (t) = A + ß • e 7 4 mit 7 > 0 ; A , ß > 0 verwendet. Mit ihr erhält man die Verteilungsfunktion der Lebensdauer
Kapitel IV: Stetige Zufallsvariable
0 F(t)
=
261
für t < 0 ,
— At - j (7 e "
1—e
r t
-i)
für t > 0 .
ß = 0 ergibt als Spezialfall die Exponentialverteilung. Die Funktion a(t) = A +
• t 7 , A > 0, ß >0,
7 > - 1
ergibt die Verteilungsfunktion 0 F(t) =
0 .
Für X = 0 erhält man die in Abschnitt 5.6 behandelte Weibull-Verteilung
5.6. Die Weibull-Verteilung Eine stetige Zufallsvariable T heißt Weibull-verteilt mit den Parametern 6 > 0 und r/ > 0, falls sie die Verteilungsfunktion F(t)
=
für t < 0,
0 l-e
- 6 1
''
für t > 0
und die Dichte
) 0
für t < 0,
¿ 7 ? t , ' - 1 - e - , 5 t " für t > 0 besitzt. Weibull-Verteilungen treten häufig bei der Untersuchung von Ermüdungserscheinungen bei Werkstoffen auf. Mit Hilfe der Substitution )) < y } eine W a h r s c h e i n l i c h k e i t besitzt. D a n n lautet die Verteilungsfunktion von Y G(y) = P ( Y < y) = P ( { w
€
ß| g(X(w)) < y}) =
dF(x).
W s ( x j < y} F a l l s Y = g ( X ) eine Z u f a l l s v a r i a b l e ist, gilt allgemein der Funktionssatz: Die Z u f a l l s v a r i a b l e X besitze die V e r t e i l u n g s f u n k t i o n F ( x ) .
Ferner sei
y = g ( x ) eine solche reelle Funktion, d a ß Y = g ( X ) eine Zufallsvariable ist. D a n n besitzt die Z u f a l l s v a r i a b l e Y = g ( X ) tungswert und zwar
genau d a n n einen Erwar-
+00
E(Y) = E(g(X)) = J
g(x)dF(x),
— 00
falls dieses Integral a b s o l u t konvergiert mit +00
|
|g(x)|dF(x) ^ ) =
=
für b > 0 ,
, y - a N l - F ^ ^ - ^ - O j f ü r b < 0.
der linksseitige G r e n z -
wert. F a l l s X den E w a r t u n g s w e r t ¿1 = E ( X ) und die V a r i a n z er2 = V a r ( X ) besitzt, erhält m a n aus d e m F u n k t i o n s s a t z die K e n n g r ö ß e n
308
Kapitel V: Allgemeine
Zufallsvariable
Erwartungswert:
E(a + b X )
Varianz:
Var(a + b X ) = b 2 • Var(X)
= a + b-E(X); für a , b e R.
Symmetrische Verteilungen Eine Zufallsvariable X heißt symmetrisch verteilt zum Symmetrie-Punkt s, wenn die beiden Zufallsvariablen X — s und — (X — s) = s — X die gleiche Verteilungsfunktion besitzen. Diese beiden Verteilungsfunktionen lauten P ( X — s < y) =
P ( X < s + y) =
F(s + y)
P( — X + s < y) = P ( X > s — y) = 1 - P(X < s - y) =
l - F ( s - y - O ) = l - F ( s - y ) + P(X = s - y ) .
Durch Gleichsetzen der beiden Verteilungsfunktionen erhält man die Symmetrie-Bedingung F(s - y) - P ( X = s - y) = 1 - F(s + y) für jeden Werte y e R . Wenn eine symmetrisch verteilte Zufallsvariable einen E ( X ) besitzt, folgt aus E ( X - s) = - E(X - s) = 0 0 =
Erwartungswert
E ( X ) - s , also E(X) = s .
Falls eine symmetrisch verteilte Zufallsvariable einen Erwartungswert besitzt, stimmt der Erwartungswert mit der Symmetrie-Stelle überein. Wie bei diskreten und stetigen Zufallsvariablen gelten auch hier im Falle der Existenz der Erwartungswerte und Varianzen die Eigenschaften des Erwartungswertes: E(X + Y) = E(X) + E(Y)
(Additivität des Erwartungswertes);
E(aX + bY) = a-E(X) + b-E(Y) E(
/
n
\
n
5ZXiJ= 1=1
1=1
füra,beR (Linearität des Erwartungswertes);
E(Xj), falls die einzelnen Erwartungswerte E(X ; ), i = 1 , 2 , . . . , n existieren.
Var(X + Y ) = Var(X) + Var(Y) + 2 • Cov(X,Y) , X und Y beliebig; Var(X + Y ) = Var(X) + Var(Y) für unabhängige (unkorrelierte) X ,Y; Var(
n 1=1
Xj) =
n 1=1
Var(Xj), falls X 1 ; X 2 , . . . , X n paarweise unabhängig (unkorreliert) sind;
Cov(X,Y) = Kovarianz (s. Abschnitt 2.4).
Kapitel
V: Allgemeine
Zufallsvariable
309
1.2.2. Die Jensensche Ungleichung Es sei X eine beliebige Zufallsvariable mit dem Erwartungswert ß. Die Funktion g (x) sei im Variationsbereich von X definiert. a) Die F u n k t i o n g sei konvex.
Dann geht durch den Punkt P(/j, g(ß)) eine Gerade y = g (ß) + c • (x — ß), die ganz unterhalb der Kurve liegt (s. nachfolgende Abbildung) mit g (x) > g (ß) + c • (x — ß) für alle x. Falls die Zufallsvariable Y = g (X) einen Erwartungswert besitzt, gilt nach dem Transformationssatz und wegen der Monotonie des Lebesgue-StieltjesIntegrals +OQ +oc E(g(X)) =
[ g(x)dF(x) > + 00
=
«(A*)
[g (ß) +
c
• (x —
dF(x)
+OO
dF(x) + c
(x-/i)]dF(x)
=g(/i).
— OO
=1
=0
Für konvexe Funktionen gilt somit E(g(X)) > g(E(X)) , falls die Erwartungswerte existieren. Das Gleichheitszeichen gilt nur für eine deterministische Zufallsvariable mit P(X = ß) = 1 oder für g(x) = a. b) Die F u n k t i o n g sei konkav.
Dann geht durch den Punkt P ( / j , g(ß)) eine Gerade y = g (ß) + c • (x — ß), welche oberhalb der Kurve liegt mit g ( x ) < g {ß) +
c
' ( x — ß) für alle x.
Im Falle der Existenz der entsprechenden Erwartungswerte erhält man +00
E(g(X)) = |
+00
g(x)dF(x) < |
— 00
E(g(X)) < g(E(X)).
— 00
[g (ß) + c • (x — /i)] dF(x) = g (ß), also
310
Kapitel V: Allgemeine
Zufallsvariable
Beide Regeln heißen die Jensensche Ungleichung : Die Zufallsvariablen X und g(X) sollen einen Erwartungswert besitzen. Dann gilt E(g(X)) > g(E(X)), falls g(x) konvex ist und E(g(X)) < g(E(X)), falls g(x) konkav ist. Das Gleichheitszeichen gilt nur bei deterministischen Zufallsvariablen mit P(X = ¡j.) = 1 oder für g(x) ~ a. Anwendungen: 1.) Zunächst wäre es naheliegend, als Streuungsmaß einer Zufallsvariablen den Erwartungswert E(|X — einzuführen. Aus Anwendungsgründen wurde jedoch die Varianz er2 bzw. Standardabweichung c bevorzugt. Da die Wurzel eine konkave Funktion ist, folgt aus
mit Hilfe der Jensenschen Ungleichung EflX-jil) =
E Q ( X - ^ ) 2 ) < ^ E((X-/x)2)
also E(|X-/x|) 0) = 1 und dem Erwartungswert E ( X ) sei nicht deterministisch. Ferner soll die Zufallsvariable
i
einen Erwartungswert besitzen. Da die Funktion g ( x ) = ^ für x > 0 konvex ist, gilt
(i) >
E(X)"
1.2.3. Die Tschebyscheffsche Ungleichung Wie bei diskreten und stetigen Zufallsvariablen gelten auch bei allgemeinen Zufallsvariablen folgende Ungleichungen. Es sei X eine beliebige Zufallsvariable mit dem Erwartungswert ß und der Varianz Var(X). Dann gelten folgende Ungleichungen: . Var(X) P(|X-/i|>a) 1 P(|X —
> k 0 ;
für jedes k > 1; P(n~k 5 5 P(X > ß ) < i .
Die Bestimmung des Medians aus der Verteilungsfunktion erfolgt nach dem bei diskreten Zufallsvariablen angegebenem Verfahren (s. Kap. III Abschnitt 2.3.3). Bei symmetrischen Verteilungen ist der Median gleich dem Symmetriepunkt. Falls der Erwartungswert ß existiert, stimmt er bei symmetrischen Verteilungen mit dem Median überein.
Kapitel
V: Allgemeine
Zufallsvariable
313
1.2.6. Quantile einer Zufallsvariablen W i e beim Median kann die Definition der Quantile von diskreten Zufallsvariablen unmittelbar übernommen werden (s. Kap. III Abschnitt 2.3.4). Der Zahlenwert heißt a-Quantil der Zufallsvariablen X, wenn die beiden gleichwertigen Bedingungen erfüllt sind: a) P ( X < £ a ) > a
und
P ( X > £Q) > 1 - a ;
b) P ( X < ( a ) < a
und
P(X > £ J < 1 - a .
Die Bestimmung der Quantile aus der Verteilungsfunktion F erfolgt nach der für diskrete Zufallsvariable in Kap. III Abschnitt 2.3.4 beschriebenen Methode.
1.2.7. Charakteristische Funktionen Es sei X eine beliebige Zufallsvariable mit der Verteilungsfunktion F ( x ) . Dann ist in Analogie zum stetigen Fall die charakteristische Funktion der Zufallsvariablen X definiert durch eltxdF(x), teR . Dabei ist i die imaginäre Einheit mit i 2 = — 1. Die charakteristische Funktion ist der Erwartungswert der komplexwertigen Zufallsvariablen e i t X = c o s ( t X ) + i s i n ( t X ) mit E(eitX)
=
E(cos(tX)) + iE(sin(tX)).
Für t e R sind dabei cos(t X ) und sin(t X ) als Funktionen der Zufallsvariablen X wieder reelle Zufallsvariable. Für die allgemeinen charakteristischen Funktionen gelten ähnliche Eigenschaften wie im diskreten und stetigen Fall (s. Kap. III Abschnitt 6 und Kap. I V Abschnitt 4 ). Wegen |e ltx | = 1 konvergiert das Integral für jedes t absolut mit oo
(0) = l ;
| V>(t) | < 1 für - o o < t < oo .
Die charakteristische Funktion ist in t (gleichmäßig) stetig. Wie im diskreten und stetigen Fall gelten folgende Aussagen: 1.) Falls die ersten n Momente E(X k ),k = 1,2, ...,n der Zufallsvariablen X existieren, ist die charakteristische Funktion n-mal differenzierbar mit V>(k)(0) =
i k - E ( X k ) für k = 1 , 2 , . . . ,n .
2.) Die charakteristische Funktion einer linearen Transformation lautet ^í+bxW
=
eita-Vx(bt);a,beR, b / 0 .
3.) Die charakteristische Funktion einer Summe X + Y zweier unabhängiger Zufallsvariabler X und Y ist gleich dem Produkt der beiden einzelnen charakteristischen Funktionen: ^ x + y C ) = V>x(t) • V-yW •
n
Die charakteristische Funktion der Summe
von n unabhängigen i=i Zufallsvariablen ist gleich dem Produkt ihrer charakteristischen Funktionen: n n (t) = n ^X.(t) • 1 i=i i=l
Entsprechend gilt der Umkehrsatz: Die Verteilungsfunktion F(x) einer Zufallsvariablen X ist durch die charakteristische Funktion V'x(') bestimmt. Für beliebige ,x 2 € R gilt +T F(x2)-F(xi) =
lim T—>oo J
mit
-
2 Tri t
•V x (t)dt
T
F(x)=i[F(x) + F(x-0)] . Ferner gilt für jedes x e R P(X = x) = F(x) - F(x - 0) = lim T—»oo
+T — i t x^ ( t ) d t . x
Kapitel
V: Allgemeine
Zufallsvariable
315
Konvergenzsatz: Die Folge der Verteilungsfunktionen F n (x) = P(X n < x), n = 1, 2, konvergiert genau dann gegen eine Verteilungsfunktion F(x) an jeder Stetigkeitsstelle dieser Grenzfunktion F(x), wenn die charakteristischen Funktionen V'niO der Zufallsvariablen X n , n = 1,2,... gegen eine an der Stelle t = 0 stetige Funktion ip(t) konvergieren. Dann ist V W die charakteristische Funktion von F(x) bzw. der Zufallsvariablen X mit dieser Verteilungsfunktion.
2. Zweidimensionale beliebige Zufallsvariable In diesem Abschnitt werden gleichzeitig zwei beliebige Zufallsvariable X und Y behandelt.
2.1. Die gemeinsame Verteilungsfunktion Wir betrachten eine allgemeine zweidimensionale Zufallsvariable (X, Y) mit der (gemeinsamen) Verteilungsfunktion F(x,y) = P ( X < x , Y < y ) = P({w | X(w) < x} n {u | Y(w) < y}) . F(x, y) besitzt folgende Eigenschaften: 1.) F ( x , y ) ist in beiden Variablen monoton nicht fallend, d.h. aus x x < x 2 und y j < y 2 folgt F(xj,y) < F(x 2 ,y) und F ( x , y j ) < F(x,y 2 ) für alle x, y. 2.) F(x, y) ist in jeder Variablen rechtsseitig stetig mit lim F(x + h , y) = F(x, y); lim F(x, y +k) = F(x, y) . h—»0, h>0 k—>0, k>0 3.) Für jedes x und y gilt lim F ( x , y ) = F ( - o o , y ) = 0 und lim F(x,y) = F(x,-oo) = 0. x—* — oo y—»-oo 4.) Es gilt
lim lim F(x,y) = F ( + o o , + oo) = 1 . x—» -f oo y—• + oo
316
Kapitel
V: Allgemeine
Zufallsvariable
Diese vier Eigenschaften reichen zur Charakterisierung einer zweidimensionalen Verteilungsfunktion nicht aus. Zusätzlich muß noch folgende Eigenschaft erfüllt sein: 5.) Für alle reellen Zahlen x1 < x 2 und y j < y 2 P ( X L < X < X2,
Y I
gilt
< Y < y 2 ) = F(X2, y 2 ) - F ( x 2 , y x ) - F ( x l 5 y 2 ) + F ( x x , y x ) > 0.
Dieser Wert stellt die Wahrscheinlichkeit dafür dar, daß die Realisierung der zweidimensionalen Zufallsvariablen (X,Y) in dem Rechteck mit den entsprechenden Eckpunkten liegt. Daß man auf die Bedingung 5.) nicht verzichten kann, zeigt das X + y < } ' für x + y > 1
Beispiel: Die Funktion F (vx , y ) = ( ° H \ 1
erfüllt die Bedingungen 1.) bis 4.), nicht jedoch 5.). Sie kann keine gemeinsame Verteilungsfunktion sein wegen P(0 < X < 1, 0 < Y < 1) = F ( l , l ) — F(1,0) — F(0,1) + F(0,0) = - 1. Dann wären Wahrscheinlichkeiten negativ. Bei diskreten Zufallsvariablen ist F (x, y) eine zweidimensionale Treppenfunktion. Falls ( X , Y ) eine stetige zweidimensionale Zufallsvariable ist, so ist die Funktion F (x, y) absolut stetig und fast überall nach beiden Variablen differenzierbar mit der Dichte x n ) =
F
(xl>
x
i - 1'
x
i+
h
-x i + l
0 gilt A L M 2 > . . . . A W F(x1,x2,...,xN)>0. 1
l
n
Dabei werden die Operatoren A nacheinander angewandt. Dieser Ausdruck stellt die Wahrscheinlichkeit P ( x i < X, < x 1 + h 1 , x 2 < X 2 < x 2 + h 2 ,
,x„< Xn 0
\
IT
t
>e) /
k=i
n£
Hieraus folgt lim P(
I
£
X
k
- ß > £ ) = 0
für jedes e > 0.
Diese Konvergenz in Wahrscheinlichkeit nennt m a n das schwache Gesetz
der großen Zahlen. M a n sagt a u c h : 1 n Die Folge Z n = ^ ^ X k=l
k
, n = 1,2,
konvergiert stochastisch gegen fi.
Zusammenfassung:
Das schwache Gesetz der großen Zahlen: Die Zufallsvariablen X k , k = 1 , 2 , . . . seien paarweise unabhängig und besitzen alle den gleichen Erwartungswert ¡1 und die gleiche V a r i a n z er 2 . D a n n gilt für j e d e s beliebig kleine e > 0 p
(
V
k=l
lim p f l f ^ - A « n-»oo \ k=l
>£)
J
>e)
0 P (|Rn(A)-P| >e)
< P(l-P) n£"
£ /W 0 für jedes £ > 0 . Das schwache Gesetz der großen Zahlen kann noch verallgemeinert werden.
328
Kapitel VI:
Grenzwertsätze
Das allgemeine schwache Gesetz der großen Zahlen: Die Zufallsvariablen X k , k = 1 , 2 , . . . seien paarweise unabhängig und besitzen die Erwartungswerte E ( X k ) und die Varianzen V a r ( X k ) . Dabei gelte Hm n-too
bk =tl E ( X ) = k
p und
lim
i "
\
E Var(Xk) k=l
= 0.
D a n n gilt für jedes e > 0 lim P n—>oo
=
o.
Stochastische Konvergenz der empirischen Verteilungsfunktion Die Werte x ; der Stichprobe x = ( x j , x 2 , . . . , x n ) seien unabhängige Realisierungen der Zufallsvariablen X mit der Verteilungsfunktion F ( x ) . Der Wert F n ( x ) der empirischen Verteilungsfunktion stellt nach K a p . I Abschnitt 1.2.4 die relative Häufigkeit der Stichprobenwerte dar, die kleiner oder gleich x sind. Der Funktionswert F n ( x ) hängt vom Zufall a b und ist somit Realisierung einer Zufallsvariablen Y n ( x ) mit dem Wertebereich W = {0 i
-
-
1 1 - 1
11
Die Zufallsvariable Y n ( x ) besitzt genau dann die Realisierung wenn von den n Stichprobenwerten k kleiner oder gleich x und die übrigen n — k größer als x sind. Dies ist genau dann der Fall, wenn in der Versuchsserie vom U m f a n g n d a s Ereignis A = {cj| X(u>) < x } mit der jeweiligen Wahrscheinlichkeit p = P ( A ) = F(x) genau k-mal eintritt. Damit beschreibt die Zufallsvariable Y n ( x ) die relative Häufigkeit des Ereignisses A mit P ( Y „ W = N ) = ( K ) • [F « ] E ( Y n ( x ) ) = F (x)
k
• [1 -
F
und V a r ( Y n ( x ) ) =
(x)]n F ( x )
"
k
für k = 0 , 1 , . . . , n ;
[1n
"
F ( x ) ]
Aus d e m Bernoullischen Gesetz erhält m a n unmittelbar
< ^
.
Kapitel VI: Grenzwertsätze
329
das schwache Gesetz der großen Zahlen für die empirische Verteilungsfunktion: Die einzelnen Werte der Stichprobe x = ( x j , x 2 , . . . ,x n ) seien unabhängige Realisierungen der Zufallsvariablen X, welche die Verteilungsfunktion F(x) besitzt. Die empirische Verteilungsfunktion F n (x) sei Realisierung der Zufallsvariablen Y n (x). Dann gilt für jedes x 6 R und jedes e > 0 p(|Yn(x)-F(x)| > e ) < limP (|Y (x)-F(x)| > £ ) = 0 n—>oo v n /
.
Auf Grund dieses Gesetzes kann der Wert F n (x) der empirischen Verteilungsfunktion an jeder Stelle x als Schätzwert für einen unbekannten Funktionswert F (x) der Verteilungsfunktion der Zufallsvariablen X benutzt werden.
2. Das starke Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen macht Aussagen über die Konvergenz der Wahrscheinlichkeiten für Abweichungen einer Folge von Zufallsvariablen von einem festen Zahlenwert (stochastische Konvergenz). Im Gegensatz dazu untersucht man beim starken Gesetz der großen Zahlen die fast sichere Konvergenz. Sie ist eine stärkere Bedingung als die stochastische Konvergenz. Eine Folge von Zufallsvariablen X n konvergiert fast sicher gegen eine Zufallsvariable X, wenn die Menge aller Versuchsergebnisse u, für die lim Xn(oi) - X(w) II—>00 nicht erfüllt ist, die Wahrscheinlichkeit Null besitzt. Die Menge der Versuchsergebnisse, auf der diese Konvergenz stattfindet, hat damit die Wahrscheinlichkeit Eins, also p({u> e Q | lim X n (w) = X(w)}) = 1. n—»oo ' Die Folge der Zufallsvariablen X n , n = 1 , 2 , . . . konvergiert genau dann fast sicher gegen die Zufallsvariable X, wenn gilt lim p ( { w g Q | sup | X m ( w ) - X ( w ) | > e ) = 0 . n—»oo * m>n '
330
Kapitel VI:
Grenzwertsätze
Aus der fast sicheren Konvergenz folgt die stochastische. Die einfachste Form des starken Gesetzes der großen Zahlen erhält man in der folgenden Fassung. Das starke Gesetz der grofien Zahlen: Für jedes n seien die Zufallsvariablen X j , X 2 , ..., X n unabhängig und besitzen alle die gleiche Verteilung und den Erwartungswert E(X k ) = /i. 1
n
Dann konvergiert die Folge Z n = ^ E X k fast sicher gegen ¡1, also k=i P (v lim i E X k = /i) = P ( { u , e n | l i m n—»oo k = i ' \ n—»oo
k—1
X k ( W ) = /i}) '
=
1.
Nach dem starken Gesetz der großen Zahlen gilt für jedes e > 0 1 m
lim PI sup n—too \ m>n
m
E
X k - fi > e) = 0 . k=l Zu jedem beliebigen e > 0 und jedem beliebigen 6 > 0 gibt es dann einen Index n 0 mit PI sup V m > nn
m Ë xk - V k=l
< 6 .
Gleichwertig damit ist (V mS>" nP 0
m
E
k=1
X k - fi < e)/ > 1 -
6.
Das starke Gesetz der großen Zahlen besagt folgendes: Aus einer genügend großen Stichprobe kann mit Wahrscheinlichkeit Eins (fast sicher) der unbekannte Erwartungswert fi einer Zufallsvariablen X beliebig genau geschätzt werden. Wie bei der Herleitung des Bernoullischen Gesetzes der großen Zahlen in Abschnitt 1 erhält man hieraus mit
-{¡:
falls beim k-ten Versuch A eintritt, sonst
unmittelbar die folgende Aussage:
Kapitel VI: Grenzwertsätze
331
Das Ereignis A besitze die Wahrscheinlichkeit p. In einer unabhängigen Versuchsserie vom Umfang n sei die relative Häufigkeit r n (A) die Realisierung der Zufallsvariablen R n (A). Dann konvergiert die Folge der Zufallsvariablen R n (A) fast sicher gegen p, d . h . P ( lim R n ( A ) = p) = 1 - lim p ( sup I R ^ A ) - p I > e) ^ n—»oo ' n—*oo \ m > n /
=1
für jedes e > 0 . Damit kann mit Wahrscheinlichkeit Eins die unbekannte Wahrscheinlichkeit p = P(A) eines beliebigen Ereignisses A durch die relative Häufigkeit in einer genügend langen unabhängigen Versuchsserie beliebig genau geschätzt werden. Auch für die Folge der Zufallsvariablen, deren Realisierungen die empirische Verteilungsfunktion F n (x) einer Stichprobe vom Umfang n darstellt, gilt ein starkes Gesetz der großen Zahlen. Man nennt es den Hauptsatz der mathematischen Statistik (Satz von Glivenko-Cantelli): Die Werte der Stichprobe x = ( x j , x 2 , . . . , x n ) seien unabhängige Realisierungen der Zufallsvariablen X mit der Verteilungsfunktion F (x). Die empirische Verteilungsfunktion F n (x) sei Realisierung der Zufallsvariablen Y n (x). Dann gilt P ( lim sup 11—»oo - oo< x < + oo lim p ( N-.00 V
sup
1| Y n ( x ) - F ( x ) |1
sup -°o für jedes £ > 0.
1
Da die Folge der empirischen Verteilungsfunktionen mit Wahrscheinlichkeit Eins gleichmäßig gegen die Verteilungsfunktion F (x) konvergiert, erhält man aus einer Stichprobe von genügend großem Umfang n mit Wahrscheinlichkeit Eins beliebig gute Informationen über eine unbekannte Verteilungsfunktion F einer Zufallsvariablen. Das starke Gesetz der großen Zahlen kann noch verallgemeinert werden.
332
Kapitel VI:
Grenzwertsätze
Verallgemeinerung des starken Gesetzes der großen Zahlen von Kolmogoroff: Die Zufallsvariablen X 1 , X 2 ) X 3 , seien vollständig unabhängig und besitzen die Varianzen Var(X k ),k = 1 , 2 , . . . . Dabei konvergiere die Reihe k=l'
K if
2
n
=
0.
Falls für jedes n die Zufallsvariablen X j , X 2 , X 3 , . . . , X n unabhängig sind, gilt n / £ (X k ~ ß k ) \ , r lim P k = 1 „