184 88 21MB
German Pages 601 [608] Year 1996
Großes Lehrbuch der Statistik Von
Professor Dr. Karl Bosch o. Professor für angewandte Mathematik und Statistik an der Universität Stuttgart-Hohenheim
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Bosch, Karl: Großes Lehrbuch der Statistik / von Karl Bosch. - München ; Wien : Oldenbourg, 1996 ISBN 3-486-23350-5
© 1996 R. Oldenbourg Verlag GmbH, München Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Druck: Grafik + Druck, München Bindung: R. Oldenbourg Graphische Betriebe GmbH, München ISBN 3-486-23350-5
Inhaltsverzeichnis Seite XVII
Vorwort
Teil I: Beschreibende (deskriptive) Statistik 1
Merkmale und Skalierung.
3
1.1
Merkmale
3
1.2
Skalierung
5
2
Eindimensionale Darstellungen
7
2.1 2.1.1 2.1.2 2.1.3 2.1.3.1
Häufigkeitsverteilungen bei diskreten Merkmalen . . . . Absolute und relative Häufigkeiten Strichliste und Häufigkeitstabelle Graphische Darstellungen Graphische Darstellungen von Häufigkeitsverteilungen quantitativer diskreter Merkmale 2.1.3.2 Graphische Darstellungen von Häufigkeitsverteilungen qualitativer diskreter Merkmale
7 7 8 10
2.2
Häufigkeitsverteilungen bei Klassenbildungen
13
2.3 2.3.1 2.3.2 2.3.3
Die Die Die Die
16 16 17 18
2.4 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 2.4.6 2.4.7 2.4.8 2.4.9 2.4.10
Lageparameter von Häufigkeitsverteilungen Der Modalwert (häufigster Wert) Das arithmetische Mittel (Mittelwert) Gewichtete (gewogene) arithmetische Mittel Der Median (Zentralwert) Quantile und Quartile Das harmonische Mittel Gewichtete harmonische Mittel Das geometrische Mittel Gewichtete (gewogene) geometrische Mittel Vergleich der verschiedenen Mittelwerte
19 19 20 22 23 28 31 32 33 34 35
2.5 2.5.1 2.5.2 2.5.3
Streuungsmaße von Häufigkeitsverteilungen Die Spannweite Der Quartilsabstand und Quantilsabstände Mittlere Abstände
36 36 36 37
empirische Verteilungsfunktion empirische Verteilungsfunktion einer Stichprobe . . . empirische Verteilungsfunktion bei diskreten Merkmalen klassierte empirische Verteilungsfunktion
10 11
VI
Inhaltsverzeichnis
2.5.4 2.5.5 2.5.6 2.5.7
Varianz und Standardabweichung Der Variationskoeffizient Die Momente einer Verteilung Die Schiefe einer Häufigkeitsverteilung
38 40 41 42
2.6 2.6.1 2.6.1.1 2.6.1.2 2.6.1.3 2.6.2 2.6.3
Konzentrationsmaße Die Lorenzkurve Die Lorenzkurve bei Einzelwerten (einer Beobachtungsreihe) Die Lorenzkurve bei Häufigkeitsverteilungen Die Lorenzkurve bei Klasseneinteilungen Der Gini-Koeffizient Der Herfindahl-Index
43 43 43 46 47 48 50
2.7
Indexzahlen
52
2.8
Aufgaben
57
3
Zweidimensionale Darstellungen
61
3.1
Zweidimensionale Beobachtungsreihen
61
3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5
Häufigkeitsverteilungen Kontingenztafeln Randverteilungen Bedingte Verteilungen Unabhängige Merkmale Kontingenzkoeffizient
63 63 64 69 71 72
3.3 3.3.1 3.3.2 3.3.3 3.3.3.1 3.3.3.2 3.3.3.3 3.3.3.4
Korrelationsrechnung Kovarianz Korrelationskoeffizient nach Bravais-Pearson Rangkorrelationskoeffizient von Spearman Rangzahlen Der Spearmansche Rangkorrelationskoeffizient Praktische Berechnung von r s bei Rangzahlen ohne Bindungen Praktische Berechnung von rg bei Rangzahlen mit Bindungen
75 76 77 81 81 82 85 87
3.4 3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 3.4.6 3.4.7
Regressionsrechnung Regressionsgeriide Regressionsgerade durch einen vorgegebenen Punkt . . . . Regressionspolynome Regressionsparabel Regressionspolynom durch einen vorgegebenen Punkt . . . Beliebige von Parametern abhängige Regressionsfunktionen Linearisierung durch Transformationen
3.5 3.5.1 3.5.2
Zeitreihen Das klassische Komponentenmodell (additives Modell). Trendbestimmung
.
90 90 96 97 97 99 100 101 .
103 105 106
Inhaltsverzeichnis
VII
3.5.2.1 Lineare Trends 3.5.2.2 Nichtlineare Trendmodelle 3.5.3 Gleitende Durchschnitte (Mittelwerte) bei äquidistanten Zeitpunkten 3.5.4 Schätzung der glatten Komponente g t = m t + k t 3.5.5 Saisonbereinigung bei konstanter Saisonfigur 3.5.6 Saisonbereinigung bei variabler Saisonfigur 3.5.7 Weitere Verfahren zur Saisonbereinigung
106 108 108 110 112 120 121
3.6
Aufgaben
122
4
Mehrdimensionale Darstellungen
125
4.1
p-dimensionale Beobachtungsreihen
125
4.2
Kovarianz- und Korrelationsmatrix
127
4.3 4.3.1 4.3.2 4.3.3 4.3.4
Multiple lineare Regression Das allgemeine Modell Das zentrierte Modell Das multiple Bestimmtheitsmaß Bestimmung von gewöhnlichen Regressionspolynomen mit Hilfe der multiplen linearen Regression
130 131 133 135
4.4 4.4.1 4.4.2 4.4.3 4.4.4
Korrelationsrechnung Linearkombinationen von Stichproben Der multiple Korrelationskoeffizient Der kanonische Korrelationskoeffizient Der partielle Korrelationskoeffizient
141 141 142 144 146
4.5
Aufgaben
149
140
Teil Π: Wahrscheinlichkeitsrechnung 5
Wahrscheinlichkeiten
153
5.1
Zufallsexperimente und zufallige Ereignisse
153
5.2
Häufigkeiten von Ereignissen
156
5.3 5.3.1 5.3.2 5.3.3
Wahrscheinlichkeiten Die Axiome einer Wahrscheinlichkeit Der klassische Wahrscheinlichkeitsbegriff Kombinatorische Methoden zur Berechnung von Wahrscheinlichkeiten 5.3.3.1 Die Produktregel der Kombinatorik (das allgemeine Zählprinzip) 5.3.3.2 Anordnungsmöglichkeiten (Permutationen) 5.3.3.3 Auswahlmöglichkeiten unter Berücksichtigung der Reihenfolge
157 158 160 162 162 163 165
Inhaltsverzeichnis
VIII 5.3.3.4 5.3.3.5 5.3.3.6 5.3.4
Auswahlmöglichkeiten ohne Berücksichtigung der Reihenfolge 166 Zusammenstellung der Formeln aus der Kombinatorik . . 168 Urnenmodelle 173 Geometrische Wahrscheinlichkeiten und Simulationen . . 176
5.4 5.5
Bedingte Wahrscheinlichkeiten Unabhängige Ereignisse
179 186
5.6
Aufgaben
189
6
Zufallsvariablen und Wahrscheinlichkeitsverteilungen 193
6.1 6.1.1 6.1.2 6.1.3 6.1.3.1 6.1.3.2 6.1.3.3 6.1.3.4 6.1.4
Eindimensionale diskrete Zufallsvariablen Die Verteilung einer diskreten Zufallsvariablen Die Verteilungsfunktion einer diskreten Zufallsvariablen . . Lageparameter einer diskreten Zufallsvariablen Modal wert einer diskreten Zufallsvariablen Erwartungswert einer diskreten Zufallsvariablen . . . . Der Median einer diskreten Zufallsvariablen Quantile einer diskreten Zufallsvariablen Varianz und Standardabweichung einer diskreten Zufallsvariablen
193 193 196 198 198 198 203 204
Paare diskreter Zufallsvariabler Die gemeinsame Verteilung Die gemeinsame Verteilungsfunktion Bedingte Verteilungen und bedingte Erwartungswerte . Unabhängige diskrete Zufallsvariablen Erwartungswert einer Funktion zweier diskreter Zufalls variabler
207 207 209 210 211
6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5
.
.
205
212
6.3
Mehrdimensionale diskrete Zufallsvariablen
216
6.4 6.4.1 6.4.2 6.4.3 6.4.4 6.4.5 6.4.6
Spezielle diskrete Zufallvariablen Die gleichmäßige diskrete Verteilung Die Binomialverteilung Die hypergeometrische Verteilung Die geometrische Verteilung Die negative Binomialverteilung Die Poisson-Verteilung
217 217 217 219 221 222 223
6.5 6.5.1 6.5.2 6.5.2.1 6.5.2.2 6.5.2.3 6.5.2.4
Eindimensionale stetige Zufallsvariablen Dichte und Verteilungsfunktion Lageparameter einer stetigen Zufallsvariablen Modalwert (Modus) einer stetigen Zufallsvariablen . . . . Erwartungswert einer stetigen Zufallsvariablen Der Median einer stetigen Zufallsvariablen Quantile einer stetigen Zufallsvariablen
227 227 230 230 230 233 235
Inhaltsverzeichnis
IX
6.5.3
Varianz und Standardabweichung
236
6.6 6.6.1 6.6.2 6.6.3 6.6.4 6.6.5 6.6.5.1 6.6.5.2 6.5.5.3 6.6.6
Zweidimensionale stetige Zufallsvariablen Die gemeinsame Dichte Die gemeinsame Verteilungsfunktion Randverteilungen Unabhängige stetige Zufallsvariablen Funktionen einer stetigen zweidimensionalen Zufallsvariablen Erwartungswert des Produkts zweier stetiger Zufallsvariabler Erwartungswert einer Summe stetiger Zufallsvariabler . . Varianz einer Summe unabhängiger Zufallsvariabler . . . Bedingte Dichten und bedingte Erwartungswerte . . . .
238 238 239 240 241 242 243 243 244 244
6.7 6.7.1 6.7.2 6.7.3 6.7.3.1 6.7.3.2 6.7.3.3
247 247 248 252 252 254
6.7.4 6.7.5 6.7.6
Spezielle (eindimensionale) stetige Zufallsvariablen . . . Die gleichmäßige Verteilung Die Exponentialverteilung Normalverteilungen Die Standard-Normalverteilung - N(0;1) -Verteilung . . . Die allgemeine Normalverteilung Approximation der Binomialverteilung durch die Normalverteilung Die Chi-Quadrat-Verteilung (Testverteilung) Die t-Verteilung (Testverteilung) Die F-Verteilung
6.8
Momente, Schiefe und ExzeS
265
6.9
Kovarianz und Korrelationskoeffizient
267
6.10
Regressionsgerade zweier Zufallsvariabler
271
6.11 6.11.1 6.11.2 6.11.3 6.11.4
Zweidimensionale Normalverteilung Die gemeinsame Dichte Die Randverteilungen Bedingte Erwartungswerte bei Normalverteilungen . . . . Darstellung der Dichte in Matrizenschreibweise
274 274 276 276 277
6.12 6.12.1 6.12.2 6.12.3 6.12.4
Mehrdimensionale stetige Zufallsvariablen Gemeinsame Dichte und Verteilungsfunktion Unabhängige stetige Zufallsvariablen Funktion einer n-dimensionalen stetigen Zufallsvariablen . . Die Kovarianzmatrix
279 279 280 281 281
6.13
Mehrdimensionale Normalverteilung
283
6.14
Summen unabhängiger Zufallvariabler zentraler Grenzwertsatz Summe zweier diskreter Zufallvariabler Summe zweier stetiger Zufallsvariabler
287 287 288
6.14.1 6.14.2
257 260 261 263
χ 6.14.3 6.14.4 6.14.5 6.15 6.15.1 6.15.1.1 6.15.1.2 6.15.1.3 6.15.1.4 6.15.2 6.15.2.1 6.15.2.2 6.15.2.3 6.15.2.4 6.15.2.5 6.16 6.16.1 6.16.2 6.16.3
Inhaltsverzeichnis Summen unabhängiger in [0; 1 ] gleichmäßig verteilter Zufallsvariabler Zentrale Grenzwertsätze bei Summen unabhängiger Zufallsvariabler Die Lognormalverteilung als Grenzwert von Produkten unabhängiger positiver Zufallsvariabler . . . Ungleichungen Ungleichungen für den Erwartungswert Monotonie des Erwartungswertes Die Cauchy-Schwarzsche Ungleichung Die Jensensche Ungleichung Verallgemeinerung der Jensenschen Ungleichung . . . . Wahrscheinlichkeitsabschätzungen Ein allgemeiner Abschätzungssatz Ungleichungen vom Tschebyschewschen T y p Die Ungleichungen von Cantelli Die Ungleichungen von Camp-Meidell-Gauß Die Ungleichung von Vysochansky-Petunion
289 290 294 296 296 296 297 298 301 302 302 303 304 307 308 309 309 321
6.16.4
Gesetze der großen Zahlen Das schwache Gesetz der großen Zahlen Das Bernoullische Gesetz der großen Zahlen Stochastische Konvergenz der empirischen Verteilungsfunktionen Das starke Gesetz der großen Zahlen
6.17
Aufgaben
317
313 314
Teil ΠΙ: Beurteilende (induktive) Statistik 7
Parameterschätzung (Punktschätzung)
325
7.1
Zufallsstichproben
325
7.2
Stichprobenfunktion (Statistik)
325
7.3 7.3.1 7.3.2 7.3.3 7.3.4 7.3.5
Schätzfunktionen Allgemeine Schätzfunktionen Erwartungstreue (unverzerrte) Schätzfunktionen Die Verzerrung (der Bias) einer Schätzfunktion Konsistente Schätzfunktionen Wirksamste (effiziente) Schätzfunktionen
327 327 327 329 329 332
7.4 7.4.1 7.4.2 7.4.3
Maximum-Likelihood-Schätzung Likelihood-Funktion bei diskreten Verteilungen Likelihood-Funktion bei stetigen Verteilungen Das Maximum-Likelihood-Prinzip
. . . .
335 335 335 335
Inhaltsverzeichnis
XI
7.4.4
Eigenschaften von Maximum-Likelihood-Schätzungen
7.5
Aufgaben
8
Konfidennzintervalle (Intervallschätzung)
8.1
Allgemeine Konfidenzintervalle
344
8.2 8.2.1 8.2.2
Konfidenzintervalle nach Cloppcr Pearson Verfahren von Clopper - Pearson im stetigen Fall . . . . Verfahren von Clopper - Pearson im diskreten Fall . . .
345 345 347
8.3
Asymptotische Konfidenzintervalle bei großem Stichprobenumfang Konfidenzintervalle bei regulären Maximum-LikelihoodSchätzungen Allgemeine asymptotische Konfidenzintervalle
8.3.1 8.3.2 8.4 8.4.1 8.4.1.1 8.4.1.2 8.4.1.3 8.4.1.4 8.4.1.5 8.4.2 8.4.3 8.4.3.1 8.4.3.2 8.4.4 8.4.4.1 8.4.4.2 8.4.5 8.5 8.5.1 8.5.2 8.5.2.1 8.5.2.2 8.5.2.3
. .
340 341
. . . .
Spezielle Konfidenzintervalle Konfidenzintervalle für μ, σ 2 und ρ bei Normalverteilungen Konfidenzintervalle für μ bei bekannter Varianz σQ . . Konfidenzintervalle für μ bei unbekannter Varianz σ 2 . . Konfidenzintervalle für σ2 bei bekanntem Erwartungswert . Konfidenzintervalle für σ 2 bei unbekanntem Erwartungswert Konfidenzintervalle für den Korrelationskoeffizienten ρ . Konfidenzintervalle für μ, σ 2 und ρ bei beliebigen Verteilungen Konfidenzintervalle für eine Wahrscheinlichkeit ρ . . . . Asymptotische Konfidenzintervalle für ρ bei großem Stichprobenumfang Exakte Konfidenzintervalle für ρ bei kleinem Stichprobenumfang Konfidenzintervalle für den Parameter λ einer Poisson-Verteilung Konfidenzintervalle für λ bei großem Stichprobenumfang . Exakte Konfidenzintervalle aus einer einzigen Realisierung . Konfidenzintervalle für den Parameter einer Exponentialverteilung Konfidenzintervalle fur die Differenz zweier Erwartungswerte Konfidenzintervalle bei verbundenen Stichproben . . . . Konfidenzintervalle bei nichtverbundenen Stichproben . . Konfidenzintervalle bei bekannten Varianzen Konfidenzintervalle bei unbekannten, gleichen Varianzen . Konfidenzintervalle bei unbekannten, verschiedenen Varianzen - das Behrens-Fisher-Problem
343
348 348 349 349 349 349 352 354 357 358 360 361 361 363 366 367 368 369 371 371 372 373 373 375
XII
Inhaltsverzeichnis
8.6
Konfidenzintervalle für den Quotienten zweier Varianzen
375
8.7
Aufgaben
377
9
Parametertests
379
9.1
Test von Hg: ρ = p 0 gegen H j : ρ = pj ein einfacher Alternativtest
379
9.2
Test von Η Q : μ = μ0
386
9.3
Test von HQ : μ > μ0
9.4
Test von H 0 : μ < μ0 gegen Hj: μ > μ0
393
9.5 9.5.1 9.5.2 9.5.3 9.5.4 9.5.5 9.5.5.1 9.5.5.2 9.5.5.3 9.6 9.6.1 9.6.2
Allgemeiner Aufbau eines Parametertests (Signifikanztests) Nullhypothese und Alternative Testdurchführung Irrtumswahrscheinlichkeiten Gütefunktion und Operationscharakteristik Bestimmung der kritischen Grenzen Zweiseitiger Test von H 0 : ΰ = ύ 0 gegen Hj: ϋ φ ϋ 0 . . . Einseitiger Test von H 0 : ϋ < gegen Η χ : ΰ > ι?0 . . . Einseitiger Test von H 0 : ϋ > ι?0 gegen Hj: ΰ < ΰ0 . . . Test einer Wahrscheinlichkeit ρ Test von ρ bei großem Stichprobenumfang Test von ρ bei kleinem Stichprobenumfang
395 395 396 397 398 399 399 400 400 401 401 402
9.7 9.7.1 9.7.2
Test eines Erwartungswertes Test eines Erwartungswertes μ bei bekannter Varianz σg . Test eines Erwartungswertes μ bei unbekannter Varianz .
404 404 405
9.8 9.8.1 9.8.2
Test einer Varianz Test der Varianz bei bekanntem Erwartungswert μ0 . Test der Varianz bei unbekanntem Erwartungswert .
406 406 407
9.9 9.9.1 9.9.2
Test des Korrelationskoeffizienten bei Normalverteilungen Test von ρ = 0 (Test auf Unabhängigkeit) Test von ρ mit der Fisher-Transformation
408 408 409
9.10 9.10.1 9.10.2
Test des Parameters einer Poisson-Verteilung Test von λ bei großem Stichprobenumfang η Test von Α aus einer einzigen Realisierung
410 410 411
9.11
Test des Parameters einer Exponentialverteilung
9.12 9.12.1 9.12.2 9.12.2.1
Test Test Test Test
der bei bei der
gegen H j : μ φ μ0 gegen H j : μ < μ0
Differenz zweier Erwartungswerte verbundenen Stichproben nichtverbundenen Stichproben Erwartungswerte bei bekannten Varianzen
389
.
.
. .
.
.
. .
.
413
.
414 415 416 416
Inhaltsverzeichnis 9.12.2.2 Test bei unbekannten, aber gleichen Varianzen 9.12.2.3 Test ohne Information über die Varianzen (Behrens-Fisher-Problem)
XIII . . . .
417 418
9.13
Test des Quotienten zweier Varianzen bei Normalverteilimgen419
9.14
Test auf Gleichheit der Korrelationskoeffizienten zweier Normalverteilungen
422
Test auf Gleichheit zweier Wahrscheinlichkeiten bei großen Stichprobenumfängen
425
Test auf Gleichheit mehrerer Varianzen bei Normalverteilungen- der Bartlett-Test
426
9.15 9.16 9.17 9.18
Test auf Gleichheit mehrerer Varianzen stetiger Verteilungen - der Chi-Quadrat- Test von Schefle
. . .
427
Test auf Gleichheit mehrerer Korrelationskoeffizienten bei Normalverteilungen
429
9.19
Aufgaben
431
10
Nichtparametrische Tests
435
10.1
Chi-Quadrat-Test der Wahrscheinlichkeiten einer Ereignisdisjunktion
435
10.2
Chi-Quadrat-Anpassungstest für eine beliebige Verteilung .
440
10.3
Chi-Quadrat -Unabhängigkeitstest
445
10.4
Chi-Quadrat-HomogenitätstestTest auf Gleichheit mehrererVerteilungen
449
10.5
Der Fisher-Test bei Vierfeldertafeln
452
10.6
Kolmogorow-Smirnow-Einstichproben-Test
455
10.7
Vergleich des Kolmogorow-Smirnowmit dem Chi-Quadrat-Test
459
10.8
Konfidenzstreifen für eine stetigeVerteilungsfunktion
. .
10.9
Der Kolmogorow-Smirnow-Zweistichproben-Test
10.10 10.10.1 10.10.2 10.10.3 10.10.4 10.11
Der allgemeine Vorzeichen-Test 463 Vorzeichen-Test bei stetigen Zufallsvariablen 463 Vorzeichen-Test bei beliebigen Zufallsvariablen 464 Test auf zufällige Abweichungen bei verbundenen Stichproben 465 Vorzeichen-Test für für denden Median bei stetigen Verteilungen . 466 Konfidenzintervalle Median bei stetigen Zufallsvariablen 468
. . . .
460 461
Inhaltsverzeichnis
XIV 10.12 10.12.1 10.12.2
Tests und Konfidenzintcrvallc für Quantile einer stetigen Zufallsvariablen Tests von Quantilen Konfidenzintervalle für Quantile
470 471 472
10.13 10.13.1 10.13.2
Der Vorzeichen-Rangtest (Symmetrie-Test) nach Wilcoxon Der Vorzeichen-Rangtest ohne Bindungen Der Vorzeichen-Rangtest bei Bindungen
474 475 479
10.14
Der Wilcoxon-Rangsummentest
480
10.15
Aufgaben
485
11
Varianzanalyse
489
11.1 11.1.1 11.1.2 11.1.3 11.1.4
Einfache Varianzanalyse Modellbeschreibung Quadratsummenzerlegung Schätzwerte für die Parameter des Modells Test auf Gleichheit der Erwartungswerte bei Normalverteilungen
489 489 490 494
11.2 11.2.1 11.2.2 11.2.3 11.2.4
494
Doppelte Varianzanalyse Modellbeschreibung Quadratsummenzerlegung Schätzwerte für die Parameter des Modells Tests auf unterschiedlichen Einfluß der Stufen eines Faktors bei Normalverteilungen
496 496 497 500
11.3
Aufgaben
503
12
Einfache lineare Regression - lineare Regression bei einer einzigen unabhängigen Variablen . . . .
505
12.1
Das allgemeine Regressionsmodell
506
12.2 12.2.1 12.2.2 12.2.3 12.2.4 12.2.5
Lineare Regression Die Regressionsgerade Schätzung der Parameter der Regressionsgeraden . . . . Quadratsummenzerlegung (Varianzanalyse bezüglich y) . . Schätzwerte für Varianzen Tests und Konfidenzintervalle für die einzelnen Parameter bei Normalverteilungen Test der Regressionsgeraden ßQ + χ Konfidenzintervalle für den Erwartungswert ßQ -f /?jX0 an einer festen Stelle x 0 bei Normalverteilungen . . . . Konfidenzstreifen für die gesamte Regressionsgerade bei Normalverteilungen
507 507 507 510 512
12.2.6 12.2.7 12.2.8
501
513 515 518 519
Inhaltsverzeichnis 12.2.9
XV
12.2.10
Test auf Linearität der Regressionsfunktion bei Normalverteilungen Beispiel einer linearen Regression
521 524
12.3
Transformation auf Linearität
527
12.4 12.4.1
Vergleich der Parameter zweier Regressionsgeraden bei NormalVerteilungen Vergleich der beiden Varianzen σ j und σ^
528 528
12.4.2
Vergleich der Regressionskoeffizienten ß ^ und ß ^
12.4.3
Vergleich der beiden Achsenabschnitte
12.5
Test auf Regressionsfunktionen, die von / Parametern abhängen, bei Normalverteilungen
531
12.6
Aufgaben
534
13
Multiple lineare Regression
535
13.1 13.2 13.3 13.4 13.5
Das lineare Regressionsmodell Kleinste-Quadrate-Schätzungen Quadratsummenzerlegung und das Bestimmtheitsmaß Lineritätstest von Fisher Aufgaben
535 537 538 538 540
. . .
530
und ß ^ . . .
531
. .
Literaturverzeichnis
541
Tabellenanhang
544
Register
575
Vorwort Dieses Buch wendet sich an alle Studierenden, die während ihres Studiums Vorlesungen über Statistik oder Wahrscheinlichkeitsrechnung hören bzw. in wissenschaftlichen Arbeiten statistische Methoden anwenden müssen. Der Rahmen des Buches geht über eine kurze Einführung in die Statistik hinaus. Neben der ausführlichen Behandlung der wichtigsten Grundlagen der Statistik und Wahrscheinlichkeitsrechnung soll das Buch auch einen Einblick in Gebiete geben, die im späteren Studium und im Berufsleben Anwendung finden. Ziel des Autors ist es, Interesse zu wecken, den Stoff möglichst klar und verständlich darzustellen. Dabei sollen viele Beispiele zum besseren Verständnis beitragen. Zur Übung des Stoffes sind a m Ende eines jeden Kapitels zahlreiche Übungsaufgaben angegeben. Um vor allem die Anwender anzusprechen, wurde bei vielen Sätzen auf die Beweise verzichtet. Gelegentlich wurden Beweise durch Plausibilitätsbetrachtungen ersetzt. Quellenhinweise auf vollständige Beweise werden im Text angegeben. Im Literaturverzeichnis sind die zitierten Werke zusammengestellt. Das Buch gliedert sich in drei Teile. Im ersten Teil wird die beschreibende (deskriptive) Statistik behandelt. Der zweite Teil beschäftigt sich mit Wahrscheinlichkeitsrechnung, ohne die keine sinnvolle Statistik möglich ist. In der beurteilenden (induktiven) Statistik im Teil III werden schließlich die statistischen Verfahren behandelt. Zur Aufstellung der entsprechenden Formeln und vor allem für die Interpretation der damit gewonnenen Ergebnisse ist die Wahrscheinlichkeitsrechnung unentbehrlich. Gleichzeitig werden dabei Grundlagen aus der beschreibenden Statistik benutzt. Es d ü r f t e kaum möglich sein, in einer zweisemestrigen Vorlesung den ges a m t e n Stoff dieses Buches zu behandeln. Aus diesem Grunde müssen Schwerpunkte gesetzt werden. Als Schwerpunkt könnte ζ. B. die beschreibende Statistik oder die Wahrscheinlichkeitsrechnung gewählt werden. Der eine oder andere Abschnitt kann durchaus übersprungen oder erst später nachgearbeitet werden. Es ist nicht möglich, auch in einem ausführlichen Buch sämtliche Verfahren der Statistik zu behandeln. Das Buch erhebt also keineswegs den Anspruch auf Vollständigkeit. In der Anwendung werden immer wieder Verfahren benötigt, die hier nicht behandelt wurden. In einem solchen Fall m u ß auf die Spezialliteratur zurückgegriffen werden. Zur Vorbereitung auf Prüfungen sei auf das ebenfalls im Oldenbourg-Verlag erschienene Buch K L A U S U R T R A I N I N G S T A T I S T I K (Bosch) verwiesen. Dort sind zahlreiche prüfungsrelevante Aufgaben mit vollständigen Lösungen zu finden.
XVIII
Vorwort
Bezüglich der benötigten Mathematik sei auf zwei im selben Verlag erschienene Bücher hingewiesen: Eine elementare Darstellung mathematischer Grundlagen ist in Bosch K.: MATHEMATIK FÜR WIRTSCHAFTSWISSENSCHFTLER, 10., erweiterte Auflage, 1995 zu finden. Eine ausführlichere Darstellung enthält das Lehrbuch Bosch K./Jensen U.: GROSSES LEHRBUCH DER MATHEMATIK FÜR ÖKONOMEN. Für die sorgfältige Durchsicht des Manuskripts sowie die wertvollen Hinweise und Verbesserungsvorschläge bedanke ich mich bei meinen Mitarbeitern Herrn Dipl. math. oec. D. Reepschläger, Herrn Dipl. math. Τ. Severin und Herrn Diplom-Betriebswirt (BA) C. Frank.
Karl Bosch
Teil I Beschreibende (deskriptive) Statistik Ziel der beschreibenden Statistik ist es, umfangreiches Datenmaterial aus statistischen Erhebungen übersichtlich darzustellen. Dazu werden oft graphische Darstellungen benutzt, die eine "optische Information" über das gesamte Datenmaterial ergeben. Ferner werden aus dem Datenmaterial Kenngrößen berechnet, welche über das gesamte Stichprobenmaterial möglichst viel Informationen liefern sollen. Durch die Angabe solcher Kenngrößen findet allerdings im allgemeinen eine Datenreduktion statt. In der Regel gehen dabei Informationen über das in der statistischen Erhebung gewonnene Datenmaterial (Urmaterial) verloren. Mit Hilfe dieser Kenngrößen (Parameter) können zunächst nur Aussagen über die Grundgesamtheit gemacht werden, welche im vorliegenden Datenmaterial untersucht wurde. Aus diesem Datenmaterial abgeleitete Aussagen dürfen nicht ohne weiteres auf größere Grundgesamtheiten übertragen werden. Dazu müssen bestimmte Voraussetzungen bezüglich der Stichprobenentnahme erfüllt sein. Es muß sich um sogenannte repräsentative Stichproben handeln. Diese Thematik wird in der beurteilenden Statistik (Teil III) behandelt. Nach der Kassifikation von Merkmalen in Kapitel 1 beschäftigt sich Kapitel 2 mit eindimensionalen Stichproben bzw. Häufigkeitsverteilungen. Dabei werden verschiedene Lage- und Streuungsparameter angegeben, die über die Häufigkeitverteilung möglichst viel Information liefern sollen. Ferner werden in Abschnitt 2.6 Konzentrationsmaße und in Abschnitt 2.7 Indexzahlen untersucht.
2
Teil I: Beschreibende (deskriptive) Statistik
In Kapitel 3 werden zweidimensionale Beobachtungsreihen behandelt. In der Korrelationsrechnung (Abschnitt 3.4) wird nur der Zusammenhang zweier Merkmale untersucht, während man in der Regressionsrechnung (Abschnitt 3.4) von einem Merkmal auf das andere Schließern möchte. Hier interessiert also die Ursache der Abhängigkeit. Abschnitt 3.5 beschäftigt sich mit Zeitreihen. Neben der Trendbestimmung werden dort Komponenten geschätzt und Saisonbereinigungen durchgeführt. In Kapitel 4 werden schließlich p-dimensionale Stichproben untersucht. Im Vordergrund steht dabei die multiple lineare Regression sowie die Korrelationsrechnung.
Kapitel 1: Merkmale und Skalierung 1.1 Merkmale In einer statistischen Erhebung werden in der Regel bei verschiedenen Merkmalsträgern (Individuen oder statistischen Einheiten) ein oder auch mehrere Merkmale gleichzeitig festgestellt. Die verschiedenen Ergebnisse, die bei der Beobachtung eines bestimmten Merkmals auftreten können, nennt man Merkmalsausprägungen. Beispiel 1.1: a) Das Merkmal "Geschlecht" besitzt die beiden Merkmalsausprägungen männlich und weiblich. b) Bei einer Qualitätskontrolle interessiere nur, ob ein untersuchtes Werkstück fehlerhaft oder brauchbar ist. Bezüglich dieses Beobachtungsmerkmals gibt es nur die beiden Ausprägungen fehlerhaft und brauchbar. c) Das Merkmal "Farbe eines Gegenstands" besitzt die Ausprägungen rot, weiß, grün, blau, schwarz,... . Als mögliche Merkmalsausprägungen kommen sämtliche Farben in Frage. d) Das Merkmal "Beruf einer Person" besitzt sehr viele verschiedene Ausprägungen, ζ. B. Verkäuferin, Kaufmann, Automechaniker oder Lehrer. Sämtliche Berufe vollständig aufzuzählen, dürfte kaum möglich sein. e) Der Handelspreis für eine bestimmte Obst- oder Gemüsesorte hängt im allgemeinen von der Handelsklasse ab. Falls vier Handelsklassen zugelassen werden, bezeichnet man diese mit I, II, III, IV bzw. mit A, B, C und D. Dabei ist I (A) die beste und IV (D) die schlechteste Klasse. Hier gibt es also vier Merkmalsausprägungen. f) Auf verschiedenen Feldern werde der Ernteertrag pro Hektar festgestellt. Die Merkmalsausprägungen sind reelle Zahlen in einem bestimmten Bereich (Intervall). In diesem Beispiel wird bereits deutlich, daß bei den Beobachtungsmerkmalen verschiedene Typen auftreten können. Beim Zählen, Messen oder Wiegen sind die Merkmalsausprägungen unmittelbar reelle Zahlen, die in bestimmten Einheiten gemessen werden. Die einzelnen Merkmalsausprägungen unterscheiden sich durch ihre Größe. Durch die vier Handelsklassen in Beispiel e) kommt nur ein Qualitätsunterschied zum Ausdruck. Dabei wird jedoch keine Aussage darüber gemacht, um wieviel eine Handelsklasse besser oder schlechter ist als eine andere. Im Gegensatz zu e) und f) können in a) bis d) die einzelnen Merkmalsausprägungen nicht miteinander verglichen werden. Zwischen den einzelnen Ausprägungen gibt es keine Rangordnung.
4
Kapitel 1: Merkmale und Skalierung
Wir wollen nun verschiedene Merkmalstypen klassifizieren. Unterschieden wird dabei nach der Art des Merkmals und nach der Anzahl der möglichen Merkmalsausprägungen. Quantitative (zahlenmäßige) Merkmale sind solche, deren Ausprägungen in bestimmten Einheiten gemessen werden können. Sie werden durch reelle Zahlen dargestellt. Zwischen verschiedenen Ausprägungen eines quantitativen Merkmals besteht immer eine Rangordnung (Reihenfolge), also eine Größer-Kleiner-Beziehung. Die Ausprägungen unterscheiden sich durch ihre Größe. Bei quantitativen Merkmalen muß der Unterschied zwischen zwei Merkmalsausprägungen stets quantifiziert (gemessen) werden können. Beim Zählen, Messen oder Wiegen werden Ausprägungen quantitativer Merkmale festgestellt. Qualitative (artmäßige) Merkmale sind Merkmale, welche nicht quantitativ sind. Solche Merkmale können nur qualitativ (verbal) beschrieben werden. Sie lassen sich nicht direkt durch Zahlen kennzeichnen, zwischen denen eine natürliche Reihenfolge (Größer-Kleiner-Beziehung) besteht. Die Ausprägungen eines qualitativen Merkmals unterscheiden sich nur durch ihre Art. Der Unterschied zwischen zwei Ausprägungen eines qualitativen Merkmals kann nicht gemessen werden. Qualitative Merkmale sind ζ. B. Geschlecht, Familienstand, Beruf, Konfession, Haarfarbe, Handelsklasse oder Steuerklasse. Formal könnte man zwar allen Ausprägungen eines qualitativen Merkmals Zahlen zuordnen. Durch eine solche formale Quantifizierung geht das qualitative Merkmal jedoch keineswegs in ein quantitatives über, es bleibt weiterhin qualitativ. Nur die Bezeichnungen für die Ausprägungen werden geändert. Beispiel 1.2: Bei den üblichen Zensuren für Leistungen in der Schule oder Universität "sehr gut, gut, befriedigend, ausreichend, mangelhaft, ungenügend" handelt es sich um ein qualitatives Merkmal. Dabei ist zwischen den Ausprägungen zwar eine Rangordnung vorgegeben, denn "sehr gut" ist besser als "gut", "gut" besser als "befriedigend" usw. Die genauen Unterschiede zwischen den einzelnen Noten liegen im allgemeinen aber nicht fest und sind meistens auch nicht gleich. Insbesondere gilt dies bei der Bewertung von Aufsätzen in Deutsch oder Geschichtsarbeiten. In der Regel werden den Zensuren zwar die Zahlen 1,2 , 3,4 , 5 , 6 zugeordnet. Dadurch findet eine Quantifizierung statt. Das Merkmal wird also formal quantifiziert. Durch diese Quantifizierung entsteht allerdings der Eindruck, daß die Unterschiede zwischen zwei aufeinanderfolgenden Zensuren jeweils gleich sind, was im allgemeinen aber nicht der Fall ist. Diskrete Merkmale sind solche, die nur endlich viele oder höchstens abzählbar unendlich viele verschiedene Merkmalsausprägungen besitzen. "Endlich
1.2 Skalierung
5
viele" bedeutet dabei, daß die Merkmalsausprägungen von 1 an bis zu einer endlichen ganzen Zahl durchnumeriert werden können. "Abzahlbar unendlich" bedeutet, daß es zwar unendlich viele verschiedene Merkmalsausprägungen gibt, die jedoch wie die natürlichen Zahlen von 1 an ohne Ende durchnumeriert werden können. Beim Zählen werden diskrete Merkmale untersucht. Stetige Merkmale sind Merkmale, deren Ausprägungen ein ganzes Intervall der Zahlengeraden bilden. Ihre Ausprägungen gehen also im Gegensatz zu diskreten Merkmalen fließend ineinander über. Beim Messen oder Wiegen werden im allgemeinen Ausprägungen stetiger Merkmale festgestellt.
1.2 Skalierung Um die verschiedenen Ausprägungen eines Merkmals nach den gleichen Kriterien angeben oder messen zu können, muß zuerst eine Skala vorgegeben werden. Durch die Skalierung werden den Merkmalsausprägungen einzelne Werte (Plätze) der Skala zugeordnet. Die jeweilige Skala hängt dabei vom Typ des Merkmals ab. Nominalskala: Eine Nominalskala liegt vor, wenn durch sie nur die Verschiedenheit der Ausprägungen eines Merkmals zum Ausdruck gebracht werden kann. Merkmale, deren Ausprägungen nur in einer solchen Skala dargestellt werden könnnen, heißen nominale Merkmale. Nominalskalen sind Skalen qualitativer Merkmale, bei denen es keine natürliche Rangordnung gibt. Nominalskalen sagen am wenigsten über die Merkmalsausprägungen aus. Sie stellen die niedrigste Stufe einer Skala dar. Beispiel 1 . 3 : Die Ausprägungen der Merkmale Geschlecht, Konfession, Beruf, Farbe oder Steuerklasse sind nicht miteinander vergleichbar. Es handelt es sich um nominale Merkmale. Durch die Zuordnung: männlich0; männlich«-» 1 oder eine andere Zahlenzuordnung wählen können. Ordinalskala (Rangskala): Eine Ordinalskala (Rangskala) liegt vor, wenn die unterscheidbaren Merkmalsausprägungen in eine natürliche Rangordnung (Reihenfolge) gebracht werden können. Ordinal skalierte Merkmale heißen ordinale Merkmale. Abstände zwischen verschiedenen Ausprägungen ordinaler Merkmale sind jedoch nicht quantifizierbar (nicht interpretierbar). Durch die Rangordnung können den Ausprägungen zwar Zahlen zuge-
6
Kapitel 1: Merkmale und Skalierung
ordnet werden, doch sagen diese Zuordnungszahlen nichts über die Abstände der einzelnen Merkmalsausprägungen aus. Im Gegensatz zu qualitativen können quantitative Merkmale immer angeordnet werden. So besteht bei den Merkmalen Güteklasse bei Lebensmitteln, Tabellenplatz einer Fußballiga oder Intelligenzquotient eine natürliche Rangordnung. Ihre Ausprägungen lassen sich anordnen, obwohl es sich um kein quantitatives Merkmal handelt. Metrische Skala (Kardinalskala): Man spricht von einer metrischen Skala oder Kardinalskala, wenn zwischen den Merkmalsausprägungen nicht nur eine Reihenfolge (Rangordnung) besteht, sondern auch die Abstände zwischen den Merkmalsausprägungen miteinander verglichen werden können. Metrische Skalen sind Skalen quantitativer Merkmale. Merkmale mit einer metrischen Skala nennt man metrisch skaliert oder kardinal. Beispiele für metrisch skalierte Merkmale sind: Börsenkurse, Gewinne, Verluste, Erträge, Längen, Gewichte, monetäre und physikalische Größen. Die metrischen Skalen sind im allgemeinen bis auf die Wahl der Maßeinheit eindeutig bestimmt. Beispiel 1.4: In einer statistischen Erhebung sind verschiedene Fragen zu beantworten. Für einige Merkmale sollen die entsprechenden Typen angegeben werden: Wohnort: nominales diskretes Merkmal. Ausprägungen sind alle Städte und Ortschaften des Landes. Geschlecht: nominales diskretes Merkmal mit den beiden Ausprägungen "weiblich" oder "männlich". Beruf: nominales diskretes Merkmal mit den Angaben "nicht berufstätig", "angestellt", "Arbeiter", "Landwirt", "selbständig" oder "freiberuflich". Konfession: nominales diskretes Merkmal. Die Ausprägungen sind die verschiedenen Religionsgemeinschaften. Alter (ganze vollendete Jahre): metrisch skaliertes diskretisiertes Merkmal mit den Ausprägungen 0 , 1 , 2 , . . . . Körpergröße in cm: metrisch skaliertes diskretisiertes Merkmal. Körpergewicht in kg: metrisch skaliertes diskretisiertes Merkmal. Bemerkung: Alter, Körpergröße und Körpergewicht sind zunächst stetige Merkmale, da jede reelle Zahl aus einem bestimmten Intervall als Merkmalswert möglich ist. Durch die Angaben "in ganzen Jahren, in cm und in kg" findet eine Diskretisierung statt. Im Gegensatz zur Altersangabe ist die Rundung bei der Körpergröße und beim Gewicht nicht eindeutig festgelegt. Manche Personen werden im mathematischen Sinne korrekt runden, andere prinzipiell ab- bzw. aufrunden. Bei der Feststellung eines stetigen Merkmals (ζ. B. beim Messen oder Wieen) findet durch das Runden eine Diskretisierung statt.
Kapitel 2 : Eindimensionale Darstellungen In diesem Abschnitt soll nur ein einziges Merkmal untersucht werden. An η Merkmalsträgern aus einer bestimmten Grundgesamtheit wird jeweils die Ausprägung des Merkmals festgestellt. Die Merkmalsausprägung beim iten Merkmalsträger bezeichnen wir mit Xj für i = 1 , 2 , . . . , n. Man nennt X; die i-te Beobachtungseinheit. Alle η Merkmalswerte zusammen bilden das n-Tupel χ = (x-j, x 2 , . . . , XjJ. Dieses n-Tupel heißt Beobachtungsrcihe (Urliste oder Stichprobe) vom Umfang n. Falls die Merkmalswerte sämtlicher Individuen einer Grundgesamtheit festgestellt werden, spricht man von einer Total- oder Vollerhebung, andernfalls von einer Teilerhebung. Bei Volkszählungen finden in der Regel Totalerhebungen, bei Meinungsumfragen Teilerhebungen statt.
2.1 Häufigkeitsverteilungen bei diskreten Merkmalen Ein diskretes Merkmal besitze die verschiedenen Ausprägungen a j , a 2 , Die Anzahl der verschiedenen Ausprägungen kann dabei endlich oder abzählbar unendlich sein. Der Merkmalswert x ; stimmt dann mit einem dieser Merkmalsausprägungen überein. Falls es nur m verschiedene Ausprägungen gibt, können in der Beobachtungsreihe höchstens m verschiedene W e r t e x ; auftreten.
2.1.1 Absolute und relative Häufigkeiten Die Anzahl derjenigen Beobachtungseinheiten aus der Urliste vom Umfang n, welche die Merkmalsausprägung aj besitzen, nennt man die absolute Häufigkeit von a j . W i r bezeichnen sie mit h n ( a j ) . Dabei gibt der Index η den Umfang der Urliste an. Es ist also hj = h n ( a j ) = Anzahl der Beobachtungswerte, die gleich aj sind.
(2.1)
Die absolute Häufigkeit 28 ist bei einem Versuchsumfang η = 30 groß, während sie bei einem Versuchsumfang η = 100 klein ist. Aus diesem Grund muß die absolute Häufigkeit in Relation zum Versuchsumfang η gesetzt werden. Division der absoluten Häufigkeit h n ( a j ) durch den Stichprobenumfang η ergibt eine Größe, die v o m Versuchsumfang η unabhängig ist. Den so erhaltenen W e r t
8
Kapitel 2: Eindimensionale Darstellungen r
j=rn(aj)=irhn(aj)> j = l,2,...,m
(2.2)
nennt man die relative Häufigkeit von aj in der Urliste. Weil 100r n (aj)% der Beobachtungswerte die Ausprägung aj besitzen, beschreibt die relative Häufigkeit den prozentualen Anteil (prozentuale Häufigkeit) der Merkmalsausprägung a j . Die relative Häufigjkeit liegt immer zwischen Null und Eins unabhängig vom Stichprobenumfang n. Je größer sie ist, um so öfter ist der Merkmalswert eingetreten. Die relative Häufigkeit beschreibt damit die absolute Häufigkeit unabhängig vom Versuchsumfang n. Die prozentuale Häufigkeit liegt zwischen 0 und 100. Allgemein gelten für die absoluten und die relativen Häufigkeiten die Eigenschaften: m ο < h n ( a i) ^ n f ü r J e d e s j ; Σ h n( a i) = n ; j=! (2.3) m ο < r n (a:) < 1 für jedes j ; £ r (a=) = 1. j=i Die absoluten und relative Häufigkeiten können sowohl bei qualitativen als auch bei quantitativen Merkmalen bestimmt werden. Definition 2.1 (Häufigkeitsverteilung): In einer Stichprobe vom Umfang η sollen die Merkmalsausprägungen a t , a 2 , . . . die absoluten Häufigkeiten h n ( a j ) , h n ( a 2 ) , . . . und die relativen Häufigkeiten r ( a ^ , r n ( a 2 ) , . . . besitzen. Dann heißt die Gesamtheit der Paare ( a j> h n ( a j ) ) ' J = 1 . 2 , . . . die absolute Häufigkeitsverteilung und ( a j> r n ( a j ) ) > j = 1 , 2 , . . . die relative Häufigkeitsverteilung des diskreten Merkmals.
2.1.2 Strichliste und Häufigkeitstabelle In der Urliste sind die Beobachtungswerte im allgemeinen völlig ungeordnet und damit - vor allem bei großen Stichprobenumfängen n - nicht übersichtlich. Aus diesem Grund versucht man, die Beobachtungswerte in einer Tabelle übersichtlich darzustellen. Dazu trägt man in der ersten Spalte der Häufigkeitstabelle (vgl. Tabelle 2.1) alle Merkmalsausprägungen ein. Falls es sehr viele oder gar abzählbar unendlich viele verschiedene Merkmalswerte gibt, müssen Merkmalswerte zusammengefaßt werden, am besten solche, die in der Urliste selten vorkommen.
2.1 Häufigkeitsverteilungen bei diskreten Merkmalen
9
Für jeden Beobachtungswert der Urliste wird in die zweite Spalte hinter dem entsprechenden Merkmalswert ein senkrechter Strich | eingetragen. Der Ubersicht halber werden fünf Striche durch den Block {}}} dargestellt. Jeweils der fünfte Strich wird waagrecht durch die vorangehenden vier Striche gezogen. Dadurch entstehen Fünferblöcke mit einem Rest. In zwei weiteren Spalten werden die absoluten Häufigkeiten (Anzahl der Striche) und die relativen Häufigkeiten der jeweiligen Merkmalswerte eingetragen. Die Häufigkeitstabelle enthält also die absolute und die relative Häufigkeitsverteilung. Durch die Übertragung der Urliste in eine Häufigkeitstabelle gehen allerdings wesentliche Informationen über die Urliste verloren, da die Reihenfolge, in der die Beobachtungswerte auftreten, in der Tabelle nicht mehr feststellbar ist. Beispiel 2.1: In einem Verein kandidierten die drei Personen Α, Β und C für den Posten des ersten Vorstands. Bei der Abstimmung waren 75 Personen stimmberechtigt. Nach der Satzung ist derjenige Kandidat gewählt, welcher die meisten Stimmen erhält. Bei der Auszählung der Stimmzettel wird für jede Stimme in der Tabelle 2.1 an der entsprechenden Stelle ein | eingetragen (2. Spalte). In der dritten Spalte sind die absoluten Häufigkeiten als Anzahl der Stimmen (Striche) aufgeführt. Der Kandidat Β erhielt die Mehrheit der Stimmen und wurde damit gewählt. Division der absoluten Häufigkeiten durch den Stichprobenumfang η = 75 ergibt die relativen Häufigkeiten in der 4. Spalte. Multiplikation der relativen Häufigkeiten mit 100 ergibt die prozentualen Stimmenanteile.
Kandidat
absolute relative prozentualer Häufigkeit abgegebene Stimmen Häufigkeit Anteil
Kandidat A
IUI πι! ΗΝ ι TTTT TTTT TttT 1
16
0,213
21,3
Kandidat Β
ttttttttttttttttllll
24
0,320
32,0
Kandidat C
IUI im mi mi η ττττ πτΐ TTTT trrt II
22
0,293
29,3
Enthaltungen
H M III
13
0,173
17,3
ungültig
0
0
0
Summe
η = 75
0,999
99,9
T a b . 2.1: Strichliste und Häufigkeitstabelle In der letzten Zeile stehen die Spaltensummen gebildet. Die Summe aller relativen Häufigkeiten müßte eigentlich 1 ergeben. Die hier aufgetretene Abweichung ist auf das Runden der relativen Häufigkeiten zurückzuführen. Genauso müßten alle prozentualen Anteile zusammen gleich 100 sein.
10
Kapitel 2: Eindimensionale Darstellungen
Beispiel 2.2: In 50 Familien wurde jeweils die Anzahl der Kinder festgestellt und in der Tabelle 2.2 eingetragen. Anzahl der Kinder aj=j
absolute Anzahl der Familien Häufigkeit hso(aj)
relative Häufigkeit rso(aj)
prozentualer Anteil 100T5O(aj)
0
M i l
12
0,24
24
1
Mttttll
17
0,34
34
2
HH IUI
9
0,18
18
3
ttttl
6
0,12
12
4
IUI
4
0,08
8
5
II
2
0,04
4
mehr als 5
0
0
0
Summe
η = 50
1,00
100
T a b . 2.2: Strichliste und Häufigkeitstabelle
2.1.3 Graphische Darstellungen Eine in einer Häufigkeitstabelle dargestellte Beobachtungsreihe kann in einer graphischen Darstellung übersichtlicher dargestellt werden. Bei der Wahl der graphischen Darstellung wird zwischen quantitativen und qualitativen Merkmalen unterschieden. 2.1.3.1 Graphische Darstellungen von Häufigkeitsverteilungen quantitativer diskreter Merkmale Bei einem quantitativen Merkmal sind die Ausprägungen reelle Zahlen und können somit auf dem Zahlenstrahl (x-Achse) dargestellt werden. Senkrecht nach oben trägt man die absoluten bzw. relativen Häufigkeiten ab. In einem Stabdiagramm (Balkendiagramm) werden über den einzelnen Merkmalswerten senkrecht nach oben Stäbe angetragen, deren Längen die absoluten bzw. relativen Häufigkeiten sind. Im Stabdiagramm der absoluten Häufigkeiten haben alle Stäbe zusammen die Länge η (Anzahl der Stichprobenwerte). Diese Eigenschaft muß bei der Maßstabsfestsetzung berücksichtigt werden. Im Stabdiagramm der relativen Häufigkeiten ist die Gesamtlänge aller Stäbe zusammen immer gleich Eins unabhängig vom Stichprobenumfang n. Aus diesem Grund kann bei Stabdiagrammen für die relativen Häufigkeiten immer der gleiche Maßstab gewählt werden.
2.1 Häufigkeitsverteilungen bei diskreten Merkmalen
11
In einem Häufigkeitspolygon werden die (oberen) Endpunkte der einzelnen Stäbe geradlinig miteinander verbunden. In einem Histogramm (Säulendiagramm) stellt man die absoluten bzw. relativen Häufigkeiten durch Flächeninhalte von Rechtecken senkrecht über den einzelnen Merkmalsausprägungen dar. Nur wenn alle Rechtecke gleich breit sind, können als Höhen jeweils die Häufigkeiten bzw. das gleiche Vielfache davon benutzt werden (flächenproportionale Darstellung). In Bild 2.1 ist die relative Häufigkeitsverteilung aus Tab. 2.1 (Beispiel 2.2) in einem Stabdiagramm, Häufigkeitspolygon und Histogramm graphisch dargestellt. Weil jeweils zwei benachbarte Merkmalsausprägungen (Anzahl der Kinder) voneinander den Anstand 1 besitzen, kann im Histogramm als Höhe direkt die relative Häufigkeit gewählt werden. Die Bilder für die absoluten und relativen Häufigkeiten unterscheiden sich nur durch den Maßstab auf der y-Achse.
a) Stabdiagramm
b) Häufigkeitspolygon
c) Histogramm
Bild 2.1: Verteilung der relativen Häufigkeiten eines quantitativen Merkmals 2.1.3.2 Graphische Darstellungen von Häufigkeitsverteilungen qualitativer diskreter Merkmale Bei qualitativen Merkmalen sind die Ausprägungen im allgemeinen keine reellen Zahlen. Formal könnte man die abstrakten Ausprägungen zwar auf der Zahlengeraden darstellen und die Graphiken wie bei quantitativen Merkmalen anfertigen. Dieses Vorgehen ist jedoch nicht sinnvoll. Bei einer Darstellung auf dem Zahlenstrahl besteht nämlich die Gefahr, daß durch
12
Kapitel 2: Eindimensionale Darstellungen
die willkürlich gewählte Anordnung fälschlicherweise eine Rangordnung zwischen den Ausprägungen hineininterpretiert wird. Aus diesem Grund benutzt man hier andere graphische Darstellungen. In einem Rechteckdiagramm wird die Fläche eines Rechtecks proportional zu den Häufigkeiten aufgeteilt. Bei dieser flächenproportionalen Darstellung verhalten sich die Häufigkeiten zweier Merkmalswerte wie die Inhalte der ihnen zugeordneten Flächen. Oft benutzt man ein Kreisdiagramm. In einem Kreis wird zu jeder Merkmalsausprägung ein Kreissektor gebildet, wobei die Flächen der Sektoren und damit auch die Innenwinkel proportional zu den Häufigkeiten gewählt werden. Auch hier verhalten sich die Flächeninhalte der Kreissektoren wie die Häufigkeiten der den Sektoren zugeordneten Merkmalsausprägungen. Anstelle eines Kreises könnte man aber auch eine beliebige Fläche oder einen dreidimensionalen Körper wählen und die Fläche (das Volumen) im Verhältnis der Häufigkeiten aufteilen. In Bild 2.2 ist die Häufigkeitsverteilung des in Tab. 2.1 (Beispiel 2.1) dargestellten qualitativen Merkmals skizziert. Da die Innenwinkel proportional zu den Stimmenzahlen sind, entspricht jeder einzelnen Stimme ein Winkel von ^ = 4,8°. Damit erhält man folgende Winkel: Kandidat A: 16 ·4,8 = 76,8°; Kandidat B: 115,2°; Kandidat C: 105,6°; Enthaltungen: 62,4°.
A
Enth.
a) Rechteckdiagramm
b) Kreisdiagramm
Bild 2.2: Häufigkeitsverteilungen eines qualitativen Merkmals
2.2 Häufigkeitsverteilungen bei Klassenbildungen
13
2.2 Häufigkeitsverteilungen bei Klassenbildungen Falls ein stetiges Merkmal erhoben wird, sind die in der Urliste vorkommenden Beobachtungswerte in der Regel alle voneinander verschieden, wenn nur genau genug gemessen wird. Die Häufigkeitsverteilungen sind dann nicht übersichtlich. Das gleiche Problem tritt bei diskreten Merkmalen mit sehr vielen verschiedenen Ausprägungen auf. In einem solchen Fall ist es sinnvoll, Merkmalswerte zusammenzufassen. Falls bei qualitativen Merkmalen Werte zusammengefaßt werden, sind die so entstehenden Ausprägungen (Klassen) wieder qualitativ. Dann können die Häufigkeitsverteilungen dieser Merkmalsklassen wie in Abschnitt 2.1 dargestellt werden. Bei quantitativen stetigen Merkmalen wird die Klasseneinteilung auf einem Intervall vorgenommen, das alle Beobachtungswerte enthält. Dazu wird das Intervall in mehrere Teilintervalle zerlegt. Diese Teilintervalle nennt man Klassen oder Gruppen. Jede Klasse ist durch eine linke und eine rechte Klassengrenze bestimmt, wobei eindeutig festgelegt sein muß, zu welcher der beiden angrenzenden Klassen der entsprechende Grenzpunkt gehört. Als Klassenintervalle wählt man im allgemeinen halboffene Intervalle. Eine ideale Klasseneinteilung wäre eine mit lauter gleichen Klassenbreiten. In einem solchen Fall sind die Klassengrenzen äquidistant. Oft sind jedoch bei einer äquidistanten Einteilung Klassen, vor allem die Klassen an den Rändern sehr schwach besetzt. Dann ist es sinnvoll, diese Randklassen breiter zu machen. Die Anzahl der Klassen bezeichnen wir mit m und die einzelnen Klassen der Reihe nach mit K
l'
K
2'
K
3'---'K
m
_1, Km .
Die zugehörigen Klassenbreiten seien bj, b 2 , . . . , b m . Aus einer Klasseneinteilung lassen sich allerdings die Beobachtungswerte nicht mehr genau feststellen. Man weiß nur, zwischen welchen Grenzen sie liegen. Daher ist eine Klassenbildung mit einem Informationsverlust verbunden. Man kann nur noch feststellen, wie viele Beobachtungswerte in der jeweiligen Klasse liegen. Die genauen Zahlenwerte können aus der Klasseneinteilung nicht mehr abgelesen werden. Ein einfaches Beispiel einer Klasseneinteilung findet man bei den Portokosten eines Briefes. Für sämtliche Briefe bis zu 20 Gramm müssen die gleichen Portokosten entrichtet werden. Die nächste Klasse geht von 20 bis 50 Gramm, danach von 50 bis 100 Gramm usw. Die einzelnen Gewichtsklassen mit konstanten Portokosten sind verschieden breit. Die Anzahl der Beobachtungswerte, welche in der Klasse Kj enthalten sind, heißt die absolute Klassenhäufigkeit. Wir bezeichnen sie mit
Kapitel 2: Eindimensionale Darstellungen
14
hj = h n (Kj) = Anzahl der Beobachtungswerte in der Klasse Kj. Division durch den Versuchsumfang η = h j + h 2 + . . . + h m ergibt die relative Klassenhäufigkeit m 1 r j = r n ( K j ) = η · h j m i t Σ r j = 1. j=i Die Klasseneinteilung wird in einem Histogramm graphisch dargestellt. Dazu wird über jeder Klasse ein Rechteck gebildet, dessen Flächeninhalt proportional zur absoluten bzw. relativen Klassenhäufigkeit ist. Nur wenn sämtliche Klassen die gleiche Breite besitzen, dürfen als Höhen unmittelbar die Klassenhäufigkeiten benutzt werden. Sonst müssen andere Höhen gewählt werden. Für die relativen Klassenhäufigkeiten erhält man die r
„ , , , , ... ,. τ,, τ, Rechteckshohe iur die Klasse K ; : J
j relative Klassenhäufigkeit = ^ :—rr— 2 . bj Klassen breite
Oft ist man gezwungen, auf beiden Achsen verschiedene Maßstäbe zu wählen. Das gesamte Histogramm besitzt dann den Flächeninhalt Eins. Beispiel 2.3: Bei 50 Aggregaten des gleichen Typs wurde die Betriebsdauer in Stunden festgestellt: 1 2790 1366 647 864 1815 33 2503 5 1040 702 1207 740 27 1618 476 566 1625 1562 1902 374 483 2128 238 1095 205 750 180 1153 1673 194 1675 1558 270 1228 118 206 671 363 27 362 2936 1855 48 1244 299 579 255 291 550 Für diese Meßwerte ist in Tabelle 2.3 eine Klasseneinteilung angegeben mit den Klassengrenzen 200, 400, 800, 1200, 1600, 2000, 3000.
Klasse
hj = absolute Klassenhäufigkeit
Γ; = relative Klassenhäufigkeit
Kx = ( 0 ; 2 0 0 ]
9
0,18
K2 = ( 2 0 0 ; 4 0 0 ]
10
0,20
K3 =(400;800]
10
0,20
K 4 = (800; 1200]
4
0,08
K 5 = (1200; 1600]
6
0,12
K 6 = (1600; 2000]
7
0,14
K 7 = (2000; 3000]
4
0,08
η = 50
1,00
Summe Tab. 2.3: Klasseneinteilung
2.2 Häufigkeitsverteilungen bei Klassenbildungen
15
Im flächenproportionalen Histogramm in Bild 2.3 für die relativen Klassenhäufigkeiten dürfen als Höhen der Rechtecke nicht unmittelbar die relativen Klassenhäufigkeiten gewählt werden, weil die Klassenbreiten verschieden sind. Die relativen Häufigkeiten müssen durch die Klassenbreiten dividiert werden. Dadurch erhält man der Reihe nach die Rechteckshöhen ^
= 0,0009; g
^
= 0,00035; g
= 0,001; ^
= 0,0005; ^
= 0,0002; ^
= 0,0003;
= 0,00008.
r
. A
Breite
0,001
-
0,0005-
0,0001^
0
200
400
χ
800 χ
1200
1600
2000
3000 χ
Bild 2.3: Histogramm einer Klasseneinteilung Bemerkung: Würde man in diesem Histogramm als Rechteckshöhen unmittelbar die absoluten Häufigkeiten der jeweiligen Klassen wählen, so hätte das zweite und dritte Rechteck die gleiche Höhe 10. Das dritte Rechteck ist aber doppelt so breit wie das zweite. Dann wäre der Flächeninhalt des dritten Rechtecks aber doppelt so groß wie der des zweiten Rechtecks. Da man aber unweigerlich Flächeninhalte mit den Häufigkeiten in Zusammenhang bringt, würde man daraus vermutlich den falschen Schluß ziehen, die Häufigkeit der dritten Klasse sei doppelt so groß wie die der zweiten. Nur wenn alle Klassen gleich breit sind, dürfen als Höhen unmittelbar die Häufigkeiten benutzt werden.
Kapitel 2: Eindimensionale Darstellungen
16
2.3 Die empirische Verteilungsfunktion Bei vielen Problemen möchte man wissen, wie viele der Beobachtungswerte eine bestimmte Grenze nicht überschreiten. Beispiele dafür sind: Die Anzahl der Betriebe, die einen Jahresumsatz von höchstens einer Milliarde DM haben, die Anzahl der Studierenden, die für das Studium nicht mehr als 10 Semester benötigen oder der Bevölkerungsanteil, dessen Monatseinkommen höchstens 5 000 DM beträgt. Eine solche allgemeine Fragestellung ist nur bei quantitativen Merkmalen sinnvoll, deren Ausprägungen reelle Zahlen sind. Ausgangspunkt ist ein quantitatives Merkmal, dessen Ausprägungen der Größe nach geordnet werden können.
2.3.1 Die empirische Verteilungsfunktion einer Stichprobe Wir bezeichen mit H n (x) die Anzahl der Beobachtungswerte x ; , die kleiner oder höchstens gleich dem festen Zahlenwert χ sind, also H n (x) = Anzahl der Stichprobenwerte Xj mit x ; < χ .
(2-4)
Die für jedes χ e IR definierte Funktion H n heißt die absolute Summenhäufigkeitsfunktion der Stichprobe. Division des Funktionswertes H n (x) durch η ergibt die Funktion F
n(x) = iTHn(x) =
Anzahl der Stichprobenwerte x ; mit x ; < χ . η
(2.5)
Die Funktion F n nennt man die relative Summenhäufigkeitsfunktion oder empirische Verteilungsfunktion der Stichprobe (Beobachtungsreihe). An jeder Stelle χ e R stellt der Funktionswert F n ( x ) den relativen Anteil derjenigen Stichprobenwerte dar, die kleiner oder gleich, also höchstens gleich χ sind. Zur Bestimmung der Funktionen H n und F n und für deren graphische Darstellungen müssen die η Stichprobenwerte der Größe nach geordnet werden. H n und F n sind monoton wachsende (nicht fallende) Treppenfunktionen. Sie springen an den einzelnen Stichprobenwerten um die absolute bzw. relative Häufigkeit des Stichprobenwertes nach oben. Die empirische Verteilungsfunktion F n steigt von Null auf Eins an. Links vom kleinsten Stichprobenwert verschwindet F n , vom größten Stichprobenwert an nimmt sie immer den Wert 1 an. Die Summenhäufigkeitsfunktion steigt von Null auf den Stichprobenumfang η an. Beide Treppenfunktionen sind an den jeweiligen Sprungstellen (Unstetigkeitsstellen) noch rechtsseitig stetig.
2.3 Empirische Verteilungsfunktion
17
2.3.2 Die empirische Verteilungsfunktion bei diskreten Merkmalen Wir betrachten ein diskretes Merkmal mit den Merkmalsausprägungen a-, j = 1 , 2 , . . . . Mit Hilfe einer Häufigkeitstabelle können die Häufigkeitsfunktion und empirische Verteilungsfunktion sehr einfach bestimmt werden. Dazu benötigt man nur absolute bzw. relative Häufigkeiten. Es gilt H„(X)=
Σ W ; j: aj < χ
F
n « =
rn(aj) ' Σ j:aj < χ
(2-6)
Nur an den Merkmalsausprägungen können die Funktionen H n und F n Sprünge haben. Sprungshöhen sind die absoluten bzw. relativen Häufigkeiten der zugehörigen Ausprägungen.
Beispiel 2.4 (vgl. Beispiel 2.1): In Beispiel 2.1 gibt die empirische Verteilungsfunktion F 5 0 ( x ) an der ganzzahligen Stelle j den relativen Anteil derjenigen Familien an, die höchstens j Kinder haben für j = 0 , 1 , . . . , 5 . Bis zur nächsten Sprungstelle ist die Treppenfunktion konstant. Aus der Tabelle 2.2 erhält man die Verteilungsfunktion: für
x < 0 ;
F 5 0 ( X ) = 0,88
für
3< χ < 4 ;
F 5 0 ( X ) = 0,24
für
0 < χ < 1;
F 5 0 ( X ) = 0,96
für
4 < χ < 5 ;
F 5 0 ( X ) = 0,58
für
1 0 für i = 1 , 2 , . . . , n. Das geometrische Mittel der η positiven Beobachtungswerte χ χ , x 2 , . . . , x n ist erklärt durch Xg =
Xj · x 2 · . . . · x n n
=
^
a i
hi
l - a
2
h
2 . . . . . a m mm
=
r,
r
r
a 1 l - a 2 02 . . . . . a m m .
Hier sind a 1? a 2 , . . . , a m die Merkmalsausprägungen, h ; die absoluten und r ; die relativen Häufigkeiten der jeweiligen Ausprägungen. Mit Hilfe der ersten Zeile wird das geometrische Mittel aus einer Urliste, mit der zweiten aus einer Häufigkeitstabelle berechnet. Mit Hilfe des geometrischen Mittels können durchschnittliche Wachstumsfaktoren berechnet werden.
2.4.9 Gewichtete (gewogene) geometrische Mittel Beispiel 2.22 (mittlere Preissteigerung; vgl. Beispiel 2.21): Für ein bestimmtes Produkt betrug in 4 Jahren die mittlere Preissteigerung 3,1 %, während der nachfolgenden 5 Jahre 3,45 % und in den letzten 6 Jahren 3,61 %. Gesucht ist die mittlere Preissteigerung in den gesamten 15 Jahren. Für den gesuchten mittleren Preissteigerungsfaktor erhält man die Bedingung q 1 5 = 1,0314 · 1,0345 5 · 1,03616 « 1,65614 mit der Lösung q£
= =
15
,Jl,031 4 · 1,0345® • 1,0361®
1,031 15 · 1,0345 15 · 1,0361 15
«
1,0342.
Die mittlere Preissteigerung betrug somit während der 15 Jahre ungefähr 3,42 % pro Jahr.
2.4 Lageparameter von Häufigkeitsverteilungen
35
q g ist das gewichtete geometrische Mittel der drei Werte q j = 1,031; q 2 = 1 , 0 3 4 5 ; q 3 = 1,0361. Die Gewichte sind die relativen Anteile der jeweiligen J a h r e an der Gesamtzeit. η Mit den Gewichten w 4 , 0 < Wj < 1 für alle i und
Wj = 1 erhält man das
gewichtete (gewogene) geometrische Mittel der Beobachtungsreihe als χ™ = Χ ι 1 ·x 2 w 2 . . . . . χ * η Wj = w 2 = . . . = w n = i
für xj > 0 für alle i.
ergibt das gewöhnliche geometrische Mittel.
Das gewöhnliche geometrische Mittel x g sämtlicher η Werte χ χ , x 2 , . . . , x n der Urliste stimmt überein mit dem gewichteten geometrischen Mittel der verschiedenen Merkmalsausprägungen a 1 , a 2 , . . . , a m . Die Gewichte sind dabei die relativen Häufigkeiten.
2.4.10 Vergleich der verschiedenen Mittelwerte Das arithmetische Mittel und der Median können nicht miteinander verglichen werden, einmal kann der eine Wert, ein anderes Mal der andere größer sein. Der Grund dafür ist die Empfindlichkeit des Medians gegenüber Ausreißern. Falls alle Stichproben werte positiv sind, können das arithmetische, das geometrische und das harmonische Mittel miteinander verglichen werden. Wenn alle η Stichprobenwerte übereinstimmen, sind diese drei Mittelwerte gleich, also xh = xg = χ = xt
für Xj = x 2 = . . . = x n > 0 .
(2.19)
Falls nicht alle η Werte der Beobachtungsreihe gleich, also mindestens zwei voneinander verschieden sind, gilt allgemein x
h
s verwendet man zwar einen Ausdruck, der etwas größer ist als die mittlere quadratische Abweichung. Bei umfangreichen Beobachtungsreihen ist der Unterschied allerdings gering. Anstelle der Abstandsquadrate vom Mittelwert χ könnte man auch Abweichungsquadrate bezüglich einer beliebigen reellen Zahl c wählen, also den Ausdruck
2.5 Streuungsmaße von Häufigkeitsverteilungen
39
j i j J j (Xi-c)2.
(2.24)
Für jede beliebige Zahl c gilt allgemein E(Xi-c)2 i=l
=
E [ ( x i - x ) + (x~c)]2 i=l
=
E(Xi-x)2 + 2E(xi-x)-(x-c) + n.(x-c)2. i=l i=l
Es gilt also der Steinersche Verschiebungssatz (x· — c) =
i=l
=ο
— χ) + η · (x — c)
i=l
für jede Konstante c.
(2.25)
Für c = χ erhält man hieraus JPT . Σ ( x i - x ) 2 > ^ Γ ϊ Σ
( x i - x ) 2 = s2
für χ φ χ .
(2.26)
Die mittleren quadratischen Abweichungen sind also bezüglich des Mittelwerts χ minimal im Gegensatz zu den mittleren absoluten Abweichungen, bei denen das Minimum beim Median χ angenommen wird. Die Standardabweichung (Streuung) —\2
s =
i=l
ist die Quadratwurzel aus der Varianz. Sie besitzt die gleiche Dimension wie die Beobachtungswerte X; und der Mittelwert x. Beispiel 2.24 (vgl. Beispiele 2.2 und 2.5): In Beispiel 2.2 erhält man die Varianz s2 = i
(12 · 0 + 17 · l 2 + 9 · 2 2 + 6 · 3 2 + 4 · 4 2 + 2 · 5 2 - 50 · 1,58 2 )
« 1,9629; s « 1,401. Lineare Transformation Die Beobachtungsreihe χ χ , x 2 , . . . , x„ besitze den Mittelwert χ und die Varianz s 2 . Die linear transformierte Reihe = a + bx ; für i = 1 , 2 , ..., η hat dann wegen y = a + b x die Varianz s
y = ^τχ Σ =
b
Ή
(yi-y)2 = ^ Σ
(x;-x)
Σ
(a+bxi-a-bx)2
=b2-s2 .
Damit gilt allgemein bx = b 2 · s 2 ;
s a + b x = | b | · s x ; a, b e R.
(2.27)
Kapitel 2: Eindimensionale Darstellungen
40
Eine Parallel Verschiebung (a beliebig, b = 1) ändert also die Varianz und Standardabweichung nicht. Falls alle Werte mit b multipliziert werden, ändert sich die Varianz um den Faktor b 2 und die Standardabweichung um den Faktor | b |, also um den Betrag von b. Aus einer Klasseneinteilung allein läßt sich die Varianz nicht mehr exakt bestimmen. Wie bei der Mittelwertbildung könnte man für sämtliche Werte einer Klasse die Klassenmitte wählen und die Varianz s 2 dieser Werte als Näherungswert für die Varianz der Urliste benutzen. Im allgemeinen erhält man bei dieser Näherung jedoch zu große Werte, d.h. die Varianz der Urliste wird hierdurch überschätzt. Bei gleichen Klassenbreiten b kann diese Uberschätzung jedoch korrigiert werden durch die sogenannte Sheppardsche Korrektur s
korr
=
§2-lJ>
(2-28)
b = konstante Klassenbreite, s 2 = Varianz mit den Klassenmitten. Mit diesen korrigierten Varianzen dürfen jedoch keine statistischen Tests durchgeführt werden. Allgemein kann man zeigen, daß für s > 0 die mittlere absolute Abweichung d^ kleiner als die Sandardabweichung s ist, also 1
n
—
dx = η Σ l*i-*l
i - x ) i=l Deswegen stellt die Standardabweichung s ein geeignetes Abweichungsmaß dar. Nur wenn alle Stichprobenwerte gleich sind, verschwinden s und d j .
i=l
2.5.5 Der Variationskoeffizient Die Standardabweichung s wird bezüglich des Mittelwertes χ berechnet. Sie beschreibt, wie stark die Beobachtungswerte um den Mittelwert schwanken. Die tatsächliche Größe des Mittelwertes spielt dabei keine Rolle. Jede Parallelverschiebung der Beobachtungswerte ergibt die gleiche Standardabweichung, auch wenn dabei der Mittelwert noch so groß wird. Daher ist es manchmal sinnvoll, die Standardabweichung in Relation zum Mittelwert zu setzen. Für positive Merkmalswerte nennt man den Quotienten ν =1 χ den Variationskoeffizienten der Stichprobe. Der Variationskoeffizient bleibt als dimensionslose Größe von Maßstabsänderungen unberührt. Für Beispiel 2.2 erhält man den Variationskoeffizienten ν « "jT^g" Ä 0,887.
2.5 Streuungsmaße von Häufigkeitsverteilungen
41
2.5.6 Die Momente einer Verteilung ι η 1=1
Λ j=l
to
m j=l
heißt das r-te (empirische) Anfangsmoment und i n ι πι m mr = E r r ( a j - x ) r , r = l,2,... i=X j=l j=l das r-te (empirische) zentrale Moment der Verteilung. ι η _ - /η \ Wegen ^ ( ϊ · - χ ) = j j ( Σ χ· — η χ Ι = 0 verschwindet das erste zentrale i=i \i=l / Moment immer, für jede Beobachtungsreihe gilt also m x = 0. Beispiel 2.25: Das Stabdiagramm der relativen Häufigkeitsverteilung 1 2 3 4 5 6 aj 0,15 0,25 0,25 0,15 0,1 0,1 rj ist in Bild 2.8 graphisch dargestellt. Es ist achsensymmetrisch. Die vertikale Symmetrie-Achse geht durch den Mittelwert χ = 3,5. Jeweils die beiden von der Symmetrie-Achse gleich weit entfernten Merkmalsausprägungen besitzen die gleiche relative Häufigkeit.
0,25-
0,1
-
0 Bild 2.8: Symmetrische Verteilung Bei symmetrischen Verteilungen ist die Symmetrie-Stelle der Mittelwert (Schwerpunkt) und gleichzeitig der Median. Sind in einer symmetrischen Verteilung die beiden Merkmalswerte a k und &/ von χ gleich weit entfernt, so ist r k = t j . Für ungerades r gilt ferner (a^ —x) r = — —x) r . Dann heben sich in der Summe rj · (aj— x) r jeweils 2 Summanden paarweise auf, weshalb die Summe verschwindet. Bei symmetrischen Verteilungen verschwinden alle zentralen Momente ungerader Ordnung r, d.h. m
r
= [ Σ
( x j — x) r = 0 für r = 1 , 3 , 5 , . . . .
Bemerkung: Momente können auch bezüglich einer beliebigen Zahl c e R erklärt werden durch ι η _ mr(c) = η Σ (Xj - c ) r mit m; = m r (0) ; m r = m r ( x ) .
42
Kapitel 2: Eindimensionale Darstellungen
2.5.7 Die Schiefe einer Häufigkeitsverteilung Bei symmetrischen Häufigkeitsverteilungen verschwinden alle zentralen Momente ungerader Ordnung. Das erste zentrale Moment verschwindet auch bei asymmetrischen Verteilungen. Daher könnte man das dritte zentrale Moment m 3 als Maß für die Abweichung von der Symmetrie, also als Maß für die "Schiefe einer Verteilung" benutzen. Diese Größe ist jedoch maßstabsabhängig. Division durch s3
= y (itfc-*)2)1
=
ergibt eine vom Maßstab unabhängige Größe
^E(xi-x)3 i=l
s3
_ "
m m
3 _
i Σ ( x i-x) 3 - i=l
s3 (έ Σ
(Xi-X) 2 )
Man nennt Vj die Schiefe der Verteilung. Bei symmetrischen Verteilungen verschwindet die Schiefe. Je größer der Betrag | Vj | ist, umso "schiefer" ist die Verteilung. Für Vj < 0 nennt man die Verteilung linksschief, für Vj > 0 rechtsschief. Bei linksschiefen Verteilungen hängt das Stabdiagramm nach links, bei rechtsschiefen nach rechts durch. Beispiel 2.26 (vgl. Beispiel 2.2): Die Häufigkeitsverteilung aus Beispiel 2.2 besitzt nach Beispiel 2.24 die Varianz s 2 « 1,9629; nach (2.23) erhält man s 2 = § s 2 ta 1,9236. Das dritte zentrale Moment lautet Σ J_1
r
j · (aj - x ) 3 = 0,24 · (0 - 1,58) 3 + 0,34 · (1 - 1,58) 3 + 0,18 · (2 - 1,58) 3 + 0,12 · (3 - 1,58) 3 + 0,08 · (4 - 1,58) 3 + 0,04 · (5 - 1,58) 3 « 2,0778.
Hieraus erhält man die Schiefe v, =
= 0,7788. 1,9236 Die Verteilung ist also rechtsschief, das in Bild 2.1 dargestellte Stabdiagramm "hängt nach rechts durch". Bei symmetrischen Verteilungen verschwindet die Schiefe. Es gilt χ = χ . Falls die Verteilung auch noch eingipflig ist, gilt auch noch χ = χ = x Mod· Eingipflige Häufigkeitsverteilungen sind rechtsschief (linkssteil), falls χ > χ > X]^0(j, linksschief (rechtssteil), falls χ < χ < x M o d , symmetrisch, falls χ = χ = x M o d .
2.6 Konzentrationsmaße
43
2.6 Konzentrationsmaße Falls zu einem bestimmten Zeitpunkt ein kleiner Anteil der Bevölkerung einen hohen Anteil an einem Gesamtbestand (ζ. B. Einkommen, Vermögen oder Wertpapierbesitz) hat, spricht man von einer Konzentration. In diesem Abschnitt untersuchen wir die Aufteilung der Summe von η Beobachtungswerten Xj, x 2 , auf die verschiedenen Merkmalsträger. Dabei interessiert uns, ob die Gesamtsumme ungefähr gleichmäßig verteilt oder auf wenige Merkmalsträger konzentriert ist. Die einzelnen Beobachtungswerte dürfen dabei nicht negativ sein. Die m Ausprägungen eines metrisch skalierten Merkmals seien geordnet: 0 < aa < a2 < ... < a m . In der Beobachtungsreihe (xj , x 2 , . . . , Xj,) seien die Werte bereits der Größe nach geordnet, d.h. 0 < Xj < x 2 < . . . < Xu · In der (der Größe nach) geordneten Beobachtungsreihe besitze die Merkmalsausprägung aj die absolute Häufigkeit hj und die relative Häufigkeit Tj . Die Gesamtsumme soll positiv sein, also η m Σ xi = Σ v a j > 0 . 1=1
J=1
2.6.1 Die Lorenzkurve Ein wichtiges graphisches Hilfsmittel zur Feststellung einer Konzentration ist die sogenannte Lorenzkurve. Sie soll in den nachfolgenden Unterabschnitten für eine Beobachtungsreihe, Häufigkeitsverteilung und Klasseneinteilung behandelt werden. 2.6.1.1 Die Lorenzkurve bei Einzelwerten (einer Beobachtungsreihe) Die Beobachtungswerte seien bereits der Größe nach geordnet mit π 0 < Χι < x 2 ^ · · · < x n > 0· 1=1 Die Träger der ersten k Beobachtungswerte besitzen an der Gesamtmenge der η Merkmalsträger den kumulierten relativen Anteil u
k
=
Π
^r
k = 1,2,..., η.
Die Merkmalsträger mit den ersten k Beobachtungswerten haben an der π Gesamtsumme JZ x i den kumulierten relativen Anteil i=1 k
Σ
v
jc = ~hft Σ*ί i=l
für k = l , 2 , . . . , n .
44
Kapitel 2: Eindimensionale Darstellungen
Multipliziert man die Werte u^ und v k mit 100, so erhält man jeweils den prozentualen Anteil. In einem Koordinatensystem mit der Abszisse u und der Ordinate ν werden die Punkte (u^, v^) eingetragen. Zusätzlich wird noch der Koordinatenursprung ( u 0 , v 0 ) = (0,0) hinzugenommen. Wegen u n = v n = 1 erhält man η + 1 Punkte mit den Koordinaten ( u o . vo) = ( ° >
( u i - v i ) ' (u2, v 2 ) , . . . , ( u n _ 1 , v n _ 1 ) , ( u n , vn) = (1,1).
Diese η + 1 Punkte werden jeweils durch einen Streckenzug verbunden. Den so erhaltenen Polygonzug nennt man die Lorenzkurve (vgl. Bild 2.9). Beispiel 2.27: An einer AG mit dem Nominalkapital 100 Millionen DM sind 5 Personen mit folgenden Beträgen (in Millionen DM) beteiligt: 5 10 20 Wir erhalten
20
45.
Σ χ ; = 100; u k = | = 0,2k; v k =
^
Σ
x.
für
k = l,2,...,5.
Die 6 Punkte, welche die Lorenzkurve bestimmen, lauten ( 0 ; 0 ) , (0,2 ; 0,05), (0,4 ; 0,15), (0,6 ; 0,35), (0,8 ; 0,55), (1 ; 1). In Bild 2.9 sind diese Punkte sowie die Lorenzkurve als Polygonzug durch diese Punkte eingezeichnet.
Bild 2.9: Lorenzkurve einer Beobachtungsreihe Die Lorenzkurve verläuft zunächst sehr flach und steigt am Ende steil an. Der Grund dafür ist die Tatsache, daß bei den drei Personen mit den größten Beteiligungen eine Konzentration vorliegt. Zusammen besitzen diese drei Personen 85 %, der letzte allein gar 45 % des Kapitals. In Bild 2.9 stellt man fest, daß (0,6; 0,35) keine Knickstelle ist. Dieser Punkt liegt auf
2.6
Konzentrationsmaße
45
der durch die beiden benachbarten Punkte gehenden Geraden. ( 0 , 6 ; 0,35) ist keine Knickstelle, weil die beiden benachbarten Beobachtungswerte x 3 und x 4 übereinstimmen. Diese Eigenschaft gilt allgemein. Falls in der geordneten Beobachtungsreihe Xj < x 2 < . . . < x n der Stichprobenwert x k vom Nachfolger x k + j verschieden ist, hat die Lorenzkurve an der Stelle u k eine Knickstelle. Nur für x k φ x k + j ist an der Stelle u k kein Eckpunkt (Knickstelle). Der Punkt (u k , v k ) der Lorenzkurve bedeutet, daß auf die 100 · u k % ersten Merkmalsträger 100 · v k % der Gesamtsumme entfallt. Falls alle η Werte gleich sind, also für Xj = . . . = ^ haben sämtliche η Merkmalsträger den gleichen Anteil. Dann liegen alle Punkte ( u k , v k ) auf einer Geraden. Die Lorenzkurve ist dann die Diagonale von (0,0) nach (1,1). In diesem Fall liegt keine Konzentration vor (vgl. Bild 2.10 a)). Wenn nicht alle Beobachtungswerte gleich sind, liegt die Lorenzkurve unterhalb dieser Diagonalen. Bei großer Konzentration ist die Lorenzkurve am Anfang sehr flach und steigt am Ende stärker an. J e mehr sie von der Diagonalen abweicht, umso größer ist die Konzentration. Für x 1 = x 2 = . . . = x n _ 1 = 0 und XJJ > 0 ist die Gesamtsumme beim letzten Merkmalsträger konzentriert. Bei dieser vollständigen (maximalen) Konzentration ist die Lorenzkurve bis zur Stelle u n _ j = i ^ f i identisch gleich Null und steigt danach geradlinig auf 1 an. J e größer der Wert η ist, umso größer wird v n _ 1 . Bei vollständiger Konzentration nähert sich die einzige Knickstelle bei wachsendem η dem Punkt ( 1 ; 0) (s. Bild 2.10 b)).
n^i , Bild 2.10: Lorenzkurven
a) keine
b) vollständige Konzentration
Die Lorenzkurve ist konvex. Verbindet man zwei Punkte der Lorenzkurve geradlinig miteinander, so liegt jeder Punkt auf der Verbindungsstrecke oberhalb bzw. auf der Kurve. Die von der Lorenzkurve und der ersten Winkelhalbierenden aufgespannte Fläche ist konvex. Mit zwei Punkten gehört auch die gesamte Verbindungsstrecke zu dieser Fläche.
46
Kapitel 2: Eindimensionale Darstellungen
2.6.1.2 Die Lorenzkurve bei Häufigkeitsverteilungen Aus einer Häufigkeitstabelle könnte die Lorenzkurve prinzipiell nach dem in Abschnitt 2.6.1.1 angegebenen Verfahren bestimmt werden. Dazu müßte allerdings jede der m Merkmalsausprägungen in Abhängigkeit von der absoluten Häufigkeit öfters in der Stichprobe dargestellt werden. Wenn aber in der sortierten Beobachtungsreihe ein Wert mit dem Nachfolger übereinstimmt, liefert dieser Wert nach Abschnitt 2.6.1.1 keine Knickstelle der Lorenzkurve. Eine Knickstelle kann daher nur der letzte Wert der Wiederholungen einer Ausprägung ergeben. Durch die Knickstellen ist die Lorenzkurve eindeutig bestimmt. Die Knickstellen können somit allein aus der Häufigkeitsverteilung bestimmt werden. Die Merkmalsausprägungen seien der Größe nach geordnet 0 < a j < a2 < ... < a m . aj besitze die absolute Häufigkeit hj und die relative Häufigkeit rj . k Σ hj ist die Anzahl der Träger der k kleinsten Merkmalsausprägungen. Sie besitzen an der Gesamtmenge aller Merkmalsträger den relativen Anteil , k k u k = Η Σ h i = Σ r i für k = 1 , 2 , . . . , m . j=i i=i Diese Merkmalsträger haben an der Gesamtsumme den relativen Anteil k k Σ hjaj ,grjaj vk = - i m = Tn für k = 1 , 2 , . . . , m . Σ V j Σ rjaj j=l j=l Die Lorenzkurve verläuft dann durch die m + 1 Punkte (Knickstellen) ( u 0 . Vo) = (° ' °)> ( U 1 > v l)> (U2 - V2) ' · · ·. ( u m-l> V m-l)> ( U m ι V m) = i 1 . *)· Beispiel 2.28: Zehn verschiedene Betriebe stellen von einem Produkt jährlich folgende Mengen (in Millionen Tonnen) her: 5 5 5 5 10 10 30 30 50 100 . Die fünf verschiedenen der Größe nach sortierten Merkmalsausprägungen &1 = 5; a 2 = 10; a 3 = 30; a 4 = 50; a 5 = 100 besitzen die absoluten Häufigkeiten h j = 4 ; h 2 = 2 ; h 3 = 2 ; h 4 = 1; h 5 = 1 und die relativen Häufigkeiten r1
=
0,4; r 2 = 0,2; r 3 = 0,2; r 4 = 0,1; r s = 0,1.
2.6
Konzentrationsmaße
47
Damit erhalten wir die kumulierten relativen Anteile UJ
Mit
= 0,4; U 2 = 0,6; U 3 = 0,8; U 4 = 0,9; u 5 = 1.
5
h: a= = 250 erhält man j=i ν - 2 0 . . v - i L · ν -100-v - Μ . 1 ~ 250 ' 2 ~ 250 ' 3 ~ 250 ' 4 ~ 250 ' 0,»/ 0,4 { oo geht dieser Flächeninhalt gegen ^ .
(2·3°)
Der Inhalt einer beliebigen Konzentrationsfläche ist höchstens gleich 0,5. Als Konzentrationsmaß wählt man nicht den Inhalt der Konzentrationsfläche, sondern setzt diese Fläche in Beziehung zur Gesamtfläche unterhalb der Diagonalen (Inhalt = 0,5). Der so erhaltene Quotient _ ~~
Inhalt der Fläche zwischen der Diagonalen und der Lorenzkurve Inhalt der Fläche unterhalb der Diagonalen
=
2F , F = Flächeninhalt zwischen Lorenzkurve und Diagonalen
heißt Gini-Koeffizient (Lorenzsches Konzentrationsmaß). Er wird benannt nach G. Gini. Gini hat diese Größe erstmals im Jahre 1914 benutzt. Bei einer vollständigen Konzentration erhält man nach (2.30) den maximalen Gini-Koeffizienten Gmax =
(n = Stichprobenumfang).
(2.31)
Bei einer vollständigen Konzentration kann der Gini-Koeffizient beliebig nahe an 1 herankommen, wenn der Stichprobenumfang η nur groß genug gewählt wird. Falls keine Konzentration vorhanden ist, also bei einer gleichmäßigen Verteilung, stimmt die Lorenzkurve mit der Diagonalen überein. Dann verschwindet der Gini-Koeffizient. Allgemein gilt daher 0 < G < ^ .
(2.32)
Falls die Lorenzkurve aus einer Häufigkeitsverteilung bestimmt wird, werden zur Berechnung des Ginikoeffizienten zuerst die m Flächeninhalte T j der Trapeze unterhalb der Lorenzkurve berechnet (vgl. Bild 2.12). Das j-te Trapez besitzt die Breite Uj — U j _ j . Die Höhen an den Rändern lauten Vj _ j und Vj. Nach der Trapezformel erhält man T
i = i ( u j - u i - i ) ( v j - 1 -+- v j ) • 1 m F = 4 —
T: ist dann der Inhalt der Konzentrationsfläche zwischen der
Diagonalen und der Lorenzkurve und G = 2 F der Gini-Koeffizient.
49
2.6 Konzentrationsmaße
Der Gini-Koeffizient kann aber auch direkt aus den Beobachtungswerten x ; berechnet werden. Durch elementare Rechnung erhält man die folgenden Darstellungen für den Ginikoeffizienten:
=
2 Σ n+1 i=l η n Σ xi i=l m \ 1 - jΣ ( U j - U j - l )/ - ( V j _ l + V j )
=
m \ Σ (uj-i+ujJ"(vj-vj-i) -
G =
(2.33)
=1
1
m i t u o = v o = 0; u n = v n = l.
Bild 2.12: Zur Berechnung des Gini-Koeffizienten Beispiel 2.29 (vgl. Beispiel 2.28): Für die Stichprobe aus Beispiel 2.28 erhält man mit den dort berechneten u- und v-Werten den Gini-Koeffizienten G = 1 - 0,4 · 0,08 - 0,2 · 0,24 - 0,2 · 0,56 - 0,1 · 1 - 0,1 · 1,6 = 0,548. Zur Kontrolle berechnen wir G nach der 1. Formel aus (2.33) direkt aus den Stichprobenwerten: η = 10; Σ Xi = 250; S i x - = 2060; G = f ^ g - = Beispiel 2.30: Für die Beobachtungsreihe 5 5 5 10 10 20 25 30 50 90 erhält man den Gini-Koeffizienten G =
-
= 0,504.
0,548.
Kapitel 2: Eindimensionale Darstellungen
50 Der normierte Gini-Koeffizient
Da der gewöhnliche Gini-Koeffizient einer Beobachtungsreihe vom Umfang η höchstens gleich ^ sein kann, ist es sinnvoll, diesen Koeffizienten so zu normieren, daß er bei jeder vollständigen Konzentration den Wert 1 annimmt. Dies gewährleistet der normierte Gini-Koeffizient Gnorm =
° ^ · G;
G = gewöhnlicher Gini-Koeffizient.
Dabei gilt 0 0 kann keines dieser gemischten Produkte negativ sein. Daher ist der Nenner mindestens so groß wie der Zähler, woraus allgemein Η < 1 folgt. Bei vollständiger Konzentration mit Xl
= χ 2 = . . . = χ η _ 1 = 0;
xn>0
x2 erhält man Η = —£ = 1. Falls in der Beobachtungsreihe mindestens zwei Werte x^ und Xj von Null verschieden sind, tritt im Nenner neben den Quadraten der Summand 2 x ] [ x j > 0 auf. Dann ist aber Η < 1. Der Herfindahl-Index Η nimmt also nur bei vollständiger Konzentration den Wert 1 an. η Unter der Nebenbedingung Σ x i = Κ > 0 nimmt die Funktion Η nur für i= 1 Κ : . 1 Xj = x 2 = . . . = x n = £ ein Minimum an und zwar den Wert ρ . Damit gilt Κ < Η < 1.
(2.35)
Genau dann ist Η = ^ , wenn alle η Werte Xj gleich sind, also keine Konzentration vorliegt.
2.6 Konzentrationsmaße
51
Aus 1 Vs η — 1 j^J
'
v
'
A 1 Xj2 — η-χ2 η — 1 ί=1
erhält man Σ A = ( n - l ) s 2 + nx2; i=l η _
i5Xi n2x2
_ ~
(η — l ) s 2 + n x 2 _ n2x2 ~
(n-l)s2 n2x2
j + n
'
also
Der Variationskoeffizient ν = = wurde in Abschnitt 2.5.5 erklärt. Beispiel 2.31 (vgl. Beispiel 2.30): Für die Beobachtungsreihe aus Beispiel 2.30 soll der Herfindahl-Index berechnet werden. 10
Σ X; — 250; i=l
10
„
£ x ? = 12 800 i=l
ergibt unmittelbar den Herfindahl-Index Η =
250
= 0,2048.
Η soll auch nach der Formel (2.36) bestimmt werden, χ = 25;
s2 = ± ( 1 2 8 0 0 - 10-252) = ^ | ^ .
Daraus erhalten wir den Variationskoeffizienten s _ >J655Ö v = | = f W « x ~ 3-25
1,079. +
=0,2048.
Der Herfindahl-Index ist wesentlich kleiner als der in Beispiel 2.31 berechnete Gini-Koeffizient G = 0,504. Weitere Konzentrationsmaße werden bei W. Piesch [1974] behandelt.
52
Kapitel 2: Eindimensionale Darstellungen
2.7 Indexzahlen Zum Zeitpunkt t = 0 koste ein bestimmtes Produkt p 0 (je ME), zum Zeitpunkt t > 0 betrage der Preis p t . Nach Abschnitt 2.4.8 beschreibt der Quotient Pt Po
die Preisveränderung im Intervall ( 0 ; t]. Dieser Quotient heißt Preismeßzahl oder elementarer Preisindex. Er beschreibt als Verhältnis des Endzum Ausgangspreis die relative Preisänderung eines Einzelprodukts. Die prozentuale Preisänderung wird dargestellt durch 1 0 0 % . Po
Falls der Preis (in DM) je ME eines Produkts innerhalb eines Jahres von 2,5 auf 2,6 ansteigt, ist die Preismeßzahl = 1,04. Die prozentuale Preiserhöhung wird durch 100 · = 104 beschrieben. Der Preis ist um 4 % gestiegen. Theoretisch könnte jeder Verbraucher die Preismeßzahlen sämtlicher Produkte, die er konsumiert, von Jahr zu Jahr berechnen. Doch diese Zahlen sind in ihrer Gesamtheit nicht übersichtlich. Andererseits sind Preiserhöhungen bei Produkten, von denen viel gekauft wird, von größerer Bedeutung als bei Produkten, von denen sehr wenig gekauft wird. Aus diesem Grund sucht man nach einem Preisindex, der gleichzeitig Auskunft über die Preisveränderung verschiedener Güter gibt. Allgemein sollen mit Hilfe von Indexzahlen zeitliche Veränderungen mehrerer Größen durch eine einzige Zahl beschrieben werden. Ein Beispiel dafür ist der vom Statistischen Bundesamt jährlich bekanntgegebene Preisindex für einen Warenkorb, der verschieden stark gewichtet bestimmte Waren und Inanspruchnahmen von Dienstleistungen enthält. In diesem Warenkorb sind Waren und Dienstleistungen für einen typischen Durchschnittshaushalt enthalten. Daraus wird die jährliche Inflationsrate berechnet. Oft haben starke Mietpreissteigerungen oder wegen einer Mißernte stark gestiegene Lebensmittelpreise einen großen Einfluß auf die Inflationsrate. Im Statistischen Jahrbuch werden laufend Preisindizes für verschiedene Bereiche veröffentlicht ζ. B. Erzeugerpreise für landwirtschaftliche und forstwirtschaftliche Produkte, Grundstoffpreise, Erzeugerpreise gewerblicher Produkte, Großhandelsverkaufspreise, Einzelhandelspreise, Verbraucherpreise, Einfuhr- und Ausfuhrpreise oder der Preisindex für die Lebenshaltung. Allgemein betrachten wir einen Warenkorb mit η verschiedenen Gütern zu zwei verschiedenen Zeitpunkten (Perioden). Dabei sei t = 0 die Basisperiode (Ausgangszeitpunk) und t > 0 die Berichtsperiode (Endperiode, Endzeitpunkt). Die Güter seien von 1 bis η durchnumeriert. Wir setzen
2.7 Indexzahlen
53
p i 0 = Preis (je ME) des i-ten Gutes in der Basisperiode 0 q ; o = Menge des i-ten Gutes in der Basisperiode 0 p i t = Preis (je ME) des i-ten Gutes in der Berichtsperiode t q i t = Menge des i-ten Gutes in der Berichtsperiode t . Der Wert des Warenkorbes in einer Periode r beträgt dann η Σ qir-Pir· i=l Ein Vergleich der Werte des Warenkorbs in der Berichtsperiode r = t und der Basiperiode τ = 0 liefert den Wertindex η Σ q i t -Pit w — 1η= 1 vv 0t — < Σ qjo-Pio i=l der die tatsächliche Preisänderung des jeweiligen Warenkorbs von der Basisperiode bis zur Berichtsperiode beschreibt. In diesem allgemeinen Wertindex können sich in der Zwischenzeit sowohl die Mengen als auch die Preise ändern. Eine Erhöhung des Wertes des Warenkorbs kann durch Mengenerhöhungen (höherer Konsum) oder durch Preiserhöhungen bzw. durch beides entstanden sein. Möchte man nur die Auswirkungen von Preisänderungen auf den Warenkorb untersuchen, so müssen die Mengen festgehalten werden. Einflüsse der Mengenänderungen stellt man fest, indem die Preise festgehalten werden. Hält man die Mengen fest und läßt nur reine Preisänderungen zu, so ergeben sich die Indizes: Preisindex nach Laspeyres η Σ Qio-Pit _ i=l . rρ L — η ) Σ qjo · Pio i=l
Preisindex nach Paasche η Σ qit-Pit _ i=l rρ P η · Σ q;t · Pio i=l
Der Preisindex nach Laspeyres orientiert sich an den Mengen der Basisperiode, der Paasche-Preisindex an den Mengen der Berichtsperiode. Der Preisindex nach Laspeyres gibt an, wie sich der Wert des Warenkorbs geändert hätte, wenn die Mengen des Warenkorbs zur Basisperiode auch in der Berichtsperiode gleich geblieben wären, wenn also der mengenmäßige Konsum sich in der Zwischenzeit nicht ändert. Der Preisindex nach Paasche gibt die Änderung des Wertes des Warenkorbs an, wenn die Mengen in der Berichtsperiode auch in der Basiperiode benutzt worden wären. Mit diesem Index kann man ausrechnen, um wieviel der in der Basisperiode berechnete Warenkorb bei den gleichen Konsummengen im Vergleich zur Berichtsperiode billiger gewesen wäre.
54
Kapitel 2: Eindimensionale Darstellungen
Bei gleichen Preisen ergeben sich analog die Indizes: Mengenindex nach Laspeyres η Σ qit-Pio Ml = - Ψ ; Σ qio-Pio i=l
Mengenindex nach Paasche η Σ J = l , 2 , . . . , m } kann somit direkt aus der ersten Spalte und der letzten Spalte der Zeilensummen der Kontingenztafel abgelesen werden. Die Häufigkeitsverteilung des Merkmals Y {(bk;h.k),k = l,2,...,/} steht in der ersten und letzten (Summen-) Zeile der Kontingenztafel. Man nennt diese beiden Verteilungen Randverteilungen. Beispiel 3.2: In der Verwaltung einer Universität sind 400 Personen beschäftigt. Jede Person ist entweder Arbeiter/in, angestellt oder beamtet. Die Aufteilung in Abhängigkeit vom Geschlecht ist in Tabelle 3.3 zusammengestellt. Beide Merkmale sind qualitativ. Artbeiter/in
angestellt
beamtet
Zeilensumme
weiblich
5
160
42
207 = h r
männlich
36
122
35
193 = h 2 .
77
400 = h.. = η
Summe
41 = h. a
282 = h. 2
Tab. 3.3: Kontingenztafel für absolute Häufigkeiten
66
Kapitel 3: Zweidimensionale Darstellungen
Beispiel 3.3: Bei 100 Ehepaaren in einem bestimmten Wohngebiet wurde jeder Ehepartner nach seiner Schulbildung befragt. Mögliche Antworten waren: Hauptschulabschluß, Mittelschulabschluß, Abitur oder Studium. Davon sollte jeweils die höchste Stufe angegeben werden. Die Ergebnisse sind in Tab. 3.4 zusammengestellt. Ehemann ZeilenHauptsch. Mittelsch. Abitur Studium summe
Ehefrau
Hauptschule
8
7
9
8
32
Mittelschule
4
8
7
9
28
Abitur
1
5
9
8
23
Studium
0
2
5
10
17
13
22
30
35
100 = η
Spaltensumme
Tab. 3.4: Kontingenztafel für absolute Häufigkeiten Bei beiden Ehepartnern wurde jeweils das gleiche diskrete qualitative Merkmal abgefragt. Hier gilt m = / = 4. Die Zeilensummen geben an, wie viele Ehefrauen den jeweiligen Schulabschluß haben. Für die Ehemänner erhält man die entsprechenden Werte in den Spaltensummen. Beispiel 3.4: Bei Studierenden des gleichen Studienganges, die das Studium erfolgreich beendet haben, wurde die benötigte Semesterzahl (Studiendauer) und das Alter (in ganzen Jahren) zum Zeitpunkt des Studienbeginns festgestellt. In der nachfolgenden Kontingenztafel sind die relativen Häufigkeiten zusammengestellt. Hier handelt es sich um die Feststellung zweier (metrisch skalierter) kardinaler Merkmale. Y (Anzahl der benötigten Semester) 11 12 9 10 13
8
20 21 22 23 24 25 26 27
0,022 0,042 0,058 0,054 0,028 0,012 0,000 0,000
0,026 0,074 0,078 0,062 0,026 0,016 0,004 0,000
0,022 0,064 0,064 0,048 0,024 0,010 0,006 0,002
0,006 0,042 0,050 0,020 0,012 0,004 0,004 0,004
0,004 0,026 0,020 0,010 0,004 0,002 0,002 0,000
0,004 0,008 0,016 0,008 0,000 0,002 0,000 0,000
0,000 0,002 0,004 0,002 0,000 0,000 0,000 0,002
0,084 0,258 0,290 0,204 0,094 0,046 0,016 0,008
0,216
0,286
0,240
0,142
0,068
0,038
0,010
1,000
Summe
T a b . 3.5: Kontingenztafel für relative Häufigkeiten
14
Summe
X
3.2 Häufigkeitsverteilungen
67
Aus der Kontingenztafel für die relativen Häufigkeiten lassen sich die absoluten Häufigkeiten nicht ohne weiteres berechnen. Dazu benötigt man den Stichprobenumfang n. In unserem Beispiel sind es 500 Studierende. Durch Multiplikation der relativen Häufigkeiten mit η = 500 erhalten wir die absoluten Häufigkeiten. Y (Anzahl der benötigten Semester) 10 11 12 14 13
Summe
X
8
9
20 21 22 23 24 25 26 27
11 21 29 27 14 6 0 0
13 37 39 31 13 8 2 0
11 32 32 24 12 5 3 1
3 21 25 10 6 2 2 2
2 13 10 5 2 1 1 0
2 4 8 4 0 1 0 0
0 1 2 1 0 0 0 1
42 129 145 102 47 23 8 4
108
143
120
71
34
19
5
500=n
Summe
Tab. 3.6: Kontingenztafel für absolute Häufigkeiten Aus den Spaltensummen kann abgelesen werden, welcher prozentuale Anteil dieser Studierenden die entsprechende Semesterzahl benötigte. So benötigten z.B. 21,6 % acht, 28,6 % neun und 24 % zehn Semester. 11,6 %, also 58 von den 500 Studierendeen benötigten mindestens 12 Semester. Aus dieser Randverteilung erhalten wir die mittlere Studiendauer von allen 500 Studierenden y= ^
(108 · 8 + 143 · 9 + 120 · 10 + 71 · 11 + 34 · 12 + 19 · 13 + 5 · 14)
= 9,714. Der Median der Studiendauer ist y = 9 . In den Zeilensummen ist zusammengestellt, welcher relative Anteil das Studium mit dem jeweiligen Alter begann. Dadurch erhält man das mittlere Alter zum Zeitpunkt des Studienbeginns χ = ^
(42 · 20 + 129 · 21 + 145 · 22 + 102 · 23 + 47 · 24 + 23 · 25 + 8 · 26 + 4 · 27) = 22,208.
Der Median des Alters lautet χ = 22.
68
Kapitel 3: Zweidimensionale Darstellungen
Beispiel 3.5: 441 Studierende schrieben jeweils eine Klausur in Mathematik und Statistik. In beiden Klausuren wurden die Noten 1 , 2 , 3 , 4 , 5 verteilt. Beide Merkmale X (Zensur in Mathematik) und Y (Zensur in Statistik) besitzen also die gleichen fünf Ausprägungen. Die Ergebnisse sind in der Kontingenztafel für die absoluten Häufigkeiten zusammengestellt. X (Math.)
1
1
10
9
2
0
0
21
2
21
14
12
5
0
52
3
11
18
52
13
8
102
4
2
16
31
63
42
154
5
0
4
24
26
58
112
44
61
121
107
108
441
Summe
Y (Zensur in Statistik) 4 2 3
5
Summe
T a b . 3.7: Kontingenztafel für absolute Häufigkeiten W i e bei einem einzigen Merkmal kann diese zweidimensionale Häufigkeitsverteilung in einem Stabdiagramm graphisch dargestellt werden (vgl. Bild 3.2). Dazu benutzen wir ein dreidimensionales kartesisches Koordinatensystem. Auf der x-Achse werden die Zensuren in Mathematik (Merkmal X ) , auf der y-Achse die Zensuren in Statistik (Merkmal Y ) eingetragen. Die Paare der Merkmalsausprägungen (aj = j , b k = k), 1 < j , k < 5 werden als Gitterpunkte in der zweidimensionalen x-y-Ebene dargestellt. Senkrecht über jedem Paar werden in z-Richtung Stäbe gezeichnet, deren Längen die absoluten Häufigkeiten h j k sind.
Bild 3.2: Stabdiagramm einer zweidimensionalen Häufigkeitsverteilung
3.2 Häufigkeitsverteilungen
69
Klasseneinteilung: Falls eines oder beide Merkmale sehr viele verschiedene Ausprägungen besitzt, ζ. B. bei stetigen Merkmalen, benutzt man wie im eindimensionalen Fall eine Klasseneinteilung. Dabei kann es durchaus sinnvoll sein, nur für eines der beiden Merkmale eine Klassenbildung zu wählen wie ζ. B. bei der Untersuchung der Körpergröße in Abhängigkeit vom Geschlecht. Anstelle der einzelnen Ausprägungspaare benutzt man dann die Merkmalsklassen und stellt dafür Kontingenztafeln auf.
3.2.3 Bedingte Verteilungen Beispiel 3.6 (vgl. Beispiel 3.4): In Beispiel 3.4 interessiert nur die Studiendauer derjenigen Studierenden, die mit 25 Jahren das Studium aufnahmen. Wir betrachten also nur noch diejenigen Studierenden mit dem Ausgangsalter 25, variabel ist nur die Anzahl der benötigten Semester. Die uns interessierende Information finden wir in derjenigen Zeile der Kontingenztafel 3.6, die mit 25 beginnt. Dadurch erhält man eine neue Stichprobe vom Umfang 23. Anstelle der 500 Studierenden betrachten wir also nur noch die 23 mit dem Eintrittsalter 25. Die Verteilung dieser Stichprobe nennen wir bedingte Häufigkeitsverteilung der Studiendauer unter der Bedingung, daß das Alter zum Zeitpunkt des Studienbeginns 25 betrug. Sie ist in Tab. 3.8 dargestellt. X = 25
8
Y (Anzahl der benötigten Semester) 9 10 11 12 13
14
Summe
6
8
0
23
5
2
1
1
Tab. 3.8: Bedingte (absolute) Häufigkeitsverteilung Sie besitzt den Mittelwert m 9,43. Dieser bedingte Mittelwert ist kleiner als der absolute Mittelwert y = 9,714. Die Studierenden mit dem Anfangsgangsalter 25 haben schneller studiert als der Durchschnitt. Die bedingte und die gesamte Häufigkeitsverteilung haben beide den Median 9. Falls wir nur diejenigen Studierenden untersuchen, die nach 8 Semestern das Studium beendet haben, erhalten wir eine bedingte Häufigkeitsverteilung des Merkmals X (bei fester Studiendauer 8). Diese Bedingung erfüllen die 108 in der ersten Spalte aufgeführten Studierenden: Y = 8
20
21
X (Eintrittsalter) 22 23 24
11
21
29
27
14
25
26
27
6
0
0
Tab. 3.9: Bedingte (absolute) Häufigkeitsverteilung Sie besitzt den Mittelwert ^ ^ s» 22,28 und den Median 22.
Summe 108
Kapitel 3: Zweidimensionale Darstellungen
70
Allgemein interessiere uns beim Merkmal X nur die bestimmte Ausprägung aj (fest), während die Ausprägungen des Merkmals Y beliebig sein dürfen. Damit findet eine Einschränkung auf die Beobachtungspaare mit dieser festen Ausprägung statt, variabel sind nur die Ausprägungen des Merkmals Y. Die absoluten Häufigkeiten der Ausprägungen des Merkmals Y unter der Bedingung, daß X den festen Wert aj annimmt, stehen in der j-ten Zeile (neben aj) der Kontingenztafel. Diese Häufigkeiten nennt man die bedingten absoluten Häufigkeiten des Y-Merkmalswertes b k unter der Bedingung, daß X die Ausprägung aj hat. Diese bedingte Häufigkeit bezeichnen wir mit h n (b l t |aj), also h
n ( b k I a j ) = h jk für k = 1 , 2 , . . . , / ;
j fest mit l < j < m .
(3.3)
Betrachtet man nur noch diejenigen Wertepaare, bei denen das Zeilenmerkmal Y die Ausprägung b k besitzt, so stehen die bedingten Häufigkeiten der Ausprägungen des Merkmals X unter der Bedingung, daß die Ausprägung des Merkmals Y gleich b k ist, in der k-ten Spalte (unter b k ) mit h
n ( a j I b k) = h jk für j = l , 2 , . . . , m ;
k fest mit 1 < k < /.
(3.4)
Die bedingten absoluten Häufigkeiten können unmittelbar aus der entsprechenden Zeile bzw. Spalte der Kontingenztafel übernommen werden. Die bedingten relativen Häufigkeiten dagegen dürfen nicht unmittelbar aus der Kontingenztafel übertragen werden. Hier sind nämlich die Zeilensummen nicht gleich Eins. Falls man nur die Merkmalsausprägung aj betrachtet, reduziert sich der Umfang η der Urliste auf den neuen Umfang
l
h
n(aj) =
h
j" =
Σ hjk . k=l
Zur Berechnung der bedingten relativen Häufigkeiten müssen die absoluten Häufigkeiten durch diesen geänderten Versuchsumfang hj. dividiert werden. Dadurch erhält man: bedingte relative Häufigkeit von b^ unter der Bedingung a^ r,
rh l a 1 - h " ( a j ' b ^ n(bk aj) - - h ^ T "
_ _ V n _ r jk _ r n ( a j ' b k ) - h T T - V Ä T - T p - - ^ y -
für k = 1 , 2 , . . . , /
(
,, (3.5)
und jedes j mit 1 < j < m ;
bedingte relative Häufigkeit von aj unter der Bedingung b^ r
.
λ _
n( j l k)
~
h
n(aJ'bk)
_
h
hn(bk)
- ΕΪ - κ ^ -
jk _ V
n
_
r
jk _
r
n(aj'bk)
- -ij^y
,
ν
(3 6)
·
für j = 1, 2 , . . . , m und jedes k mit 1 < k < /. Die relativen Häufigkeiten aus der Kontingenztafel müssen durch die relative Randhäufigkeit der entsprechenden Zeile bzw. Spalte dividiert werden, auf die man sich beschränkt. Für diese eindimensionalen (bedingten) Häufigkeitsverteilungen können alle Lage- und Streuungsparameter berechnet werden. Man nennt sie bedingte Parameter.
3.2
Häufigkeitsverteilungen
71
3.2.4 Unabhängige Merkmale Falls die Ausprägungen des Merkmals X keinen Einfluß auf die Ausprägungen des Merkmals Y haben, nennt man Y von X unabhängig. Dann müssen in den Kontingenztafeln der relativen und der absoluten Häufigkeiten in allen Zeilen die jeweiligen prozentualen Anteile identisch sein. Die relativen Häufigkeiten der Ausprägungen b k dürfen dann gar nicht mehr von aj abhängen. Für jedes feste k müssen alle bedingten relativen Häufigkeiten r n ( b k l a j ) > 1 — J — n (spaltenweise) mit der absoluten relativen Häufigkeit r n ( b k ) übereinstimmen. Es müßte also gelten r
n ( b k I a i ) = r n ( b k I a 2 ) = . . . = r n ( b k I a m ) = r n ( b k ) = r. k
(3.7)
für k = 1 , 2 , . . . , / . Mit (3.5) erhält man daraus r
r ik n ( b k I a j ) = ψ = r 'k ; r
jk
=
r
j'rk
für j = l , 2 , . . . , m und k = 1 , 2 , . . . , / .
(3.8)
Ist umgekehrt X von Y unabhängig, so gilt entsprechend ' n ( a j I b i ) = ' n ( a j I b 2 ) = . · . = r n ( a j | b,) = r n ( a j ) =
Fj
.
(3.9)
für j = 1, 2 , . . . , m. Hieraus folgt ebenfalls (3.8). Umgekehrt erhält man aus (3.8) beide Unabhängigkeitsbedingungen (3.7) und (3.9). Bei zwei Merkmalen ist die Unabhängigkeit somit eine "symmetrische" Relation. Wenn X von Y unabhängig ist, dann ist auch gleichzeitig Y von X unabhängig. Zwei Merkmale sind also unabhängig, wenn die
Unabhängigkeitsbedingung rj k = rj. · r. k
für alle Paare ( i , k)
(3.10)
erfüllt ist. Schon aus Gründen der Arithmetik kann diese vollständige Unabhängigkeitsbedingung in den meisten Beobachtungsreihen nicht exakt erfüllt sein. Oft sind zwei Merkmale in einer gesamten Grundgesamtheit voneinander unabhängig. In einer Teilauswahl (Stichprobe) ist die Unabhängigkeit jedoch meistens nicht erfüllt. Der Grund dafür liegt in der Zufallsauswahl. Manchmal sind auch Meßfehler, Störungen oder Schwankungen dafür verantwortlich. Bei großem Stichprobenumfang η kann man allerdings erwarten, daß bei Stichproben aus unabhängigen Grundgesamtheiten die Unabhängigkeitsbedingung (3.10) wenigstens näherungsweise erfüllt ist, also r
jk
w
r
j-' r k
i u n < * k-
72
Kapitel 3: Zweidimensionale Darstellungen
3.2.5
Kontingenzkoeffizient
Bei Stichproben von unabhängigen Merkmalen gilt nach Abschnitt 3.2.4 meistens die Näherung r
jk *
r
j-r-k·
Dann deuten größere Abweichungen der relativen Häufigkeiten rj k vom Produkt rj. · r. k auf eine gewisse Abhängigkeit der beiden Merkmale X und Y hin. Zur Festlegung eines ersten Abweichungsmaßes könnte man die Abweichungsquadrate (rj k — rj. · r. k ) 2 benutzen. Besser geeignet sind jedoch die ebenfalls nicht negativen relativen Werte (rjk-rj--r-k)2 r
r
j· '
k
Die daraus berechnete Größe 2 m ' (r j k - rj. · r. k ) j=l
Σ
(3
r1 A κ "
k=l
·η)
heißt Chi-Quadrat. Sie spielt in der beurteilenden Statistik eine wichtige Rolle (vgl. Abschnitt 10.3). Bei vollständiger Unabhängigkeit verschwindet χ 2 . Umformung ergibt ν 1 - V - ( r i k ~ r j · - r -k) 2 _
2
=
j=l
k=l
m
/
η
Σ
Σ
J
κ
r?
k=l
m
f
j=l
k=l
^
j=l
k=l
m
^ Γ Γ
j=l
^
- 2 n £
J
j=1
1
/ £ r
m l j k
k=l
r?, 1
( Γ ? 1 , - 2 ^ . Γ ] · · Γ . ι , + Γ?.·Γ? ί )
+ n £ j=l
, m k
j=l
^ . - r ^ k=l
l_ k=l
]·?, 1
ν k
'
Damit vereinfacht sich die Formel zu
χ 2 kann aber auch aus der Kontingenztafel der absoluten Häufigkeiten berechnet werden. In (3.11) bzw. (3.12) erweitern wir die Zähler und Nenner mit n 2 und erhalten wegen h
jk
= nr
jk;
h
j· = n r j · ;
h
k =
nr
-k
3.2 Häufigkeitsverteilungen 2 x ~n
γ-
γ^ ( L·/ j=l k=l
nr
73 nr
r
jk- j-- -k) nr=. -nr.k 1
_
_
hj. · h . k \ 2
/ y" lh* Z^ j=l k=l
h-.-h.,k J
bzw. , m
I
m
r?.
\
I
/
m
'
J=l k=l
k=l
J=1
also
n
/
hj.-h.kx2 rj I
. m
I Σ
h?, J
\ K
hi, . ^ - ο · « - »
Bei einer Vierfeldertafel (rn = / = 2) vereinfacht sich die Formel zu χ
2_
n h
( l l h 2 2 — h 12 h 2l) 2 h,. · h , h . j - h . 2
(3.14)
wie man durch elementare Rechnung leicht zeigen kann. Falls die beiden Merkmale in der Grundgesamtheit unabhängig sind, liegt χ2 in der Nähe von 0. Da für rj k φ rj. · r. k die Größe χ2 linear in η wächst, kann sie bei unabhängigen Merkmalen bei großem Stichprobenumfang η beliebig groß und damit nicht mehr vergleichbar werden. Aus diesem Grund ist χ2 als Abhängigkeitsmaß nicht geeignet. Die Größe Κ =
n
(3.15) +X
heißt Pearsonscher Kontingenzkoeffizient. Er ist nach dem britischen Statistiker Karl Pearson (1857 — 1936) benannt. Für diesen Kontingenzkoeffizienten gilt allgemein 0 0 gilt 1 - r 2 > 0, also r 2 < 1. Nur für r 2 = 1 verschwindet die gemittelte Quadratsumme. Dies ist nur dann möglich, wenn sämtliche Summanden gleich Null sind, also (yj - y) = - χ " • (x; - x) für i = 1, 2 , . . . , n. sx Für | r | = 1 liegen alle Punkte auf der sog. Regressionsgeraden y - y = H T · (χ - χ)· (3.23) sx Im Falle r = + 1 ist die Kovarianz s X y und damit auch die Steigung positiv, für r = — 1 negativ. Damit sind die Behauptungen bewiesen. Aus den obigen Umformungen folgt q 2 = Σ ( y i - [ y + - ? " ( * i - x ) ] ) 2 = ( η - 1) · s 2 · (1 - r 2 ). i=i V. st, > '
(3.24)
3.3 Korrelationsrechnung
79
Auf der linken Seite von (3.24) steht die Summe der vertikalen Abstandsquadrate der η Beobachtungswerte (x ; , yj), i = 1, 2 , . . . , η von der Regressionsgeraden (3.23). J e näher | r | bei 1 ist, umso kleiner wird diese quadratische Abweichungssumme. Aus diesem Grund ist der Korrelationskoeffizient r ein Maß für den linearen Zusammenhang der Ausprägungen zweier Merkmale. J e größer | r | ist, umso mehr sind die Merkmalspaare in der Nähe einer Geraden konzentriert. Nur für | r | = 1 liegen alle η Wertepaare auf einer Geraden. Aus einem solchen Zusammenhang kann jedoch keineswegs geschlossen werden, daß eines der beiden Merkmale vom anderen abhängt. Die Ursache für einen solchen Zusammenhang könnte nämlich ein drittes Merkmal sein, von dem beide abhängig sind. Dann spricht man von einer Scheinkorrelation. Für r > 0 nennt man die Beobachtungspaare positiv korreliert. Die Punktwolke verläuft dann von links nach rechts mit steigender Tendenz. Für r < 0 sind die Beobachtungspaare negativ korreliert. Die Punktwolke hat dann von links nach rechts fallende Tendenz. Im Falle r = 0, also für s x y = 0 nennt man die Beobachtungspaare unkorreliert. Dann ist in der Punktwolke keine einheitliche Tendenz erkennbar. Liegt r in der Nähe von 0, so heißen die Beobachtungspaare schwach korreliert. Beispiel 3.9 (vgl. Beispiel 3.1): Für die Stichprobe der Körpergrößen (xj) und Gewichte (y ; ) erhält man durch elementare Rechnung: 20
£ x ; = 3415; i=l
20
i : x ? = 583 787; i=l
20
£ ^ = i=l
1429;
20
„
Σ > ? = 102 841; i=l
20
£ X; yj = 244 639. i=l Hieraus folgt χ = ^ ^
= 170,75 ;
s£ = ^ ( 5 8 3 787 - 20 · 170,75 2 ) » 35,5658;
s x rs 5,964; y =
= 71,45 ;
s£ = J L (102 841 - 20 · 71,45 2 ) « 38,8921;
Sy » 6,236; Kovarianz:
s x y = ^L (244 639 - 20 · 170,75 · 71,45) « 33,5395;
Korrelationskoeffizient: r « _ « 0,902. 5,9b4 · o,z 1 Werte zusammengefaßt werden. Dafür beweisen wir das L e m m a 3.1: In einer Randstichprobe sollen k > 1 Stichprobenwerte die verschiedenen aufeinanderfolgenden (ganzzahligen) Rangplätze ρ, ρ + 1, ρ + 2 , . . . , ρ + k - 1. besitzen. Die k Werte werden nachträglich zusammengefaßt, so daß sie danach alle den mittleren Rang P+ P+ k - 1 _ _ . k— 1 2
~
p
+
2
haben. Dadurch verringert sich die Quadratsumme der Ränge um k(k2-l) 12 Beweis: Aus der ursprünglichen Quadratsumme müssen die Quadrate der alten Rangzahlen subtrahiert und k-mal das Quadrat der neuen Durchschnittsrangzahl addiert werden. Dies ergibt die Korrektur
88
Kapitel 3: Zweidimensionale Darstellungen
k—1
k- 1
i=0
i=0
of,(k~1)k -2Ρ 2
=
^
(k — 1) - k · [2(k — 1) + 1] 6 +(k-l)p+
k(k-l)2 4
k ( k - l2) 4
(k — 1) · k · (2k — 1) + 6
k · (k — 1) · [4k — 2 — 3k + 3] _ 12 ~
k(k2-l) 12
k · (k - 1) · (k + 1) _ 12 ~
womit das Lemma bewiesen ist. Bezüglich der Bindungen setzen wir folgendes voraus: in der j-ten Ranggruppe der x-Stichprobe gebe es bj Werte, in der k-ten Ranggruppe der y-Stichprobe seien c k Werte. Wir setzen Bx= Σ br(b?-l); By= Ε ck.(c£-l). (3.35) ) . . . . k Summiert wird dabei jeweils über die Anzahl der Gruppen mit Bindungen in der entsprechenden x- bzw. y-Stichprobe . Mit dem Lemma 3.1 und (3.29) und (3.30) erhalten wir hiermit 2_,K (X;)
g
Σ Κ ^ - ^ η + Ι )
12 χ
2
' '
—
6
12
y'
2 _ , , ^ · ^ ^ -_ ^ ι B„ .
Aus (3.32) und (3.33) erhält man ebenfalls mit diesen Korrekturen R ( x j ) R ( y . ) - a ( n + l)2
Σ =
n
= i
< 4 n + 2> - n ( n + l) 2 - 1 Σ
(η (η 2 - 1) - 6 £
[R(xj) - R ( y i ) ] 2 - ^ B
[R(xj) - R(y ; ) ] 2 + ±(Β χ + B y )) .
Damit erhalten wir unmittelbar die folgende Darstellung:
x
- i B
y
3.3
Korrelationsrechnung
89
Falls Bindungen (gleiche Duichschnittsränge) auftreten, gilt n ( n 2 - 1) - 6± Ν
mit B
=
x
Σ j
[R(x;) - R ( y i ) ] 2 - J ( B X + By)
[n(n — 1) — Β χ ] · [n(n — 1) — By] (3.37)
b j - i b ? - 1);
B
y
=
Σ < v ( c £ - 1); k
bj = Anzahl der x- Werte mit gleichem Rang in der j-ten Gruppe ; c^ = Anzahl der y- Werte mit gleichem Rang in der k-ten Gruppe. Summiert wird über die Anzahl der Gruppen mit Bindungen. Beispiel 3.16: Die Klausuren von 10 Studierenden wurden unabhängig von zwei Dozenten bewertet. Dabei wurden die in der nachfolgenden Tabelle angegebenen Punkte vergeben. Die Punkte des ersten Dozenten sind bereits der Größe nach sortiert. Da die vergebene Punktzahl doch etwas willkürlich sein kann, sollen für die Bewertungen nur die Ränge, also die Leistungsreihenfolge benutzt werden. Dozent A
14
14
18
22
22
22
25
25
30
39
Dozent Β
12
15
21
21
21
21
27
27
32
41
R(Xi)
(A)
1,5
1,5
3
5
5
5
7,5
7,5
9
10
R(yi)
(B)
1
2
4,5
4,5
4,5
4,5
7,5
7,5
9
10
R^J-Rfri)
0,5
0,5
0,5
0,5
0
0
0
0
-0,5 -1,5
Die Quadratsumme der Rangdifferenzen beträgt Σ [R(Xi) - R ( y i ) ] 2 = 3,5 . i=l Beim Dozenten Α gibt es drei Gruppen mit Bindungen mit den Umfangen 2, 3 und 2, beim Dozenten Β zwei Gruppen mit den Umfangen 4 und 2. Daraus ergeben sich die Korrekturgrößen B v = 2 · 3 + 3 · 8 + 2 · 3 = 3 6 ; B v = 4 · 15 + 2 · 3 = 66. * / Mit n ( n 2 - 1 ) = 10 · 99 = 990 erhält man den Rangkorrelationskoeffizienten r« S
=
990 - 6 · 3,5 - 0,5 · (36 + 66) ^ [990 - 36] · [990 - 66]
0,9778.
Es liegt also eine sehr starke positive Rangkorrelation vor. Die Leistungsabstufungen sind somit bei beiden Dozenten fast gleich bewertet worden.
90
Kapitel 3: Zweidimensionale Darstellungen
3.4 Regressionsrechnung Bei der Korrelationsrechnung wird durch die symmetrische Behandlung der beiden Merkmale nur der Grad des (linearen) Zusammenhangs untersucht. Bei der Regressionsrechnung steht jedoch die Kausalitätsfrage im Vordergrund. Dabei können nur kardinale, also metrisch skalierte Merkmale untersucht werden. Mit Hilfe einer "funktionalen" Abhängigkeit möchte man gerne von einem Merkmal auf das andere schließen, im allgemeinen von χ auf y. Dann ist χ die unabhängige Einflußgröße (Regressor) und y die abhängige Zielgröße (Regressand). Der Idealfall wäre natürlich eine vollständige funktionale Abhängigkeit y = f(x). Dann könnte man eindeutig von χ auf y schließen. Alle Wertepaare (x ; , y ; ) müßten dann auf dem Graphen von f liegen. Eine solche Idealsituation gibt es jedoch in der Praxis kaum. Auf Grund von unberechenbaren Zufallseinflüssen ζ. B. Störungen oder Meßfehlern liegen die Meßwerte (x ; , y ; ) nicht mehr exakt auf der Regressionsfunktion, sondern nur noch in ihrer Nähe. Die Werte des Streuungsdiagramms liegen dann in der Nähe dieser Kurve. So lernt man ζ. B. in der Fahrschule, daß der Bremsweg quadratisch mit der Geschwindigkeit wächst. Die Regressionsfunktion ist in diesem Fall eine Parabel. Dabei werden selbstverständlich mehr oder weniger große Abweichungen von dieser Parabel auftreten. Ursachen dafür gibt es viele, ζ. B. der Zustand der Bremsen und des Straßenbelags oder das persönliche Fahrverhalten. In der Regressionsrechnung wird ein Modell der Art yi=f(Xi)+ei
betrachtet. Zusätzlich zur funktionalen Abhängigkeit y = f(x) findet eine additive Überlagerung durch die Restgröße (Residuum) e; statt. Dabei kann die Funktion f durch Parameter eindeutig festgelegt sein, wie ζ. B. eine Gerade, ein Polynom oder eine Exponentialfunktion. In der Regressionsrechnung (vgl. Abschnitt 11) sollen diese unbekannten Parameter wenigstens näherungsweise bestimmt (geschätzt) werden. Allgemein wollen wir in diesem Abschnitt bei zweidimensionalen Beobachtungsreihen dem Streuungsdiagramm eine möglichst einfache Funktion, ζ. B. eine Gerade, Parabel oder Exponentialfunktion anpassen. Die Parameter, welche den Funktionstyp festlegen, werden nach dem Prinzip der kleinsten (vertikalen) Abweichungsquadrate bestimmt.
3.4.1 Regressionsgerade Der zweidimensionalen Punktwolke (x,y) = ( ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) ) soll möglichst gut eine Gerade
3.4 Regressionsrechnung
91
y = a + bx angepaßt werden. Nach dem Prinzip der kleinsten Quadrate könnte man die Werte a und b prinzipiell so bestimmen, daß die Summe der Abstandsquadrate der Punkte (x;, y ; ) von dieser Geraden minimal wird. Die Berechnung nach diesem Prinzip ist etwas kompliziert. Weil man mit Hilfe einer solchen Ausgleichsgeraden aus den x-Werten die y-Werte schätzen möchte, wird nach Carl Friedrich GauS (1777—1855) die Summe der vertikalen Abstandsquadrate minimiert.
Bild 3.4: Bestimmung der Regressionsgeraden An der Stelle x ; hat die Gerade den Wert a + b x ; . Damit lautet das vertikale Abstandsquadrat des Punktes , y ; ) von der Geraden d? = ( y i - a - b X i ) 2 . Summation ergibt die Summe der vertikalen Abstandsquadrate Q2(a,b)= Σ (yj-a-bx;)2· (3.38) i=l Die Parameter a und b sind so zu bestimmen, daß Q 2 minimal wird. Zur Lösung des Problems werden die beiden partiellen Ableitungen der Funktion Q 2 ( a , b ) nach a und b gebildet und gleich Null gesetzt: dQ 2 (a, b) τπ da
η = - 2 Σ ( y j — a — bx;) =0 i=l π dQ 2 (a, b) — = 2 Σ (yj — a — bx;) · Xj = 0. öb i=l Mit η η Σ>ί = η·χ; £>; = n y i=l i=l
92
Kapitel 3: Zweidimensionale Darstellungen
erhält man hieraus das Gleichungssystem (1)
a + _ nx-a
(2)
+
x b
=
y
η η Σ χ ί " b = Σ XiYii=l i=l
Die Lösung b heißt Regressionskoeffizient (Steigung), während a der Achsenabschnitt ist. Die so gewonnene Gerade nennt man Regressionsgerade oder Ausgleichsgerade. Multiplikation von (1) mit nx und Subtraktion von ( 2 ) ergibt für den Regressionskoeffizenten b die Gleichung η η ( Σ xf — η χ ) · b = Σ χ ί • yj — · i=l i=l Division durch η — 1 ergibt die Gleichung s 2 · b = s x y ( = Kovarianz) mit der Lösung b = — j = s .s
·ψ- = γ·§=-
(r = Korrelationskoeffizient).
Aus ( 1 ) folgt dann _ a = y — b-x = y —
sSxy =-·χ . sΛ x
Zur Überprüfung auf ein Minimum bilden wir die zweiten Ableitungen
_____2n>ü, _____ _ 1 und t + m < η gebildet werden. Für die gleitenden Durchschnitte ungerader Ordnung erhält m a n unmittelbar die Rekursionsformel y & m + 1 ) = yt(2m+1) + ^ _ L _ ( y t
+ m + 1
_yt_m).
(3.58)
3.5 Zeitreihen
109
In die Berechnung gleitender Durchschnitte ungerader Ordnung 2m + 1 gehen neben dem Wert y t jeweils die m vor und die m nach ihm liegenden Werte ein. Falls man bei gerader Ordnung 2m nur 2m Werte berücksichtigen würde, wäre eine solche symmetrische Aufteilung nicht mehr möglich. Aus diesem Grund benutzt man auch hier die 2m + 1 benachbarten Werte, wobei der erste und letzte Wert (Randwerte) nur mit dem halben Gewicht in die Mittelwertsbildung eingehen, während die übrigen Werte voll gewichtet werden. Dann ist die Summe der Gewichte wieder 2 m. ^
2m ( f ^ t - m + ^ t - m + 1 + ·· · + ^t + · · · + y t + m (m — 1) =
5 5 τ ( έ ^ - »
+
Σ y j = — (m — 1)t + j
+|y
t + m
1 + m )
)
(3.59)
für t = m - t - l , . . . , n — m heißt gleitender Durchschnitt der geraden Ordnung 2 m . Aus der Definitionsgleichung erhält man unmittelbar die Rekursionsformel yt+im) = y
( 2 m ) t
+i(yt
+ m +
i+y
t +
m-yt-
m
+yt-
m +
i)·
(3-βο)
Die gleitenden Durchschnitte bilden eine verkürzte Zeitreihe Wm + l
' Jm + 2
' · · ·' y n - m
)
Um + i ' i m + 2 ' " · ' ' n - m )
mit η — 2m Werten. Wichtige Anwendungen sind: gleitender Dreierdurchschnitt: —(3) y t _- y t - i + y3t + y t + i
.
gleitender Viererdurchschnitt: _(4) _ yt
^yt-a+yt-i+yt+yt+i+^yt+2 _
_
4
'
gleitender 12-er Durchschnitt: -(i2) _ y t ~
^yt-e+yt-s + '-'+yt+s+^yt+e 12 ·
Gleitende 12-er Durchschnitte oder sogenannte gleitende 12-Monats-Durchschnitte werden oft bei monatlich angegebenen Daten benutzt, bei denen die Saisonkomponente einen Jahreszyklus aufweist.
110
Kapitel 3: Zweidimensionale Darstellungen
Satz 3.2:
Die Werte der Zeitreihe ( x j , x 2 , . . . , x,j) mit äquidistanten Zeitpunkten tj = i sollen auf einer Geraden liegen, d.h. es gelte Xj = m · i -f b für i = 1 , 2 , . . . , η mit zwei Konstanten m (Steigung) und b (Achsenabschnitt). Dann stimmen für jedes ρ die gleitenden Durchschnitte der Ordnung ρ mit den Ausgangswerten x t überein, d.h es gilt χ(^) = x t für jedes mögliche t.
Beweis:
Wir beschränken uns beim Beweis auf den Fall ρ = 2 m , für ungerades ρ verläuft der Beweis entsprechend. Aus der Geradengleichung erhält man =
=
2m ( |
X
t - m + | x t + m + x t - ( m - l ) + --- + X t + - " + x t + ( m - l ) ) + (m — 1)
2 k U [ m ( t - m ) + b + m ( t + m) + b] +
Σ [ m ( t + j ) + b]J j = (m-l) (m — 1)
= 2 5 j ( m t + b + [ 2 ( m - l ) + l ] ( m t + b) + m · £ j ) j = (m-l)
"
= also
2~ ^mt+b xpm) =
x
s,
= 0
'
+ ( m t + b ) ( 2 m - l ) j = ^ 2 m ( r a t + b) =
mt+b,
t ·
Bei x [ ^ fehlt bei den beiden Randwerten nur der Faktor läuft der Beweis gleich. 2 m +
sonst ver-
3.5.4 Schätzung der glatten Komponente g t = m t + k t Wir betrachten nur Zeitreihen mit äquidistanten Zeitpunkten. Mit der glatten Komponente g t = m t + k t erhalten wir das Modell yt = g t + s t + rt· Auch für die gleitenden Durchschnitte der Ordnung ρ aus Abschnitt 3.5.3 gilt dann entsprechend y t
(p)=
gt
(p)+5t(p)
+ Ft
W
(3.61)
für alle zulässigen Zeitpunkte t. Unser Ziel ist es, die glatte Komponente durch gleitende Durchschnitte zu schätzen.
111
3.5 Zeitreihen
Falls bei äquidistanten Zeitpunkten die glatten Komponenten g t = m t + s t exakt auf einer Geraden liegen, stimmen nach Satz 3.2 ihre gleitenden Durchschnitte mit den Ausgangswerten überein, also gt(p) = gt
für alle zulässigen Werte t .
Wenn dann auch noch die beiden restlichen gleitenden Durchschnitte s t ' p ' und f t ( p ) der Saison- und Restkomponenten verschwinden würden, würden die gleitenden Durchschnitte y ^ sogar mit der glatten Komponente g t übereinstimmen. Diese drei Bedingungen sind näherungsweise erfüllt unter den Modellannahmen: 1. Die Saisonkomponenten wiederholen sich fast zyklisch mit der Periodenlänge (Saisonlänge) σ. Bei vielen monatlich ermittelten Werten wie ζ. B. der Anzahl der Arbeitslosen ist diese Bedingung mit σ = 12 (Monate) erfüllt. Ferner seien die Saisonkomponenten in einer Saison auf die Summe 0 normiert. Für jedes t gelte also S
t+ 0 . k=o Diese quadratische Form verschwindet genau dann, wenn alle z^ gleich Null sind. Dann ist ζ der Nullvektor. Da die Matrix X nach Voraussetzung den vollen Rang ρ + 1 besitzt, sind die Spaltenvektoren der Matrix X linear unabhängig. Dann folgt aber aus X u = 0 die Bedingung u = 0. Damit gilt für jeden Verktor u uTXTX u > 0 ;
u T X T X S = 0 nur für u = 0.
• Τ · ·· · Die Matrix X X ist damit positiv definit. Weil sie nach Voraussetzung den vollen Rang hat, existiert ihre Inverse. Somit hat das Gleichungssystem (4.18) die eindeutig bestimmte Lösung b = (XTX)_1XTy. (4.19) Es kann allgemein gezeigt werden, daß diese Lösung das Minimum von (4.15) ist. Zu jedem beobachteten Wert y ; ist y; = *>0 +
x u + b2 xi2 + . . . + b p x i p
der durch die Regression geschätzte Wert. Der so gewonnene Schätzvektor
4.3 Multiple lineare Regression
133
hat die Darstellung 9 = (yi,y2.->yn)T = Xb.
(4.20)
Mit (4.19) erhält man hieraus $ = Xb = X ^ X J - ^ y .
(4.21)
Aus X T X (X T X) ~ 1 = Ε (Einheitsmatrix) « Τ folgt durch rechtsseitige Multiplikation mit X X T X (X T X) - 1 X T = X T . (4.22) Τ "*T Weil die erste Zeile von X aus lauter Einsen besteht, also den Vektor 1 darstellt, erhält man über den ersten Zeilenvektor in (4.22) 1TX(XTX)~1XT= 1T. (4.23) Hiermit erhält man aus (4.21)
Σ yi= Ϊ Τ Ϋ = Ϊ Τ χ ί χ Τ χ ) - ^ ? = T T y = Σ * .
i=l i=l Die durch die Regression geschätzten Werte y ; und die beobachteten Werte yj besitzen daher den gleichen Mittelwert y = y.
(4.24)
Die Residuen e ; besitzen die Summe 0, also
Σ β ϊ = Σ (y« — y») = ο ·
i=l
i=l
(4-25)
4.3.2 Das zentrierte Modell Mit Hilfe der zentrierten x-Variablen kann der Ansatz (4.13) dargestellt werden in der gleichwertigen Form ρ _ ρ _ Ϋΐ = b 0 + Σ bjXj + Σ bjtXjj-Xj) i=1 J=1 (4.26) ρ _ = » + Σ b j (xjj - xj) · j=i Daher erhält man aus (4.13) und (4.26) mit dem Prinzip der kleinsten Quadrate die gleiche Lösung b 0 , b j , . . . , b p . Summation ergibt wegen y = y unmittelbar a = y, also
134
Kapitel 4: yi = y + Σ j=i
Mehrdimensionale Darstellungen (4.27)
bj(xij~xj)·
Hiermit erhält man die Abweichungsquadrate Q2(b1,b2,...,bp)= £ ( y i i=l
y i
)
=
2
£ ( y i - y - £ bjixij-xj))2 i=l j=l
min.
Partielle Differentiation ergibt Ö Q
^ , ^ , . . . ^
2
)
η
db„
i=l
j=l
' für m = 1 , 2 , . . . , ρ .
ρ _ η _ _ Σ bj (xjj - xj) · ( x i m - x j = Σ (y; - y) · ( x i m Ο j=l 1=1 für m = 1 , 2 , . . . , ρ . Division dieser Gleichungen durch η — 1 ergibt das Gleichungssystem
/ s-. - s- Xj Xj Xj x 2 s-
x 2 X1
\
s-
-
x2 x2
S- xpxl
S -
xpx2
\
/κ
xlxp
ä-
2 ρ
s- X„ X„ i Λ / Ρ Ρ'
\
' s yxj ^ s
yx2
\syxP/
W i r setzen
^XX —
/ S-. -. S-. X1 X 1 X1 x 2 S -. S-. xX2 Xj 2
\\
s- X„ ρ X,1
s X„ ρ Xo I
S-. xlxp
/u Ν s
Xo 2 x„ ρ S - -. x„ x„ 7/ Ρ Ρ
syx
\bp/
—
y X1
yx2
\syxP/
Dabei ist S x x die Kovarianzmatrix der ρ Regressoren X j , x 2 , . . . , x p ; b z ist der Vektor der Regressionskoeffizienten b j , b 2 , . . . , b p und s y x der Vektor der Kovarianzen zwischen y und den ρ Regressoren. D a m i t lautet die Bestimmungsgleichung ^xx'
(4.28)
— syx
mit der Lösung Κ
= (bi.b2l...,bp)T =
S^Syx·
(4.29)
4.3 Multiple lineare Regression
135
4.3.3 Das multiple Bestimmtheitsmaß Mit (4.24) erhalten wir die Quadratsummenzerlegung Σ (yi-y)2 = Σ [(yi-yi) + ( y i - y ) ] 2 = Σ [(yi-yO + i=l i=l i=l = Σ (Χί-Ϋί)2+ £ i=l i=l
i=l
tfi-i)]2
2±(yi-yi)(yi-9).
Für das gemischte Glied erhalten wir mit (4.24) und (4.19) η _ η Σ (yi — yj)(yi — y) = Σ i=l i=l
_ η (yi — y.) yi - y Σ >i=l
(yj-yj) v/ =0
= ( y
T
- F ) f = (yT-bTXT)Xb
rr*
m
γτλ
^
X Xb
ΓΤΛ
=
y Xb — b
=
yTXb-(bTXTy)T = y
rr\
^
rp
yTXb-bTXTy
=
T
Xb-y
T
X b = 0.
Das gemischte Glied verschwindet. Damit erhalten wir die Streuungszerlegung Σ (yi-y)2 = Σ ( v - h ) 2 i=l i=l
+ Σ (y-y)2· i=l
(4.30)
Die Gesamtstreuung q g e s = Σ (yi - y) 2 = Σ y 2 - n y 2 i=l i=l kann also additiv zerlegt werden in die durch die Regression erklärte Streuung qReg = Σ ( y i - ^ ) 2 = Σ y,? - n f i=l i=l
= Σ y? - n y 2 i=l
und die Reststreuung «inest = Σ ( y i - y O 2 = ( y - 9 ) τ ( 9 - 9 ) = (y - x b ) T ( y - x b ) . i=l η Division von (4.30) durch (yj ~ y) ergibt die Zerlegung i=l 1 _ —
Σ (yi-y)2 in- l , „ "ι Σ (yi-y)2 i=l
i(yi-yi)2 i=l η „ Σ (yi-y)2 i=l
—
t(yi-y)2 Σ e? i=l | i=l η _"ι"η Σ (^-y)2 Σ to-y)2 i=l i=l
Kapitel 4: Mehrdimensionale Darstellungen
136 Dabei ist Β
=
Σ (yi-y) i=l —\2 Σ (yi-y) i=l
=
Σ i=l
1-
e
?
Σ (yi-y)2 i=X
das multiple Bestimmtheitsmaß. Es stellt denjenigen Anteil an der Streuung des Merkmals Y dar, der durch die Regressoren X j , X 2 , . . . , Xp verursacht wird. U = 1 — Β ist das multiple Unbestimmtheitsmaß. Dabei gilt 0 < Β < 1;
Β = 1
y; = y; für alle i.
J e näher Β bei 1 liegt, desto besser wird der Regressand y durch die ρ Regressoren bestimmt. Im Extremfall Β = 0 liefern die Regressoren gar keinen Anteil an der Streuung des Regressanden. Ursache für die Variabilität sind dann nur die Residuen. Wegen a = y und y — y gilt nach (4.26) und (4.29) _ yi-y
=
ρ Σ i=i
b
— (xil
_ _ _ j ( x i j ~ x j ) = ( * ί ΐ - * ι . · · · . * ί ρ - * ρ ) · bz χ
1'·"'χίρ
*p) ' ^xx* s yx ' X
y2-y
\Yn
y
21
/
^
X-l 1 X«)l) 22
Λ
*pl~Xl
Xo
X
-X,
ΧpP ν
lp
X
2P"S
X
PP
X
Hieraus folgt wegen der Symmetrie von S: x-x 1 n 1 — 2 — — τγιγτ Σ ( y j - y ) = ( y i - y > y 2 - y . •••,yn-y)· " 1 i=l
• Sxx " 1 · s yx'
(4.31)
P/ yi-y y2-y
yn-y :-lVTc - i v r _ a T" .· S 0 -' 1 xx — ®yx ' (^χχ 1 ) 1 ^χχ '^χχ 1 ' ®yx _ ®yx ' (^χχ 1 ) 1 ' ®yx _ s yx ^zrr Σ (yi-y)(yi-y) 11 1 i=l
/
-—
T s yx · S xx - 1 · s yx
21
X
1
^^S»!-X1
22
X
2
^2
x
2
X
s
°yx'
_ \
l p - Xx p P ^p-^p x
X
.
S xx - 1 . syx X
pp
4.3 Multiple lineare Regression
137
Damit haben wir folgende Identitäten nachgewiesen
r r p i - y ) 2 = ir ^ T .|: i (yi-y)(y i -y) = s ^ - s - 1 · ^ ·
(4.32)
Hiermit geht das multiple Bestimmtheitsmaß über in β
tih-9)2 i-5Ö2 _ i=l _ n 1 i=l _ 2 2 Σ (y;-y) ^t(y>-y)
η _ Durch Erweiterung von Β mit Σ (y; — y) i=l
yx
J
,s-i.
xx
s
l
erhält man wegen (4.32) λ\2
Β
=
^
(i^ri^i-^-y)) Ή
V sv · s v )
yy
Für das multiple Bestimmtheitsmaß gilt damit
Damit ist wie im zweidimensionalen Fall (Abschnitt 3.4.1) das Bestimmtheitsmaß gleich dem Quadrat des Korrelationskoeffizienten zwischen der Stichprobe y und der durch die Regression geschätzten Stichprobe y. Bei dem Korrelationskoeffizienten r y - handelt es sich um einen sogenannten multiplen Korrelationskoeffizienten (vgl. Abschnitt 4.4.2).
Beispiel 4.3: In der nachfolgenden Tabelle sind 10 Werte von drei Regressoren χ ; ι , Xj X; 3 und des Regressanden y ; angegeben.
138
Kapitel 4: Mehrdimensionale Darstellungen x
il
x
i2
0,2 0,2 0,2 0,4 0,4 0,4 0,4 0,8 0 0
0,1 0,1 0,1 0,1 0,1 0,3 0,3 0,3 0,3 0,3
i3
yi
9i
0,5 0,5 0 1 1 1 0 0 2 2
26 26 11 46 42 47 16 25 70 65
25,65 25,65 10,94 44,38 44,38 46,21 16,78 24,82 67,60 67,60
x
Wir erhalten / 1 XTX =
1
1
1
1
1
1
1
1
0,1 0,1 0,1 0,1 0,1 0,3 0,3 0,3 0,3 0,3 0,2 0,2 0,2 0,4 0,4 0,4 0,4 0,8
0
0
0,5 0,5 /
2
2
1 xTy =
1
0
1
1
1
0
0
10
2
3
8
2
0,5
0,62
1,8
3
0,62
1,4
1,4
8
1,8
1,4
11,5
1
1
1
1
1
1
1
1 )
1
0,1 0,1 0,1 0,1 0,1 0,3 0,3 0,3 0,3 0,3 0,2 0,2 0,2 0,4 0,4 0,4 0,4 0,8
0
0,5 0,5
2
0
1
1
1
0
0
2b0+
2bx +
3b2+
0 , 5 ^ + 0,62 b 2 +
3b0+
0,62 b x +
1,4 b 2 +
8b0+
1,8 b j +
1,4 b 2 +
0,2 0,2 0,2 0,4 0,4 0,4 0,4 0,8 0 0
0,5 Ν 0,5 0 1 1 1 0 0 2
(26)
Damit lautet das lineare Gleichungssystem: 10bo+
0,1 0,1 0,1 0,1 0,1 0,3 0,3 0,3 0,3 0,3
8 b 3 = 374
0
2
J
26 11 46 42 47 16 25 70
ω 82 93 v31v
w (1)
1,8 b 3 =
82
(2)
1,4 b 3 =
93
(3)
11,5 b 3 = 431
(4)
Dieses Gleichungssystem lösen wir mit Hilfe des Gaußschen Algorithmus.
2J
4.3 Multiple lineare Regression
139 rechte Seite
10 2 3 8
0,5 0,62 1,8
0,62 1,4 1,4
1,8 1,4 11,5
1 0 0 0
0,25 0,5 -0,13 -0,2
0,31 0,1 0,47 - 1,08
0,9 1 -1,3 4,3
1 0 0 0
0,25 1 - 13 -1
0,31 0,2 47 -5,4
0,9 2 - 130 21,5
1 0 0 0
0,25 1 0 0
0,31 0,2 49,6 -5,2
0,9 2 - 104 23,5
1 0 0 0
0,25 1 0 0
0,31 0,2 49,6 0
0,9 2 - 104 624,8
374 82 93 431
(3)
(2) (4)
(i)
41
ix(2)=(r)
36
5 X (2) — ( l ' ) = ( 2 ' )
— 30
(3) — 3 X (l')=(3*)
103
(4) — 8 X ( l ' ) = ( 4 ' )
41
Ιχ(2)=(ΐ")
72
2 X (2')=(2")
-3000 515
10 X (3')=(3") 5 X (4')=(4")
41
(1")=(1·")
72
(2")=(2"')
— 2064 587
41 72 - 2064 18382,4
(3") + 1 3 x ( 2 " ) = ( 3 " ' (2")+(4")=(4"')
(!»·) (2"') (3"') 5,2 X (3"')+49,6 X (4
Aus diesem Endtableau erhalten wir die Lösung b3 =
18382,44 „„ g' ~ 29,42;
, b 2 w 20,08;
^«9,14;
b 0 » 6,04.
Die Schätzwerte ys = b 0 + b 1 x i l + b 2 x i 2 + b 3 x i 3 , i = 1 , 2 , . . . , η sind sind in der letzten Spalte der Ausgangstabelle eingetragen. Mit Mi den Werten aus — der Tabelle erhält man 22 3223 Σ (9i (Ϋΐ -—yYi) f 2»«22,3223; > ; y«=- 3 7"- 4 *; · i=l
Σ (YI - y) 2 = i=l
3
580,4.
Das multiple Bestimmtheitsmaß lautet
Lösungshinweis, falls X T X singular ist Falls die Matrix X T X nicht den vollen Rang ρ + 1 hat, besitzt die Gleichung (4.18)
140
Kapitel 4: Mehrdimensionale Darstellungen XTX b = X T y
nicht mehr eine eindeutig bestimmte, sondern unendlich viele Lösungen. Die Lösungen erhält man mit Hilfe von verallgemeinerten Inversen. Oft werden in einem solchen entarteten Fall zusätzliche Bedingungen gefordert, welche die Lösung b wieder eindeutig festlegen. Bezüglich dieser allgemeinen Lösung soll hier nur auf weiterführende Literatur verwiesen werden z.B. auf Searle, S. R. [1971] und Seber, G.A.F. [1977].
4.3.4
Bestimmung von gewöhnlichen Regressionspolynomen mit Hilfe der multiplen linearen Regression
Die Koeffizienten des gewöhnlichen Regressionspolynoms ρ y = b 0 + b 1 x + b 2 x 2 + ... + b x p = £ b k x k k=0
aus Abschnitt 3.4.3 können auch direkt mit den Methoden der multiplen Regression bestimmt werden. Mit den Stichprobenwerte (xj, yj) setzen wir: xu
= x i; xi2 = x ?; xi3 = x f ; · · · ; xiP = XF f ü r > = 1 >2»· · · >n·
Damit erhält man den Ansatz yi = b0 + b 1 x i l + b 2 x i 2 + . . . + b p x i p
für i = l , 2 ,
• n.
Bei diesem Modell gilt
( X =
1 Xι 1 x0
\
Λι
*n
( ^ Σ ys xTy =
4
Σχι
ΣχϊΧί ^ Σ x j p yiy
η xTx =
\
Σχίρ
Σχ,?
^ Σ x j p Σ χί^
Σχ? Σ χ ί,Ρ+2
Σχίρ+1 2ρ
Σχί
/
Für den Bestimmungsvektor b der Regressionskoeffizienten erhält man hieraus die Gleichung XTX b = X T y , also das bereits in Abschnitt 3.4.3 angegebene Gleichungssystem.
4.4
141
Korrelationsrechnung
4 . 4
K o r r e l a t i o n s r e c h n u n g
Wir betrachten ρ verbundene Stichproben vom Umfang n, also ρ Spaltenvektoren
ΑιΛ xj
2j
=
für j = 1 , 2 , . . . , p.
VW Mit _
_
AjAk
, 1 l x v * v — * i J 2 = s ? ( l - R i -1 z 0 17 zV zx
Π—1
1 x x ? zJx /
= s z?\( l - r 2z, (x-j, χ- . 2
>Xp)/
Wegen y.-yi = (yi-y)-(y;-y) erhält man aus (4.31)
/ y2-y2 yr
v
-\
yi-y y2-y
y
n
- y
-Js - χ · sxx
(4.51)
yx
/
mit der zentrierten Matrix
( X =
X l p -_S \ X21
Χι1 Xq η + 1, so folgt hieraus unmittelbar die η Σ P(Aj) für paarweise unvereinbare Ereignisse. i=l
5.3 Wahrscheinlichkeiten
159
Satz 5.1 (Folgerungen aus den Axiomen): Aus den drei Axiomen (Kl), (K2) und (K3) bzw. (K3') erhält man die folgenden Eigenschaften: a) P(0) = 0; b) P(X) = 1 - P ( A ) ; c) aus A C Β folgt P(A) < P(B)
(Monotonie);
d) P(A U B) = P(A) + P(B) - P(A Π Β) für beliebige Ereignisse; e) P(A\B) = P(A) - P(A Π Β) für beliebige Ereignisse; f) P(A\B) = P(A) - P(B), falls B C A . Beweis: a ) 0 = 0 U 0 , 0 n 0 = 0 ergibt aus (K3'): P(0) = P(0) + P(0), also P(0) = 0. b) Aus A U Α = Ω; Α Π A = 0 folgt nach (K2) und (K3') 1 = P(A) + P(X), also P(Ä) = 1 - P(A). c) Wegen A C Β ist AB = A. Mit Ω = A U Α erhält man hiermit B = B n O = B n ( A U Ä ) = B A U B Ä = A U B Ä ; A n ( B Ä ) = 0. Aus der Additivität von Ρ erhält man hieraus P(B) = P(A) + P ( B Ä ) . Wegen P(BÄ) > 0 folgt hieraus P(B) > P(A). d) Für zwei beliebige Ereignisse Α und Β gilt A U B = A U ( A i l B ) . Dabei sind Α und Α Π Β unvereinbar. Daher gilt nach (K3') P ( A U B ) = P(A) + P ( Ä n B ) .
(5.1)
Β = (Α η Β) U (Ä η Β) ergibt Ρ(Β) = Ρ(Α Π Β) + Ρ(Α Π Β), Ρ(ΧηΒ) = Ρ(Β)-Ρ(ΑΠΒ). (5.2) in (5.1) eingesetzt liefert die Behauptung P(A U B) = P(A) + P(B) - P(A Π Β ) . e) A\B = Α Π Β
ergibt aus (5.2)
P(A\B) = P(A Π Β) = P(B) - P(A Π Β). f) Wegen Β C A => AB = Β folgt die Behauptung unmittelbar aus e).
(5.2)
Kapitel 5: Wahrscheinlichkeiten
160
Wahrscheinlichkeiten bei endlichen Ergebnismengen Falls die Ergebnismenge Ω = { ω 1 , ω 2 , . . . , ω ι η } nur aus m verschiedenen Versuchsergebnissen besteht, genügt die Angabe der Wahrscheinlichkeiten der m Elementarereignisse durch m
Σ Pi = L i=l Die Wahrscheinlichkeit für ein beliebiges Ereignis Α lautet dann p ; = Ρ({ω;}) > 0 für i = l , 2 , . . . , m
P(A)=
mit
Σ Pi· i:u»j e A
Wahrscheinlichkeiten bei abzählbar unendlichen Ergebnismengen Falls die Ergebnismenge Ω = { ω 1 , ω 2 , · · · } abzählbar unendlich viele Versuchsergebnisse besitzt, müssen die Wahrscheinlichkeiten oo Pi = P ( W ) > 0 für i = 1,2 , . . . mit Σ Pi = 1 i=l vorgegeben werden. Die Wahrscheinlichkeit für ein beliebiges Ereignis A erhält man als P(A)=
Σ Pi· i:uij e A
Interpretation einer Wahrscheinlichkeit Das Ereignis Α besitze bei einem Einzelexperiment die Wahrscheinlichkeit ρ = P(A). Das Zufallsexperiment werde n-mal unabhängig unter den gleichen Bedingungen durchgeführt. Dann liegt wegen des Stabilisierungseffekts bei großen Stichprobenumfängen η die relative Häufigkeit des Ereignisses Α meistens in der Nähe der Wahrscheinlichkeit p . Für große η gilt also im allgemeinen die Näherung r n (A) « P(A). Diese Eigenschaft wird bei den Gesetzen der großen Zahlen in Abschnitt 6.16 näher präzisiert und auch bewiesen. Aus diesem Grund kann eine unbekannte Wahrscheinlichkeit ρ durch die relative Häufigkeit in einer genügend großen unabhängigen Versuchsserie geschätzt werden. Aussagen über die Güte solcher Schätzungen werden in der beurteilenden Statistik gemacht.
5.3.2 Der klassische Wahrscheinlichkeitsbegriff Der klassische Wahrscheinlichkeitsbegriff wurde bereits von dem französischen Mathematiker P. S. Laplace (1749-1827) bei der Beurteilung der Chancen bei Glücksspielen benutzt. Zur Anwendung dieses Wahrscheinlichkeitsbegriffs benötigt man die beiden Voraussetzungen:
5.3 Wahrscheinlichkeiten
161
(LI) Bei dem Zufallsexperiment gibt es nur endlich viele verschiedene Versuchsergebnisse, d.h. die Ergebnismenge Ω ist endlich. (L2) Keines der Versuchsergebnisse darf bevorzugt auftreten, d. h. alle Elementarereignisse sind gleichwahrscheinlich. Die erste Bedingung ist bei vielen Zufallsexperimenten erfüllt. Die zweite Bedingung der Chancengleichheit sämtlicher Versuchsergebnisse ist oft rein äußerlich nicht ohne weiteres erkennbar. Doch kann man bei vielen Experimenten auf Grund der Konstruktion des Zufallsgeräts und der Versuchsdurchführung von einer solchen Chancengleichheit ausgehen. Ob die Bedingung (L2)'tatsächlich erfüllt ist, müßte im Einzelfall mit Hilfe statistischer Methoden nachgeprüft werden. So ist ζ. B. statistisch einwandfrei bewiesen, daß bei neugeborenen Kindern das Geschlecht männlich überwiegt. Die Wahrscheinlichkeit für eine Knabengeburt ist etwas größer als obwohl das Merkmal Geschlecht nur zwei Ausprägungen besitzt. Ein Zufallsexperiment, bei dem die beiden Voraussetzungen (LI) und (L2) erfüllt sind, nennt man ein Laplace-Experiment. Der bei diesem Modell benutzte Wahrscheinlichkeitsbegriff heißt klassische oder Laplace-Wahrscheinlichkeit. Die endliche Ergebnismenge Ω = {wj , ω 2 , . . . , w m } besitze m Versuchsergebnisse. Dann hat jedes der m Elementarereignisse wegen (L2) die gleiche Wahrscheinlichkeit p. Wegen der Additivität und der Normierung auf Eins folgt dann aus (LI) und (L2) mit (Kl) und (K3') m m Ω = U {";} ; 1 = Ρ ( Ω ) = Σ Ρ({ω ; }) = m - p , i=l i=l also P= P(W)=ra
für i = 1, 2 , . . . , m.
Falls ein Ereignis Α aus r Versuchsergebnissen besteht, erhält man durch Summenbildung. , . _ ' —
ι m
f ~
m —
|A| Anzahl der für Α günstigen Fälle — |Ω| Anzahl der insgesamt möglichen Fälle
.
. " '
Beispiel 5.2 (Roulette): Beim Roulette wird eine der 37 Zahlen 0 , 1 , 2 , . . . , 35,36 ausgespielt, es ist also | Ω | = 3 7 . Die Chancengleichheit aller 37 Zahlen dürfte dann gegeben sein, wenn der Roulette-Teller homogen ist und alle 37 Kreissektoren gleich groß sind. Ferner muß gewährleistet sein, daß am Roulette-Teller keine Manipulationen vorgenommen wurden und daß der Croupier die Kugel "korrekt" rollen läßt. Dann erhält man folgende Laplace-Wahrscheinlichkeiten:
Kapitel 5: Wahrscheinlichkeiten
162
Ρ (ungerade Zahl) = P(rot) = P(schwarz) = | | . Bei einfachen Chancen (Ereignisse, die aus 18 Zahlen bestehen) ist daher die Gewinnwahrscheinlichkeit kleiner als P ( l . Dutzend) = P({1,2,...,11,12}) = | f ; P(Querreihe 31,32,33) =
5.3.3
Kombinatorische Methoden zur Berechnung von Wahrscheinlichkeiten
Bei einer klassischen Wahrscheinlichkeit muß nach (5.3) die Anzahl der günstigen und der möglichen Fälle berechnet werden. Dabei muß allerdings sichergestellt sein, daß es nur endlich viele Versuchsergebnisse gibt und daß alle gleichwahrscheinlich sind. Zur Berechnung der Anzahl der Fälle können Formeln aus der Kombinatorik benutzt werden. Welche der Formeln zur Lösung eines Problems geeignet ist, hängt im allgemeinen von der speziellen Versuchsdurchführung ab. Eine kleine Veränderung der Versuchsbedingungen hat oft auch eine Änderung des kombinatorischen Modells zu Folge und führt so zu anderen Wahrscheinlichkeiten. Zu beachten ist, daß sowohl die Berechnung der Anzahl der möglichen als auch die der günstigen Fälle immer nach dem gleichen Modell der Kombinatorik erfolgen muß. In der Kombinatorik werden vor allem verschiedene Anordnungsund Auswahlmöglichkeiten behandelt.
5.3.3.1 Die Produktregel der Kombinatorik (das allgemeine Zählprinzip) Ein m-stufiges Zufallsexperiment entsteht dadurch, daß m Zufallsexperimente nacheinander oder gleichzeitig durchgeführt werden. Das Zufallsexperiment der i-ten Stufe besitze die Ergebnismenge Ω^ für i = 1,2, . . . , m . Dann können die m Ergebnisse ω 1 , ω 2 , . . . , ω der einzelnen Stufen unter Berücksichtigung der Reihenfolge als (geordnetes) mTupel (uij, ω 2 , . . . , « m ) dargestellt werden, wobei an der i-ten Stelle das Ergebnis Wj des i-ten Zufallsexperiments steht, also e Ω; . Die Ergebnismenge Ω des m-stufigen Gesamtexperiments ist dann die Menge aller m-Tupel, das sogenannte direkte Produkt der einzelnen Ergebnismengen ΩΪ . Das direkte Produkt bezeichnen wir mit Ω = Ω1 χ Ω 2 Χ . . . χ Ω ι η . Daraus erhält man den
5.3 Wahrscheinlichkeiten
163
Satz 5.2 (Produktregel der Kombinatorik): Bei einem m-stufigen Zufallsexperiment sei die Anzahl der möglichen Versuchsergebnisse bei der i-ten Stufe gleich nj = | Ω; | . Dann besitzt das m-stufige Gesamtexperiment insgesamt η=
· n 2 · . . . · n m verschiedene Ergebnisse (m-Tupel), also
| Ω | = | Oj | · | Ω 2 | · . . . · | Ω π ι | . Mit Hilfe dieses allgemeinen Zählprinzips können viele Formeln der Kombinatorik sehr einfach hergeleitet werden. 5.3.3.2 Anordnungsmöglichkeiten (Permutationen) Unter einer Permutation von η Elementen versteht man eine Anordnung der Elemente. Für die Auswahl des ersten Elements gibt es η Möglichkeiten, für die Auswahl des zweiten verbleiben noch η — 1 Möglichkeiten usw. Für die Auswahl des n-ten Elements gibt es nur noch eine Möglichkeit. Damit erhält man aus der Produktregel den Satz 5.3: η verschiedene Dinge lassen sich (unter Berücksichtigung der Reihenfolge) auf η! = 1 · 2 · . . . · η
(5.4)
verschiedene Arten anordnen (Anzahl der Permutationen). Das Symbol n! spricht man dabei als "n-Fakultät" aus. Für die Fakultäten n! gilt folgende Rekursionsformel η! = η · (η — 1)!. Damit diese Formel auch noch für η = 1 richtig ist, setzt man 0! = 1 Beispiel 5.3: a) Jemand möchte drei Bücher - wir bezeichnen sie mit a , b und c - in ein Regal stellen. Dafür gibt es die 3! = 1 · 2 · 3 = 6 Möglichkeiten (Permutationen) abc acb bac bca cab cba. b) 10 verschiedene Personen sollen in einer Reihe aufgestellt werden. Dafür gibt es insgesamt 10! = 1 · 2 - 3 · 4 · 5 · 6 - 7 · 8 · 9 · 10 = 3 628 800 verschiedene Möglichkeiten. Diese alle aufzuzählen, ist kaum möglich.
164
Kapitel 5: Wahrscheinlichkeiten
c) Eine Gruppe von 4 Studentinnen und 3 Studenten stellen sich in zufalliger Reihenfolge an einer Theaterkasse an. Dafür gibt es insgesamt 7! = 5040 mögliche Reihenfolgen. Gesucht ist die Wahrscheinlichkeit dafür, daß die 4 Studentinnen nebeneinander stehen. Zur Bestimmung der Anzahl der günstigen Fälle schreiben wir w für Studentin und m für Student. Dann gibt es die für unser Ereignis (alle Studentinnen nebeneinander) "günstigen Blöcke" w w w w m m m ; m w w w w m m ; m m w w w w m; m m m w w w w . In jedem dieser vier Blöcke dürfen aber die vier Studentinnen w w w w und die drei Studenten m m m permutiert werden. Damit gibt es für jeden der vier Blöcke 4! · 3! = 24 · 6 = 144 Möglichkeiten, also insgesamt 4 · 144 = 576 günstige Fälle. Damit lautet die gesuchte Wahrscheinlichkeit 576 η — 4 ~ 0U 1141 P ~ 5040 ~ 3 5 'U4,5·
d) In c) betrachten wir das folgende Modell: Bei jeder der 7 Personen interessiere nur das Geschlecht, nicht jedoch die Person. Bezüglich dieses Merkmals sind die Studentinnen bzw. Studenten nicht unterscheidbar. Insgesamt gibt es dann nur die in c) angegebenen vier günstigen Fälle (Blöcke). Die Anzahl der möglichen Fälle bezeichen wir mit x. In jedem dieser χ Fälle dürfen die vier Studentinnen und die drei Studenten beliebig untereinander permutiert werden ohne daß sich die Anzahl ändert. Dafür gibt es jeweils 4! bzw. 3! Möglichkeiten. Aus diesen χ Möglichkeiten im nichtunterscheidbaren Modell erhält man durch Multiplikation mit 4! · 3! alle 7! unterscheidbare Permutationen. Somit lautet für χ die Bestimmungsgleichung χ · 4! · 3! — 1\ mit der Lösung 7! _ 5 040 _ nr 4! · 3! ~ 24 · 6 Hiermit erhält man ebenfalls die Lösung „ 4 p = 35· Falls m a n mehrere Gruppen gleicher Dinge hat, erhält man analog zu Beispiel 5.3 d) folgende Aussage: Satz 5.4: Von η Dingen seien jeweils n t , n 2 , . . . , n r gleich. Dann gibt es für diese η Dinge insgesamt n' + nr ι n ι' ι ! η = n 1 + n 2 + .. η 1· 2 · · · · ' n r ' verschiedene Anordnungsmöglichkeiten.
(5.5)
165
5.3 Wahrscheinlichkeiten 5.3.3.3 Allswahlmöglichkeiten unter Berücksichtigung der Reihenfolge
Aus η verschiedenen Dingen sollen k Stück nacheinander ausgewählt werden. Dabei spiele die Reihenfolge der Ziehung der einzelnen Elemente eine Rolle. Man spricht dann vom Ziehen unter Berücksichtigung der Reihenfolge (Anordnung). Beim Ziehen ohne Zurücklegen (ohne Wiederholung) werden die gezogenen Elemente vor dem nächsten Zug nicht mehr zu den übrigen zurückgelegt. Beim Ziehen mit Zurücklegen (mit Wiederholung) werden die ausgewählten Elemente nur registriert und vor dem nächsten Zug wieder zur Grundmenge zurückgebracht. Beim Ziehen ohne Wiederholung gibt es für den ersten Zug η Möglichkeiten, für den zweiten η — 1, für den dritten η — 2 usw. Das k-te Element kann schließlich auf n — (k— l) = n — k + 1 Arten ausgewählt werden. Dabei darf k höchstens gleich η sein. Beim Ziehen mit Wiederholung wird bei jedem Zug aus der ganzen Grundgesamtheit ausgewählt. Mit der Produktregel der Kombinatorik erhält man für beide Fälle die Anzahl der Ziehungsmöglichkeiten. Satz 5.5: Aus η verschiedenen Dingen werden k Stück unter Berücksichtigung der Reihenfolge ausgewählt. Dann beträgt die Anzahl der verschiedenen Auswahlmöglichkeiten: a) beim Ziehen ohne Zurücklegen (ohne Wiederholung) n · (η - 1) · (n - 2) · . . . · (n - k + 1)
für k < η ;
(5.6)
b) beim Ziehen mit Zurücklegen (mit Wiederholung) für beliebiges k.
(5.7)
Beispiel 5.4 (Geburtstagsproblem): Aus η Personen werden zufallig zwei ausgewählt. Gesucht ist die Wahrscheinlichkeit dafür, daß von diesen η ausgewählten Personen mindestens zwei am gleichen Tag Geburtstag haben. Zur Berechnung der gesuchten Wahrscheinlichkeit machen wir die Modellannahme: Das Jahr habe 365 Tage, die als Geburtstage für jede der η Personen gleichwahrscheinlich sind. Das entsprechende Ereignis bezeichnen wir mit A n . Da nach der Modellannahme bei η > 365 Personen mindestens zwei Personen am gleichen Tag Geburtstag haben müssen, gilt P ( A n ) = 1 für η > 365. Für η < 365 berechnen wir zunächst die Wahrscheinlichkeit für das Kom-
166
Kapitel 5: Wahrscheinlichkeiten
plementärereignis A n . Die Wahrscheinlichkeit dafür läßt sich nämlich wesentlich einfacher berechnen. Es tritt ein, wenn alle η Personen an verschiedenen Tagen Geburtstag haben. Die Personen werden durchnumeriert. Die Anzahl der möglichen Fälle ist dann 365". Die Anzahl der günstigen Fälle erhält man durch folgende Überlegung: Für die erste Person kommen 365, für die zweite 364, für die dritte 3 6 3 , . . . , f ü r die n-te 365 — n + 1 Tage in Frage. Für A n gibt es nach dem Multiplikationsprinzip dann insgesamt 365 · 364 · . . . · (365 - n + 1 ) günstige Fälle. Damit gilt — '
n
_ ' -
365-364·...-(365-n+l) 365" '
Hier erhält man die Rekursionsforrnel Ρ
ίϊη + ΐ)=
2
%Ρ·
ρ
(ϊη)
mit
P(Ä 1 ) = l f ü r n = l , 2 , . . . , 3 6 4 .
Hieraus folgt τ>(\ Χ ι v>/~\ \ 1 p(An) = 1 - P(An) = 1
365-364.....(365-n+l) 365ü f™ η < 365.
Für η = 23 erhält man den etwas überraschenden Wert P ( A 2 3 ) « 0,507. Dadurch, daß die Schaltjahre unberücksichtigt bleiben, ist die hier berechnete Wahrscheinlichkeit etwas zu groß. Die Gleichverteilung der Geburtstage auf alle 365 Tage ist auch nicht ganz realistisch. Eine ungleichmäßige Verteilung würde die Wahrscheinlichkeit etwas erhöhen.
5.3.3.4 Auswahlmöglichkeiten ohne Berücksichtigung der Reihenfolge Aus η verschiedenen Dingen sollen k ausgewählt werden, wobei die Reihenfolge, in der die Elemente gezogen werden, keine Rolle spielt. a ) Ziehen ohne Wiederholung (ohne Zurücklegen): Die k Elemente können einzeln gezogen werden, wobei die ausgewählten Elemente vor dem nächsten Zug nicht mehr zu den übrigen zurückgelegt werden dürfen. Genauso kann man aber auch alle k Stück auf einmal ziehen. Beim Ziehen ohne Zurücklegen darf k höchstens gleich η sein. Die Anzahl der Möglichkeiten, aus η Dingen k Stück ohne Wiederholung auszuwählen, bezeichnen wir mit x. Aus jeder bestimmten Auswahlmöglichkeit ohne Berücksichtigung der Reihenfolge erhalten wir durch alle möglichen Permutationen der k ausgewählten Elemente k! verschiedene Auswahlmöglichkeiten unter Berücksichtigung der Reihenfolge. Nach (5.6) gilt daher χ · k! = η · (η - 1) · (η - 2) · . . . · (η - k + 1), also
5.3 Wahrscheinlichkeiten
167
^ _ η · (η — 1) · (η — 2) · . . . · (η — k + 1)
(5
g)
Im Nenner steht das Produkt der ersten k natürlichen Zahlen. Im Zähler steht ebenfalls ein Produkt von k Faktoren. Diese beginnen mit η und werden laufend um 1 kleiner. Erweitert man (5.8) mit (n — k)!, so erhält man für die gesuchte Anzahl χ die Darstellung x =
n! k! · (n — k)!
Dabei ist ( ^ j
=
M \k)·
sprich "n über k" ein sogenannter Binomialkoeffizient.
Dabei setzt man
00W-G)'
Für die Binomialkoeffizienten gilt allgemein
( £ )
+
( k ° i )
=
(k + ! )
« Γ a " » η > 1 und k = 0 , !
„-1.
Damit haben wir folgenden Satz bewiesen:
Satz 5.6:
Aus η verschiedenen Elementen können k Stück ohne Berücksichtigung der Reihenfolge und ohne Wiederholung auf - l ) . ( n - 2 ) . . . . . ( n - k + l) 1 · 2 · 3 ·... · k
—
k! · (n — k)!
(5.9)
verschiedene Arten ausgewählt werden für k = 1, 2 , . . . , n.
b) Ziehen mit Wiederholung (mit Zurücklegen):
Aus η Elementen werde k mal hintereinander eines ausgewählt, wobei die gezogenen Elemente vor dem nächsten Zug zu den übrigen zurückgelegt werden. Die Reihenfolge der Ziehung spiele dabei keine Rolle. Die η Elemente, aus denen mit Wiederholung ausgewählt wird, werden von 1 bis η durchnummeriert. Als Beispiel nehmen wir η = 4 und k = 5. Dabei soll dreimal die 1 und zweimal die 3 ausgewählt worden sein. Dieses Ergebnis stellen wir folgendermaßen dar:
+ + + ,,
3mal 1
,.++,. ,
0 mal 2
2mal 3
,·
0 mal 4
Kapitel 5: Wahrscheinlichkeiten
168
Falls aus η Elementen mit Wiederholung und ohne Berücksichtigung der Reihenfolge k Elemente ausgewählt werden, kann jedes Ergebnis symbolisch mit Hilfe von k Pluszeichen und η — 1 Kommata dargestellt werden. Jede zufallige Reihenfolge dieser Symbole wird ein Ziehungsergebnis in eineindeutiger Weise zugeordnet. Die Reihe +++, +, , , ++,... , ++++ bedeutet ζ. B, daß das erste Element dreimal, das zweite einmal, das dritte und vierte nicht, das fünfte zweimal,..., das letzte viermal gezogen wurde. Jedes derartige Schema enthält dann genau k Pluszeichen und η — 1 Kommata. Falls zwischen zwei Kommata kein Pluszeichen steht, ist das entsprechende Element nicht gezogen worden. Die Pluszeichen und Kommata zusammen bilden also η + k — 1 Plätze, von denen genau k mit einem Pluszeichen zu versehen sind. Dafür gibt es aber insgesamt £ ^ verschiedene Möglichkeiten. So viele Möglichkeiten gilt es, aus η Dingen k Stück mit Wiederholung und ohne Berücksichtigung der Reihenfolge auszuwählen. Damit gilt folgender Satz: Satz 5.7: Aus η verschiedenen Elementen werde k-mal hintereinander eines ausgewählt und vor dem nächsten Zug wieder zurückgelegt. Dann gibt es ohne Berücksichtigung der Reihenfolge ingesamt
t r )
verschiedene Auswahlmöglichkeiten.
(5.10)
5.3.3.5 Zusammenstellung der Formeln aus der Kombinatorik Aus η verschiedenen Dingen sollen k ausgewählt werden. Dann erhält man für die Anzahl der verschiedenen Auswahlmöglichkeiten in Abhängigkeit vom Auswahlverfahren die vier in der nachfolgenden Tabelle zusammengestellten Werte mit Berücksichtigung der Reihenfolge (geordnet) ohne Wiederholung (ohne Zurücklegen) k = 1,2,...,n mit Wiederholung (mit Zurücklegen) k = 1,2,3,...
η · (η—1) · . . . · (η—k+1)
nk
ohne Berücksichtigung der Reihenfolge (ungeordnet)
(ί)
5.3 Wahrscheinlichkeiten
169
Beispiel 5.5: Von 10 Personen sollen zwei zufallig ausgewählt werden, die jeweils einen Preis erhalten. Die Anzahl der Verteilungsmöglichkeiten hängt davon ab, ob beide Preise verschieden oder gleich sind und ob die gleiche Person höchstens einen Preis oder auch gleichzeitig beide Preise erhalten kann. Bei verschiedenen Preisen ist die Reihenfolge der Auswahl wichtig, bei zwei gleichen Preisen dagegen nicht. Falls die gleiche Person höchstens einen Preis erhalten darf, muß die Ziehung ohne Wiederholung (ohne Zurücklegen), sonst mit Wiederholung erfolgen. Insgesamt gibt es vier verschiedene Fallunterscheidungen. In der nachfolgenden Tabelle sind alle vier Fälle mit der jeweiligen Anzahl der verschiedenen Auswahlmöglichkeiten zusammengestellt: verschiedene Preise (geordnet)
gleiche Preise (ungeordnet)
die gleiche Person kann höchstens einen Preis erhalten
10-9 = 90
(?) = «
die gleiche Person kann beide Preise erhalten
102 = 100
(»)=»
Beispiel 5.6 (Elferwette beim Fußballtoto): Beim Fußballtoto muß man bei elf Spielen jeweils eine 1 (die Heimmannschaft gewinnt), eine 2 (die Gastmannschaft gewinnt) oder eine 0 (Spiel endet unentschieden) tippen. Insgesamt gibt es 3 U = 177147 verschiedene Tippmöglichkeiten. Wenn jemand alle diese Tippmöglichkeiten abgibt, so hat er genau einmal 11 Richtige. 10 Richtige werden in denjenigen Reihen erzielt, bei denen genau ein Spiel falsch und die restlichen 10 Spiele richtig getippt wurden. Für den falschen Tipp sind 11 Spiele möglich, wobei jedesmal zwei falsche Zahlen getippt werden können. Daher gibt es 11-2 = 22 verschiedene Reihen mit 10 Richtigen. Bei 9 Richtigen dürfen zwei Spiele falsch getippt sein. Für die 2 Spiele gibt es ( ^ ) = 55 Auswahlmöglichkeiten. Bei jedem dieser zwei Spiele dürfen dann jeweils zwei falsche Zahlen getippt werden. Daher gibt es für 9 Richtige insgesamt 2 · 2 · 55 = 220 verschiedene Möglichkeiten. Zusammenfassung: Bei der Elferwette gibt es ingesamt 177147 verschieden Tippmöglichkeiten. Wenn jemand sämtliche 177 147 Möglichkeiten abgibt, so hat er einen Gewinn im ersten Rang (11 Richtige), 22 Gewinne im zweiten Rang (10 Richtige) und 220 Gewinne im dritten Rang (9 Richtige).
Kapitel 5: Wahrscheinlichkeiten
170 Beispiel 5.7 (Glücksspirale):
Bei der Glücksspirale wird eine Gewinnzahl mit sieben Ziffern ausgespielt, a) Die erste Ausspielung im Jahre 1971: Bei der ersten Ausspielung im Jahr 1971 wurde mit Hilfe eines Ziehungsgeräts eine siebenstellige Gewinnzahl ermittelt. Nach der Ziehung gab es in der Presse allerdings Vorwürfe, durch die Art des Ziehungsgerätes hätten nicht alle möglichen bis zu siebenstellige Zahlen die gleiche Chance gehabt. Die Chance für eine Zahl mit lauter verschiedenen Ziffern sei viel größer als die Chance für eine Zahl mit nur gleichen Ziffern. Von einigen Personen wurde auch eine Klage eingereicht, die jedoch abgewiesen wurde. Was war geschehen? 0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
In einer einzigen Trommel befanden sich jeweils 7 Kugeln mit den Ziffern 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , also insgesamt 70 Kugeln. Daraus wurden zufällig ohne Zurücklegen sieben Kugeln gezogen, aus denen der Reihe nach die Gewinnzahl gebildet wurde.
Für die erste Ziffer wurde eine dieser 70 Kugeln gezogen. Dafür gab es 70 Möglichkeiten. Da die gezogene Kugel vor dem nächsten Zug nicht zu den übrigen zurückgelegt wurde, blieben für den zweite Zug 69 Möglichkeiten, für den dritten 68 usw. Insgesamt gibt es 70 · 69 · 68 · 67 · 66 · 65 · 64 verschiedene Ziehungsmöglichkeiten. Weil mehrere Kugeln die gleiche Ziffer hatten, konnten verschiedene Ziehungsmöglichkeiten die gleiche Gewinnzahl ergeben. Bei diesem Ziehungsmodus konnten zwar tatsächlich alle möglichen Zahlen mit höchstens sieben Stellen gezogen werden, nämlich die Zahlen 0000000 ; 0000001 ; . . . ; 9999999. Hat bei diesem Ausspielungsmodus jede dieser Zahlen die gleiche Chance? Zur Beantwortung dieser Frage betrachten wir zunächst eine bestimmte Zahl mit lauter gleichen Ziffern z.B. die 1 111 111. In der Urne waren nur 7 Kugeln mit der Ziffer 1. Daher kann die erste Ziffer 1 auf 7 Arten, die zweite auf 6, die dritte auf 5 Arten gezogen werden usw. Für die letzte gibt es nur noch eine Möglichkeit. Daher gibt es für die Zahl 1 111 111
5.3 Wahrscheinlichkeiten
171
7 · 6 · 5 · 4 · 3 · 2 · 1 = 5 040 günstige Fälle. Für jede andere Zahl mit lauter gleichen Ziffern ζ. B. die 6 666 666 gibt es ebenfalls 5 040 günstige Fälle. Bei einer Zahl mit lauter verschiedenen Ziffern ζ. Β. 1 234 567 gibt es bei jedem Zug sieben Auswahlmöglichkeiten. Somit gibt es für jede Zahl mit lauter verschiedenen Ziffern 7 7 = 823 543 günstige Fälle, also bedeutend mehr als für eine Zahl mit nur gleichen Ziffern. Damit beträgt das Verhältnis der beiden extremen Chancen (Wahrscheinlichkeiten) 823 543:5 040. Die Wahrscheinlichkeit für eine Zahl mit lauter verschiedenen Ziffern ist ungefähr 163,4 mal größer als die Wahrscheinlichkeit für eine Zahl mit gleichen Ziffern. Für die Zahlen mit der kleinsten Chance erhält man hieraus die Wahrscheinlichkeiten 5 040 - 0,0000000008342. 70 · 69 · 68 · 67 · 66 · 65 · 64 Jede Zahl mit lauter verschiedenen Ziffern hat bei desem Ziehungsmodus die größte Wahrscheinlichkeit 823 543 - 0,0000001363. 70 • 69 · 68 · 67 · 66 · 65 · 64 Dazwischen liegen die Wahrscheinlichkeiten der übrigen Zahlen. Je mehr Ziffern einer Zahl verschieden sind, umso größer ist die Wahrscheinlichkeit. Bei dieser ersten Ausspielung waren also nicht alle Zahlen gleichwahrscheinlich. Die Gewinnchance hing stark von der Zahl auf der Losnummer ab. Kann man aus diesem Grund diese erste Ausspielung als unfair oder nichtkorrekt bezeichnen? Die Anwort auf diese Frage hängt davon ab, auf welche Art und Weise ein Spieler seine Zahlen erhielt. Die Ausspielung könnte man sicherlich als nichtkorrekt bezeichnen, wenn ein Spieler die siebensstellige Zahl hätte selbst tippen oder offen auswählen können, und wenn ihm dabei der Ausspielungsmodus und die Chancenungleichheit der einzelnen Zahlen bekannt gewesen wäre. Es ist jedoch nicht anzunehmen, daß überhaupt jemand vor der Ausspielung die Chancengleichheit aller möglichen Zahlen bezweifelte, vermutlich nicht einmal diejenigen Personen, die den Ausspielungsmodus festgelegt haben. Dadurch, daß jede Ziffer siebenmal in der Urne war, wurde zwar sichergestellt, daß auch jede höchstens siebenstellige Zahl gezogen werden konnte. Die Chancengleichheit aller Zahlen war jedoch verletzt. Bei der ersten Ausspielung wurden Lose mit aufgedruckten Zahlen verkauft. Die Ausspielung kann unter folgenden Bedingungen als korrekt angesehen werden: 1. Bei den verkauften Losen werden sämtliche Zahlen zwischen 0000 000 und 9 999 999 in jeweils gleicher Anzahl angeboten.
172
Kapitel 5: Wahrscheinlichkeiten
2. Die Verteilung der Lose erfolgt zufällig', d.h. für jeden Spieler wird zufällig ein Los ausgewählt, das nicht mehr umgetauscht werden darf. Unter diesen beiden Bedingungen hat dann jeder Spieler die gleiche Chance eine hochwahrscheinliche Zahl zu erhalten, auch wenn die Tatsache der Chancenungleichheit einzelner Zahlen bekannt gewesen wäre. Nach dem Kauf kennt der Spieler seine Zahl. Es liegt ihm dann zwar eine erste Information vor und er könnte in Kenntnis des Ausspielungsmodus seine weitere Gewinnchance berechnen. Falls er eine unwahrscheinliche Zahl erhalten hat, muß er vor der Ziehung akzeptieren, daß er bei der Auswahl des Loses etwas Pech gehabt hat. Noch hat er allerdings eine Gewinnchance. In vereinfachter Form liegt eine ähnliche Situation beim Losverkauf auf dem Jahrmarkt vor. Wer eine Niete gezogen hat, für den gibt es überhaupt keine Gewinnchance mehr. Der Hauptangriffspunkt bei dieser Ausspielung ist die Bedingung 2. Diese wäre sicherlich dann erfüllt gewesen, wenn die Lose mit den aufgedruckten Zahlen in einem verschlossenen Umschlag verkauft worden wären. Dann hätte kein Insider einen möglichen Vorteil gehabt. Trotz zahlreicher Proteste und Einsprüche wurde die Ziehung nicht neu angesetzt. b) Die nachfolgenden Ausspielungen: 0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
Bei den nachfolgenden Ziehungen wurde die Trommel in 7 Fächer geteilt, wobei sich in jedem Fach 7 Kugeln mit den Ziffern 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 befinden. Aus jedem Fach wird eine Ziffer gezogen. Bei diesem Modell kann jede höchstens siebenstellige Zahl auf genau eine Art gezogen werden, d a sich in jedem Fach nur eine entsprechende Kugel befindet.
Insgesamt gibt es 10 7 = 10 000 000 verschiedene Möglichkeiten. Damit besitzt jede mögliche Gewinnzahl 0, 1 , . . . , 9 999 999 die gleiche Wahrscheinlichkeit ρ = A ? = 0,0000001. 10 7 c) Vergleich der beiden Ausspielungen: Beide Modelle besitzen die gleiche Ergebnismenge, nämlich die Zahlen 0 , 1 , 2 , . . . , 9 999 999. Falls man beim gleichwahrscheinlichen Modell b) die
5.3
Wahrscheinlichkeiten
173
Trennwände beseitigt, entsteht das nicht chancengleiche Modell a). Dadurch wird deutlich, daß die Wahrscheinlichkeiten sehr stark von den äußeren Versuchsbedingungen abhängen können. Kleine Änderungen am Ziehungsgerät oder der Versuchsdurchführung können einen wesentlichen Einfluß auf die Wahrscheinlichkeit haben.
5.3.3.6 Urnenmodelle Eine Grundmenge bestehe aus Ν verschiedenen Elementen, von denen genau Μ eine bestimmte Eigenschaft besitzen. Aus der gesamten Grundmenge sollen η Stück zufällig ausgewählt werden. Zur Versuchsdurchführung und zur Berechnung gesuchter Wahrscheinlichkeiten bei einer solchen zufälligen Auswahl eignen sich die sog. Urnenmodelle. Anstelle der Ν Elemente betrachtet man Ν Kugeln, von denen genau Μ schwarz sind. Den Elementen mit der interessierenden Eigenschaft werden also schwarze Kugeln zugeordnet. Den restlichen Ν —Μ Elementen ordnen wir weiße Kugeln zu. Mit diesem Hilfsmodell erhält man folgende Aussage:
Satz 5.8 (Urnenmodelle): Eine Urne enthalte Ν Kugeln, von denen Μ schwarz und die restlichen Ν — Μ weiß sind. Dabei gelte 1 < Μ < N. Aus dieser Urse '.Verden η Kugeln zufällig ausgewählt. p k sei die Wahrscheinlichkeit dafür, daß sich unter den η ausgewählten Kugeln genau k schwarze befinden. Diese Wahrscheinlichkeit lautet
a) beim Ziehen ohne Zurücklegen /M Pk=
k
W N - M \ /N\~ \
n
k
fÜr
)
°
u
muß in den Formeln aus a) für k und η — k keine Bedingung angegeben werden. Für k > min(n, M) oder η — k > Ν — Μ verschwindet im Zähler ein Faktor, so daß hieraus p k = 0 folgt. Beispiel 5.8 (Zahlenlotto 6 aus 49): Beim Zahlenlotto werden aus den Zahlen 1, 2, 3 , . . . , 48,49 sechs Gewinnzahlen und eine Zusatzzahl ausgewählt. Beim Lotto am Samstag wird noch als Superzahl eine von den Ziffern 0 , 1 , 2 , . . . , 9 gezogen. Ein Teilnehmer muß in jeder getippten Reihe 6 verschiedene Zahlen ankreuzen. Als Superzahl gilt die letzte Ziffer auf der Nummer des Tippzettels als gespielt. Für die 6 Zahlen gibt es
m =
49-48.47·46·45·44 1 ·2· 3·4· 5·6
=
13983816
verschiedene Auswahlmöglichkeiten. Die Wahrscheinlichkeit, mit einer einzigen Reihe 6 Richtige zu erzielen, beträgt damit P(6 Richtige) =
13983816
« 0,000000071511.
5.3 Wahrscheinlichkeiten
175
Da es für die Auswahl der Superzahl 10 Möglichkeiten gibt, erhält man unter Berücksichtigung der Superzahl sogar 10 · 13 983 816 = 139 838 160 verschiedene Möglichkeiten. Mit Wahrscheinlichkeit 139 838 160 « 0.00000000715 hat man also mit einer zufällig ausgewählten Reihe 6 Richtige mit Superzahl. In den anderen Rängen wird die Superzahl nicht mehr gewertet. Für "5 Richtige mit Zusatzzahl" müssen die einzige Zusatzzahl und von den 6 Gewinnzahlen fünf Zahlen angekreuzt sein. Dafür gibt es insgesamt 1 · ί ® J = 6 verschiedene Möglichkeiten mit P(5 Richtige mit Zusatzzahl) =
6 1398
3816
» 0,00000042907.
Bei "5 Richtigen ohne Zusatzzahl" müssen von den 6 Gewinnzahlen fünf angekreuzt sein. Die sechste Zahl muß auch von der Zusatzzahl verschieden sein, sie kann also aus 49 — 6 — 1 = 42 Zahlen ausgewählt werden. Insgesamt gibt also ^ ® ^ · 42 = 6 · 42 = 252 verschiedene Möglichkeiten mit P(5 Richtige ohne Zusatzzahl) = ^ Q g ^ g ^ » 0,000018021. Für vier Richtige gibt es insgesamt ( 4 ) ' ( 42 )
=
15
'903
=
P(4 Richtige) =
13545
verschiedene
Möglichkeiten mit
« 0,00096862.
Beim Samstagslotto gibt es auch "drei Richtige mit Zusatzzahl". Um hier mit einer Reihe zu gewinnen, müssen die Zusatzzahl, von den sechs Gewinnzahlen drei und von den restlichen 42 nichtgezogenen Zahlen zwei angekreuzt sein. Dafür gibt es ( 3 )'(
)=
20
'861
=
17220 verschiedene
Möglichkeiten mit
P(3 Richtige mit Zusatzzahl) = ^ J g g ^ g « 0,0012314. Für drei Richtige ohne Zusatzzahl erhält man ( 3 )' (
)=
20
'11480
= 229 600 verschiedene
P(3 Richtige ohne Zusatzzahl) = ^ 2 9 6 0 0
Möglichkeiten mit
« 0,0164190 .
Kapitel 5: Wahrscheinlichkeiten
176
Zusammenfassung: Ohne Berücksichtigung der Superzahl gibt es 13983816 verschiedene Tippmöglichkeiten. Wenn jemand a m 1 mal 6 mal 252 mal 13545 mal 17 220 mal 229 600 mal
Samstag sämtliche 13983816 Reihen tippt, so hat er 6 Richtige 5 Richtige mit Zusatzzahl 5 Richtige ohne Zusatzzahl 4 Richtige 3 Richtige mit Zusatzzahl 3 Richtige ohne Zusatzzahl
5.3.4 Geometrische Wahrscheinlichkeiten und Simulationen Geometrische Wahrscheinlichkeiten erhält man mit Hilfe von Längen-, Flächen- oder Volumenberechnungen. Dabei muß vorausgesetzt werden, daß Bereiche mit gleicher Länge, gleichem Flächeninhalt oder gleichem Volumen auch die gleiche Wahrscheinlichkeit besitzen. Zunächst betrachten wir ein beliebiges Intervall Ω = [ a ; b ] . Eine geometrische Wahrscheinlichkeit auf diesem Intervall muß darauf "gleichmäßig verteilt" sein. Die Wahrscheinlichkeit für ein beliebiges Teilintervall darf nur von der Länge und nicht von der speziellen Lage des Intervalls abhängen. Gegenüber Parallelverschiebungen oder Spiegelungen müssen die Wahrscheinlichkeiten invariant sein. Das Gesamtintervall der Länge b — a besitzt die Wahrscheinlichkeit 1. Daher hat ein Intervall [ c ; d ] C [ a ; b ] die Wahrscheinlichkeit P
üc;d])=K3i
für[c;d]C[a;b].
(5.11)
Das Elementarereignis { x } ist für jedes n e N in [ x ; x + κ ] enthalten. Daher gilt P({x}) < P[x; x + i ] = i
für jedes η = 1 , 2 , . . . .
Dies ist aber nur dann möglich, wenn gilt P ( { x } ) = 0.
(5.12)
Bei geometrischen Wahrscheinlichkeiten besitzt jedes Elementarereignis die Wahrscheinlichkeit 0. Bei der Durchführung des entsprechenden Zufallsexperiments tritt daher immer ein Ereignis ein, das die Wahrscheinlichkeit 0 hat. Alle Elementarereignisse zusammen besitzen aber die Wahrscheinlichkeit 1.
5.3
Wahrscheinlichkeiten
177
Es sei Ω C R 2 ein Gebiet mit dem endlichen Flächeninhalt F(Q). Dann ist auf Ω eine geometrische Wahrscheinlichkeit erklärt durch P(A) =
, A C Q , F(A) = Flächeninhalt von A.
(5.13)
Alle Teilflächen von Α mit dem gleichen Inhalt besitzen somit die gleiche Wahrscheinlichkeit. Auch in diesem zweidimensionalen Fall hat jedes Elementarereignis die Wahrscheinlichkeit 0. Das gleiche gilt für beliebige Kurven.
Beispiel 5.9 (Stabproblem): Ein S t a b der Länge 1 wird an zwei zufällig gewählten Stellen unabhängig voneinander markiert und an den Markierungsstellen durchgebrochen. Dadurch erhält man im allgemeinen drei Teilstücke mit der Gesamtlänge 1. Gesucht ist die Wahrscheinlichkeit ρ dafür, daß mit den drei Teilstücken ein Dreieck gebildet werden kann. Eine solche Dreiecksbildung ist nicht immer möglich. Dazu muß die Dreiecksungleichung erfüllt sein, nach der in einem Dreieck die Längen zweier Seiten zusammen größer sein müssen als die der dritten Seite. Das Problem kann mit Hilfe geometrischer Wahrscheinlichkeiten gelöst werden. Dazu bezeichnen wir die linke Markierungsstelle mit χ und die rechte mit y. Wegen I Ο
0 < χ < y < 1
Ιχ
-)
bildet die Menge aller möglichen Punkte Ω das in Bild 5.1 eingezeichnete Dreieck mit dem Flächeninhalt Γ(Ω) = i . Aus der Dreiecksgleichung folgt
y > l - y
l x 2l
x + 1 — y > y —χ
ο
1-χ > χ
Ο
y < i + f.
Alle Punkte ( χ , y), deren Koordinaten diese drei Ungleichungen erfüllen, liegen im Innern des Dreiecks D. Dieses Dreieck besitzt den Flächeninhalt F ( D ) = g . Damit lautet die gesuchte Wahrscheinlichkeit P
1/2
4 '
Bild 5.1: Stabproblem
1
Kapitel 5: Wahrscheinlichkeiten
178
Flächenberechnungen mit Hilfe von Simulationen Zufallsexperimente, bei denen geometrische Wahrscheinlichkeiten benutzt werden, kann man mit Hilfe von unabhängigen Paaren von Zufallszahlen auf dem Computer simulieren. Dabei werden nur Zahlenpaare aus der Ergebnismenge Ω zugelassen. Das Ereignis Α tritt dann ein, wenn das Zahlenpaar im entsprechenden Bereich Α liegt. Bei großem Versuchsumfang η gilt dann die Näherung P(A)=^«r
B
(A).
Hieraus erhält man dann die Approximation F(A)»rn(A).F(n). Bei bekanntem Flächeninhalt F(Q) können damit durch Simulationen von Zufallsexperimenten Flächeninhalte näherungsweise bestimmt werden. Beispiel 5.10 (statistische Bestimmung der Zahl x): Mit Hilfe eines Zufallszahlengenerators werden Paare unabhängiger Zufallszahlen x,y aus dem Intervall [ 0 ; 1 ] erzeugt. Die Paare sind dann im Einheitsquadrat Ω aus Bild 5.2 mit dem Flächeninhalt Eins gleichmäßig verteilt. Α sei der in Bild 5.2 eingezeichnete Viertelkreis mit dem Fächeninhalt f . 4 ΥΛ In einer Simulationsreihe vom Umfang η sei r n (A) die relative Häufigkeit der Versuche, bei denen das Zahlenpaar in Α liegt, also die Bedingung x 2 + y2 < 1 erfüllt. Dann gilt die Näherung π w4-rn(A). Zahlenbeispiel: Von 1000000 Zahlenpaaren lagen 785 049 auf der Fläche des Viertelkreises. Daraus erhält m a n den Näherungswert π s» 3,1402.
Bild 5.2: Statistische Bestimmung der Zahl π
5.4 Bedingte Wahrscheinlichkeiten
179
5.4 Bedingte Wahrscheinlichkeiten Die absolute Wahrscheinlichkeit P(A) aus Abschnitt 5.3 darf nur dann als Maß für die Chance des Eintretens des Ereignisses Α benutzt werden, wenn das Zufallsexperiment noch nicht begonnen hat oder über das laufende bzw. beendete Zufallsexperiment keinerlei Information vorliegt. Sind jedoch bereits Teilinformationen über den Ausgang bekannt, so weiß man, daß gewisse Ereignisse nicht eingetreten sein können. Durch eine solche Information ändert sich die Ergebnismenge und eventuell auch manche Wahrscheinlichkeit. Vom Informationsstand abhängige Wahrscheinlichkeiten nennt man bedingte Wahrscheinlichkeiten. Manchmal interessiert man sich auch nur für die Wahrscheinlichkeit eines Ereignisses Α unter der Bedingung, daß ein bestimmtes Ereignis Β eintritt. Auch hier handelt es sich um eine bedingte Wahrscheinlichkeit. Beispiel 5.11: Die Personalzusammensetzung eines Betriebes ist in der nachfolgenden Kontingenztafel zusammengestellt. Angestellte (A)
Arbeiter (A)
Summe
weiblich
(W)
400
100
500
männlich
(W)
200
800
1000
600
900
1500
Summe
Aus dieser Belegschaft werde eine Person zufällig ausgewählt. Die ausgewählte Person ist mit Wahrscheinlichkeit 1500 3 weiblich und mit Wahrscheinlichkeit
p A
( )=S= 0 ' 4
angestellt. Mit Wahrscheinlichkeit P f W n A ) = 4 0 0 . _ 4. ^ ' 1500 15 wird eine weibliche Angestellte ausgewählt. Durch eine Indiskretion ist bekannt geworden, daß eine angestellte Person ausgewählt wurde. Das Geschlecht der ausgewählten Person sei jedoch noch nicht bekannt. Dann weiß man, daß das Ereignis Α eingetreten ist, daß also eine der 600 Personen aus der ersten Spalte der obigen Kontingenztafel ausgewählt wurde. Mit dieser Information ist die ausgewählte Person mit Wahrscheinlichkeit weiblich. Es handelt sich um die Wahrscheinlichkeit, daß W eintritt unter der Bedingung, daß Α eingetreten ist
180
Kapitel 5: Wahrscheinlichkeiten
(eintritt). Diese bedingte Wahrscheinlichkeit bezeichnen wir mit P(W | A). Man nennt sie die Wahrscheinlichkeit von W unter der Bedingung A. Für diese bedingte Wahrscheinlichkeit gilt die Darstellung 400 ΡίλΥ n W |IAAlj _—
400 600
_-
1500 600
--
P
(
W n A
) .
Ϊ514Ϊ
Mit Wahrscheinlichkeit P(W|A) = 1 - P ( W | A ) = ± wurde dann ein Mann ausgewählt. Die Eigenschaft (5.14) gilt immer und kann zur Definition einer bedingten Wahrscheinlichkeit benutzt werden. Definition 5.1 (bedingte Wahrscheinlichkeit): Es sei P(B) > 0. Dann heißt P(A|B, = J
M
(5,5)
die bedingte Wahrscheinlichkeit des Ereignisses Α unter der Bedingung B. Es ist die Wahrscheinlichkeit dafür, daß Α eintritt, unter der Bedingung, daß Β eintritt (eingetreten ist). Da man bei dieser bedingten Wahrscheinlichkeit immer davon ausgeht, daß das Ereignis Β eintritt oder eingetreten ist, findet eine Einschränkung der Ergebnismege Ω auf Β statt. Versuchsdurchführungen, bei denen das Ereignis Β nicht eintritt, interessieren dabei nicht. Satz 5.9 (Eigenschaften der bedingten Wahrscheinlichkeit): Das Ereignis Β mit P(B) > 0 soll festgehalten werden. Dann wird für alle Ereignisse Α durch Pb(A) = P(A|B) = ^ ^ 1
(5.16)
eine Wahrscheinlichkeit P B erklärt, d. h. es gilt (Kl)
0 0 für alle i.
i=l
Diese Ereignisse bilden eine sogenannte Zerlegung von Ω. Man nennt sie eine vollständige (totale) Ereignisdisjunktion. Dann gilt für jedes beliebige Ereignis Β die Darstellung B = Bnfi = Bn(
V
Ü A i ) = Ü i=l ' i=l
BA
i
( B A i paarweise disjunkt).
Aus der Additivität der Wahrscheinlichkeit folgt hieraus
P ( B ) = Σ P(BAi). i=l Auf jeden Summanden wenden wir die Produktregel (5.17) für bedingte Wahrscheinlichkeiten an und erhalten
Ρ(Β)=Σ Ρ(ΒΑ;)=Σ
Ρ(Β|Α;)·Ρ(ΑΪ).
i=l i=l Damit haben wir folgenden Satz bewiesen
Satz 5.11 (Satz von der totalen (vollständigen) Wahrscheinlichkeit): A j , A 2 , . . . , A n sei eine vollständige Ereignisdisjunktion mit P(Aj) > 0 für alle i. Dann gilt für jedes beliebige Ereignis Β P(B)= t Ρ(Β|Α;)·Ρ(Α;). i=l
(5.19)
184
Kapitel 5: Wahrscheinlichkeiten
Die absolute Wahrscheinlichkeit P(B) ist das gewichtete arithmetische Mittel der η bedingten Wahrscheinlichkeiten P(B | Aj) mit den Gewichten P(Aj) für i = 1 , 2 , . . . , η . Beispiel 5.14: Das gleiche Produkt wird von vier Maschinen hergestellt. Die erste Maschine erzeuge 10 %, die zweite 20 %, die dritte 30 % und die vierte 40 % von der Gesamtproduktion. Die erste Maschine hat einen Ausschußanteil von 3 %, die zweite einen von 5 % und die dritte 6 % und die vierte 8 % Ausschuß. Aus der nicht nach Maschinen sortierten Gesamtproduktion werde ein Werkstück zufällig ausgewählt. Mit welcher Wahrscheinlichkeit ist es fehlerhaft? Mj sei das Ereignis: "das Werkstück wurde von der i-ten Maschine produziert" und F: "das Werkstück ist fehlerhaft". Dann sind folgende Wahrscheinlichkeiten gegeben: P(Mj) = 0,1 ; P(M 2 ) = 0,2 ; P(M 3 ) = 0,3 ; P(M 4 ) = 0,4; P(F | M j ) = 0,03 ; P(F | M 2 ) = 0,05 ; P(F | M 3 ) = 0,06; P(F | M 4 ) = 0,08. Da die Ereignisse M j , M 2 , M 3 , M 4 eine vollständige Ereignisdisjunktion bilden, erhält man aus dem Satz von der totalen Wahrscheinlichkeit P(F) =
=
Σ P(F|Mi)-P(Mi) i=l 0,03 · 0,1 + 0,05 · 0,2 + 0,06 · 0,3 + 0,08 · 0,4 = 0,063.
Beispiel 5.15 (Lotto-Vollsystem mit 10 Zahlen): Bei einem Vollsystem mit 10 Zahlen wählt ein Spieler 10 Systemzahlen aus. Aus diesen 10 Systemzahlen werden dann sämtliche ( · · ) = ».. Auswahlmöglichkeiten für 6 Zahlen getippt. Dann hat der Spieler garantiert sechs Richtige, falls sich unter den 10 Systemzahlen tatsächlich alle sechs Gewinnzahlen befinden. S sei das Ereignis, daß man mit dem Vollsystem mit 10 Systemzahlen sechs Richtige erzielt und Β das Ereignis, daß sich unter den 10 Systemzahlen alle sechs Gewinnzahlen befinden. Dann gilt P(S|B) = 1
und
P(S | B) = 0.
Mit dem Satz von der vollständigen Wahrscheinlichkeit erhält man hieraus die absolute Wahrscheinlichkeit für einen Sechser mit dem System als P(S) = P(S | B) · P(B) + P(S | B) · P(B) = P ( B ) . Das Ereignis Β tritt ein, wenn sich bei der Ziehung alle sechs Gewinnzahlen unter den 10 Systemzahlen befinden. Die Wahrscheinlichkeit dafür ist
5.4 Bedingte Wahrscheinlichkeiten
f
10
185
)
{ 6 )
{ 6 )
Die Wahrscheinlichkeit, mit dem aus 210 Reihen bestehenden Vollsystem einen Sechser zu erzielen, ist damit genau so groß wie mit 210 verschiedenen zufällig ausgewählten Reihen. Vollsysteme erhöhen die Chance auf einen Sechser nicht. Allgemein sei Β ein beliebiges Ereignis mit P(B) > 0. Dann gilt nach der Definition der bedingten Wahrscheinlichkeiten, der Produktregel (5.17) und dem Satz von der totalen Wahrscheinlichkeit für jedes Ereignis A k der vollständigen Ereignisdisjunktion die Darstellung WA | m _ P(B η A k ) _ P(B I A k ) · P(A k ) _ P(Ak|B)_ p(B) p(B)
£
P(B | A k ) · P(A k )
·
i=l Damit haben wir die nach T. Bayes (1702 — 1771) benannte Formel bewiesen: Satz 5.12 (Bayessche Formel): Es sei A j , A 2 , . . . , A n eine vollständige Ereignisdisjunktion mit P(A ; ) > 0 für alle i und Β ein beliebiges Ereignis mit P(B) > 0. Dann gilt P ( A l
IB) =
= PW
„P(B|At)-PW Σ P(B I Α;) · P(Aj) i=l
(5.20,
für k = 1, 2 , . . . , n.
Beispiel 5.16 (vgl. Beispiel 5.14): Aus der Gesamtproduktion in Beispiel 5.14 werde ein Werkstück zufällig ausgewählt, von dem sich herausstellt, daß es fehlerhaft ist. Mit welcher Wahrscheinlichkeit wurde es von der k-ten Maschine gefertigt? Mit P(F) = 0,063 erhalten wir aus der Bayesschen Formel (5.20) P
/ M , . __ P(F 1 M k ) · P(M k ) _ P(F 1 M k ) · P(M k ) ^ kl P(F) ~ 0,063 P(M X | F ) =
^
P(M 3 1 F)=
« 0,28571;
0 04762
.
p(M2
ιF )
=
P(M 4 | F) =
^ 5 ^ 2 ^
015873
.
« 0,50794.
Kapitel 5: Wahrscheinlichkeiten
186
5.5 Unabhängige Ereignisse In Beispiel 5.11 haben wir festgestellt, daß eine bedingte Wahrscheinlichkeit P ( A | B ) von der absoluten Wahrscheinlichkeit P(A) verschieden sein kann. Die Information, daß das Ereignis Β eingetreten ist, hat dann einen Einfluß auf die Wahrscheinlichkeit des Ereignisses A. Die bedingte Wahrscheinlichkeit P(A | B) kann größer oder auch kleiner als die absolute Wahrscheinlichkeit P(A) sein. Es kann aber auch P(A | B) = P(A) gelten. Beispiel 5.17: Jemand zieht aus einem Kartenspiel mit 32 Karten zufallig eine Karte und gibt das Ergebnis nicht bekannt. Das Ereignis A: "die gezogene Karte ist ein Ass" besitzt ohne Information über die gezogene Karte die absolute Wahrscheinlichkeit
() Ä
PA =
= g· Die Person, welche die Karte gezogen hat, gibt das Ergebnis nicht bekannt, sondern sagt nur, daß kein Bube gezogen wurde. Aus dieser Information folgt, daß die Karte aus den restlichen 28 Karten stammt, unter denen sich alle 4 Asse befinden. Mit dem Ereignis Β (kein Bube) erhält man mit dieser Information die bedingte Wahrscheinlichkeit
P ( A | B ) = ^ = i#P(A). Die Person gebe nur bekannt, daß die gezogene Karte die Farbe Rot hat. Dann wurde die Karte aus den 16 roten Karten gezogen, unter denen sich zwei Asse befanden. Mit dem Ereignis R (rote Karte) erhält man die bedingte Wahrscheinlichkeit P(A|R) = - | = I = P ( A ) . Die Information der Farbe ändert die Wahrscheinlichkeit für ein Ass nicht. Die Wahrscheinlichkeit bleibt bei g. Die Chance für das Eintreten des Ereignisses Α hängt zwar vom Eintreten des Ereignisses Β ab, nicht aber vom Ereignis R. Daher sagt man auch "A ist von R unabhängig". Allgemein kann die (stochastische) Unabhängigheit von zwei Ereignissen A und Β auf verschiedene gleichwertige Arten definiert werden. Die anschaulichste Definition ist die folgende Definition 5.2 (Unabhängigkeit): Es sei Β ein Ereignis mit 0 < P(B) < 1. Dann nennt man das Ereignis A (stochastisch) unabhängig vom Ereignis B, wenn gilt P(A | B) = P(A | B) .
(5.21)
187
5.5 Unabhängige Ereignisse
Das Ereignis Α ist damit von Β unabhängig, wenn Α immer die gleiche Wahrscheinlichkeit besitzt, unabhängig davon, ob Β eintritt oder nicht. Die Information ob das Ereignis Β eingetreten ist oder nicht, hat auf die Wahrscheinlichkeit des Ereignisses Α dann keinen Einfluß. Satz 5.13 (Eigenschaften unabhängiger Ereignisse): Für das Ereignis Β gelte 0 < P(B) < 1. Dann sind folgende drei Eigenschaften gleichwertig: a) P(A | B) = P(A | B); b) P ( A | B ) = P(A); c) P(A η B) = P(A) · P(B).
(5.22)
Beweis: Es genügt folgenden Zyklus nachzuweisen: a)
b) => c)
a).
1. Es gelte a) P(A | B) = P(A | B) . Mit der vollständigen Ereignisdisjunktion Β, Β erhält man hieraus mit Satz 5.11 P(A) = P(A | B) P(B) + P(A | B) P(B) = P(A | B) · [P(B) + P(B)] = P(A| B). Aus a) folgt also b). 2. Es sei P(A | B) = P(A). Dann folgt hieraus nach (5.17) P(A η Β) = P(A I B) P(B) = P(A) · P(B), aus b) folgt also c). 3. Es gelte P(A Π Β) = P(A) · P(B). Dann folgt hieraus wegen P(A) = P(A Π Β) + P(A Π Β) und der Definition der bedingten Wahrscheinlichkeiten r