Grundzüge der Statistik: Einführung mit Übungen [2., erg. Aufl. Reprint 2014] 9783486802047, 9783486252590

Diese Einführung in die Statistik konzentriert sich auf eine kurze Behandlung der wichtigsten Grundlagen der Statistik u

177 84 12MB

German Pages 309 [316] Year 1999

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Vorwort
Teil I: Beschreibende (deskriptive) Statistik
1 Merkmale und Skalierung
1.1 Merkmale
1.2 Skalierung
2 Eindimensionale Stichproben
2.1 Absolute und relative Häufigkeiten
2.2 Strichliste und Häufigkeitstabelle
2.3 Graphische Darstellungen
2.4 Häufigkeitsverteilungen bei Klasseneinteilungen
2.5 Empirische Verteilungsfunktion
2.6 Klassierte Verteilungsfunktion
2.7 Mittelwerte
2.8 Quantile und Quartile
2.9 Streuungsmaße (Abweichungsmaße)
2.10 Aufgaben
3 Zweidimensionale (verbundene) Stichproben
3.1 Streuungsdiagramme
3.2 Kontingenztafeln (Häufigkeitstabellen)
3.3 Kovarianz und Korrelationskoeffizient
3.4 Rangkorrelationskoeffizient von Spearman
3.5 Regressionsrechnung
3.6 Aufgaben
Teil II: Wahrscheinlichkeitsrechnung
4 Wahrscheinlichkeiten
4.1 Zufallsexperimente und zufällige Ereignisse
4.2 Häufigkeiten von Ereignissen
4.3 Definition einer Wahrscheinlichkeit
4.4 Kombinatorik
4.5 Bedingte Wahrscheinlichkeiten
4.6 Unabhängige Ereignisse
4.7 Aufgaben
5 Diskrete Zufallsvariablen
5.1 Eindimensionale diskrete Zufallsvariablen
5.2 Zweidimensionale diskrete Zufallsvariablen
5.3 Spezielle diskrete Zufallsvariablen
5.4 Aufgaben
6 Stetige Zufallsvariablen
6.1 Dichte und Verteilungsfunktion
6.2 Erwartungswert
6.3 Median
6.4 Quantile
6.5 Varianz und Standardabweichung
6.6 Spezielle stetige Zufallsvariablen
6.7 Aufgaben
7 Zentraler Grenzwertsatz und Gesetze der großen Zahlen
7.1 Zentraler Grenzwertsatz
7.2 Gesetze der großen Zahlen
7.3 Aufgaben
Teil III: Beurteilende (induktive) Statistik
8 Parameterschätzung
8.1 Punktschätzungen
8.2 Konfidenzintervalle (Intervallschätzungen)
8.3 Aufgaben
9 Parametertests
9.1 Einfache Alternativ tests
9.2 Tests von Erwartungswerten
9.3 Tests von Varianzen bei Normalverteilungen
9.4 Test einer Wahrscheinlichkeit p
9.5 Aufgaben
10 Chi-Quadrat-Tests
10.1 Test von mehreren Wahrscheinlichkeiten
10.2 Tests von Verteilungen
10.3 Unabhängigkeitstest
10.4 Homogenitätstest
10.5 Aufgaben
11 Varianzanalyse
11.1 Einfache Varianzanalyse
11.2 Doppelte Varianzanalyse
11.3 Aufgaben
12 Lineare Regression
12.1 Das Lineare Regressionsmodell
12.2 Schätzung der Parameter
12.3 Test auf lineare Regression
12.4 Aufgaben
13 Parameterfreie Verfahren
13.1 Vorzeichen-Test
13.2 Test des Medians bei stetigen Zufallsvariablen
13.3 Sensorische Tests
13.4 Vorzeichen-Rangtest nach Wilcoxon
13.5 Aufgaben
Lösungen der Aufgaben
Literaturverzeichnis
Tabellenanhang
Register
Recommend Papers

Grundzüge der Statistik: Einführung mit Übungen [2., erg. Aufl. Reprint 2014]
 9783486802047, 9783486252590

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Grundzüge der Statistik Einführung mit Übungen

Von

Professor Dr. Karl Bosch Institut für angewandte Mathematik und Statistik der Universität Stuttgart-Hohenheim

2., ergänzte Auflage

l. Oldenbourg Verlag München Wien

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Bosch, Karl: Grundzüge der Statistik : Einführung mit Übungen / von Karl Bosch. - 2., erg. Aufl. - München ; Wien : Oldenbourg, 1999 ISBN 3-486-25259-3

© 1999 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München ISBN 3-486-25259-3

Inhaltsverzeichnis Seite XI

Vorwort

Teil I: Beschreibende (deskriptive) Statistik 1

Merkmale und Skalierung

3

1.1 1.2

Merkmale Skalierung

3 5

2

Eindimensionale Stichproben

6

2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.7.1 2.7.2 2.7.3 2.7.4 2.7.5 2.8 2.9 2.9.1 2.9.2 2.10

Absolute und relative Häufigkeiten Strichliste und Häufigkeitstabelle Graphische Darstellungen Häufigkeitsverteilungen bei Klasseneinteilungen Empirische Verteilungsfunktion Klassierte Verteilungsfunktion Mittelwerte Arithmetisches Mittel (der Mittelwert) Median (Zentralwert) Harmonisches Mittel Geometrisches Mittel Vergleich der verschiedenen Mittelwerte Quantile und Quartile Streuungsmaße (Abweichungsmaße) Mittlere Abstände Varianz und Standardabweichung Aufgaben

3

Zweidimensionale (verbundene) Stichproben

3.1 3.2 3.3 3.4 3.4.1 3.4.2 3.4.3 3.5 3.5.1 3.5.2 3.5.3 3.5.4 3.6

Streuungsdiagramme Kontingenztafeln (Häufigkeitstabellen) Kovarianz und Korrelationskoeffizient Rangkorrelationskoeffizient von Spearman Rangzahlen Der Spearmansche Rangkorrelationskoeffizient r s Berechnung von r s bei Rangzahlen ohne Bindungen Regressionsrechnung Regressionsgerade Regressionsgerade durch einen vorgegebenen Punkt Von Parametern abhängige Regressionsfunktionen Linearisierung durch Transformationen Aufgaben

6 7 8 11 13 14 15 15 17 21 22 23 23 25 25 25 28

. . .

. . . . . . . .

. . . . . . . .

31 31 32 34 37 38 39 41 42 42 45 47 47 49

VI

Inhaltsverzeichnis

Teil Π: Wahrscheinlichkeitsrechnung 4

Wahrscheinlichkeiten

53

4.1 4.2 4.3 4.3.1 4.3.2 4.4 4.4.1 4.4.2 4.4.3 4.4.4 4.4.4.1 4.4.4.2 4.4.5 4.4.6 4.5 4.6 4.7

Zufallsexperimente und zufällige Ereignisse Häufigkeiten von Ereignissen Definition einer Wahrscheinlichkeit Axiome einer Wahrscheinlichkeit Der klassische Wahrscheinlichkeitsbegriff Kombinatorik Produktregel der Kombinatorik (allgemeines Zählprinzip). . Anordnungsmöglichkeiten (Permutationen) Auswahlmöglichkeiten unter Berücksichtigung der Reihenfolge Auswahlmöglichkeiten ohne Berücksichtigung der Reihenfolge Ziehen ohne Wiederholung (ohne Zurücklegen) Ziehen mit Wiederholung (mit Zurücklegen) Zusammenstellung der Formeln der Kombinatorik . . . . Urnenmodelle Bedingte Wahrscheinlichkeiten Unabhängige Ereignisse Aufgaben

53 55 56 57 59 60 61 61 63 64 64 65 67 67 70 75 78

5

Diskrete Zufalls variablen

81

5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 5.1.6 5.1.7

Eindimensionale diskrete Zufallsvariablen Verteilung einer diskreten Zufallsvariablen Verteilungsfunktion einer diskreten Zufallsvariablen . . . Modalwert einer diskreten Zufallsvariablen Erwartungswert einer diskreten Zufallsvariablen Median einer diskreten Zufallsvariablen Quantile einer diskreten Zufallsvariablen Varianz und Standardabweichung einer diskreten Zufallsvariablen Zweidimensionale diskrete Zufallsvariablen Gemeinsame Verteilung Funktion einer zweidimensionalen Zufallsvariablen . . . . Unabhängige diskrete Zufallsvariablen Produkt zweier diskreter Zufallsvariabler Summen diskreter Zufallsvariabler Kovarianz und Korrelationskoeffizient Spezielle diskrete Zufallsvariablen Gleichmäßige diskrete Verteilung Binomialverteilung (Verteilung der absoluten Häufigkeit). . Hypergeometrische Verteilung Geometrische Verteilung (Warten auf den ersten Erfolg) . . Poisson-Verteilung (Verteilung seltener Ereignisse) . . . . Aufgaben

81 81 84 85 86 91 93

5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.2.5 5.2.6 5.3 5.3.1 5.3.2 5.3.3 5.3.4 5.3.5 5.4

93 95 95 97 98 98 99 101 103 103 104 106 107 109 112

Inhaltsverzeichnis

VII

6

115

Stetige Zufallsvariablen

6.1 6.2 6.3 6.4 6.5 6.6 6.6.1 6.6.2 6.6.3 6.6.3.1

Dichte und Verteilungsfunktion Erwartungswert Median Quantile Varianz und Standardabweichung Spezielle stetige Zufallsvariablen Gleichmäßige Verteilung Exponentialverteilung Normalverteilungen Standard-Normalverteilung als Grenzwert standardisierter Binomialverteilungen 6.6.3.2 Allgemeine Normalverteilung 6.6.3.3 Approximation der Binomialverteilung durch die Normal Verteilung 6.6.4 Chi-Quadrat-Verteilung (Testverteilung) 6.6.5 t-Verteilung (Testverteilung) 6.6.6 F-Verteilung (Testverteilung) 6.7 Aufgaben

115 117 120 121 122 123 123 124 127 128 132 135 137 138 139 141

7

Zentraler Grenzwertsatz und Gesetze der großen Zahlen

143

7.1 7.2 7.2.1 7.2.2 7.2.3 7.3

Zentraler Grenzwertsatz Gesetze der großen Zahlen Tschebyschewsche Ungleichung Schwaches Gesetz der großen Zahlen Bernoullisches Gesetz der großen Zahlen Aufgaben

143 145 146 147 149 151

Teil ΙΠ: Beurteilende (induktive) Statistik 8

Parameterschätzung

155

8.1 8.1.1 8.1.2 8.1.2.1 8.1.2.2 8.1.2.3 8.1.3 8.1.3.1 8.1.3.2 8.1.3.3 8.2 8.2.1

Punktschätzungen Zufallsstichproben und Stichprobenfunktionen Schätzfunktionen Allgemeine Schätzfunktionen Erwartungstreue Schätzfunktionen Konsistente Schätzfunktionen Maximum-Likelihood-Schätzungen Likelihood - Funktion bei diskreten Verteilungen Likelihood - Funktion bei stetigen Verteilungen Das Maximum-Likelihood-Prinzip Konfidenzintervalle (Intervallschätzungen) Allgemeine Konfidenzintervalle

155 155 157 157 158 159 161 161 161 162 163 164

VIII 8.2.2 8.2.2.1 8.2.2.2 8.2.3 8.2.4 8.2.5

Inhaltsverzeichnis KonCdenzIntervalle für einen Erwartungswert Konfidenzintervalle bei bekannter Varianz Konfidenzintervalle bei unbekannter Varianz Konfidenzintervalle für eine Varianz bei Normalverteilungen Konfidenzintervalle für eine Wahrscheinlichkeit ρ . . . . Konfidenzintervalle für die Differenz zweier Erwartungswerte bei verbundenen Stichproben . . . Konfidenzintervalle für den Quotienten der Varianzen zweier Normal Verteilungen Aufgaben

175 177

9

Parametertests

179

9.1 9.1.1 9.1.2 9.2 9.2.1 9.2.1.1 9.2.1.2 9.2.1.3 9.2.1.4 9.2.2 9.2.3

Einfache Alternativtests Test von H 0 : μ = μ 0 gegen H j : μ = μ1 Test von H 0 : ρ = p 0 gegen : ρ = pj Tests von Erwartungswerten Test eines Erwartungswertes bei bekannter Varianz . Zweiseitiger Test von H 0 : μ = μ0 gegen Ει:μφμ0. Einseitiger Test von H 0 : μ>μ0 gegen H j : μ < μ0 . Einseitiger Test von H 0 : μ < μ 0 gegen H j : μ > μ0 . Zusammenstellung der Testentscheidungen Test eines Erwartungswertes bei unbekannter Varianz Test der Differenz der Erwartungswerte bei verbundenen Stichproben Tests von Varianzen bei Normalverteilungen Test einer einzigen Varianz Test des Quotienten zweier Varianzen Test einerWahrscheinlichkeit ρ Aufgaben

179 179 182 184 184 184 186 188 188 189

8.2.6 8.3

9.3 9.3.1 9.3.2 9.4 9.5

. . . . . . . . . . . . . .

165 165 168 169 172 174

190 191 191 192 194 195

10

Chi-Quadrat-Tests

199

10.1 10.2 10.3 10.4 10.5

Test von mehreren Wahrscheinlichkeiten Tests von Verteilungen Unabhängigkeitstest Homogenitätstest Aufgaben

199 202 208 212 216

11

Varianzanalyse

219

11.1 11.2 11.3

Einfache Varianzanalyse Doppelte Varianzanalyse Aufgaben

219 224 229

12

Lineare Regression

231

12.1 12.2 12.3 12.4

Das Lineare Regressionsmodell Schätzung der Parameter Test auf lineare Regression Aufgaben

231 232 234 238

Inhaltsverzeichnis

IX

13

Parameterfreie Verfahren

239

13.1 13.1.1

Vorzeichen-Test Vorzeichen-Test bei stetigen Zufallsvariablen (ohne Bindungen) Vorzeichen-Test bei beliebigen Zufallsvariablen (mit Bindungen) Test des Medians bei stetigen Zufallsvariablen Sensorische Tests Der Duo-Test: Paarweise Unterschiedsprüfung Der Triangel-Test: Dreiecksprüfung Vorzeichen-Rangtest nach Wilcoxon Rangtest ohne Bindungen Rangtest bei Bindungen Aufgaben

239

13.1.2 13.2 13.3 13.3.1 13.3.2 13.4 13.4.1 13.4.2 13.5

239 240 242 243 244 246 248 249 251 252

Lösungen der Aufgaben

255

Literaturverzeichnis

274

Tabellenanhang

275

Register

295

Vorwort (zur ersten und zweiten Auflage) Das vorliegende Buch wendet sich an diejenigen Studierenden, die während ihres Studiums nur wenig Vorlesungen über Statistik oder Wahrscheinlichkeitsrechnung hören müssen. Diese Einführung in die Statitik beschränkt sich auf eine kurze Behandlung der wichtigsten Grundlagen der Statistik und Wahrscheinlichkeitsrechnung. Ziel des Autors ist es, den Stoff möglichst klar und verständlich darzustellen. Viele Beispiele und Plausibilitätsbetrachtungen sollen zum besseren Verständnis beitragen. Zur Vertiefung des Stoffes gibt es am Ende eines jeden Kapitels zahlreiche Übungsaufgaben, deren Lösungen ab Seite 255 angegeben sind. Bei manchen Aufgaben- vor allem bei solchen, die nicht nach einer Standard-Methode gelöst werden können- sind Lösungshinweise zu finden. Manchmal wird der Lösungsweg skizziert oder sogar vollständig angegeben. Das Buch gliedert sich in drei Teile. Im ersten Teil wird die beschreibende (deskriptive) Statistik behandelt. Der zweite Teil beschäftigt sich mit der Wahrscheinlichkeitsrechnung, ohne die keine sinnvolle Statistik möglich ist. In der beurteilenden (induktiven) Statistik im Teil III werden schließlich statistische Verfahren behandelt. Zur Aufstellung der entsprechenden Formeln und vor allem für die Interpretation der damit gewonnenen Ergebnisse ist die Wahrscheinlichkeitsrechnung unentbehrlich. Gleichzeitig werden dabei Grundlagen aus der beschreibenden Statistik benutzt. Es ist selbstverständlich nicht möglich, in dieser kleinen Einführung sehr viele statistische Verfahren zu behandeln. Dazu sei auf die weiterführende Literatur verwiesen, z.B. auf die von dem gleichen Autor ebenfalls im Oldenbourg-Verlag erschienenen Bücher Statistik-Taschenbuch (814 Seiten) Großes Lehrbuch der Statistik (585 Seiten). Für die sorgfältige Durchsicht des Manuskripts sowie für zahlreiche Hinweise und Verbesserungsvorschläge möchte ich mich bei meinem Mitarbeiter Herrn Dr. Martin Bohner recht herzlich bedanken. In der zweiten Auflage konnte ich mich darauf beschränken, den gesamten Text kritisch durchzusehen. Am Schluß des Buches befinden sich daher einige Fehlerberichtigungen (Errata, s. Seite 301). Karl Bosch

Teil I: Beschreibende (deskriptive) Statistik Ziel der beschreibenden Statistik ist es, umfangreiches Datenmaterial aus statistischen Erhebungen übersichtlich darzustellen. Dazu können graphische Darstellungen benutzt werden, die eine "optische Information" über das gesamte Datenmaterial liefern. Häufig werden aus dem Datenmaterial sogenannte Kenngrößen berechnet, die über das gesamte Stichprobenmaterial möglichst viel Informationen liefern sollen. Durch die Angabe solcher Kenngrößen findet allerdings im allgemeinen eine Datenreduktion statt. In der Regel gehen dabei Informationen über das gesamte in der statistischen Erhebung gewonnene Datenmaterial (Urmaterial) verloren. Mit Hilfe dieser Kenngrößen (Parameter) können zunächst nur Aussagen über die Grundgesamtheit gemacht werden, die im vorliegenden Datenmaterial untersucht wurde. Aus dem Datenmaterial abgeleitete Aussagen dürfen nicht ohne weiteres auf größere Grundgesamtheiten übertragen werden. Dazu müssen bestimmte Voraussetzungen bezüglich der Stichprobenentnahme erfüllt sein. Es muß sich um sogenannte "repräsentative" Stichproben handeln. Diese Thematik wird in der beurteilenden Statistik (Teil III) behandelt. Dazu benötigt man jedoch Verfahren aus der Wahrscheinlichkeitsrechnung (Teil II).

Kapitel 1: Merkmale und Skalierung 1.1 Merkmale In einer statistischen Erhebung werden an verschiedenen Merkmalsträgern (Individuen oder statistischen Einheiten) ein oder auch gleichzeitig mehrere Merkmale festgestellt. Die verschiedenen Ergebnisse, die bei der Beobachtung eines bestimmten Merkmals auftreten können, nennt man Merkmalsausprägungen. Beispiele dafür sind: Beruf, Konfession, Haarfarbe, Steuerklasse, Gewicht, Ertrag, Handelsklasse bestimmter Lebensmittel, Zensuren bei Prüfungen, monetäre, chemische oder physikalische Größen. Merkmale werden im allgemeinen nach verschiedenen Typen klassifiziert. Unterschieden wird dabei nach der Art des Merkmals und nach der Anzahl der möglichen Ausprägungen. Quantitative (zahlenmäßige) Merkmale sind solche, deren Ausprägungen in bestimmten Einheiten (Maßeinheiten) gemessen werden können. Sie werden durch reelle Zahlen dargestellt. Zwischen verschiedenen Ausprägungen eines quantitativen Merkmals besteht immer eine Rangordnung (Reihenfolge), also eine Größer-Kleiner-Beziehung. Die Ausprägungen unterscheiden sich durch ihre Größe. Bei quantitativen Merkmalen muß der Unterschied zwischen zwei Merkmalsausprägungen stets quantifizierbar sein, man muß die einzelnen Unterschiede also messen können. Beim Zählen, Messen oder Wiegen werden Ausprägungen quantitativer Merkmale festgestellt. Qualitative (artmäßige) Merkmale sind Merkmale, welche nicht quantitativ sind. Sie können nicht direkt durch Zahlen gekennzeichnet werden, zwischen denen eine natürliche Reihenfolge (Größer-Kleiner-Beziehung) besteht. Daher ist nur eine qualitative (verbale) Beschreibung möglich. Die Ausprägungen eines qualitativen Merkmals unterscheiden sich nur durch ihre Art, nicht jedoch durch ihre Größe. Der Unterschied zwischen zwei Ausprägungen eines qualitativen Merkmals kann nicht objektiv gemessen werden. Qualitative Merkmale sind ζ. B. Geschlecht, Familienstand, Beruf, Konfession, Haarfarbe, Handelsklasse oder Steuerklasse. Formal könnte man zwar allen Ausprägungen eines qualitativen Merkmals Zahlen zuordnen. Durch eine solche formale Quantifizierung geht das qualitative Merkmal jedoch keineswegs in ein quantitatives über, es bleibt weiterhin qualitativ. Nur die Bezeichnungen für die Ausprägungen werden dadurch geändert.

4

Kapitel 1: Merkmale und Skalierung

Beispiel 1.1: Bei den üblichen Zensuren für Leistungen in der Schule oder Universität "sehr gut, gut, befriedigend, ausreichend, mangelhaft, ungenügend" handelt es sich um ein qualitatives Merkmal. Dabei ist zwischen den Ausprägungen zwar eine Rangordnung vorgegeben, denn "sehr gut" ist ζ. B. besser als "gut", "gut" besser als "befriedigend" usw. Die genauen Unterschiede zwischen den einzelnen Noten liegen im allgemeinen aber nicht fest und sind meistens auch nicht gleich. Insbesondere gilt dies bei der Bewertung von Aufsätzen in Deutsch oder Geschichtsarbeiten.' In der Regel werden den Zensuren zwar die Zahlen 1 , 2 , 3 , 4 , 5 , 6 zugeordnet. Dadurch findet eine Quantifizierung statt. Das Merkmal wird also formal quantifiziert. Durch diese Quantifizierung entsteht allerdings der Eindruck, daß die Unterschiede zwischen zwei aufeinanderfolgenden Zensuren jeweils gleich sind, was im allgemeinen keineswegs der Fall ist. Diskrete Merkmale besitzen nur endlich viele oder höchstens abzählbar unendlich viele verschiedene Merkmalsausprägungen. "Endlich viele" bedeutet dabei, daß die Merkmalsausprägungen von 1 an bis zu einer endlichen ganzen Zahl durchnumeriert werden können. "Abzählbar unendlich" heißt, daß es zwar unendlich viele verschiedene Merkmalsausprägungen gibt, die jedoch wie die natürlichen Zahlen von 1 an durchnumeriert werden können. Beim Zählen werden Ausprägungen diskreter Merkmale untersucht. Bei stetigen Merkmalen können die möglichen Ausprägungen alle reellen Zahlen aus einem ganzen Intervall der Zahlengeraden annehmen. Die Ausprägungen gehen im Gegensatz zu diskreten Merkmalen fließend ineinander über. Beim Messen oder Wiegen werden im allgemeinen Ausprägungen stetiger Merkmale festgestellt.

1.2 Skalierung Um die verschiedenen Ausprägungen eines Merkmals nach den gleichen Kriterien angeben oder messen zu können, muß zuerst eine Skala vorgegeben werden. Durch die Skalierung werden den Merkmalsausprägungen einzelne Werte (Plätze) der Skala zugeordnet. Die jeweilige Skala hängt dabei vom Typ des Merkmals ab. Nomina.lslca.la.: Eine Nominalskala liegt vor, wenn durch sie nur die Verschiedenheit der Ausprägungen eines Merkmals zum Ausdruck gebracht werden kann. Merkmale, deren Ausprägungen nur in einer solchen Skala dargestellt werden könnnen, heißen nominale Merkmale. Nominalskalen sind Skalen qualitativer Merkmale, bei denen es keine natürliche Rangordnung gibt. Nominalskalen sagen am wenigsten über die Merkmalsausprägungen aus. Sie stellen die niedrigste Stufe einer Skala dar.

1.2

Skalierung

5

Beispiele dafür sind: Geschlecht, Konfession, Beruf, Farbe oder Steuerklasse. Die Ausprägungen sind nicht miteinander vergleichbar. Es handelt sich um nominale Merkmale. Durch die Zuordnung: männlich0; weiblichl entsteht auch nur eine Nominalskala. Durch diese Zuordnung wird das Merkmal Geschlecht zwar formal quantifiziert, es bleibt aber trotzdem nur qualitativ. Ordinalskala (Rangskala): Eine Ordinalskala (Rangskala) liegt vor, wenn die unterscheidbaren Merkmalsausprägungen in eine natürliche Rangordnung (Reihenfolge) gebracht werden können. Ordinal skalierte Merkmale heißen ordinale Merkmale. Abstände zwischen verschiedenen Ausprägungen ordinaler Merkmale sind jedoch nicht quantifizierbar (nicht interpretierbar). Durch die Rangordnung können den Ausprägungen zwar Zahlen z u g e ordnet werden, doch sagen diese Zuordnungszahlen nichts über die Abstände der einzelnen Merkmalsausprägungen aus. Bei den Handelsklassen bestimmter Lebensmittel gibt es eine Rangordnung. Die Handelsklasse I ist besser als II, II besser als III usw. Daher handelt es sich um ein ordinales Merkmal. Im Gegensatz zu qualitativen Merkmalen können quantitative immer angeordnet werden. So besteht bei den Merkmalen Güteklasse bei Lebensmitteln, Tabellenplatz einer Fußbailiga oder Intelligenzquotient eine natürliche Rangordnung. Ihre Ausprägungen lassen sich anordnen, obwohl es sich um kein quantitatives Merkmal handelt. Metrische Skala (Kardinalskala): Man spricht von einer metrischen Skala oder Kardinalskala, wenn zwischen den Merkmalsausprägungen nicht nur eine Reihenfolge (Rangordnung) besteht, sondern auch die Abstände zwischen den Merkmalsausprägungen miteinander verglichen werden können. Metrische Skalen sind Skalen quantitativer Merkmale. Merkmale mit einer metrischen Skala nennt man metrisch skaliert oder kardinal. Beispiele für metrisch skalierte Merkmale sind: Erträge, Längen, Gewichte, monetäre und physikalische Größen. Die metrischen Skalen sind im allgemeinen bis auf die Wahl der Maßeinheit eindeutig bestimmt.

Kapitel 2: Eindimensionale Stichproben In diesem Abschnitt soll nur ein einziges Merkmal untersucht werden. An η Merkmalsträgern aus einer bestimmten Grundgesamtheit wird jeweils die Ausprägung des Merkmals festgestellt. Die Merkmalsausprägung beim iten Merkmalsträger bezeichnen wir mit Xj für i = 1 , 2 , . . . , n. Man nennt x ; die i-te Beobachtungseinheit. Alle η Merkmalswerte zusammen bilden das n-Tupel χ = ( x ^ x j , . . . , : ^ ) . Dieses n-Tupel heißt Stichprobe (Beobachtungsreihe oder Urliste) vom Umfang n. Falls die Merkmalswerte sämtlicher Individuen einer Grundgesamtheit festgestellt werden, spricht man von einer Total- oder Vollerhebung, andernfalls von einer Teilerhebung. Bei Volkszählungen finden in der Regel Totalerhebungen, bei Meinungsumfragen Teilerhebungen statt.

2.1 Absolute und relative Häufigkeiten Die möglichen Ausprägungen des untersuchten Merkmals bezeichnen wir mit a 1 , &2) · · · > a j > · · · · Die Anzahl derjenigen Beobachtungseinheiten aus der Stichprobe vom Umfang n, welche die Merkmalsausprägung aj besitzen, nennt man die absolute Häufigkeit von aj. Wir bezeichnen sie mit h n (aj) oder kurz mit hj. Dabei stellt der Index η den Umfang der Stichprobe dar. Es ist also hj = h n (aj) = Anzahl der Beobachtungswerte, die gleich aj sind. (2.1) Die absolute Häufigkeit 46 ist bei einem Versuchsumfang η = 50 groß, während sie bei einem Versuchsumfang η = 1000 sehr klein ist. Aus diesem Grunde setzen wir die absolute Häufigkeit in Relation zum Versuchsumfang n. Division der absoluten Häufigkeit hj durch den Stichprobenumfang η ergibt eine Größe, die vom Versuchsumfang η unabhängig ist. Den so erhaltenen Wert r ^ r j a j ) ^ ,

j = l,2,...

(2.2)

nennt man die relative Häufigkeit von aj in der Urliste. Weil 100 · rj % der Beobachtungswerte die Ausprägung aj besitzen, beschreibt die relative Häufigkeit den prozentualen Anteil (prozentuale Häufigkeit) der Merkmalsausprägung aj. Die relative Häufigkeit liegt unabhängig vom Stichprobenumfang η immer zwischen Null und Eins. Je größer eine relative Häufigkeit ist, um so öfter ist der Merkmalswert eingetreten. Die relative Häufigkeit b e s c h r e i b t damit die absolute Häufigkeit unabhängig vom Versuchsumfang n. Die prozentuale Häufigkeit liegt zwischen 0 und 100.

2.2 Strichliste und Häufigkeitstabelle

7

Allgemein gelten für die absoluten und die relativen Häufigkeiten die Eigenschaften: 0 < hj < η 0 < Tj < 1

für jedes j , für jedes j ,

hj = η ; j Σ j

(2.3) r

j=

1

·

Definition 2.1 (Häufigkeitsverteilung): In einer Stichprobe vom Umfang η sollen die Merkmalsausprägungen a 1 , a 2 , . . . die absoluten Häufigkeiten h j , h 2 , . . . und die relativen Häufigkeiten r j , r 2 , . . . besitzen. Dann heißt die Gesamtheit der Paare (a^hj), j = 1,2,... die absolute Häufigkeitsverteilung und (aj· rj) ' J = 1,2,... die relative Häufigkeitsverteilung des diskreten Merkmals.

2.2 Strichliste und Häufigkeitstabelle In der Urliste sind die Beobachtungswerte im allgemeinen völlig ungeordnet und damit- vor allem bei großem Stichprobenumfang n- nicht übersichtlich. Aus diesem Grund versucht man, die Beobachtungswerte in einer Häufigkeitstabelle übersichtlich darzustellen. Dazu trägt man in der ersten Spalte der Häufigkeitstabelle (vgl. Tab. 2.1) die Merkmalsausprägungen ein. Falls es sehr viele oder gar abzählbar unendlich viele verschiedene Merkmalswerte gibt, müssen Merkmalswerte zusammengefaßt werden; am besten solche, die in der Urliste selten vorkommen. Für jeden Beobachtungswert der Urliste wird in die zweite Spalte hinter dem entsprechenden Merkmalswert ein senkrechter Strich | eingetragen. Der Ubersicht halber werden fünf Striche durch den Block {}}} dargestellt. Jeweils der fünfte Strich wird waagrecht durch die vorangehenden vier Striche gezogen. Dadurch entstehen Fünferblöcke mit einem Rest. In weiteren zwei Spalten werden die absoluten Häufigkeiten (Anzahl der Striche) und die relativen Häufigkeiten der jeweiligen Merkmalswerte eingetragen. Die Häufigkeitstabelle enthält also die absolute und die relative Häufigkeitsverteilung. Durch die Übertragung der Urliste in eine Häufigkeitstabelle gehen allerdings wesentliche Informationen über die Urliste verloren, da die Reihenfolge, in der die Beobachtungswerte auftreten, aus der Tabelle allein nicht mehr feststellbar ist.

8

Kapitel 2: Eindimensionale Stichproben

Beispiel 2.1: In 50 Familien wurde jeweils die Anzahl der Kinder festgestellt und in der Tabelle 2.1 eingetragen.

0

Anzahl der Familien absolute relative prozentualer Häufigkeit Häufigkeit mit j Kindern Anteil r j 100-rj h i 0,24 12 24

1

IUI nil Mil η TTTT tttt ttn II

2

Anzahl der Kinder aj=j

Mil

17

0,34

34

MI

9

0,18

18

3

tttt 1

6

0,12

12

4

IUI II

4

0,08

8

2

0,04

4

0

0

0

5 mehr als 5 Summe

η = 50

1,00

100

Tab. 2.1: Strichliste und Häufigkeitstabelle

2.3 Graphische Darstellungen Eine in einer Häufigkeitstabelle angegebene Beobachtungsreihe kann in einer graphischen Darstellung übersichtlicher dargestellt werden. Bei der Wahl der graphischen Darstellung muß dabei zwischen quantitativen und qualitativen Merkmalen unterschieden werden. Bei quantitativen Merkmalen werden in einem Stabdiagramm (vgl. Bild 2.1 a) über den einzelnen Merkmalswerten senkrecht nach oben Stäbe angetragen, deren Längen die absoluten bzw. relativen Häufigkeiten sind. Im Stabdiagramm der absoluten Häufigkeiten haben alle Stäbe zusammen die Länge η (Anzahl der Stichproben werte). Diese Eigenschaft muß bei der Maßstabsfestsetzung berücksichtigt werden. Im Stabdiagramm der relativen Häufigkeiten ist die Gesamtlänge aller Stäbe zusammen immer gleich Eins unabhängig vom Stichprobenumfang n. Aus diesem Grund kann bei Stabdiagrammen für die relativen Häufigkeiten immer der gleiche Maßstab gewählt werden. In einem Häufigkeitspolygon (Bild 2.1 b) werden die Endpunkte der einzelnen Stäbe geradlinig miteinander verbunden. In einem Histogramm (Bild 2.1 c) stellt man die absoluten bzw. relativen Häufigkeiten durch Flächen von Rechtecken senkrecht über den einzelnen

2.3 Graphische Darstellungen

9

Merkmalsausprägungen dar. Nur wenn alle Rechtecke die gleiche Breite besitzen, können als Höhen jeweils die Häufigkeiten bzw. das gleiche Vielfache davon benutzt werden. Bei verschiedenen Rechtecksbreiten sollten die Höhen jedoch so gewählt werden, daß die Inhalte der einzelnen Rechtecke proportional zu den Häufigkeiten sind. Als Rechteckshöhen eignen sich bis auf den Maßstab die Quotienten Häufigkeit Rechtecksbreite ' Damit erhält man eine flächenproportionale Darstellung. In Bild 2.1 ist die relative Häufigkeitsverteilung aus Tab. 2.1 (Beispiel 2.1) in einem Stabdiagramm, Häufigkeitspolygon und Histogramm graphisch dargestellt. Weil jeweils zwei benachbarte Merkmalsausprägungen (Anzahl der Kinder) voneinander den Abstand 1 besitzen, können im Histogramm als Höhen direkt die relativen Häufigkeiten gewählt werden. Die Bilder für die absoluten und relativen Häufigkeiten unterscheiden sich nur durch den Maßstab auf der y-Achse.

a) Stabdiagramm

b) Häufigkeitspolygon

c) Histogramm

Bild 2.1: Verteilungen der relativen Häufigkeiten Bei qualitativen Merkmalen sind die Ausprägungen im allgemeinen keine reellen Zahlen. Formal könnte man die abstrakten Ausprägungen zwar auf der Zahlengeraden darstellen und die Graphiken wie bei quantitativen Merkmalen anfertigen. Dieses Vorgehen ist jedoch nicht sinnvoll. Bei einer Darstellung auf dem Zahlenstrahl besteht nämlich die Gefahr, daß durch die willkürlich gewählte Anordnung fälschlicherweise eine Rangordnung zwischen den Ausprägungen hineininterpretiert wird. Aus diesem Grund benutzt man hier andere graphische Darstellungen. Dazu das

Kapitel 2: Eindimensionale Stichproben

10

Beispiel 2.2: In einem Verein kandidierten drei Personen Α, Β und C für den Posten des ersten Vorstands. Bei der Abstimmung waren 75 Personen stimmberechtigt. Nach der Satzung ist derjenige Kandidat gewählt, welcher die meisten Stimmen erhält. Die Stimmenverteilung ist in Tabelle 2.2 dargestellt.

Kandidat

absolute relative abgegebene Stimmen Häufigkeit Häufigkeit

prozentualer Anteil

Kandidat A

TIUI TTT Μ TTηTThuTTTιT 1

16

0,213

21,3

Kandidat Β

ttttttttMIIII

24

0,320

32,0

22

0,293

29,3

13

0,173

17,3

ungültig

0

0

0

Summe

η = 75

0,999

99,9

Kandidat C

Uli Uli TttT TTTTIII! ttttIII! ttttIIII

Enthaltungen I M

III

T a b . 2.2: Strichliste und Häufigkeitstabelle In einem Rechteckdiagramm (Bild 2.2 a) werden die Rechtecksflächen proportional zu den Häufigkeiten aufgeteilt. Dann verhalten sich die Häufigkeiten zweier Merkmalswerte wie die Inhalte der ihnen zugeordneten Flächen (flächenproportionale Darstellung). Im Kreisdiagrainm (Bild 2.2 b) wird zu jeder Merkmalsausprägung ein Kreissektor gebildet, wobei die Flächen der Sektoren und damit auch die Innenwinkel proportional zu den Häufigkeiten sind. Jeder einzelnen Stimme entspricht ein Innenwinkel von 360/75 = 4,8°. Damit erhält man der Reihe nach die Winkel: 76,8°; 115,2°; 105,6°; 62,4°.

Bild 2.2: a) Rechteckdiagramm

b) Kreisdiagramm

2.4 Häufigkeitsverteilungen bei Klasseneinteilungen

11

2.4 Häufigkeitsverteilungen bei Klasseneinteilungen Falls ein stetiges Merkmal erhoben wird, sind die in der Urliste vorkommenden Beobachtungswerte im allgemeinen alle voneinander verschieden, wenn nur genau genug gemessen wird. Die Häufigkeitsverteilungen sind dann nicht übersichtlich. Das gleiche Problem tritt bei diskreten Merkmalen mit sehr vielen verschiedenen Ausprägungen auf. In einem solchen Fall ist es sinnvoll, Merkmalswerte zu Klassen zusammenzufassen. Falls bei einem qualitativen Merkmal Werte zusammengefaßt werden, sind die so entstehenden Ausprägungen (Klassen) wieder qualitativ. Dann können die Häufigkeitsverteilungen dieser Merkmalsklassen wie in Abschnitt 2.3 dargestellt werden. Bei quantitativen stetigen Merkmalen wird die Klasseneinteilung auf einem Intervall vorgenommen, welches alle Beobachtungswerte enthält. Dazu wird d a s Intervall in mehrere Teilintervalle zerlegt. Die Teilintervalle nennt m a n Klassen oder Gruppen. Jede Klasse ist durch eine linke und eine rechte Klassengrenze bestimmt, wobei eindeutig festgelegt sein muß, zu welcher der beiden angrenzenden Klassen der entsprechende Grenzpunkt gehört. Als Klassenintervalle wählt man im allgemeinen halboffene Intervalle. Eine ideale Klasseneinteilung wäre eine mit lauter gleichen Klassenbreiten. Oft sind jedoch bei einer solchen äquidistanten Einteilung Klassen - v o r allem an den Rändern- sehr schwach besetzt. Dann ist es sinnvoll, die Randklassen breiter zu machen. Die Anzahl der Klassen bezeichnen wir mit m und die einzelnen Klassen der Reihe nach mit Κ

1)Κ2'Κ3'···'ΚΠ1_1, Km .

Die zugehörigen Klassenbreiten seien b 1 , b 2 , . . . , b m . Aus einer Klasseneinteilung allein lassen sich allerdings die Beobachtungswerte nicht mehr genau feststellen. Man weiß nur, zwischen welchen Grenzen sie liegen. Daher ist eine Klassenbildung mit einem gewissen Informationsverlust verbunden. Man kann nur noch feststellen, wie viele Beobachtungswerte in der jeweiligen Klasse liegen. Die genauen Zahlenwerte können aus der Klasseneinteilung jedoch nicht mehr abgelesen werden. Die Anzahl der Beobachtungswerte, welche in der Klasse Kj enthalten sind, heißt die absolute Klassenhäufigkeit. Wir bezeichnen sie mit hj = Anzahl der Beobachtungswerte in der Klasse K j . Division durch den Versuchsumfang η = h 1 + h 2 + . . . + h m ergibt die rela-

tive Klassenhäufigkeit mit

m Σ

r

j — 1·

Kapitel 2: Eindimensionale Stichproben

12

Die Klasseneinteilung wird in einem Histogramm (s. Bild 2.3) graphisch dargestellt. Dazu wird über jeder Klasse ein Rechteck gebildet, dessen Flächeninhalt proportional zur absoluten bzw. relativen Klassenhäufigkeit ist. Nur wenn sämtliche Klassen die gleiche Breite besitzen, dürfen als Höhen unmittelbar die Klassenhäufigkeiten benutzt werden. Sonst müssen andere Höhen gewählt werden. Für die relativen Klassenhäufigkeiten erhält man die ri „ , , , , .., R« ,· T^I „ relative Klassenhäufigkeit Rechteckshohe fur die Klasse K ; : τ- = ττ-, ; —τ-— . J bj Klassen breite Oft ist man gezwungen, auf beiden Achsen verschiedene Maßstäbe zu wählen. Das gesamte Histogramm besitzt dann den Flächeninhalt Eins. Beispiel 2.3: Bei 50 Aggregaten des gleichen Typs wurde die Betriebsdauer in Stunden festgestellt und in folgender Klasseneinteilung dargestellt (Klassengrenzen 200, 400, 800, 1200, 1600, 2000, 3000). Klasse K-

hj = absolute Klassenhäufigkeit

Tj = relative Klassenhäufigkeit

9

0,18

K2 =(200;400]

10

0,20

K3 =(400;800]

10

0,20

K 4 = (800; 1200]

4

0,08

K 5 = (1200; 1600]

6

0,12

K 6 = (1600; 2000]

7

0,14

K 7 = (2000; 3000]

4

0,08

η = 50

1,00

K j = ( 0 ; 200]

Summe Tab. 2.3: Klasseneinteilung

Im flächenproportionalen Histogramm in Bild 2.3 für die relativen Klassenhäufigkeiten dürfen als Höhen der Rechtecke nicht unmittelbar die relativen Klassenhäufigkeiten gewählt werden, weil die Klassenbreiten verschieden sind. Die relativen Häufigkeiten werden durch die Klassenbreiten dividiert. Dadurch erhält man der Reihe nach die Rechteckshöhen ^

= 0,0009; g

^

= 0,00035;

= 0,001; ^ = 0,00008.

= 0,0005; ^

= 0,0002; ^

= 0,0003;

2.5 Empirische Verteilungsfunktion

13

i A

r

Breite

0,001 -

0,0005-

0,0001 -

200

400

χ

-H

800 χ

1200

1600

2000

3000 χ

Bild 2.3: Histogramm einer Klasseneinteilung

2.5 Empirische Verteilungsfunktion Bei vielen Problemen möchte man wissen, wie viele der Beobachtungswerte eine bestimmte Grenze χ nicht überschreiten. Dazu die Definition 2.2 (empirische Verteilungsfunktion): Für eine Stichprobe vom Umfang η heißt die durch

n( x )

=

Anzahl der Stichprobenwerte x ; mit x ; < χ

η

(2.4)

für jedes χ e R definierte Funktion F n die empirische Verteilungsfunktion oder relative Summenhäufigkeitsfunktion der Stichprobe. An jeder Stelle χ e R ist der Funktionswert F n ( x ) der relative Anteil derjenigen Stichprobenwerte, die kleiner oder gleich, also höchstens gleich χ sind. Zur Bestimmung von F n müssen die η Stichprobenwerte der Größe nach geordnet werden. Der Zusatz empirisch wird oft weggelassen.

Kapitel 2: Eindimensionale Stichproben

14

Beispiel 2.4 (vgl. Beispiel 2.1): In Beispiel 2.1 gibt die empirische Verteilungsfunktion F g0 (x) an der ganzzahligen Stelle j den relativen Anteil derjenigen Familien an, die höchstens j Kinder haben für j = 0 , 1 , . . . , 5. Bis zur nächsten Sprungstelle bleibt die Verteilungsfunktion konstant. Aus Tab. 2.1 erhält man die Werte der Verteilungsfunktion : F50(X) = 0

für

χ < 0 ;

F50(X) = 0,88

für

3 < Χ< 4 ;

F50(X) = 0,24

für

0 < χ < 1

F 5 0 ( X ) = 0,96

für

4 < Χ< 5 ;

F50(X) = 0,58

für

1 < χ < 2

F 5 oW = 1

für

x>

F 5 0 ( X ) = 0,76

für

2 < χ < 3

5.

Die empirische Verteilungsfunktion ist in Bild 2.4 graphisch dargestellt. FJx) '

I

0,1 J

I

0

1

2

3

4

5

χ

Bild 2.4: Empirische Verteilungsfunktion Allgemein ist F n eine monoton wachsende Treppenfunktion. Sie springt an den Stichprobenwerten um die relative Häufigkeit des Stichprobenwertes nach oben. Die empirische Verteilungsfunktion F n steigt von Null auf Eins an. Links vom kleinsten Stichprobenwert verschwindet F , vom größten Stichproben wert an hat sie den Wert 1.

2.6 Klassierte Verteilungsfunktion Aus einer Klassenbildung allein können die Beobachtungswerte x ; nicht mehr genau festgestellt werden. Man sieht nur, wie viele der Werte in den einzelnen Klassen liegen. Daher kann der vollständige Verlauf der empirischen Verteilungsfunktion nicht exakt angegeben werden. Man kann allerdings die genauen Werte der empirischen Verteilungsfunktion an den Klassengrenzen berechnen, weil aus der Klasseneinteilung abgelesen werden

2.7 Mittelwerte

15

kann, wie viele Stichprobenwerte die rechte Klassengrenze nicht übersteigen. Die Anzahl aller Beobachtungswerte, welche eine Klassengrenze nicht überschreiten, ist dann gleich der Summe der absoluten Häufigkeiten aller Klassen bis zu dieser Stelle. Daher ist die empirische Verteilungsfunktion an einer Klassengrenze gleich der Summe der relativen Häufigkeiten aller Klassen links von dieser Grenze. Verbindet man die so erhaltenen Werte geradlinig, so erhält man die sogenannte klassierte Verteilungsfunktion. Durch sie wird die tatsächliche Verteilungsfunktion approximiert. J e feiner die Klasseneinteilung ist, umso besser stimmt die klassierte Verteilungsfunktion mit der Verteilungsfunktion der Ausgangsstichprobe überein. Die klassierte Verteilungsfunktion der Klasseneinteilung aus Tab. 2.3 ist in Bild 2.5 dargestellt. Sie ist die Integralfunktion des Histogramms aus Bild

Bild 2.5: Klassierte Verteilungsfunktion

2.7 Mittelwerte Mit Hilfe von Mittelwerten sollen Aussagen über unübersichtliche Stichproben gemacht werden. Wir wollen uns auf die Angabe von vier verschiedenen Mittelwerten beschränken. Welcher dieser Mittelwerte eine Stichprobe am besten charakterisiert, hängt von der Problemstellung ab; manchmal kann der eine, manchmal ein anderer Mittelwert geeigneter sein.

2.7.1 Arithmetisches Mittel (der Mittelwert) Das Gesamteinkommen einer bestimmten Personenschicht allein enthält nicht viel Information, falls nicht gleichzeitig mitgeteilt wird, um wie viele Personen es sich dabei handelt. Division des Gesamteinkommens durch die Anzahl der entsprechenden Personen ergibt das Durchschnitts- oder das Pro-Kopf-Einkommen, das wesentlich mehr Information enthält. Bei der Berechnung des durchschnittlichen Zuckerverbrauchs wird der gesamte Zuckerverbrauch durch die Anzahl der Personen dividiert. Dieser Durchschnittswert allein läßt jedoch keine Aussage über den Verbrauch der einzel-

Kapitel 2: Eindimensionale Stichproben

16

nen Personen zu. Manche davon werden viel mehr, manche wesentlich weniger Zucker konsumiert haben. Definition 2.3 (arithmetisches Mittel): Bei metrisch skalierten Merkmalen heißt der Zahlenwert •«η ι m m * = E Exi = HEhj-aj= Erj-aj (2.5) i=l j=l j=l das arithmetische Mittel (der Mittelwert oder Durchschnittswert) der Stichprobe. Oft nennt man χ den Mittelwert und läßt den Zusatz arithmetisch einfach weg. Falls die Werte nur in Form einer Urliste gegeben sind, wird zur Berechnung des Mittelwertes die erste Gleichung benutzt. Die zweite oder dritte Darstellung verwendet man bei Häufigkeitsverteilungen. Wegen η η · χ = χ 1 + χ 2 - | - . . . - | - χ η = Σ xi i=l

(2.6)

beschreibt das arithmetische Mittel immer die Gesamtsumme. Bei vielen Problemstellungen wird nur der Durchschnittswert χ angegeben, z.B. der Pro-Kopf-Verbrauch oder das Durchschnittseinkommen. Multipliziert man diesen Durchschnittswert mit der Anzahl, bezüglich derer der Durchschnitt gebildet wurde, so erhält man den Gesamtverbrauch bzw. das Gesamteinkommen. Würde ζ. B. die gesamte Lohnsumme eines Betriebs unter allen Betriebsangehörigen gleichmäßig aufgeteilt, so müßte jede Person diesen Durchschnittswert erhalten. Beispiel 2.5 (vgl. Beispiel 2.1): Für die Anzahl der Kinder pro Familie in Beispiel 2.1 erhält man das arithmetische Mittel χ = ^ ( 1 2 · 0 + 17 • 1 + 9 · 2 + 6 · 3 + 4 · 4 + 2 · 5) = 1,58. Bei diesen 50 Familien beträgt die mittlere Kinderzahl also 1,58. Im Stabdiagramm in Bild 2.1 ist der Mittelwert χ = 1,58 bereits eingetragen. Allgemein stellt in einem Stabdiagramm das arithmetische Mittel χ den Abszissenwert des Schwerpunkts der Stäbe dar. Mittelwert einer linear transformierten Stichprobe Die Beobachtungswerte Xj werden durch y; = a + bxj mit a, b g R linear transformiert. Dann lautet der Mittelwert der transformierten Stichprobe y = (y x , y 2 , . . . , y n )

2.7 Mittelwerte

17

1 1 y = s Σ yi = Η E(a + bx;) = η • η · a + b · jj i=l i=l

Xj = a + b- x . i=l

Damit transformiert sich auch der Mittelwert y nach dem gleichen Gesetz: a + bx = a + bx

für a , b e R .

(2.7)

Aus einer Klasseneinteilung allein kann der Mittelwert nicht mehr exakt berechnet werden. In diesem Fall identifiziert man alle Werte einer Klasse mit der Klassenmitte und berechnet davon den Mittelwert. Dadurch erhält man einen Näherungswert für den tatsächlichen Mittelwert.

2.7.2 Median (Zentralwert) Beispiel 2.6: Neun Personen erhalten folgende Gehälter in DM: 2200; 2250; 2480; 2700; 2750; 2930; 3000; 3 100; 16480. Die ΟGehälter sind also bereits der Größe nach geordnet. Der Mittelwert ·» O Q A x = —g— = 4 210 liegt nicht im Zentrum der Stich proben werte. Links von ihm befinden sich 8 Werte, rechts davon jedoch nur ein einziger. Der sogenannte Ausreißer 16 480 zieht den Mittelwert stark nach oben. Daher suchen wir nach einem Wert, der die Stichprobenwerte in zwei ungefähr gleich große Gruppen zerlegt. Weil der Stichprobenumfang ungerade ist, gibt es genau einen Stichprobenwert, welcher in der Mitte der geordneten Stichprobenwerte liegt, nämlich der fünfte Wert 2750. Dieser Wert ist der sogenannte Median oder Zentralwert χ der Stichprobe, also χ = 2 750. Wir nehmen noch einen weiteren Wert dazu und erhalten die Stichprobe 2150; 2200; 2250; 2480; 2700; 2750; 2930; 3000; 3100; 16480 vom Umfang η = 10 (gerade). Bei geradem Stichprobenumfang η gibt es keinen Einzelwert, sondern gleichzeitig zwei Stichprobenwerte, die in der Mitte der geordneten Stichprobe liegen. Bei geradem Stichprobenumfang nennt man die beiden in der Mitte der geordneten Stichprobe stehenden Stichprobenwerte Mediane (Zentralwerte). Man kann aber auch jeden zwischen diesen beiden Stichprobenwerten liegenden Zahlenwert als Median bezeichnen. Dann spricht man vom Medianintervall [2 700; 2 750]. Um den Median eindeutig festzulegen, gibt man oft die Mitte des Medianintervalls an, hier also den Wert χ = 2 725.

Kapitel 2: Eindimensionale Stichproben

18

Der Median oder Zentralwert χ einer Beobachtungsreihe kann jeweils durch eine der beiden gleichwertigen Eigenschaften erklärt werden: a) Mindestens die Hälfte der Beobachtungswerte sind kleiner oder gleich und mindestens die Hälfte größer oder gleich dem Median x . b) Höchstens die Hälfte der Beobachtungswerte sind kleiner und höchstens die Hälfte größer als der Median x . Der Median kann nur von ordinal oder metrisch skalierten Merkmalen berechnet werden. Weil die Merkmalsausprägungen zur Bestimmung des Medians in einer Reihenfolge angeordnet werden, muß eine Rangordnung (Größer-Kleiner-Beziehung) vorgegeben sein. Zunächst werden die Beobachtungswerte der Größe (Rangordnung) nach geordnet. Diese geordneten Werte bezeichnet man der Reihe nach mit x

(i) ^ x(2) ^ x (3) ^ · • · ^ x ( n ) ·

Definition 2.4 (Median): Die Stichprobenwerte werden bezüglich der Rangordnung (der Größe nach) angeordnet. Bei ungeradem η ist der Median (Zentralwert) χ der in der Mitte der geordneten Reihe stehende Beobachtungswert, also χ = x. n -(-i. , falls η ungerade ist.

(2-8)

Bei geradem η erfüllt jeder Merkmalswert zwischen X/n\ und X/n \ \2' ν2 / einschließlich der Grenzen die Bedingung eines Medians. Dann ist jeder Merkmalswert zwischen diesen Werten Median. Bei stetigen metrisch skalierten Merkmalen wählt man häufig das arithmetische Mittel der beiden mittleren Stichprobenwerte als Median, also *

=

5'(X(£)

+X

(a+l))

f ü r g e r a d e s n·

(2·9)

Diese Mittelwertbildung ist allerdings bei nur ordinalen Merkmalen nicht möglich.

Bestimmung des Medians aus einer Häufigkeitstabelle a) Springt die relative Summenhäufigkeit bei einem Merkmalswert von unter 0,5 auf über 0,5, so ist dieser Merkmalswert der Median. b) Ist die relative Summenhäufigkeit eines Merkmalswerts gleich 0,5, so ist jeder Wert zwischen diesem und dem nächstgrößeren Merkmalswert Median.

2.7 Mittelwerte

19

Beispiel 2.7 (vgl. Beispiel 2.1): In der nachfolgenden Tabelle 2.4 springt beim Merkmalswert 1 die relative Summenhäufigkeit erstmals auf über 0,5. Daher ist χ = 1 der Median der Anzahl der Kinder bei den 50 Familien aus Beispiel 2.1. Anzahl der Kinder

relative Häufigkeit

relative Summenhäufigkeit

0

0,24

0,24

1

0,34

0,58

2

0,18

0,76

3

0,12

0,88

4

0,08

0,96

5

0,04

1,00

«- χ

Tab. 2.4: Bestimmung des Medians aus einer Häufigkeitstabelle Beispiel 2.8: In der nachfolgenden Häufigkeitstabelle (Tab. 2.5) ist beim Merkmalswert 20 die relative Summenhäufigkeit gleich 0,5. Daher sind 20 und 25 gleichzeitig Mediane. relative Häufigkeit

relative Summenhäufigkeit

0,18

0,18

20

0,32

0,50

25

0,41

0,91

30

0,09

1,00

a

j 10

«- χ rsrf

χ

Tab. 2.5: Bestimmung des Medians aus einer Häufigkeitstabelle Bestimmung des Medians aus der empirischen Verteilungsfunktion Die Bestimmung des Medians aus der Häufigkeitstabelle ergibt unmittelbar die folgende Eigenschaft: a) Falls die empirische Verteilungsfunktion auf einer Treppenstufe den Wert 0,5 annimmt, sind dieser Merkmalswert und der nächstgrößere Mediane. b) Wenn die empirische Verteilungsfunktion den Wert 0,5 nicht annimmt, ist der Median gleich dem kleinsten Merkmalswert, an dem die Verteilungsfunktion größer als 0,5 ist.

20

Kapitel 2: Eindimensionale Stichproben

Beispiel 2.9: In der nachfolgenden empirischen Verteilungsfunktion auf der linken Seite erhält man die Mediane 3 und 4 bzw. das Medianintervall [ 3 ; 4 ] . Im Bild auf der rechten Seite ist der Median χ = 3 eindeutig bestimmt.

Bild 2.6: Bestimmung des Medians aus der Verteilungsfunktion

Median bei Klasseneinteilungen Aus einer Klasseneinteilung allein läßt sich der Median nicht mehr exakt bestimmen. Man kann nur diejenige Klasse feststellen, in welcher der Median enthalten ist. Als Näherungswert für den Median wählen wir denjenigen Wert, an dem die klassierte Verteilungsfunktion aus Abschnitt 2.6 den Wert | annimmt. Das ist diejenige Stelle, die das Histogramm der relativen Klassenhäufigkeiten (vgl. Bild 2.3) in zwei gleich große Bereiche mit dem jeweiligen Flächeninhalt 0,5 teilt. Eigenschaften des Medians Im Gegensatz zum Mittelwert liegt der Median immer im Zentrum der geordneten Stichprobenwerte. Er ist unempfindlich gegenüber Ausreißern. Der Median kann nicht nur bei metrisch skalierten, sondern auch bei ordinalen qualitativen Merkmalen berechnet werden, bei denen die Berechnung des arithmetischen Mittels gar nicht möglich ist. Zur Bestimmung des Medians benötigt man nur eine Anordnung (Rangreihenfolge) wie ζ. B. bei den Handelsklassen bestimmter Lebensmittel.

2.7 Mittelwerte

21

2.7.3 Harmonisches Mittel Falls ein Autofahrer immer die gleichen Zeiten mit jeweils konstanten Geschwindigkeiten fährt, ist die Durchschnittsgeschwindigkeit das arithmetische Mittel der Einzelgeschwindigkeiten. Diese Mittelwertbildung darf jedoch nicht mehr benutzt werden, wenn gleich oder gar verschieden lange Strecken mit verschiedenen Geschwindigkeiten gefahren werden. Dazu das

Beispiel 2.10: Ein Autofahrer möchte eine Strecke von 450 km fahren. Für die Zeitplanung geht er von folgender Vorstellung aus: jeweils ein Drittel der Strecke möchte er mit den konstanten Geschwindigkeiten (in k m / h ) x a = 150, x 2 = 100 und x 3 = 75 fahren. Gesucht ist die Durchschnittsgeschwindigkeit bei Einhaltung dieser Bedingungen. In T a b . 2.6 sind die für die einzelnen Strecken benötigten Zeiten angegeben.

Streckenlänge

Durchschnittsgeschwindigkeit in

benötigte Zeit in Stunden

^

150

150

1

150

100

1,5

150

75

2

T a b . 2.6: Tabelle zur Berechnung des harmonischen Mittels Für die Gesamtstrecke 450 km werden 4,5 Stunden benötigt. Daraus erhält man die Durchschnittsgeschwindigkeit x h = f £ = 1 0 0 km/h. Dieser Durchschnittswert ist kleiner als das arithmetische Mittel der drei Einzelgeschwindigkeiten χ = i ( 1 5 0 + 100 + 75) =

108,33.

Die Durchschnittsgeschwindigkeit kann folgendermaßen dargestellt werden: -

Xh

_ 450 _ 450 ~ 4,5 ~ 150 , 150 , 1 5 0 ~ 150 Μ 150 + 100 + 75 450 U 5 0 _

+

1 , J _ , Π 100 + 7 b )

1 3\150

100

75/

Im Nenner dieses Bruches steht das arithmetische Mittel der reziproken Stichprobenwerte 5q-, und ^ . Man nennt x h das harmonische Mittel der Beobachtungswerte.

Kapitel 2: Eindimensionale Stichproben

22

Definition 2.5 (harmonisches Mittel): Das harmonische Mittel der Stichprobe ( x j , x 2 , . . . , XjJ mit x ; φ 0 für alle i ist erklärt durch

Das harmonische Mittel ist der Kehrwert (reziproke Wert) des arithmetischen Mittels der reziproken Beobachtungs werte ^ - , i = l , 2 , . . . , n . i Beispiel 2.11 (Durchschnittspreis beim Kauf für gleiche Beträge zu verschiedenen Preisen): Von einer Ware werde n-mal zu verschiedenen Preisen für den gleichen Betrag c gekauft. Zwischen den gekauften Mengen M; und den zugehörigen Preisen pj pro Mengeneinheit gilt also die Beziehung M; · Ρ; = c (konstant). In Abhängigkeit vom Preis betragen die Kaufmengen M; = p;. Damit gilt: η η Gesamtpreis: η · c ; Gesamtmenge: Μ = Υ) Μ· = Γ Ι ; . . 1 . . . ri 1=1 1=1 1

Hieraus erhält man den Durchschnittspreis n-c _ η

1

_ -

n Pi P2 Pn \Pl P2 PnJ Beim Kauf zu verschiedenen Preisen für jeweils gleiche Beträge ist der Durchschnittspreis das harmonische Mittel der η Einzelpreise.

2.7.4 Geometrisches Mittel Beispiel 2.12 (mittlere Preissteigerung): Während η Jahren stiegen die Preise für eine bestimmte Ware der Reihe nach um p j , p 2 , . . . , Ρ η %· Prozentuale Preissteigerung bedeutet dabei, daß der zu Beginn des i-ten Jahres gültige Preis am Ende des Jahres mit dem Preissteigerungsfaktor qj = l + p ; / 1 0 0 multipliziert werden muß. Mit dem Ausgangspreis Α erhält man damit nach η Jahren den Endpreis = A · qx · q 2 · . . . · q n . Die durchschnittliche (mittlere) Preissteigerung ρ ist diejenige jährlich konstante Preissteigerung, die nach η Jahren zum gleichen Endpreis geführt hätte wie die verschiedenen Preissteigerungen. Mit dem Steigerungsfaktor q = 1 + p/100 erhält man den Endpreis E 2 = A-q 11 . Gleichsetzen von E j und E 2 ergibt

2.8 Quantile und Quartile qn = qi-q2-"-- 0 .

(2.12)

Falls nicht alle η Werte der Beobachtungsreihe gleich, also mindestens zwei Beobachtungswerte voneinander verschieden und alle X; > 0 sind, gilt allgemein xh < X < χ.

(2.13)

2.8 Quantile und Quartile Der Median einer Stichprobe ist dadurch charakterisiert, daß mindestens 50 % aller Beobachtungswerte diesen Wert nicht übersteigen und mindestens 50 % der Werte diesen nicht unterschreiten. Bei vielen Problemen möchte man jedoch wissen, wie viele der Beobachtungswerte zu den 10 oder 20 % kleinsten bzw. größten Beobachtungswerten gehören. Falls jemand in einer Prüfung zu den 10 % besten gehört, liegt dessen Leistung unter den 10 % größten Werten der Zensuren. Eine schlechtere Note müssen dann mindestens 90 % der Teilnehmer haben. Bei der Untersuchung der

24

Kapitel 2: Eindimensionale Stichproben

Studiendauer interessiert man sich oft für die maximale Semesteranzahl der 90% Studierenden, die das Studium zuerst beenden, also für die maximale Studienzeit der 90 % "am schnellsten Studierenden". Definition 2.7 (Quantil): Für 0 < q < l wird ein q-Quantil (q-Fraktil) x q durch die beiden gleichwertigen Eigenschaften definiert: a) Mindestens 100 · q % der Beobachtungswerte sind kleiner oder gleich x q und mindestens 100 · (1 — q) % größer oder gleich x q . b) Höchstens 100 · q % der Beobachtungswerte sind kleiner als x q und höchstens 100 · (1 — q) % größer als x q . Falls ein q-Quantil mit keinem Beobachtungswert übereinstimmt, teilt es die aufsteigend geordnete Beobachtungsreihe im Verhältnis q zu 1 — q. Es gilt χ = x 0 5 . Wie der Median können Quantile nur von ordinal oder metrisch skalierten Merkmalen berechnet werden. Die Beobachtungswerte seien der Größe nach geordnet durch X

(l) ^ X(2) ^ X(3) ^ · · · ^ x (n) ·

Dann kann das q-Quantil oder das 100 q %-Quantil x q folgendermaßen bestimmt werden: 1. Fall: nq sei nicht ganzzahlig. Es sei k die auf nq folgende ganze Zahl, d. h. die kleinste ganze Zahl, welche größer als nq ist. Dann gilt x q = x ^ ; k = kleinste ganze Zahl mit k > nq (nicht ganzzahlig). 2. Fall: nq = k sei ganzzahlig. Dann sind sowohl x ^ j als auch x ^ ^ j j und jeder dazwischen liegende Merkmalswert q-Quantile. Bei stetigen metrisch skalierten Merkmalen benutzt man oft das arithmetische Mittel dieser beiden Stichprobenwerte, um das Quantil eindeutig festzulegen, also *q = 5 ' ( x 0 0 + x ( k + i ) ) f ü r k = n ( i ( g a n z z a h l i g ) · Bei ordinalen Merkmalen ist die Mittelwertsbildung nicht möglich. Im Falle q = 0,25 und q = 0,75 nennt man die Quantile auch Quartile. XQ 25 h e i ß t d a s u n t e r e u n d XQ γ^ d a s o b e r e Quartil.

2.9 Streuungsmaße (Abweichungsmaße)

25

2.9 Streuungsmaße (Abweichungsmaße) Bei quantitativen metrisch skalierten Merkmalen lassen die Mittelwerte aus Abschnitt 2.7 allein keine Aussage darüber zu, ob alle oder wenigstens die meisten der Beobachtungswerte in ihrer Nähe oder weiter weg liegen. Oft möchte man jedoch gerne wissen, wie stark die Werte der Beobachtungsreihe um diese Lageparameter streuen. Die Abweichungen der Beobachtungswerte von einem Lageparameter werden durch sogenannte Streuungsparameter (Streuungsmaße) beschrieben. Diese können allerdings nur von Beobachtungswerten quantitativer Merkmale berechnet werden, deren Ausprägungen metrisch skaliert sind (reelle Zahlen). Je kleiner diese Streuungsmaße sind, umso besser wird die Häufigkeitsverteilung durch den entsprechenden Lageparameter beschrieben.

2.9.1 Mittlere Abstände Mittlere Abstände lassen sich nur bei kardinalen Merkmalen bestimmen. Von einem festen Zahlenwert c hat der Beobachtungswert den Abstand | Xj — c |. Der mittlere Abstand (mittlere absolute Abweichung) von c ist dc =

fiE|xi-c|. i=l Für c = χ erhält man den mittleren Abstand vom Mittelwert χ als

(2.14)

d

x = ir Σ | x i - x | ;

(2.15)

2 = Κ Σ l*i-x|·

(2.16)

i=l c = x ergibt den mittleren Abstand vom Median d

Allgemein kann folgende Ungleichung bewiesen werden: d~ < d c für jedes c e R.

(2.17)

Der mittlere Abstand ist also bezüglich des Medians am kleinsten. Insbesondere gilt (s. Bosch, K. [1992], S. 23ff.) d~ < d^ .

(2.18)

2.9.2 Varianz und Standardabweichung Die mittleren absoluten Abweichungen d^ und d~ lassen sich zwar einfach berechnen und beschreiben die Abweichungen der Beobachtungswerte vom jeweiligen Mittel auch ganz gut. In der beurteilenden Statistik sind diese Parameter jedoch für Hochrechnungen auf umfangreichere Grundgesamtheiten nicht geeignet. Aus diesem Grund ist das wohl am häufigsten benutzte Streuungsmaß die Varianz bzw. die Standardabweichung. Diese Streuungsparameter haben in der beurteilenden Statistik große Bedeutung.

Kapitel 2: Eindimensionale Stichproben

26

Definition 2.8 (Varianz und Standardabweichung): Die (empirische) Varianz s 2 einer Stichprobe X j , . . . , x n ist erklärt durch s2

= i-S(xi-x) 11 1 i=i

2

.

(2.19)

s = + ^fs2" heißt die Standardabweichung oder Streuung. η Durch Ausquadrieren erhält man mit Σ x i 1=1

=

n

*

έ ( χ ; - χ ) 2 = έ ( χ ? - 2 χ ; χ + χ 2 ) = έ χ ? - 2 χ έ χ ; + ηχ2 i=l i=l i=l i=l A

2

-2

i=l Division durch η — 1 liefert die für die praktische Rechnung nützliche Formel

Wenn alle Stichprobenwerte in der Nähe des Mittelwertes χ liegen, ist die Varianz s 2 und damit auch die Standardabweichung s klein. Die Varianz verschwindet nur dann, wenn sämtliche η Beobachtungswerte übereinstimmen, also nur für Xj = x 2 = . . . = x n . Bemerkung: Zunächst wäre es naheliegend, bei der Varianz nicht durch η — 1, sondern durch η zu dividieren, also die mittlere quadratische Abweichung s2 = l £ ( x i - x ) 2 = 2 ^ 1 s 2 < s 2 (2.21) i=l zu benutzen. In der beurteilenden Statistik hat jedoch s 2 eine größere Anwendungsmöglichkeit als s 2 . Wegen s 2 > s 2 verwendet man einen Ausdruck, der etwas größer ist als die mittlere quadratische Abweichung. Anstelle der Abstandsquadrate vom Mittelwert χ könnte man auch Abweichungsquadrate bezüglich einer beliebigen reellen Zahl c wählen, also ώ

Eixi-c)2·

(2.22)

Für jede beliebige Zahl c erhält man E(xi-c)2 i=l

=

£ [ ( x i - x ) + (x-c)]2 i=l

=

E(Xi-x)2 + 2 E ( X i - x ) - ( x - c ) + n-(x-c)2 . i=l i=l v ν ' = 0

2.9 Streuungsmaße (Abweichungsmaße)

27

Es gilt also der Steinersche Verschiebungssatz: Σ (χ. - c) 2 = Σ (χ; - χ) 2 + η · (χ - c) 2 für jede Konstante c. 1=1 i=i

(2.23)

Für c = χ erhält man hieraus Λ·Σ(χί-50 11 1 i=l

>Λ-Σ(χί-χ) 11 1 i=l

2

2

=

82

fürx#x.

(2.24)

Die mittleren quadratischen Abweichungen sind nach dem Steinerschen Verschiebungssatz bezüglich des Mittelwerts χ minimal im Gegensatz zu den mittleren absoluten Abweichungen, bei denen das Minimum beim Median χ angenommen wird. Beispiel 2.13 (vgl. Beispiele 2.1 und 2.5): In Beispiel 2.1 erhält man die Varianz S 2 = ^ ( 1 2 · 0 2 + 17 · l 2 + 9 · 2 2 + 6 · 3 2 + 4 · 4 2 + 2 · 5 2 - 50 · 1,58 2 ) « 1,9629. Varianz einer linear transformierten Stichprobe Die Beobachtungsreihe x ^ x j , . . . ^ besitze den Mittelwert χ und die Varianz s^. Die linear transformierte Reihe yj = a + bxj für i = 1 , 2 , ..., η mit a , b e R hat dann wegen y = a + b x die Varianz 4 = ώ Σ ( y i - y ) 2 = 5=T i g ( a + b x i - a - b 5 ) 2 =

b

2

·^

1

£(xi-s)

2

= b2-V

Damit gilt allgemein s

l + b x = b 2 · S2 ;

s a + b x = I b I · SX für a, b € R.

(2.25)

Eine Parallel Verschiebung (a beliebig, b = 1) ändert also die Varianz und Standardabweichung nicht. Falls alle Stichprobenwerte mit b multipliziert werden, ändert sich die Varianz um den Faktor b 2 und die Standardabweichung um den Faktor | b |, also um den Betrag von b. Allgemein kann man zeigen, daß für s > 0 die mittlere absolute Abweichung d^ kleiner als die Standardabweichung s ist, also

0 i=l >

(2.26)

gilt. Daher ist die Standardabweichung s ein geeignetes Abweichungsmaß.

28

Kapitel 2: Eindimensionale Stichproben

2.10 Aufgaben Aufgabe 2.1: Bei 11 Personen wurde der Intelligenzquotient gemessen. Dabei ergaben sich die Werte 90; 111; 82; 115; 95; 103; 121; 74; 116; 124; 78. Berechnen Sie das arithmetische Mittel, den Median und die Standardabweichung der Stichprobe. Aufgabe 2.2: Eine kleine Pension verfügt über 10 Betten. Während eines Jahres wurde registriert, wie viele Betten täglich belegt waren. Dabei ergaben sich folgende Häufigkeiten: belegte Betten

0

1

2

3

4

5

6

7

8

9

10

Häufigkeit

0

3

9

15

31

39

49

47

54

57

61

a) Zeichnen Sie ein Stabdiagramm für die relativen Häufigkeiten. b) Skizzieren Sie die empirische Verteilungsfunktion. c) Bestimmen Sie das arithmetische Mittel und den Median. d) Berechnen Sie die Standardabweichung. Aufgabe 2.3: Von der Stichprobe Werte absolute Häufigkeiten

-1 9

0

2

h2

h3

seien die beiden absoluten Häufigkeiten h 2 und h 3 unbekannt. Man kennt jedoch das arithmetische Mittel χ = 1 und die Varianz s 2 = 1,56. Berechnen Sie hieraus h 2 und h 3 . Aufgabe 2.4: Es seien χ = ( x l t x 2 , . . . , x n ) und y = (y 1 ,y 2 i ··· iy n ) zwei Stichproben vom gleichen Umfang n. Durch ( x j + y 1 , . . . , x n - | - y n ) wird die Summe x + y zweier Stichproben vom gleichen Umfang η erklärt. a) Zeigen Sie, daß für das arithmetische Mittel allgemein gilt x + y = χ +y. b) Geben Sie ein Gegenbeispiel an, aus dem hervorgeht, daß die Additivität für die Varianzen nicht gilt.

2.10 Aufgaben

29

Aufgabe 2.5: Gegeben ist die Klasseneinteilung Klasse K1

=

Klassenhäufigkeit

(0;200]

10

K2 = ( 2 0 0 ; 4 0 0 ]

21

K 3 = (400;500]

21

K 4 = (500;600]

20

K 5 = (600;800]

19

K 6 = (800; 1000]

9

a) Zeichnen Sie ein flächenproportionales Histogramm für die relativen Klassenhäufigkeiten. b) Zeichnen Sie die klassierte Verteilungsfunktion. c) Bestimmen Sie Näherungswerte für den Mittelwert und den Median. d) Bestimmen Sie Näherungswerte für das 10 %- und das 95 %-Quantil. Aufgabe 2.6: Bei einer Klausur erreichten 50 Studierende folgende Punktzahlen: 18, 15, 12, 16, 8, 4, 9, 19, 6, 10, 20, 14, 13, 11, 16, 7, 15, 17, 10, 3, 9, 6, 12, 17, 8, 11, 14, 18, 5, 13, 11, 14, 12, 13, 7, 12, 14, 5, 13, 6, 18, 13, 16, 11, 15, 15, 12, 8, 17, 12. a) Bestimmen Sie das arithmetische Mittel, den Median und die Standardabweichung der Stichprobe. b) Für die Benotung gelte folgender Schlüssel: Punkte

0-4

Zensur

6

5-8

9-12

5

4

13-16 3

17-18 2

19-20 1

Zeichnen Sie mit dieser Klasseneinteilung ein flächenproportionales Histogramm für die relativen Häufigkeiten der Punkte. c) Berechnen Sie das arithmetische Mittel und den Median der Zensuren. Aufgabe 2.7: In einem bestimmten Land betrug die Inflationsrate (in %) während 10 Jahren der Reihe nach 3,6; 4,5; 5,2; 4,8; 4,7; 3,9; 3,2; 3,5; 3,9; 4,2. Berechnen Sie die mittlere Inflationsrate pro Jahr.

Kapitel 2: Eindimensionale Stichproben

30

Aufgabe 2.8: Ein Spekulant kaufte eine Aktie zum Kurswert von 500 DM. Nach einem Jahr stieg sie um 20 Prozent auf 600 DM, in nächsten Jahr fiel sie um 10 Prozent auf 540 DM, danach fiel sie um 15 Prozent auf 459 DM, im letzten Jahr stieg sie um 10 Prozent auf 504,9 DM. a) Berechnen Sie das arithmetische Mittel der prozentualen Steigerungen. b) Um wieviel Prozent ist die Aktie im Mittel pro Jahr gestiegen? Aufgabe 2.9: Auf je einer von vier unterschiedlich modernen Maschinen werden Werkstücke gefertigt. Die Bearbeitungszeiten (in Minuten pro Stück) sind in der nachfolgenden Tabelle zusammengestellt: Maschine

1

2

3

4

Bearbeitungszeit

15

20

30

40

Berechnen Sie durch eine geeignete Mittelwertsberechnung die durchschnittlichen Herstellungszeiten, falls a) auf jeder Maschine die gleiche Anzahl hergestellt wird; b) jede Maschine gleich lang im Einsatz ist; c) auf den Maschinen 1,2,3 und 4 der Reihe nach s x = 300, s 2 = 250, s 3 = 250 und s 4 = 200 Stück hergestellt werden. Lösen Sie die Aufgaben a) — c) für den allgemeinen Fall, wo η Maschinen die Bearbeitungszeiten tj benötigen und im Teil c) die Stückzahlen Sj herstellen für i = 1 , 2 , . . . , n. Aufgabe 2.10: Ein Autofahrer möchte die Strecke Stuttgart - München mit der konstanten Geschwindigkeit 150 km/h fahren. Die Rückfahrt möchte er konstant mit 120 k m / h fahren. Bestimmen Sie die Durchschnittsgeschwindigkeit, falls auf beiden Strecken die geplanten Geschwindigkeiten eingehalten werden. Aufgabe 2.11: Eine Stichprobe vom Umfang η = 50 besitzt den Mittelwert χ = 502,8, den Median χ = 499,2 und die Varianz s 2 = 132,5. Bestimmen Sie hieraus die mittlere quadratische Abweichung vom Median, also den Zahlenwert i=l

i-*)2·

Kapitel 3: Zweidimensionale (verbundene) Stichproben An η Merkmalsträgern werden gleichzeitig die Ausprägungen zweier verschiedener Merkmale festgestellt. Beim i-ten Merkmalsträger erhält man dabei ein Paar (x;,y;) von zwei Merkmalsausprägungen. Da beide Merkmalsausprägungen x ; und ys jeweils am gleichen Individuum festgestellt werden, gehören sie zusammen. Man nennt sie auch verbundene Werte. Die Gesamtheit aller η Paare bilden die zweidimensionale Stichprobe (Beobachtungsreihe oder Urliste) (x,y) = ( ( x l t y i ) , ( x 2 , y 2 )i---.(xn» y J ) · Die η Wertepaare können in einer Tabelle übersichtlich dargestellt werden: Beobachtungseinheit

1

Ausprägung des ersten Merkmals

2

. .. i

.. η

1 x 2 . . X; . ·· *n

X

Ausprägung des zweiten Merkmals

y2

· · · Yi

··

yn

Betrachtet man jeweils nur eines der beiden Merkmale, so erhält man die beiden eindimensionalen Stichproben x = (x1,x2,...,xn)

und

y = (y1,y2,...,yn),

die sogenannten Randstichproben, von denen die in Kapitel 2 eingeführten Größen berechnet werden können.

3.1

S t r e u u n g s d i a g r a m m e

Beispiel 3.1: Von 20 Personen wurde die Körpergröße χ (in cm) und das Körpergewicht y (in kg) festgestellt. Die auf ganze Zahlen gerundeten Meßwerte sind in der nachfolgenden Tabelle zusammengestellt. 2

3

4

5

6

7

8

9

10

Größe 170 Gewicht 74

162 61

171 68

178 81

175 73

165 62

169 71

173 73

182 83

176 78

11

12

13

14

15

16

17

18

19

20

160 59

167 69

171 72

163 65

179 76

170 75

173 71

168 72

177 75

166 71

Person

1

32

Kapitel 3: Zweidimensionale (verbundene) Stichproben

Die 20 Zahlenpaare werden als Punkte in einem kartesischen Koordinatensystem eingezeichnet. Auf der Abszissenachse wird die Körpergröße, auf der Ordinatenachse das Gewicht abgetragen. Der i-te Merkmalsträger liefert das Wertepaar ( χ ; , yj), das in Bild 3.1 als Punkt in der zweidimensionalen Zahlenebene dargestellt wird. D a m i t kann die zweidimensionale Stichprobe als Punktwolke dargestellt werden. Eine solche Darstellung heißt Streuungsdiagramm.

I

ι "---Ι

160

Bild 3.1:

1

1

170

180

»

X

Streuungsdiagramm

Die Darstellung zweier kardinaler Merkmalsausprägungen in einem Streuungsdiagramm ist nur dann sinnvoll, wenn alle Paare ( x j , y ; ) verschieden sind. Dies ist im allgemeinen bei stetigen Merkmalen der Fall, wenn nur genau genug gemessen wird. Bei der ganzzahligen Rundung werden bei sehr großem Umfang η manche Paare übereinstimmen. Dann müßte an dem entsprechenden Punkt die Häufigkeit angegeben oder eine andere graphische Darstellung verwendet werden.

3 . 2

K o n t i n g e n z t a f e l n

( H ä u f i g k e i t s t a b e l l e n )

Beide Merkmale seien diskret und sollen nur endlich viele verschiedene Ausprägungen besitzen. Die Ausprägungen des ersten Merkmals bezeichnen wir mit a j , a 2 , . . . , a m , die des zweiten mit b 1 , b 2 , . . . , b ( . Insgesamt gibt es dann m / verschiedene geordnete Paare, nämlich (aj,bk)

für

j = l,2,...,m

und

k = 1,2,

Jedes P a a r ( x ; , y ; ) der verbundenen Stichprobe muß dann mit einem dieser P a a r e übereinstimmen. Die Anzahl der Beobachtungspaare ( x j , y j ) , welche gleich (aj , b k ) sind, ist die absolute Häufigkeit von ( a j , b k ) . Wir bezeichnen sie mit hjk = hn(aj,bk)

für j = 1 , 2 , . . . , m ; k = 1 , 2 , . . . , /.

3.2 Kontingenztafeln (Häufigkeitstabellen)

33

Division durch den Stichprobenumfang η ergibt die relative Häufigkeit r

jk = r n ( a r b k ) = TT-

Für die Summen aller ml Häufigkeiten (Doppelsummen) gilt allgemein m l m l r h = n; 1

Σ Σ jk

Σ Σ jk = ·

j = l k=l

j=l k=l

Die absoluten bzw. relativen Häufigkeiten können in einem rechteckigen Schema, der sogenannten Kontingenztafel, übersichtlich dargestellt werden. Dazu trägt man in die erste Spalte die m Ausprägungen a 1 , a 2 , . . . , a m des Spaltenmerkmals und in die erste Zeile die l Ausprägungen b j , b 2 , . . . , bj des Zeilenmerkmals ein. So entstehen ml Plätze für die absoluten bzw. relativen Häufigkeiten hj k bzw. r ^ . Diese werden an derjenigen Stelle eingetragen, an der sich die Zeile von aj mit der Spalte von b k kreuzt. bj

b2

.

. bk

l

hu

h

12

·



h

a2

h21

h22

.



h

2k

a

i

h

hj2

.



h

jk

a

m

hml hm2 ·



h

a

Summe

ji

h-i

h- 2

·

.. • W

Summe K

lk •

h

2/

·



h

i/

mk ·



. h. k

.. .

Kl h.,

h2.

h



Kh.. = n

Tab. 3.1: Kontingenztafel für die absoluten Häufigkeiten bi

b2

.

l

r

ll

r

12

· . . rlk

a

2

r

21

r

22

. r2k

a

j

r

ji

P

a

m

r

ml

r

a

Summe

Γ

·ι

·

• bk

j2

· ..

rjk

m2

·

r

r. 2

. . . r. k



·

• b,

. • .

r

T

21



.

l/

r

Summe Γ

ι·

Γ



i/

r

j-



r

r



. •

Γ



mk •

m/ ·ί

r.. = 1

Tab. 3.2: Kontingenztafel für die relativen Häufigkeiten Im Falle m = 1=2 heißt die Kontingenztafel Vierfeldertafel.

34

Kapitel 3: Zweidimensionale (verbundene) Stichproben

3.3 Kovarianz und Korrelationskoeffizient Ausgangspunkt ist eine zweidimensionale Stichprobe (x,y) = ( ( x 1 , y 1 ) , ( x 2 , y 2 ) ) . . . , ( x n , y n ) ) , die auch in einer Kontingenztafel dargestellt sein kann. Falls beide Merkmale metrisch skaliert sind, besitzen die beiden eindimensionalen Randstichproben χ = (xj.xj,...,^) die Mittelwerte x= 1 n x —

und

y=

(yj,y 2

yj

n

ηi=l Σ i i —y =1i=ln Ey;

und die Varianzen

4=

=

Definition 3.1 (Kovarianz und Korrelationskoeffizient): Beide Merkmale seien kardinal skaliert. Dann heißt e

*y = H=T Σ

-y)

(3-1)

die (empirische) Kovarianz. Für s x > 0 und s y > 0 ist η . Σ (xi-x)(y;-y) 8χ r r = xy = S -S = Ι / η ' „N. / η

„N.

(3'2)

der (empirische) Korrelationskoeffizient der Stichprobe. Die Kovarianz ist vom Maßstab abhängig, nicht jedoch der Korrelationskoeffizient. Es gilt folgende Umformung 1 s

xy =

η _ _ 1 n _ _ Σ ( * i - * ) - ( y i - y ) = 5 z i Σ ( * i y i - * i y - * y i + *y) i=l

i=l

^ x j y j - n x y - n x y + nxy η—1 i=l Damit erhält man die Darstellung η Σ *iyi - n x y ΐ=1 η η 2 Σ xf - η χ · Σ y,?-ny2 > i=l > i=l

Σ Xjyi-nxy η—1 i=l

35

3.3 Kovarianz und Korrelationskoeffizient

Satz 3.1 (Eigenschaften des Korrelationskoeffizienten): Für den Korrelationskoeffizienten r einer zweidimensionalen Stichprobe gelten allgemein folgende Eigenschaften: a)

|r| < 1, d.h. - 1 < r < 1.

b)

| r | = 1 ist genau dann erfüllt, wenn alle Punkte der Stichprobe auf der Regressionsgeraden y -y = -τ-·(χ-χ) s

x

(vgl. Abschnitt 3.5.1) liegen, also nur für yj = y + - y L - ( x i - x ) s

für i = 1 , 2 , . . . , n .

x

Im Falle r = + 1 ist die Steigung dieser Geraden positiv, für r = — 1 ist sie negativ. Beweis: o
0 folgt hieraus 1 - r 2 > 0, r 2 < 1, also | r | < 1. Nur für r 2 = 1 verschwindet die Quadratsumme. Dies ist jedoch nur dann möglich, wenn sämtliche Summanden gleich Null sind, also für (y. — y) = " T : - ( x i - x ) s

für

i = 1,2,...,n.

x

Für | r | = 1 liegen damit alle η Punkte auf der sogenannten Regressionsgeraden (vgl. Abschnitt 3.5.1) y - y = ~2~' (x — x)·

(3.5)

Im Falle r = + 1 ist die Kovarianz s xy v „ und damit auch die Steigung positiv, für r = — 1 negativ. Damit sind die Behauptungen bewiesen.

36

Kapitel 3: Zweidimensionale (verbundene) Stichproben

In (3.4) steht die Summe der vertikalen Abstandsquadrate der η Beobachtungswerte (x;, yj), i = 1 , 2 , , η von der Regressionsgeraden (3.5). J e näher | r | bei 1 ist, umso kleiner wird diese quadratische Abweichungssumme. Aus diesem Grund ist der Korrelationskoeffizient r ein Maß für den linearen Zusammenhang der Ausprägungen zweier Merkmale. J e größer | r | ist, umso mehr sind die Beobachtunspaare in der Nähe einer Geraden konzentriert. Nur für | r | = 1 liegen alle η Wertepaare auf einer Geraden. Aus einem solchen Zusammenhang kann jedoch keineswegs geschlossen werden, daß eines der beiden Merkmale vom anderen abhängt. Die Ursache für einen solchen Zusammenhang könnte nämlich ein drittes Merkmal sein, von dem beide abhängig sind. Dann spricht man von einer Scheinkorrelation. Für r > 0 nennt man die Beobachtungspaare positiv korreliert. Die Punktwolke verläuft dann von links nach rechts mit steigender Tendenz. Für r < 0 sind die Beobachtungspaare negativ korreliert. Die Punktwolke hat dann von links nach rechts fallende Tendenz. Im Falle r = 0, also für s x y = 0 nennt man die Beobachtungspaare unkorreliert. Dann ist in der Punktwolke keine einheitliche Tendenz erkennbar. Liegt r in der Nähe von 0, so heißen die Beobachtungspaare schwach korreliert. Beispiel 3.2 (vgl. Beispiel 3.1): Für die Stichprobe der Körpergrößen x ; und Gewichte y ; erhält man durch elementare Rechnung: 20

£ χ ; = 3415; i=l

20

£ x ? = 583787; i=l

20

I>i = i=l

142

9;

20

Σ > ? = 102841; i=l

20

ζ

Xj yj = 244 639.

Hieraus folgt x = M p

=

170,75 ;

s

2 =

(583 787 - 20 · 170,75 2 ) « 35,5658;

s x « 5,964; y = 1 ^

= 71,45 ;

s y « 6,236; Kovarianz:

s2 =

(102 841 — 20 · 71,45^) ss 38,8921;

s x y = J L (244 639 - 20 · 170,75 · 71,45) » 33,5395;

Korrelationskoeffizient: r « - „ p i ^ ^ L . « 0,902. 5,9b4 · b,23o Körpergröße und Körpergewicht sind stark positiv korreliert. Hier gilt das Motto: " j e größer, umso schwerer". Dies ist nur als Tendenz richtig. Ausnahmen sind bereits in den Stichprobenwerten erkennbar.

3.4 Rangkorrelationskoeffizient von Spearman

37

In Bild 3.2 sind einige Punktwolken mit den dazugehörigen Korrelationskoeffizienten abgebildet.

r= 1

r = —0,00871

r = 0,9854



·

r = 0,625

r = —1

r =-0,979

Bild 3.2: Streuungsdiagramme mit verschiedenen Korrelationskoeffizienten

3.4 Rangkorrelationskoeffizient von Spearman Beispiel 3.3: Zwei Weinexperten X und Y mußten 8 Weinsorten bezüglich der Qualität in eine eindeutig bestimmte Reihenfolge bringen. Dabei ergaben sich die Plätze Sorte i

1

2

3

4

5

6

7

8

Reihenfolge von X

2

5

6

1

8

3

4

7

Reihenfolge von Y

1

5

7

3

8

2

4

6

Kapitel 3: Zweidimensionale (verbundene) Stichproben

38

V o n den Prüfern konnten die Ergebnisse nicht metrisch gemessen werden. Es handelt sich daher nur um ein ordinales Merkmal mit einer "Besser als" - Beziehung. V o n diesen Rangzahlen kann der Korrelationskoeffizient r nach

Abschnitt

3.3

bestimmt

werden.

Wären

die

beiden

Prüfer

zur

gleichen Reihenfolge gelangt, so wäre der Korrelationskoeffizient r = 1, bei völlig entgegengesetzter Reihenfolge wäre r =

— 1.

A u s den Paaren der Reihenfolgen erhält man Σ χ ^ i=l

= 200;

Σ > ι = Σ > ; = 36; i=l i=l

£ x ? = J y ? = 204 i=l i=l

und den Korrelationskoeffizienten der Rangzahlen Γ =

200 204-8.(|)

.

8-(|)2 ,-Λ

= I I »

0,9048.

204-8.(|J

D a der Rangkoeffizient relativ groß ist, haben beide Prüfer ähnliche T e n denzen in ihrer Bewertung. Bei Merkmalen, die nur nach einer ordinalen und nicht nach einer metrischen Skala geordnet werden kann, ist die Berechnung des Korrelationskoeffizienten nach Abschnitt 3.3 nicht möglich, falls die Merkmalsausprägungen keine Zahlenwerte sind. Sind die Ausprägungen eines nur ordinalen Merkmals zahlenmäßig verschlüsselt, so könnte man den Korrelationskoeffizienten r zwar f o r m a l berechnen. Da die Differenzen x ; — χ und y ; — y jedoch nicht meßbar sind, wäre der Korrelationskoeffizient r genauso wie die Mittelwerte eine willkürliche Größe. Aus diesem Grund sollte bei nur ordinal skalierten Merkmalen der Korrelationskoeffizient r aus Abschnitt 3.3 nicht verwendet werden. Bei vielen Sportarten können die Ergebnisse nicht metrisch gemessen werden, ζ . B. beim Eiskunstlauf oder bei einem Tanzturnier. Die Punktrichter sind jedoch gezwungen, eine Reihenfolge ( R a n g f o l g e ) festzulegen. Verschiedene Punktrichter kommen o f t zu unterschiedlichen Rangordnungen. T r o t z dem möchte man die Ergebnsisse von verschiedenen Wertungsrichtern miteinander vergleichen und ein M a ß der Übereinstimmung angeben. Eine ähnliche Situation liegt bei der Verkostung von Lebensmitteln vor, ζ . B. bei der Festlegung der Güteklasse einer Weinsorte in Beispiel 3.3.

3.4.1

Rangzahlen

Die eindimensionale Beobachtungsreihe

(zvz2,...,zn)

bestehe aus Ausprä-

gungen eines ordinal skalierten Merkmals, so daß zwischen ihnen eine natürliche

Rangordnung

(Reihenfolge) besteht. Bezüglich dieser

Rangord-

nung werden die W e r t e wie bei der Bestimmung des Medians der Größe nach wie f o l g t aufsteigend geordnet

3.4 Rangkorrelationskoeffizient von Spearman

39

Ζ(1) 0

könnte man beide Seiten formal logarithmieren. In lny = lnc + b - l n x erhält man mit den transformierten Variablen w = lny und z = lnx das linearisierte Regressionsmodell w = lnc + bz = a + bz

mit a = lnc.

Mit den logarithmierten Stichprobenwerten zi = In Xj und w; = In yj können die Parameter lnc und b mit Hilfe der Formeln für die lineare Regression geschätzt werden. Diese Linearisierung wird in der Praxis zwar sehr oft durchgeführt, doch leider viel zu oft falsch interpretiert. Bei der Rücktransformation entsteht nämlich ein wesentliches Problem. Den logarithmierten Werten wird nach dem Prinzip der kleinsten vertikalen Abstandsquadrate eine Gerade optimal angepaßt. Der so erhaltene Parameter a = In c könnte zwar prinzipiell zurücktransformiert werden durch c = e a . Die so entstandene Potenzfunktion y = ea · x b besitzt nicht mehr die Eigenschaft, daß die Summe der vertikalen Abstandsquadrate der Punkte P ( x ; , y ; ) von dieser Kurve minimal ist. Diese Eigenschaft geht bei der Transformation durch Logarithmieren verloren. Man könnte die rücktransformierte Funktion höchstens als Näherung für die gesuchte Regressionsfunktion verwenden. In der nachfolgenden Tabelle sind einige Funktionstypen und deren Linearisierungen angegeben.

3.6 Aufgaben

49

Funktionstyp

linearisiertes Modell ·

y = α + β x k , k bekannt y =

'

y = α + β ζ mit ζ = χ

1

w = α -f β χ mit w = y

a + ßx

y = α+ bζ

y = a + β · In χ y = αχβ β y = yy

lc

mit ζ = In χ

w = a + β ·ζ w = lny; a = In α ; ζ = In χ

aex 1

In y = In α -f β · ζ mit ζ = ^

α· ß

x

w = In α + χ · In β mit w = In y

Tab. 3.3: Linearisierte Modelle mit den unbekannten Parametern α und β

3.6 Aufgaben Aufgabe 3.1: Bei 100 Schülern der gleichen Altersgruppe wurden die Körpergröße x ; und die Schuhgröße y ; [jeweils in cm] gemessen. Dabei erhielt man die Summen 100

100

100

100

Σ X; = 14 152; 1=1 Σ Yi = 4 2 1 0 ; i=l



£ x? = 2 120 780; i=l

i=l

y? = 190241;

100

X)x..y.=630991. i=l

Bestimmen Sie den Korrelationskoeffizienten r. Aufgabe 3.2: An 10 Börsentagen lauteten die Kassakurse Xj bzw. yj der Aktien zweier Automobilfirmen i

420

429

445

418

431

459

451

465

449

473

yi

495

506

516

475

493

531

537

554

547

565

x

a) Zeichnen Sie das Streuungsdiagramm. b) Bestimmen Sie den Korrelationskoeffizienten. c) Bestimmen Sie die Gleichung der Regressionsgeraden y = a + b χ . Aufgabe 3.3: Die Studierenden, die sowohl an der ersten Klausur zur Statistik und zur Mathematik teilnahmen, erhielten die in der nachfolgenden Kontingenztafel aufgeführten Punkte:

Kapitel 3: Zweidimensionale (verbundene) Stichproben

50

Math.

1

Statistik 2 3

1 2 3 4 5

15 11 0 0 0

12 23 20 5 0

6 15 45 21 12

4

5

0 4 27 58 26

0 0 2 21 67

Berechnen Sie den Korrelationskoeffizienten. Aufgabe 3.4: Drei Bierexperten Α, Β und C mußten 6 Biersorten bezüglich des Geschmacks mit einer Note von 1 (sehr gut) bis 6 (sehr schlecht) bewerten. Sorte i

1

2

3

4

5

6

Note von A Note von Β Note von C

2 5 2

1 4 3

3 3 3

4 2 1

6 1 2

5 6 2

Bestimmen Sie den Spearmanschen Rangkorrelationskoeffizienten zwischen den Experteneinschätzungen von Α und Β bzw. von Β und C. Aufgabe 3.5: Ein bestimmtes Serum wurde in 5 verschiedenen Konzentrationen auf seine Lichtdurchlässigkeit untersucht. Die Messungen ergaben folgende Werte: i

1

2

3

4

5

Xj (in Units/Milliliter) 30,125

60,25

125

250

500

y ; (in Extinktion)

0,848

1,178

1,635

1,914

0,536

Passen Sie den Daten eine Kurve y = α + β lnx nach der Methode der kleinsten Abstandsquadrate an. Aufgabe 3.6: Zur Untersuchung der Lagerfähigkeit eines vakuumverpackten Lebensmittels wurden jeweils nach χ Wochen an einer Probe eine Geschmackskennziffer y (Durchschnittswert mehrerer Probanden) festgestellt x

i

1

2

3

4

5

2,0

1,9

2,3

2,4

3,3

Passen Sie den Werten nach der Methode der kleinsten Quadrate eine Funktion an a) vom Typ y = a + b · ^ χ ; b) vom Typ y = ax b (über die logarithmierten y-Werte).

Teil II: Wahrscheinlichkeit srechnung In diesem zweiten Teil werden die wichtigsten Grundlagen der Wahrscheinlichkeitsrechnung zusammengestellt, ohne die keine sinnvollen statistischen Auswertungen möglich sind. Die in diesem Teil behandelten Methoden der Wahrscheinlichkeitsrechnung werden in der beurteilenden Statistik (Teil III) angewandt, um statistisch abgesicherte Ergebnisse zu erhalten. Mit Hilfe des WahrscheinlichkeitsbegrifEs können allgemein Aussagen über die Chance des Eintretens bestimmter zufalliger Ereignisse gemacht werden. Je größer die Wahrscheinlichkeit eines Ereignisses ist, umso öfter wird es auf Dauer eintreten. Bei vielen Zufallsexperimenten ist man gar nicht am genauen Ergebnis interessiert, sondern nur an Zahlenwerten, die durch den Ausgang des Zufallsexperimentes bestimmt sind. Beispiele dafür sind Gewinne bei Glücksspielen, Gewichte oder Längen von zufällig ausgewählten Gegenständen oder die Füllmengen der von einer Maschine abgefüllten Flaschen. Dadurch erhält man eine Zufallsvariable. Bei der Einführung und Behandlung von Zufallsvariablen werden die meisten Begriffe aus der beschreibenden Statistik benutzt. Sowohl bei Zufallsvariablen als auch bei Stichproben werden die Begriffe Verteilungsfunktion, Median, Quantile, Varianz, Standardabweichung, Kovarianz und Korrelationskoeffizient eingeführt. Der Erwartungswert einer Zufallsvariablen ist das Analogon zum Mittelwert einer Stichprobe. Der Zusammenhang dieser sowohl in der beschreibenden Statistik als auch in der Wahrscheinlichkeitsrechnung benutzten Begriffe wird in der beurteilenden Statistik (Teil III) deutlich. Die Gesetze der großen Zahlen und Grenzwertsätze liefern schließlich das "Bindeglied" zwischen der beschreibenden und beurteilenden Statistik und der Wahrscheinlichkeitsrechnung.

Kapitel 4: Wahrscheinlichkeiten 4.1 Zufallsexperimente und zufallige Ereignisse Bei vielen Experimenten ist man wegen des zufalligen Charakters oder der Komplexität des Experiments nicht in der Lage, vor Versuchsdurchführung mit Bestimmtheit vorherzusagen, welches der möglichen Ergebnisse eintreten wird. Solche Experimente nennt man Zufallsexperimente und sagt auch "das Ergebnis des Experiments hängt vom Zufall ab". Die möglichen Ergebnisse eines Zufallsexperiments bezeichnen wir mit kleinen Buchstaben, ζ. B. mit a , b , c oder ω. Die Menge aller möglichen Ergebnisse ist die Ergebnismenge. Sie wird üblicherweise mit Ω bezeichnet. Ein (zufälliges) Ereignis ist eine Zusammenfassung von bestimmten Versuchsergebnissen, also eine Teilmenge der Ergebnismenge Ω. Der Zusatz zufallig wird dabei meistens weggelassen. Ereignisse bezeichnen wir mit grossen Buchstaben, z.B. mit Α, Β , C , . . . , A 1 , A 2 , . . . . Ein Ereignis Α = {ω}, das nur ein einziges Element enthält, heißt Elementarereignis. Jedes Elementarereignis ist also eine einelementige Menge. Man sagt: Bei der Versuchsdurchführung tritt das Ereignis Α ein (oder ist das Ereignis Α eingetreten), wenn das Ergebnis ω des Zufallsexperiments ein Element von Α ist, also für ω e A. Im Falle ω £ Α ist das Ereignis A nicht eingetreten. Das Ereignis Ω enthält alle möglichen Versuchsergebnisse. Da Ω bei jeder Versuchsdurchführung eintritt, nennt man Ω das sichere Ereignis. Die leere Menge 0 enthält kein Versuchsergebnis und kann daher nie eintreten. Aus diesem Grund ist 0 das unmögliche Ereignis. Beispiel 4.1: a) Beim Werfen einer Münze gibt es die beiden Versuchsergebnisse "Wappen liegt oben" und "Kopf liegt oben". Wir bezeichnen sie mit W und K. Damit gilt Ω = {W, K}. b) Beim Roulette wird eine der Zahlen 0 , 1 , 2 , . . . , 3 6 ausgespielt mit der Ergebnismenge Ω = { 0 , 1 , . . . , 36}. c) Gemessen wird der Methanolgehalt von Obstbranntweinen. Als Einheit wählt man ζ. Β. 1 mg pro 100 ml Alkohol. Da es sich um ein stetiges kardinales Merkmal handelt, können als Werte alle Zahlen aus einem bestimmten Bereich auftreten. Das Intervall Ω muß so gewählt werden, daß garantiert jeder Meßwert darin enthalten ist, ζ. Β. Ω = [0; 2 000].

54

Kapitel 4:

Das Ereignis A f ~ l B = A B

Wahrscheinlichkeiten

( " A und B " , der Durchschnitt von Α und B )

tritt genau dann ein, wenn sowohl Α als auch B, also beide gleichzeitig eintreten. Es gilt Α Π Β = {α>| ω 6 Α und ω e Β } . Das Ereignis A U Β

( " Α oder Β " , die Vereinigung von Α und Β ) tritt ein,

wenn mindestens eines der beiden Ereignisse Α und Β eintritt. Es ist A U B = { w | u e A oder ω e B } . Bei der hier benutzten "oder"-Beziehung handelt es sich nicht um ein ausschließendes

"oder".

Man

läßt

auch zu, daß ω

gleichzeitig

zu

beiden

Mengen Α und Β gehört. Das Ereignis Α ( " Α nicht", das Komplement bzw. das Komplementärereignis v o n A ) tritt genau dann ein, wenn Α nicht eintritt. Dabei gilt Α = { ω I ω € Ω und ω (. Α } . Das Ereignis Α \ Β = Α Π Β ( " Α , aber Β nicht", die Differenz von Α und Β ) tritt ein, wenn A , aber nicht Β eintritt mit A \ B = Α D B = { ω e Α und ω ( Β ) . Zwei Ereignisse Α und Β heißen unvereinbar (disjunkt oder elementfremd), wenn sie beide nicht gleichzeitig eintreten können. Dann muß Α Π Β = 0 sein. η Das Ereignis p| A ; = A 1 (Ί A 2 ( Ί . . . Π A n (Durchschnitt von η Ereignissen) i=l tritt genau dann ein, wenn alle η Ereignisse gleichzeitig eintreten. Es ist η Π Α ; = { ω I ω 6 Α ; für alle i = 1 , 2 , . . . , η } . i=l η Das Ereignis |J A ; = A j U A 2 U . . . U A n (Vereinigimg von η Ereignissen) i=l tritt ein, wenn von den Ereignissen A 1 , A 2 , . . . , A n mindestens eines eintritt. Es gilt also π (J A j = { ω | ω € Α ; für mindestens ein i } . i=l Entsprechend wird der Durchschnitt und die Vereinigung von abzählbar unendlich vielen Ereignissen definiert durch oo

Π A j = Α χ η A 2 Π . . . (alle A j treten i=l

ein);

oo

υ A j = A j U A 2 U . . . (mindestens ein A j tritt ein). i=l I m Falle A C B

tritt mit dem Ereignis Α auch das Ereignis Β ein. In der

Sprache der Ereignisse sagt man "das Ereignis Α zieht das Ereignis Β nach sich". A C Β ist genau dann erfüllt, wenn Α Π Β = Α und A U Β = Β ist.

4.2 Häufigkeiten von Ereignissen

55

4.2 Häufigkeiten von Ereignissen Ein Zufallsexperiment werde n-mal durchgeführt. Bei jedem Einzelversuch soll festgestellt werden, ob das Ereignis Α oder dessen Komplement Α eintritt. Nach Abschnitt 2.1 ist die absolute Häufigkeit h n (A) des Ereignisses Α die Anzahl derjenigen Versuche, bei denen Α eintritt. Die relative Häufigkeit r n (A) = stellt den relativen Anteil der Versuche dar, bei denen Α eintritt. Dabei ist 100 -r n (A) der prozentuale Anteil dieser Versuche in der Gesamtserie. Für die relativen Häufigkeiten gilt offensichtlich der Satz 4.1 (Eigenschaften der relativen Häufigkeit): Für die relative Häufigkeit r n gilt allgemein 0 < r n (A) < 1 für jedes Ereignis Α (Nichtnegativität);

(4.1)

Γη(Ω) = 1 (Normierung);

(4.2)

r n (A U B) = r n (A) + r n (B), falls Α Π Β = 0

(4.3)

(Additivität bei unvereinbaren (disjunkten) Ereignissen); /

OO

χ

^

r n 1 U Aj) = 2 , r n (Aj) für paarweise unvereinbare Ereignisse i=1 i=i mit Α; Π A k = 0 für i ^ k.

(4.4)

Aus diesen Eigenschaften können unmittelbar weitere abgeleitet werden, z.B. r n (0) = O; r n (A U B) = r n (A) + r n (B) - r n (A Π Β)

für beliebige Ereignisse Α, Β;

rn(Ä) = l - r n ( A ) ; aus A C Β folgt r n (A) < r n ( B ) .

Stabilisierung der relativen Häufigkeiten Falls das gleiche Zufallsexperiment sehr oft unabhängig und unter denselben Bedingungen durchgeführt wird, stellt man in den meisten Versuchsserien einen gewissen Stabilisierungseflekt fest. Die relativen Häufigkeiten r n (A) schwanken für große η in der Regel sehr wenig um einen festen Zahlenwert. Diesen Sachverhalt nennt man Gesetz der großen Zahlen. Allerdings wird es immer wieder Ausnahmeserien geben, auch wenn der Versuchsumfang η noch so groß gewählt wird. Solche Ausnahmeserien sind zwar immer möglich, sie treten jedoch im allgemeinen mit wachsendem η seltener auf. Ganz ausschließen kann man sie jedoch nicht. Dieses Gesetz wird in Abschnitt 7.2 näher präzisiert.

Kapitel 4: Wahrscheinlichkeiten

56

4.3 Definition einer Wahrscheinlichkeit Bereits im 18. Jahrhundert benutzten vor allem französische Mathematiker bei der Untersuchung der Chancen bei Glücksspielen einen Wahrscheinlichkeitsbegriff. Es handelt sich um die sogenannte klassische (Laplace-) Wahrscheinlichkeit. Dabei wird die Wahrscheinlichkeit eines Ereignisses Α nach folgender Formel berechnet: "Anzahl der für Α günstigen Fälle dividiert durch die Anzahl der insgesamt möglichen Fälle". Ebenfalls wurden schon seit langer Zeit Wahrscheinlichkeiten mit Hilfe der Längen- und Flächenberechnung bestimmt. Dabei handelt es sich um sogenannte geometrische Wahrscheinlichkeiten. Bei stetigen Merkmalen hat schon der deutsche Mathematiker Carl Friedrich Gauß (1777-1855) bei der Fehler- und Ausgleichsrechnung Wahrscheinlichkeiten berechnet. Die von ihm benutzte Methode ist bekannt unter dem Namen Gaußsche Glockenkurve. Ein Porträt von C. F. Gauß sowie den Verlauf der Glockenkurve findet man auf den 10-DM-Banknoten. Es gibt also schon seit einiger Zeit verschiedene Begriffe der Wahrscheinlichkeit. Dennoch konnte man mit ihrer Hilfe sehr viele Probleme nicht lösen wie ζ. B. die Berechnung von Wahrscheinlichkeiten beim Werfen eines verfälschten Würfels oder der Wahrscheinlichkeit, daß ein zufällig aus der Produktion ausgewähltes Werkstück fehlerhaft ist. Aus diesem Grund wurde immer wieder versucht, den Wahrscheinlichkeitsbegriff zu erweitern. Zuerst hat Richard von Mises (1883 — 1953) im Jahre 1931 auf Grund des bekannten Stabilisierungseffekts versucht, die Wahrscheinlichkeit P(A) eines Ereignisses Α als Grenzwert der relativen Häufigkeiten zu definieren durch P(A) = lim r n (A). n—>oo

Dieser Ansatz war jedoch aus folgenden Gründen zum Scheitern verurteilt: a) Der Grenzwert existiert im mathematischen Sinne gar nicht. b) Auch wenn dieser Grenzwert existieren würde, könnte man ihn mit Hilfe einer Beobachtungsreihe nicht bestimmen. Denn irgendwann muß jede Versuchsserie abgebrochen werden, ohne daß man sicher sein kann, daß die relativen Häufigkeiten nahe genug bei dem unbekannten Grenzwert liegen. Aus verschiedenen Serien würde man dann im allgemeinen auch verschiedene "Wahrscheinlichkeiten" für das gleiche Ereignis Α erhalten. Zur Entwicklung einer mathematisch fundierten Theorie benötigt man jedoch eine objektive, eindeutig bestimmte Wahrscheinlichkeit. Im Jahre 1933 ist es dem russischen Mathematiker Andrej Nikolajewitsch Kolmogorow (1909 — 1987) erstmals gelungen, den Wahrscheinlichkeitsbegriff mathematisch widerspruchsfrei zu verallgemeinern. Dabei verlangt

4.3 Definition einer Wahrscheinlichkeit

57

man von einer solchen Verallgemeinerung, daß ihre Einschränkung auf bereits bekannte Modelle den dort benutzten Wahrscheinlichkeitsbegriff ergibt. Kolmogorow hat die Wahrscheinlichkeit axiomatisch eingeführt. Ahnlich wie in der Geometrie verlangt er von einer allgemeinen Wahrscheinlichkeit, daß sie gewisse Eigenschaften (Axiome) erfüllt. Zwar kann mit Hilfe dieser Axiome der genaue Wert einer Wahrscheinlichkeit nicht ohne weiteres berechnet werden, doch ist es möglich, mit ihrer Hilfe eine Theorie zu entwickeln, mit der dann unbekannte Wahrscheinlichkeiten beliebig genau geschätzt werden können. Dies geschieht in der beurteilenden Statistik im Teil III. Es ist naheliegend, als Axiome Eigenschaften zu benutzen, welche die relativen Häufigkeiten sowie die klassische und die geometrische Wahrscheinlichkeit erfüllen.

4.3.1 Axiome einer Wahrscheinlichkeit Definition 4.1 (Axiome einer Wahrscheinlichkeit): Eine auf einem System von Ereignissen aus Ω definierte reelle Funktion Ρ (P = Probabilite) heißt eine Wahrscheinlichkeit, wenn sie folgende Axiome erfüllt: (Kl)

0 < P ( A ) < 1 für jedes Ereignis Α

(Nichtnegativität);

(K2)

Ρ(Ω) = 1

(Normierung);

(K3)

P ( U A i ) = Σ Ρ(Α;) i=l i=l

oo

oo

(σ-Additivität)

für paarweise unvereinbare Ereignisse mit Α; Π A k = 0 für i / k . Setzt man in (K3) Aj = 0 für alle i > η + 1, so folgt hieraus unmittelbar die endliche Additivität η η ( K 3 ' ) P( ( J Aj) = Σ Ρ(Α;) i=l i=l

für paarweise unvereinbare Ereignisse.

Satz 4.2 (Folgerungen aus den Axiomen): Aus den drei Axiomen ( K l ) , (K2) und (K3) bzw. ( K 3 ' ) erhält man die folgenden Eigenschaften: a) P(0) = 0 ; b) P ( Ä ) = 1 - P ( A ) ; c) aus A C Β folgt P(A) < P ( B )

(Monotonie);

d) P(A U B) = P ( A ) + P ( B ) - P(A Π Β) für beliebige Ereignisse; e) P ( A \ B ) = P(A) - P(A Π Β) für beliebige Ereignisse; f) P ( A \ B ) = P(A) - P ( B ) , falls

BCA.

Kapitel 4: Wahrscheinlichkeiten

58

Beweis: a ) 0 = 0 U 0 , 0 n 0 = 0 ergibt aus (K3'): P(0) = P(0) + P(0), also P(0) = 0. b) Aus A U Α = Ω; A n Ä = 0 folgt nach (K2) und ( K 3 ' ) 1 = P(A) + P(Ä), also P(Ä) = 1 - P(A). c) Wegen A C Β ist AB = A. Mit Ω = A U Α erhält man hiermit B = B n f i = B n ( A U Ä ) = B A ü B Ä = A U B Ä ; A n ( B Ä ) = 0. Aus der Additivität von Ρ ergibt sich P(B) = P(A) + P ( B Ä ) . Wegen P ( B Ä ) > 0 folgt hieraus P(B) > P(A). d) Für zwei beliebige Ereignisse Α und Β gilt A U Β = A U (Α Π Β). Dabei sind Α und Α Π Β unvereinbar. Daher gilt nach ( K 3 ' ) P(A U Β) = P(A) + P ( I Π Β ) .

(4.5)

Β = (Α Π Β) U (Ä Π Β) ergibt Ρ(Β) = Ρ(Α Π Β) + Ρ ( Ι η Β), Ρ(Α Π Β) = Ρ(Β) — Ρ(Α Π Β ) .

(4.6)

(4.6) in (4.5) eingesetzt liefert die Behauptung P(A U B) = P(A) + P(B) - P(A Π Β ) . e) A\B = Α Π Β

ergibt

P(A\B) = P(A Π B) = P(A) - P(A η Β ) . f) Wegen Β C A =>· AB = Β folgt die Behauptung unmittelbar aus e).

Wahrscheinlichkeiten bei endlichen Ergebnismengen Falls die Ergebnismenge Ω = { ω 1 , ω 2 , . . . , o ; m } nur aus m verschiedenen Versuchsergebnissen besteht, genügt die Angabe der Wahrscheinlichkeiten der m Elementarereignisse durch pj = Ρ({ω ; }) > 0 für i = 1 , 2 , . . . , m, welche die Bedingung m

Σ Pi = i

i=l

erfüllen. Die Wahrscheinlichkeit für ein beliebiges Ereignis Α lautet dann P(A)=

Σ

Pi·

4.3 Definition einer Wahrscheinlichkeit

59

Wahrscheinlichkeiten bei abzählbar unendlichen Ergebnismengen Falls die Ergebnismenge Ω = { ω ν ω 2 , . . . } abzählbar unendlich viele Versuchsergebnisse besitzt, müssen die Wahrscheinlichkeiten pj = Ρ({ω ; }) > 0 für i = 1 , 2 , . . . die Bedingung oo Σ Pi = i i=l erfüllen. Die Wahrscheinlichkeit für ein Ereignis Α lautet P(A)=

Σ

Pi€A

Interpretation einer Wahrscheinlichkeit Das Ereignis Α besitze bei einem Einzelexperiment die Wahrscheinlichkeit ρ = P(A). Das Zufallsexperiment werde n-mal unabhängig unter den gleichen Bedingungen durchgeführt. Dann liegt wegen des Stabilisierungseffekts bei großen Stichprobenumfängen η die relative Häufigkeit des Ereignisses Α meistens in der Nähe von p . Für große η gilt also im allgemeinen die Näherung r n (A) « P(A). Diese Eigenschaft wird bei den Gesetzen der großen Zahlen in Abschnitt 7.2 näher präzisiert und auch bewiesen. Aus diesem Grund kann eine unbekannte Wahrscheinlichkeit ρ durch die relative Häufigkeit in einer genügend langen unabhängigen Versuchsserie geschätzt werden. Aussagen über solche Schätzungen werden in der beurteilenden Statistik gemacht.

4.3.2 Der klassische Wahrscheinlichkeitsbegriff Der klassische Wahrscheinlichkeitsbegriff wurde bereits von dem französischen Mathematiker Pierre Simon Laplace (1749-1827) bei der Beurteilung der Chancen bei Glücksspielen benutzt. Zur Anwendung dieses Wahrscheinlichkeitsbegriffs benötigt man folgende Voraussetzungen: (LI) Bei dem Zufallsexperiment gibt es nur endlich viele verschiedene Versuchsergebnisse, d.h. die Ergebnismenge Ω ist endlich. (L2) Keines der Versuchsergebnisse darf bevorzugt auftreten, d. h. alle Elementarereignisse sind gleich wahrscheinlich. Die erste Bedingung ist bei vielen Zufallsexperimenten erfüllt. Die zweite Bedingung der Chancengleichheit sämtlicher Versuchsergebnisse ist oft rein äußerlich nicht ohne weiteres erkennbar. Doch kann man bei vielen Experimenten auf Grund der Konstruktion des Zufallsgeräts und der Versuchsdurchführung von einer solchen Chancengleichheit ausgehen. Ob die Bedingung (L2) tatsächlich erfüllt ist, müßte im Einzelfall mit Hilfe statistischer Methoden nachgeprüft werden. So ist z.B. statistisch nachgewiesen, daß bei neugeborenen Kindern das Geschlecht männlich leicht überwiegt. Die Wahrscheinlichkeit für eine Knabengeburt ist etwas größer als ^.

60

Kapitel 4: Wahrscheinlichkeiten

Ein Zufallsexperiment, bei dem die beiden Voraussetzungen (LI) und (L2) erfüllt sind, nennt m a n ein Laplace-Experiment. Der bei diesem Modell benutzte Wahrscheinlichkeitsbegriff heißt klassische oder Laplace-Wahrscheinlichkeit. Die endliche Ergebnismenge Ω = { w j , ω 2 , . . . , w m } besitze m Versuchsergebnisse. Dann hat jedes der m Elementarereignisse wegen (L2) die gleiche Wahrscheinlichkeit p. Wegen der Additivität und der Normierung auf Eins folgt dann aus (LI) und (L2) mit ( K l ) und (K3')

also

m m Ω = U {"i) ; l = P ( i l ) = E P ( W ) = m - p , i=l i=l P = P ( W ) = f f i für i = 1 , 2 , . . . , m.

Falls ein Ereignis Α aus r Versuchsergebnissen besteht, erhält man durch Summenbildung die Formel _ —

J _ r _ |Α | _ Anzahl der für Α günstigen Fälle m — m — | Q | — Anzahl der insgesamt möglichen Fälle

Beispiel 4.2 (Roulette): Beim Roulette wird eine der 37 Zahlen 0 , 1 , 2 , . . . , 3 5 , 3 6 ausgespielt, es ist also | Ω | = 37. Die Chancengleichheit aller 37 Zahlen dürfte dann gegeben sein, wenn der Roulette-Teller homogen ist und alle 37 Kreissektoren gleich groß sind. Ferner muß gewährleistet sein, daß a m Roulette-Teller keine Manipulationen vorgenommen wurden und daß der Croupier die Kugel "korrekt" rollen läßt. Dann erhält man folgende Laplace-Wahrscheinlichkeiten: P(ungerade Zahl) = P(rot) = P(schwarz) =

.

Bei einfachen Chancen (Ereignisse, die aus 18 Zahlen bestehen) ist daher die Gewinn Wahrscheinlichkeit kleiner als ^ . P ( l . Dutzend) = P ( { 1 , 2 , . . . ,11,12}) = ± | ; P(Querreihe 31,32,33) =

4.4 Kombinatorik Bei der nach (4.7) zu bestimmenden klassischen Wahrscheinlichkeit ist die Anzahl der günstigen und der möglichen Fälle zu berechnen. Dabei muß allerdings gewährleistet sein, daß es nur endlich viele verschiedene Versuchsergebnisse gibt und daß tatsächlich alle gleichwahrscheinlich sind. Zur Berechnung der Anzahl der Fälle werden in der Kombinatorik bestimmte Formeln bereitgestellt.

4.4 Kombinatorik

61

4.4.1 Produktregel der Kombinatorik (allgemeines Zählprinzip) Ein m-stufiges Zufallsexperiment entsteht dadurch, daß m Zufallsexperimente nacheinander oder gleichzeitig durchgeführt werden. Das Zufallsexperiment der i-ten Stufe besitze die Ergebnismenge üj für i = 1 , 2 , . . . , m . Dann können die m Ergebnisse w 1 ,u>2,...,u> m der einzelnen Stufen unter Berücksichtigung der Reihenfolge als (geordnetes) mTupel (cjj, ω 2 , . . . , w m ) dargestellt werden, wobei an der i-ten Stelle das Ergebnis Wj des i-ten Zufallsexperiments steht, also e Ω; . Die Ergebnismenge Ω des m-stufigen Gesamtexperiments ist die Menge aller m-Tupel, das sogenannte direkte Produkt der einzelnen Ergebnismengen Ω|. Das direkte Produkt bezeichnen wir mit Ω = Ω1 χ Ω2 χ . . . χ Ω Π1 . Daraus erhält man den Satz 4.3 (Produktregel der Kombinatorik): Bei einem m-stufigen Zufallsexperiment sei die Anzahl der möglichen Versuchsergebnisse bei der i-ten Stufe gleich n ; = | S~2i f. Dann besitzt das m-stufige Gesamtexperiment η = n x · n 2 · . . . · n m verschiedene Ergebnisse (m-Tupel), also IΩ | = | Ωα | · | Ω21 · . . . · | Ω ι η |.

(4.8)

Beweis: In den möglichen m-Tupeln ( ω 1 , ω 2 , . . . , ω ι η ) gibt es nach Voraussetzung für die i-te Komponente insgesamt n ; Auswahlmöglichkeiten. Zu jeder der nj möglichen Auswahlmöglichkeiten für Wj gibt es n 2 Möglichkeiten, die zweite Komponente u>2 auszuwählen. Daher gibt es für die ersten beiden Komponenten ω ι und ω 2 insgesamt · n 2 verschiedene Auswahlmöglichkeiten. So fortfahrend erhält man ingesamt nj · n 2 · . . . · n m verschiedene mögliche m-Tupel. Mit diesem allgemeinen Zählprinzip können viele Formeln der Kombinatorik sehr einfach hergeleitet werden.

4.4.2 Anordnungsmöglichkeiten (Permutationen) Unter einer Permutation von η Elementen versteht man eine Anordnung dieser Elemente. Für die Auswahl des ersten Elements gibt es η Möglichkeiten, für die Auswahl des zweiten verbleiben noch η — 1 Möglichkeiten. So fortfahrend erhält man schließlich für die Auswahl des n-ten Elements nur noch eine Möglichkeit. Damit erhält man aus der Produktregel den

Kapitel 4: Wahrscheinlichkeiten

62

Satz 4.4 (Anzahl der Permutationen): η verschiedene Dinge lassen sich (unter Berücksichtigung der Reihenfolge) auf η! = 1 • 2 · . . . • η

(4.9)

verschiedene Arten anordnen (Anzahl der Permutationen). Das Symbol n! spricht man dabei als "n-Fakultät" aus. Für die Fakultäten n! gilt die Rekursionsformel η! = η · (n — 1)!. Damit diese Formel auch noch für η = 1 richtig ist, setzt man 0! = 1.

Falls manche Elemente nicht unterscheidbar sind, gilt der Satz 4.5 (Anordnungsmöglichkeiten von Gruppen gleicher Elemente): Von η Dingen seien jeweils n j , n 2 , . . . , n r gleich. Dann gibt es für diese η Dinge unter Berücksichtigung der Reihenfolge n! n (4.10) r · n 2*' · · · ' n r ' ' η = n 2 + n 2 + . . . + n r verschiedene Anordnungsmöglichkeiten. Beweis: Die gesuchte Anzahl bezeichnen wir mit x. Die jeweils gleichen Dinge werden unterscheidbar gemacht. Dann gibt es im unterscheidbaren Modell insgesamt n! verschiedene Anordnungsmöglichkeiten. In jeder der χ möglichen Anordnungen im nichtunterscheidbaren Ausgangsmodell können die n k gleichen Elemente jeweils permutiert werden, was jeweils auf n k ! verschiedene Arten möglich ist. Dadurch erhält man sämtliche Anordnungsmöglichkeiten n! = (nj + . . . + n r )! im unterscheidbaren Modell. Es gilt also χ · n 1 ! · n 2 ! · . . . · n r ! = n!. Hieraus erhält man die gesuchte Anzahl χ in der Form n! χ = n x ! - n 2 ! -. Beispiel 4.3: Eine Gruppe von 4 Studentinnen und 3 Studenten stellen sich in zufälliger Reihenfolge an einer Theaterkasse an. Gesucht ist die Wahrscheinlichkeit, daß die vier Studentinnen nebeneinander stehen. Insgesamt gibt es 7! _ 1 · 2 · 3 · 4 · 5 · 6 · 7 _ 5 · 6 · 7 _ ο ε 3 ! · 4 ! " 1 · 2 · 3 · 1 · 2 · 3 · 4 ~ 2-3

4.4 Kombinatorik

63

mögliche Fälle. Zur Bestimmung der Anzahl der günstigen Fälle schreiben wir w für Studentin und m für Student. Dann gibt es die für das interessierende Ereignis nur 4 Möglichkeiten, nämlich die Reihenfolgen wwwwmmm; mwwwwmm; mmwwwwm; mmmwwww. Daraus erhalten wir die gesuchte Wahrscheinlichkeit ρ = ^ « 0,1143.

4.4.3 Auswahlmöglichkeiten unter Berücksichtigung der Reihenfolge Aus η verschiedenen Dingen sollen k Stück nacheinander ausgewählt werden. Dabei spiele die Reihenfolge der Ziehung der einzelnen Elemente eine Rolle. Man spricht dann vom Ziehen unter Berücksichtigung der Reihenfolge (Anordnung). Beim Ziehen ohne Zurücklegen (ohne Wiederholung) werden die gezogenen Elemente vor dem nächsten Zug nicht mehr zu den übrigen zurückgelegt. Beim Ziehen mit Zurücklegen (mit Wiederholung) werden die ausgewählten Elemente nur registriert und vor dem nächsten Zug wieder zur Grundmenge zurückgebracht. Beim Ziehen ohne Wiederholung gibt es für den ersten Zug η Möglichkeiten, für den zweiten η — 1, für den dritten η — 2 , . . . usw. Das k-te Element kann schließlich auf η — (k — 1) = η — k + 1 Arten ausgewählt werden. Dabei darf k höchstens gleich η sein. Beim Ziehen mit Wiederholung wird bei jedem Zug aus der ganzen Grundgesamtheit mit jeweils η Möglichkeiten ausgewählt. Mit der Produktregel der Kombinatorik erhält man für beide Fälle die im folgenden Satz angegebene Anzahl der Ziehungsmöglichkeiten. Satz 4.6: Aus η verschiedenen Dingen werden k Stück unter Berücksichtigung der Reihenfolge ausgewählt. Dann beträgt die Anzahl der verschiedenen Auswahlmöglichkeiten: a) beim Ziehen ohne Zurücklegen (ohne Wiederholung) η · (η - 1) · (η - 2) · . . . · (η - k + 1)

für k < η ;

(4.11)

b) beim Ziehen mit Zurücklegen (mit Wiederholung) nk

für beliebiges k.

(4.12)

Beispiel 4.4 (Geburtstagsproblem): Gesucht ist die Wahrscheinlichkeit dafür, daß von η beliebigen Personen mindestens zwei am gleichen Tag Geburtstag haben. Zur Berechnung der gesuchten Wahrscheinlichkeit machen wir die Modellannahme: Das Jahr habe 365 Tage, die als Geburtstage für jede der η Personen gleichwahrscheinlich sind.

Kapitel 4: Wahrscheinlichkeiten

64

Das entsprechende Ereignis bezeichnen wir mit A n . Da nach der Modellannahme bei η > 365 Personen mindestens zwei Personen am gleichen Tag Geburtstag haben müssen, gilt P ( A n ) = 1 für η > 365. Für η < 365 berechnen wir zunächst die Wahrscheinlichkeit für das Komplementärereignis A n . Die Wahrscheinlichkeit dafür läßt sich nämlich wesentlich einfacher bestimmen. Es tritt ein, wenn alle η Personen an verschiedenen Tagen Geburtstag haben. Die Personen werden durchnumeriert. Die Anzahl der möglichen Fälle ist dann 365 n . Die Anzahl der günstigen Fälle erhält man durch folgende Überlegung: Für die erste Person kommen 365, für die zweite 364, für die dritte 3 6 3 , . . . , für die n-te 365 — n + 1 Tage in Frage. Für A n gibt es dann nach dem Multiplikationsprinzip insgesamt 365 · 364 • . . . · (365 - n+1) günstige Fälle. Damit gilt T

_ "

365 · 364 · . . . · (365 — n + 1) 365 s ·

Zur Berechnung eignet sich die Rekursionsformel P

(Xn + i ) = ^ r -

Hieraus folgt ρ/1 \ . P A ( n) = 1 -

, PP AT

p

( Ä

n

> . ( n) = 1

)

mit

P(Ä 1 ) = l f ü r n = l , 2 , . . . , 3 6 4 .

3 6 5 - 3 6 4 · · . . . ( 3 6 5 - n + l) 365Ü fur η < 365.

Für η = 23 erhält man den etwas überraschenden Wert P(A 2 3 ) « 0,507. Dadurch, daß die Schaltjahre unberücksichtigt bleiben, ist die hier berechnete Wahrscheinlichkeit etwas zu groß. Die Gleichverteilung der Geburtstage auf alle 365 Tage ist auch nicht ganz realistisch. Eine ungleichmäßige Verteilung würde die Wahrscheinlichkeit etwas erhöhen.

4.4.4

Auswahlmöglichkeiten ohne Berücksichtigung der Reihenfolge

Aus η verschiedenen Dingen sollen k Stück ausgewählt werden, wobei die Reihenfolge, in der die Elemente gezogen werden, keine Rolle spielt. 4.4.4.1 Ziehen ohne Wiederholung (ohne Zurücklegen) Die k Elemente können einzeln gezogen werden, wobei die ausgewählten Elemente vor dem nächsten Zug nicht mehr zu den übrigen zurückgelegt werden dürfen. Genauso kann man aber auch alle k Stück auf einmal ziehen. Beim Ziehen ohne Zurücklegen darf k höchstens gleich η sein. Die Anzahl der Möglichkeiten, aus η Dingen k Stück ohne Wiederholung auszuwählen, bezeichnen wir mit x.

4.4 Kombinatorik

65

Aus jeder bestimmten Auswahlmöglichkeit ohne Berücksichtigung der Reihenfolge erhalten wir durch alle möglichen Permutationen der k ausgewählten Elemente k! verschiedene Auswahlmöglichkeiten unter Berücksichtigung der Reihenfolge. Nach (4.11) gilt daher χ · k! = η · (η - 1) · (η - 2) · . . . · (η - k + 1), als

°

_ η · (η — 1) · (η — 2) · . . . · (η — k + 1) ~ k! Erweiterung dieses Bruchs mit (η — k)! ergibt χ

x =

n! = k! · (n — k)!

Dabei ist

M [ί)'

(sprich "n über k") ein sogenannter Bmomialkoeffizient.

Man setzt

(:)-«· Damit haben wir folgenden Satz bewiesen: Satz 4.7: Aus η verschiedenen Elementen können k Stück ohne Berücksichtigung der Reihenfolge und ohne Wiederholung auf /n\_

η · (nt ·- l ) . ( n - 2 ) . . . . . ( n - k + l) _ n! 1 · 2 · 3 •... · k ~ k! · (n — k)!

(4.13)

verschiedene Arten ausgewählt werden für k = 1 , 2 , . . . , n. 4.4.4.2 Ziehen mit Wiederholung (mit Zurücklegen) Aus η Elementen werde k mal hintereinander eines ausgewählt, wobei die gezogenen Elemente vor dem nächsten Zug zu den übrigen zurückgelegt werden. Die Reihenfolge der Ziehung spiele dabei keine Rolle. Die η Elemente, aus denen mit Wiederholung ausgewählt wird, werden von 1 bis η durchnumeriert. Als Beispiel nehmen wir η = 4 und k = 5. Dabei soll dreimal die 1 und zweimal die 3 ausgewählt worden sein. Dieses Ergebnis stellen wir folgendermaßen dar: 3mal 1

0 mal 2 2 mal 3 0 mal 4

Falls aus η Elementen mit Wiederholung und ohne Berücksichtigung der Reihenfolge k Elemente ausgewählt werden, kann jedes Ergebnis symbolisch mit Hilfe von k Pluszeichen und η — 1 Kommata dargestellt werden. Jeder zufälligen Reihenfolge dieser Symbole wird ein Ziehungsergebnis in eineindeutiger Weise zugeordnet. Die Reihe

66

Kapitel 4: Wahrscheinlichkeiten

+++,+, , ,++,...,++++ bedeutet ζ. B, daß das erste Element dreimal, das zweite einmal, das dritte und vierte nicht, das fünfte zweimal,..., das letzte viermal gezogen wurde. Jedes derartige Schema enthält dann genau k Pluszeichen und η — 1 Kommata. Falls zwischen zwei Kommata kein Pluszeichen steht, ist das entsprechende Element nicht gezogen worden. Die Pluszeichen und Kommata zusammen bilden also η + k — 1 Plätze, von denen genau k mit einem Pluszeichen zu versehen sind. Dafür gibt es aber insgesamt £ ^ verschiedene Möglichkeiten. So viele Möglichkeiten gilt es, aus η Dingen k Stück mit Wiederholung und ohne Berücksichtigung der Reihenfolge auszuwählen. Damit gilt der Satz 4.8: Aus η verschiedenen Elementen werde k-mal hintereinander eines ausgewählt und vor dem nächsten Zug wieder zurückgelegt. Dann gibt es ohne Berücksichtigung der Reihenfolge ingesamt (4.14) verschiedene Auswahlmöglichkeiten. Bemerkung: In (4.14) ist die Anzahl aller verschiedenen Auswahlmöglichkeiten mit Zurücklegen und ohne Berücksichtigung der Reihenfolge angegeben. Damit sämtliche dieser Fälle auch tatsächlich gleichwahrscheinlich sind, muß das Auswahlverfahren nach der im Beweis angegebenen Methode durchgeführt werden. Bei einer wiederholten Einzelziehung sind nicht alle der in (4.14) angegebenen Fälle gleichwahrscheinlich. Dazu das Beispiel 4.5: Aus zwei Personen a und b werden einzeln hintereinander zwei ohne Berücksichtigung der Reihenfolge und mit Zurücklegen ausgewählt. Dann gibt es nach (4.14) mit η = k = 2 insgesamt

verschiedene Möglichkeiten, nämlich: zweimal a, zweimal b und gemischt (a und b). Die Wahrscheinlichkeit, daß a zweimal ausgewählt wird, ist bei der Einzelauswahl nicht gleich i Zur Berechnung dieser Wahrscheinlichkeit müssen nämlich die vier gleichwahrscheinlichen Fälle a a ; a b ; b a ; b b unter Berücksichtigung der Reihenfolge benutzt werden, von denen nur einer günstig ist. Die gesuchte Wahrscheinlichkeit ist daher gleich ^ .

4.4 Kombinatorik

67

4.4.5 Zusammenstellung der Formeln der Kombinatorik Aus η verschiedenen Dingen sollen k ausgewählt werden. Dann erhält man für die Anzahl der verschiedenen Auswahlmöglichkeiten in Abhängigkeit vom Auswahlverfahren folgende Werte: mit Berücksichtigung der Reihenfolge (geordnet) ohne Wiederholung (ohne Zurücklegen)

ohne Berücksichtigung der Reihenfolge (ungeordnet)

η · (η—1) · . . . · (η—k+1)

mit Wiederholung (mit Zurücklegen)

nk

(E) r r )

4.4.6 Urnenmodelle Eine Grundmenge bestehe aus Ν verschiedenen Elementen, von denen genau Μ eine bestimmte Eigenschaft besitzen. Aus der gesamten Grundmenge sollen η Stück zufallig ausgewählt werden. Zur Versuchsdurchführung und zur Berechnung gesuchter Wahrscheinlichkeiten bei einer solchen zufälligen Auswahl eignen sich die sogenannten Urnenmodelle. Anstelle der Ν Elemente betrachtet man Ν Kugeln, von denen genau Μ schwarz sind. Den Elementen mit der interessierenden Eigenschaft werden also schwarze Kugeln zugeordnet. Den restlichen Ν — Μ Elementen ordnen wir weiße Kugeln zu. Mit diesem Hilfsmodell erhält man folgende Aussage: Satz 4.9 (Urnenmodelle): Eine Urne enthalte Ν Kugeln, von denen Μ schwarz und die restlichen Ν —Μ weiß sind. Dabei gelte 1 < Μ < Ν. Aus dieser Urne werden η Kugeln zufällig ausgewählt. p k sei die Wahrscheinlichkeit dafür, daß sich unter den η ausgewählten Kugeln genau k schwarze befinden. Diese Wahrscheinlichkeit lautet a) beim Ziehen ohne Zurücklegen ( Μ W pk=

k

N-M\

/

N

\

n

"\~k

für

)

0 0. (4.17) Beweis: Die Eigenschaft (4.17) folgt direkt aus der Definitionsgleichung (4.16) für bedingte Wahrscheinlichkeiten. Beispiel 4.8: Unter 10 Werkstücken befinden sich 3 fehlerhafte. Daraus werden nacheinander ohne zwischenzeitliches Zurücklegen zwei Stück zufallig ausgewählt. F j (F 2 ) sei das Ereignis, daß das zuerst (zuletzt) ausgewählte Werkstück fehlerhaft ist. Für den ersten Zug lauten die beiden Wahrscheinlichkeiten Wenn vor dem zweiten Zug das Ergebnis aus dem ersten Zug bekannt ist, können die Wahrscheinlichkeiten für den zweiten Zug in Abhängigkeit vom Ergebnis des ersten Zuges berechnet werden. Beim zweiten Zug wird eines der restlichen 9 Werkstücke ausgewählt. Falls beim ersten Zug ein fehlerhaftes Stück ausgewählt wurde, bleiben für den zweiten Zug noch 2, sonst 3 fehlerhafte Stücke übrig. Damit lauten die bedingten Wahrscheinlichkeiten P ( F 2 | F X ) = | ; P ( F 2 | F 1 ) = 1 ; P ( F 2 | F 1 ) = | ; P(F 2 1 F x ) = | . Mit Hilfe der Produktregel (4.17) erhält man hieraus P(beide fehlerhaft) = P(F 2 η F J = P(F 2 | F,) · P(Fj) =

=i

;

P(beide brauchbar) = P(F 2 Π F,) = P(F 2 | F a ) · Ρ ( ^ ) = | · X = X . Mit A = A j und Β = A 2 Π A 3 erhält man durch zweimalige Anwendung der Produktregel (4.17) P ( A 3 n A 2 n A 1 ) = P(A 3 | Α 2 Π Α 1 ) · Ρ ( Α 2 η Α 1 ) = Ρ(Α3|Α2ΠΑ1)·Ρ(Α2|Α1)·Ρ(Α1). Mehrmalige Anwendung der Produktregel ergibt unmittelbar die allgemeine Produktregel bei bedingten Wahrscheinlichkeiten: P(A n η A n _ ! η... η a x ) = P(A n |A n _ 1 η... π A J · P(A n _ 1 |A n _ 2 π... η A x ) •... · Ρ(Α 3 I A 2 η A , ) . P(A 2 IA,) · P ( A , ) .

(4.18)

4.5 Bedingte Wahrscheinlichkeiten

73

Beispiel 4.9 (vgl. Beispiel 4.8): Das in Beispiel 4.8 beschriebene Zufallsexperiment werde folgendermaßen durchgeführt: Aus den 10 Werkstücken wird eines zufallig ausgewählt. Dabei wird nicht festgestellt oder nicht bekanntgegeben, ob dieses Stück fehlerhaft ist oder nicht. Danach wird ohne zwischenzeitliches Zurücklegen ein zweites Stück ausgewählt und untersucht, ob es fehlerhaft ist. Mit welcher Wahrscheinlichkeit ist es fehlerhaft? Zur Berechnung dieser absoluten Wahrscheinlichkeit kann keine Information über das Ergebnis des ersten Zuges verwendet werden. Genausogut könnte man vor Versuchsbeginn nach der Wahrscheinlichkeit fragen, mit der das im zweiten Zug ausgewählte Werkstück fehlerhaft ist. Auch hier kann keine Teilinformation über den Ausgang des ersten Zuges benutzt werden. Die gesuchte absolute Wahrscheinlichkeit kann aber trotzdem berechnet werden. Wir bezeichnen das Ereignis, daß beim zweiten Zug ein fehlerhaftes Stück ausgewählt wird mit F 2 . Beim ersten Zug kann nur ein fehlerhaftes oder fehlerfreies Stück ausgewäht werden. Dabei ist allerdings das genaue Ergebnis des ersten Zuges nicht bekannt. Damit besitzt das sichere Ereignis Ω die Darstellung fi = F 1 U F 1

mit

FjDF^O.

Daraus folgt F 2 = F 2 η Ω = F 2 η ( F j u F j ) = (F2 η FX) U (F2 Π FJ). Hieraus erhalten wir zusammen mit der Produktregel (4.17) P(F2) = P ( F 2 n F 1 ) + P ( F 2 n F 1 ) = P(F2 I F J ·P(FX) + P(F2 I Fj) ·P(Fj) = | . ^

+

3.

=

0 3

P ( F 2 ) = 1 - P ( F 2 ) = 0,7. Hier erhält man die Eigenschaft P ( F 2 ) = P ( F j ) , die übrigens beim Ziehen ohne Zurücklegen allgemein gilt. Das in diesem Beispiel benutzte Beweisprinzip soll nun verallgemeinert werden. Wir betrachten η paarweise unvereinbare Ereignisse A 1 , A 2 , . . . , A n , welche positive Wahrscheinlichkeiten besitzen, und von denen bei jeder Versuchsdurchführung genau eines eintreten muß, also mit U Aj = Ω, Α; Π A k = 0 für i φ k und P ( A ; ) > 0 für alle i. i=l Diese Ereignisse bilden eine sogenannte disjunkte Zerlegung von Ω. Man nennt sie eine vollständige (totale) Ereignisdisjunktion. Dann gilt für jedes beliebige Ereignis Β die Darstellung Β = ΒΠΩ = Β η (

v

UAi)=UB i=l ' i=l

A

i

( B A i paarweise disjunkt).

74

Kapitel 4: Wahrscheinlichkeiten

Aus der Additivität der Wahrscheinlichkeit folgt hieraus P(B)= £p(BAi). i=l Auf jeden einzelnen Summanden wenden wir die Produktregel (4.17) für bedingte Wahrscheinlichkeiten an und erhalten P(B)=f:P(BAi)=f:P(B|Ai).P(Ai). 1=1 i=l Damit haben wir folgenden Satz bewiesen: Satz 4.11 (Satz von der totalen (vollständigen) Wahrscheinlichkeit): Es sei ApAj,•••)A. n eine vollständige Ereignisdisjunktion mit P(Aj) > 0 für alle i. Dann gilt für jedes beliebige Ereignis Β P(B)= EP(B|Ai).P(Ai). i=l

(4.19)

Beispiel 4.10: Das gleiche Produkt wird von vier Maschinen hergestellt. Die erste Maschine erzeuge 10 %, die zweite 20 %, die dritte 30 % und die vierte 40 % von der Gesamtproduktion. Die erste Maschine habe einen Ausschußanteil von 3 %, die zweite einen von 5 %, die dritte 6 % und die vierte 8 % Ausschuß. Aus der nicht nach Maschinen sortierten Gesamtproduktion werde ein Werkstück zufallig ausgewählt. Mit welcher Wahrscheinlichkeit ist es fehlerhaft? Mj sei das Ereignis: "das Werkstück wurde von der i-ten Maschine produziert" und F: "das Werkstück ist fehlerhaft". Dann sind folgende Wahrscheinlichkeiten gegeben: P(M 1 ) = 0,1; P(M 2 ) = 0,2; P(M 3 ) = 0,3; P(M 4 ) = 0,4; P(F | Mj) = 0,03; P(F | M 2 ) = 0,05; P(F | M 3 ) = 0,06; P(F | M 4 ) = 0,08. Da die Ereignisse Μ χ , M 2 , M 3 , M 4 eine vollständige Ereignisdisjunktion bilden, erhält man aus dem Satz von der totalen Wahrscheinlichkeit P(F) =

Σ P(F|Mi)-P(Mi) i=l

= 0,03 · 0,1 + 0,05 · 0,2 + 0,06 · 0,3 + 0,08 · 0,4 = 0,063. Allgemein sei Β ein beliebiges Ereignis mit P(B) > 0. Dann gilt nach der Definition der bedingten Wahrscheinlichkeit (4.16), der Produktregel (4.17) und dem Satz von der totalen Wahrscheinlichkeit für jedes Ereignis A k einer vollständigen Ereignisdisjunktion die Darstellung

4.6 Unabhängige Ereignisse

75

ΡίΑ , m _ P ( B n A k ) _ P ( B l A k ) - P ( A k ) _

P(Ak|B)_

^

p(B)

P(B|Ak)-P(Ak)

Σ P(B I Aj) - P(Aj) "

i=l Damit haben wir die nach Thomas Bayes (1702 — 1771) benannte Formel bewiesen: Satz 4.12 (Bayessche Formel): Es sei AJJAJ,...,A n eine vollständige Ereignisdisjunktion mit P(A ; ) > 0 für alle i und Β ein beliebiges Ereignis mit P(B) > 0. Dann gilt P(Ak|B) =

v

V P

ß

( )

(4-20)

Σ Ρ(Β|Α;)·Ρ(Α ; ) i=l für k = 1 , 2 , . . . , η.

Beispiel 4.11 (vgl. Beispiel 4.10): Aus der Gesamtproduktion in Beispiel 4.10 werde ein Werkstück zufallig ausgewählt, von dem sich herausstellt, daß es fehlerhaft ist. Mit welcher Wahrscheinlichkeit wurde es von der k-ten Maschine gefertigt? Mit P(F) = 0,063 erhalten wir aus der Bayesschen Formel (4.20) p/w | n _ P ( F | M k ) - P ( M k ) _ P ( F | M k ) - P ( M k ) n^kl*;P(F) ~ 0,063 P(M, | F) =

P(M31F) =

w 0)04762.

p(m2

I F) =

w 0 28571; p(M4!F) =

„ 0,15873;

M8_M w 050794

4.6 Unabhängige Ereignisse Das Ereignis Α heißt vom Ereignis Β (bezüglich der Wahrscheinlichkeit) unabhängig, wenn die Information über das Eintreten von Β die Wahrscheinlichkeit für das Eintreten von Α nicht ändert. Dazu die Definition 4.3 (Unabhängigkeit): Es sei P(B) > 0. Dann heißt das Ereignis Α vom Ereignis Β (stochastisch) unabhängig, wenn gilt P(A | B) = P(A).

Kapitel 4: Wahrscheinlichkeiten

76

Bemerkung: Den Zusatz stochastisch (bezüglich der Wahrscheinlichkeit) läßt man meistens weg. Satz 4.13 (Eigenschaften unabhängiger Ereignisse): Für das Ereignis Β gelte P(B) > 0. Dann sind die folgenden Eigenschaften gleichwertig P ( A | B ) = P(A);

(4.21)

P(A Π B) = P(A) · P(B);

(4.22)

P(A | B) = P(A | B ) .

(4.23)

Beweis: Es genügt zu zeigen, daß aus (4.21) die Bedingung (4.22), hieraus (4.23) und daraus wieder (4.21) folgt. a) Es gelte (4.21). Dann folgt hieraus mit (4.17) P(A Π B) = P(A | B) · P(B) = P(A) · P(B). Aus (4.21) folgt also (4.22). b) Es gelte (4.22). Dann folgt mit Satz 4.2 e) P(A Π B) = P(A) - P(A Π B) = P(A) - P(A) · P(B) = P(A)-[1-P(B)] = P(A).P(B); P(A\m

-

p(A n

B) -

p(A)

· pw - p m P(B) - P ( A ) -

· P ( B ) - pr Α ι m P(B) -Ρ(ΑΙβ)·

P(A)

Aus (4.22) folgt also (4.23). c) Es gelte (4.23). Dann folgt aus Satz 4.11 mit der vollständigen Ereignis disjunktion Β, Β P(A) = P(A | B) · P(B) + P(A | B) · P(B) = P(A | B) · [P(B) + P(B)] = P(A | B ) . Aus (4.23) folgt also (4.21), womit der Satz bewiesen ist. Aus Satz 4.13 erhält man unmittelbar folgende Eigenschaften der Unabhängigkeit 1. Wenn Α von Β unabhängig ist, so ist auch Α von Β unabhängig. 2. Wenn Α von Β unabhängig ist, so ist Β auch von Α unabhängig. Die Unabhängigkeit ist also eine symmetrische Relation.

4.6 Unabhängige Ereignisse

77

Beispiel 4.12: In einem Produktionsprozeß treten unabhängig voneinander zwei Fehler auf. Mit Wahrscheinlichkeit 0,06 hat ein Werkstück den Fehler F j , mit Wahrscheinlichkeit 0,04 den Fehler F 2 . Gesucht sind die Wahrscheinlichkeiten p k , daß ein zufallig der Produktion entnommenes Werkstück k von diesen beiden Fehlern hat für k = 0,1,2. Aus der vorausgesetzten Unabhängigkeit folgt Po Pl

= P(F X Π F 2 ) = P ( F 1 ) - P ( F 2 ) = (1 - 0 , 0 6 ) - ( 1 - 0 , 0 4 ) = 0,9024; = P ( F 1 n F 2 ) + P ( F 1 n F 2 ) = P(F1)-P(F2) + P(F1).P(F2) = 0,06 · (1 - 0,04) + (1 - 0,06) · 0,04 = 0,0952;

p 2 = P(F X Π F 2 ) = P(F X ) · P(F 2 ) = 0,06 · 0,04 = 0,0024.

Beispiel 4.13 (Serien- und Parallelsysteme): Zwei Maschinenteile Α und Β seien in einem bestimmten Zeitraum unabhängig voneinander mit Wahrscheinlichkeit p A bzw. pg funktionsfähig. Das in Bild 4.1 a) dargestellte Seriensystem arbeitet nur dann, wenn sowohl Α als auch Β funktionsfähig sind. Wegen der vorausgesetzten Unabhängigkeit arbeitet das Seriensystem mit Wahrscheinlichkeit P(A Π B) = P(A) · P(B) = PA ' Pß · Das in b) dargestellte Parallelsystem ist nur dann funktionsfähig, wenn mindestens eine der beiden Komponenten Α oder Β arbeitet. Die Wahrscheinlichkeit dafür lautet P(A U B) = P(A) + P(B) - P(A Π Β) = p A + p B - p A · p B .

Bild 4.1:

a) Seriensystem

b) Parallelsystem

Kapitel 4: Wahrscheinlichkeiten

78

4.7 Aufgaben Aufgabe 4.1: Gegeben sind folgende Wahrscheinlichkeiten: P(A) = 0,7;

P(B) = 0,2 und P ( A n B ) = 0,6.

Berechnen Sie hieraus die Wahrscheinlichkeiten für die Ereignisse AHB; ÄUB ; Ä n B ; Ä D B ; A U B . Aufgabe 4.2: Gegeben sind die Wahrscheinlichkeiten P(A) = 0,7; P(A Π B) = 0,3; P ( I n B ) = 0,2. Berechnen Sie daraus die Wahrscheinlichkeiten P(A U Β); P(B); P(A Π Β) und P(Ä Π Β). Aufgabe 4.3: Beim Fußballtoto muß bei 11 Spielen entweder eine 1 (die Platzmannschaft gewinnt), eine 2 (die Gastmannschaft gewinnt) oder eine 0 (das Spiel endet unentschieden) getippt werden. a) Wie viele verschiedene Tippreihen sind möglich? b) Wie oft hat man bei Abgabe aller Tippreihen 10 bzw. 9 Richtige? Aufgabe 4.4: Α, Β und C spielen Skat. Wie groß ist die Wahrscheinlichkeit dafür, daß a) Kreuz- und Pikbube im Skat liegen, -> . , „ . x , , ,A . , ,\ . n . . „ , , , . , \ ohne daß TKarten aufgedeckt sind, b) genau ein Bube im bkat liegt, ' c) Kreuz- und Pikbube im Skat liegen, nachdem Α festgestellt hat, daß er diese Buben nicht auf der Hand hat? Aufgabe 4.5: Die erste Ausspielung der Glücksspirale im Jahre 1971 wurde folgendermaßen durchgeführt: In einer Urne waren 70 Kugeln, von denen jeweils 7 die Ziffern 0 , 1 , 2 , . . . . , 9 hatten. Daraus wurden ohne zwischenzeitliches Zurücklegen 7 Kugeln gezogen, die in der Ziehungsreihenfolge die (höchstens siebenstellige) Gewinnzahl ergaben. a) Berechnen Sie die Wahrscheinlichkeiten dafür, daß bei diesem Modell die Zahl 3333333 bzw. 0123456 gezogen wird. b) Wie muß das Modell geändert werden, damit jede höchstens siebenstellige Zahl die gleiche Wahrscheinlichkeit besitzt? Aufgabe 4.6: Wie viele ideale Würfel muß man mindestens werfen, um mit Wahrscheinlichkeit 0,9 mindestens einmal die Augenzahl Sechs dabei zu haben?

4.7 Aufgaben

79

Aufgabe 4.7: Bei einer Wahl kandidieren 5 Parteien. Jeder Wähler hat 5 Stimmen, wobei er einer Partei beliebig viele Stimmen geben darf. Wie viele Möglichkeiten hat er, seine Stimmen zu verteilen, falls er alle 5 Stimmen abgibt?

Aufgabe 4.8: Eine kleine Pension mit 30 Zimmern hat festgestellt, daß jedes gebuchte Zimmer mit Wahrscheinlichkeit 0,1 nicht in Anspruch genommen wird. Aus diesem Grund wurden 32 Zimmerbestellungen entgegengenommen. Bestimmen Sie die Wahrscheinlichkeit, daß keine Uberbelegung stattfindet.

Aufgabe 4.9: Es sei bekannt, daß 1 % aller Menschen an einer bestimmten Krankheit leiden. Ein Diagnosetest habe die Eigenschaft, daß er bei Kranken mit Wahrscheinlichkeit 0,95 und bei Gesunden mit Wahrscheinlichkeit 0,999 die richtige Diagnose liefert. Gesucht ist die Wahrscheinlichkeit dafür, daß eine Person, bei der auf Grund des Tests die Krankheit (nicht) diagnostiziert wird, auch tatsächlich (nicht) an der Krankheit leidet.

Aufgabe 4.10: Von den in einer Firma produzierten Fernsehgeräten sind erfahrungsgemäß 4 % fehlerhaft. Bei der Endprüfung wird ein fehlerhaftes Gerät mit Wahrscheinlichkeit 0,98, ein einwandfreies mit Wahrscheinlichkeit 0,03 beanstandet. Berechnen Sie die Wahrscheinlichkeit dafür, daß a) ein bei der Endprüfung beanstandetes Gerät auch fehlerhaft ist, b) ein nicht beanstandetes Gerät fehlerfrei ist.

Aufgabe 4.11: Ein Lotto-Vollsystem bestehe aus 10 Zahlen. a) Aus wie vielen Tippreihen muß dieses System bestehen, damit man garantiert sechs Richtige erzielt, falls sich unter den 10 ausgewählten Zahlen tatsächlich alle 6 Gewinnzahlen befinden? b) Bestimmen Sie die Anzahl der verschiedenen Vollsysteme mit 10 Systemzahlen. c) Mit welcher Wahrscheinlichkeit erzielt man mit einem solchen Vollsystem 6 Richtige (mit oder ohne Superzahl)?

Aufgabe 4.12: Bei einer Serienfertigung wird jeder Artikel dreimal unabhängig voneinander kontrolliert. Ein fehlerhafter Artikel wird mit Wahrscheinlichkeit 0,8 bei jeder dieser Kontrollen entdeckt. a) Mit welcher Wahrscheinlichkeit wird ein fehlerhafter Artikel in der Gesamtkontrolle entdeckt? Wie groß ist die Wahrscheinlichkeit, daß von 10 fehlerhaften Artikeln b) alle entdeckt werden, c) mindestens 8 entdeckt werden?

80

Kapitel 4: Wahrscheinlichkeiten

Aufgabe 4.13: Eine Firma behauptet, die Ausschußwahrscheinlichkeit für jedes Stück eines bestimmten Produktes sei 0,04. Eine Abnehmerfirma benutzt folgenden Prüfplan: Sie wählt 5 Stücke zufallig aus. Falls darunter kein fehlerhaftes ist, nimmt sie die Lieferung an, sonst wird sie zurückgewiesen. Mit welcher Wahrscheinlichkeit wird die Annahme der Sendung zu Unrecht verweigert? Aufgabe 4.14: Eine Firma kauft von einer Ware von drei verschiedenen Herstellern einen großen Posten, und zwar 20 % vom Hersteller I, 30 % vom Hersteller II und 50 % vom Hersteller III. Die Ausschußanteile bei den drei Herstellern seien der Reihe nach 8 %, 6 % und 4 %. Nach dem Eingang werden sämtliche Stücke vermischt. Aus der gesamten Lieferung werde ein Stück zufällig ausgewählt. a) Mit welcher Wahrscheinlichkeit ist es fehlerhaft? b) Ein zufällig ausgewähltes Stück sei brauchbar. Mit welchen Wahrscheinlichkeiten stammt es von den jeweiligen Herstellern? Aufgabe 4.15: Von einer bestimmten Bevölkerungsgruppe ließen sich 25 % gegen Grippe impfen. Die Wahrscheinlichkeit, daß eine Person an Grippe erkrankt, betrage bei den geimpften 0,2 und bei den nicht geimpften Personen 0,3. a) Eine Person sei an dieser Grippe erkrankt. Mit welcher Wahrscheinlichkeit ließ sie sich impfen? b) Mit welcher Wahrscheinlichkeit ließ sich jemand, der nicht an der Grippe erkrankt ist, nicht impfen? Aufgabe 4.16: Das folgendes "Drei-Türen-Problem" wurde 1991 in der Zeitschrift "Der SPIEGEL" als Reaktion auf die vorangegangene Diskussion in der Wochenzeitung "Die Zeit" aufgenommen und in Leserzuschriften kommentiert: In einem Quiz darf eine Person eine von drei verschlossenen Türen auswählen. Hinter einer Tür ist als Preis ein Auto, hinter den beiden anderen Türen befindet sich jeweils ein kleiner Trostpreis. Manchmal ist der Trostpreis eine Ziege. Daher spricht man auch vom Ziegenproblem. Der Spielleiter weiß, hinter welcher der drei Türen sich das Auto befindet. Er läßt eine der beiden von der Person nicht ausgewählten Türen öffnen, hinter der sich das Auto nicht befindet und fragt: "Bleiben Sie bei Ihrer Entscheidung oder wollen Sie zu der anderen nichtgeöffneten Tür wechseln?". Zeigen Sie, daß durch einen Wechsel die Chance auf das Auto verdoppelt wird. Falls der Kandidat bereits die Tür mit dem Auto ausgewählt hat, öffne dabei der Spielleiter jede der beiden anderen Türen jeweils mit Wahrscheinlichkeit

Kapitel 5: Diskrete Zufallsvariablen Bei vielen Zufallsexperimenten tritt als Versuchsergebnis unmittelbar eine reelle Zahl auf wie ζ. B. beim Messen, Wiegen oder Zählen zufällig ausgewählter Gegenstände. Auch wenn die Versuchsergebnisse keine Zahlen sind, interessiert man sich oft nicht für das spezielle eingetretene Versuchsergebnis, sondern nur für einen dadurch bestimmten Zahlenwert. Beispiele dafür sind die Gewinnquoten bei Glücksspielen oder die absoluten und relativen Häufigkeiten bestimmter Ereignisse in einer unabhängigen Versuchsserie vom Umfang n. Jedem Versuchsergebnis ω e Ω werde eine reelle Zahl Χ(ω) zugeordnet. Dadurch können die Ausprägungen eines qualitativen Merkmals durch ein quantitatives Merkmal beurteilt werden. In diesem Abschnitt betrachten wir nur Zufallsvariablen, deren Wertevorrat endlich oder höchstens abzählbar unendlich ist. Solche Zufallsvariablen nennt man in Analogie zu diskreten Merkmalen diskret.

5.1 Eindimensionale diskrete Zufallsvariablen In diesem Abschnitt betrachten wir jeweils nur eine Zufallsvariable.

5.1.1 Verteilung einer diskreten Zufalls variablen Beispiel 5.1 (Risikolebensversicherung): Eine Versicherungsgesellschaft schließt mit einem 50jährigen eine Risiko-Lebensversicherung über 100 000 DM ab. Dafür muß er pro Jahr 1000 DM Prämie bezahlen. Falls der Mann das Jahr überlebt, erzielt die Gesellschaft einen Gewinn von 1000 DM. Im Todesfall erleidet sie einen Verlust in Höhe von 100 000 - 1 000 = 99 000 DM. Der Reingewinn (in DM) der Versicherungsgesellschaft aus diesem Vertrag ist entweder — 99 000 (Verlust) oder + 1000 (Gewinn). Nach der im Statistischen Jahrbuch 1994 für die Bundesrepublik Deutschland (alte Bundesländer) angegebenen Sterbetafel ist die Sterbewahrscheinlichkeit (innerhalb eines Jahres) für einen 50jährigen Mann gleich ρ = 0,00577. Mit Wahrscheinlichkeit 0,00577 beträgt der Reingewinn - 9 9 000 (Verlust), mit Wahrscheinlichkeit 1 - p = 0,99423 ist der Reingewinn 1 000. Der Reingewinn wird durch eine sogenannte Zufallsvariable beschrieben. Die Zufallsvariable bezeichnen wir mit X. Der Wertevorrat von X ist W(X) = { - 9 9 000,1000}. Die Werte der Zufallsvariablen X stellen wir zusammen mit den zugehörigen Wahrscheinlichkeiten in folgendem Schema dar:

82

Kapitel 5: Diskrete Zufallsvariablen Werte von X

- 9 9 000

1000

0,00577

0,99423

Wahrscheinlichkeiten

Allgemein werde bei einem Zufallsexperiment jedem Versuchsergebnis ω 6 Ω eine reelle Zahl Χ(ω) e R zugeordnet. X stellt also eine Funktion der Ergebnismenge Ω in die Menge der reellen Zahlen dar. Der Wertevorrat von X W(X) = { x i , x 2 , x 3 l · . · } sei endlich oder abzählbar unendlich. Falls W nur aus m Werten besteht, läuft in Xj der Index i von 1 bis m, sonst wie bei der Menge der natürlichen Zahlen von 1 bis oo. Für jedes Xj e W soll das Ereignis (Urbildmenge) Α; = {ω 6 Ω I Χ(ω) = x j die Wahrscheinlichkeit P(X = Χ;) = P(Aj) = Ρ {{ω 6 ΩI Χ(ω) = x j )

(5.1)

besitzen. Eine Abbildung mit diesen Eigenschaften nennt man eine diskrete Zufallsvariable. Jede Stelle χ außerhalb des Wertevorrats W besitzt die Wahrscheinlichkeit Null. Es gilt also P(X = χ) = Ρ({ω I Χ(ω) = χ}) = 0 für jedes χ * W. Die Gesamtheit aller Zahlenpaare (x ; , P(X = x ; )), X j e W nennt man die Verteilung (Wahrscheinlichkeitsverteilung) von X. Die Verteilung kann (vor allem bei endlichem Wertebereich) übersichtlich dargestellt werden im Schema Werte von X Wahrscheinlichkeiten

X

1

P(X = x,)

x2 P(X = x 2 )

x

3

P(X = x 3 )

Für diese Wahrscheinlichkeiten muß allgemein gelten: = P(X = xj) > 0 für alle i und £ p ; = 1. i Bei endlichem W handelt es sich dabei um eine endliche, sonst um eine unendliche Summe. Pi

Beispiel 5.2 (Augensumme zweier idealer Würfel): Zwei ideale Würfel, bei denen die Wahrscheinlichkeiten für alle Augenzahlen gleich sind, werden gleichzeitig geworfen. Zur Berechnung der Wahrscheinlichkeiten für die Augensummen benutzen wir ein Hilfsmodell: Die Würfel werden unterscheidbar gemacht und zwar soll einer rot und der an-

5.1 Eindimensionale diskrete Zufallsvariablen

83

dere weiß sein. Dann tritt als Versuchsergebnis ein geordnetes Zahlenpaar (i, j) auf, wobei i die Augenzahl des roten und j die des weißen Würfels ist. Insgesamt gibt es 36 geordnete Paare. Die Paare mit der gleichen Augensumme sind in der nachfolgenden Tabelle zusammengestellt: Augenpaare

Augensumme 2

(1,1) (1,2)

3

(3,1) (2, 2) (1,3)

4

(4,1) (3,2)

5

(2,1)

(2,3) (1,4)

(5,1) (4,2) (3,3) (2,4) (6,1) (5,2)

(1,5)

(4,3) (3,4) (2,5)

(6,2) (5,3) (4,4) (3,5)

6 (1,6)

7

(2,6)

8

(6,3) (5,4) (4,5) (3, 6)

9

(6,4) (5,5)

10

(6,5)

(4,6)

(5,6)

11

(6, 6)

12

Tab. 5.1 Augensumme zweier idealer Würfel Da alle 36 Paare gleichwahrscheinlich sind, erhält man für die Zufallsvariable X der Augensumme die Verteilung i

2

3

4

5

6

7

8

9

10

11

12

Pi

1 36

2 36

3 36

4 36

5 36

6 36

5 36

4 36

3 36

2 36

1 36

x

Wie die Häufigkeitsverteilung einer Stichprobe in Abschnitt 2.3 kann auch die Verteilung einer diskreten Zufallsvariablen in einem Stabdiagramm graphisch dargestellt werden. Dazu werden über den Werten Xj der Zufallsvariablen X senkrecht nach oben Stäbe abgetragen, deren Längen die Wahrscheinlichkeiten P(X = Xj) der entsprechenden Werte sind. Das Stabdiagramm einer diskreten Zufallsvariablen ist also das Analogon zum Stabdiagramm der relativen Häufigkeitsverteilung einer Stichprobe. Das Stabdiagramm dieser Verteilung ist in Bild 5.1 graphisch dargestellt. Interpretation Falls mit zwei idealen Würfeln sehr oft geworfen wird und als Stichprobe die Augensummen gebildet werden, liegen nach dem Gesetz der großen Zahlen (s. Abschnitt 7.2.3) die relativen Häufigkeiten der Augensummen meistens in der Nähe der Wahrscheinlichkeiten. Dann wird das Stab-

84

Kapitel 5: Diskrete Zufallsvariablen

diagramm der relativen Häufigkeiten der Stichprobe dem Stabdiagramm der Verteilung der Zufallsvariablen X der Augensumme ähnlich sein.

Pi iL

5/36-

1/362

3

4

5

6

7

8

ι 9

10

11

12

Bild 5.1: Stabdiagramm der Verteilung einer diskreten Zufallsvariablen

5.1.2 Verteilungsfunktion einer diskreten Zufallsvariablen In Analogie zur empirischen Verteilungsfunktion F n einer Stichprobe vom Umfang η (vgl. Abschnitt 2.5) interessiert man sich oft für die Wahrscheinlichkeit dafür, daß bei der Versuchsdurchführung die Realisierung der Zufallsvariablen X nicht größer als ein fest vorgegebener Zahlenwert χ ist. Dazu die Definition 5.1 (Verteilungsfunktion): Die durch F(x) = P ( X < x ) = P ( {

£ P(X = Xi) (5.2) i: Xj < χ für jedes χ e R definierte Funktion F heißt die Verteilungsfunktion der diskreten Zufallsvariablen X. w

|XH — oo

lim F(x) = 1.

(5.3)

Aus der Verteilungsfunktion F lassen sich die Wahrscheinlichkeiten für Intervalle und einzelne Werte berechnen durch P(a < X < b) = F(b) - F(a);

P(a < X < b) = F(b - 0) - F(a);

P(a < X < b) = F(b) — F(a — 0);

(5.4)

P(X < x) = F(x) ; P(X < x) = F(x - 0); P(X > x) = 1 - F(x); P(X = x) = F(x) — F(x — 0). Dabei ist F(x — 0) = F(x —) = lim F(x — h) der linksseitige Grenzwert. h—»0 h>0 Beispiel 5.3 (idealer Würfel): Beim Werfen eines idealen Würfels sei X die Zufallsvariable der geworfenen Augenzahl. Wegen Pi

= P(X = i ) = ! für 1 < i < 6

haben in dem in Bild 5.2 a) darge- F(x)f stellten Stabdiagramm alle sechs Stäbe die gleiche Länge | . In b) ist die 1Η Verteilungsfunktion F skizziert. Pi ii

1/6-

0

III!

1

Bild 5.2:

3

4

1/6-

6

x,

a) Stabdiagramm

b) Verteilungsfunktion

5.1.3 Modalwert einer diskreten Zufallsvariablen Definition 5.2 (Modus oder Modalwert): Jeder Wert x M e W, für den die Wahrscheinlichkeit P(X = Xj), x ; e W maximal ist, heißt Modalwert (Modus oder wahrscheinlichster Wert) der Zufallsvariablen X. Es gilt also P(X = x M ) = max Ρ(Χ = Χ;). Xj € W

86

Kapitel 5: Diskrete Zufallsvariablen

Der Modalwert ist in allgemeinen nicht eindeutig bestimmt. In Beispiel 5.1 der Risikolebensversicherung ist der Wert 1000 der einzige Modalwert, in Beispiel 5.2 der Augensumme zweier idealer Würfel ist die Augensumme 7 der Modus, während in Beispiel 5.3 bei einem idealen Würfel jede Augenzahl gleichzeitig Modalwert ist.

5.1.4 Erwartungswert einer diskreten Zufallsvariablen Zunächst gehen wir davon aus, daß der Wertevorrat der diskreten Zufallsvariablen X endlich ist mit W = {xj ,x 2 , x 3 , . . . , ^ } . Das zugehörige Zufallsexperiment werde n-mal unabhängig durchgeführt, wobei die η Realisierungen der Zufallsvariablen X zu einer Stichprobe vom Umfang η zusammengefaßt werden. Diese Stichprobe kann dann in einer Häufigkeitstabelle mit den relativen Häufigkeiten r ; dargestellt werden. Diese vom Zufall abhängige Stichprobe besitzt den Mittelwert m

* = Σ xi · ri · i=l

(5-5)

Nach dem Gesetz der großen Zahlen (Stabilisierungseffekt) gilt für große η die Näherung r ; « P(X = x j für alle i. Dann gilt m

* » Σ χ ; · p ( x = xi)· i=l

(5·6)

Die rechte Seite von (5.6) hängt gar nicht mehr von der Stichprobe, sondern nur noch von der Verteilung der Zufallsvariablen X ab. Man nennt diese Summe den Erwartungswert von X. Der Erwartungswert einer beliebigen diskreten Zufallsvariablen wird folgendermaßen definiert: Definition 5.3 (Erwartungswert einer diskreten Zufallsvariablen): Die diskrete Zufallsvariable X besitze die Verteilung (xj, Pj = Ρ(Χ = χ 4 )), i = 1 , 2 , . . . . Dann heißt der Zahlenwert

E(X) = /i= E v P ( X = *i) i

(5-7)

der Erwartungswert von X, falls gilt Σ I x i I · p ( x = X;) < 00. i

(5.8)

Bemerkimg: Bei endlichem Wertevorrat W ist die Bedingung (5.8) der sogenannten absoluten Konvergenz immer erfüllt, da es sich um eine endliche Summe handelt. Daher existiert der Erwartungswert einer diskreten Zufallsvariablen X mit endlichem Wertevorrat immer.

5.1 Eindimensionale diskrete Zufalls variablen

87

Die Zusatzbedingung (5.8) wird nur für diskrete Zufallsvariable mit abzählbar unendlichem Wertevorrat benötigt (s. Beispiel 5.6).

Interpretation des Erwartungswertes Das entsprechende Zufallsexperiment werde sehr oft unabhängig durchgeführt, wobei die Realisierungen der Zufallsvariablen X zu einer Stichprobe χ zusammengefaßt werden. Dann gilt nach (5.6) für das arithmetische Mittel χ dieser Stichprobe für große η die Näherung x»E(X).

(5.9)

Der Erwartungswert E ( X ) stellt im Stabdiagramm der Verteilung von X den Abszissenwert des Schwerpunktes der Stäbe dar.

Beispiel 5.4 (vgl. Beispiel 5.1): Die Zufallsvariable X des Reingewinns aus der Risiko-Lebensversicherung in Beispiel 5.1 besitzt den Erwartungswert E ( X ) = - 99 000 · 0,00577 + 1 0 0 0 · 0,99423 = 4 2 3 . Falls die Versicherungsgesellschaft mit vielen 50jährigen Männern einen solchen Vertrag über 100 000 DM abschließt, macht sie auf Dauer im Mittel pro Vertrag einen Reingewinn von 423 DM.

Beispiel 5.5 (Roulette): a) Beim Roulette setze ein Spieler jeweils eine Einheit (ζ. B . 5 oder 10 D M ) auf eine feste Zahl, etwa auf die 13. Falls diese Zahl ausgespielt wird, erhält er den 36fachen Einsatz ausgezahlt. Abzüglich seines Einsatzes verbleibt ihm dann ein Reingewinn von 35 Einheiten. Andernfalls verliert er den Einsatz (Reingewinn = — 1). Die Zufallsvariable X beschreibe den Reingewinn pro Einzelspiel. Da eine von 37 Zahlen ausgespielt wird, ist P ( X = 35) = P ( { 1 3 } ) . Daher besitzt die Zufallsvariable X die Verteilung Werte von X Wahrscheinlichkeiten

-1

35

36 37

1 37

und den Erwartungswert E ( X ) = - 1.36 +

3 5 · ^ = - ^ .

Auf Dauer wird der Spieler den 37ten Teil seines Einsatzes verlieren. b) Falls der Spieler eine Einheit auf das erste Dutzend D = { 1 , 2 , . . . , 12} setzt, erhält er im Falle eines Gewinns den dreifachen Einsatz ausgezahlt. Die Zufallsvariable Y , die den Reingewinn pro Spiel beschreibt, hat die Verteilung

Kapitel 5: Diskrete Zufallsvariablen

88 Werte von Y Wahrscheinlichkeiten

-1

2

25 37

12 37

und den Erwartungswert

D a die Erwartungswerte in a) und b) gleich groß sind, wird man auf Dauer mit beiden Strategien ungefähr gleich viel verlieren.

Indikatorvariable Es sei Α ein beliebiges Ereignis, welches die Wahrscheinlichkeit P(A) besitzt. Durch für ω e A ; 0 für ω ( Α wird eine Zufallsvariable, die sogenannte Indikatorvariable des Ereignisses A, definiert. Ihre Realisierung ist gleich Eins, wenn das Ereignis Α eintritt. Tritt Α ein, so ist die Realisierung gleich Null. Diese Zufallsvariable I A besitzt den Erwartungswert E ( I A ) = P(A) .

(5.10)

Die Wahrscheinlichkeit eines Ereignisses Α ist also gleich dem Erwartungswert der zugehörigen Indikatorvariablen.

Erwartungswert einer Funktion einer diskreten Zufallsva^iablen Eine beliebige reellwertige Funktion y = g (x) bilde den Wertebereich W der Zufallsvariablen X ab auf W = { y j , y 2 , . . . } . Dann ensteht durch P(Y = y j ) =

Σ P(x = *i) • : s(*i)=yj

die Verteilung einer diskreten Zufallsvariablen Y mit den Realisierungen Υ(ω) = g ( X ( w ) ) . Diese Zufallsvariable bezeichnet man mit Y = g(X). Sie besitzt einen Erwartungswert, falls folgende Reihen absolut konvergieren: E(Y) = Σ

yj · p ( Y = yj) = Σ

j

j

= Σ j

Σ >: s ( x j ) = y j

Damit gilt allgemein der

β

yj ·

Σ

Ρ(Χ = * Ϊ )

i:6(*j)=yj

(Χ;)·Ρ(Χ = Χ ; ) = Σ 8 ( Χ ϊ ) · Ρ ( Χ = Χ ί ) · 1

5.1 Eindimensionale diskrete Zufallsvariablen

89

Satz 5.1 (Funktionssatz): Es sei X eine diskrete Zufallsvariable mit dem Wertebereich W. Ferner sei y = g (x) eine reelle Funktion mit dem Definitionsbereich W . Dann besitzt die Zufallsvariable Y = g(X) genau dann einen Erwartungswert und zwar E ( Y ) = E ( g ( X ) ) = Σ g(Xi) P ( X = Xi), i falls diese Reihe absolut konvergiert mit Σ i

I g( x i) I p (

x

(5.11)

= Xj) < oo .

Erwartungswert einer linearen Transformation Alle Realisierungen x ; der Zufallsvariablen X werden gemäß y ; = a + bx ; mit a , b e R linear transformiert. Durch die Übertragung der Wahrscheinlichkeiten P ( Y = = P ( Y = a + bxj) = P ( X = x ; ) erhält man eine diskrete Zufallsvariable Y . Man nennt sie eine lineare Transformation von X und bezeichnet sie mit Y = a + bX. Ihre Verteilung lautet für b φ 0 (yj = a + b X j ; p. = P ( X = x · ) ) , x ; 6 W ( X ) . Falls X den Erwartungswert E ( X ) besitzt, erhält man den Erwartungswert der linearen Transformation Y in der Form E ( Y ) = E ( a + b X ) = £ ( a + b x j ) P(X=Xj) = a £ P ( X = X i ) + b Σ x ; P ( X = x ; )

Damit wird auch der Erwartungswert linear transformiert durch E(a + bX) = a + b - E ( X )

für a , b e R, falls E ( X ) existiert.

(5.12)

Bemerkungen: Im Falle b = 1 und a φ 0 stellt die lineare Transformation Υ = X + a eine Parallelverschiebung der Werte x ; um a dar. Dabei wird auch der Erwartungswert um den gleichen Wert a parallel verschoben. Für b = 0 erhält man eine deterministische Zufallsvariable Y = a, die mit Wahrscheinlichkeit 1 den konstanten Wert a annimmt. Dann ist a auch der Erwartungswert. Symmetrischen Verteilungen Das Stabdiagramm in Bild 5.1 ist symmetrisch zur Stelle s = 7. Diese Symmetriestelle ist der Erwartungswert.

Kapitel 5: Diskrete Zufallsvariablen

90

Definition 5.4 (symmetrische Verteilung): Die Verteilung der diskreten Zufallsvariablen X nennt man symmetrisch zur Stelle χ = s, wenn der Wertevorrat zu dieser Stelle symmetrisch liegt und jeweils die beiden von s gleich weit entfernten Werte die gleiche Wahrscheinlichkeit besitzen. Dann läßt sich der Wertebereich darstellen in der Form W = {s ± z 1 , s ± z 2 , s ± z 3 , . . . } mit Ρ ( Χ = 8 + Ζ;) = Ρ(Χ = 8 - Ζ ; ) für alle symmetrisch zu s gelegenen Wertepaare. Wir nehmen an, X sei symmetrisch zur Stelle s verteilt. Ferner existiere der Erwartungswert E(X). Dann besitzen die Zufallsvariablen X—s und — (X — s) die gleiche Verteilung und somit auch den gleichen Erwartungswert. Aus E(X — s) = E( — (X — s)) folgt nach (5.12) E ( X - s ) = E ( - ( X - s ) ) = — (Ε (X — s)), 0 = E(X — s) = E(X) - s, also E(X) = s. Damit gilt der Satz 5.2 (Erwartungswert symmetrisch verteilter Zufallsvariabler): Die Verteilung der Zufallsvariablen X sei symmetrisch zur Stelle s. Ferner besitze X einen Erwartungswert. Dann lautet er E(X) = s.

(5.13)

Bei symmetrisch verteilten Zufallsvariablen mit endlichem Wertevorrat ist die Symmetriestelle s immer gleich dem Erwartungswert. Falls der Erwartungswert nicht existiert, kann jedoch (5.13) nicht gelten. Dazu das Beispiel 5.6 (symmetrische Verteilung ohne Erwaxtungswert): Die diskrete Zufallsvariable X besitze die Verteilung W = { ± 2 n , n = 1 , 2 , 3 , . . . } ; P(X = 2 n ) = P(X = - 2 n ) = für η = 1 , 2 , . . . . Die Verteilung ist symmetrisch zu s = 0. Wegen

f*-L-=Ly L·^ on+l

n=l

*

4 L-i k=0

i = I . 2 4

9zk

= I 2

besitzen alle Werte zusammen die Wahrscheinlichkeit Eins. Aus 2 n · P(X = 2 n ) = i ; ( - 2 n ) · P(X = - 2 n ) = folgt Σ

| x i l - P ( X = Xi) = oo.

|

^

5.1 Eindimensionale diskrete Zufalls variablen

91

Die Bedingung (5.8) der absoluten Konvergenz ist hier nicht erfüllt. Durch verschiedene Summationsreihenfolgen der Produkte x ; · P(X = x ; ) = ± 1 können verschiedene Summenwerte erzeugt werden, wie wir zeigen wollen. a) Falls man jeweils einen positiven und einen negativen Wert paarweise zusammenfaßt, enstehen lauter Nullen als Summanden. Dann verschwindet auch die Summe. Der Erwartungswert würde in diesem Fall mit der Symmetriestelle s = 0 übereinstimmen. b) Nimmt man in der Summationsreihenfolge zuerst k positive (bzw. negative) Werte und danach paarweise jeweils einen positiven und einen negativen, so erhält man als Summe den Wert k/2 (bzw. — k/2). c) Faßt man jeweils zwei positive und einen negativen Wert zusammen, so entsteht die Summe oo. d) Durch Zusammenfassen von jeweils zwei negativen und einem positiven Wert erhält man die Summe — oo. Durch verschiedene Summationsreihenfolgen entstehen verschiedene Summen. Daher kann die Zufallsvariable X keinen Erwartungswert besitzen, da dieser doch von der Summationsreihenfolge unabhängig sein sollte. Eine solche Situation wird durch die Bedingung (5.8) der absoluten Konvergenz ausgeschlossen. Sie gewährleistet, daß man in (5.7) bei jeder beliebigen Summationsreihenfolge den gleichen Wert μ erhält.

5.1.5 Median einer diskreten Zufallsvariablen Wie der Mittelwert χ einer Stichprobe ist auch der Erwartungswert E(X) einer diskreten Zufallsvariablen empfindlich gegenüber einem Ausreißer, falls dieser nicht eine sehr kleine Wahrscheinlichkeit besitzt. Daher führt man wie in der beschreibenden Statistik (Abschnitt 2.7.2) auch bei diskreten Zufallsvariablen den Median ein, der mehr im Zentrum der Wahrscheinlichkeitsmasse (Verteilung) liegt. Zur Definition des Medians wird die Bestimmung des empirischen Medians aus der empirischen Verteilungsfunktion aus Abschnitt 2.7.5 formal übertragen. Dies ergibt die Definition 5.5 (Median oder Zentralwert): Jeder Wert μ e W heißt Median (Zentralwert) der diskreten Zufallsvariablen X, für den gilt: P(X