Übungen zur Statistik 9783486859300, 9783486781014

Students need intense practice in statistical methods to fully appreciate their diverse applications in the fields o

204 58 2MB

German Pages 212 Year 2014

Table of contents :
VORWORT
INHALTSVERZEICHNIS
Aufgaben
1 EINFÜHRUNG
2 EINDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN
2.1 Häufigkeitsverteilungen und graphische Darstellung
2.2 Maßzahlen von Häufigkeitsverteilungen
3 ZWEIDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN
3.1 Darstellungsweise und Grundbegriffe
3.2 Korrelationsanalyse
3.3 Regressionsanalyse
4 MULTIVARIATE ANALYSE
4.1 Darstellungsweise und Grundbegriffe
4.2 Diskriminanzanalyse
4.3 Clusteranalyse
5 ZEITREIHENANALYSE
5.1 Grundlagen
5.2 Komponentenmodelle
6 INDEXZAHLEN
6.1 Grundlagen
6.2 Gewogene Preis-, Mengen- und Wertindizes
6.3 Indexzahlprobleme
7 WAHRSCHEINLICHKEITSRECHNUNG
7.1 Zufallsvorgang und Zufallsvariable
7.2 Wahrscheinlichkeiten
7.3 Wahrscheinlichkeitsverteilungen diskreter Zufallsvariablen
7.4 Wahrscheinlichkeitsverteilungen stetiger Zufallsvariablen
7.5 Zweidimensionale diskrete Zufallsvariablen
8 SPEZIELLE WAHRSCHEINLICHKEITSVERTEILUNGEN
8.1 Spezielle diskrete Verteilungen
8.2 Spezielle stetige Verteilungen
8.3 Vermischte Aufgaben zu speziellen Verteilungen
9 STICHPROBENTHEORIE
10 SCHÄTZMETHODIK
10.1 Gegenstand der Schätzung
10.2 Punktschätzung
10.3 Intervallschätzung
11 HYPOTHESENTESTS
12 REGRESSIONSANALYSE
12.1 Das Regressionsmodell
12.2 Das klassische Regressionsmodell
12.3 Einfachregression in Stichproben
12.4 Multiple Regression in Stichproben
12.5 Annahmen im klassischen Regressionsmodell
13 QUALITATIVE EINFLUSSFAKTOREN
13.1 Test auf Anteilswertvergleich
13.2 Chi-Quadrat-Unabhängigkeitstest
13.3 Zweistichprobentest auf Mittelwertvergleich
13.4 Einfache Varianzanalyse
13.5 Regressionsanalyse mit Dummyvariablen
Lösungen
1 EINFÜHRUNG
2 EINDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN
2.1 Häufigkeitsverteilungen und graphische Darstellung
2.2 Maßzahlen von Häufigkeitsverteilungen
3 ZWEIDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN
3.1 Darstellungsweise und Grundbegriffe
3.2 Korrelationsanalyse
3.3 Regressionsanalyse
4 MULTIVARIATE ANALYSE
4.1 Darstellungsweise und Grundbegriffe
4.2 Diskriminanzanalyse
4.3 Clusteranalyse
5 ZEITREIHENANALYSE
5.1 Grundlagen
5.2 Komponentenmodelle
6 INDEXZAHLEN
6.1 Grundlagen
6.2 Gewogene Preis-, Mengen- und Wertindizes
6.3 Indexzahlprobleme
7 WAHRSCHEINLICHKEITSRECHNUNG
7.1 Zufallsvorgang und Zufallsvariable
7.2 Wahrscheinlichkeiten
7.3 Wahrscheinlichkeitsverteilungen diskreter Zufallsvariablen
7.4 Wahrscheinlichkeitsverteilungen stetiger Zufallsvariablen
7.5 Zweidimensionale diskrete Zufallsvariablen
8 SPEZIELLE WAHRSCHEINLICHKEITSVERTEILUNGEN
8.1 Spezielle diskrete Verteilungen
8.2 Spezielle stetige Verteilungen
8.3 Vermischte Aufgaben zu speziellen Verteilungen
9 STICHPROBENTHEORIE
10 SCHÄTZMETHODIK
10.1 Gegenstand der Schätzung
10.2 Punktschätzung
10.3 Intervallschätzung
11 HYPOTHESENTESTS
12 REGRESSIONSANALYSE
12.1 Das Regressionsmodell
12.2 Das klassische Regressionsmodell
12.3 Einfachregression in Stichproben
12.4 Multiple Regression in Stichproben
12.5 Annahmen im klassischen Regressionsmodell
13 QUALITATIVE EINFLUSSFAKTOREN
13.1 Test auf Anteilswertvergleich
13.2 Chi-Quadrat-Unabhängigkeitstest
13.3 Zweistichprobentest auf Mittelwertvergleich
13.4 Einfache Varianzanalyse
13.5 Regressionsanalyse mit Dummyvariablen
WAHRSCHEINLICHKEITSTABELLEN
Standardnormalverteilung
t-Verteilung
Chi-Quadrat-Verteilung
F-Verteilung

Recommend Papers

Klausurvorbereitung Statistik: Prüfungsfragen zur Deskriptiven und Schließenden Statistik 9783486599435, 9783486581133

Die Aufgaben dieses Buches richten sich an das gleiche System einer echten Statistik-Klausur: es werden fünf Antworten v

158 78 19MB Read more

Übungen zur Statistik für Wirtschaftswissenschaftler 3800658739, 9783800658732

Entwicklung eines soliden Verständnisses statistischer Methoden mit praktischem BezugDieses Übungsbuch ergänzt das Lehrb

103 5 Read more

Spaß mit Statistik: Aufgaben, Lösungen und Formeln zur Statistik 9783486599572, 9783486273243

Vielfältig motivierendes Übungs- und Studienbuch der Statistik, das sich bereits kurz nach Erscheinen einer außerordentl

140 53 36MB Read more

Statistik-Aufgabensammlung mit ausführlichen Lösungen: Übungsbuch zur Statistik im wirtschaftswissenschaftlichen Grundstudium [gründlich überarbeitete Auflage] 9783486599312, 9783486577037

Dieses Übungsbuch ist ein Angebot zum Durcharbeiten von ausführlichen Musterlösungen statistischer Aufgaben und damit id

149 86 29MB Read more

Multivariate Statistik: Lehr- und Handbuch der angewandten Statistik 9783486710793, 9783486582345

Diese umfassende Darstellung multivariater statistischer Methoden ist nicht nur ein Lehrbuch der Statistik im klassische

162 26 29MB Read more

Grundkurs Statistik: Lehr- und Übungsbuch der angewandten Statistik 9783486710946, 9783486275926

In diesem Buch werden die wesentlichen Grundlagen der Wahrscheinlichkeitsrechnung und Statistik behandelt und grundlegen

170 113 11MB Read more

Multivariate Statistik 9783486710564, 9783486585957

Neben dem Standardkanon der wichtigen multivariaten Verfahren (Diskriminanzanalyse, Hauptkomponentenanalyse, Clusteranal

155 68 28MB Read more

Klausurbaukasten Statistik 9783486838046, 9783486577914

Noch ein Übungsbuch zur Statistik? Die Frage scheint berechtigt, wenn man sich die Fülle der bereits im Handel angeboten

144 76 6MB Read more

Berbohong dengan Statistik 9799023769

Benjamin Disraeli (1804-1881) mengatakan ada tiga macam kebohongan, yaitu bohong, bohong banget, dan statistik. Kendati

111 48 3MB Read more

Matematisk statistik 9144016905

The book aims to train statistical thinking so that you can understand and use some simple statistical methods. It is st

169 73 18MB Read more

Übungen zur Statistik
9783486859300, 9783486781014

Author / Uploaded
Peter M. Schulze
Daniel Porath

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

Peter M. Schulz, Daniel Porath Übungen zur Statistik

Peter M. Schulz, Daniel Porath

Übungen zur Statistik

ISBN 978-3-486-78101-4 e-ISBN (PDF) 978-3-486-85930-0 e-ISBN (EPUB) 978-3-11-039912-7 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2014 Oldenbourg Wissenschaftsverlag GmbH, München Ein Unternehmen von Walter De Gruyter GmbH, Berlin/Boston Lektorat: Dr. Stefan Giesen Herstellung: Tina Bonertz Druck und Bindung: CPI books GmbH, Leck ♾ Gedruckt auf säurefreiem Papier Printed in Germany www.degruyter.com

Vorwort Um Fertigkeiten im Umgang mit statistischen Instrumentarien zu erhalten und die Motivation zu deren Erarbeitung zu erhöhen, sollten möglichst viele Anwendungsbeispiele eingeübt werden. Das vorliegende Übungsbuch dient - zusammen mit unserem Lehrbuch „Schulze/Porath, Statistik mit Datenanalyse und ökonometrischen Grundlagen“ - diesem Zweck. Die Gliederung hier im Arbeitsbuch ist identisch mit derjenigen des Lehrbuchs, so dass jeweils der unmittelbare Bezug hergestellt werden kann. Die Übungsaufgaben und die ausführlichen Lösungen zu allen Kapiteln des Lehrbuchs ermöglichen es, den Stoff sowohl veranstaltungsbegleitend allein oder in einer Gruppe, als auch eigenständig einzuüben. Danken möchten wir Herrn Dr. Stefan Giesen vom Oldenbourg-Verlag für die wiederum angenehme Zusammenarbeit. Mainz, im Juli 2014

Peter M. Schulze Daniel Porath

Inhaltsverzeichnis VORWORT………………...............………………...............………………...............………………...............……… V INHALTSVERZEICHNIS………………...............………………...............………………...............……………….59 Aufgaben

Lösungen

1

EINFÜHRUNG……………………………………………………………………….................. 1

63

2

EINDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN………………................ 3

65

2.1 2.2

Häufigkeitsverteilungen und graphische Darstellung……………….. 3 Maßzahlen von Häufigkeitsverteilungen………………...............………. 3

65 68

ZWEIDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN………………............ 13

89

3.1 3.2 3.3

Darstellungsweise und Grundbegriffe………………...............……..….... 13 Korrelationsanalyse………………...............………………..............………...... 14 Regressionsanalyse………………...............………………...............………...... 16

89 92 97

MULTIVARIATE ANALYSE………………...............……………….................……...... 19

103

4.1 4.2 4.3

Darstellungsweise und Grundbegriffe………………................................ 19 Diskriminanzanalyse………………...............………………................……...... 19 Clusteranalyse………………...............………………...............……………......... 19

103 103 103

ZEITREIHENANALYSE………………...............………………...............……………..... 21

107

5.1 5.2

Grundlagen………………...............………………...............………………............ 21 Komponentenmodelle………………...............………………........................... 22

107 108

INDEXZAHLEN………………...............………………...............………………................. 27

119

6.1 6.2 6.3

Grundlagen………………...............………………...............………………............ 27 Gewogene Preis-, Mengen- und Wertindizes………………....................27 Indexzahlprobleme………………...............………………................................. 30

119 119 125

WAHRSCHEINLICHKEITSRECHNUNG………………...............………………........ 33

131

7.1 7.2 7.3 7.4 7.5

Zufallsvorgang und Zufallsvariable………………...................................... 33 Wahrscheinlichkeiten………………...............………………...............……......33 Wahrscheinlichkeitsverteilungen diskreter Zufallsvariablen…..... 34 Wahrscheinlichkeitsverteilungen stetiger Zufallsvariablen…….... 35 Zweidimensionale diskrete Zufallsvariablen………………................... 36

131 132 133 138 143

SPEZIELLE WAHRSCHEINLICHKEITSVERTEILUNGEN………………........... 39

149

8.1 8.2 8.3

Spezielle diskrete Verteilungen………………..............................................39 Spezielle stetige Verteilungen………………................................................. 40 Vermischte Aufgaben zu speziellen Verteilungen…………………….. 41

149 152 155

9

STICHPROBENTHEORIE…………………………………………………………………...43

157

10

SCHÄTZMETHODIK…………………………………………………………………………. 45

159

10.1 Gegenstand der Schätzung……………………………………………………… 45 10.2 Punktschätzung……………………………………………………………………… 45 10.3 Intervallschätzung………………………………………………………………….. 46

159 159 162

3

4

5

6

7

8

VIII Aufgaben Lösungen 11 12

13

HYPOTHESENTESTS………………………………………………………………………... 49

167

REGRESSIONSANALYSE……………………………………………………………………51

171

12.1 12.2 12.3 12.4 12.5

Das Regressionsmodell…………………………………………………………… 51 Das klassische Regressionsmodell……………………………………………51 Einfachregression in Stichproben……………………………………………. 51 Multiple Regression in Stichproben………………………………………….52 Annahmen im klassischen Regressionsmodell…………………………. 54

171 172 172 175 179

QUALITATIVE EINFLUSSFAKTOREN…………………………………………………57

183

13.1 13.2 13.3 13.4 13.5

183 183 186 189 192

Test auf Anteilswertvergleich…………………………………………………. 57 Chi-Quadrat-Unabhängigkeitstest…………………………………………….57 Zweistichprobentest auf Mittelwertvergleich……………………………58 Einfache Varianzanalyse…………………………………………………………. 59 Regressionsanalyse mit Dummyvariablen……………………………….. 60

WAHRSCHEINLICHKEITSTABELLEN………………………………………………………………….…… 196 Standardnormalverteilung……………………………………………………………………………. t-Verteilung………………………………………………………………………………………………….. Chi-Quadrat-Verteilung………………………………………………………………………………… F-Verteilung…………………………………………………………………………………………………

196 198 199 200

1 Einführung

1

Aufgaben 1 Einführung Aufgabe 1-1 Im Jahr 2014 gebe es in Agrarland insgesamt 14.742 Weinbaubetriebe, die sich wie folgt nach der bestockten Rebfläche (in ha) aufgliedern lassen: Bestockte Rebfläche (in ha) von…bis unter… 1–10 10–15 15–20 20–30 30–50 50–100 100–200

Zahl der Weinbaubetriebe 5.403 3.821 2.040 1.346 930 769 433

Ordnen Sie in diesem Beispiel die Begriffe statistische Einheit, statistische Masse, Merkmal und Merkmalsausprägung zu. Weitere Teilaufgabe siehe Aufgabe 2.2-6. Aufgabe 1-2 An einem Lehrstuhl bewerben sich die Kandidaten A bis H. Als studentisches Mitglied der Berufungskommission haben Sie eine Rangfolge dieser acht Bewerber im Hinblick auf ihre Leistungen in Forschung und Lehre erstellt: Platz 1 2 3 4 5 6 7 8

Forschung A B C H D E G F

Lehre C B D F G A E H

Ordnen Sie in diesem Beispiel die Begriffe statistische Einheit, statistische Masse, Merkmal, Merkmalsträger und Merkmalsausprägung zu, und erläutern Sie die Begriffe. Weitere Teilaufgabe siehe Aufgabe 3.2-2. Aufgabe 1-3 Merkmale lassen sich dadurch unterscheiden, ob sie quantitativer oder qualitativer, nominaler, ordinaler oder metrischer, stetiger oder diskreter Art sind. Erläutern Sie diese Merkmalsarten und ordnen Sie die folgenden Merkmale entsprechend zu: Lebensalter, Temperatur, Arbeitslosenzahlen, Lagerbestand in Stück, Staatsangehörigkeit, Preis, Güteklasse, Klausurnote.

2 Eindimensionale Häufigkeitsverteilungen

3

2 Eindimensionale Häufigkeitsverteilungen 2.1

Häufigkeitsverteilungen und graphische Darstellung

Aufgabe 2.1-1 Wie lassen sich Häufigkeiten bei qualitativen, quantitativ-diskreten und quantitativ-stetigen Merkmalen sinnvoll graphisch darstellen? Aufgabe 2.1-2 Bei einer Untersuchung der Lebensdauer (X) von 16 Kühlaggregaten bis zum ersten Ausfall ergaben sich die in folgender Tabelle angegebenen Zeiten (in Jahren): i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 xi 0,14 0,27 0,43 0,68 0,81 1,14 1,45 1,82 2,36 2,53 2,90 3,45 4,51 5,12 5,68 7,84

a) Berechnen Sie zu den angegebenen Daten die empirische Verteilungsfunktion F(x) und stellen Sie diese graphisch dar. b) Bilden Sie die Lebensdauerklassen K1 = [0;1], K2 = ]1;2], ..., K8 = ]7;8] der Breite von einem Jahr und berechnen Sie mit den Daten der Tabelle die absoluten und relativen Klassenhäufigkeiten (]x;y] bedeutet: „von über x bis einschließlich y“). Bestimmen Sie (graphisch und tabellarisch) Histogramm und empirische Verteilungsfunktion zu den gruppierten Daten. Unterstellen Sie bei der graphischen Darstellung der empirischen Verteilungsfunktion, dass eine Gleichverteilung der Merkmalswerte innerhalb der Klassen vorliegt. c) Wie viele Klassen sollten in diesem Fall nach der Formel von Sturges gebildet werden? Welchen Sinn hat die Bildung von Klassen für eine Menge von Daten, welche Nachteile ergeben sich, wenn zu wenig bzw. zu viele Klassen gebildet werden.

2.2

Maßzahlen von Häufigkeitsverteilungen

Mittelwerte Aufgabe 2.2-1 Zur Analyse der Lagerhaltungskosten ermittele ein Betrieb die Lagerdauer eines Produkts (als 100er Packung): Lagerdauer in Tagen Anzahl des Produkts

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

4

7

5

2

5

4

6

7

2

3

6

14

7

3

8

7

a) Wie hoch ist die durchschnittliche Lagerdauer des Produkts? b) Wie lautet der Medianwert, und wie ist er zu interpretieren? Aufgabe 2.2-2 Eine vor kurzem durchgeführte Befragung von 30 Arbeitern der Logit AG ergab für die Stundenlöhne in € folgende Liste:

4

2 Eindimensionale Häufigkeitsverteilungen 8,35 9,10 10,45

8,80 8,50 8,05

7,75 7,55 7,90

8,95 9,25 8,20

8,20 8,60 9,20

9,10 7,45 7,15

8,64 9,86 9,40

10,00 8,50 8,60

8,45 9,95 9,10

9,25 8,80 8,50

a) Berechnen Sie für die angegebenen Stundenlöhne das arithmetische Mittel. b) Für die Löhne der obigen Liste wurden folgende Lohngruppen gebildet: 7,00 € 8,00 € 8,50 € 9,00 € 9,50 €

bis unter bis unter bis unter bis unter bis unter

8,00 € 8,50 € 9,00 € 9,50 € 10,50 €

Berechnen Sie daraus den durchschnittlichen Stundenlohn, und gehen Sie dabei davon aus, dass die tatsächlichen Klassenmittelwerte unbekannt sind. Wieso ergeben sich Unterschiede zu a)? Aufgabe 2.2-3 Bei einer Untersuchung der Eigenkapitalquote von Unternehmen eines bestimmten Wirtschaftszweigs ergab sich folgende Verteilung: Eigenkapitalquote (in %) von…bis unter… 0–15 15–25 25–35 35–50 50–100

Anzahl der Unternehmen 11 19 45 55 40

Berechnen und interpretieren Sie a) b) c) d)

das arithmetische Mittel, den Median (Angabe der Klasse und Feinberechnung) und den Modalwert (Angabe der Klasse und Feinberechnung) der Verteilung. Vergleichen Sie die Ergebnisse aus a), b) und c) und treffen Sie eine Aussage über die Schiefe der Verteilung.

Aufgabe 2.2-4 Das Lohn- und Gehaltsbüro der Firma Data KG liefert folgende Zahlen zur Einkommensverteilung im Unternehmen: Bruttomonatsverdienst (in €) von…bis unter… 0–2.000 2.000–3.000 3.000–3.500 3.500–4.000 4.000–4.500 4.500–5.000 5.000–7.000 7.000–10.000

fi 2 6 4 5 4 4 6 9

a) Wie hoch ist der durchschnittliche Bruttomonatsverdienst? b) Berechnen Sie den Modus (Angabe der Klasse und Feinberechnung). c) Welchen Wert erhält man für den Median (Angabe der Klasse und Feinberechnung)?

2 Eindimensionale Häufigkeitsverteilungen

5

Aufgabe 2.2-5 In einer expandierenden Branche steigerte sich der Umsatz von 100 Mio. € im Jahr 2009 auf 250 Mio. € im Jahr 2014. Wie groß sind die durchschnittlichen jährlichen Zuwachsraten im betrachteten Zeitraum? Aufgabe 2.2-6 In einem bestimmten Jahr habe es in Agrarland insgesamt 14.742 Weinbaubetriebe gegeben, die sich wie folgt nach der bestockten Rebfläche (in ha) aufgliedern ließen: Bestockte Rebfläche (in ha) von…bis unter… 1–10 10–15 15–20 20–30 30–50 50–100 100–200

Zahl der Weinbaubetriebe 5.403 3.821 2.040 1.346 930 769 433

Berechnen Sie a) das arithmetische Mittel, b) den Modus (Angabe der Klasse und Feinberechnung) und c) den Median (Angabe der Klasse und Feinberechnung) der Verteilung. Aufgabe 2.2-7 Eine Hotelkette gibt die jährlichen Wachstumsraten ihres Gewinns vor Steuern der vergangenen sieben Jahre wie folgt an: 6,8 %

4,2 %

-10,3 %

12,4 %

-1,8 %

7,9 %

3,0 %

Berechnen Sie die durchschnittliche jährliche Wachstumsrate des Gewinns vor Steuern für die vergangenen sieben Jahre. Aufgabe 2.2-8 Erläutern Sie verbal, unter welchen Umständen sinnvollerweise das arithmetische bzw. das geometrische Mittel anzuwenden ist. Aufgabe 2.2-9 Berechnen Sie die mittlere Lebensdauer der 16 Kühlaggregate aus Aufgabe 2.1-2, indem Sie a) die Originaldaten, b) die Klasseneinteilung aus Aufgabe 2.1-2 b). benutzen und annehmen, dass die tatsächlichen Klassenmitten unbekannt seien. Aufgabe 2.2-10 Ein Autofahrer fährt von B nach N. Auf dem Hinweg (Rush-Hour) fährt er 7,2 km je Liter Benzinverbrauch, auf dem Rückweg fährt er 12,0 km je Liter Benzinverbrauch. Wie viel km fährt er im Durchschnitt je Liter Benzinverbrauch?

6

2 Eindimensionale Häufigkeitsverteilungen

Aufgabe 2.2-11 Der Ringkämpfer Arno Sumo hat sich in den letzten Jahren darum bemüht, systematisch Gewicht aufzubauen. Die folgende Tabelle zeigt sein Gesamtgewicht am Ende eines jeden Jahres: Jahr Gewicht in kg

1 111

2 123

3 128

4 137

5 139

a) Wie hoch ist das Durchschnittsgewicht von Arno in den Jahren 1 bis 5? b) Berechnen Sie die durchschnittliche prozentuale Gewichtszunahme. Aufgabe 2.2-12 Eine Bausparkasse möchte die Produktivität ihrer Mitarbeiter im Januar 2014 anhand ihrer Vertragsabschlüsse überprüfen. Zu diesem Zweck lässt sie sich alle Bausparverträge des Monats unter Angabe des Mitarbeiternamens und der jeweiligen Abschlusshöhe (in 1.000 €) auflisten: Mitarbeiter A B C D E

Abschlusshöhe der Abschlüsse der Mitarbeiter 13, 15, 15, 16, 17, 17, 18, 19, 21, 21, 23, 24, 25, 27, 32, 33, 33, 35, 37, 41, 43, 45, 50, 52 15, 15, 16, 16, 19, 21, 25, 27, 30, 33, 37, 37, 38, 40, 42 16, 17, 19, 19, 21, 25, 28, 30, 39, 40 40, 45, 45, 57, 60, 60, 65 13, 15, 23, 29

Bestimmen Sie für die Mitarbeiter A und D a) das arithmetische Mittel, b) den Median, sowie c) das untere und das obere Quartil der Bausparabschlüsse. Aufgabe 2.2-13 Eine Bank in Europa bietet Herrn Kornworm zwei festverzinsliche Wertpapiere an. Bei den zwei Papieren ist eine Einlage von je 1.000 € zu tätigen, die Zinsen werden jeweils mit den eingelegten 1.000 € ausgezahlt. Allerdings haben die Papiere unterschiedliche Zinsstrukturen: Jahr 1. Jahr 2. Jahr 3. Jahr 4. Jahr 5. Jahr

Wertpapiere A B 5,3 % 5,6 % 5,5 % 5,6 % 5,7 % 5,6 % 5,9 % 6,0 % 6,1 % 6,0 %

Beurteilen Sie anhand der durchschnittlichen jährlichen Zinssätze der beiden Papiere, welches für Herrn Kornworm das günstigere ist. Benutzen Sie für die Berechnung des durchschnittlichen jährlichen Zinssatzes von Wertpapier A das geometrische Mittel entsprechend der Definitionsformel, für Wertpapier B die Formel mit den logarithmischen Werten.

2 Eindimensionale Häufigkeitsverteilungen

7

Streuungsmaße Aufgabe 2.2-14 Für die drei Putzkolonnen eines Reinigungsunternehmens ergeben sich je nach Alter, Dauer der Betriebszugehörigkeit und Einsatzgebiet folgende Einkommen (in € pro Monat): (1) 1.312; 1.415; 1.193; 1.198; 1.074; 1.273; (2) 1.468; 1.379; 1.387; 1.411; (3) 1.163; 1.268; 1.198; 1.227; 1.320.

Berechnen Sie für jede Kolonne das Durchschnittseinkommen, den Median, die Spannweite, die Varianz und die Standardabweichung. Aufgabe 2.2-15 Berechnen Sie für die Verteilung der Lebensdauer von 16 Kühlaggregaten aus Aufgabe 2.1-2 die Standardabweichung, indem Sie a) die Originaldaten, b) die Klasseneinteilung aus Aufgabe 2.1-2b) benutzen und annehmen, dass die tatsächlichen Klassenmittelwerte unbekannt sind. Aufgabe 2.2-16 Die monatlichen Haushaltseinkommen (in Geldeinheiten: GE) der Privathaushalte eines Landes für einen bestimmten Monat sind durch die folgende Tabelle beschrieben: Monatliches Absolute Klasse i Haushaltseinkommen Häufigkeit fi in GE von…bis unter… 1 unter 1.200 4.479 2 1.200–1.800 5.194 3 1.800–2.500 5.605 4 2.500–3.000 2.752 5 3.000–4.000 3.429 6 4.000–5.000 1.356 7 5.000–10.000 1.079

Berechnen Sie den Median, die Quartile Q1 und Q3 und den Quartilsabstand QA (mit Feinberechnung).

8

2 Eindimensionale Häufigkeitsverteilungen

Aufgabe 2.2-17 Gegeben sind die folgenden Daten für die Zahl der Beschäftigten je Einzelhandelsunternehmung in den Landkreisen A (xi)und B (yi): Landkreis A: xi fi 10 4 20 5 30 6 40 10 50 6 60 5 70 4

Landkreis B: yi fi 20 50 30 10 40 30 50 100 60 160 70 20 80 80

a) Berechnen Sie das arithmetische Mittel und die Standardabweichung der beiden Häufigkeitsverteilungen. b) Ermitteln Sie auch die jeweiligen Variationskoeffizienten und erläutern Sie, warum ein Streuungsvergleich anhand der Standardabweichungen in dem Beispiel nicht sinnvoll ist. Aufgabe 2.2-18 Gegeben seien folgende Zahlen des Bruttoinlandsproduktes (BIP) pro Einwohner in den verschiedenen Regionen eines Landes zu zwei verschiedenen Zeitpunkten t1 und t2 (in jeweiligen Preisen):

Region A B C D E F G H I

BIP pro Einwohner (in Tausend €) t1 (x1) t2 (x2) 5,665 20,372 4,899 18,519 7,203 26,941 5,497 20,036 4,856 16,874 5,800 19,438 4,438 17,260 4,762 17,431 3,390 16,154

Prüfen Sie, ob das Bruttoinlandsprodukt pro Einwohner in t1 eine geringere Streuung aufweist als in t2.

2 Eindimensionale Häufigkeitsverteilungen

9

Formparameter Aufgabe 2.2-19 Eine Untersuchung über die störungslosen Einsatzdauern eines bestimmten Maschinentyps führte zu den folgenden Angaben (in Stunden): Einsatzdauer (in Std.) von…bis unter… 500–1.000 1.000–2.000 2.000–3.000 3.000–4.000 4.000–6.000

Anzahl der Aggregate 12 22 41 19 6

Berechnen Sie den Median und das Schiefemaß aus den Quartilen. Aufgabe 2.2-20 Unterstellen Sie, eine Verteilung sei eingipflig (unimodal). Schließen Sie von folgenden Angaben auf die Form der zugrundeliegenden Verteilung. a) X = Z = M

b) X > Z > M

c) X < Z < M

Aufgabe 2.2-21 Der Chef eines Unternehmens möchte sich über die täglich zu überwindenden Entfernungen seiner Mitarbeiter zum Arbeitsplatz informieren. Vom Personalbüro wird ihm nach Befragung der Beschäftigten nachfolgende Tabelle übersandt: i 1 2 3 4 5

Entfernung (in km) Anzahl der von…bis unter… Beschäftigten fi 0–1 7 1–5 24 5–15 35 15–30 18 30–50 16

Beurteilen Sie anhand der Fechnerschen Lageregel, dem 1. und 2. Schiefemaß nach Pearson und dem Schiefemaß aus den Quartilen, ob die Häufigkeitsverteilung der Entfernungen zum Arbeitsplatz linksschief, rechtsschief oder symmetrisch ist. Welcher Anfahrtsweg ist in dieser Unternehmung „typisch“? Aufgabe 2.2-22 Erläutern Sie, was unter den Momenten einer Häufigkeitsverteilung zu verstehen ist. Zeigen Sie außerdem, dass das 1. Moment um null dem arithmetischen Mittel und das 2. Moment um X der Varianz entspricht.

10

2 Eindimensionale Häufigkeitsverteilungen

Aufgabe 2.2-23 Zum Lebensalter der Mitarbeiter eines Betriebes wurden folgende Parameter bestimmt: N = 981 x ( ) = 18 x ( ) = 69 X = 40,05 S² = 87,12 S = 9,33 SM = 0,016 μ = Ku = 2,59

Perzentile 1% 20 5% 25 25 % 33 50 % 40 75 % 47 95 % 56 99 % 61

Beschreiben Sie die Häufigkeitsverteilung des Alters. Konzentrationsmaße Aufgabe 2.2-24 In den 80 Regionen eines Erdteils wurden in einem bestimmten Jahr die folgenden Durchschnittseinkommen festgestellt: Durchschnittseinkommen (in $) von…bis unter… 0–500 500–1.000 1.000–2.000 2.000–3.000 3.000–5.000

Zahl der Regionen 6 16 25 23 10

a) Zeichnen Sie die Lorenzkurve für die Einkommensverteilung. b) Berechnen und interpretieren Sie den Gini-Koeffizienten. c) In einer früheren Untersuchung ergab sich ein Gini-Koeffizient von 0,4. Ist die Verteilung gleichmäßiger geworden? Aufgabe 2.2-25 In einer Kleinstadt vereinen fünf Textileinzelhandelsgeschäfte den gesamten Markt auf sich: Geschäft Kaufgut Klamotte Müller Moden Preisland Textil Meyer

Jahresumsatz (in Tausend €) 900 800 600 600 400

a) Berechnen und interpretieren Sie die Konzentrationsrate für m = 2. b) Welchen Wertebereich besitzt der Herfindahl-Index? Wie sind die Extremwerte zu interpretieren? c) Berechnen und interpretieren Sie den Herfindahl-Index.

2 Eindimensionale Häufigkeitsverteilungen

11

Aufgabe 2.2-26 Gegeben sei die Verteilung des Steueraufkommens eines Jahres auf die einzelnen Steuern in Mio. Goldtalern: Steuern Gesellschaftssteuer Börsenumsatzsteuer Versicherungssteuer Wechselsteuer Tabaksteuer Kaffeesteuer Teesteuer Zuckersteuer Salzsteuer Branntweinabgabe Schaumweinsteuer Leuchtmittelsteuer Mineralölsteuer Summe

xi 214 30 8.094 48 19.253 2.125 59 183 54 5.544 1.083 200 55.166 92.053

Berechnen Sie die KonzentrationsrateK sowie den Herfindahl-Index, und interpretieren Sie die Ergebnisse. Aufgabe 2.2-27 Auf einem Gütermarkt gibt es drei Anbieter, von denen jeder den gleichen Marktanteil besitzt. a) Wie beurteilen Sie die relative Konzentration und die Konzentration unter Wettbewerbsgesichtspunkten? b) Welchen Wert hätte der Gini-Koeffizient? Aufgabe 2.2-28 In einem Dorf mit nur acht Haushalten ergibt eine Totalerhebung zur Ermittlung des Dorfeinkommens folgendes Ergebnis: Jahreseinkommen (in Tausend €): 30, 40, 45, 50, 60, 65, 70, 90

a) b) c) d)

Berechnen Sie die Konzentrationsrate (m = 3). Berechnen Sie den Herfindahl-Index. Berechnen Sie den Gini-Koeffizienten. Für das erheblich größere Nachbardorf werden folgende Werte ermittelt: K

= 0,48, K = 0,12, G = 0,27.

In welchem Dorf sind die Einkommen vermutlich gleichmäßiger verteilt?

12

2 Eindimensionale Häufigkeitsverteilungen

Aufgabe 2.2-29 Um die Konzentration von Unternehmen in zwei Branchen vergleichen zu können, werden die Unternehmen der Branchen gemäß ihrer Beschäftigtenzahlen geordnet. Branche A Die … größten UnBeschäftigte ternehmen Anzahl Anzahl % 4 5.000 50,0 8 8.000 80,0 12 8.500 85,0 16 9.000 90,0 20 9.500 95,0 24 10.000 100,0

Die ... größten Unternehmen Anzahl 3 6 9 12

Branche B Beschäftigte Anzahl 2.000 2.700 2.900 3.000

% 66,7 90,0 96,7 100,0

Beispielsweise arbeiten in den acht größten Unternehmen der Branche 8.000 Beschäftigte, d. h. 80 % der insgesamt in Branche A Beschäftigten. Bestimmen Sie die Lorenzkurven für die beiden Branchen (zeichnen Sie beide Lorenzkurven in ein Diagramm) und berechnen Sie die Gini-Koeffizienten. Aufgabe 2.2-30 Fünf Kinder spielen miteinander Murmeln. Während am Anfang des Spieles jedes Kind zehn Murmeln besaß, verändern sich die Besitzverhältnisse von Runde zu Runde: Kind A B C D E

Anzahl der Murmeln pro Kind 1. Runde 5. Runde 10. Runde 10 7 2 10 12 16 10 6 0 10 9 4 10 16 28

a) Berechnen Sie die Konzentrationsrate für die 2 „reichsten“ Kinder vor der 1., der 5. und der 10. Runde. Berechnen Sie jeweils für die Verteilung der Murmeln vor der 1., der 5. und der 10. Runde b) den Herfindahl Index, c) den Konzentrationsindex nach Rosenbluth, d) den Gini-Koeffizienten, und geben Sie jeweils den maximal und den minimal möglichen Indexwert an.

3 Zweidimensionale Häufigkeitsverteilungen

13

3 Zweidimensionale Häufigkeitsverteilungen 3.1

Darstellungsweise und Grundbegriffe

Aufgabe 3.1-1 Die Aufgliederung der Mitarbeiter eines mittelständischen Unternehmens nach den Merkmalen Geschlecht (Merkmal A) und Alter (Merkmal B) ergibt folgende Zahlen: Merkmalsausprägungen männlich bis 20 Jahre weiblich bis 20 Jahre männlich 21–40 Jahre weiblich 21–40 Jahre männlich 41–60 Jahre weiblich 41–60 Jahre

fi 15 22 67 33 43 20

a) Bestimmen Sie die gemeinsame relative Häufigkeitsverteilung der Merkmale Geschlecht und Alter sowie die dazugehörigen Randverteilungen. b) Bestimmen Sie die bedingte Häufigkeitsverteilung des Merkmals Geschlecht bei gegebenem Alter und interpretieren Sie die Werte. c) Sind die Merkmale A und B unabhängig? Aufgabe 3.1-2 Ein Lebensmittelhändler hat morgens auf dem Großmarkt jeweils zwei Kisten mit Tomaten der Handelsklasse I und III eingekauft. In seinem Geschäft stellt er bei einer Überprüfung der Ware fest, dass alle Kisten auch einige faule Tomaten enthalten. Von den 63 Tomaten der Handelsklasse I können noch 57 zum Verkauf angeboten werden, während von den 104 Tomaten der Handelsklasse III 48 Fäulnisbildung aufweisen, so dass er diese nicht mehr in den Gemüsestand legen kann. a) Stellen Sie den Sachverhalt in einer zweidimensionalen Häufigkeitstabelle dar. b) Erläutern Sie den Begriff der statistischen Unabhängigkeit. c) Gibt es zwischen der Handelsklasse und der Fäulnisbildung einen Zusammenhang? Aufgabe 3.1-3 Die Wohnbevölkerung (in 1.000 Personen) eines bestimmten Landes zu einem bestimmten Zeitpunkt, aufgegliedert nach dem Familienstand und dem Geschlecht, ist durch die folgende Tabelle beschrieben: Familienstand (A) ledig verheiratet verwitwet geschieden

Geschlecht (B) männlich weiblich 12.039,3 11.391,5 15.007,9 15.120,5 781,7 4.643,8 694,0 1.034,1

a) Bestimmen Sie die gemeinsame relative Häufigkeitsverteilung der beiden Merkmale sowie die Randverteilungen und die bedingten Verteilungen. b) Wie sind die bedingten Häufigkeiten p(a |b ) und p(b |a ) zu interpretieren?

14

3 Zweidimensionale Häufigkeitsverteilungen

Aufgabe 3.1-4 Zur Wohnbevölkerung eines Landes zählten an einem Stichtag 61.712.800 Personen, darunter 32.189.900 Frauen. Die nach dem Geschlecht differenzierte Wohnbevölkerung verteilte sich wie folgt auf den Familienstand: Familienstand (A) ledig verheiratet verwitwet geschieden

Geschlecht (B) männlich weiblich 0,442 0,354 0,508 0,470 0,026 0,144 0,024 0,032

Interpretieren Sie die Werte in dieser Tabelle, und ermitteln Sie die gemeinsame relative Häufigkeitsverteilung der beiden Merkmale sowie die Randverteilungen.

3.2

Korrelationsanalyse

Aufgabe 3.2-1 Ein Unternehmen beschäftigt insgesamt 500 Mitarbeiter. Unter den 400 gemäß Tarifvertrag beschäftigten Mitarbeitern sind 160 Ausländer. Jeder fünfte Deutsche besitzt einen außertariflichen Vertrag. Führen Sie eine Korrelationsanalyse durch, und interpretieren Sie das Ergebnis. Aufgabe 3.2-2 Aufgabentext siehe Aufgabe 1-2. Berechnen und interpretieren Sie ein Zusammenhangsmaß zwischen Ihren Bewertungen in den beiden Kategorien. Aufgabe 3.2-3 Die Firma Lausig GmbH will einen neuen Marketingchef einstellen. Hierzu wird ein Assessment-Center mit zehn Kandidaten veranstaltet. Der Vorstandsassistent sowie der Personalchef beurteilen die Kandidaten anhand eines Punkteschemas von 1 (völlig ungeeignet) bis 8 (hervorragend geeignet). Kandidat 1 2 3 4 5 6 7 8 9 10

Punkte Vorstandsassistent 4 4 5 8 2 4 3 7 6 1

Punkte Personalchef 5 4 5 7 2 6 3 8 7 1

a) Wie sind die betrachteten Merkmale skaliert? Wie lassen sie sich charakterisieren? b) Berechnen und interpretieren Sie einen geeigneten Korrelationskoeffizienten.

3 Zweidimensionale Häufigkeitsverteilungen

15

Aufgabe 3.2-4 Bei sechs Unternehmen einer Branche wird der Zusammenhang zwischen Umsatz und Werbeaufwand untersucht. Es wurden letztes Jahr folgende Werte ermittelt: Umsatz (in Mio. €) 80 100 150 160 240 290

Werbeaufwand (in Mio. €) 3 6 7 9 15 20

Bestimmen Sie die Stärke des Zusammenhangs zwischen Umsatz und Werbeaufwendungen. Welche Zeitreihe weist den höheren Variationskoeffizienten auf? Aufgabe 3.2-5 Die Personalabteilung eines mittelständischen Unternehmens vermutet einen Zusammenhang zwischen der Zahl der krankheitsbedingten Fehltage seiner 200 Mitarbeiter und der Art deren Tätigkeit im Unternehmen. Aufgrund einer unternehmensinternen Codierung ergab sich folgende Datentabelle: Fehltage

wenige

normal

viele

27 62 0

42 30 3

Tätigkeit Körperliche Arbeit Bürotätigkeit Management

13 21 2

Beurteilen Sie die Stärke des Zusammenhanges zwischen den beiden betrachteten Merkmalen mit Hilfe eines geeigneten Koeffizienten. Aufgabe 3.2-6 Nennen Sie für folgende Zusammenhänge einen jeweils geeigneten Korrelationskoeffizienten: a) Zusammenhang zwischen „Alkoholkonsum in Litern pro Tag“ und „erreichtem Alter“. b) Zusammenhang zwischen „Platz in der Bundesligatabelle“ und „Anzahl der erzielten Tore“. c) Zusammenhang zwischen Reallohn und Arbeitslosenrate (Ursprüngliche Phillipskurve). d) Zusammenhang zwischen „FDP- bzw. Grünenwähler“ und „Fahrrad- bzw. Mercedesfahrern“. Aufgabe 3.2-7 In einer Firma, die Personalcomputer für den Bürobedarf herstellt, haben sich die Beschäftigtenzahlen in acht Jahren, getrennt nach Arbeitern und Angestellten, verschieden entwickelt: Jahr Beschäftigte Zahl der Arbeiter (X) Zahl der Angestellten (Y)

1

2

3

4

5

6

7

8

496 68

512 75

537 84

539 93

574 86

608 72

654 66

692 54

a) Berechnen Sie als Maß des Zusammenhangs zwischen Arbeiter- und Angestelltenzahl den Korrelationskoeffizienten nach Bravais-Pearson.

16

3 Zweidimensionale Häufigkeitsverteilungen

b) Wie groß ist die Korrelation, wenn nur die Beschäftigtenzahlen aus den Jahren 1 bis 4 zugrunde gelegt werden? c) Stellen Sie die in a) und b) gewonnenen Ergebnisse graphisch in einem Koordinatensystem dar. Aufgabe 3.2-8 Berechnen Sie für folgende zweidimensionale Häufigkeitsverteilung die quadratische Kontingenz und den Phi-Koeffizienten. Merkmalsträger sind die Studienanfänger eines Jahres in einem bestimmten Land. Merkmal A beschreibt den besuchten Hochschultyp (A1: Kunsthochschule, A2: Verwaltungsfachhochschule), Merkmal B bezeichnet das Geschlecht des jeweiligen Merkmalträgers (B1: weiblich, B2: männlich). Die folgende Tabelle zeigt die Personenzahl fij.: A1 A2

B1 37 259

B2 48 439

Interpretieren Sie das Ergebnis. Welche Überlegung steht hinter dem Versuch, die Stärke des Zusammenhangs zweier Merkmale durch die quadratische Kontingenz anzugeben? Aufgabe 3.2-9 Ein Unternehmen möchte wissen, ob zwischen den Werbeausgaben und dem Absatz an große Kunden ein Zusammenhang besteht. Da die Werbeausgaben den einzelnen Kunden nicht exakt zugeordnet werden können, ordnet man dem Kunden, für den die vermutlich niedrigsten Werbeausgaben getätigt wurden, die Rangnummer 1 zu. Dem Kunden, für den vermutlich die zweitniedrigsten Werbeausgaben getätigt wurden, wird die Rangnummer 2 zugeteilt usw. Es ergibt sich: Kunde Absatz je Kunde in Tsd. € Rangnummer der Werbekosten

A 210 1

B 220 2

C 240 3

D 240 4

E 320 5

F 400 6

G 410 7

H 480 8

Berechnen Sie die Stärke des Zusammenhangs zwischen den Werbekosten und dem Absatz je Kunde.

3.3

Regressionsanalyse

Aufgabe 3.3-1 Gegeben seien der Korrelationskoeffizient nach Bravais-Pearson  mit 0,86, die Varianz S des Merkmals X (Regressor) mit 5,36, die Varianz S des Merkmals Y (Regressand) mit 17,85, das arithmetische Mittel X für das Merkmal X mit 23,47 und das arithmetische Mittel Y für das Merkmal Y mit 48,32. a) Ermitteln Sie die zugehörige Regressionsgerade nach der KQ-Methode. Unterstellen Sie dabei eine linearen Abhängigkeit. b) Was können Sie über die Summe der Residuen aussagen? c) Beurteilen Sie die Anpassungsgüte der Regression. d) Welche Aussage lässt der Wert des Korrelationskoeffizienten  zu? e) Nehmen Sie für X einen Individualwert von 19,97 an, und bestimmen Sie den zugehörigen Y-Wert.

3 Zweidimensionale Häufigkeitsverteilungen

17

Aufgabe 3.3-2 Auf Basis von 14 mittelständischen Unternehmen einer Branche wurde folgende Regressi( ) +ε. onsgleichung berechnet: G = −2,42 + 0,65 ∙ Inv (

)

Dabei steht G für den Gewinn des Unternehmens i im Jahr 2014 (in Mio. €) und Inv für die vom Unternehmen i im Jahr 2013 getätigten Netto-Investitionen (in Mio. €). Weiterhin sei gegeben: ∑(G − G) = 98,6128 ∑(Inv − Inv) = 107,1832. a) Interpretieren Sie die angegebene Regressionsbeziehung. b) Treffen Sie eine Aussage über die Güte der Anpassung der Regressionsbeziehung. Aufgabe 3.3-3 Ein Unternehmen der Druckindustrie möchte nach einer Umstrukturierung seine neue Kostenfunktion für den Druck von Postwurfsendungen ermitteln. Dazu werden acht Aufträge betrachtet. Man nimmt an, dass die Kosten linear von der Anzahl der gedruckten Exemplare abhängen. Es liegen folgende Werte vor: Kosten (in Tausend €) 4,4 5,2 3,7 4,2 5,3 4,6 3,4 5,2

Anzahl der Druck-Exemplare (in Tausend) 25 32 18 21 34 25 15 30

a) Bestimmen Sie die Regressionsgerade und interpretieren Sie die ermittelten Werte. b) Wie groß ist der Determinationskoeffizient? Aufgabe 3.3-4 Die in folgender Tabelle aufgeführten Daten geben einen Überblick über die Entwicklung der Arbeitslosenzahlen und der offenen Stellen der Jahre 1 bis 9 in Schlaraffia-Land: Jahr offene Stellen Arbeitslose

1 2 3 4 5 6 7 8 9 3.010 3.041 3.439 4.382 4.379 2.911 1.335 987 1.217 15.166 15.594 15.420 13.826 14.764 19.899 28.775 36.743 38.917

a) Zeichnen Sie ein Streudiagramm für die Anzahl der offenen Stellen (X) und die Arbeitslosenzahlen (Y). b) Bestimmen Sie die Regressionsgerade mittels der Kleinstquadratmethode, und zeichnen Sie sie in das Streudiagramm ein. c) Berechnen Sie das Bestimmtheitsmaß (Determinationskoeffizient) und erläutern Sie, was dieses Maß aussagt. d) Prognostizieren Sie die Anzahl der Arbeitslosen bei 700 offenen Stellen.

18

3 Zweidimensionale Häufigkeitsverteilungen

Aufgabe 3.3-5 Der mittlerweile arbeitslose Betriebswirt K aus M hatte in besseren Zeiten folgendes verfügbare Monatseinkommen (Y), von dem er seine Ersparnisse (S) bestritt: Y S

2.500 260

2.600 270

2.700 270

2.850 280

2.900 310

3.100 300

3.450 350

3.500 370

3.550 380

3.600 400

a) Bestimmen Sie die Regressionsgerade s = β + β y . b) Errechnen Sie den Korrelationskoeffizienten . c) Welche Sparbeträge würde man bei einem Einkommen von 3.000 € erwarten? Aufgabe 3.3-6 Für eine Regressionsgerade, die eine lineare Beziehung zwischen Geburtenziffern und Storchenhäufigkeit postuliert, wurde ein Determinationskoeffizient von 0,9 errechnet. Ist die Interpretation, die Storchenhäufigkeit sei für die Entwicklung der Geburtenziffer ursächlich, korrekt? Erläutern Sie in diesem Zusammenhang den Aussagegehalt von R2 und . Aufgabe 3.3-7 Zur groben Abschätzung der Steuereinnahmen des Staates benutzt man manchmal eine Regressionsgleichung, in der die Steuereinnahmen (Y) als abhängig vom Bruttoinlandsprodukt (X) dargestellt werden: y = b + b x + ε . Für das Land Eistal erhält man aus der dortigen volkswirtschaftliche Gesamtrechnung folgende Angaben (in 108 Eistalern (ET)): Jahr yi xi

I 6,61 33,69

II 7,32 34,41

III 7,49 33,99

IV 7,86 34,49

V 8,14 35,05

VI 8,49 35,36

VII 8,53 35,98

VIII 8,89 36,66

Daraus wurde berechnet: ∑

x = 279,63

∑

x = 9.781,293

∑

(x − X) = 7,175

∑

y = 63,33

∑

y = 505,287

∑

(y − Y) = 3,951

∑

x y = 2.218,578

∑

(x − X)(y − Y) = 4,958.

a) Berechnen Sie die Koeffizienten der Regressionsgerade, den Determinationskoeffizienten sowie die Summe der quadrierten Restwerte (nicht erklärte Abweichungen). Interpretieren Sie Ihr Ergebnis. b) Mit welchen durchschnittlichen Steuereinnahmen kann man im Jahr IX rechnen, wenn das Bruttoinlandsprodukt mit seiner durchschnittlichen Wachstumsrate der Jahre III bis VIII wächst? Benutzen Sie zur Abschätzung die in a) ermittelte Regressionsbeziehung.

4 Multivariate Analyse

19

4 Multivariate Analyse 4.1

Darstellungsweise und Grundbegriffe

Aufgabe 4.1-1 Für die drei Regierungsbezirke von Larifari liegen folgende Daten zum verfügbaren Einkommen je Einwohner (in 1.000 Lari-Dollar) und zur Bruttowertschöpfung (BWS) je Erwerbstätigen (in 1.000 Lari-Dollar) für das Jahr 2014 vor: Regierungsbezirk A B C

verfügb. Eink. je Einw. (in 1.000 L$) 21,3 19,0 22,9

BWS je Erwerbst. (in 1.000 L$) 73,0 70,8 83,5

Berechnen Sie die Euklidischen Distanzen aus den Originalwerten, und interpretieren Sie die Werte.

4.2

Diskriminanzanalyse

Aufgabe 4.2-1 Ein Mehrproduktunternehmen verfolgt die Marketingstrategien A und B. Die Zuordnung eines neuen Produktes zu einer Strategie erfolgt in Abhängigkeit des Verkaufspreises X1 (in €) und der Größe der Zielgruppe X2 (in 1.000 Personen). Dabei ist der Funktionswert Y aus Y = 0,53X + 0,87X Grundlage der Entscheidung über die Zuordnung. a) Auf welcher Analyse basiert die Entscheidung des Unternehmens? b) Quantifizieren Sie die Bedeutung der einzelnen Variablen Preis und Größe der Zielgruppe für die Einteilung in A und B.

4.3

Clusteranalyse

Aufgabe 4.3-1 Verschiedene Luftkurorte einer Region sollen untersucht werden. Dazu werden pro Kurort 20 Merkmale erhoben. Zunächst sollen ähnliche Kurorte in Gruppen zusammengefasst werden. Man berechnet in diesem Zusammenhang folgende Ähnlichkeitsmatrix (Werte in %): Bad A Bad B Bad C Bad D Bad E Bad F

Bad A

Bad B

Bad C

Bad D

Bad E

93,5 16,7 85,0 13,2 11,5

20,1 75,3 18,2 18,5

12,5 79,4 84,2

22,0 9,3

90,6

Bad F

20

4 Multivariate Analyse

a) Beschreiben Sie kurz die Analyse, die durchgeführt wird. b) Wie lassen sich die Werte in der Tabelle berechnen? c) Wie würde die Einteilung nach Ähnlichkeiten erfolgen? Aufgabe 4.3-2 Die folgende Tabelle liefert die Beschäftigtenzahlen und den Gewinn vor Steuern (in Mio. €) für vier Unternehmen der Süßwarenbranche: Unternehmen 1 2 3 4

Beschäftigte [X1] 23.800 14.200 17.500 4.500

Gewinn vor Steuern (in Mio. €) [X2] 13,8 8,2 19,9 19,1

Weiterhin sei gegeben: X = 15.000;

X = 15,25; S = 6.974,5; S = 4,7.

a) Erstellen Sie die standardisierte Datenmatrix. b) Sie möchten eine Clusteranalyse durchführen: Bestimmen Sie ausgehend von den Werten der standardisierten Datenmatrix aus a) die dazu notwendige Distanzmatrix mit Hilfe der Euklidischen Distanz mit z-Werten. c) Welche beiden Unternehmen würden in der Clusteranalyse zuerst zu einer Gruppe zusammengefasst?

5 Zeitreihenanalyse

21

5 Zeitreihenanalyse 5.1

Grundlagen

Aufgabe 5.1-1 Das Stahlwerk S ist in den letzten Jahren von einer wachsenden Anzahl von Besuchern B besichtigt worden. Im Vergleich zu 2007 hat sich auch der Umsatz U im Jahr 2014 beträchtlich erhöht. Für B und U ergeben sich folgende Zeitreihen: Jahr 2007 2008 2009 2010 2011 2012 2013 2014

Besucher B 150 200 250 300 290 310 390 380

Umsatz U 940 1.100 960 940 1.100 960 940 1.100

a) Man bestimme gleitende 3-Jahres-Durchschnitte für B und U. Welche der folgenden Aussagen in b) und c) sind richtig? Erläutern Sie Ihre Entscheidung. b) Die gleitenden Mittelwerte stellen    

die Saisonkomponenten, den Trend bzw. die „glatte“ Komponente, Zufallseinflüsse, vom Trend bereinigte Werte dar.

c) Die Rechnung zeigt, dass es bei der Zeitreihe der Umsätze  keine Saisonkomponente gibt,  keinen Trend gibt (der Trend konstant ist),  einen konstanten Zyklus gibt. Aufgabe 5.1-2 a) Welchen Einfluss übt die Variation der Gliederzahl (d. h. die Zahl der in den gleitenden Durchschnitt einfließenden Werte) auf die glatte Komponente aus? Welche Probleme treten auf, wenn die Gliederzahl zu niedrig respektive zu hoch gewählt wird? b) Welche Gliederzahl wird bei der Verwendung unterjähriger Daten (z. B. Monats- oder Quartalswerte) empfohlen? Begründen Sie diese Empfehlung. c) Welchen Aussagewert haben die Saisonkomponenten? Warum werden „rohe“ Saisonkomponenten korrigiert? d) Skizzieren Sie die folgenden „Trendfunktionen“ für t ≥ 0: T = a ∙ b mit a > 0 für 0 < b < 1 und für b > 1 T = a ∙ t mit a > 0 für 0 < b, b = 0 und für b > 0 T = für b > 0. e) Wie muss man die „Trendfunktionen“ aus d) transformieren, damit sich die Parameter a und b mittels des linearen Regressionsansatzes bestimmen lassen?

22

5.2

5 Zeitreihenanalyse

Komponentenmodelle

Bestimmung der glatten Komponente bzw. des Trends Aufgabe 5.2-1 Für das Überleben, das Wachstum und die Innovationskraft von Unternehmen und damit einer Volkswirtschaft ist eine ausreichende Eigenkapitalbasis von entscheidender Bedeutung. In Auenland hat die (durchschnittliche) Eigenkapitalquote über einen Zeitraum von 15 Jahren ständig abgenommen: Jahr

Eigenkapitalquote (in %) 31,4 30,6 28,4 26,7 25,9 24,6 24,0 23,7

1 2 3 4 5 6 7 8

Jahr 9 10 11 12 13 14 15

Eigenkapitalquote (in %) 23,7 23,1 22,9 22,4 21,7 19,8 18,7

a) Stellen Sie die Zeitreihe graphisch dar. b) Berechnen Sie den (linearen) Trend nach der Methode der kleinsten Quadrate, und zeichnen Sie die Trendgerade in die Abbildung zu a) ein. c) Welchen Wert besitzt die in b) ermittelte Trendgerade für das 16. Jahr? Aufgabe 5.2-2 Der A-Verlag bietet Nachschlagewerke in Buchform und als CD-ROM an. Die untenstehende Tabelle gibt einen Überblick über die Absatzentwicklung der letzten fünf Jahre: 1 2 3 4 5

CD-ROM 1.000 1.300 2.000 3.500 8.000

Bücher 20.000 20.500 21.500 21.500 22.500

a) Ermitteln und interpretieren Sie geeignete Trendfunktionen für die zwei Bereiche. b) Im Jahre 5 trat der B-Verlag in den Markt ein und verkaufte 4.800 Bücher. Für die Zukunft erwartet man dort eine jährliche Steigerung des Absatzes um 2.800. Wann wird bei Fortsetzung der Trends der B-Verlag den A-Verlag im Buchabsatz einholen? Aufgabe 5.2-3 Die Stadtwerke Sonnenschein führen eine Fahrgastzählung durch, um etwas über die Tagesabweichungen gegenüber dem Durchschnitt der Woche zu erfahren. Als Ergebnisausschnitt sei herausgegriffen:

5 Zeitreihenanalyse

23

Buslinie 23, Abfahrt 8:00 ab Sonnfeld Datum Zahl der Datum Zahl der Fahrgäste Fahrgäste 17.07. 25 28.07. 72 18.07. 33 29.07. 85 19.07. 80 30.07. 85 20.07. 66 31.07. 22 21.07. 79 01.08. 29 22.07. 88 02.08. 91 23.07. 90 03.08. 73 24.07. 14 04.08. 75 25.07. 30 05.08. 82 26.07. 78 06.08. 84 27.07. 70

Berechnen Sie für den 25.07., 26.07. und 27.07. die Werte eines geeigneten gleitenden Durchschnitts. Aufgabe 5.2-4 Sie sind Verkaufschef der Tageszeitung „TZ“, die täglich außer Sonntag erscheint. Für den unten stehenden Zeitraum liegen Daten über die verkaufte Auflage vor. Ausgabe Nr. 1678 1679 1680 1681 1682 1683 1684 1685 1686

Verkaufte Auflage 29.432 26.484 28.676 30.504 32.112 34.678 28.456 28.504 28.888

Ausgabe Nr. 1.687 1.688 1.689 1.690 1.691 1.692 1.693 1.694 1.695

Verkaufte Auflage 30.796 31.544 36.098 27.360 28.904 28.872 29.996 33.628 38.838

a) Zerlegen Sie die Zeitreihe bei Annahme eines additiven Komponentenmodells in ihre glatte Komponente, ihre Saisonkomponente und ihre Zufallskomponente. b) Erläutern Sie allgemein diese Komponenten, und geben Sie jeweils ein Beispiel an. Aufgabe 5.2-5 Die Bevölkerungsentwicklung eines Landes Pt lasse sich näherungsweise mit folgender logistischer Funktion beschreiben: P(t) =

,

,

∙ 10 .

Das Jahr 1900 entspricht dabei t = 1 (t in Zehnerschritten). a) Prognostizieren Sie den Bevölkerungsstand für das Jahr 2050. b) In welchem Jahr wird der Bevölkerungsstand die 40-Millionen-Grenze überschreiten?

24

5 Zeitreihenanalyse

Aufgabe 5.2-6 Der Süßwarenfabrikant Sugarboy hat im Laufe eines Jahres stark schwankende Umsatzzahlen. Für den Zeitraum 2012 bis 2014 ergeben sich auf Quartalsbasis folgende Umsatzwerte in Tausend €: Quartal Umsatz (in T€)

1/12 2/12 3/12 4/12 1/13 2/13 3/13 4/13 1/14 2/14 3/14 4/14 20

30

15

55

18

28

16

60

20

26

20

55

Führen Sie eine Glättung der Zeitreihe nach der Methode der gleitenden Durchschnitte durch. Legen Sie die Anzahl der Glieder dabei geeignet fest, und begründen Sie diese Wahl kurz. Aufgabe 5.2-7 Ein Angelsportverein erzielt seine Einnahmen vornehmlich aus Mitgliedsbeiträgen, die zu Beginn jeden Jahres gezahlt werden müssen, und durch ein regelmäßig im III. Tertial durchgeführtes Preisfischen. Die Entwicklung des Kassenbestandes dieses Vereins (in €) in den Jahren 2011–2014 wird in folgender Tabelle aufgezeigt: Jahr 2011 2012 2013 2014 Tertial I II III I II III I II III I II III Bestand 7.100 5.230 5.760 6.410 5.020 5.520 6.800 4.960 5.220 6.200 4.420 5.120

a) Zeichnen Sie die Reihe in ein Koordinatensystem ein. b) Bestimmen Sie nach der Methode der Kleinsten Quadrate und der gleitenden Durchschnitte 3. Ordnung den Trend, und stellen Sie die gewonnenen Ergebnisse graphisch dar. Aufgabe 5.2-8 Gegeben sei folgende Zeitreihe: t yt

1 111

2 120

3 105

4 108

5 123

6 114

7 123

8 144

mit folgenden Zwischenwerten: ∑ t = 36

∑ t = 204

∑ logy = 16,574

∑ y = 948

∑ y ∙ t = 4.410

∑ tlogy = 75,088.

Wenn man einen Trend mit der Methode der kleinsten Quadrate bestimmen sollte, würde man dann am besten a) einen linearen Trend oder b) einen Exponentialtrend nach der Methode der kleinsten Quadrate berechnen? Begründen Sie Ihre Entscheidung.

5 Zeitreihenanalyse

25

Bestimmung der Saisonkomponenten Aufgabe 5.2-9 Aus der Zahlungsbilanzstatistik der Bundesbank von Phantasia-Land im Jahr 2083 entnimmt man für die Urlaubsausgaben der Einwohner dieses Landes auf dem Mars die folgenden Angaben (Vierteljahresdaten, Mrd. €): Q1 Q2 Q3 Q4

2075 0,55 0,75 1,28 0,64

2076 0,59 0,84 1,40 0,78

2077 0,71 1,03 1,69 0,84

2078 0,67 1,03 1,74 0,93

2079 0,74 1,28 2,05 1,13

2080 0,95 1,38 2,19 1,11

2081 0,92 1,37 2,13 1,05

2082 0,92 1,39 2,21 1,12

a) Es werde eine additive Verknüpfung der Zeitreihenkomponenten vorausgesetzt. Nach der Methode der gleitenden Durchschnitte erhält man die Trendwerte: 2075 Q1 Q2 Q3 Q4

0,81 0,83

2076 0,85 0,89 0,92 0,96

2077 1,02 1,06 1,06 1,06

2078 1,06 1,08 1,10 1,14

2079 1,21 1,28 1,33 1,37

2080 1,40 1,41 1,40 1,40

2081 1,39 1,38 1,37

2082

Bestimmen Sie die letzten drei Trendkomponenten (in der Tabelle getönt) mit der additiven Variante der Methode der gleitenden Durchschnitte. b) Wie lautet die rohe Saisonkomponente für das dritte Quartal, und was besagt sie? c) Bestimmen Sie die korrigierten Saisonkomponenten, wobei die rohen Saisonkomponenten lauten: S = −0,43; S = −0,05; S = −0,24. d) Geben Sie für den Zeitraum 2082:1 bis 2082:4 die saisonbereinigten Werte an. Aufgabe 5.2-10 Aus den Trendwerten der Aufgabe 5.2-9 von 2075:1 (t = 1) bis 2081:4 (t = 28) wurde folgende lineare Trendgerade bestimmt: T = 0,727 + 0,0281 ∙ t

R = 0,245.

a) Wie hoch müsste im zweiten Quartal 2082 der Trendwert der Urlaubsausgaben sein, wenn zur Abschätzung die obige Regressionsgerade herangezogen wird? b) Zur Abschätzung der Zeitreihenwerte yt verwendet man: y = T + S , . Ermitteln Sie Abschätzungen von yt für die Perioden 2082:3 und 2082:4. Aufgabe 5.2-11 Das Statistikamt einer großen Insel veröffentlichte folgende Halbjahreswerte von 2009 bis 2014 für den realen privaten Verbrauch (Angaben in Mrd. Muscheln (M)): Zeitraum Privater Verbrauch

1/09 2/09 1/10 2/10 1/11 2/11 1/12 2/12 1/13 2/13 1/14 835 844 849 852 864 867 876 881 880 885 890

a) Berechnen Sie die gleitenden 2er-Durchschnitte. b) Wie lauten die rohen Saisonkomponenten bei Annahme einer konstanten Saisonfigur? c) Bestimmen Sie die korrigierten Saisonkomponenten.

26

5 Zeitreihenanalyse

Aufgabe 5.2-12 Ein Restaurant erzielte im Zeitverlauf die folgenden halbjährlichen Umsätze (in 1.000 Geldeinheiten TGE): Halbjahr Winter 2010/11 Sommer 2011 Winter 2011/12 Sommer 2012 Winter 2012/13 Sommer 2013 Winter 2013/14

Umsatz (in TGE) 15 72 18 61 27 81 19

Es wird ein additives Zeitreihenmodell unterstellt. a) Berechnen Sie als Näherung für die glatte Komponente die gleitenden Durchschnitte. Die Anzahl der Glieder dieses Durchschnitts ist geeignet festzulegen. b) Ermitteln Sie die um die rohen Saisonkomponenten (Sj) bereinigte Zeitreihe. c) Stellen Sie die Originaldaten und die in Aufgabenteil a) und b) gewonnenen Ergebnisse graphisch dar. d) Bestimmen Sie die Restkomponenten.

6 Indexzahlen

27

6 Indexzahlen 6.1

Grundlagen

Siehe Aufgabe 6.2-5.

6.2

Gewogene Preis-, Mengen- und Wertindizes

Aufgabe 6.2-1 Ein Unternehmen produziert drei Güter A, B und C. Es sind folgende Angaben über die produzierten Mengen (in Mio. Stück) und die Preise (in €) verfügbar: Produkt A B C

Preis 2012 15 20 10

Preis 2014 18 20 12

Menge 2014 6 4 8

Der Umsatz im Jahr 2012 betrug 260 Mio. €. a) Berechnen Sie aus den obigen Angaben einen Preis- bzw. Mengenindex und interpretieren Sie die Ergebnisse. b) Stellen Sie die Umsatzentwicklung mit einem Index dar. Aufgabe 6.2-2 In einem Unternehmen wurden für die Jahre 2011 bis 2014 (Basisjahr: 2011) die folgenden Indizes ermittelt: Jahr

Umsatzindex

2011 2012 2013 2014

100 107 115 123

Preisindex nach Laspeyres 100 104 109 114

Ermitteln Sie anhand dieser Angaben Mengen-Indizes für die Jahre 2012 bis 2014. Aufgabe 6.2-3 Das Unternehmen Trendschuh hat im Jahr 2014 die Modelle Halbschuh, Stiefel und Sandale zu folgenden Mengen und Preisen verkauft (Preise von 2012 in Klammern): Modell Halbschuh Stiefel Sandale

Menge (in Tsd. Stück) 10 5 15

Preise (in € je Stück) 120 (110) 150 (140) 80 (90)

Der Umsatz im Jahr 2014 betrug 3 Mio. €. a) Berechnen Sie aus den obigen Angaben einen Preisindex und einen Mengenindex. b) Welche Probleme sind mit der Wahl des in a) angewendeten Preisindexes verbunden?

28

6 Indexzahlen

Aufgabe 6.2-4 Ein Unternehmen stellt drei Produkte A, B und C her. In der folgenden Tabelle finden Sie eine Zusammenstellung der produzierten Mengen und der jeweiligen Preise für das Jahr 2014 sowie die Planzahlen für 2015: Produkt A B C

Menge 2014 100 60 40

Preis 2014 10 12 20

Planmenge 2015 120 65 50

a) Ermitteln Sie aus den obigen Angaben einen Mengenindex für das Jahr 2015. b) Ihr ehrgeiziger Chef strebt eine Steigerung des Unternehmensumsatzes um 20 % im Jahr 2015 an. Wegen des scharfen Wettbewerbs können Sie die Preise für B und C nicht erhöhen. Welchen Verkaufspreis für A müssen Sie erzielen, damit die Planung aufgeht? Aufgabe 6.2-5 Die Preis- und Absatzentwicklung eines Unternehmens sieht wie folgt aus: Gut A Gut B Gut C

Preise in 0 3 7 6

Mengen in 0 20 15 15

Preise in t 5 5 10

Mengen in t 18 16 15

a) Berechnen Sie die durchschnittliche Preisentwicklung nach den vorgegebenen Preisindizes: P =

∑

∙ 100 P

( )

∑

=∑

∙ ∙

∙ 100

P

( )

∑

=∑

∙ ∙

∙ 100.

b) Vergleichen Sie die Ergebnisse, und erklären Sie eventuelle Unterschiede bzw. Ähnlichkeiten. Aufgabe 6.2-6 Für die beiden marktbeherrschenden Unternehmen Analyst und Boxplot der Softwarebranche seien für die Jahre 2013 bis 2015 die Preise pro Einheit und die produzierten Mengen (in 1.000) bekannt:

Analyst Boxplot

2013 Menge Preis 340 14 320 20

2014 Menge Preis 370 17 280 28

2015 Menge Preis 380 20 340 24

a) Berechnen Sie die Preissteigerung der Softwarebranche mit Hilfe des Preisindex nach Laspeyres für 2015 auf der Basis 2013. Berechnen Sie die Preissteigerung der Softwarebranche mit Hilfe des Preisindex nach Laspeyres für 2015 auf der Basis 2014. b) Berechnen Sie den Umsatzindex für 2015 auf der Basis 2013. Aufgabe 6.2-7 Durch eine Verdreifachung der Benzinpreise am Anfang eines Jahres habe sich die Nachfrage nach Benzin drastisch vermindert. Welche Auswirkungen hätte dies auf den Verbraucherpreisindex, so wie er vom Statistischen Bundesamt ausgewiesen wird, für 2014 (2010 = 100)?

6 Indexzahlen

29

Aufgabe 6.2-8 Gegeben seien folgende Daten: Preis je Mengeneinheit Gut 1 Gut 2 Gut 3 1 2 1 1 4 2 1 4 5

Jahr (t) 0 1 2

Gut 1 10 20 20

Mengen Gut 2 50 40 40

Gut 3 90 60 30

a) Wie lauten die Preisindizes nach Laspeyres und Paasche für t = 1, 2? b) Wie lautete die durchschnittliche Wachstumsrate eines der zwei unter a) bestimmten Indexes von t = 0 bis t = 2? c) Unterstellen Sie, dass das Preisniveau weiterhin mit der unter b) bestimmten Rate steigt. Wie hoch ist es dann in der Periode t = 10? d) Berechnen Sie den Gesamtwert (Umsatz) der Güter 1 bis 3 in der Periode 2, und führen Sie eine Preisbereinigung zu Preisen der Periode 0 durch. Aufgabe 6.2-9 Berechnen Sie den Mengenindex nach Laspeyres aus folgenden Angaben: Gut A B C D

Mengen Basisjahr Berichtsjahr 10 8 9 10 5 6 4 6

Basisjahr 3,0 2,5 4,5 4,0

Preise Berichtsjahr 4,0 1,5 5,0 4,0

Aufgabe 6.2-10 Für zwei Industriezweige A und B sind für die Jahre 2012 bis 2014 die Preise pro Einheit und die produzierten Mengen (in 1.000) bekannt. Industriezweig A B

2012 Menge Preis 340 14 320 20

2013 Menge Preis 370 17 280 28

2014 Menge Preis 380 28 340 20

a) Berechnen Sie die Preisindizes nach Laspeyres für 2013 auf der Basis 2012 bzw. für 2014 auf der Basis 2013 = 100. b) Berechnen Sie die Umsatzindizes für 2013 auf der Basis 2012 bzw. für 2014 auf der Basis 2013. Weitere Teilaufgabe unter Aufgabe 6.3-7. Aufgabe 6.2-11 Die Preise pi und die Mengen qi eines aus zwei Gütern bestehenden Warenkorbes (i = 1, 2) haben sich folgendermaßen entwickelt: q

= 1,1 ; q

= 0,95 ; p

= 1,05 ; p

= 1 + 0,125t; t = 0,1,2, … (Jahre).

a) Wie lauten die Preisindizes P04 nach Laspeyres und Paasche? b) Wie lauten die durchschnittlichen jährlichen Preissteigerungsraten für den Zeitraum t = 0 bis t = 4 nach diesen zwei Indizes? Wodurch ist der Unterschied zu erklären?

30

6 Indexzahlen

Aufgabe 6.2-12 Ein Unternehmen produziert drei Güter A, B, und C. Mengen sowie Preise der drei Güter für die Jahre 2013 und 2014 sind der nachstehenden Tabelle zu entnehmen:

Gut A B C

Mengen (in 1.000 Stück) 2013 2014 20 35 25 20 60 80

Preise (in €) 2013 5 20 10

2014 5 25 11

Berechnen Sie anhand dieser Angaben a) b) c) d) e)

den Preisindex nach Laspeyres, den Preisindex nach Paasche, den Mengenindex nach Laspeyres, den Mengenindex nach Paasche, den Umsatzindex

und interpretieren Sie die Ergebnisse. Weitere Teilaufgabe unter Aufgabe 6.3-8.

6.3

Indexzahlprobleme

Aufgabe 6.3-1 Der Aktienindex des Statistischen Bundesamtes (Basis 30.12.1980 = 100) und der FAZ-Index (Basis 30.12.1958 =100) weisen folgende Entwicklung auf: Datum 30.12.1987 30.12.1988 30.12.1989 30.12.1990 30.12.1991 30.12.1992 30.12.1993 30.12.1994 30.12.1995

Index Stat. Bund. 193,30 248,40 330,40 274,50 285,70

FAZ-Index

640,31 602,97 847,57 784,43 815,66

a) Stellen Sie den Index des Statistischen Bundesamtes auf die Basis 30.12.1988 = 100 um, und ermitteln Sie die Jahresschlussstände 1987 bis 1991. Wie ist der für den 30.12.1990 errechnete Wert zu interpretieren? b) Ergänzen Sie die fehlenden Werte des FAZ-Index unter Verwendung des Index des Statistischen Bundesamtes. Interpretieren Sie den neuen Wert für den 30.12.1990.

6 Indexzahlen

31

Aufgabe 6.3-2 Ihnen liegen folgende Indexreihen (Preisindizes nach Laspeyres) vor: Jahr Index A Index B Jahr Index A Index B

1

2

95,0

100

8

9

99,8 120,5

99,9

3 106,4

4

5

6

7

112,0

95,8 115,7

98,0 118,4

100 120,8

10

11

12

13

14

101,0

103,9

106,7

110,5

114,9

a) Basieren Sie die Indexreihe A auf das Jahr 12 um. b) Führen Sie mit Hilfe der Indexreihe B eine Rückrechnung der Indexreihe A für die Jahre 1 bis 4 durch (Basisjahr 7). c) Welcher Warenkorb liegt der umbasierten Indexreihe in a) und welcher Warenkorb liegt der rückgerechneten Indexreihe in b) zugrunde? Aufgabe 6.3-3 Die Preisentwicklung des Bruttoinlandsproduktes eines Landes wird über acht Jahre durch folgende Indexreihen dargestellt: Jahr 1 2 3 4 5 6 7 8

Index A 112,1 114,3 116,9

Index B 100,0 103,3 105,3 106,9 109,7 113,5

a) Stellen Sie die Preisentwicklungen in zwei durchgehenden Indexreihen dar. b) Wie groß war auf Basis des Index B der Preisanstieg von Jahr 7 auf Jahr 8? c) Wie groß war auf Basis des Index A der durchschnittliche jährliche Preisanstieg im Zeitraum von Jahr 1 bis Jahr 8? Aufgabe 6.3-4 Für den Verbraucherpreisindex in Businessland stehen Ihnen folgende Daten zur Verfügung: t Index A Index B Index C

1 100

2 103

3 107

4 109

5 112 100

6

7

8

9

10

11

12

13

105

109

114

117 100

103

104

106

107

Bestimmen Sie die Indexwerte der stark umrahmten Felder.

32

6 Indexzahlen

Aufgabe 6.3-5 Die Preisentwicklung eines Gutes wird in sechs Jahren durch die Indexzahlen A und B gegeben: Jahr A B

1 106

2 111

3 118 96

4

5

6

98

100

103

a) Verknüpfen Sie die beiden Reihen. b) Wie groß war der Preisanstieg von Jahr 2 auf Jahr 3 für die Reihe A? c) Basieren Sie die verknüpfte Reihe auf das Jahr 4 um. Aufgabe 6.3-6 In einem Land A ist der Verbraucherpreisindex während der letzten 10 Jahre von 140 auf 200 gestiegen, in einem Land B von 105 auf 160. In welchem Land sind die Preise stärker gestiegen? Aufgabe 6.3-7 Berechnen Sie den Preisindex nach Laspeyres bzw. den Umsatzindex für 2014 auf der Basis 2012 durch Verkettung der in Aufgabe 6.2-10a) und b) berechneten Indizes bzw. indem Sie auf die Definition dieser Indizes zurückgehen. Aufgabe 6.3-8 Der Preisindex nach Laspeyres aus Aufgabe 6.2-12 der drei Güter für das Jahr 2013 auf der Basis 2010 beträgt 120. Berechnen Sie einen Index für 2014 auf der Basis 2010.

7 Wahrscheinlichkeitsrechnung

7

33

Wahrscheinlichkeitsrechnung

7.1

Zufallsvorgang und Zufallsvariable

Aufgabe 7.1-1 Es werden drei Münzen geworfen. Pro geworfenem Kopf wird 1 € ausgezahlt, pro geworfener Zahl ist 1 € einzuzahlen. a) Bestimmen Sie die möglichen Ergebnisse des Zufallsvorgangs. b) Geben Sie alle möglichen Realisationen der Zufallsvariable Z (= Zahlung) an. Aufgabe 7.1-2 Ein Immobilienmakler erhält für jedes verkaufte Objekt eine Provision von 3 % vom Kaufpreis. Außerdem fallen pro Verkauf für ihn Kosten in Höhe von 480 € an. Seine Fixkosten betragen pro Woche 320 €. a) Bestimmen Sie eine Gleichung für den wöchentlichen Gewinn auf Grundlage der im Aufgabentext erwähnten Faktoren. b) Welche Größe(n) in der Gleichung sind Zufallsvariablen? c) Welche möglichen Realisationen können die Zufallsvariablen annehmen?

7.2

Wahrscheinlichkeiten

Aufgabe 7.2-1 Erläutern Sie die drei häufig benutzten Wahrscheinlichkeitsbegriffe anhand selbst gewählter Beispiele. Aufgabe 7.2-2 Welcher Wahrscheinlichkeitsbegriff liegt zugrunde? a) Mit einer Wahrscheinlichkeit von 75 % wird sich die Situation am Arbeitsmarkt für Berufsanfänger in den kommenden Jahren verschlechtern. b) Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Student BWL studiert, beträgt 23,4 %. c) Mit einer Wahrscheinlichkeit von 60 % wird der Fußballverein ZM05 absteigen. d) Die Wahrscheinlichkeit, eine Zahl größer als 3 zu würfeln, beträgt 50 %. e) Die Wahrscheinlichkeit mit einem gezinkten Würfel eine 6 zu würfeln beträgt 23 %. f) Mit einer Wahrscheinlichkeit von 35 % wird ein heute Sechzehnjähriger älter als 90 Jahre werden. Aufgabe 7.2-3 Beantworten Sie für die folgenden Fälle a) bis c) die Fragen:  welcher Wahrscheinlichkeitsbegriff liegt zugrunde,  wie könnte man eine Zufallsvariable angeben,  was sind die möglichen Realisationen der Zufallsvariable?

34

7 Wahrscheinlichkeitsrechnung

Fälle: a) Die Marketingabteilung schätzt den Erfolg eines Produktes folgendermaßen ein: Bei sehr großem Erfolg (Wahrscheinlichkeit 0,6) wird ein Umsatz von 200 TEuro erzielt, bei mäßigem Erfolg (Wahrscheinlichkeit 0,3) wird der Umsatz 120 TEuro sein, bei Misserfolg (Wahrscheinlichkeit 0,1) wird der Umsatz 30 TEuro sein. b) Bei einer Verlosung gibt es 100 Lose in einer Lostrommel, dabei sind 90 Nieten und 10 Gewinne. Unter den 10 Gewinnen, gibt es einmal 1 Euro, einmal 2 Euro usw. bis einmal 10 Euro. c) Ein Discounter möchte wissen, mit welcher Wahrscheinlichkeit wie viele Kunden pro Stunde eine bestimmte Filiale betreten.

7.3

Wahrscheinlichkeitsverteilungen diskreter Zufallsvariablen

Aufgabe 7.3-1 Es werden zwei Würfel geworfen. Die Zufallsvariable X gibt die Summe aus beiden Augenzahlen an. a) Geben Sie die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion an. b) Berechnen Sie Erwartungswert und Varianz. c) Berechnen Sie P(X > 4), P(X < 4), P(5 ≤ X < 10). Aufgabe 7.3-2 Eine Versicherungsgesellschaft versichert den Sportstar B gegen Tod und Invalidität. Die Zahlung, die die Versicherung zu leisten hat, sind 1 Mio. Euro bei Invalidität und 10 Mio. Euro im Todesfall. Wenn weder Tod noch Invalidität eintreten, zahlt die Versicherung gar nichts aus. Die Wahrscheinlichkeit für den Invaliditätsfall ermittelt die Versicherung mit 0,025 und für den Todesfall mit 0,005. a) Welcher Wahrscheinlichkeitsbegriff liegt zugrunde? b) Stellen Sie die Wahrscheinlichkeitsverteilung der Zufallsvariablen X ≙ Zahlung der Versicherung (in Mio. €) dar. c) Welche Zahlung erwartet die Versicherung? d) Wie hoch sollte aufgrund der Berechnung von c) die Prämie, die der Sportstar an die Versicherung zahlt, mindestens sein? e) Berechnen und interpretieren Sie die Standardabweichung. Aufgabe 7.3-3 In einer Lostrommel sind 100 Lose. Auf jedem Los ist eine Zahl vermerkt. 75 Lose tragen die Zahl 0, 20 Lose die Zahl 1, 4 Lose die Zahl 5, 1 Los die Zahl 20. Es wird einmal gezogen. a) Die Zufallsvariable X stellt die Zahl auf dem gezogenen Los dar. Geben Sie Wahrscheinlichkeitsfunktion und Verteilungsfunktion tabellarisch an. Berechnen Sie außerdem Erwartungswert, Varianz und Standardabweichung. b) Für jede Zahl, die auf dem Los vermerkt ist, bekommt man das 50-Cent-fache ausgezahlt. Der Lospreis beträgt 1 €. Die Zufallsvariable Y soll den gewonnenen Reingewinn (Gewinn minus Lospreis) in Euro angeben. Berechnen Sie E(Y) und Var(Y).

7 Wahrscheinlichkeitsrechnung

7.4

35

Wahrscheinlichkeitsverteilungen stetiger Zufallsvariablen

Aufgabe 7.4-1 Sobald Professor K. die Stimme erhebt, macht sich im Hörsaal Müdigkeit breit. Die Zeit X (in Minuten), die er benötigt, um sein gesamtes Publikum in den Schlaf zu reden, hat folgende Dichtefunktion:

f(x) =

0,01 0,05 0,02 0,01 0

für 1 < x ≤ 5 für 5 < x ≤ 15 für 15 < x ≤ 30 für 30 < x ≤ 45 sonst.

a) Zeichnen und interpretieren Sie die Dichtefunktion. b) Wie groß sind die Wahrscheinlichkeiten P(X > 30), P(X  10), P(-2  X  3)? c) Zeigen Sie, dass f(x) tatsächlich eine Dichtefunktion ist. Aufgabe 7.4-2 Gegeben sei folgende Dichtefunktion einer stetigen Zufallsvariablen X: 1 f(x) = 12 x 0

für 1 ≤ x ≤ 5 sonst.

a) Berechnen Sie P(X< 2), P(X > 3), P(X = 2). b) Geben Sie die Verteilungsfunktion F(x) an und interpretieren Sie F(4). c) Stellen Sie Dichte- und Verteilungsfunktion graphisch dar. Aufgabe 7.4-3 Die Zufallsvariable X misst die Verspätung einer U-Bahn an einer bestimmten Haltestelle in Minuten. Angenommen, die Dichtefunktion für diese Zufallsvariable laute: f(x) =

0,5 − 0,125x 0

für 0 ≤ x ≤ 4 sonst.

a) Zeigen Sie, dass die angegebene Dichtefunktion tatsächlich eine Dichtefunktion ist. b) Bestimmen Sie die Verteilungsfunktion. c) Bestimmen Sie aus der Verteilungsfunktion die Wahrscheinlichkeiten, dass sich die UBahn bis zu 2 Minuten, mehr als 3 Minuten und zwischen 1,5 und 2,5 Minuten verspätet. Aufgabe 7.4-4 Die störungsfreie Laufzeit X (gemessen in Stunden) eines Computers in einem Betrieb besitze folgende Dichtefunktion. f(x) =

ae 0

für x ≥ 0 und a = 0,02 für x < 0.

a) Bestimmen Sie die Verteilungsfunktion F(x). b) Berechnen Sie Mittelwert und Varianz der Zufallsvariablen X. c) Wie groß ist die Wahrscheinlichkeit, dass eine Maschine i) höchstens 30 Stunden ii) mindestens 40, aber höchstens 80 Stunden ohne Störung läuft?

36

7.5

7 Wahrscheinlichkeitsrechnung

Zweidimensionale diskrete Zufallsvariablen

Aufgabe 7.5-1 Gegeben sei die folgende zweidimensionale Wahrscheinlichkeitsfunktion f(xi,yj) = P(X = xi; Y= yj) = Pij: 0

1

0/32 1/32 3/32 10/32

2/32 1/32 7/32 8/32

yj xi 0 1 2 3

a) Was versteht man unter einer Randverteilung? Berechnen Sie die Randwahrscheinlichkeiten (marginalen Wahrscheinlichkeiten) für beide Zufallsvariablen. b) Ermitteln Sie die Wahrscheinlichkeitsverteilung für die Zufallsvariable X unter der Bedingung Y = 1. c) Überprüfen Sie, ob die Zufallsvariablen X und Y stochastisch unabhängig sind. d) Berechnen Sie die Randerwartungswerte und Randvarianzen. e) Erläutern Sie den Aussagewert der Kovarianz, und berechnen Sie für das gegebene Beispiel Cov(X,Y). f) Warum ist der Korrelationskoeffizient nach Bravais-Pearson () aussagekräftiger als die Kovarianz? Berechnen Sie , und treffen Sie eine Aussage über die Stärke des linearen Zusammenhangs zwischen X und Y. Aufgabe 7.5-2 Man betrachte die Noten eines zufällig ausgewählten Studenten der Wirtschaftswissenschaften in den Klausuren Mathematik (Zufallsvariable X) und Statistik (Zufallsvariable Y). Die gemeinsame Wahrscheinlichkeitsfunktion der zweidimensionalen Zufallsvariablen (X, Y) wurde durch Auswertung der Klausurergebnisse von Studenten eines wirtschaftswissenschaftlichen Fachbereiches geschätzt: yj xi x1 = 1 x2 = 2 x3 = 3 x4 = 4 x5 = 5

y1 = 1

y2 = 2

y3 = 3

y4 = 4

y5 = 5

0,04 0,04 0,02 0,01 0,00

0,03 0,10 0,08 0,02 0,01

0,02 0,03 0,20 0,04 0,03

0,01 0,02 0,08 0,10 0,03

0,00 0,01 0,02 0,03 0,03

a) Interpretieren Sie p24. b) Berechnen Sie die marginalen Wahrscheinlichkeiten für beide Zufallsvariablen und interpretieren Sie hierbei den Wert für p5. (bzw. fx(x5)). c) Berechnen Sie aus der Randverteilung den Erwartungswert und die Varianz für Y. d) Sind die Klausurergebnisse in beiden Fächern unabhängig? e) Ermitteln Sie die bedingte Verteilung des Merkmals Y bezüglich X = x2, und interpretieren Sie hierbei den Wert für P(Y = y |X = x ) bzw. f(y |x )).

7 Wahrscheinlichkeitsrechnung

37

Aufgabe 7.5-3 In der Marketingabteilung des Automobilherstellers Lumaca wird eine neue Marketingstrategie entwickelt. Dazu wurde die gemeinsame Wahrscheinlichkeitsverteilung der Variablen X = Zahl der Kinder pro Familie und Y = Zahl der Autos pro Familie ermittelt: Y X 0 1 2 3 4

1

2

3

0,08 0,10 0,07 0,06 0,04

0,28 0,14 0,05 0,03 0,01

0,04 0,06 0,03 0,01 0,00

Berechnen Sie die Randerwartungswerte und die bedingten Erwartungswerte und interpretieren Sie beide. Aufgabe 7.5-4 Angenommen, Chemiestudenten stehen monatlich im Durchschnitt 175 € für Freizeitausgaben (Standardabweichung 25 €) zur Verfügung, bei Kunststudenten sind es 113 € (Standardabweichung 32 €), bei BWL-Studenten 289 € (Standardabweichung 50 €) und bei Germanistikstudenten 138 € (15 € Standardabweichung). Ein Chemiestudent, ein Kunststudent, ein BWL-Student und drei Germanistikstudentinnen gehen auf Reisen und vereinbaren dabei eine gemeinsame Kasse. Berechnen Sie den Erwartungswert und die Standardabweichung des Gesamtbetrags, der zur Verfügung steht. Nehmen Sie an, die Studenten wurden zufällig ausgewählt. Aufgabe 7.5-5 In einer Schraubenfabrik stellen drei Maschinen die Gesamtproduktion in einer bestimmten Zeiteinheit her. Die erste Maschine produziert 2.000, die zweite 3.000 und die dritte 5.000 Schrauben. Dabei verursacht die erste Maschine 5 %, die zweite Maschine 4 % und die dritte Maschine III 2 % Ausschuss. Die gesamte Produktion wird auf ein Lager genommen. Wie groß ist die Wahrscheinlichkeit, dass a) eine zufällig aus dem Lager ausgewählte Schraube defekt ist? b) eine im Lager zufällig in die Hand genommene defekte Schraube von der zweiten Maschine stammt?

8 Spezielle Wahrscheinlichkeitsverteilungen

8

39

Spezielle Wahrscheinlichkeitsverteilungen

8.1

Spezielle diskrete Verteilungen

Aufgabe 8.1-1 Karla S. hat ihren Bachelor in der Tasche und einen neuen Job (5-Tage-Woche). Die Wahrscheinlichkeit, dass sie an einem beliebigen Arbeitstag zu spät zur Arbeit kommt, beträgt jeweils 80 %. Ermitteln Sie a) b) c) d)

die Wahrscheinlichkeit, dass sie in dieser Woche genau dreimal zu spät kommt, die Wahrscheinlichkeit, dass sie in dieser Woche immer zu spät kommt. Stellen Sie die Wahrscheinlichkeitsverteilung tabellarisch dar. Auf wie viele durchschnittliche Verspätungen pro Woche muss sich Karlas Chef langfristig einstellen?

Aufgabe 8.1-2 In einem Elektrohandel liegen in einem Regal 100 Speicherkarten gleichen Typs. 10 davon sind defekt. Wenn 6 Speicherkarten zufällig zum Kauf herausgegriffen werden, wie groß ist a) die Wahrscheinlichkeit, dass darunter genau eine defekte Speicherkarte ist, b) der Erwartungswert und die Varianz? Aufgabe 8.1-3 Mit einer Wahrscheinlichkeit von 30 % ist die Schaltung eines Fahrrads falsch eingestellt. Für 5 zufällig ausgewählte Fahrräder (mit Zurücklegen) soll berechnet werden: a) die Werte der Wahrscheinlichkeits- und Verteilungsfunktion für x = 0, 1, 2, 3, 4, 5, b) die Wahrscheinlichkeit, dass bei 2 Fahrrädern die Schaltung falsch eingestellt ist, c) die Wahrscheinlichkeit, dass bei 2 oder weniger Fahrrädern die Schaltung falsch eingestellt ist, d) die Wahrscheinlichkeit, dass bei mehr als 3 Fahrrädern die Schaltung falsch eingestellt ist, e) der Erwartungswert und die Varianz. Aufgabe 8.1-4 In einer Statistik-Prüfung werden 20 Aussagen vorgegeben, und die Prüflinge müssen entscheiden, ob die einzelnen Aussagen richtig oder falsch sind. Die Prüfung ist bestanden, wenn mindestens 15 Aussagen richtig gekennzeichnet wurden. Student Otto d. Gr. ist nicht vorbereitet und beantwortet die Fragen nach dem Zufallsprinzip. Wie groß ist die Wahrscheinlichkeit dafür, dass er die Prüfung besteht? Aufgabe 8.1-5 An einer Supermarktkasse kommen im Durchschnitt pro Stunde 4 Kunden an. Es sei angenommen, dass die Wahrscheinlichkeit für die Ankunft eines Kunden in jedem Augenblick gleich hoch ist. a) Wie groß ist die Wahrscheinlichkeit, dass in einer Stunde gar kein Kunde ankommt?

40

8 Spezielle Wahrscheinlichkeitsverteilungen

b) Wie groß ist die Wahrscheinlichkeit, dass in einer Stunde mindestens 2 Kunden ankommen? c) Wie groß ist die Wahrscheinlichkeit, dass in einer Stunde höchstens 12 Kunden ankommen?

8.2

Spezielle stetige Verteilungen

Aufgabe 8.2-1 Die absturzfreie Laufzeit eines Rechners (in Minuten) im Computerpool einer Hochschule sei eine exponentialverteilte Zufallsvariable mit dem Parameter  = 0,02. a) Wie groß ist die Wahrscheinlichkeit, dass der Computer länger als 95 Minuten störungsfrei arbeitet? b) Wie groß ist die Wahrscheinlichkeit, dass der Computer zwischen 88 und 112 Minuten fehlerfrei funktioniert? c) Der Computer lief bereits 75 Minuten ohne Absturz. Wie groß ist die Wahrscheinlichkeit, dass es bis zur 170. Minute einen Absturz gibt? Aufgabe 8.2-2 Standardisieren Sie die folgenden normalverteilten (NV(; )) Zufallsvariablen X, geben Sie die entsprechenden standardnormalverteilten Zufallsvariablen Z an, und lesen Sie für diese Werte die Wahrscheinlichkeit P(Z  z) in der Tabelle der Standardnormalverteilung ab. a) X = 3; c) X = 8; e) X = 4,4;

NV(6;1) NV(8;14) NV(–5;5)

b) X = –2; d) X = 0,6; f) X = 30;

NV(–1;2) NV(10;5) NV(0,4;10).

Aufgabe 8.2-3 a) Eine Zufallsvariable X sei NV(0, 1)-verteilt. Man bestimme P(X  1); P(X  –1,65) und P(–0,3  X  2,5). b) Eine Zufallsvariable Y sei NV(0,5; 4)-verteilt. Man berechne P(Y  1,9); P(Y  0) und P(–1  Y  2). c) Eine Zufallsvariable X sei NV(0, 1)-verteilt. Man bestimme u für P(X < u) = 0,05; P(X  u) = 0,1; P(0  X  u) = 0,45 und P(–u  X  u) = 0,99. d) Eine Zufallsvariable Y sei NV(3, 4)-verteilt. Man bestimme w für P(Y  w) = 0,05; P(Y  w) = 0,05 und P(3–w  Y  3+w) = 0,90. Aufgabe 8.2-4 Die von einer Anlage in Flaschen abgefüllte Menge Limonade X ist normalverteilt mit den Parametern  = 0,7 Liter und  = 0,01 Liter. a) Mit welcher Wahrscheinlichkeit sind mindestens 0,7 Liter in einer Flasche? b) Wie groß ist der Anteil der Flaschen, in denen zwischen 0,67 Liter und 0,73 Liter bzw. 0,69 und 0,71 Liter abgefüllt sind?

8 Spezielle Wahrscheinlichkeitsverteilungen

8.3

41

Vermischte Aufgaben zu speziellen Verteilungen

Aufgabe 8.3-1 Dem Studenten Anselmus passierte in der Pizzeria das Missgeschick, auf seinem bestellten Teller Spaghetti einzelne Nudeln mit Überlänge serviert zu bekommen, was ihm beim Essen erhebliche Schwierigkeiten bereitete. Aus statistischen Erhebungen ist bekannt, dass die Spaghettilänge normalverteilt ist mit  = 0,4 m und mit  = 0,4 m. Wie wahrscheinlich ist es, dass a) eine Nudel mehr als 60 cm ist, b) auf einem Teller mit 25 Nudeln genau 6 Nudeln länger als 60 cm sind, c) in einer Lieferung von 25.000 Nudeln mehr als 7.200 länger als 60 cm sind? Aufgabe 8.3-2 In einer Statistikvorlesung mit insgesamt 24 Teilnehmern sind 8 Teilnehmer völlig unvorbereitet. Der Professor stellt zu Beginn der Vorlesung vier (zufällig ausgewählten) Studenten jeweils eine Wiederholungsfrage. Wie groß ist die Wahrscheinlichkeit, dass er in allen vier Fällen auf unvorbereitete Studenten trifft? Aufgabe 8.3-3 In der Kantine eines Großkonzerns werden Tausende von Bestecken pro Tag gespült. Die Wahrscheinlichkeit, dass ein Besteck schmutzig aus der Spülmaschine kommt, beträgt 0,1 %. Heute wird der Vorstandsvorsitzende auch einmal in der Kantine essen. Er benötigt 3 Bestecke (Messer, Gabel, Löffel). In den Besteckkörben der Selbstbedienungstheke liegen 2.000 Bestecke. a) Wie groß ist die Wahrscheinlichkeit, dass in den Besteckkörben mehr als 3 verschmutzte Bestecke sind? b) Angenommen, in den Besteckkörben sind 6 verschmutzte Bestecke. Wie groß ist die Wahrscheinlichkeit, dass der Vorstandsvorsitzende mindestens ein verschmutztes Besteck greift? Aufgabe 8.3-4 Ein online-Versender von Büchern bietet seinen Kunden die Möglichkeit, ein bestelltes Buch innerhalb von 10 Tagen wieder zurückzugeben. Insgesamt machen im langfristigen Mittel 5 % der Kunden von dieser Möglichkeit Gebrauch. Wie groß ist die Wahrscheinlichkeit, dass von den 10.000 Bestellungen im letzten Monat bis zu 450 wieder zurückgegeben werden?

9 Stichprobentheorie

9

43

Stichprobentheorie

Aufgabe 9-1 Für die Vorhersage des Ergebnisses einer Kommunalwahl einer Großstadt sollen 1.000 Personen der 200.000 Wahlberechtigten befragt werden. Welche der nachfolgend genannten Auswahlverfahren liefert eine Zufallsauswahl aus der Gesamtheit der Wahlberechtigten? a) b) c) d) e)

Mittels Zufallszahlen werden 1.000 Personen aus dem Telefonbuch der Stadt ausgewählt. Es werden 1.000 Mitarbeiter eines Betriebes dieser Stadt gefragt. Aus dem alphabetischen Einwohnerregister wird jeder 200. ausgewählt. In der Fußgängerzone wird vormittags um 11.00 Uhr eine Umfrage durchgeführt. Keines der genannten Auswahlverfahren liefert die gewünschte Zufallsauswahl.

Aufgabe 9-2 Von den Studenten an einer Hochschule haben 30 % keine Geschwister, 35 % haben einen Bruder oder Schwester, 15 % haben 2 Geschwister, 10 % haben 3 Geschwister, 6 % haben 4 Geschwister und 4 % haben 5 Geschwister. Es wird eine Stichprobe von 10 Studenten gezogen, die jeweils nach der Zahl der Geschwister gefragt werden. a) Erklären Sie, aus welchen Gründen und unter welchen Voraussetzungen man davon ausgehen kann, dass die Antworten unabhängige, identisch verteilte Zufallsvariablen darstellen. b) Angenommen, die Verteilung der Geschwisterzahlen unter den Studenten sei unbekannt. Was weiß man über die Verteilung der Stichprobenelemente und über deren Erwartungswert und Varianz? Aufgabe 9-3 Aus welchem Grund kann man nur bei Zufallsstichproben Verfahren der induktiven Statistik anwenden?

10 Schätzmethodik

45

10 Schätzmethodik 10.1 Gegenstand der Schätzung Aufgabe 10.1-1 Welche Parameter der Grundgesamtheit sollen in den folgenden Fällen geschätzt werden? Geben Sie auch die üblichen Bezeichnungen für die gesuchten Parameter an. a) Der Anteil der fehlerhaften Stücke in einem Produktionsprozess soll geschätzt werden. b) Zur Auswahl des Werbekanals soll die Zeit geschätzt werden, die die Zielgruppe (Frauen zwischen 25 und 40 mit Hochschulabschluss, Mittelschicht) pro Tag im Durchschnitt fernsieht. c) Ein Anleger möchte zu einem Finanzprodukt wissen, wie groß die durchschnittliche Renditeschwankung ist.

10.2 Punktschätzung Aufgabe 10.2-1 Geben Sie zu den gesuchten Parametern aus Aufgabe 10.1-1 geeignete Punktschätzer an. Welche Erwartungswerte haben diese Punktschätzer? Aufgabe 10.2-2 Aus welchen Gründen ist es sinnvoll, Varianzen von Punktschätzern zu berechnen? Geben Sie die Varianzen der Punktschätzer für den Mittelwert und den Anteil an. Erklären Sie, was diese Varianzen aussagen. Geben Sie außerdem Punktschätzer für diese Varianzen an. Aufgabe 10.2-3 Eine Lebensmittelkette hat über 1.000 Filialen in Deutschland. Es werden 8 Filialen zufällig ausgewählt und die Zahl der Mitarbeiter betrachtet. Man erhält folgende Daten: Filiale 1 2 3 4 5 6 7 8

Mitarbeiterzahl 6 8 10 5 9 11 7 8

a) Schätzen Sie die durchschnittliche Anzahl der Mitarbeiter je Filiale für die Grundgesamtheit. b) Schätzen Sie die Varianz und die Standardabweichung der Zufallsvariable "Anzahl der Mitarbeiter je Filiale" für die Grundgesamtheit. c) Schätzen Sie den Anteil der Filialen mit zweistelliger Mitarbeiterzahl für die Grundgesamtheit und dessen Varianz.

46

10 Schätzmethodik

Aufgabe 10.2-4 Beurteilen Sie die Schätzfunktionen 1 bis 4, wenn bekannt ist, dass gilt  = 2. Schätzfunktion θ 1 2 3 4

E(θ) 0 2 2 2,1

Var(θ) 2,8 2,0 1,5 0,4

Aufgabe 10.2-5 Die Kinder Rudi, Uta, Abdel und Ulla erhalten jeweils 2, 4, 6 bzw. 8 Euro Taschengeld. a) Es wird zufällig ein Kind ausgewählt und nach der Höhe des Taschengelds gefragt. Errechnen Sie Erwartungswert und Varianz für die Antwort. b) Es werden alle möglichen Stichproben mit Zurücklegen vom Umfang n = 2 gezogen. i) Bestimmen Sie die Wahrscheinlichkeitsfunktion des Stichprobenmittels X. ii) Zeigen Sie, dass E(X) = μ und Var(X) = σ /n gilt.

10.3 Intervallschätzung Aufgabe 10.3-1 Die Breite von Konfidenzintervallen für die Schätzung des Erwartungswertes hängt vom Konfidenzniveau 1 - , dem Stichprobenumfang n sowie der Standardabweichung der Grundgesamtheit  ab. Welche Auswirkung hat eine Vergrößerung von a) 

b) n

c) ?

Aufgabe 10.3-2 Die Firma Z will einen neuen, besonders verbrauchsarmen PKW auf den Markt bringen. Um eine Schätzung für den normalverteilten Verbrauch zu bekommen, werden mit 5 zufällig ausgewählten Testwagen Probefahrten durchgeführt und dabei der Benzinverbrauch auf 100 km gemessen. Als Messwerte in der Stichprobe ergeben sich 3,2 l, 3,1 l, 2,8 l, 3,0 l, 2,9 l. Führen Sie eine Intervallschätzung für ein Konfidenzniveau von a) 95 % und b) 98 % durch. Aufgabe 10.3-3 Wie viel arbeitet ein BWL-Student durchschnittlich in der Woche, um das Studium zu finanzieren? Um das herauszufinden, wurde eine repräsentative Stichprobe in ganz Deutschland erhoben. In einer Zufallsstichprobe von n = 160 wurde gemessen: x = 3,36 Stunden und s = 3,42. Führen Sie eine Intervallschätzung mit einem Konfidenzniveau von 90 % durch. Aufgabe 10.3-4 Eine Zufallsstichprobe vom Umfang 144 Personen in einer Stadt ergab, dass 80 % der befragten Personen dieser Stichprobe gerne auch am Sonntag einkaufen würden. Bestimmen Sie bei = 0,05 ein Konfidenzintervall für den Anteil der Personen in der Stadt, die eine Ladenöffnung am Sonntag befürworten würde.

10 Schätzmethodik

47

Aufgabe 10.3-5 Der Großhändler Z erhält regelmäßig Orangen aus Spanien geliefert. Aus Erfahrung ist bekannt, dass das Gewicht der Orangen mit  = 200 g und  = 20 g normalverteilt ist. a) Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Orange mehr als 210 g wiegt? b) Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Orange genau 210 g wiegt? c) Es wird nun eine Stichprobe vom Umfang n = 64 gezogen, wobei bei den einzelnen Zügen Unabhängigkeit angenommen werden darf. Wie groß ist die Wahrscheinlichkeit, dass ein Durchschnittsgewicht von mehr als 205 g in der Stichprobe vorliegt? d) Z will nun verstärkt Orangen aus Süditalien beziehen. Hier weiß er nicht, wie das Gewicht verteilt ist. In einer Stichprobe der Größe 400 hat er die Standardabweichung des Gewichts mit 20 g geschätzt. Im Stichprobenmittel ergab sich ein Gewicht von 203 g. Wie groß ist das Konfidenzintervall für das mittlere Gewicht bei  = 0,05? Warum kann mit der Normalverteilung gearbeitet werden? Aufgabe 10.3-6 Ein fest eingestelltes Papierschneidegerät schneidet von einem durchlaufenden Papierband Stücke ab, die eine bestimmte Länge haben sollen. Aus der laufenden Produktion wird eine Stichprobe vom Umfang n = 9 gezogen und die Länge nachgemessen. Dabei ergeben sich folgende Werte: 184,2 mm, 182,6 mm, 185,3 mm, 184,5 mm, 186,2 mm, 183,9 mm, 185,0 mm, 187,1 mm, 184,4 mm. Aufgrund langer Erfahrungen ist bekannt, dass die Grundgesamtheit normalverteilt ist. a) Führen Sie eine Punktschätzung für die eingestellte Solllänge durch. b) Führen Sie eine Intervallschätzung für den eingestellten Wert  bei einem Konfidenzniveau von 0,9 durch. c) Welches Konfidenzniveau gilt für P(183,8    185,8)? (Rundung auf volle Prozentzahl). Aufgabe 10.3-7 Ein Zahnarzt möchte eine Aussage über den Gesundheitszustand der Zähne bei Schülern der 5. Klasse in Deutschland treffen. Dazu werden alle 150 Fünftklässler eines Mainzer Gymnasiums untersucht. Es ergeben sich folgende Angaben über die Anzahl kranker Zähne: Anzahl kranker Zähne Anzahl Schüler

0 59

1 30

2 25

3 20

4 10

5 6

6 0

a) Schätzen Sie den Anteil der Schüler ohne kranke Zähne der Grundgesamtheit. b) Wie groß ist der Anteil der Schüler ohne kranke Zähne bei einem Konfidenzniveau von 95 %? c) Halten Sie es für problematisch, dass „ohne Zurücklegen“ gezogen wird? d) Welche Probleme könnten sich aus dem Auswahlverfahren ergeben?

11 Hypothesentests

49

11 Hypothesentests Aufgabe 11-1 Die Zeitschrift „Gemüsetest“ testet den Wahrheitsgehalt der folgenden Werbeaussagen. A. Geben Sie jeweils an, ob ein linksseitiger, ein rechtsseitiger oder ein zweiseitiger Test nötig ist, und stellen Sie die Hypothesen auf. a) Gemüsehändler Hase wirbt damit, dass seine Karotten mindestens 30 cm lang sind. b) Gleichzeitig preist er seine Kartoffeln der Sorte „Pellworm“ als ideale Pellkartoffeln an. Sie seien mit einem Gewicht von durchschnittlich 50 g weder zu dick noch zu dünn. c) Konservenfabrikant Hamster wirbt für seine extrazarten jungen Erbsen mit der Garantie, die durchschnittliche Dicke der jungen Erbsen betrage höchstens 3 mm. d) Er behauptet auch, dass der Anteil von holzigem Spargel in seinen Konserven unter 0,3 % liege. e) Weiterhin lobt er die ausgewogene Mischung seiner „Erbsen mit Karotten“, die genau 40 % zu 60 % Gewichtsanteil betrage. B. Handelt es sich bei den folgenden Fehlern der Zeitschrift „Gemüsetest“ um Fehler 1. Art (Fehler) oder Fehler 2. Art (-Fehler)? a) Die Karotten von Hase sind tatsächlich durchschnittlich 30 cm lang. In ihrem Test kommt die Zeitschrift jedoch zu dem Ergebnis, dass die Werbeaussage falsch sei. b) Nach ihrem Test akzeptiert die Zeitschrift die Aussage von Fabrikant Hamster zu seinem Spargel. Der tatsächliche Anteil an holzigem Spargel liegt jedoch bei 2 %. Aufgabe 11-2 Von der Abfüllanlage einer Brauerei werden Flaschen gefüllt, wobei die Füllmenge X pro Flasche gewissen Schwankungen unterliegt und als normalverteilte Zufallsvariable angesehen werden kann. Der Brauereibesitzer behauptet, dass im Schnitt 500 ml in einer Flasche sind. Anhand einer einfachen Stichprobe mit 25 Flaschen soll bei einer Irrtumswahrscheinlichkeit von 1 % überprüft werden, ob die Behauptung stimmt. In der Stichprobe ergibt sich eine durchschnittliche Füllmenge von 499,28 ml mit der Standardabweichung s = 1,5 ml. a) Führen Sie einen Test durch unter der Bedingung, dass Ihr Auftraggeber die Eichkommission ist, die sowohl an Abweichungen nach unten als auch nach oben interessiert ist. b) Führen Sie einen Test durch unter der Bedingung, dass Ihr Auftraggeber eine Verbraucherorganisation ist, die nur Unterschreitungen des Sollwertes interessiert. Aufgabe 11-3 Ein Hersteller von Dachziegeln hat von seinem Großkunden die Vorgabe, dass das durchschnittliche Gewicht der Ziegel 400 g betragen soll. Bei einer Stichprobe von 40 Ziegeln ergibt sich ein arithmetisches Mittel von 405 g bei einer Standardabweichung s von 15 g. Ist bei einer Irrtumswahrscheinlichkeit von  = 0,01 die Vorgabe eingehalten oder muss man davon ausgehen, dass die Ziegel schwerer als das Sollgewicht sind?

50

11 Hypothesentests

Aufgabe 11-4 Der italienische Nudelhersteller Balilla behauptet, dass die durchschnittliche Länge seiner neuen Nudelsorte Crampi bei 20 cm liegt. Zur Überprüfung dieser Hypothese werden der Lieferung 8 Nudeln entnommen und gemessen. Es ergeben sich die Werte 18,3 cm, 18,6 cm, 17,7 cm, 21,3 cm, 19,2 cm, 19,7 cm, 20,1 cm, 17,1 cm. Testen Sie die Hypothese bei einem Signifikanzniveau von  = 0,02. Nehmen an, die Nudellänge sei normalverteilt. Aufgabe 11-5 Reiseveranstalter wissen, dass sich 15 % aller Kunden auch bei normalem Reiseverlauf nach der Reise beschweren. Der Veranstalter PFUI hat den Eindruck, dass es verstärkt Klagen über schmutzige Strände auf der Ferieninsel Lanoia gibt. Mit einer Zufallsstichprobe möchte der Veranstalter herausfinden, ob die Klagen über das Normalmaß hinausgehen. Eine Stichprobe von 225 ergab, dass sich 37 Kunden im Anschluss an die Reise beschwert haben. Testen Sie mit  = 5 %. Aufgabe 11-6 Berechnen Sie für folgende Sachverhalte den jeweiligen P-Wert: a) Es soll getestet werden, ob die durchschnittliche Bearbeitungszeit eines Kreditantrags durch die Einführung einer neuen Software kleiner als 30 Minuten ist. Der berechnete Wert der Teststatistik (große Stichprobe) sei z = -1,20. b) Hypothesentest aus Aufgabe 11-3. c) Nehmen Sie an, dass in Aufgabe 11-3 zweiseitig getestet wurde. d) Es soll getestet werden, ob sich in einer Wahl der Anteil der Nichtwähler vom behaupteten Wert 25 % unterscheidet. Der berechnete Wert der (standardnormalverteilten) Teststatistik sei 0,45. Aufgabe 11-7 Geben Sie für Aufgabe 11-2, Aufgabe 11-3 und Aufgabe 11-5 an, was die Fehler 1. und 2. Art jeweils inhaltlich bedeuten.

12 Regressionsanalyse

51

12 Regressionsanalyse 12.1 Das Regressionsmodell Aufgabe 12.1-1 Wozu dienen Regressionsanalysen, und wodurch erklärt sich ihre große Bedeutung in den (empirischen) Wirtschaftswissenschaften? Aufgabe 12.1-2 Warum müssen Regressionsanalysen ein Residuum vorsehen? Aufgabe 12.1-3 Erläutern Sie die Exogenitätsannahme.

12.2 Das klassische Regressionsmodell Aufgabe 12.2-1 Erläutern Sie den Begriff „klassisches Regressionsmodell“.

12.3 Einfachregression in Stichproben Aufgabe 12.3-1 Für ein Gut soll die Angebotsfunktion Y in Abhängigkeit vom Preis X geschätzt werden. Folgende Daten stehen zur Verfügung: Yi Xi

69 9

76 12

52 6

56 10

57 9

77 10

58 7

55 8

67 12

53 6

72 11

64 8

a) Berechnen Sie die Punktschätzungen für die Regressionskoeffizienten nach der Kleinstquadratmethode. b) Nehmen Sie an, dass alle Annahmen des klassischen Regressionsmodells gelten, und geben Sie die Eigenschaften der Punktschätzer an. Aufgabe 12.3-2 Haben Kinder aus gut verdienenden Elternhäusern bessere Einkommenschancen als Kinder aus Elternhäusern mit geringem Einkommen? Eine Studie aus einer Stichprobe von 25 Dreißigjährigen hat ergeben (fiktive Daten, Standardfehler des Regressionskoeffizienten in Klammern, alle Annahmen des klassischen Regressionsmodells seien erfüllt):

Y = 2.045 + 0,65X (0,32)

52

12 Regressionsanalyse Yi = Einkommen des 30-Jährigen Xi = Einkommen der Eltern im Alter von 30.

a) Interpretieren Sie den Regressionskoeffizienten. b) Führen Sie einen geeigneten Hypothesentest über den Regressionskoeffizienten durch ( = 5 %). Aufgabe 12.3-3 Ein Staat möchte mit Hilfe von t = 24 saisonbereinigten Quartalsdaten die folgende Steuerfunktion schätzen: T =β +β Y +ε

(T = Steuereinnahmen des Staates, Y = Bruttoinlandsprodukt, jeweils in Geldeinheiten GE).

Nehmen Sie an, alle Annahmen des klassischen Regressionsmodells seien erfüllt. Ferner ist bekannt:

a) b) c) d)

∑(T − T)(Y − Y) = 4.794,86

∑ e = 360,63

∑(T − T) = 1.540,17

∑(Y − Y) = 19.491,30

T = 350

Y = 1.280

s

= 0,029.

Ermitteln Sie die Anpassungsgüte der Regression. Bestimmen Sie die Regressionsfunktion. Wie lautet das Konfidenzintervall für 1 ( = 5 %)? Im kommenden Jahr wird mit einem Bruttoinlandsprodukt von 1.800 Geldeinheiten gerechnet. Wie groß wird das erwartete Steueraufkommen sein?

12.4 Multiple Regression in Stichproben Aufgabe 12.4-1 Eine Stichprobe von 25.410 Arbeitnehmern in Staat X umfasst unter anderem folgende Variablen: Variablenname alter arbeitszeit einkommen kinder

Erklärung Alter des Arbeitnehmers monatliche Arbeitszeit in Stunden monatliches Netto-Einkommen in Euro Zahl der im Haushalt wohnenden Kinder unter 18 Jahren

Eine Regressionsschätzung zur Erklärung des Nettoeinkommens führte zu folgendem Ergebnis: eınkommen = 1.371,4 + 9,780alter − 206,381kinder + 12,201arbeitszeit . a) Nehmen Sie an, dass alle Annahmen des klassischen Regressionsmodells gelten. Interpretieren Sie die Koeffizienten. b) Folgende Standardfehler der Koeffizienten wurden außerdem geschätzt: s

= 1,210,

s

= 95,512,

s

= 4,521.

Testen Sie die Regressionskoeffizienten auf Signifikanz. c) Welches Einkommen wäre für einen 35jährigen Angestellten mit 2 Kindern in Vollzeitstelle (160 Stunden pro Monat) zu erwarten?

12 Regressionsanalyse

53

Aufgabe 12.4-2 In einem Projekt soll untersucht werden, ob und wie sich geo-demographische Merkmale eines Landes auf die Wirtschaftskraft (gemessen mit dem BIP) auswirken. Dazu werden in 141 Ländern folgende Variablen untersucht (fiktive Daten): gdp infmortality land literate pop

BIP Mrd. USD Kindersterblichkeitsrate in Promille Fläche in 1.000 qkm Anteil der alphabetisierten Bevölkerung in Prozent Bevölkerung in Millionen.

Mit der Software Stata® wurde mittels der KQ-Methode ein multiples Regressionsmodell zur Erklärung des BIP mit n = 141 Ländern geschätzt. Der Output lautet: gdp

Coef.

infmortality land literate pop _cons

-1.41477 .0223443 .150073 2.630936 86.43434

Std. Err. .3345861 .0049629 .5427989 .287804 55.89911

t -4.23 4.50 0.28 9.14 1.55

P>|t| 0.000 0.000 0.783 0.000 0.124

[95% Conf. Interval] -2.076434 .0125297 -.9233447 2.061786 -24.10954

-.7531056 .0321588 1.223491 3.200086 196.9782

a) Interpretieren Sie die Koeffizienten unter Berücksichtigung der Signifikanztests. b) Versuchen Sie durch eigene Berechnung den t-Wert und P-Wert für „literate“ nachzuvollziehen. Aufgabe 12.4-3 In der Regression zu Aufgabe 12.4-1 ergaben sich folgende Werte: ∑(y − y) = 235.887

∑(y − y ) = 521.454.

a) Berechnen Sie R². b) Berechnen Sie das adjustierte R². c) Führen Sie den F-Test durch ( = 1 %). Aufgabe 12.4-4 Interpretieren Sie die Koeffizienten und die Anpassungsgüte eines im Rahmen der klassischen Regressionsanalyse erzeugten Stata®-Outputs (Nettomiete in €, Wohnfläche in qm): Source

SS

df

MS

Model Residual

68421748.6 55186826.8

4 2048

17105437.1 26946.6928

Total

123608575

2052

60238.0972

Nettomiete

Coef.

Wohnflaeche Zimmerzahl Baujahr Stockwerk _cons

8.620763 -40.43638 2.220579 -3.000786 -4238.875

Std. Err. .2697869 6.876264 .1562307 .546825 306.2614

t 31.95 -5.88 14.21 -5.49 -13.84

Number of obs F( 4, 2048) Prob > F R-squared Adj R-squared Root MSE

P>|t| 0.000 0.000 0.000 0.000 0.000

= = = = = =

2053 634.79 0.0000 0.5535 0.5527 164.15

[95% Conf. Interval] 8.091677 -53.92158 1.914191 -4.073177 -4839.491

9.149848 -26.95118 2.526966 -1.928395 -3638.258

54

12 Regressionsanalyse

Aufgabe 12.4-5 Es soll herausgefunden werden, wie sich die Zimmerzahl von Mietwohnungen auf die Nettomiete auswirkt. Daher wird folgende Einfachregression über die bereits in Aufgabe 12.4-4 verwendete Stichprobe geschätzt (mit Stata®): Source

SS

df

MS

Model Residual

36613491.8 86995083.6

1 2051

36613491.8 42415.9354

Total

123608575

2052

60238.0972

Nettomiete

Coef.

Zimmerzahl _cons

135.9954 216.8228

Std. Err. 4.628798 12.85451

t 29.38 16.87

Number of obs F( 1, 2051) Prob > F R-squared Adj R-squared Root MSE

= = = = = =

2053 863.20 0.0000 0.2962 0.2959 205.95

P>|t|

[95% Conf. Interval]

0.000 0.000

126.9178 191.6136

145.0731 242.0321

a) Vergleichen Sie den Koeffizienten der Variable Zimmerzahl mit dem aus Aufgabe 12.4-4 und erklären Sie, wodurch der Unterschied zustande kommen könnte. b) Vergleichen Sie die Güte der Anpassung.

12.5 Annahmen im klassischen Regressionsmodell Aufgabe 12.5-1 Eine Annahme der Regressionsanalyse besagt, dass E(ε|X = x) = 0. a) b) c) d)

Was bedeutet diese Annahme inhaltlich? Was sind die Folgen einer Verletzung dieser Annahme? Wie kann im Allgemeinen überprüft werden, ob die Annahme verletzt ist? Diskutieren Sie, ob die Annahme in der Regression aus dem Beispiel von Aufgabe 12.4-2 verletzt sein könnte. e) Diskutieren Sie, ob die Annahme in der Regression aus den Beispielen Aufgabe 12.4-4 und Aufgabe 12.4-5 verletzt sein könnte. Aufgabe 12.5-2 In Aufgabe 12.4-4 wurde eine Regression zur Erklärung der Nettomiete berechnet. Um die Erklärungskraft des Modells zu steigern, rät Ihnen ein Statistik-Anfänger, zusätzlich noch das Alter des Gebäudes in Jahren in die Regression einzubeziehen. Was halten Sie davon? Aufgabe 12.5-3 Im Anschluss an die Regression aus Aufgabe 12.4-4 wurden die Restwerte berechnet („Rest“) und folgende Graphik erstellt:

12 Regressionsanalyse

55

Rest 1000

500

0

-500

-1000 0

50

100

150 200 Wohnflaeche

a) Was lässt sich schließen? b) Welche Konsequenzen ergeben sich für die Regression? Aufgabe 12.5-4 Zusätzlich zur Regression in Aufgabe 12.4-2 wird berechnet: i

Variable

R

VIF

1 2 3 4

literate infmortality land pop

0,60 0,59 0,17 0,17

2,50 2,44 1,20 1,20

a) Erklären Sie am Beispiel der Variable „literate“, wie VIF berechnet wurde. b) Beurteilen Sie das Ergebnis. Aufgabe 12.5-5 Bei Verletzung bestimmter Annahmen sind die Schätzer des Standardfehlers des Regressionskoeffizienten ineffizient und verzerrt. a) Um welche Annahmen handelt es sich dabei? b) Was bedeuten Ineffizienz und Verzerrung im Allgemeinen? c) Welche Folgen hat das für die Interpretation der Regressionsergebnisse? Aufgabe 12.5-6 In der Regression von Aufgabe 12.4-4 wird die Miete unter anderem mit dem Baujahr erklärt. Angenommen, Sie wissen, dass sowohl Alt- als auch Neubauten besonders teuer sind. a) Welche Annahme wäre verletzt? b) Wie könnten Sie erkennen, ob die unter a) vermutete Annahme tatsächlich verletzt ist? c) Wie könnten Sie vorgehen, wenn die unter a) vermutete Annahme tatsächlich verletzt ist?

13 Qualitative Einflussfaktoren

57

13 Qualitative Einflussfaktoren 13.1 Test auf Anteilswertvergleich Ein Marktforschungsinstitut testet, ob Konsumenten ungesunde Nahrung eher akzeptabel finden, wenn sie von Sportlern beworben wird. Dazu wird einer zufällig ausgewählten Gruppe von 150 Probanden die Werbung eines mit Fett-Schokoladenglasur überzogenen Butterkekses gezeigt. 75 der Probanden (Gruppe 1) bekommen Werbespots ohne Personen zu sehen, den restlichen 75 Probanden (Gruppe 2) wird der Triathlonstar A. S. Khese beim Verzehr des Kekses gezeigt. Anschließend wurde den Probanden der Keks angeboten. Aus Gruppe 1 nahmen 34 Probanden das Angebot an, aus Gruppe 2 hingegen griffen 40 Probanden zu. a) Testen Sie mit  = 5 %. b) Berechnen Sie den P-Wert.

13.2 Chi-Quadrat-Unabhängigkeitstest Aufgabe 13.2-1

Verpackung

Hat die Verpackung eines Produktes Einfluss auf die Qualitätswahrnehmung von Verbrauchern? Um das herauszufinden, hat ein Marktforschungsinstitut einen Verbrauchertest durchgeführt. Dabei wurde Käse der gleichen Qualität verschiedenartig verpackt und einer Zufallsstichprobe von 100 Testverbrauchern zur Beurteilung vorgelegt. Es ergaben sich folgende Qualitätsurteile:

Karton

Wahrgenommene Qualität Sehr gut Mittel Schlecht 6 18 2

Folie

7

21

4

Papier

10

24

8

a) Prüfen Sie, ob der Chi-Quadrat-Unabhängigkeitstest durchgeführt werden kann. b) Führen Sie den Chi-Quadrat-Unabhängigkeitstest mit  = 5 % durch. Aufgabe 13.2-2 Das Versandhandelsunternehmen Schlawinski hat 125 Kunden über die Zufriedenheit mit der Beratung befragt.    

65 Kunden wurden telefonisch beraten und waren zufrieden. 25 Kunden wurden telefonisch beraten und waren unzufrieden. 28 Kunden wurden online beraten und waren zufrieden. 7 Kunden wurden online beraten und waren unzufrieden.

a) Stellen Sie eine Kontingenztabelle mit den absoluten gemeinsamen Häufigkeiten und der Randverteilung auf. b) Testen Sie, ob die Art der Beratung (telefonisch oder online) Einfluss auf die Zufriedenheit hat ( = 5 %).

58

13 Qualitative Einflussfaktoren

13.3 Zweistichprobentest auf Mittelwertvergleich Aufgabe 13.3-1 Das Küchencenter Wampe schickt seine Monteure auf eine Schulung mit dem Ziel, die Montagezeit zu senken. Bei Monteuren ohne Schulung wurde in einer Zufallsstichprobe vom Umfang 240 eine durchschnittliche Montagezeit von 458 Minuten gemessen (Standardabweichung 250). In einer Zufallsstichprobe von 100 Montagen durch geschulte Monteure ergaben sich die Werte von 423 (Durchschnitt) und 215 (Standardabweichung). a) Treffen Sie keine weiteren Annahmen und testen Sie mit  = 10 %, ob die Schulung erfolgreich ist. b) Nehmen Sie an, dass die Varianzen der Montagezeiten von geschulten und ungeschulten Monteuren gleich sind, und testen Sie erneut. c) Testen Sie, ob die Varianzen gleich sind ( = 5 %). d) Sind die Stichproben unabhängig? Aufgabe 13.3-2 Anhand einer Zufallsstichprobe von 981 Arbeitnehmern soll untersucht werden, ob es signifikante Unterschiede zwischen den durchschnittlichen jährlichen Krankheitstagen von Männern und Frauen gibt. Mit der Software Stata® wurde folgender Output erzeugt:

geschlecht

Summary of Zahl der Krankheitstage in den letzten 12 Monaten Mean Std. Dev. Freq.

weiblich maennlich

1.3100304 1.1088957

2.041025 1.6194234

329 652

Total

1.1763507

1.7735274

981

Entscheiden Sie anhand des P-Wertes, ob sich der Durchschnitt bei Männern und Frauen signifikant unterscheidet. Aufgabe 13.3-3 Traditionell sind in einem Land bei geschlossenen Ehen Männer älter als Frauen. Es wird vermutet, dass dies für die in den letzten 2 Jahren geschlossenen Ehen nicht mehr gilt. Eine Zufallsstichprobe von 8 Ehen ergab (Alter in Jahren): Ehe-Nr. Alter des Mannes bei Eheschließung Alter der Frau bei Eheschließung

1 25 21

2 42 42

3 34 38

4 25 24

5 27 30

6 25 23

7 41 42

8 32 30

Nehmen Sie an, dass das Alter bei Eheschließung annähernd normalverteilt ist, und testen Sie, ob Männer bei der Eheschließung im Durchschnitt signifikant älter sind ( = 5 %).

13 Qualitative Einflussfaktoren

59

13.4 Einfache Varianzanalyse Aufgabe 13.4-1 Unter Risikoaspekten ist es wünschenswert, dass Unternehmen hohe Eigenkapitalquoten aufweisen. Aus einer zufälligen Stichprobenerhebung von n = 742 Unternehmen aus insgesamt 7 verschiedenen Branchen wurden unterschiedliche durchschnittliche Eigenkapitalquoten festgestellt, Nun soll untersucht werden, ob diese Unterschiede signifikant sind ( = 1 %). Dazu wurde berechnet: SSB =241,48 („Sum of squares between groups“) und SSW = 198,14 („Sum of squares within groups“). Nehmen Sie außerdem an, dass die Eigenkapitalquoten annähernd normalverteilt sind mit gleichen Varianzen pro Branche. Aufgabe 13.4-2 Es wird behauptet, dass die Untersuchung aus Aufgabe 13.4-1 dadurch beeinträchtigt ist, dass ist, dass die zum Teil genannten Annahmen doch nicht erfüllt waren. a) Nennen Sie die Annahmen. b) Diskutieren Sie, ob die Annahmen erfüllt sind, bzw. wie dies untersucht werden könnte. Aufgabe 13.4-3 Es soll untersucht werden, ob in verschiedenen Berufszweigen von Unternehmen unterschiedliche Gehälter gezahlt werden. Dazu werden in fünf verschiedenen Berufszweigen Zufallsstichproben von insgesamt n = 981 Arbeitnehmern erhoben und das Bruttojahresgehalt in Tsd. € festgehalten. Die Stichprobenmittelwerte, Stichprobenstandardabweichungen und –umfänge sind in folgender Aufstellung angegeben: Berufszweig j

x

sj

nj

IT-Support Personal Produktion Beschaffung Vertrieb

76,59 62,73 64,05 66,85 71,24

28,37 25,17 28,37 28,69 29,56

49 68 425 226 213

Außerdem ergibt sich SST = ∑

∑

X −X

= 806.059,39.

a) Führen Sie eine Varianzanalyse durch ( =5 %). b) Testen Sie mit Hilfe des Bartlett-Tests, ob Varianzhomogenität gegeben ist ( =5 %). Aufgabe 13.4-4 In Aufgabe 13.4-3 a) wurde die Nullhypothese abgelehnt. Untersuchen Sie, ob signifikante Unterschiede zwischen IT-Support und Produktion bzw. zwischen IT-Support und Vertrieb vorliegen.

60

13 Qualitative Einflussfaktoren

13.5 Regressionsanalyse mit Dummy-Variablen Aufgabe 13.5-1 Eine Regressionsanalyse soll Bestimmungsfaktoren für den Umsatz von Produkt-Neueinführungen im Spielemarkt erklären. Es werden 3.687 Produktneueinführungen der letzten 5 Jahre betrachtet. Die im Folgenden genannten Variablen, bedeuten: umsatz werbung alter preis spielerzahl typ

= = = = = =

Umsatz 3 Monate nach Markteinführung in € monatliches Werbebudget in € Alter der Zielgruppe in Jahren empfohlener Ladenpreis des Spiels in € Mindestzahl der Mitspieler Art des Spiels: Typ 1 = Brettspiel, Typ 2 = Kartenspiel, Typ 3 = elektronisches Spiel/Computerspiel, Typ 4 = Sonstiges

Der mit Stata® erzeugte Output zeigt folgende Ergebnisse: Source

SS

df

MS

Model Residual

1.41561126 8.95209712

7 3679

.202230181 .002433296

Total

10.3677084

3686

.002812726

umsatz

Coef.

werbung alter preis spielerzahl _Ityp_2 _Ityp_3 _Ityp_4 _cons

.0165701 -.0786755 .1265458 .0000117 -.0263085 -.0044313 -.0023286 .0690822

Std. Err. .0007611 .0631675 .0300325 4.50e-06 .0151743 .0038762 .0030788 .0030674

t 21.77 -1.25 4.21 2.61 -1.73 -1.14 -0.76 22.52

Number of obs F( 7, 3679) Prob > F R-squared Adj R-squared Root MSE

P>|t| 0.000 0.213 0.000 0.009 0.083 0.253 0.450 0.000

= = = = = =

3687 83.11 0.0000 0.1365 0.1349 .04933

[95% Conf. Interval] .0150779 -.2025224 .0676639 2.91e-06 -.0560594 -.012031 -.0083649 .0630682

.0180623 .0451713 .1854278 .0000206 .0034424 .0031685 .0037078 .0750962

a) Beurteilen Sie die Güte der Anpassung. b) Erklären Sie, aus welchem Grund nur 3 Dummyvariablen aufgenommen wurden, obwohl vier Spielekategorien existieren. c) Interpretieren Sie den Koeffizienten der Variablen _Ityp_2. d) Ohne die Variable „typ“ ergibt sich folgender Output: Source

SS

df

MS

Model Residual

1.40618213 8.96152626

4 3682

.351545532 .002433875

Total

10.3677084

3686

.002812726

umsatz

Coef.

werbung alter preis spielerzahl _cons

.0167554 -.0758724 .1255267 .0000113 .066444

Std. Err. .0007411 .063138 .0299895 4.48e-06 .0011282

t 22.61 -1.20 4.19 2.53 58.90

Number of obs F( 4, 3682) Prob > F R-squared Adj R-squared Root MSE

P>|t| 0.000 0.230 0.000 0.012 0.000

= = = = = =

3687 144.44 0.0000 0.1356 0.1347 .04933

[95% Conf. Interval] .0153024 -.1996613 .0667291 2.53e-06 .0642322

Testen Sie, ob die Variable „typ“ den Umsatz beeinflusst ( = 5 %).

.0182084 .0479166 .1843244 .0000201 .0686559

13 Qualitative Einflussfaktoren

61

e) Eine Regression nur mit der Variable „typ“ ergibt: Source

SS

df

MS

Model Residual

.202232436 28.7904727

3 4959

.067410812 .005805701

Total

28.9927051

4962

.005842947

umsatz

Coef.

_Ityp_2 _Ityp_3 _Ityp_4 _cons

-.034159 -.01853 -.0016779 .0894458

Std. Err. .010019 .0050846 .0040575 .0038732

t -3.41 -3.64 -0.41 23.09

Number of obs F( 3, 4959) Prob > F R-squared Adj R-squared Root MSE

P>|t| 0.001 0.000 0.679 0.000

= = = = = =

4963 11.61 0.0000 0.0070 0.0064 .0762

[95% Conf. Interval] -.0538006 -.0284981 -.0096324 .0818526

-.0145174 -.0085618 .0062765 .0970391

Mit welcher anderen Methode ist diese Spezifikation der Regression vergleichbar? Erklären Sie das Ergebnis aus dem F-Test. Vergleichen Sie dieses Ergebnis außerdem mit dem aus der vorherigen Teilaufgabe und treffen Sie eine Entscheidung, welches Ergebnis vorzuziehen ist. Aufgabe 13.5-2 Eine Marktforschungsstudie zu Haarshampoos untersucht, ob Kombiprodukte (Shampoo und Duschgel in einem) erfolgreicher sind als herkömmliche (nur Shampoo). Dazu wurde eine Regressionsanalyse über den Umsatz von 73 verschiedenen Produkten gemacht. Bei der Ergebnisdarstellung werden folgende Variablenabkürzungen verwendet:  Umsatz: Umsatz des Shampoos in € in der Zeitperiode t  Werbung: Werbeausgaben für das Shampoo in der Zeitperiode t − 1.  Testergebnis: das Testergebnis einer Verbraucherorganisation (Schulnoten von 1 bis 5, 1 = „sehr gut“, 5 = „mangelhaft“) in t,  Preis: den Preis pro 100 ml (in €) in t,  D_Duschgel (nimmt den Wert 1 an, wenn das Shampoo gleichzeitig als Duschgel verwendet werden kann, ansonsten 0) a) Beurteilen Sie die Güte der Anpassung. b) Beurteilen und interpretieren Sie alle Regressionskoeffizienten mit Ausnahme des Absolutglieds. Ergebnisdarstellung: Source

SS

df

MS

Model Residual

353740062 281325334

4 69

88435015.5 4077178.76

Total

635065396

73

8699525.97

Umsatz

Coef.

Werbung Testergebnis Preis D_Duschgel _cons

42.84093 -516.3138 -94.52688 33.04391 5207.344

Std. Err. 38.02783 110.0753 32.88494 6.812217 3749.196

t 1.13 -4.69 -2.87 4.85 1.39

Number of obs F( 4, 69) Prob > F R-squared Adj R-squared Root MSE

P>|t| 0.264 0.000 0.005 0.000 0.169

= = = = = =

74 21.69 0.0000 0.5570 0.5313 2019.2

[95% Conf. Interval] -33.02251 -735.908 -160.1305 19.45391 -2272.099

118.7044 -296.7196 -28.92322 46.63391 12686.79

62

13 Qualitative Einflussfaktoren

c) Ein einfacher Vergleich der Durchschnittsumsätze ergibt einen Wert von 6.075 für Kombiprodukte und einen Wert von 6.072 für einfache Shampoos. Der P-Wert aus einem Test auf Mittelwertvergleich ist 68,02 %. Erklären Sie den Unterschied zwischen diesem Ergebnis und dem Ergebnis aus a) und entscheiden Sie, welches Ergebnis vorzuziehen ist. d) Geben Sie die Regressionskoeffizienten der Regression Umsatz = β + β D_Duschgel an und den P-Wert aus dem Test auf H : β = 0 in dieser Regression.

1 Einführung

63

Lösungen 1 Einführung Aufgabe 1-1 Statistische Einheit: statistische Masse: Merkmal: Merkmalsausprägung:

Einzelner Weinbaubetrieb in Agrarland im Jahr 2014, Gesamtheit aller Weinbaubetriebe in Agrarland im Jahr 2014, Bestockte Rebfläche, z. B. könnte 4,0 ha eine Merkmalsausprägung sein; der Betrieb würde dann der Klasse „1 bis unter 5 ha“ zugeordnet.

Aufgabe 1-2 Statistische Einheit, Merkmalsträger: statistische Masse: Merkmal: Merkmalsausprägung:

der einzelne Bewerber, alle Bewerber, Leistungen in Forschung und Lehre, der jeweilige Rangplatz eines Bewerbers in einer Kategorie, statistische Einheit, Merkmalsträger: Person, Objekt oder Ereignis, deren Eigenschaften man feststellen will, statistische Masse: Gesamtheit von Einheiten, für die die Ausprägungen jeweils gleicher Merkmale erhoben werden sollen, z. B. die Zahl der Unternehmen (sachliche Abgrenzung) in Rheinhessen (räumliche Abgrenzung) zum Stichtag einer Unternehmenszählung (zeitliche Abgrenzung). Man bezeichnet sie auch als Grundgesamtheit, Merkmal: Eigenschaft der statistischen Einheit, Merkmalsausprägung: Messbare Eigenschaften der Merkmalsträger. Diesen Eigenschaften können Zeichen oder Zahlen zugeordnet werden. Aufgabe 1-3 Quantitative Merkmale: durch Zahlen messbar, also metrisch skalierte Merkmalswerte. Qualitative Merkmale: nicht durch Zahlen messbar (lediglich nominal- oder ordinal skalierte Merkmale). Die Ausprägungen quantitativer Merkmale unterscheiden sich durch ihre Größe, die Ausprägungen qualitativer Merkmale durch ihre Art. Nominale Merkmale:

Merkmale, deren Ausprägungen gleichberechtigt nebeneinander stehen, also keiner Rangfolge unterliegen und nicht vergleichbar sind.

Ordinale Merkmale:

Rangfolge lässt sich angeben. Die Abstände zwischen den Merkmalsausprägungen sind jedoch nicht quantifizierbar und besitzen keine Aussagekraft.

Metrische Merkmale:

Auch die Abstände sind quantifizier- und interpretierbar.

64

1 Einführung

Die Unterscheidung ist deswegen wichtig, weil sich die Auswahl der anzuwendenden statistischen Methoden danach richtet. Diskrete Merkmale:

Ein Merkmal ist diskret, wenn es auf einer metrischen Skala endlich – oder abzählbar unendlich – viele Werte annehmen kann. Zwischen benachbarten Werten sind Lücken.

Stetige Merkmale:

Zumindest in einem bestimmten Intervall kann das Merkmal unendlich viele Ausprägungen annehmen.

Die Unterscheidung diskret/stetig bezieht sich nur auf metrisch skalierte Merkmale. Zuordnung: Lebensalter: Temperatur: Arbeitslosenzahl: Lagerbestand: Staatsangehörigkeit: Preis: Güteklasse: Klausurnote:

quantitativ, metrisch, stetig quantitativ, metrisch, stetig quantitativ, metrisch, quasi-stetig quantitativ, metrisch, diskret qualitativ, nominal quantitativ, metrisch, quasi-stetig qualitativ, ordinal qualitativ, ordinal.

2 Eindimensionale Häufigkeitsverteilungen

65

2 Eindimensionale Häufigkeitsverteilungen 2.1

Häufigkeitsverteilungen und graphische Darstellung

Aufgabe 2.1-1 Bei qualitativen Merkmalen sind Kreis-, Balken-, oder Säulendiagramme geeignet, um die Häufigkeitsverteilung graphisch zu zeigen. Bei quantitativ-diskreten Merkmalen wählt man ein Stabdiagramm und bei quantitativ-stetigen Merkmalen das Histogramm. Im Folgenden werden die einzelnen Graphiken beschrieben und fiktive Beispiele gegeben. Kreisdiagramm: Es eignet sich vorwiegend für qualitative Merkmale. Die Häufigkeiten werden durch die Flächen repräsentiert. Das Kreisdiagramm ist speziell zur Darstellung von Strukturen geeignet. Fiktives Beispiel: Kreisdiagramm

14,29%

28,57%

57,14%

Stabdiagramm: Über jeder Ausprägung auf der Abszisse wird die zugehörige absolute/relative Häufigkeit als Senkrechte abgetragen. Es eignet sich besonders für quantitativ-diskrete oder auch qualitative Merkmale. Die Zwischenwerte sind beim Stabdiagramm nicht definiert, daher dürfen die Stäbe nicht miteinander verbunden werden. Fiktives Beispiel: Stabdiagramm

pi

0,5

1,5

2,5

3,5

4,5

5,5

6,5

xi

66

2 Eindimensionale Häufigkeitsverteilungen

Häufigkeitspolygon: Die Verbindung der Mittelpunkte der oberen Säulenseiten eines Histogramms (siehe gestrichelte Linie in der Graphik). Nur bei stetigen Merkmalen sinnvoll anwendbar, weil die Verbindung in der Graphik anzeigt, dass alle Zwischenwerte existieren Histogramm: Das Histogramm wird vor allem bei quantitativ-stetigen Merkmalen verwendet und setzt Klassenbildung voraus. Es besteht aus nebeneinanderliegenden Rechtecken, deren Flächen proportional den Häufigkeiten sind. Die Höhe der Rechtecke entspricht der Dichte (Quotient aus relativer Häufigkeit und Klassenbreite). Bei gleichbreiten Klassen kann die Höhe auch durch die relativen Häufigkeiten angezeigt werden. Fiktives Beispiel: Histogramm und Häufigkeitspolygon

pi

0,0

1,0

2,0

3,0

4,0

5,0

6,0

xi

Aufgabe 2.1-2 a) Jeder Lebensdauerwert kommt nur einmal vor. Daher ist die relative Häufigkeit für jeden Lebensdauerwert ∑

=

=p.

Die empirische Verteilungsfunktion ergibt sich aus den kumulierten relativen Häufigkeiten, die in der folgenden Tabelle berechnet werden: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

xi 0,14 0,27 0,43 0,68 0,81 1,14 1,45 1,82 2,36 2,53 2,90 3,45 4,51 5,12 5,68 7,84

pi 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16

kumulierte pi 1/16 2/16 3/16 4/16 5/16 6/16 7/16 8/16 9/16 10/16 11/16 12/16 13/16 14/16 15/16 1

2 Eindimensionale Häufigkeitsverteilungen

67

Die empirische Verteilungsfunktion lautet 0 1/16 1/8 3/16 1/4 5/16 3/8 7/16 1/2 9/16 5/8 11/16 3/4 13/16 7/8 15/16 1

F(x) =

0,14 0,27 0,43 0,68 0,81 1,14 1,45 1,82 2,36 2,53 2,90 3,45 4,51 5,12 5,68

< < < < < < < < < < < < < <
7,84.

Da keine Klassenbildung notwendig ist, wird die Verteilungsfunktion durch eine Treppenfunktion angegeben: Fi 1,0 0,8 0,6 0,4 0,2 0,0 0,0

2,0

4,0 6,0 8,0 Lebensdauer in Jahren xi

b) Die Klasseneinteilung ergibt folgende Verteilung: i 1 2 3 4

Ki 0;1] ]1;2] ]2;3] ]3;4]

fi 5 3 3 1

pi 5/16 3/16 3/16 1/16

Fi 5/16 8/16 11/16 12/16

i 5 6 7 8

Ki ]4;5] ]5;6] ]6;7] ]7;8

fi 1 2 0 1

pi 1/16 2/16 0 1/16

Fi 13/16 15/16 15/16 1

F(x) ist die Summe aller Klassenhäufigkeiten, die kleiner oder gleich x sind.

68

2 Eindimensionale Häufigkeitsverteilungen Histogramm

pi 0,4 0,3 0,2 0,1 0,0

0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0

xi

Summenpolygon

Fi 1,0 0,8 0,6 0,4 0,2 0,0

0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 xi

c) Häufigkeitsverteilungen erreichen die in der deskriptiven Statistik angestrebte zusammenfassende Beschreibung des Datenmaterials, indem die Häufigkeiten einzelner Ausprägungen angezeigt werden. Merkmale mit sehr vielen Merkmalsausprägungen können dadurch aber kaum zusammengefasst werden. Daher teilt man bei solchen Merkmalen die Ausprägungen Klassen ein. Die Anzahl der zu bildenden Klassen steht dabei im Spannungsfeld zwischen Unübersichtlichkeit (zu viele Klassen) und Informationsverlust (zu wenige Klassen). Nach der Formel von Sturges, die einen Anhaltspunkt zur Bestimmung der Klassenzahl bietet, sind wären hier fünf Klassen zu bilden: k=1+

2.2

= 1 + 3,3223 ∙ lgN = 1 +

= 1 + 4 = 5.

Maßzahlen von Häufigkeitsverteilungen

Mittelwerte Aufgabe 2.2-1 a) Da das arithmetische Mittel aus einer Häufigkeitsverteilung berechnet wird, nimmt man die Formel für das gewogene arithmetische Mittel: X=μ=

∑

∑

xf =

(4 ∙ 1 + 7 ∙ 2 + ⋯ + 7 ∙ 16) =

∙ 835 = 9,27.

2 Eindimensionale Häufigkeitsverteilungen

69

Die durchschnittliche Lagerdauer eines Produkts beträgt 9,3 Tage. b) Den Median (Zentralwert) kann man mit Hilfe der Verteilungsfunktion (kumulierte relative Häufigkeiten F(.)) finden. Man erhält F(10) = 0,5. Wenn wie hier die Verteilungsfunktion den Wert 0,5 genau erreicht, wird der Median durch Interpolation mit dem Folgewert ermittelt, also Z = 0,5(10 + 11) = 10,5. Die Hälfte aller Produkte hat eine Lagerdauer von bis zu 10,5 Tagen. Aufgabe 2.2-2 a) Es ist das einfache arithmetische Mittel zu benutzen, da Rohdaten vorliegen: X= ∑

∙ (8,35 + 8,80 + ⋯ + 8,50) =

x =

,

= 8,72.

b) Klasse i 1 2 3 4 5 

Wertetabelle: x∗ fi 5 7,50 5 8,25 9 8,75 7 9,25 4 10,00 30

xi 7,0–8,0 8,0–8,5 8,5–9,0 9,0–9,5 9,5–10,5

x∗f 37,50 41,25 78,75 64,75 40,00 262,25

Gewogenes arithmetisches Mittel mit Klassenmitten x ∗ : X=

∑

∑

x∗f =

,

= 8,742.

Der Unterschied zu a) ergibt sich aus dem Auseinanderfallen von Klassenmitten und Klassenmittelwerten (z. B. Klassenmittelwert der ersten Klasse x = 7,56, während Klassenmitte x ∗ = 7,5). Aufgabe 2.2-3 xi 0–15 15–25 25–35 35–50 50–100 

fi 11 19 45 55 40 170

Arbeitstabelle: x∗ pi 7,5 0,065 20,0 0,112 30,0 0,265 42,5 0,324 75,0 0,235

ci 15 10 10 15 50

x∗f 82,5 380,0 1.350,0 2.337,5 3.000,0 7.150,0

p∗ 0,004 0,011 0,026 0,022 0,005

Fi 0,065 0,176 0,441 0,765 1,000

a) Da eine Häufigkeitsverteilung vorliegt, wird das gewogene arithmetische Mittel berechnet. Dazu müssen die Klassenmitten x ∗ verwendet werden: X=∑

∑

x∗f =

∙ 7.150 = 42,059.

Die durchschnittliche Eigenkapitalquote beträgt 42,059 %. b) Die Medianklasse befindet sich dort, wo die Verteilungsfunktion (kumulierte relative Häufigkeiten Fi) zum ersten Mal den Wert 0,5 überschreitet, also in der vierten Klasse bei 35 – 50 Prozent. Darauf aufbauend kann der Median feinberechnet werden:

70

2 Eindimensionale Häufigkeitsverteilungen Z=x

()

,

+c

(

)

,

= 35 + 15

,

= 37,685.

,

50 % der Unternehmen haben eine Eigenkapitalquote bis einschließlich 37,7 % (und 50 % der Beobachtungen liegen über diesem Wert). c) Da die Klassenbreiten unterschiedlich sind, ist die Modalklasse diejenige mit der höchsten normierten relativen Häufigkeit (Dichte) p∗ . Die Dichte p∗ = 0,0265 ist am höchsten, daher ist die Klasse „25 – 35 Prozent“ die Modalklasse. Darauf aufbauend kann der Modus feinbestimmt werden: M=x

()

+c

∆ ∆

∆

= 25 + 10 (

, ,

, ) ( ,

,

,

)

= 32,574

mit ∆1 = p∗ − p∗ und ∆2 = p∗ − p∗ . Die rechnerisch am häufigsten vorkommende EK-Quote beträgt 32,6 %. d) Die Verteilung ist rechtsschief, da X > Z > M. Aufgabe 2.2-4 xi 0–2.000 2.000–3.000 3.000–3.500 3.500–4.000 4.000–4.500 4.500–5.000 5.000–7.000 7.000–10.000 

fi 2 6 4 5 4 4 6 9 40

Wertetabelle: x∗ pi 1.000 0,050 2.500 0,150 3.250 0,100 3.750 0,125 4.250 0,100 4.750 0,100 6.000 0,150 8.500 0,225 1,000

ci 2.000 1.000 500 500 500 500 2.000 3.000

x∗f 2.000 15.000 13.000 18.750 17.000 19.000 36.000 76.500 197.250

p∗ 0,000025 0,000150 0,000200 0,000250 0,000200 0,000200 0,000075 0,000075

Fi 0,050 0,200 0,300 0,425 0,525 0,625 0,775 1,000

a) Da eine Häufigkeitsverteilung vorliegt, wird das gewogene arithmetische Mittel berechnet: x∗f =

∑

X=∑

∙ 197.250 = 4.931,25.

Der durchschnittliche Bruttomonatsverdienst beträgt 4.931,25 €. b) Da die Klassenbreiten unterschiedlich sind, wird die Modalklasse mit den normierten relativen Häufigkeiten ermittelt. Demnach liegt der Modus in der Klasse „3.500 – 4.000“. Für die Feinberechnung gilt daher ∆1 = p∗ − p∗ und ∆2 = p∗ − p∗ : M=x

()

+c

∆ ∆

∆

= 3500 + 500 (

, ,

,

, ) ( ,

,

)

= 3.750.

Der rechnerisch am häufigsten vorkommende Bruttomonatsverdienst beträgt 3.750 €. c) Die kumulierten relativen Häufigkeiten überschreiten in der 5. Klasse (4.000 bis 4.500) zum ersten Mal den Wert 0,5. Daher ist diese Klasse die Medianklasse. Feinberechnung: Z=x

()

+c

,

(

)

= 4.000 + 500

,

, ,

= 4375.

Der Medianwert liegt bei 4.375 €, d. h. 50 % der Arbeitnehmer verdienen bis zu diesem Betrag einschließlich.

2 Eindimensionale Häufigkeitsverteilungen

71

Aufgabe 2.2-5 Mit dem Index t = 0, 1, …, T bezeichnen wir das Jahr (t = 0 für 2009 und T = 5 für das Jahr 2014). Die jährlichen Wachstumsraten xt sind hier unbekannt, allerdings ist das Wachstum über den gesamten Zeitraum bekannt. Der Wachstumsfaktor über ∏ x über den gesamten Zeitraum ergibt sich aus ∏

x =

=

= 2,5.

Mit T = 5 erhält man G = 2,5 = 1,201. Dies ist der durchschnittliche Wachstumsfaktor über den gesamten Zeitraum. Die prozentuale durchschnittliche Wachstumsrate des Umsatzes pro Jahr ist damit p = (1,201 − 1) ∙ 100 % = 20,1 %. Aufgabe 2.2-6 Die Zwischenergebnisse der Lösungen in a) und b) können der folgenden Wertetabelle entnommen werden: xi 1–10 10–15 15–20 20–30 30–50 50–100 100–200 

fi 5.403 3.821 2.040 1.346 930 769 433 14.742

x∗ 5,5 12,5 17,5 25,0 40,0 75,0 150,0

ci 9 5 5 10 20 50 100

x∗f 29.717 47.763 35.700 33.650 37.200 57.675 64.950 306.654

pi 0,367 0,259 0,138 0,091 0,063 0,052 0,029 1,000

p∗ 0,041 0,052 0,028 0,009 0,003 0,001 0,000

Fi 0,367 0,626 0,764 0,855 0,918 0,971 1,000

a) Gewogenes arithmetisches Mittel: X=

∑

x∗f =

∑

.

∙ 306.654 = 20,810.

Die durchschnittliche bestockte Rebfläche pro Betrieb beträgt 20,8 ha. b) Modus: Da unterschiedliche Klassenbreiten vorliegen, ist die Modalklasse auf Basis der normierten relativen Häufigkeiten (Dichte) p∗ = p /c zu bestimmen. Klasse 2 ist Modalklasse („10 bis unter 15 ha“), da mit p∗ = 0,052 die höchste Dichte vorliegt. Die zur Feinberechnung benötigte Bestimmung der ∆1 und ∆2 erfolgt ebenfalls auf Basis der p∗ : ∆1 = p∗ − p∗ = 0,052 − 0,041 = 0,011 ∆2 = p∗ − p∗ = 0,052 − 0,028 = 0,024 M=x

()

+c

∆ ∆

∆

= 10 + 5

, ,

,

= 11,571.

Der rechnerisch häufigste Wert pro Weinbaubetrieb ergibt sich nach Feinberechnung mit 11,6 ha bestockter Rebfläche. c) Median: Z=x

()

+c

,

(

)

Klasse 2 ist Medianklasse („10 bis unter 20“), da Fi hier den Wert 0,5 überschreitet.

72

2 Eindimensionale Häufigkeitsverteilungen Feinberechnung: Z = 10 + 50

,

, ,

= 12,568.

50 % der Betriebe haben eine bestockte Rebfläche von bis zu 12,568 ha. Aufgabe 2.2-7 Da Wachstumsraten gemittelt werden sollen, muss das geometrische Mittel verwendet wer(mit pt = Wachstumsrate in %): den. Die Wachstumsfaktoren ergeben sich aus x = 1 + x 1,068

x 1,042

x 0,897

x 1,124

x 0,982

x 1,079

x 1,030

Geometrisches Mittel: G=

∏

x = √1,608 ∙ 1,042 ∙ … ∙ 1,030 = 1,029.

Die durchschnittliche jährliche Wachstumsrate des Gewinns vor Steuern der vergangenen sieben Jahre betrug in dieser Hotelkette 2,9 %. Aufgabe 2.2-8 Arithmetisches Mittel:    

nur für metrisch skalierte Merkmale wenn alle Informationen des Datenmaterials genutzt werden sollen wird aber relativ stark von Extremwerten beeinflusst bei Verteilungen vom U-Typ unsinnig (z. B. Ausrechnen der Durchschnittstemperatur zwischen einer Heizplatte und einem Kühlschrank).

Geometrisches Mittel:  nur für metrisch skalierte Merkmale  ist der Mittelwert von Zahlen, die multiplikativ verknüpft sind (z. B. Wachstumsraten) und deren Basis sich verändert, d. h., anzuwenden, wenn die Merkmalswerte relative Änderungen angeben  wird oftmals auch dort verwandt, wo eine logarithmische Skala sinnvoll ist, denn der Logarithmus des geometrischen Mittels ist wiederum ein arithmetisches Mittel lgG = ln ∏

x = (lgx + lgx + ⋯ + lgx ) = ∑

lgx .

Aufgabe 2.2-9 a) Zur Berechnung der mittleren Lebensdauer der 16 Kühlaggregate aus den Originaldaten aus Aufgabe 2.1-2 wird das einfache (ungewogene) arithmetische Mittel verwendet: X=μ= X=

∑

(x + x + ⋯ + x ) = ∑ x =

x

∙ (0,14 + 0,27 + ⋯ + 7,84) =

Die mittlere Lebensdauer liegt also bei ca. 2,6 Jahren.

∙ 41,13 = 2,57062.

2 Eindimensionale Häufigkeitsverteilungen

73

b) Bei der Berechnung aus der Häufigkeitstabelle wird das gewichtete (gewogene) arithmetische Mittel verwendet. Wenn die tatsächlichen Klassenmittelwerte nicht bekannt sind, berechnet man es anhand der Klassenmitten: ∗

X=μ= X=

∗

⋯ ⋯

∗

=

x∗f

∑

∑

∙ (0,5 ∙ 5 + 1,5 ∙ 3 + 2,5 ∙ 3 + 3,5 + 4,5 + 5,5 ∙ 2 + 7,5 ∙ 1) =

∙ 41 = 2,5625.

Der tatsächliche Durchschnittswert wird hier leicht unterschätzt (wegen des Informationsverlustes aufgrund der Klassenbildung), da die tatsächlichen Klassenmittelwerte etwas höher sind als die angenommenen Klassenmitten. Aufgabe 2.2-10 Der Autofahrer fährt auf dem Hinweg 7,2 km je Liter Benzinverbrauch (km/l), auf dem Rückweg fährt er 12,0 km je Liter Benzinverbrauch. Zur Durchschnittsberechnung muss das harmonische Mittel verwendet werden: H =

=

⋯

=

∑

= ,

,

,

=

,

= 9 km/l.

Eine Lösung ist aber auch mit dem arithmetischen Mittel möglich: Da der Autofahrer jeweils den gleichen Weg bei unterschiedlichen km/l zurücklegte, also unterschiedlich viel Benzin auf Hin- bzw. Rückweg verbrauchte, lassen sich beide km/l Angaben nicht gleich gewichten (etwas anderes wäre es, wenn er insgesamt 2 l Sprit verbraucht hätte: 1 l bei 7,2 km/l bzw. 1 l bei 12 km/l). Wir berechnen daher in einem Zwischenschritt den mittleren Spritverbrauch pro km bei gleicher Gewichtung, da Hin- und Rückweg gleich lang ist: X=

,

= ∙

, ,

= l/km .

Durchschnittlich legte der Autofahrer also 9 km pro Liter Benzinverbrauch zurück. Aufgabe 2.2-11 a) Durchschnittsgewicht von Arno: X= ∑

x = (111 + 123 + 128 + 137 + 139 = 127,6 kg.

b) Gewichtszunahme: Das Gewicht von Arno. lag im Jahr eins bei 111 kg. Es steigerte sich im Jahr

2 um 10,8 % auf 111∙1,108 ≈ 123 kg 3 um 4,1 % auf 111∙1,108∙1,041 ≈ 128 kg 4 um 7,0 % auf 111∙1,108∙1,041∙1,07 ≈ 137 kg 5 um 1,5 % auf 111∙1,10∙1,04∙1,0∙1,015 ≈ 139 kg.

Die Gesamtsteigerung des Gewichts vom 1. bis zum 5. Jahr wird also bestimmt durch das Produkt x ∙ x ∙ … ∙ x = 1,108 ∙ 1,041 ∙ 1,07 ∙ 1,015. Aus diesem Grund ist es nicht sinnvoll, das auf einer Summe basierende arithmetische Mittel zur Berechnung der durchschnittlichen Gewichtszunahme heranzuziehen. Es ist also das geometrische Mittel zu berechnen:

74

2 Eindimensionale Häufigkeitsverteilungen G = √x ∙ x ∙ … ∙ x =

1,108 ∙ 1,041 ∙ 1,07 ∙ 1,015 = 1,0579.

Somit hat Arno durchschnittlich pro Jahr um 5,79 % zugenommen. Aufgabe 2.2-12 a) Arithmetisches Mittel der Bausparabschlüsse der Mitarbeiter A und D: ∑

X =

x =

X = ∑

(13.000 + 15.000 + ⋯ + 52.000) =

∙ 672.000 = 28.000

x = (40.000 + 45.000 + ⋯ + 65.000) = ∙ 372.000 = 53.142,86.

b) Der Median (Z) in einer Datenreihe ist dadurch charakterisiert, dass ober- und unterhalb von Z gleichviel Beobachtungen liegen, d. h. falls N ungerade

x Z=

x +x Z = ∙ (x Z =x

falls N gerade. + x ) = (24.000 + 25.000) = 24.500 und

= x = 57.000.

Die Hälfte der Abschlüsse des Mitarbeiters A hatte eine Höhe von bis zu 24.500 €. c) Die Quartile Q1 und Q3 sind diejenigen Punkte, die die durch den Median gebildeten zwei Hälften der Merkmalsverteilung nochmals in zwei gleiche Teile aufspalten. Die Berechnung erfolgt dann analog zum Median: Q

= (x + x ) = (17.000 + 18.000) = 17.500

Q

= x = 45.000

Q

= (x

Q

= x = 60.000.

+ x ) = (35.000 + 37.000) = 36.000

25 % der Abschlüsse von A liegen in der Höhe bis zu 17.500 €, 75 % liegen bis zu 36.000 €. Die Maßzahlen für D sind entsprechend zu interpretieren. Aufgabe 2.2-13 Berechnung des durchschnittlichen jährlichen Zinssatzes von Wertpapier A mit dem geometrischen Mittel, für Wertpapier B mit dem logarithmischen Mittel (ı̅ = durchschnittlicher Zinssatz): Wertpapier A: x ∙x ∙…∙x =

G=

1,053 ∙ 1,055 ∙ 1,057 ∙ 1,059 ∙ 1,06 =

1,3194 = 1,0570

ı̅ = 5,70 %. Wertpapier B: lgG =

1 1 (lgx + lgx + ⋯ + lgx ) = (3 ∙ 0,02366 + 2 ∙ 0,02531) = 0,02432 5 N

G = 1,0576

ı̅ = 5,76 %.

Damit ist Wertpapier B ist für Herrn Kornworm bzgl. der Verzinsung günstiger.

2 Eindimensionale Häufigkeitsverteilungen

75

Streuungsmaße Aufgabe 2.2-14 Durchschnittseinkommen der 3 Putzkolonnen: (1) X = ∑

x = (1.312 + 1.415 + 1.193 + 1.198 + 1.074 + 1.273) = ∙ 7.465

= 1.244, 6 (2) X = ∑

x = (1.468 + 1.379 + 1.387 + 1.411) = ∙ 5.645 = 1.411,25

(3) X = ∑

x = (1.163 + 1.268 + 1.198 + 1.227 + 1.320) = ∙ 6.176 = 1.235,2.

Median:

x

,

falls N ungerade

Z= 1 x +x 2

, falls N gerade.

Die Daten müssen zunächst der Größe nach geordnet werden. (1) {x , x , x , x , x , x } = {1.074,1.193,1.198,1.273,1.312,1.415} N = 6, d. h. der Median ist Z = (x + x ) =

.

.

= 1.235,5.

(2) N = 4, d. h. der Median ist Z = (x + x ) =

.

.

= 1.399.

(3) N = 5, d. h. der Median ist Z = x = x = 1.227. Spannweite: R = x − x (1) R = x − x = 1.415 − 1.074 = 341. (2) R = x − x = 1.468 − 1.379 = 89. (3) R = x − x = 1.320 − 1.163 = 157. Varianz/Standardabweichung:

S =σ = ∑

(x − X) und S = √S

(1) S = ((1.312 − 1.244,16) + (1.415 − 1.244,16) + ⋯ + (1.273 − 1.244,16) ) =

(4.601,36 + 29.184,03 + 2.618,03 + 2.131,36 + 2.8956,69 + 831,36)

= 11.387,14 S = 106,71. (2) S = (3.220,56 + 1.040,06 + 588,06 + 0,06) = 1.212,19,

S = 34,82.

(3) S = (5.212,81 + 1.075,84 + 1.383,84 + 67,24 + 7.191,04) = 2.986,16,

S = 54,65.

Interpretation am Beispiel der Kolonne 1: Das Durchschnittseinkommen beträgt 1.244,17 € pro Monat mit einer Schwankung um 106,71 € (Standardabweichung), 50 % der Mitarbeiter der Putzkolonne verdienen bis zu 1.235,50 € (Median), die Spannweite ist mit 341 € in Kolonne 1 am größten. Dort streut der gesamte Verdienst um 341 €.

76

2 Eindimensionale Häufigkeitsverteilungen

Aufgabe 2.2-15 a) Berechnung mit den Originaldaten aus Aufgabe 2.1-2 ( aus Aufgabe 2.2-9: X = 2,57062): (x − X)

S =σ = ∑ ∑

S =

x − 16X

∑

oder =

x − NX

(180,68 − 105,73) = 4,68.

S = 2,16. b) Berechnung mit der Klasseneinteilung aus Aufgabe 2.1-2b): S =σ =

f (x ∗ − X) ,

∑

∑

X = 2,56

S =

[(0,5 − 2,56) ∙ 5 + (1,5 − 2,56) ∙ 3 + ⋯ + (7,5 − 2,56) ∙ 1]

=

(21,22 + 3,37 + 0,01 + 0,88 + 3,76 + 17,29 + 24,4) = 4,43.

S = 2,10. Die empirischen Standardabweichungen um die mittlere Lebensdauer der Kühlaggregate von 2,57 Jahren unterscheiden sich bei den Berechnungsformen kaum. Sie liegen bei etwas mehr als 2 Jahren. Aufgabe 2.2-16 i 1 2 3 4 5–7

Arbeitstabelle zu den monatlichen Haushaltseinkommen: pi kumulierte pi Bemerkung Klassen ci unter 1.200 1.200 0,187 0,187 1.200–1.800 600 0,217 0,404  Q1-Klasse 1.800–2.500 700 0,235 0,639 Medianklasse 2.500–3.000 500 0,115 0,754  Q3-Klasse 3.000–10.000 1,000 zusammengefasst, da für Q1, Z und Q3-Berechnung nicht mehr relevant

Median: Z = x

()

,

+c

(

)

( ,

= 1.800 +

,

,

)

= 2.085,96.

Quartile für gruppierte Daten: Q =x

()

Q =x

()

,

+c

,

+c

= 1.200 +

( ,

= 2.500 +

( ,

,

)

= 1.374,19

,

)

= 2.982,61.

, ,

Quartilsabstand QA: Q = Q − Q = 2.982,61 − 1.374,19 = 1.608,42. Die 50 % mittleren Einkommen streuen um 1.608,42. Aufgabe 2.2-17 a) Gewogenes arithmetisches Mittel und Standardabweichung der beiden Häufigkeitsverteilungen A und B: X

= ∑ =

S

=

∙

∑

xf = ∙

∑

⋯

∙

∙ ∙

=

∙ .

f (x − X) =

∙

∙

∙

∙

= 40.

= 55,33. [4(10 − 40) + 5(20 − 40) + ⋯ + 4(70 − 40) ]

2 Eindimensionale Häufigkeitsverteilungen = S

77

(3.600 + 2.000 + 600 + 0 + 600 + 200 + 3.600) = √310 = 17,61. [50(20 − 55,33) + 10(30 − 55,33) + ⋯ + 80(80 − 55,33) ]

= =

(62.410,45 + 6.416,09 + 7.050,27 + 2.840,89 + 3.489,42 + 4.304,18 + 48.688,71)

= √300,44 = 17,33. Die Zahl der Beschäftigten schwankt – gemessen durch die empirische Standardabweichung – im Landkreis A mit ca. 18 Beschäftigten um den Mittelwert von 40 Beschäftigten, im Landkreis B mit ca. 17 Beschäftigte um den Mittelwert von ca. 55 Beschäftigten. b) Variationskoeffizienten: V =

=

,

= 0,44 (44 % des Mittelwertes)

V =

=

,

= 0,31 (31 % des Mittelwertes).

,

Ein Streuungsvergleich zweier Häufigkeitsverteilungen anhand der Standardabweichungen kann dann nicht sinnvoll sein, wenn sich die Mittelwerte stark unterscheiden. Aus diesem Grund setzt man die Standardabweichungen in Beziehung zu den Mittelwerten (Variationskoeffizient, relatives Streuungsmaß). In diesem Beispiel ist also die relative Streuung für den Landkreis A größer als die für den Landkreis B. Aufgabe 2.2-18 Wertetabelle: Bruttoinlandsprodukt pro Einwohner (in Tausend €) t1 (x1) t2 (x2) 5,665 20,372 4,899 18,519 7,203 26,941 5,497 20,036 4,856 16,874 5,800 19,438 4,438 17,260 4,762 17,431 3,390 16,154 46,510

173,025

x 32,092 24,000 51,883 30,217 23,581 33,640 19,696 22,677 11,492 249,278

x 415,018 342,953 725,817 401,441 284,732 377,836 297,908 303,840 260,952 3.410,497

Zunächst werden die Durchschnitte berechnet: X= ∑

x

X = ∙ 46,510 = 5,168 X = ∙ 173,025 = 19,225.

Da sich die Durchschnittswerte stark voneinander unterscheiden, ist ein Streuungsvergleich anhand der Standardabweichungen nicht sinnvoll. Deshalb ist der Variationskoeffizient anzuwenden: Variationskoeffizient: V = S=

∑

=

(x − X) =

∑

−X

78

2 Eindimensionale Häufigkeitsverteilungen S =

∙ 249,278 − 5,168 = 0,995

S =

∙ 3.410,497 − 19,225 = 3,057.

In t1 weist das BIP pro Kopf ein Durchschnittseinkommen von 5168 € und eine empirische Standardabweichung von 995 € aus. In t2 liegt das Durchschnitts-BIP pro Kopf bei 19225 € mit einer Standardabweichung von 3057 €. Die Variationskoeffizienten sind: V =

=

, ,

= 0,193

und

V =

,

=

= 0,159.

,

Das BIP pro Einwohner weist in t2 eine geringere relative Streuung als in t1 auf. Formparameter Aufgabe 2.2-19 Wertetabelle: fi pi 12 0,12 22 0,22 41 0,41 19 0,19 6 0,06 100

xi 500–1.000 1.000–2.000 2.000–3.000 3.000–4.000 4.000–6.000 

Fi 0,12 0,34 0,75 0,94 1,00

ci 500 1.000 1.000 1.000 2.000

Der Median liegt im Intervall von 2.000 bis 3.000, das 1. Quartil im Intervall von 1.000 bis 2.000, und das 3. Quartil im Intervall von 2.000 bis 3.000. Zur Bestimmung des Schiefemaßes werden die Feinberechnungen durchgeführt: Z=x

()

1. Quartil: Q = x

()

3. Quartil: Q = x

()

Median:

+c +c +c

,

(

)

= 2.000 + 1.000 ∙

, ,

,

,

= 2.390,244.

,

= 1.000 + 1.000 ∙

,

= 2.000 + 1.000 ∙

,

,

= 1.590,909.

,

= 3.000.

, ,

Schiefemaß aus Quartilen: SM =

=

.

. .

,

∙ . .

,

,

= −0,135.

Da SM zwischen −1 und +1 liegt, ist die Verteilung leicht bis mä ßig linksschief (rechts-steil).

2 Eindimensionale Häufigkeitsverteilungen

79

Aufgabe 2.2-20 Ansatz: Fechnersche Lageregel a)

b)

c)

X=Z=M

X>Z>M

X M = 0,875. 1. Schiefemaß nach Pearson: SM

=

,

=

,

= 1,07.

,

Die Verteilung ist rechtsschief, da SM

einen positiven Wert annimmt.

2. Schiefemaß nach Pearson: SM SM

=

(

)

(

=

,

,

)

,

= 0,99.

liegt zwischen -3 und 3. Die Verteilung ist rechtsschief, da SM

größer null ist.

Schiefemaß aus Quartilen: SM =

=

,

∙ ,

,

=

, ,

= 0,30.

Da SM zwischen −1 und +1 liegt, ist die Verteilung nicht unbeträ chtlich rechtsschief (linkssteil). Aufgabe 2.2-22 Man bezeichnet die durchschnittlichen potenzierten Abweichungen der Merkmalswerte von einem Bezugspunkt als Momente. Als Bezugspunkt der Abweichungen wird entweder null (Momente um null bzw. gewöhnliche Momente m) oder das arithmetische Mittel (Momente um X bzw. zentrale Momente μ) benutzt. Für ungruppierte Daten sind die Momente: m = ∑

(x − 0) = ∑ x

r-tes Moment um null,

μ = ∑

(x − X)

r-tes Moment um X.

Für gruppierte Daten lauten die Formeln (x ∗ =Klassenmitte):

2 Eindimensionale Häufigkeitsverteilungen f (x ∗ − 0) = ∑

m = ∑ μ =

∑

∑

81

f x∗

f (x ∗ − X) .

Das 1. Moment um 0 (m1) entspricht dem arithmetischen Mittel, denn m = ∑ x = X bzw. m = ∑

f x ∗ = X.

Das 2. Moment um X (μ ) entspricht der Varianz, denn μ = ∑(x − X) = S

bzw. μ = ∑

f (x ∗ − X) = S .

Aufgabe 2.2-23 Insgesamt arbeiten 981 Mitarbeiter in dem Betrieb. Das Durchschnittsalter dieser Mitarbeiter liegt bei 40,05 Jahren mit einer Standardabweichung von 9,33 Jahren. Der Median ist 40. Das bedeutet, dass die Hälfte der Mitarbeiter bis zu 40 Jahre alt ist. Die Tatsache, dass Median und arithmetisches Mittel sehr nahe beieinander liegen, lässt eine annähernd symmetrische Verteilung vermuten. Dies wird durch den Wert von 0,016 des zweiten Pearsonschen Schiefemaßes bestätigt, denn dieser Wert liegt nahe am Referenzwert von null für symmetrische Verteilungen. Das Wölbungsmaß von 2,59 deutet darauf hin, dass die Verteilung im Vergleich zur Normalverteilung platter gewölbt ist. Die Spannweite von 51 gibt an, dass das Alter im Betrieb insgesamt 51 Jahre überdeckt. Die mittleren 50 % der Altersangaben liegen hingegen in einem Intervall von nur 14 Jahren (Quartilsabstand). Der jüngste Mitarbeiter ist 18 Jahre alt. An den Perzentilen sieht man, dass die 1 % jüngsten Mitarbeiter bis 20 Jahre alt sind, also recht nahe an dem kleinsten Wert liegen. Am oberen Rand der Verteilung ergibt sich ein anderes Bild: Während 99 % aller Mitarbeiter 61 Jahre oder jünger sind, ist der älteste Mitarbeiter mit 69 Jahren deutlich älter. Hier könnte ein Ausreißerwert vorliegen. Insgesamt ergibt sich also eine annähernd symmetrische Verteilung um den Mittelwert von 40. Die Verteilung ist etwas platter als die Normalverteilung mit Ausreißerwerten auf der rechten Seite. Konzentrationsmaße Aufgabe 2.2-24 Wertetabelle: i 1 2 3 4 5 

xi 0–500 500–1.000 1.000–2.000 2.000–3.000 3.000–5.000

∗

x 250 750 1.500 2.500 4.000

fi 6 16 25 23 10 80

∑

0,075 0,200 0,313 0,288 0,125 1,000

ui 0,075 0,275 0,588 0,875 1,000

∗

f x∗ 1.500 12.000 37.500 57.500 40.000 148.500

∑

∗

=q

0,010 0,081 0,253 0,387 0,269 1,000

∑

q =v 0,010 0,091 0,343 0,731 1,000

82

2 Eindimensionale Häufigkeitsverteilungen

a) Lorenzkurve: vi 1,0 0,8

vi = 0,6

ui =

0,4

Kumulierter Anteil am Gesamteinkommen Kumulierter Anteil an der Gesamtzahl der Regionen

0,2 0,0 0,0

0,2

0,4

0,6

0,8

1,0

ui

Die Lorenzkurve zeigt eine deutliche Ungleichverteilung des Durchschnittseinkommens in den 80 Regionen. b) Gini-Koeffizient für klassifizierte Daten: G=∑

(u + u

)q − 1

= (0,075 + 0) ∙ 0,01 + (0,275 + 0,075) ∙ 0,081 + ⋯ + (1 + 0,876) ∙ 0,269 − 1 = 0,319. Der Wertebereich von G ist: 0 (Gleichverteilung)  G 

=

= 0,988 (die gesamte

Merkmalssumme ist auf einen Merkmalsträger konzentriert). Wie bereits bei der Darstellung der Lorenzkurve festgestellt, liegt eine Ungleichverteilung vor. c) Der Gini-Koeffizient ist gesunken, die Verteilung der Durchschnittseinkommen ist also gleichmäßiger geworden. Aufgabe 2.2-25 Geschäft Kaufgut Klamotte Müller Moden Preisland Textil Meyer 

a) Konzentrationsrate K gungen:

Alternativ:

Wertetabelle: xi 900 800 600 600 400 3.300

pi 0,273 0,242 0,182 0,182 0,121 1,000

für den Anteil der Merkmalsträger auf den zwei größten Ausprä∑ x 900 + 800 = = 0,515. 3300 ∑ x

K

=

K

= ∑ p = 0,242 + 0,273 = 0,515.

Die zwei größten Händler haben gemeinsam einen Marktanteil von 51,5 %.

2 Eindimensionale Häufigkeitsverteilungen

83

b) Wertebereich des Herfindahl-Index:  Min:  Max:

1/N 1

bei Gleichverteilung wenn ein einziger Merkmalsträger die gesamte Merkmalssumme auf sich vereint.

c) Herfindahl-Index: K =

∑

=

∑

.

= 0,214.

Alternativ: K = ∑ p = 0,242 + 0,182 + 0,273 + 0,182 + 0,121 = 0,241. Min: = 0,2 und Max: 1 Es liegt annähernd eine Gleichverteilung, also eine sehr geringe Konzentration vor. Aufgabe 2.2-26 Die xi werden der Größe nach geordnet. Steuern Mineralölsteuer Tabaksteuer Versicherungssteuer Branntweinabgabe Kaffeesteuer Schaumweinsteuer Gesellschaftssteuer Leuchtmittelsteuer Zuckersteuer Teesteuer Salzsteuer Wechselsteuer Börsenumsatzsteuer 

Wertetabelle: xi 55.166 19.253 8.094 5.544 2.125 1.083 214 200 183 59 54 48 30 92.053

x 3.043.287.556 370.678.009 65.512.836 30.735.936 4.515.625 1.172.889 45.796 40.000 33.489 3.481 2.916 2.304 900 3.516.031.737

Konzentrationsrate: K

∑

=∑

=

.

.

= 0,808.

.

Herfindahl-Index: K =

∑ ∑

Min: =

=

.

. .

.

= 0,415.

= 0,077 und Max: 1.

Die zwei größten Steuerarten haben in der betrachteten Periode einen Anteil am Gesamtsteueraufkommen von 80,8 %. Damit weisen die Konzentrationsraten eine hohe absolute Konzentration aus, während beim Herfindahl-Index die absolute Konzentration mittelmäßig ist. Der Grund für diesen Unterschied ist, dass bei der Konzentrationsrate die Verteilung des restlichen Steueraufkommens keine Rolle spielt, während sie beim Herfindahl-Index mitberücksichtigt wird.

84

2 Eindimensionale Häufigkeitsverteilungen

Aufgabe 2.2-27 a) Die relative Konzentration weist auf Gleichverteilung hin. Unter Wettbewerbsgesichtspunkten würde man den Sachverhalt allerdings als hohe Konzentration deuten, weil die Zahl der Wettbewerber klein ist. b) Bei der relativen Konzentration spielt die Zahl der Merkmalsträger keine Rolle. Der GiniKoeffizient wäre hier null. Aufgabe 2.2-28 x 900 1.600 2.025 2.500 3.600 4.225 4.900 8.100 27.850

xi 30 40 45 50 60 65 70 90 450

a) Konzentrationsrate K gungen: K

∑

=∑

=

Wertetabelle: qi 0,067 0,089 0,100 0,111 0,133 0,144 0,156 0,200 1,000

2i − 1 1 3 5 7 9 11 13 15

(2i − 1) ∙ q 0,067 0,267 0,500 0,778 1,200 1,589 2,022 3,000 9,422

für den Anteil der Merkmalsträger mit den drei größten Ausprä= 0,5.

Vom insgesamt erreichten Einkommen der 8 Haushalte erhielten die 3 Spitzenverdiener 50 % des Einkommens. b) Herfindahl-Index: K =

∑

=

∑

.

= 0,138.

Der Herfindahl-Index zeigt eine fast vollständige Gleichverteilung der Einkommen in dem Dorf an, da die Untergrenze hier K = = 0,125 beträgt. c) Gini-Koeffizient: G=

∑

(

)

−1=

,

− 1 = 0,178.

Der Wertebereich von G ist: 0 (Gleichverteilung)  G 

= = 0,875 (gesamte Merkmalssumme ist auf einen Merk-

malsträger konzentriert). Auch der Gini-Koeffizient deutet auf relativ gleich verteilte Einkommen hin. d) Die absoluten Konzentrationsmaße weisen in beiden Orten in etwa gleiche Werte auf, während der Gini-Koeffizient auf weniger gleichmäßig verteilte Einkommen im Nachbardorf hindeutet. K : Da auf die drei Spitzenverdiener im größeren Nachbardorf fast die Hälfte des gesamten Einkommens entfällt, werden im größeren Ort die Einkommen weniger gleichmäßig verteilt sein als im kleinen Ort.

2 Eindimensionale Häufigkeitsverteilungen

85

K : Da die Untergrenze bei steigenden N sinkt, ist trotz gleicher Werte von einer größeren Ungleichverteilung der Einkommen im Nachbarort auszugehen. G: Obwohl mit steigendem N der maximale Wert für G steigt, kann auf Grund des deutlich höheren Gini-Koeffizienten für den Nachbarort auf weniger gleichmäßig verteilte Einkommen geschlossen werden. Zusammenfassend ergibt sich, dass die Einkommen in dem kleineren Ort gleichmäßiger verteilt sind. Aufgabe 2.2-29 Die Merkmalsträger werden gemäß der Größe ihrer Merkmalsausprägungen in aufsteigender Reihenfolge sortiert. Wertetabellen:

i 1 2 3 4 5 6 

i 1 2 3 4 

xi 4 4 4 4 4 4 24

x =f ∑x 1/6 1/6 1/6 1/6 1/6 1/6 1

xi 3 3 3 3 12

x =f ∑x 1/4 1/4 1/4 1/4 1

Branche A: ui 1/6 1/3 1/2 2/3 5/6 1

y =q ∑y 0,050 0,050 0,050 0,050 0,300 0,500 1,000

yi 500 500 500 500 3.000 5.000 10.000

vi 0,050 0,100 0,150 0,200 0,500 1,000

(u + u )q 0,008 0,025 0,042 0,058 0,450 0,917 1,500

vi 0,033 0,100 0,333 1,000

(u + u )q 0,008 0,050 0,292 1,167 1,517

Branche B: ui 1/4 1/2 3/4 1

y =q ∑y 0,033 0,067 0,233 0,667 1,000

yi 100 200 700 2.000 3.000

Lorenzkurven: vi 1,0 0,8 0,6 0,4 0,2 0,0 0,0

0,2

0,4

Branche A

0,6

0,8

1,0

ui

Branche B

86

2 Eindimensionale Häufigkeitsverteilungen

Gini-Koeffizient: G =∑

(u + u

) q − 1 = 1,5 − 1 = 0,5

G =∑

(u + u

) q − 1 = 1,517 − 1 = 0,517.

In den beiden Branchen herrscht bzgl. der Beschäftigungszahl in etwa eine gleichmäßige Konzentration. Dies zeigen sowohl der ähnliche Verlauf der Lorenzkurven als auch die geringe Abweichung der Ginikoeffizienten. Aufgabe 2.2-30 Bei der Lösung werden die folgenden Symbole verwendet: i: j: xi: pi :

i 1 2 3 4 5 

Ordnungszahl der Kinder nach abnehmendem Besitz von Murmeln Ordnungszahl der Kinder nach zunehmendem Besitz von Murmeln, j = 6 – i Anzahl der Murmeln von Kind i Anteil der Murmeln von Kind i an allen Murmeln. Tabelle für a) bis c): vor der 5. Runde xi pi i∙p 16 0,32 0,32 12 0,24 0,48 9 0,18 0,54 7 0,14 0,56 6 0,12 0,60 50 1,00 2,50

vor der 1. Runde xi pi i∙p 10 0,2 0,2 10 0,2 0,4 10 0,2 0,6 10 0,2 0,8 10 0,2 1 50 1,0 3

a) Konzentrationsrate:

K

=

∑

=∑

∑

vor der 10. Runde xi pi i∙p 28 0,56 0,56 16 0,32 0,64 4 0,08 0,24 2 0,04 0,16 0 0,00 0,00 50 1,00 1,60

p

m = Anzahl der zwei „Reichsten“, deren Konzentration gesucht ist 1. Runde: K = 0,2 + 0,2 = 0,4 5. Runde: K = 0,32 + 0,24 = 0,56 10. Runde: K = 0,56 + 0,32 = 0,88. Die Konzentrationsrate für den Besitz von Murmeln der beiden reichsten Kinder beträgt vor der 1. Runde 0,4, vor der 5. Runde 0,56 und vor der 10. Runde 0,88. Das bedeutet, dass die beiden Kinder 40 % (56 %, 88 %) aller Murmeln besitzen. b) Herfindahl-Index: K =

∑

=∑

∑

p

1. Runde: K = 5 ∙ 0,2 = 0,2 5. Runde: K = 0,32 + 0,24 + 0,18 + 0,14 + 0,12 = 0,2264 10. Runde: K = 0,56 + 0,32 + 0,08 + 0,04 + 0 = 0,424. K

=1 +4∙0 =1

K

=N∙

c) Konzentrationsindex nach Rosenbluth: 1. Runde: K = 5. Runde: K = 10. Runde: K =

= 0,2

∙ ∙ , ∙ ,

= 0,25 = 0,45.

= 5 ∙ 0,2 = 0,2. K =

∑

(∙ )

2 Eindimensionale Häufigkeitsverteilungen K

=

=1

∙

K

=

∑

j 1 2 3 4 5 

2j − 1 1 3 5 7 9 25

x 10 10 10 10 10 50

vor der 1. Runde q (2j − 1) ∙ q 0,2 0,2 0,2 0,6 0,2 1 0,2 1,4 0,2 1,8 1,0 5

= 0,2.

(∙ / )

d) Gini-Koeffizient aus Einzelwerten:

87

G=

∑

(

)

−1

Lösungstabelle: vor der 5. Runde x q (2j − 1) ∙ q 6 0,12 0,12 7 0,14 0,42 9 0,18 0,90 12 0,24 1,68 16 0,32 2,88 1,00 6,00

x 0 2 4 16 28 50

vor der 10. Runde q (2j − 1) ∙ q 0,00 0,00 0,04 0,12 0,08 0,40 0,32 2,24 0,56 5,04 1,00 7,80

Berechnung: G = −1=0

G = − 1 = 0,2

G

=

,

− 1 = 0,56

∑ q (2j − 1)

= 0 ∙ 1 + 0 ∙ 3 + ⋯+ 1 ∙ 9 = 9G

∑ (2j − 1)

= 0,2 ∙ 25 = 5

G

= − 1 = 0,8

= − 1 = 0.

Die Konzentration der Verteilung der Murmeln auf die Kinder hat von vor der ersten Runde bis vor die 10. Runde stark zugenommen.

3 Zweidimensionale Häufigkeitsverteilungen

89

3 Zweidimensionale Häufigkeitsverteilungen 3.1

Darstellungsweise und Grundbegriffe

Aufgabe 3.1-1 a) Gemeinsame relative Häufigkeitsverteilung: N = ∑ f = 200

p = Randverteilungen: p. =∑ Alter B

p

p. = ∑

p

bis 20 (b1)

21–40 (b2)

41–60 (b3)

pi.

0,075 0,110 0,185

0,335 0,165 0,500

0,215 0,100 0,315

0,625 0,375 1,000

Geschlecht A m (a1) w (a2) p.j

b) Bedingte Häufigkeitsverteilung von Merkmal A bei gegebenem Merkmal B: p a b =

Alter B Geschlecht A m (a1) w (a2)

.

bis 20 (b1)

21–40 (b2)

41–60 (b3)

0,405 0,595

0,670 0,330

0,683 0,317

Von den bis 20-Jährigen sind 40,5 % männlich und 59,5 % weiblich, von den 21- bis 40Jährigen sind 67 % männlich und 33 % weiblich, von den 41- bis 60-Jährigen sind 68,3 % männlich und 31,7 % weiblich. c) Bei statistischer Unabhängigkeit gilt p = p .∙ p. für alle i, j. Für die erste Zelle gilt beispielsweise p = 0,075 ≠ p .∙ p. = 0,625 ∙ 0,185 = 0,116. Die Merkmale A und B sind deshalb nicht statistisch unabhängig. Aufgabe 3.1-2 a) Bezeichnet A das Merkmal „Handelsklasse“ mit den Ausprägungen a1 für I und a2 für III und B das Merkmal „Fäulnisbildung“ mit b1 für die Kategorie „Ja“ und b2 für die Kategorie „Nein“, so lässt sich mit den gegebenen absoluten Häufigkeiten f (i, j = 1,2) nachfolgende Vierfeldertafel aufstellen: B A I III Spaltensummen

Ja

f =6 f = 48 f. = 54

Nein

f = 57 f = 56 f. = 113

Zeilensummen

f . = 63 f . = 104 N = 167

b) Zwei Merkmale sind statistisch unabhängig, wenn f = f f. /N für alle i und j gilt. Die Verteilung des Merkmals A ist unabhängig davon, welche spezielle Ausprägung des Merkmals

90

3 Zweidimensionale Häufigkeitsverteilungen B als Bedingung gegeben ist. In diesem Fall hieße Unabhängigkeit, dass beide Handelsklassen gleichermaßen von Fäulnis betroffen wären.

c) Findet man eine Zelle, für die die in b) genannte Bedingung nicht gilt, sind die Merkmale nicht unabhängig. Hier lässt sich in der ersten Zelle eine Abweichung feststellen, denn für i = j = 1 gilt: f

=6

aber

.

=

∙

= 20,37 ≠ 6.

Es gibt also einen Zusammenhang zwischen den Merkmalen „Handelsklasse“ und „Fäulnisbildung“. Aufgabe 3.1-3 a) Gemeinsame relative Häufigkeitsverteilung und Randverteilungen: Die gemeinsame relative Häufigkeitsverteilung berechnet man mit N = 60.712,8 (in . , . , = = 0,198 p = = = 0,249. 1.000), z. B. p = .

,

.

,

Die Randverteilungen pi. und p.j erhält man durch Summation der relativen Häufigkeiten über alle Ausprägungen des anderen Merkmals. (A ≙ Familienstand, B ≙ Geschlecht) b2 B b1 A a1 a2 a3 a4 p.j

0,198 0,247 0,013 0,011 0,469

pi.

0,188 0,249 0,076 0,017 0,530

0,386 0,496 0,089 0,028 1

Die bedingte Häufigkeitsverteilung des Merkmals A bei gegebener Ausprägung des Merkmals B, also p(a |b ) erhält man durch Division durch die Randverteilungswerte f. = 28.522,9 bzw. f. = 32.189,9: p(a |b ) = p(a |b ) =

.

.

=

.

,

.

,

=

.

,

.

,

= 0,526. = 0,144.

Nach analoger Berechnung für die anderen Werte ergibt sich: A a1 a2 a3 a4

p(a |b ) 0,422 0,526 0,027 0,024

p(a |b ) 0,354 0,470 0,144 0,032

(Alternativ können zur Berechnung auch die relativen Häufigkeiten verwendet werden.) Für die bedingte Häufigkeitsverteilung von B bei gegebenen A, also p(b |a ), wird durch die Randverteilung des Zeilenmerkmals (f . = 23.430,8, f . = 30.128,4, , f . = 5.425,5 bzw. f . = 1.728,1) dividiert, z. B.: p(b |a ) =

.

=

, .

,

= 0,144

p(b |a ) =

.

=

.

,

.

,

= 0,486.

3 Zweidimensionale Häufigkeitsverteilungen

91

Für die Verteilung ergibt sich: p p p p

b b b b

B a a a a

b1 0,514 0,498 0,144 0,402

b2 0,486 0,502 0,856 0,598

b) p(a |b ): 2,7 % der männlichen Wohnbevölkerung waren verwitwet. p(b |a ): 59,8 % der Geschiedenen waren Frauen. Aufgabe 3.1-4 Die Tabelle enthält offensichtlich relative Häufigkeiten. Da die Spaltensummen jeweils 1 ergeben, handelt es sich um die auf das Spaltenmerkmal Geschlecht bedingte Verteilung des Zeilenmerkmals Familienstand. Die Werte in dieser Tabelle entsprechen also den bedingten relativen Häufigkeiten (bedingte Verteilungen) p a b mit i = 1,2,3,4 und j = 1,2. Zum Beispiel ist p(a |b ) = 0,47, d. h. 47 % der weiblichen Wohnbevölkerung war verheiratet. Die gemeinsame relative Häufigkeitsverteilung und die Randverteilung lassen sich mit den Angaben N = 61.712.800 und f. = 3.2189.900 bestimmen. Im ersten Schritt wird die Randverteilung p. berechnet mit p. =

.

=

.

.

.

.

= 0,522.

Da es nur zwei Ausprägungen gibt, erhält man p. = 1 − p. = 1 − 0,522 = 0,478. Im zweiten Schritt werden die gemeinsamen relativen Häufigkeiten aus der bedingten Verteilung und der Randverteilung berechnet, indem man die Formel p a b =

.

nach p auflöst, zum Beispiel: p p

= p(a |b ) ∙ p. = 0,354 ∙ 0,522 = 0,185 oder = p(a |b ) ∙ p. = 0,024 ∙ 0,478 = 0,011.

Anschließend wird die Randverteilung des Zeilenmerkmals aus der Summe der gemeinsamen relativen Häufigkeiten pro Zeile gebildet, zum Beispiel p . = 0,211 + 0,185 = 0,396. Alle relativen gemeinsamen Häufigkeiten und Randverteilungen finden sich in folgender Tabelle: B A a1 a2 a3 a4 p.j

b1

b2

pi.

0,211 0,245 0,012 0,011 0,478

0,185 0,245 0,075 0,017 0,522

0,396 0,488 0,087 0,028 1

92

3.2

3 Zweidimensionale Häufigkeitsverteilungen

Korrelationsanalyse

Aufgabe 3.2-1 Herkunft und Vertragsart sind nominal skalierte Merkmale, es ist also der Phi-Koeffizient (Wertebereich: −1 ≤ ϕ ≤ 1) zu berechnen. Der Phi-Koeffizient baut auf der zweidimensionalen Häufigkeitstabelle auf: Vertragsart Tarifvertrag Herkunft deutsch Ausländer Σ

240 160

Außertariflicher Vertrag 60 40

Σ 300 200

400

100

500

Da es sich um eine Vierfeldertafel handelt, lautet die Formel des Phi-Koeffizienten: ϕ=

(

)(

)(

)(

)

=

∙ (

)(

∙ )(

)(

)

= 0.

Es gibt keinen Zusammenhang zwischen den beiden Merkmalen Herkunft und Vertragsart. Aufgabe 3.2-2 Das Beurteilungsschema hat eine ordinale Skalierung zur Grundlage. Deshalb wird der Rangkorrelationskoeffizient ρ nach Spearman berechnet. Wertetabelle: Kandidat A B C D E F G H 

R (Lehre) 6 2 1 3 7 4 5 8

R (Forschung) 1 2 3 5 6 8 7 4

ρ =1−

∑ (

)

=1−

D 5 0 2 2 1 4 2 4 ∙ ∙

D 25 0 4 4 1 16 4 16 70

= 0,16.

Es besteht ein mäßig positiver Zusammenhang zwischen der Einschätzung der Forschungsleistung und der Lehrkompetenz der Kandidaten. Aufgabe 3.2-3 a) Es liegen ordinal skalierte Merkmale vor, denn es besteht eine Rangordnung im Sinne von „größer als“ oder „besser als“. Die Abstände zwischen den Merkmalsausprägungen sind nicht quantifizierbar. Im Beispiel sind 5 Punkte besser als 4 Punkte, aber der Vergleich des Abstandes zwischen 5 und 4 Punkten mit dem zwischen 8 und 7 Punkten ist nicht sinnvoll. Rechnungen, wie Addition, Subtraktion und Quotientenbildung sind damit nicht sinnvoll.

3 Zweidimensionale Häufigkeitsverteilungen

93

b) Deshalb ist der Rangkorrelationskoeffizient ρ nach Spearman anzuwenden: Wertetabelle: Punkte PerR sonalchef 6 5 6 4 4 5 1 7 9 2 6 6 8 3 2 8 3 7 10 1

Punkte Vorstandsassistent 4 4 5 8 2 4 3 7 6 1

Kandidat 1 2 3 4 5 6 7 8 9 10 

∑

ρ =1−

(

)

∙

=1−

∙

R 5,5 7,0 5,5 2,5 9,0 4,0 8,0 1,0 2,5 10,0

D 0,5 −1,0 −1,5 −1,5 0 2,0 0 1,0 0,5 0

D 0,25 1,00 2,25 2,25 0 4,00 0 1,00 0,25 0 11,00

= 0,933.

Es besteht ein sehr starker positiver Zusammenhang bei der Beurteilung der Kandidaten durch den Personalchef und den Vorstandsassistenten, d. h. es zeigt sich eine große Übereinstimmung in ihrer Beurteilung. Aufgabe 3.2-4 Die Stärke des Zusammenhangs bei den hier vorliegenden metrisch skalierten Merkmalen Umsatz ui und Werbung wi wird mit dem Korrelationskoeffizient nach Bravais-Pearson berechnet. i 1 2 3 4 5 6 

ρ=

∑

= ∑

U= ∑ S

=

S = S

Wertetabelle: (u − U) (w − W) 8.100 49 4.900 16 400 9 100 1 4.900 25 14.400 100 32.800 200

w 3 6 7 9 15 20 60

u 80 100 150 160 240 290 1.020 ( (

)( ) ∑

) (

)

W= ∑

u = ∙ 1.020 = 170 ∑

∑

= ∑

(u − U)(w − W) 630 280 60 10 350 1.200 2.530

w = ∙ 60 = 10

(u − U)(w − W) = ∙ 2.530 = 421, 6 (u − U) = ∙ 32.800 = 5.466, 6 (w − W) = ∙ 200 = 33, 3.

Damit ist der Korrelationskoeffizient ρ=

S = S S

421, 6 5.466, 6 ∙ 33, 3

= 0,988.

Da der Wertebereich −1 ≤ ρ ≤ 1 ist, liegt ein sehr starker positiver Zusammenhang zwischen Umsatz und Werbeaufwand vor.

94

3 Zweidimensionale Häufigkeitsverteilungen

Der Variationskoeffizient ist der Quotient aus Standardabweichung und arithmetischem Mittel. Für den Umsatz ergibt sich V =

=

.

,

= 0,435.

Für die Werbung berechnet man V =

,

=

= 0,577.

Der Variationskoeffizient des Merkmals Werbung ist etwas größer als der des Merkmals Umsatz, d. h. die relative Streuung ist beim Merkmal Werbung größer. Aufgabe 3.2-5 Die Wahl des Koeffizienten zur Beurteilung des Zusammenhangs richtet sich nach dem niedrigsten auftretenden Skalenniveau. Die Tätigkeit ist nominalskaliert, die Fehltage sind ordinalskaliert. Daher ist ein für nominal skalierte Merkmale geeigneter Koeffizient zu wählen. Da die Kontingenztabelle quadratisch ist (die Zahl der Zeiten entspricht der Zahl der Spalten) wird der Phi-Koeffizient berechnet.

wenige 13 21 2 36

Tätigkeit Körperliche Arbeit Bürotätigkeit Management f.j

Phi-Koeffizient:

Wertetabelle: Fehltage normal 27 62 0 89

viele 42 30 3 75

fi. 82 113 5 200

ϕ=

Zuerst ist die Quadratische Kontingenz  2 zu bestimmen: . .

χ =∑ ϕ=

∑ ,

. .

= 0,295,

=

(

, ,

)

+

(

, ,

)

+ ⋯+

Wertebereich: 0 ≤ ϕ ≤ √r − 1

(

, ,

)

= 17,403.

0 ≤ ϕ ≤ 1,414.

Der Phi-Koeffizient deutet auf einen schwachen Zusammenhang der beiden Merkmale Tätigkeit und Fehltage hin. Aufgabe 3.2-6 a) Der Korrelationskoeffizient nach Bravais-Pearson ist auszuwählen, da beide Merkmale (Alkoholkonsum in Litern pro Tag und erreichtes Alter) metrisch skaliert sind. b) Der Rangkorrelationskoeffizient nach Spearman ist auszuwählen, da der Platz in der Bundesligatabelle nur ordinal skaliert ist, und sich der Korrelationskoeffizient nach der geringeren Skalierung richtet. c) Der Korrelationskoeffizient nach Bravais-Pearson ist auszuwählen, da beide Merkmale metrisch skaliert sind. d) Der Kontingenzkoeffizient ist auszuwählen, da beide Merkmale nur nominal skaliert sind.

3 Zweidimensionale Häufigkeitsverteilungen

95

Aufgabe 3.2-7 Korrelationskoeffizient nach Bravais-Pearson ρ: ρ=

∑

= ∑

)(

(

)

) ∑

(

Wertebereich − 1 ≤ ρ ≤ 1 )

(

Falls ρ = 1: Alle Beobachtungswerte liegen auf einer Geraden mit positiver Steigung. Falls  = −1: Alle Beobachtungswerte liegen auf einer Geraden mit negativer Steigung. Falls  = 0: Es liegt kein linearer Zusammenhang zwischen den Beobachtungswerten vor.

a) X = ∑

x = ∙ 4612 = 576,50 (Arbeiter)

Y= ∑

y = ∙ 598 = 74,75 (Angestellte)

i 1 2 3 4 5 6 7 8 

x 496 512 537 539 574 608 654 692

y 68 75 84 93 86 72 66 54

(x − X) 6.480,25 4.160,25 1.560,25 1.406,25 6,25 992,25 6.006,25 13.340,25 33.952,00

x −X −80,5 −64,5 −39,5 −37,5 −2,5 31,5 77,5 115,5

ρ=−

. √

.

, ∙ .

,

=−

y −Y −6,75 0,25 9,25 18,25 11,25 −2,75 −8,75 −20,75 .

,

.

,

(y − Y) 45,56 0,06 85,56 333,06 126,56 7,56 76,56 430,56 1.105,48

(x − X)(y − Y) 543,38 −16,13 −365,38 −684,38 −28,13 −86,63 −678,13 −2.396,63 -3.712,03

= −0,6059.

Es besteht ein relativ starker negativer linearer Zusammenhang. b) Beschränkt man sich auf die ersten vier Jahre ergeben sich folgende Mittelwerte: X = ∙ 2.084 = 521

Y = ∙ 320 = 80.

Es muss eine neue Arbeitstabelle analog zu a) erstellt werden. Für den Korrelationskoeffizient ergibt sich daraus der Wert von ρ = 0,953. Im Gegensatz zum Gesamtzeitraum besteht für die ersten vier Jahre ein sehr hoher positiver linearer Zusammenhang zwischen Arbeiter- und Angestelltenzahl. c) Graphische Darstellung im Koordinatensystem: yi 100 Jahre 1-4

4 3

80 2

Jahre 5-8 5 6

1

7

60

8

40 450

550

650

xi

96

3 Zweidimensionale Häufigkeitsverteilungen An der Graphik erkennt man, dass die Punkte zunächst einen steigenden und anschließend einen fallenden Verlauf haben. Es könnte daher ein nichtlinearer Zusammenhang vermutet werden. Da der Korrelationskoeffizient nur die Stärke des linearen Zusammenhangs wiedergibt, ist eine Angabe des Korrelationskoeffizienten als Maß für die Stärke des Zusammenhangs über den gesamten Zeitraum hier nicht sinnvoll. Man könnte für beide Teilperioden jeweils einen Korrelationskoeffizienten angeben.

Aufgabe 3.2-8 Die Quadratische Kontingenz wird aus der Kontingenztabelle berechnet: b1 37 259 296

a1 a2 f.j

b2 48 439 487

fi. 85 698 783

Die Formel für die Quadratische Kontingenz lautet: . .

χ =∑ . .

=

. .

=

∙

. .

= 32,133; ∙

Phi-Koeffizient: ϕ =

= 434,133 =

,

=

∙

∑

. .

= 52,867;

. . .

=

∙

= 263,867;

χ = 0,7372 + 0,4481 + 0,0898 + 0,0546 = 1,3297. = 0,041.

Der Phi-Koeffizient kann bei der Vierfelder-Tafel maximal den Wert 1 annehmen. Dann besteht ein vollständiger Zusammenhang zwischen den Merkmalen. Nimmt ϕ den Wert 0 an, so besteht zwischen den zugrunde gelegten Merkmalen kein Zusammenhang. Der hier berechnete ϕ-Wert ist so klein, dass sich kein Zusammenhang zwischen Geschlecht und Auswahl des Hochschultypen bei diesen Studienanfängern feststellen lässt. Hinter dem Versuch, die Stärke zweier Merkmale durch die quadratische Kontingenz anzugeben, steht die folgende Überlegung: Bei Unabhängigkeit ist χ = 0, da alle beobachteten gemeinsamen Häufigkeiten f den bei Unabhängigkeit erwarteten gemeinsamen Häufigkeiten f . f. ⁄N entsprechen. Damit wird der Zähler der χ -Formel null. χ gibt nun an, wie stark zwei Merkmale vom Spezialfall der Unabhängigkeit abweichen, da die (quadrierten) Differenzen zwischen beobachteten und erwarteten Häufigkeiten f − f . f. ⁄N für jede Zelle berechnet und anschließend über alle Zellen summiert werden. Eine Aussage über die Stärke des Zusammenhangs ist aber nur möglich, wenn χ auf bestimmte Obergrenzen normiert wird, wie dies z. B. beim Phi-Koeffizienten der Fall ist. Aufgabe 3.2-9 Die Merkmale Absatz und Kunde sind metrisch skaliert; die Rangnummern der Werbekosten sind ordinal skaliert. Da sich die Auswahl des Korrelationsmaßes nach dem niedrigeren Skalenniveau richtet, wird der Rangkorrelationskoeffizient nach Spearman berechnet. Durch Rangzuordnung wird das metrisch skalierte Merkmal in ein ordinal skaliertes Merkmal transformiert.

3 Zweidimensionale Häufigkeitsverteilungen Rangnr. d. Werbek. 1 2 3 4 5 6 7 8 

Absatz je Kunde 1 2 3,5 3,5 5 6 7 8

ρ =1−

D =R −R 0 0 −0,5 0,5 0 0 0 0

∑ (

)

97

D 0 0 0,25 0,25 0 0 0 0 0,5

= 0,944

Damit besteht ein starker positiver Zusammenhang zwischen den Werbeausgaben und dem Absatz je Kunde.

3.3

Regressionsanalyse

Aufgabe 3.3-1 β =

a) Benötigte Formeln:

β =Y−β X

ρ=

Da ρ = 0,86, S = 5,36, S = 17,85, X = 23,87 und Y = 48,32 gegeben sind, fehlt nur noch die Kovarianz: S

= ρS S = 0,86 ∙ 5,36 ∙ 17,85 = 0,96 ∙ 4,225 = 8,412.

Damit sind die Regressionskoeffizienten β =

=

, ,

= 1,569

und β = Y − β X = 48,32 − 1,569 ∙ 23,47 = 11,496.

Die Regressionsgerade lautet: y = 11,496 + 1,569x . Der Koeffizient β gibt an, wie sich Y im Durchschnitt verändert, wenn X um eine Einheit steigt. Der Koeffizient β hingegen ist der Wert für Y, der sich ergibt, wenn X den Wert null annimmt und ist oft nicht sinnvoll interpretierbar. Hier beträgt dieser Wert ca. 11,5 Einheiten. b) Annahmegemäß ist ∑

ε = 0.

c) Der Erklärungswert der Regressionsgerade kann mit dem Determinationskoeffizienten R² beurteilt werden. Bei der Einfachregression gilt |ρ| = √R . Daher gilt: R = ρ = 0,86 = 0,74. Damit ist die Anpassungsgüte der Regressionsgerade relativ hoch, d. h. die Regressionsgerade repräsentiert gut die Punkte im Streuungsdiagramm, denn 74 % der quadratischen Variation von Y können linear aus X abgeleitet werden. Der unerklärte Rest ist mit 26 % relativ gering. d) Der Korrelationskoeffizient nach Bravais-Pearson lässt eine Aussage über die Stärke des linearen Zusammenhangs zwischen den Merkmalen X und Y zu. Mit ρ = 0,86 liegt eine relativ starke positive Korrelation zwischen X und Y vor.

98

3 Zweidimensionale Häufigkeitsverteilungen

e) Setzt man den Wert 19,97 in die Regressionsgleichung ein, so ergibt sich y = 11,496 + 1,569 ∙ 19,97 = 42,829. Bei einem x-Wert von 19,97 Einheiten beträgt der berechnete yWert 42,829 Einheiten. Aufgabe 3.3-2 a) Der Gewinn in 2014 wird erklärt durch die Investitionen in 2013. Dabei ergibt sich ein Regressionskoeffizient der Investitionen von 0,65. Das bedeutet, dass für jede weitere Mio. € Netto-Investitionen im Jahr 2013 der Gewinn im Jahr 2014 im Schnitt um 650.000 € gestiegen ist. Das Absolutglied (−2,42) gibt an, dass sich bei Nettoinvestitionen von null im Jahr 2013 im Folgejahr rein rechnerisch ein Verlust von ca. 2,4 Mio. € ergeben hätte. (Hinweis: Das Absolutglied wird oft nicht interpretiert, da es meist eine rein rechnerische Größe ist.) b) Determinationskoeffizient R²: 2 β21 ∑N i=1(xi −X)

R =

∑N i=1 yi −Y

2

=

2 β21 ∑N i=1(Invi −Inv) 2 ∑N i=1(Gi −G)

=

,

∙

,

= 0,459.

,

Die Regressionsgerade hat einen mäßigen „Erklärungsgehalt“, da nur 45,9 % der quadrierten Abweichungen des Gewinns durch die Variation der Netto-Investitionen der Vorperiode erklärt werden. Die übrigen 54,1 % sind auf andere Einflussgrößen zurückzuführen. Aufgabe 3.3-3 y = β + β x mit y : Kosten und x : Druckexemplare

a) Regressionsgerade:

Zur Berechnung der Koeffizienten werden folgende Formeln benutzt: β =

∑

)(

( ∑

(

) )

=

∑

und β =

∑

∑

−

∑

= Y − β X.

Die Zwischenwerte werden aus der Arbeitstabelle ermittelt: Arbeitstabelle

Y=

y =y −Y −0,1 0,7 −0,8 −0,3 0,8 0,1 −1,1 0,7 0

x 25 32 18 21 34 25 15 30 200

y 4,4 5,2 3,7 4,2 5,3 4,6 3,4 5,2 36 ∑

β =

=

∑ ∑

= 4,5 X = =

,

∑

= 0,104

x =x −X 0 7 −7 −4 9 0 −10 5 0

=

xy 0 4,9 5,6 1,2 7,5 0 11,0 3,5 33,4

x 0 49 49 16 81 0 100 25 320

y (für b)) 0,01 0,49 0,64 0,09 0,64 0,01 1,21 0,49 3,58

= 25

β = Y − β X = 4,5 − 0,104 ∙ 25 = 1,9.

Damit lautet die Regressionsgerade y = 1,9 + 0,104 ∙ x . Pro tausend zusätzlich gedruckter Exemplare steigen die Kosten im Durchschnitt um 104 €. Außerdem fallen bei jedem Auftrag Fixkosten von 1900 € an.

3 Zweidimensionale Häufigkeitsverteilungen

99

b) Determinationskoeffizient R : R =

2 β21 ∑N i=1(xi −X)

∑N i=1 yi −Y

2

=

,

∙

= 0,967.

,

96,7 % der quadratischen Abweichungen der Kosten-Werte werden über die Regressionsgerade „erklärt“, d. h. durch die Anzahl der gedruckten Exemplare; der Rest ist auf sonstige Faktoren zurückzuführen. Aufgabe 3.3-4 a) Streudiagramm: y 50000 40000 30000 20000 10000 0 0

1000

2000

3000

4000

5000 x

b) Hinweis: Die folgenden Zwischenergebnisse sind zwar gerundet, es wurde aber mit den genauen Ergebnissen weitergerechnet. Wird die Aufgabe mit einem Taschenrechner gerechnet, so ist mit kleinen rundungsbedingten Abweichungen zu rechnen.

x 3.010 3.041 3.439 4.382 4.379 2.911 1.335 987 1.217 24.701

i 1 2 3 4 5 6 7 8 9 

y 15.166 15.594 15.420 13.826 14.764 19.899 28.775 36.743 38.917 199.104

Arbeitstabelle: x =x −X y =y −Y 265 -6.957 296 -6.529 694 -6.703 1.637 -8.297 1.634 -7.359 166 -2.224 -1.410 6.652 -1.758 14.620 -1.528 16.794

xy -1.846.609 -1.935.387 -4.654.630 -13.585.331 -12.027.332 -370.117 -9.376.833 -25.696.048 -25.654.277 -95.146.563

x 70.461 87.879 482.253 2.681.224 2.671.409 27.704 1.986.847 3.089.002 2.333.426 13.430.204

Berechnung: X=

∑

β =

=

∑ ∑

.

=

= 2.744,56 . .

. .

Y=

∑

=

.

= 22.122,67

= −7,0847

β = Y − β X = 22.122,67 + 7,0847 ∙ 2.744,56 = 41.567,0542. Damit lautet die Regressionsgerade y = 41.567,0542 − 7,0847 ∙ x . Mit jeder weiteren offenen Stelle nimmt die Zahl der Arbeitslosen durchschnittlich um sieben ab. Das Absolutglied wird hier nicht interpretiert.

100

3 Zweidimensionale Häufigkeitsverteilungen

Streudiagramm mit Regressionsgerade: y 50000 40000 30000 20000 10000 0 0

1000

2000

3000

4000

5000 x

c) Der Determinationskoeffizient ist der Anteil der erklärten quadratischen Abweichung von Y zur gesamten quadratischen Abweichung: ∑

R =∑

(

)

(

)

.

Zur Berechnung wird die Arbeitstabelle aus a) ergänzt. Die Werte für y erhält man durch Einsetzen in die Regressionsgleichung, zum Beispiel y = 41.567,0542 − 7,0847 ∙ 3.010 =20.242. i 1 2 3 4 5 6 7 8 9 

y 15.166 15.594 15.420 13.826 14.764 19.899 28.775 36.743 38.917 199.104

y

y

(y − Y)

20.242 20.022 17.203 10.522 10.543 20.943 32.109 34.574 32.945

3.536.504 4.410.778 24.205.374 134.577.815 134.085.139 1.390.452 99.726.448 155.047.040 117.122.343 674.101.893

= (y − Y)

48.395.211 42.623.488 44.925.740 68.834.678 54.149.975 4.944.693 44.253.539 213.754.147 282.049.632 803.931.104

Es ergibt sich R =

.

.

.

.

= 0,8385.

Ca. 84 % der Variabilität in den Arbeitslosenzahlen ist durch einen linearen Ansatz bzgl. der offenen Stellen „erklärbar“. Alternativ kann die Formel R =

2 β21 ∑N i=1(xi −X)

∑N i=1 yi −Y

2

=

(

,

) .

. .

.

= 0,8385.

verwendet werden. Der Rechenaufwand ist dabei deutlich geringer, weil dazu die angepassten Werte y nicht berechnet werden müssen. d) Bei x = 700 offenen Stellen wird die Anzahl der Arbeitslosen folgendermaßen prognostiziert: y = 41.567,0542 − 7,0847 ∙ 700 =36.607,764. Es ist also mit ca. 36.600 Arbeitslosen zu rechnen.

3 Zweidimensionale Häufigkeitsverteilungen

101

Aufgabe 3.3-5 a) Ansatz: s = β + β y

β =

∑ ∑

mit y = y − y und s = s − s̅ β = S − β Y

Arbeitstabelle (die Summe von s wird für Teilaufgabe b) benötigt): i 1 2 3 4 5 6 7 8 9 10 

N = 10

Y = 3075

Berechnung:

y −575 −475 −375 −225 −175 25 375 425 475 525 0

s 260 270 270 280 310 300 350 370 380 400 3.190

y 2.500 2.600 2.700 2.850 2.900 3.100 3.450 3.500 3.550 3.600 30.750

s −59 −49 −49 −39 −9 −19 31 51 61 81 0

ys 33.925 23.275 18.375 8.775 1.575 −475 11.625 21.675 28.975 42.525 190.250

y 330.625 225.625 140.625 50.625 30.625 625 140.625 180.625 225.625 275.625 1.601.250

s 3.481 2.401 2.401 1.521 81 361 961 2.601 3.721 6.561 24.090

S = 319

β =

. .

.

= 0,1188 β = 319 − 0,1188 ∙ 3.075 = −46,31.

Damit ergibt sich für die Sparfunktion: s = −46,31 + 0,1188y . Der Betriebswirt K hat im Durchschnitt von jedem zusätzlich verdienten € 11,88 Cents gespart, d. h. seine Sparquote war 11,9 %. Bei einem Monatseinkommen von null würden durchschnittlich 46,31 € pro Monat „entspart“. b) Korrelationskoeffizient: ρ =

=∑

=

. √ .

.

√

.

= 0,9687.

Das heißt, dass ein starker positiver linearer Zusammenhang zwischen den Sparbeträgen und dem verfügbaren monatlichen Einkommen des Betriebswirtes K besteht. c) Prognose: y

= 3.000

s

=β +β y

= −46,31 + 0,118 ∙ 3.000 = 310,09,

Bei einem verfügbaren Einkommen von 3.000 € wäre damit zu rechnen, dass Betriebswirt K 310,09 € pro Monat spart. Aufgabe 3.3-6 R2 misst den Anteil der quadratischen Abweichung (Variation) einer abhängigen Variablen Y, der durch die Regression (den Regressor) angepasst bzw. „erklärt“ wird. Dabei wird eine funktionale Abhängigkeit zwischen den Merkmalen unterstellt, etwa im Sinne einer UrsacheWirkungsbeziehung.  misst dagegen, ob ein linearer Zusammenhang zwischen zwei Variablen besteht. Dabei wird keine funktionale Abhängigkeit, also zum Beispiel keine Ursache-Wirkungsbeziehung unterstellt. Im vorliegenden Beispiel ist die Unterstellung einer Ursache-Wirkungsbeziehung Unsinn, da das Vorhandensein von Störchen die Geburten von Kindern nicht verursacht. Der hohe Determinationskoeffizient von R2 = 0,9 ist also aussagelos. Eine Interpretation in dem Sinne, dass die Variation der Zahl der Kinder zu 90 % von der Variation der Zahl der Störche erklärt wird, ist falsch, da es von vornherein fehlerhaft wäre, eine Regressionsbeziehung im Sinne eines Ursache-Wirkungsmodells zu verwenden.

102

3 Zweidimensionale Häufigkeitsverteilungen

Die Aussage des Korrelationskoeffizienten, dass ein starker Zusammenhang zwischen der Zahl der Störche und der Zahl der Geburten feststellbar ist, ist hingegen möglich, da das Konzept der Korrelation keine Kausalität zugrunde legt. Eine mögliche Ursache für eine hohe Korrelation zwischen diesen beiden Größen könnten dritte Faktoren, wie zum Beispiel die Industrialisierung und die damit einhergehenden Veränderungen von Umwelt und Lebensstandard darstellen. Im Allgemeinen spricht man in den Fällen, in denen eine hohe Korrelation feststellbar ist, aber kein unmittelbarer kausaler Zusammenhang zwischen den beiden Größen vorliegt, von Schein- oder Unsinnskorrelation. Aufgabe 3.3-7 a) Koeffizienten der Regressionsgerade: β =

∑

(xi −X) yi −Y ∑

(xi −X)2

= 0,691

β =

∑

y −β ∑

x

= −16,237

y = −16,237 + 0,691 ∙ x .

Regressionsgerade:

Steigt das Bruttoinlandsprodukt um eine Einheit, also um 100 Millionen Eistaler (ET), so steigen die Steuereinnahmen durchschnittlich um 0,691 Einheiten, also um 69,1 Millionen ET. β ist, wie so oft, nicht vernünftig zu interpretieren. Determinationskoeffizient: R =

2 β21 ∑N i=1(xi −X)

∑N i=1 yi −Y

2

= 0,867.

86,7 % der Variation der Steuereinnahmen um ihren Mittelwert sind durch die Regression ableitbar. Die Summe der quadrierten nicht erklärten Abweichungen kann durch folgende Überlegung berechnet werden: R =

∑N i=1 yi −Y ∑N i=1 yi −Y

2 2

=1−

∑N i=1 yi −yi ∑N i=1 yi −Y

2 2

=1−

∑N i=1 ∑N i=1 yi −Y

2

.

Der Determinationskoeffizient ist der Anteil der erklärten Variation an der gesamten Variation. Dieser Anteil kann auch aus der Differenz von eins und dem Anteil der unerklärten Variation an der Gesamtvariation berechnet werden. Die unterklärte Variation entspricht der Summe der quadrierten Restwerte. Daher kann die Summe der quadrierten Restwerte aus R² ermittelt werden: ∑

ε2i = 1 − R2 ∑

(y − Y) = (1 − 0,867) ∙ 3,951 = 0,525.

b) Zunächst muss der Regressor für das Jahr IX bestimmt werden: x

=x

∙ (1 + r̅ ) mit (1 + r̅ ): durchschnittlicher Wachstumsfaktor von III bis VIII des BIP:

(1 + r̅ ) =

=

, ,

= 1,015, d. h. x

= 1,015 ∙ 36,66 = 37,129.

Die Berechnung des Wachstumsfaktors wäre auch über die Formel des geometrischen Mittels möglich gewesen. Die Steuereinnahmen in IX sind: y

=β +β ∙x

= −16,237 + 0,691 ∙ 37,219 = 9,481.

Im Jahr IX kann mit ca. 948 Mio. ET Steuereinnahmen gerechnet werden.

4 Multivariate Analyse

103

4 Multivariate Analyse 4.1

Darstellungsweise und Grundbegriffe

Aufgabe 4.1-1 Euklidische Distanz: d

∑

=

x −x

d

=

(21,3 − 19,0) + (73,0 − 70,8) = 3,183

d

=

(21,3 − 22,9) + (73,0 − 83,5) = 10,621

d

=

(19,0 − 22,9) + (70,8 − 83,5) = 13,285.

Die größten Unterschiede bzgl. der betrachteten Merkmale gibt es nach der Euklidischen Distanz zwischen Regierungsbezirk B und C, die geringsten Unterschiede zwischen A und B.

4.2

Diskriminanzanalyse

Aufgabe 4.2-1 a) Diskriminanzanalyse: Die beobachteten Werte mehrerer metrisch skalierter Merkmale X werden durch die Werte eines abgeleiteten nominal skalierten Merkmals Y ersetzt. b) Ein Maß für die Trennfähigkeit ist z. B.: für X1: |

|

|

| |

|

=

, ,

,

= 0,379 und für X2: |

|

|

| |

|

=

, ,

,

= 0,621.

Circa 62,1 % der Diskriminanzwerte werden durch die Zielgruppengröße, ca. 37,9 % durch den Preis erklärt. X2 hat also eine größere Bedeutung für die Trennung in Strategie A und B.

4.3

Clusteranalyse

Aufgabe 4.3-1 a) Das Ziel der Analyse ist es, ähnliche Kurorte allein anhand der erhobenen Merkmale zu Gruppen zusammenzufassen. Daher wird die Clusteranalyse durchgeführt. Bei der Clusteranalyse werden aus den Merkmalsträgern in sich möglichst homogene und untereinander möglichst heterogene Gruppen gebildet. Bei der Gruppenbildung werden allein die Ausgangsdaten berücksichtigt, es werden also keine Kategorien vorgegeben. b) Die Tabellenwerte sind Ähnlichkeitsmaße, die angeben sollen, wie ähnlich sich zwei Kurorte bzgl. der 20 Merkmale sind.

104

4 Multivariate Analyse

Ein Maß ist z. B.: s

(

)

∑

=

1−

mit m = Zahl der Merkmale und R = Spannweite. c) Es gibt verschiedene Möglichkeiten der Einteilung. Bei partitionierenden Verfahren wird die Zahl der Cluster vorgegeben und daraufhin eine Zuordnung der Objekte vorgenommen. Will man beispielsweise zwei Gruppen von Kurorten bilden, so ergäbe sich aufgrund der Ähnlichkeiten eine Gruppe mit den Orten A, B und D und eine zweite Gruppe mit den Orten E, F und C. Bei hierarchischen Verfahren wird die Zahl der Cluster aus einem Dendrogramm ermittelt. Auch hier gibt es verschiedene Unterverfahren. Ein Beispiel für ein Dendrogramm im agglomerativ-hierarchischen Verfahren mit Single-Linkage ist: Bad F

90,6

Bad E

22,0

Bad C

85

Bad D

84,2

Bad B

Bad A

93,5

100

60

80

40

20

Aufgabe 4.3-2 a) Rohdatenmatrix: X=

23.000 13,8 14.200 8,2 17.500 19,9 4.500 19,1

Standardisierte Datenmatrix mit z =

,

z. B. z

=

1,26 −0,11 0,36 −1,51

Z=

.

. .

,

= 1,26,

−0,31 −1,50 . 0,99 0,82

b) Die Formel für die euklidische Distanz mit z-Werten ist: d

=

∑

z −z

, z. B. d

=

(1,26 − 0,11) + (−0,31 + 1,5) = 1,81 = d

4 Multivariate Analyse

105

Eine Anwendung auf alle Objekte ergibt die Distanzmatrix D=

0 1,81 1,58 2,99

1,81 0 2,53 2,71

1,58 2,99 2,53 2,71 . 1,88 0 1,88 0

c) Zuerst würden Unternehmen 1 und 3 zusammengefasst, da bei ihnen mit 1,58 die niedrigste Distanz vorliegt.

5 Zeitreihenanalyse

107

5 Zeitreihenanalyse 5.1

Grundlagen

Aufgabe 5.1-1 a) Gesucht sind die gleitenden 3-Jahres-Durchschnitte für Besucher (B) und Umsatz (U). Allgemein gilt für ungerade Durchschnitte Y∗ =

(y

+y

+⋯+ y +⋯+ y

Für den 3er-Durchschnitt ergibt sich Y ∗ = Jahr 2008 2009 2010 2011 2012 2013

∙

+y

).

(y + y + y ).

Gleitende 3-Jahres-Durchschnitte B U 200 1.000 250 1.000 280 1.000 300 1.000 330 1.000 360 1.000

b) Die gleitenden Mittelwerte stellen den Trend bzw. die „glatte Komponente“ (Z + T) dar. Ein Saisoneinfluss ist nicht vorhanden, da es sich um Jahreswerte handelt. c) Ein konstanter Trend mit der Steigung null wird von einem starren, dreijährigen Zyklus überlagert, der folgende Werte hat: −60, +100, −40. Aufgabe 5.1-2 a) Je größer die Gliederzahl n, desto „geglätteter“ ist der Verlauf der glatten Komponente. Wenn n zu klein ist, haben unsystematische Komponenten Einfluss auf die glatte Komponente. Als Folge können Zufallskomponenten als systematische Einflüsse fehlinterpretiert werden. Wenn n zu groß ist, werden auch systematische Einflüsse der glatten Komponente nivelliert mit der Folge, dass Wendepunkte in der Zeitreihe zu spät in der glatten Komponente realisiert werden. b) Bei der Verwendung unterjähriger Daten wählt man sinnvollerweise die Zahl der „unterjährigen Subperioden“ als Maß für die Gliederzahl bzw. ein Vielfaches davon. Ansonsten geht der Saisoneinfluss mit in die glatte Komponente ein. c) Saisonkomponenten sind die durchschnittliche Abweichung der Zeitreihengröße Y von ihrer glatten Komponente. „Rohe“ Saisonkomponenten werden korrigiert, weil der Saisonfaktor nur eine Umschichtung der “unterjährigen Teile“ des Jahresgesamtwertes und keine Niveauänderung des Jahresgesamtwertes bewirkt.

108

5 Zeitreihenanalyse 1. T = a ∙ b

d)

2. T = a ∙ t

Tt

3. T =

Tt

Tt 1,0

b>1

b0 0,5

0 4) = 1 − P(X ≤ 4) = 1 − 0,1667 = 0,8333 P(5 ≤ X < 10) = P(X = 5) + ⋯ + P(X = 9) = 0,6667. Aufgabe 7.3-2 a) Statistischer Wahrscheinlichkeitsbegriff b) Mit Wahrscheinlichkeitsverteilung kann entweder die Wahrscheinlichkeitsfunktion und/oder die Verteilungsfunktion gemeint sein. Wichtig ist, dass (einfache oder kumulierte) Wahrscheinlichkeiten zu allen möglichen Realisationen der Zufallsvariablen angegeben werden. Die Werte der Wahrscheinlichkeitsfunktion sind: xi 0 1 10

pi 0,970 0,025 0,005

Die Verteilung wurde mit folgender Überlegung ermittelt: Aus dem Aufgabentext geht hervor, dass es sich um einen Zufallsvorgang mit drei möglichen Ergebnissen handelt (Tod, Invalidität, kein Tod und keine Invalidität), denen die Zufallsvariable X jeweils Auszahlungen zuordnet. Die Wahrscheinlichkeit P(X = 0) ergibt sich als Komplementär aus den anderen beiden Wahrscheinlichkeiten, also P(X = 0) = 1 – P(X = 1) – P(X = 10). c) Hier ist nach dem Erwartungswert gefragt. Mit der Formel E(X) = μ = ∑ man μ=∑

x p erhält

x p = 0 ∙ 0,97 + 1 ∙ 0,025 + 10 ∙ 0,005 = 0,075.

Die Versicherung erwartet also aus der Police eine Zahlung von 75.000 €. d) Das Geschäftsmodell einer Versicherung beruht im Wesentlichen darauf, dass viele gleichartige Risiken übernommen werden, so dass der Erwartungswert nahezu realisiert wird. Verkauft die vorliegende Versicherung beispielsweise sehr viele gleichartige Policen, so ist davon auszugehen, dass sich im Durchschnitt pro Police eine Auszahlung in Höhe des Erwartungswerts ergibt. Daher muss die Prämie mindestens 75.000 € betragen. e) Die Standardabweichung ist die Wurzel aus der Varianz Var(X) = σ = ∑ Einsetzen ergibt σ σ

(x −μ)²p .

= ∑ (x −μ)²p = (0 − 0,075) 0,97 + (1 − 0,075) 0,025 + (10 − 0,075) 0,005 = 0,59137 = 0,591375 = 0,720678.

Die durchschnittliche Streuung um den Erwartungswert beträgt 720.678 €.

7 Wahrscheinlichkeitsrechnung

137

Aufgabe 7.3-3 a) Die relativen Häufigkeiten für die einzelnen Zahlen sind 75 % (für die Zahl 0), 20 % (für die Zahl 1), 4 % (für die Zahl 5) und 1 % (für die Zahl 20). Mit dem statistischen Wahrscheinlichkeitsbegriff können diese relativen Häufigkeiten als Wahrscheinlichkeit gleichgesetzt werden, die jeweilige Zahl bei einem Zug zu ziehen. Damit erhält man Wahrscheinlichkeits- und Verteilungsfunktion, hier tabellarisch: xi 0 1 5 20

pi 0,75 0,20 0,04 0,01

Fi 0,75 0,95 0,99 1,00

Beispielsweise wird man mit einer Wahrscheinlichkeit von 4 % die Zahl 5 ziehen. Eine Zahl von 5 oder kleiner hingegen erhält man mit einer Wahrscheinlichkeit von 99 %. Erwartungswert und Varianz berechnen sich mit den Formeln E(X) = μ = ∑

x p und Var(X) = σ = ∑

(x −μ)²p .

Für den Erwartungswert erhält man μ = 0 ∙ 0,75 + 1 ∙ 0,20 + 5 ∙ 0,04 + 20 ∙ 0,01 = 0,20 + 0,20 + 0,20 = 0,60. Die Varianz ergibt sich folgendermaßen: σ

= (0 − 0,60) 0,75 + (1 − 0,60) 0,20 + (5 − 0,60) 0,04 + (20 − 0,60) 0,01 = 0,36 ∙ 0,75 + 0,16 ∙ 0,20 + 19,36 ∙ 0,04 + 376,36 ∙ 0,01 = 0,27 + 0,032 + 0,7744 + 3,7636 = 4,84.

Daraus erhält man die Standardabweichung σ = √4,84 = 2,2 . Im Schnitt wird man bei (unendlich) vielen Zügen einen Zahlenwert von 0,6 erwarten mit einer Streuung von 2,2. b) Die Zufallsvariable Y (Reingewinn) steht in folgender linearer Abhängigkeit zur Zufallsvariable X (Zahl auf dem Los): Y = 0,5X − 1. Man könnte Erwartungswert und Varianz der Zufallsvariable Y (Reingewinn) wie in Teilaufgabe a) aus der Wahrscheinlichkeitsverteilung berechnen, indem man die Wahrscheinlichkeiten aus der Tabelle in der Lösung von a) den Realisationen von Y zuordnet. Deutlich einfacher ist es aber, sich die Rechenregeln von Erwartungswert und Varianz zunutze zu machen. Allgemein gilt für den Erwartungswert die Rechenregel E(a + bX) = a + bE(X). Dabei bezeichnen a und b Konstanten, also keine Zufallsvariablen. Im vorliegenden Fall ergibt sich damit der Erwartungswert für den Reingewinn mit E(Y) = E(−1 + 0,5X) = −1 + 0,5E(X) = −1 + 0,5 ∙ 0,6 = −0,7. Bei der Berechnung wurde ausgenutzt, dass E(X) = 0,6, also der Erwartungswert der Zahl auf dem Los, bereits bekannt ist. Ähnlich ist die Vorgehensweise zur Berechnung der Varianz. Hier lautet die Rechenregel Var(a + bX) = b Var(X) und wir erhalten Var(Y) = Var(−1 + 0,5X) = 0,5 Var(X) = 0,25 ∙ 4,84 = 1,1. Zieht man aus dem Ergebnis die Wurzel erhält man die Standardabweichung von σ = 1,2. Der Reingewinn eines Spielers, der das Spiel (unendlich) oft wiederholt, beträgt im Durchschnitt pro Spiel -0,70 € mit einer Streuung von 1,10 €.

138

7.4

7 Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitsverteilungen stetiger Zufallsvariablen

Aufgabe 7.4-1 a) Der Graph dieser (abschnittweise definierten) Funktion sieht folgendermaßen aus: f(x) 0,05

0,04

0,03

0,02

0,01

0,00 0

5

10

15

20

25

30

35

40

45

50 x

Die einzelnen Wert f(x) auf der Dichtefunktion lassen sich nicht interpretieren, sondern nur die Fläche unter dem Graphen. Die Fläche in einem bestimmten Abschnitt zwischen x1 und x2 (wobei x2 größer als x1 sein soll) entspricht der Wahrscheinlichkeit, dass die Zufallsvariable einen Wert innerhalb des Bereichs zwischen x1 und x2 annimmt. Dies wird mit der folgenden Teilaufgabe illustriert. b) Wahrscheinlichkeiten lassen sich aus der Dichtefunktion bestimmen, indem man den Flächeninhalt unter der Kurve bestimmt. Normalerweise wird dazu die Integralrechnung benutzt. Im vorliegenden Fall setzen sich aber alle Teilflächen unter der Kurve aus Rechtecken zusammen, daher ist es einfacher, man bestimmt die Flächen der einzelnen Rechtecke (Höhe mal Breite). Die Wahrscheinlichkeit, dass das gesamte Publikum erst nach 30 Minuten eingeschlafen ist, ist das Rechteck im letzten Abschnitt der Funktion, der größer als null ist. Dieses Rechteck hat eine Höhe von 0,01 und eine Breite von 15, daher P(X > 30) =

f(x)dx = 0,01 ∙ 15 = 0,15.

Die Wahrscheinlichkeit, dass das Publikum innerhalb der ersten 10 Minuten einschläft, lässt sich bestimmen, indem man die Flächeninhalte zweier Rechtecke addiert (siehe folgende Abbildung): P(X ≤ 10) =

f(x)dx = 0,01 ∙ 5 + 0,05 ∙ 5 = 0,55.

7 Wahrscheinlichkeitsrechnung

139

f(x) 0,05

0,04

0,03

0,02

0,01

0,00 0

5

10

15

20

25

30

35

40

45

50 x

Die Wahrscheinlichkeit, dass das Publikum in weniger als 3 Minuten einschläft, ist P(−2 ≤ X ≤ 3) =

f(x)dx = 0,01 ∙ 3 = 0,03.

c) Um zu zeigen, dass f(x) eine Dichtefunktion ist, müssen zwei Bedingungen geprüft werden: 1. f(x) ≥ 0 für alle x (kein Wert der Dichtefunktion darf negativ sein) 2.

f(x)dx = 1 (Gesamtfläche unter der Kurve beträgt 1, d. h. die Wahrscheinlichkeit, dass irgendeine der möglichen Realisationen angenommen wird, beträgt 100 %)

Bedingung 1 ist im vorliegenden Fall erfüllt: Die Werte für f(x) sind explizit angegeben (0,01, 0,04 usw.) und alle nichtnegativ. Bedingung 2 wird überprüft, indem die Gesamtfläche unter der Kurve berechnet wird. Wie im Aufgabenteil b) werden auch hier die Flächeninhalte der einzelnen Rechtecke zu Hilfe genommen. Multipliziert man Höhe und Breite jedes einzelnen Rechtsecks und bildet die Summe, so erhält man: f(x)dx = 0,01 ∙ 5 + 0,05 ∙ 10 + 0,02 ∙ 15 + 0,01 ∙ 15 = 1. Da Bedingung 1 und Bedingung 2 erfüllt sind, liegt eine Dichtefunktion vor. Aufgabe 7.4-2 a) Zur Ermittlung der Wahrscheinlichkeiten wird die Fläche unter der Dichtefunktion in den jeweiligen Intervallen mit Hilfe der Integralrechnung bestimmt. Dabei ist zu beachten, dass die vorliegende Dichte nur zwischen 1 und 5 ungleich null ist. Für die Wahrscheinlichkeit P(X < 2) bestimmt man daher das Integral zwischen 1 und 2: P(X < 2) =

f(x) dx =

x dx =

x

(Potenzregel:

x dx =

x

=

−

+ C).

= 0,125

140

7 Wahrscheinlichkeitsrechnung

Zur Berechnung der Wahrscheinlichkeit P(X > 3) geht man im Prinzip genauso vor: f(x) dx =

P(X > 3) =

x

=

−

= 0,083.

Da die Zufallsvariable X stetig ist, gilt P(X = 2) = 0. Dies lässt sich auch damit begründen, dass das Integral an der Stelle 2 den Wert null annimmt: P(X = 2) =

f(x) dx = 0.

b) Zur Ermittlung der Verteilungsfunktion F(x) aus einer Dichtefunktion bestimmt man das Integral in den Grenzen zwischen 1 und x: F(x) =

f(t) dt =

t dt =

t

=

x −

.

Die Werte der Verteilungsfunktion sind die Wahrscheinlichkeiten, dass die Zufallsvariable einen Wert kleiner/gleich die eingesetzte Stelle annimmt, also F(4) = P(X ≤ 4). Durch Einsetzen in die eben ermittelte Funktion erhält man F(4) = P(X ≤ 4) =

4 −

=

= 0,625.

Die Wahrscheinlichkeit, dass die Zufallsvariable einen Wert kleiner oder gleich 4 annimmt, beträgt also 62,5 %. c) Dichtefunktion: f(x)

0,40

0,30

0,20

0,10

0,00 0

1

2

3

4

5

6 x

7 Wahrscheinlichkeitsrechnung

141

Verteilungsfunktion: F(x) 1,00

0,80

0,60

0,40

0,20 0,00 0

1

2

3

4

5

6 x

Aufgabe 7.4-3 a) Um zu zeigen, dass f(x) eine Dichtefunktion ist, müssen zwei Bedingungen geprüft werden: 1. f(x) ≥ 0 für alle x (kein Wert der Dichtefunktion darf negativ sein), 2.

f(x)dx = 1 (Gesamtfläche unter der Kurve beträgt 1).

Zur Überprüfung der ersten Bedingung betrachtet man zunächst den ersten Funktionsabschnitt: 0,5 − 0,125x ≥ 0 ⇔ x ≤ 4. Die Funktion ist also für x ≤ 4 stets nichtnegativ. Der erste Funktionsabschnitt gilt auch nur für x ≤ 4. Für x > 4 (und x < 0) gilt der zweite Funktionsabschnitt f(x) = 0, der ebenfalls nichtnegativ ist. Damit ist die erste Bedingung erfüllt. Zur Überprüfung der zweiten Bedingung wird nur das Integral zwischen 0 und 4 betrachtet, da die Fläche unter der Kurve an allen anderen Stellen null ist: f(x)dx =

(0,5 − 0,125x)dx = [0,5x − 0,0625x ] = 2 − 0,06125 ∙ 16 = 1.

b) Die Verteilungsfunktion erhält man, indem man die Stammfunktion bildet: F(x) =

f(t)dt =

(0,5 − 0,125t)dt = [0,5t − 0,0625t ] = 0,5x − 0,0625x .

c) Die Verteilungsfunktion kumuliert die Fläche von links. Daher kann die Wahrscheinlichkeit P(X ≤ 2) durch Einsetzen in die Verteilungsfunktion bestimmt werden: P(X ≤ 2) = F(2) = 0,5 ∙ 2 − 0,0625 ∙ 4 = 1 − 0,25 = 0,75. Zur Beantwortung der Frage P(X > 3) mit Hilfe der Verteilungsfunktion macht man sich zunutze, dass die Gesamtfläche eins beträgt und bildet das Komplementär: P(X > 3) = 1 − P(X ≤ 3) = 1 − F(3) = 1 − (0,5 ∙ 3 − 0,0625 ∙ 9) = 1 − 0,9375 = 0,0625. P(1,5 < X < 2,5) wird mit der Verteilungsfunktion bestimmt, indem zunächst die Gesamtfläche bis 2,5 berechnet und anschließend die Teilfläche bis 1,5 davon subtrahiert wird:

142

7 Wahrscheinlichkeitsrechnung P(1,5 < X < 2,5) = F(2,5) − F(1,5) = (0,5 ∙ 2,5 − 0,0625 ∙ 2,5 ) − (0,5 ∙ 1,5 − 0,0625 ∙ 1,5 ) = 0,8594 − 0,6094 = 0,25.

Aufgabe 7.4-4 a) Die Verteilungsfunktion erhält man, indem man die Stammfunktion bildet. Dabei genügt es, den oberen Funktionsteil ab der Stelle null zu betrachten, da die Fläche für den unteren Funktionsteil überall null ist: F(x) =

f(t)dt =

,

0,02e

dt = [−e

,

,

] = −e

,

− (−e ) = 1 − e

.

b) Die Formeln für Erwartungswert und Varianz stetiger Zufallsvariablen lauten E(x) = μ = (x − μ) f(x)dx. Zur Anwendung auf die vorliegende xf(x)dx bzw. Var(x) = σ = Dichtefunktion müssen Produkte integriert werden. Dazu vergegenwärtigt man sich die Formel für das partielle Integrieren: vu dx = [vu] − v udx. Zur Berechnung des Erwartungswerts setzt man sinnvollerweise v = ax (so dass v‘ = a) (so dass u = − e ). Auf die vorliegende Dichtefunktion angewendet, erund u = e hält man: μ=

axe

] −

dx = [−xe

−e

] + − e

dx = [−xe

= = 50.

Die Varianz berechnet sich aus: σ = Hier wählt man wieder u = e σ = −a x −

+

und v = a x − +

e

= − x− =

e +

2(x − )e

ae

x−

dx. , so dass v′ = 2a(x − ):

2a x −

e

2(x − )e

dx

dx

dx.

Zur Berechnung des ausstehenden Integrals wählt man erneut u = e 2 x − , so dass v = 2: σ = =

−

+ −2 x − +

=

e

+

2 e

dx = −

+

+ −

und v =

e

= 2.500 bzw. σ = 50.

Erwartungsgemäß läuft der Computer 2.500 Stunden störungsfrei mit einer durchschnittlichen Abweichung von 50 Stunden. c) Zur Bestimmung der Wahrscheinlichkeiten wird die Verteilungsfunktion benutzt: i) P(X < 30) = F(30) = 1 − e

,

∙

= 0,4512.

ii) P(40 < X < 80) = F(80) − F(40) = 1 − e

,

∙

−1+e

,

∙

= 0,2474.

7 Wahrscheinlichkeitsrechnung

7.5

143

Zweidimensionale diskrete Zufallsvariablen

Aufgabe 7.5-1 a) Unter der Randverteilung versteht man eine Wahrscheinlichkeits- (oder Verteilungs-) funktion, die aus einer zweidimensionalen Verteilung ermittelt wird und die jeweils eine der beiden Dimensionen ausblendet. Man reduziert also die zweidimensionale Betrachtungsweise auf zwei eindimensionale Betrachtungsweisen. Die Randwahrscheinlichkeiten für X sind die Zeilensummen und für Y die Spaltensummen, f (x ) = ∑ f x , y , f y = ∑ f x , y : 0

1

f (x ) = p .

0/32 1/32 3/32 10/32 14/32

2/32 1/32 7/32 8/32 18/32

2/32 2/32 10/32 18/32 1

yj xi 0 1 2 3 f y = p.

Beispielsweise beträgt die Wahrscheinlichkeit, dass die Zufallsvariable X den Wert 3 annimmt 18/32, unabhängig davon, welchen Wert Y annimmt. b) Beim Konzept der bedingten Wahrscheinlichkeit interessiert man sich – im Gegensatz zur Randwahrscheinlichkeitsfunktion – für die Wahrscheinlichkeit, dass eine Zufallsvariable einen bestimmten Wert annimmt, unter der Voraussetzung, dass die andere Variable einen bestimmten Wert angenommen hat. Man kennt also bereits die Realisation einer Zufallsvariablen und fragt nach der Wahrscheinlichkeit, dass die andere Zufallsvariable bestimmte Werte annimmt. Dazu reduziert man die Betrachtungsweise auf eine Zeile oder Spalte einer zweidimensionalen Tabelle: ,

f x y =

bzw.

f y x

=

, ( )

.

Die Wahrscheinlichkeitsverteilung für X unter der Bedingung Y = 1 ist xi f(xiy2)

0 2/18

1 1/18

2 7/18

3 8/18

 1

c) Zwei Zufallsvariablen X und Y sind voneinander stochastisch unabhängig, wenn das Eintreffen eines xi in keiner Weise das Eintreffen eines yj beeinflusst und umgekehrt. Mithilfe der bedingten Wahrscheinlichkeiten ausgedrückt, bedeutet das, dass für alle i und j gilt: P X = x und Y = y = P(X = x ) ∙ P Y = y oder in Kurzschreibweise: p = p .∙ p. . Im vorliegenden Fall sind die Zufallsvariablen X und Y nicht stochastisch unabhängig, denn z. B. für X = 2 und Y = 1 gilt: p

=

≠ p .∙ p. =

∙

.

144

7 Wahrscheinlichkeitsrechnung

d) Zur Berechnung von Randerwartungswerten und Randvarianzen werden die Randverteilungen getrennt für die Zufallsvariablen X und Y benutzt: E(X) = μ = ∑

x f (x ) = 0 ∙

+1∙

+2∙

E(Y) = μ = ∑

yf y

+1∙

= 0,5625

Var(X) = σ = ∑

=0∙

x f (x ) − μ = 0 ∙

Var(Y) = σ = ∑

+1∙

y f y −μ =0∙

+3∙

+4∙

+1∙

= 2,375

+9∙

− 2,375 = 0,734

− 0,5625 = 0,246.

e) Interessiert man sich für den linearen Zusammenhang zweier Zufallsvariablen, also dafür, ob sich bei einer Änderung von X auch Y verändert und zwar entweder in der gleichen oder in der entgegengesetzten Richtung, so berechnet man die Kovarianz. = ∑ ∑ (x − μ )(y − μ )f(x , y )

Cov(X, Y) = E (X − μ )(Y − μ ) = σ

+ (0 − 2,375)(1 − 0,5625) ∙

= (0 − 2,375)(0 − 0,5625) ∙ +(1 − 2,375)(0 − 0,5625) ∙

+ (1 − 2,375)(1 − 0,5625) ∙

+(2 − 2,375)(0 − 0,5625) ∙

+ (2 − 2,375)(1 − 0,5625) ∙

+(3 − 2,375)(0 − 0,5625) ∙

+ (3 − 2,375)(1 − 0,5625) ∙

= 0 − 0,0649 + 0,0242 − 0,188 + 0,0198 − 0,0359 − 0,1099 + 0,684 = −0,1171. Es besteht ein negativer linearer Zusammenhang zwischen beiden Merkmalen. Über die absolute Stärke des Zusammenhangs lässt sich keine Aussage treffen, da die Größenordnung der Kovarianz nicht beschränkt ist. f) Der Korrelationskoeffizient nach Bravais-Pearson hat gegenüber der Kovarianz den Vorteil, dass er nicht von den Dimensionen der betrachteten ZV abhängt und auf den Bereich  1 normiert ist. Aus diesem Grund kann man auch genauere Aussagen über die Stärke des linearen Zusammenhangs machen: ρ=

( , )

=−

, ,

∙ ,

= −0,2728.

Zwischen X und Y besteht demnach ein relativ schwacher negativer linearer Zusammenhang. Aufgabe 7.5-2 a) Es gilt p24 = P(X = 2 und Y = 4) = 0,02. Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Student in Mathematik die Note 2 erzielt und in Statistik die Note 4, beträgt 2 %. b) Die Randverteilungen für X und Y lauten: p . = f (x ) = ∑ f(x , y )p. = f y = ∑ f(x , y ).

7 Wahrscheinlichkeitsrechnung

xi

yi

y1

y2

y3

y4

y5

x1 x2 x3 x4 x5 fy(yj) = P.j

145 fx(xi) = Pi. 0,10 0,20 0,40 0,20 0,10

0,11

0,24 0,32 0,24 0,09

1

P5. = 0,1, d. h. die Wahrscheinlichkeit, die Mathematikklausur nicht zu bestehen, beträgt für einen zufällig ausgewählten Studenten 10 %. c) Erwartungswert für Y: E(Y) = μ = ∑

y f y = 1 ∙ 0,11 + 2 ∙ 0,24 + 3 ∙ 0,32 + 4 ∙ 0,24 + 5 ∙ 0,09 = 2,96.

Die erwartete Note im Fach Statistik liegt bei knapp 3. Varianz für Y: Var(Y) = ∑ (y − μ )²f y = (1 − 2,96)² ∙ 0,11 + (2 − 2,96)² ∙ 0,24 + (3 − 2,96)² ∙ 0,32 +(4 − 2,96)² ∙ 0,24 + (5 − 2,96)² ∙ 0,09 = 1,278. Die Streuung – gemessen durch die Standardabweichung (Wurzel aus 1,278) – beträgt etwa 1,1 Noten um den Erwartungswert 2,96. d) X und Y sind stochastisch unabhängig, wenn gilt: f x ,y

= f (x ) ∙ f (y ) für j, j = 1, 2, …, 5.

Da z. B. für x y gilt f(x , y ) = 0,04 ≠ 0,11 ∙ 0,1 = 0,011 = f (x ) ∙ f y , sind die Noten nicht stochastisch unabhängig. e) Die gesuchte bedingte Verteilung lautet: f y x yj f(yj x2)

1 0,2

2 0,5

=

, (

)

3 0,15

4 0,1

1 0,05

f(y |x ) = 0,5, d. h. die Wahrscheinlichkeit, dass ein Student, der in der Mathematikklausur die Note 2 geschrieben hat, in der Statistik ebenfalls die Note 2 erreicht, beträgt 50 %. Aufgabe 7.5-3 Zur Berechnung der Randerwartungswerte werden folgende Formeln benutzt: E(X) = μ = ∑ x p . E(Y) = μ = ∑ y p. .

146

7 Wahrscheinlichkeitsrechnung

Dazu wird zunächst die Randverteilung ermittelt: Y

1

X 0 1 2 3 4 p.j

2

0,35

0,51

3

pi.

0,14

0,40 0,30 0,15 0,10 0,05 1,00

Einsetzen in die oben angegebene Formel ergibt: E(X) = x = 0∙0,4 +1∙0,3 +2∙0,15 +3∙0,1 +4∙0,05=1,1 E(Y) = y = 1∙0,35 + 2∙0,51 + 3∙0,14 = 1,79. Bei einer zufällig ausgewählten Familie ist mit einer Zahl von im Schnitt 1,1 Kindern und 1,8 Autos zu rechnen. Für die bedingten Erwartungswerte lauten die Formeln: E(X|Y = y ) = ∑ x f (x |y ) E(Y|X = x ) = ∑ y f y x . Es müssen also erst die bedingten Verteilungen bestimmt werden. Die auf die Zahl der Autos (Y) bedingte Verteilung f (x |y ) lautet: 1

2

3

X 0

Y

0,2286

0,5490

0,2857

1

0,2857

0,2745

0,4286

2

0,2000

0,0980

0,2143

3

0,1714

0,0588

0,0714

4

0,1143

0,0196

0,0000

Die Werte aus der Tabelle berechnen sich, indem man die gemeinsamen Wahrscheinlichkeiten aus der Ausgangstabelle durch die jeweilige Spaltensumme teilt, also zum Beispiel für die erste Zelle f (0|1) =0,08/0,35= 0,2286. Daraus ergeben sich folgende bedingte Erwartungswerte: E(X|Y = 1) = 0,2286∙0 + 0,2857∙1 + 0,2∙2 + 0,1714∙3 + 0,1143∙4 = 1,6571. Die restlichen Werte errechnen sich analog. Man erhält E(X|Y = 2) = 0,7255;

E(X|Y = 3) = 1,0714.

In Familien mit einem Auto kann eine durchschnittliche Kinderzahl von 1,7 erwartet werden. Eine zufällig ausgewählte Familie mit zwei Autos hat erwartungsgemäß 0,72 Kinder, sind drei Autos vorhanden, so kann mit durchschnittlich 1,07 Kindern gerechnet werden.

7 Wahrscheinlichkeitsrechnung

147

Auf gleiche Weise werden die auf X (Zahl der Kinder) bedingten Erwartungswerte berechnet. Die auf X bedingte Verteilung f (y |x ) lautet: 1

2

3

X 0

Y

0,2000

0,7000

0,1000

1

0,3333

0,4667

0,2000

2

0,4667

0,3333

0,2000

3

0,6000

0,3000

0,1000

4

0,8000

0,2000

0,0000

Hier wurden die Zellen der Ausgangstabelle durch die jeweilige Zeilensumme geteilt, zum Beispiel für die erste Zelle f (1|0) = 0,08/0,4 = 0,2. Die bedingten Erwartungswerte erhält man dann, indem man die bedingten Verteilungen in die Erwartungswertformel einsetzt: E(Y|X = 0) = 0,2∙1 + 0,7∙2 + 0,1∙3 = 1,9. Die restlichen Werte errechnen sich analog. Es ergibt sich: E(Y|X = 1) = 1,8667;

E(Y|X = 2) = 1,7333;

E(Y|X = 3) = 1,5; E(Y|X = 4) = 1,2.

In Familien ohne Kinder werden 1,9 Autos erwartet. Allgemein ist festzustellen, dass die erwartete Zahl der Autos mit steigender Kinderzahl sinkt. Aufgabe 7.5-4 Wir bezeichnen mit den Zufallsvariablen X1, X2, X3 und X4 den Betrag, der einem zufällig ausgewählten Studenten aus der jeweiligen Fachrichtung (1 für Chemie, 2 für Kunst, 3 für BWL und 4 für Germanistik) zur Verfügung steht. Für diese Zufallsvariablen gelten folgende Erwartungswerte und Standardabweichungen: μ = 175; σ = 25; μ = 113; σ = 32; μ = 289; σ = 50; μ = 138; σ = 15. Der Gesamtbetrag ergibt sich aus der Summe der Einzelbeträge X + X + X + 3X . Mit der Rechenregel für Erwartungswerte E(a X + a X + ⋯ + a X ) = a μ + a μ + ⋯ a μ erhält man den Erwartungswert für diese Summe E(X + X + X + 3X ) = μ + μ + μ + 3μ = 175 + 113 + 289 + 3 ∙ 138 = 991. Zur Berechnung der Standardabweichung benötigt man die Rechenregel für Varianzen: Var(a X + a X + ⋯ + a X ) = ∑

a σ +∑,

aaσ .

Da die Studenten zufällig ausgewählt wurden, dürften die Beträge unabhängig voneinander sein. Daher werden alle Kovarianzen σ hier null und man erhält: Var(X + X + X + 3X ) = σ + σ + σ + 9σ = 25 + 32 + 50 + 9 ∙ 15 = 6.174. Die Standardabweichung des Gesamtbetrags ist die Wurzel aus diesem Wert, also √6.174 = 78,57. Es stünde also erwartungsgemäß ein Gesamtbetrag von 991 € zur Verfügung bei einer durchschnittlichen Streuung von 78,75 €.

148

7 Wahrscheinlichkeitsrechnung

Aufgabe 7.5-5 Zunächst muss eine Notation gewählt werden: Yj bezeichnet die Maschine, von der eine zufällig ausgewählte Schraube stammt (j = 1, 2, 3). Bei einer Gesamtproduktion von 10.000 Stück gilt: P(Y = 1 ) =

. .

= 0,2

P(Y = 2) = 0,3

P(Y = 3) = 0,5.

Die Zufallsvariable X soll bezeichnen, ob ein zufällig gezogenes Stück defekt ist (X = 1) oder nicht (X = 0). Damit ist (X = 1  Y = yi) das Ereignis, dass ein zufällig von Maschine i gezogenes Stück defekt ist. Die Wahrscheinlichkeiten lauten: P(X = 1|Y = y ) = 0,05 P(X = 1|Y = y ) = 0,04 P(X = 1|Y = y ) = 0,02. a)

Gesucht ist die totale Wahrscheinlichkeit für eine defekte Schraube aus dem Lager: P(X = 1) = ∑

P X=1Y=y ∙ P Y=y .

Einsetzen der Werte ergibt die Wahrscheinlichkeit, dass eine zufällig aus dem Lager gezogene Schraube defekt ist: P(X = 1) = 0,2 ∙ 0,05 + 0,3 ∙ 0,04 + 0,5 ∙ 0,02 = 0,032 = 3,2 %. b) Diese Frage ist mit dem Bayes-Theorem zu beantworten. Gesucht ist die a-posterioriWahrscheinlichkeit, also die bedingte Wahrscheinlichkeit (Bedingung: defekt), von der zweiten Maschine zu stammen. Das Bayes-Theorem lautet dann P(Y = 2|X = 1) =

X=1Y=y (

∙ ( )

)

.

Einsetzen ergibt P(Y = 2|X = 1) =

,

∙ , ,

= 0,375.

Ein zufällig ausgewähltes defektes Stück stammt mit 37,5 %-iger Wahrscheinlichkeit von Maschine 2.

8 Spezielle Wahrscheinlichkeitsverteilungen

8

149

Spezielle Wahrscheinlichkeitsverteilungen

8.1

Spezielle diskrete Verteilungen

Aufgabe 8.1-1 Die Aufgabe lässt sich mit der Binomialverteilung lösen, da das Zuspätkommen an einem Tag als Bernoulli-Erfolg angesehen werden kann (Erfolgswahrscheinlichkeit  = 80 %), in den folgenden Teilaufgaben die Bernoulli-Ereignisse 5 mal wiederholt werden (n = 5) und die Wahrscheinlichkeit, an einem beliebigen Arbeitstag zu spät zu kommen, unabhängig vom Tag stets 80 % beträgt (unabhängige Bernoulli-Ereignisse). a) Gesucht ist P(X = 3) mit X ~ BV(5; 0,8). Einsetzen in f n ergibt π (1 − π) x 5 P(X = 3) = 0,8 ∙ 0,2 =0,2048. 3

(x, π, n) = P(X = x) =

Hinweis: Der Binomialkoeffizient „n über x“ berechnet sich aus n ! . = !∙( )! x Für „5 über 3“ gilt daher 5 = 3

! !∙ !

=

∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

= 10.

b) Da die Woche 5 Arbeitstage hat, ist P(X = 5) gesucht: P(X = 5) =

5 0,8 ∙ 0,2 =0,3277. 5

Die Wahrscheinlichkeit, dass Karla S. in dieser Woche immer zu spät kommt, beträgt 32,77 %. c) Mit „Wahrscheinlichkeitsverteilung“ kann entweder die Wahrscheinlichkeitsmassenfunktion f(x), die Verteilungsfunktion F(x) oder beides gemeint sein. Die Werte von f(x) werden wie in den Aufgabenteilen von a) und b) berechnet, denn es gilt ja f(x) = P(X = x). Man erhält: X 0 1 2 3 4 5

f(x) 0,0003 0,0064 0,0512 0,2048 0,4096 0,3277

F(x) 0,0003 0,0067 0,0579 0,2627 0,6723 1,0000

d) Der Durchschnitt, der sich aus einer unendlichfachen Wiederholung eines Zufallsvorgangs für die Zufallsvariable ergibt, ist der Erwartungswert. Dieser errechnet sich für eine Binomialverteilung aus E(X) = nπ. Hier ergibt sich E(X) = 5 ∙ 0,8 = 4. Langfristig muss also im Schnitt mit vier Verspätungen pro Woche gerechnet werden.

150

8 Spezielle Wahrscheinlichkeitsverteilungen

Aufgabe 8.1-2 Da ohne Zurücklegen gezogen wird, verändert sich die Erfolgswahrscheinlichkeit bei jedem Zug, und die hypergeometrische Verteilung muss angewendet werden. a) Wahrscheinlichkeitsfunktion: .

P(X = x) =

Dabei bezeichnet N die Größe der Grundgesamtheit, S die Zahl der Erfolgsmerkmale in der Grundgesamtheit und n die Stichprobengröße. Hier gilt N = 100, S = 10, n = 6. Gesucht ist die Wahrscheinlichkeit für x = 1. Einsetzen ergibt P(X = 1) =

=

=

∙ !

! !

! !

!

=

∙

∙

∙

∙

∙

∙

∙

∙

∙

∙

∙

= 0,369.

Mit einer Wahrscheinlichkeit von 37 % ist unter den 6 ausgewählten Speicherkarten genau eine defekt. b) E(X) = nπ = n = 6 ∙ Var(X) = nπ(1 − π)

= 0,6 = 6 ∙ 0,1 ∙ 0,9 ∙

= 0,513.

Es ist mit rechnerisch 0,6 defekten Speicherkarten zu rechnen mit einer Schwankung von 0,5. Aufgabe 8.1-3 Die Aufgabe lässt sich mit der Binomialverteilung lösen, da die Einstellung der Schaltung eines zufällig ausgewählten Fahrrads als Bernoulli-Experiment angesehen werden kann, mit den Realisationen „falsch“ (Erfolg) und „richtig“ (Misserfolg) und der Erfolgswahrscheinlichkeit von  = 30 %. Wenn fünf Fahrräder zufällig ausgewählt werden, wird dieses BernoulliExperiment fünfmal wiederholt (n = 5), wobei die einzelnen Wiederholungen unabhängig sind („mit Zurücklegen“). a) Die Werte der Wahrscheinlichkeitsfunktion f(x) ergeben sich aus n P(X = x) = π (1 − π) . x Summiert man diese Werte, so erhält man F(x), die Verteilungsfunktion. Die Werte der Wahrscheinlichkeitsfunktion und Verteilungsfunktion sind in der folgenden Tabelle angegeben: X 0 1 2 3 4 5

f(x) 0,168 0,360 0,309 0,132 0,028 0,002

F(x) 0,168 0,528 0,837 0,969 0,997 ≈1,000

b) Aus der in Teilaufgabe a) angegebenen Tabelle lässt sich ablesen: P(X = 2) = f(2) = 0,309.

8 Spezielle Wahrscheinlichkeitsverteilungen

151

c) P(X ≤ 2) = F(2) = 0,837. Die Wahrscheinlichkeit, dass bei höchstens zwei Fahrrädern die Schaltung falsch eingestellt ist, beträgt 83,7 %. d) P(X > 3) = 1 − F(3) = 1 − 0,969 = 0,031. e) E(X) = nπ = 5 ∙ 0,3 = 1,5 Var(X) = nπ(1 − π) = 5 ∙ 0,3 ∙ 0,7 = 1,05. Aufgabe 8.1-4 Die Wahrscheinlichkeit, eine einzelne Aussage richtig einzustufen, beträgt  = 0,5, da ja nach dem Zufallsprinzip geantwortet wird. Es ergibt sich eine Binomialverteilung mit n = 20 Wiederholungen. Die Wahrscheinlichkeit, die Prüfung zu bestehen, ist demnach P(X ≥ 15) = P(X = 15) + P(X = 16) + P(X = 17) + P(X = 18) + P(X = 19) + P(X = 20). n ergibt Wiederholtes Einsetzen in die Formel P(X = x) = π (1 − π) x P(X = 15) = 0,0148 P(X = 16) = 0,0046 P(X = 17) = 0,0011 P(X = 18) = 0,0002. Für X = 19 und X = 20 sind die Wahrscheinlichkeiten auf die vierte Nachkommastelle gerundet null. Die Summe der oben angegebenen Wahrscheinlichkeiten ist die Bestehenswahrscheinlichkeit: P(X ≥ 15) = 0,0207. Die Klausurstrategie ist für Otto d. Gr. nicht erfolgversprechend. Aufgabe 8.1-5 Hier liegt ein Anwendungsfall für die Poissonverteilung vor, da nach einer diskreten Zufallsvariable gefragt ist (Zahl der Kunden), die Wahrscheinlichkeit konstant, aber sehr klein und außerdem unbekannt ist. Die Zahl der Wiederholungen (Zahl aller möglichen Kunden) ist dagegen sehr groß und auch unbekannt. Hingegen kann das Produkt aus Wahrscheinlichkeit und Zahl der Wiederholungen in einem festgelegten Zeitintervall (eine Stunde) beobachtet werden und daher als bekannt angenommen werden ( = 4). Die Wahrscheinlichkeitsfunktion der Poissonverteilung lautet P(X = x) =

!

e .

a) Einsetzen in die Wahrscheinlichkeitsfunktion mit  = 4 und x = 0 ergibt P(X = 0) =

!

e

=e

= 0,0183.

(Beachte, dass 0! = 1.) Die Wahrscheinlichkeit, dass kein Kunde innerhalb einer Stunde an der Kasse ankommt, beträgt 1,8 %. b) P(X ≥ 2) = 1 − P(X < 2) = 1 − P(X = 0) − P(X = 1). Die Wahrscheinlichkeit P(X = 0) wurde bereits unter a) bestimmt. P(X = 1) =

!

e

=3∙e

= 0,0733

P(X ≥ 2) = 1 − 0,01833 − 0,0733 = 0,90854. c) Gesucht ist P(X ≤12). Die Wahrscheinlichkeit kann dadurch berechnet werden, dass die Summe der Einzelwahrscheinlichkeiten für x = 1, …, 12 berechnet wird. Dabei ist der Rechenaufwand recht hoch. Prinzipiell ist die Ermittlung durch das Komplementär 1 - P(X > 12) problematisch, da sich die Wahrscheinlichkeiten für steigende Werte von X

152

8 Spezielle Wahrscheinlichkeitsverteilungen

asymptotisch der Null nähern, also theoretisch unendlich viele Werte von X betrachtet werden müssten. Allerdings sind die Wahrscheinlichkeiten rasch sehr klein. Gerundet auf 4 Nachkommastellen, stellt man fest, dass P(X = 13) = P(X = 14) = P(X = 15) =

! ! !

e

= 0,0002 und

e

= 0,0001 und

e

= 0,0000.

Für X > 15 werden alle weiteren Wahrscheinlichkeiten auf die vierte Nachkommastelle gerundet ebenfalls 0,0000 betragen. Daher gilt P(X ≤ 12) = 1 − P(X > 12) ≈ 1 − P(X = 13) − P(X = 14) = 1 − 0,0002 − 0,0001 = 0,9997. Die Wahrscheinlichkeit, dass höchstens 12 Kunden ankommen, ist fast 100 %.

8.2

Spezielle stetige Verteilungen

Aufgabe 8.2-1 Die Dichtefunktion der Exponentialverteilung lautet f(x) = λe . Hier ist  = 0,02. Die Verteilungsfunktion der Exponentialverteilung lautet F(x) = P(X ≤ x) = 1−e . Dabei bezeichnet die Zufallsvariable X die Zeit bis zum Absturz. a) Hier ist nach P(X ≥ 95) gefragt. Diese Wahrscheinlichkeit lässt sich entweder aus dem Integral der Dichtefunktion f(x) berechnen oder – einfacher – durch Einsetzen in die Verteilungsfunktion. Aus dem Einsetzen in die Verteilungsfunktion erhält man P(X ≥ 95) = 1 − P(X ≤ x) = 1 − 1−e

=e

,

=e

∙

=e

,

= 0,1495.

Mit fünfzehnprozentiger Wahrscheinlichkeit läuft der Computer länger als 95 Minuten störungsfrei. b) Auch hier wird in die Verteilungsfunktion eingesetzt: ,

P(88 < X < 112) = F(112) − F(88) = e = 0,17204 − 0,10646 = 0,06558.

∙

−e

,

∙

Der Computer läuft mit einer Wahrscheinlichkeit von 6,6 % genau zwischen 88 und 112 Minuten fehlerfrei. c) Die Exponentialverteilung wird auch als Verteilung „ohne Gedächtnis“ bezeichnet. Diese Bezeichnung rührt daher, dass die Wahrscheinlichkeiten von der Historie unabhängig sind. Hier bedeutet das, dass die gesuchte Wahrscheinlichkeit P(X < 170|X > 75) sich aus P(X < 170 – 75) = P(X < 95) berechnen lässt. Dies lässt sich leicht zeigen: P(X < 170|X > 75) =

(

) (

=1−e

) ∙(

=

(

)

( (

)

)

=1−e

)

= ∙

∙

∙ ∙

=1−e

,

∙

= F(95) = 0,8505

8 Spezielle Wahrscheinlichkeitsverteilungen

153

Aufgabe 8.2-2 Wahrscheinlichkeiten normalverteilter Zufallsvariablen lassen sich mit Hilfe von Tabellen ermitteln. Üblicherweise findet man Tabellen nur für NV(0; 1). Eine Zufallsvariable Z, die einer solchen Normalverteilung folgt, nennt man standardnormalverteilt. Normalverteilte Zufallsvariablen X mit anderen Erwartungswerten und/oder Standardabweichungen müssen zunächst in eine Standardnormalverteilung umgerechnet werden, um zur Ermittlung der Wahrscheinlichkeiten die Tabelle benutzen zu können. Dieses Umrechnen nennt man Standardisieren, die Formel lautet: Z= a)

Z=

b)

Z=

c)

Z=

= −3 = −0,5 =0

d) Z =

,

e)

Z=

,

f)

Z=

= −1,88 = 1,88 ,

= 2,96

X−μ . σ

P(X ≤ 3) = F (3) = F (−3) = 0,0013 P(X ≤ −2) = F (−2) = F (−0,5) = 0,3085 P(X ≤ 8) = F (8) = F (0) = 0,5 P(X ≤ 0,6) = F (0,6) = F (−1,88) = 0,03 P(X ≤ 4,4) = F (4,4) = F (1,88) = 0,97 P(X ≤ 30) = F (30) = F (2,96) = 0,9985.

Aufgabe 8.2-3 Wahrscheinlichkeiten normalverteilter Zufallsvariablen können mit Hilfe der tabellierten Standardnormalverteilung Z ermittelt werden. Da die Tabelle die Verteilungsfunktion enthält, also nur Auskunft über P(Z < z) gibt, müssen Fragen nach „größer“ oder nach Intervallen mit Hilfe des Komplementärs transformiert werden. Außerdem ist eine Standardisierung erforderlich. a) Die Zufallsvariable ist bereits standardnormalverteilt (X = Z), daher entfällt die Standardisierung: P(X ≥ 1) = 1 − P(X < 1) = 1 − F (1) = 1 − 0,8413 = 0,1587 P(X ≥ −1,65) = 1 − P(X < −1,65) = 1 − F (−1,65) = 1 − 0,0495 = 0,9505 P(−0,3 ≤ X ≤ 2,5) = F (2,5) − F (−0,3) = 0,9938 − 0,3821 = 0,6117. b) Hier muss zusätzlich standardisiert werden: P(Y < 1,9) = F (1,9) = F

,

P(Y > 0) = 1 − F (0) = 1 − F

,

= F (0,35) = 0,6368 ,

= 1 − F (−0,125) ≈ 1 − F (−0,13)

= 1 − 0,4483 = 0,5517 , P(−1 ≤ Y ≤ 2) = F (2) − F (−1) = F

−F

,

= F (0,375) − F (−0,375) ≈ F (0,38) − F (−0,38) = 0,6480 − 0,3520 = 0,2960. c) Hier gilt wie bei a) X = Z. Um u aufzufinden, sind die Quantile der Standardnormalverteilung zu ermitteln: P(X < u) = 0,05 ⇔ F (u) = 0,05 ⇔ u = F

(0,05) ⇔ u ≈ −1,64.

154

8 Spezielle Wahrscheinlichkeitsverteilungen

Dabei steht F (. ) für das Quantil der Standardnormalverteilung, oft auch als „z-Wert“ bezeichnet. In der Tabelle der Standardnormalverteilung findet man den z-Wert an den Rändern, wenn man in der Tabelle die vorgegebene Wahrscheinlichkeit (hier 5 %) sucht. Es ist nicht gesagt, dass man das Quantil genau ermitteln kann. Wenn die Tabelle die gegebene Wahrscheinlichkeit nicht (genau) enthält, muss der Wert bei der nächstgelegenen Wahrscheinlichkeit gewählt werden. Bei der Lösung oben wurde näherungsweise das 0,0495-Quantil ermittelt, man hätte aber ebenso gut das 0,0505-Quantil bestimmen können, also u = −1,65. Die weiteren Teilfragen müssen so umgeformt werden, dass die Verteilungsfunktion angewendet werden kann: P(X ≥ u) = 0,1 ⇔ 1 − P(X < u) = 0,1 ⇔ 1 − F (u) = 0,1 ⇔ F (u) = 0,9 ⇔ u ≈ 1,28 P(0 ≤ X ≤ u) = 0,45 ⇔ F (u) − F (0) = 0,45 ⇔ F (u) = F (0) + 0,45 ⇔ F (u) = 0,5 + 0,45 ⇔ u ≈ 1,64. P(−u ≤ X ≤ u) = 0,99 ⇔ F (u) − F (−u) = 0,99. Wegen der Symmetrie der Standardnormalverteilung um 0 gilt: F (u) = 1 − F (−u), so dass P(−u ≤ X ≤ u) = 0,99 ⇔ F (u) − (1 − F (u)) = 0,99 ⇔ F (u) = 0,995 ⇔ u ≈ 2,57. d) Neben dem Lösungsweg aus Teilaufgabe c) muss hier zusätzlich noch standardisiert werden: P(X ≤ w) = 0,05 ⇔ F

≈ −1,64 ⇔ w = −3,56

= 0,05 ⇔

P(X ≥ w) = 0,05 ⇔ 1 − F w = 9,56.

= 0,05 ⇔ F

= 0,95 ⇔

≈ 1,64 ⇔

Bei der letzten Teilaufgabe macht man sich wieder die Symmetrieeigenschaft der Normalverteilung um den Erwartungswert zunutze: P(3 − w ≤ X ≤ 3 + w) = 0,90 ⇔ F ⇔F ⇔

−F

= 0,9 ⇔ F

−F − 1−F

= 0,90 = 0,9 ⇔ F

= 0,95

≈ 1,64 ⇔ w = 6,56.

Aufgabe 8.2-4 a) Da die Normalverteilung symmetrisch ist, ist der Erwartungswert gleichzeitig der Median, und es gilt P(X ≥ 0,7) = 0,5. Das Ergebnis erhält man selbstverständlich auch durch Standardisieren: 0,7 − 0,7 = 1 − F (0) = 0,5. 0,01

P(X ≥ 0,7) = 0,5 = 1 − P(X < 0,7) = 1 − F

b) Der Anteil der Flaschen müsste bei einer (unendlich) großen Produktion der Wahrscheinlichkeit P(0,67 < X < 0,73) entsprechen. Es ergibt sich P(0,67 < X < 0,73) = F

,

, ,

−F

,

, ,

= F (3) − F (−3)

= 0,9987 − 0,0013 = 0,9974. Der Anteil der Flaschen müsste bei einer (unendlich) großen Produktion bei 99,74 % liegen. Analog gilt für die zweite Teilfrage ein Anteil von

8 Spezielle Wahrscheinlichkeitsverteilungen ,

P(0,69 < X < 0,71) = F

,

,

−F

,

, ,

155

= F (1) − F (−1)

= 0,8413 − 0,1587 = 0,6826.

8.3

Vermischte Aufgaben zu speziellen Verteilungen

Aufgabe 8.3-1 a) Ansatz: X = Nudellänge, Normalverteilung, Ermittlung der Wahrscheinlichkeit durch Standardisieren: = 1 − F (0,5) = 1 − 0,7088 = 0,2912.

P(X > 60) = 1 − F

b) Ansatz: X = Zahl der überlangen Nudeln, Binomialverteilung mit n = 25 und  = 0,2912: n 25 = 0,2912 (1 − 0,2912) π (1 − π) x 6 = 177.100 ∙ 0,0006097 ∙ 0,0014453 = 0,1561.

P(X = 6) =

c) Ansatz: wie b), aber erheblicher Rechenaufwand, da P(X > 7.200) = 1 − P(X ≤ 7.200) = 1 − P(X = 0) − P(X = 1) … + P(X = 7.200). Es müssen also insgesamt 7.201 Wahrscheinlichkeiten durch Einsetzen in die Formel für die Binomialverteilung berechnet werden. Die Binomialverteilung kann aber für große n durch die Normalverteilung N(n, n(1 − ) approximiert werden. Eine Faustregel besagt, dass die Approximation für n(1 – ) ≥ 9 zu hinreichend genauen Ergebnissen führt. Hier ist diese Bedingung erfüllt, denn nπ(1 − π) = 25.000 ∙ 0,2912 ∙ (1 − 0,2912) = 5.160. Daher .

P(X > 7.200) = 1 − P(X ≤ 7.200) = 1 − F =1−F

. .

. ∙ ,

(

∙ , ∙(

,

)

)

=1−F

√ .

= 1 − F (−1,11)

= 1 − 0,1335 = 0,8665. Übrigens: Das genaue Ergebnis, wenn man die Formel für die Binomialverteilung anwendet, lautet P(X > 7.200) = 0,8658. Die Abweichung ist mit 0,0007 recht gering. Aufgabe 8.3-2 Die Zufallsvariable X ist hier die Zahl der unvorbereiteten Studenten. Da eine Zufallsstichprobe ohne Zurücklegen gezogen wird, muss die hypergeometrische Verteilung angewendet werden: P(X = 4) =

=

= 0,0066.

Die Wahrscheinlichkeit beträgt nur 0,66 %. Aufgabe 8.3-3 a) Der Zustand des Bestecks mit den möglichen Realisationen „schmutzig“ (Erfolg) oder „sauber“ (Misserfolg) ist Bernoulli-verteilt mit der Erfolgswahrscheinlichkeit von  = 0,001. Die Zufallsvariable X = „Zahl der schmutzigen Bestecke unter 2.000 zufällig ausgewählten“ ist binomialverteilt mit n = 2.000 Wiederholungen. Gesucht ist P(X ≥ 3) = P(X = 3) + P(X = 4) + ⋯ + P(X = 2.000)

156

8 Spezielle Wahrscheinlichkeitsverteilungen = 1 − P(X = 0) − P(X = 1) − P(X = 2).

Es ergibt sich: P(X ≥ 3) = 1 − 0,1352 − 0,2707 − 0,2708 = 0,3233. b) Hier müsste die hypergeometrische Verteilung gewählt werden, weil ohne Zurücklegen gezogen wird. Allerdings wird nur eine kleine Anzahl (3 Bestecke) aus einer großen Gesamtzahl (2.000 Bestecke) gezogen, so dass näherungsweise die Binomialverteilung gewählt werden könnte: Hier gilt 3/2.000 = 0,0015. Eine gebräuchliche Faustregel besagt, dass die Approximation hinreichend genau ist, wenn dieser Quotient, also n/N, kleiner als 0,05 ist, was hier erfüllt ist. Mit der Binomialverteilung (n = 3,  = 6/2.000 = 0,003) ergibt sich P(X ≥ 1) = 1 − P(X < 1) = 1 − P(X = 0) − P(X = 1) = 1 − 0,9910 = 0,0090. Den gleichen auf die vierte Nachkommastelle gerundeten Wert erhielte man auch aus der hypergeometrischen Verteilung. Aufgabe 8.3-4 Die Zufallsvariable ist hier die Zahl der Retouren also diskret. Da die Wahrscheinlichkeit für eine Retoure für jede Sendung konstant ist, ist die Zufallsvariable binomialverteilt. Da außerdem die Zahl der Wiederholungen groß ist, kommt die Approximation durch die Normalverteilung in Frage. Nach der Faustregel sollte bei dieser Approximation nπ(1 − π) größer als 9 sein. Diese Bedingung ist hier erfüllt, denn 10.000 ∙ 0,05 ∙ 0,95 = 475. Daher ergibt sich (ohne Stetigkeitskorrektur): P(X < 450) = F

(

)

=F

√

.

.

∙ ,

∙ ,

∙ ,

Die Wahrscheinlichkeit beträgt etwas mehr als 1 %.

= F (−2,29) = 0,011.

9 Stichprobentheorie

9

157

Stichprobentheorie

Aufgabe 9-1 Satz e) ist richtig. Keines der genannten Verfahren liefert die gewünschte Zufallsauswahl. a) und c) mit Zufallsstart liefern halbwegs vernünftige Ersatzlösungen. Genau genommen muss jedoch die Zufallsauswahl aus dem Wahlregister erfolgen. Aufgabe 9-2 a) Zunächst muss vorausgesetzt werden, dass es sich um eine Zufallsauswahl handelt, denn nur dann kann angenommen werden, dass die Zahl der Geschwister eines ausgewählten Studenten überhaupt eine Zufallsvariable ist. Bezeichnet Xi die Zahl der Geschwister des i-ten ausgewählten Studenten (i = 1, …, 10), so lassen sich die Wahrscheinlichkeiten aller möglichen Realisationen für den ersten Zug (X1) angeben: Beispielsweise wird die Wahrscheinlichkeit, dass der zufällig ausgewählte erste Student keine Geschwister hat P(X1=0) = 0,3 betragen. Die Wahrscheinlichkeitsverteilung von X1 entspricht genau den relativen Häufigkeiten des Merkmals "Zahl der Geschwister“ in der Grundgesamtheit. Setzt man des Weiteren voraus, dass mit Zurücklegen oder aus einer (annähernd) unendlich großen Grundgesamtheit gezogen wird, so werden sich die Wahrscheinlichkeiten von Zug zu Zug nicht verändern, beispielsweise wird auch gelten P(X2=0) = 0,3, P(X3=0) = 0,3 usw. Man hat dann unabhängige Zufallsvariablen, die alle die Verteilung der Grundgesamtheit „erben“. Daher liegen unabhängige, identisch verteilte Zufallsvariablen vor. b) Wenn die Verteilung der Grundgesamtheit unbekannt ist, kennt man die einzelnen Wahrscheinlichkeiten (zum Beispiel P(X1=0)) nicht mehr. Unter den bei a) genannten Voraussetzungen (Zufallsstichprobe und Ziehen mit Zurücklegen) weiß man allerdings, dass die Zufallsvariablen X1, X2, …, X10 die unbekannte Verteilung der Grundgesamtheit weiterhin „erben“. Man weiß also, dass alle diese Zufallsvariablen identisch verteilt sind und unabhängig sind, da sie der unbekannten Verteilung der Grundgesamtheit folgen. Auch die einzelnen Erwartungswerte und Varianzen E(X1), E(X2), …, E(X10), Var(X1), Var(X2), …, Var(X10) sind alle identisch und entsprechen dem unbekannten arithmetischen Mittel bzw. der Varianz der Grundgesamtheit. Aufgabe 9-3 In der induktiven Statistik wird anhand einer Stichprobe eine Aussage über eine Grundgesamtheit getroffen (Schluss von der Stichprobe auf die Grundgesamtheit). Dieser Schluss ist im Allgemeinen fehlerbehaftet, weil mit der Stichprobe eben nicht die gesamte Information vorliegt. Der Fehler lässt sich mit der Wahrscheinlichkeitsrechnung quantifizieren. Der Einsatz der Wahrscheinlichkeitsrechnung ist aber nur möglich, wenn auch die Wahrscheinlichkeit, dass ein bestimmtes Element in der Stichprobe ausgewählt wird, angegeben werden kann. Dies ist nur mit der Zufallsauswahl möglich: Bei einer bewussten Auswahl lässt sich die Wahrscheinlichkeit für die Auswahl eines bestimmten Elementes nicht bestimmen.

10 Schätzmethodik

159

10 Schätzmethodik 10.1 Gegenstand der Schätzung Aufgabe 10.1-1 a) Es ist der Anteil der Grundgesamtheit  zu schätzen. b) Gesucht ist der Durchschnitt der Grundgesamtheit . c) Die Varianz ² oder die Standardabweichung  sind hier zu schätzen.

10.2 Punktschätzung Aufgabe 10.2-1 Um in der Teilaufgabe a) den Anteil  zu schätzen, verwendet man π=P= ∑

B.

Dabei bezeichnet Bi die Bernoulli-verteilte Zufallsvariable, die den Wert 1 annimmt, wenn ein Stück fehlerhaft ist, sonst 0. Der Erwartungswert dieses Schätzers ist der gesuchte Wert der Grundgesamtheit, E(P) = π, d. h. der Schätzer ist erwartungstreu. Die durchschnittliche Fernsehzeit  aus Teilaufgabe b) wird mit μ=X= ∑

X

geschätzt. Auch dieser Schätzer ist erwartungstreu, denn E(X) = μ. Für die Teilaufgabe c) verwendet man σ² = S² =

∑

(X − X) .

Auch hier entspricht der Erwartungswert des Schätzers dem Parameter der Grundgesamtheit, also E(S ) = σ . Würde man stattdessen die Formel ∑ (X − X) /n als Schätzer verwenden, so wäre der Erwartungswert des Schätzers nicht ²; der Schätzer ist also verzerrt. Aufgabe 10.2-2 Die Varianz eines Punktschätzers gibt an, wie der Schätzer um den Erwartungswert streut. Bei erwartungstreuen Schätzern ist die Varianz wichtig, um die Effizienz, also die Genauigkeit des Schätzers um den Erwartungswert einzuschätzen. Für die Punktschätzer von Mittelwert und Anteil lassen sich mit Hilfe der Rechenregeln für Varianzen folgende Varianzen ermitteln: Var(X) = σ =

²

Var(P) = σ =

(

)

.

Je kleiner diese Varianzen sind, desto genauer kann man in einer Stichprobe vom Umfang n den Durchschnitt bzw. den Anteil schätzen. Man erkennt, dass die Varianzen mit steigendem Stichprobenumfang kleiner werden – die Schätzungen von Durchschnitt bzw. Anteil werden also mit steigendem n immer genauer.

160

10 Schätzmethodik

Um Schätzer für diese Varianzen anzugeben, ersetzt man, einer Konvention folgend, die griechischen Buchstaben (unbekannte Parameter der Grundgesamtheit) in den Formeln durch lateinische Buchstaben (Schätzer für den unbekannten Parameter der Grundgesamtheit) oder ergänzt die griechischen Buchstaben um ein Dach: σ =S =

²

σ =S =

(

=

² )

=

(

)

.

Für die in diesen Formeln vorkommenden Punktschätzer S² und P werden die Formeln aus Aufgabe 10.2-1verwendet. Aufgabe 10.2-3 a) Der erwartungstreue und effiziente Punktschätzer für den Durchschnitt der Grundgesamtheit lautet μ = X = ∑ X . Einsetzen der Stichprobenwerte in die Formel ergibt x = (6 + 8 + 10 + 5 + 9 + 11 + 7 + 8) = 8. Zu beachten ist, dass die Punktschätzung durch ein kleingeschriebenes Symbol (x) angegeben wird, weil es sich um die Realisation einer Zufallsvariable, nämlich des Schätzers für eine konkrete Stichprobe, handelt. b) Die Varianz der Grundgesamtheit wird mit dem erwartungstreuen Schätzer σ² = S² = ∑ (X − X) geschätzt. Einsetzen ergibt s² = ((6 − 8) + (8 − 8) + (10 − 8) + ⋯ + (8 − 8) ) = 4. Damit schwankt die durchschnittliche Mitarbeiterzahl von 8 im Mittel um 2 Mitarbeiter. c) Zur Anteilsschätzung verwendet man den erwartungstreuen und effizienten Schätzer P = ∑ B . Zur Verwendung dieser Formel muss zunächst die Bernoulli-Variable Bi gebildet werden: Für Filialen mit zweistelliger Mitarbeiterzahl nimmt diese Variable den Wert 1 an – das sind hier die Filialen 3 und 6. Für alle anderen Filialen hat die Bernoulli-Variable den Wert 0. Damit ist die Summe der Bernoulli-Variablen 2 und man erhält p = 2/8 = 0,25. Der geschätzte Anteil beträgt also 25 %. Ein Schätzer für die Varianz des Anteils ist σ =S =

(

)

,

∙ ,

=

(

)

.

Einsetzen ergibt s =

(

)

=

= 0,0234.

Dieser Wert schätzt die Genauigkeit des Varianzschätzers bei gegebener Stichprobengröße ein. Eine Interpretation wäre im Vergleich zu anderen Anteilsschätzungen interessant: In einem solchen Vergleich wäre die Anteilsschätzung mit der kleinsten Varianz die genaueste. Aufgabe 10.2-4 Punktschätzer weisen alle wünschenswerten Eigenschaften auf, wenn sie erwartungstreu und effizient sind. Erwartungstreue ist gegeben, sofern der Erwartungswert des Schätzers dem wahren Parameter der Grundgesamtheit entspricht. Unter den in der Tabelle gegebenen

10 Schätzmethodik

161

Schätzern ist dies für die Schätzer 2 und 3 gegeben. Die Schätzer 1 und 4 sind hingegen verzerrt. Effiziente Schätzer sind solche, die unter den erwartungstreuen Schätzern die kleinste Varianz aufweisen. Zur Beurteilung der Effizienz werden also nur die erwartungstreuen Schätzer 2 und 3 herangezogen. Unter diesen Schätzern hat der Schätzer 3 die kleinste Varianz. Somit ist Schätzer 3 erwartungstreu und unter den 4 angegebenen Alternativen relativ effizient. Hinweis: In praktischen Anwendungen ist Schätzer 4 eventuell doch vorzuziehen, weil die Verzerrung nur gering ist, die Varianz aber deutlich geringer als diejenige der anderen Schätzer. Aufgabe 10.2-5 a) Bezeichnet X die Zufallsvariable des Taschengelds des zufällig ausgewählten Kindes, so lässt sich die Wahrscheinlichkeitsfunktion angeben mit f(x) = P(X = x) =

0,25 für X = 2, 4,6,8 0 sonst.

Erwartungswert und Varianz lassen sich aus der Wahrscheinlichkeitsfunktion mit den Formeln E(X) = μ = ∑ x p bzw. Var(X) = σ = ∑ (x −μ)²p berechnen: E(X) = μ = 2 ∙ 0,25 + 4 ∙ 0,25 + 6 ∙ 0,25 + 8 ∙ 0,25 = 5 Var(X) = σ = (2 − 5) 0,25 + (4 − 5) 0,25 + (6 − 5) 0,25 + (8 − 5) 0,25 = 5 σ = 2,24. Die Kinder können mit 5 € Taschengeld rechnen mit einer Standardabweichung von 2,24 €. b) Um die Verteilung des Stichprobenmittels zu bilden, muss überlegt werden, mit welcher Wahrscheinlichkeit alle einzelnen Stichprobenergebnisse erzielt werden. Zunächst einmal wird ermittelt, wie viele Möglichkeiten der Ziehungen es überhaupt gibt: Falls beim ersten Zug Rudi gewählt wird, gibt es für den zweiten Zug vier Möglichkeiten (Rudi, Uta, Abdel oder Ulla). Falls im ersten Zug ein anderes Kind ausgewählt wird, gibt es auch jeweils vier Möglichkeiten für den zweiten Zug. Damit ergeben sich also insgesamt 16 Möglichkeiten der Stichprobenzusammenstellung. Nun wird ermittelt, welche Stichprobenmittelwerte sich errechnen können und wie oft diese Stichprobenmittelwerte unter den 16 Möglichkeiten vorkommen. Der Durchschnitt von 2 Euro kann sich nur ergeben, wenn im ersten und im zweiten Zug Rudi ausgewählt wird. Der Durchschnitt 8 Euro kann sich nur ergeben, wenn in beiden Fällen Ulla ausgewählt wird. Die Wahrscheinlichkeit für diese Mittelwerte beträgt – nach dem Ansatz „günstige Fälle durch mögliche Fälle“ (klassische Wahrscheinlichkeit) – daher 1/16. Für den Durchschnitt von 3 Euro gibt es hingegen zwei Möglichkeiten der Ziehung: Rudi im ersten Zug und Uta im zweiten Zug oder umgekehrt Uta im ersten Zug und Rudi im zweiten Zug. Ebenfalls zwei Möglichkeiten sind mit dem Durchschnitt 7 Euro verbunden (Abdel und dann Ulla oder Ulla und dann Abdel). Die Wahrscheinlichkeit beträgt in diesen Fällen 2/16 = 1/8. Eine Weiterführung dieser Überlegung führt zu folgender Wahrscheinlichkeitsfunktion des Stichprobenmittels:

162

10 Schätzmethodik für X = 2; 8 für X = 3; 7 f(x) = P(X = x) =

für X = 4; 6 0

für X = 5 sonst.

Aus einem Vergleich der Verteilungen von X (folgende Abbildung links) und X (folgende Abbildung rechts) lässt sich erkennen, dass die Verteilung des Stichprobenmittels eingipflig ist, obwohl die Verteilung des Taschengelds selbst (X) gleichförmig ist: __

P(X = x) 0,25

_

P(X = x) 0,25

0,20 0,15 0,13 0,10 0,05 0,00

0,00 0

1

2

3

4

2

x

3

4

5

6

7

8_

x

Mit weiterer Erhöhung des Stichprobenumfangs wird die Verteilung des Stichprobenmittels gemäß zentralem Grenzwertsatzes in die Normalverteilung übergehen. Erwartungswert und Varianz lassen sich wie unter a) aus der Funktion berechnen: E(X) = 2 ∙

+8∙

Var(X) = (2 − 5) ∙

+3∙ + ⋯+5 ∙ = 5 + ⋯ + (5 − 5) ∙ = 2,5.

Damit gilt E(X) = E(X) = 5 und Var(X) =

( )

= = 2,5.

10.3 Intervallschätzung Aufgabe 10.3-1 Die Fragen lassen sich beantworten, indem man beispielhaft die Formel für das Konfidenzintervall für das Stichprobenmittel betrachtet: P x − t[

⁄ ,

]√

≤ μ ≤ x + t[

⁄ ,

]√

= 1 − α.

a) Eine Erhöhung von  führt dazu, dass das Quantil der t-Verteilung t [ ⁄ , ] größer wird. Aus der Formel für das Konfidenzintervall lässt sich erkennen, dass dadurch die Grenzen auseinander rücken. Das Intervall wird breiter. Die Schätzung wird ungenauer, weil ein höheres Konfidenzniveau gefordert wird.

10 Schätzmethodik

163

b) Wenn der Stichprobenumfang erhöht wird, wird die Standardabweichung des Mittelwertes s = kleiner, denn der Mittelwert kann genauer geschätzt werden. Gleichzeitig wird √

das Quantil der t-Verteilung t [ ⁄ , ] aufgrund der Erhöhung der Freiheitsgrade kleiner – dieser Effekt wird allerdings bei größerem Stichprobenumfang immer geringer. Zusammengenommen ergibt sich ein engeres Intervall, also eine genauere Schätzung trotz gleichbleibendem Konfidenzniveau. c) Eine Erhöhung der Standardabweichung der Grundgesamtheit wird in der Regel dazu führen, dass auch die Schätzung s der Standardabweichung größer wird. Dadurch rücken die Grenzen des Konfidenzintervalls auseinander: Die Schätzung wird ungenauer, weil die Streuung der Daten größer ist. Aufgabe 10.3-2 Gesucht ist das Konfidenzintervall für den Mittelwert bei kleiner Stichprobe und unbekanntem . Da der Benzinverbrauch normalverteilt ist, kann aufgrund der Reproduktionseigenschaft der Normalverteilung folgende Formel verwendet werden: P x − t[

⁄ ,

]√

≤ μ ≤ x + t[

⁄ ,

]√

= 1 − α.

Die Punktschätzung für den Mittelwert ergibt sich aus x= ∑

x = (3,2 + 3,1 + 2,8 + 3,0 + 2,9) = 3.

Für die unbekannte Standardabweichung erhält man folgende erwartungstreue Schätzung: s=

∑

(x − x) =

((3,2 − 3) + (3,1 − 3) + ⋯ + (2,9 − 3) ) = 0,1581.

a) Aus der t-Tabelle erhält man bei 1 − α⁄2 = 0,975 und n – 1=4 Freiheitsgraden den Wert 2,776. Einsetzen der Werte in die Formel für das Konfidenzintervall ergibt P 3 − 2,766

, √

≤ μ ≤ 3 + 2,766

, √

= 0,95 ⇔

P(2,8044 ≤ μ ≤ 3,1956) = 0,95. Bei einem Konfidenzniveau von 95 % liegt der geschätzte durchschnittliche Verbrauch zwischen 2,8 und 3,2 Litern. b) Für das Konfidenzniveau von 98 % erhält man aus der t-Tabelle bei 1 − α⁄2 = 0,99 und n – 1 = 4 Freiheitsgraden den Wert 3,747. P 3 − 3,747

, √

≤ μ ≤ 3 + 3,747

, √

= 0,98 ⇔

P(2,7350 ≤ μ ≤ 3,2650) = 0,98. Bei einem Konfidenzniveau von 98 % liegt der geschätzte durchschnittliche Verbrauch zwischen 2,7 und 3,3 Litern. Durch das im Vergleich zum Aufgabenteil a) erhöhte Konfidenzniveau ist die Schätzung ungenauer. Aufgabe 10.3-3 Gesucht ist das Konfidenzintervall für den Mittelwert . Da die Stichprobe groß ist, kann aufgrund des zentralen Grenzwertsatzes von der Normalverteilung des Stichprobenmittels ausgegangen werden. Außerdem lässt sich die t-Verteilung durch die Standardnormalverteilung approximieren, so dass folgende Formel verwendet werden kann:

164

10 Schätzmethodik s

P x − z[

⁄ ]

√n

s

≤ μ ≤ x + z[

⁄ ]

√n

= 1 − α.

Aus der Normalverteilungstabelle ergibt sich z[ ⁄ ] = [ , ] ≈ 1,65 (alternativ: 1,64 oder interpoliert 1,645). Man erhält mit n = 160, x = 3,36 und s = 3,42: P 3,36 − 1,65

,

≤ μ ≤ 3,36 + 1,65

√

, √

= 0,90 ⟺

P(2,9139 ≤ μ ≤ 3,8061) = 0,90. Mit einem Konfidenzniveau von 90 % liegt die durchschnittliche Arbeitszeit zwischen 2,9 und 3,8 Stunden pro Woche. Aufgabe 10.3-4 Hier ist nach dem Konfidenzintervall des Anteils gefragt. Die Punktschätzung für den Anteil lautet p = 0,80. Da p(1 − p)n = 0,8 ∙ 0,2 ∙ 144 = 23,04 größer als 9 ist, kann statt der Binomialverteilung die Normalverteilung verwendet werden und die Formel für das Konfidenzintervall lautet P p − z[

(

⁄ ]

)

≤ π ≤ p + z[

⁄ ]

(

)

= 1 − α.

Für das Konfidenzniveau von 95 % erhält man aus der Standardnormalverteilungstabelle das Quantil z = 1,96. Einsetzen ergibt P 0,8 − 1,96

, (

, )

≤ π ≤ 0,8 + 1,96

, (

, )

= 95 % ⟺

P(0,7347 ≤ π ≤ 0,8653) = 95 %. Bei einem Konfidenzniveau von 95 % liegt der geschätzte Anteil der Personen, die in dieser Stadt sonntags einkaufen möchten zwischen 73 % und 87 %. Aufgabe 10.3-5 a) Bezeichnet die Zufallsvariable X das (normalverteilte) Gewicht einer zufällig ausgewählten Orange, so ergibt sich die Wahrscheinlichkeit aus der Standardnormalverteilungstabelle, nachdem standardisiert wurde: P(X > 210) = 1 − F

= 1 − F (0,5) = 1 − 0,6915 = 0,3085.

b) Da die Zufallsvariable X stetig ist, gilt P(X=210) = 0. c) Hier ist nach der Wahrscheinlichkeit des Stichprobenmittels gefragt. Aufgrund der Reproduktionseigenschaft der Normalverteilung ist das Stichprobenmittel normalverteilt, wenn das Merkmal der Grundgesamtheit (hier Gewicht der Orangen) normalverteilt ist. Allerdings muss mit dem Erwartungswert des Stichprobenmittels E(X) = μ und der Standardabweichung des Stichprobenmittels σ = σ/√n standardisiert werden: P(X > 205) = 1 − F

205 − μ √n = 1 − F σ

205 − 200 √64 = 1 − F (2) = 0,0228. 20

d) Das Konfidenzintervall kann mit der Formel s ≤ μ ≤ x + z[ P x − z[ ⁄ ] √n

s ⁄ ]

√n

= 1 − α.

10 Schätzmethodik

165

bestimmt werden. Dabei lässt sich die Normalverteilung benutzen, weil die Stichprobe so groß ist, dass das Stichprobenmittel aufgrund des zentralen Grenzwertsatzes als annähernd normalverteilt angenommen werden kann. Außerdem nähert sich die t-Verteilung in großen Stichproben der Normalverteilung an. Für  = 5 % ist z = 1,96. Einsetzen in die Formel ergibt die Intervallschätzung P(201,04 ≤ μ ≤ 204,96) = 0,95. Mit einer Wahrscheinlichkeit von 95 % liegt das Durchschnittsgewicht der Orangen aus Süditalien zwischen 201 und 205 g. Aufgabe 10.3-6 a) Die Punktschätzung für den Durchschnitt ergibt sich aus x= ∑

x = (184,2 + 182,6 + ⋯ + 184,4) = 184,8.

b) Das Konfidenzintervall für den Mittelwert in kleinen Stichproben lautet (unter der Annahme, dass die Länge der Papierstücke normalverteilt ist): P x − t[

⁄ ,

]√

≤ μ ≤ x + t[

Aus der t-Tabelle erhält man das Quantil t [ der Standardabweichung s ergibt sich aus (x − x) =

∑

s=

⁄ ,

, ⁄ ,

= 1 − α.

]√ ]

= t[

,

,

]

= 1,86. Die Schätzung

((184,2 − 184,8) + ⋯ + (184,4 − 184,8) ) = 1,3134.

Damit erhält man das Konfidenzintervall P 184,8 − 1,86

,

≤ μ ≤ 184,8 + 1,86

√

, √

= 0,90 ⟺

P(183,99 ≤ μ ≤ 185,61) = 0,90. c) Hier sind die Grenzen des Intervalls vorgegeben und gesucht ist die dazugehörige Wahrscheinlichkeit. Da die t-Verteilung symmetrisch um den Erwartungswert ist, genügt die Betrachtung der Obergrenze allein (mit der Untergrenze käme man zum selben Ergebnis): Die Obergrenze lautet 185,8. Mit der Formel des Konfidenzintervalls aus dem Aufgabenteil b) lässt sich folgender Zusammenhang herstellen: x + t[

⁄ ,

= 185,8.

]√

Diese Gleichung lässt sich nach dem t-Wert auflösen: t[

⁄ ,

]

,

=−

√n.

Einsetzen ergibt t[

⁄ ,

]

=−

, ,

,

√9 = 2,28.

Bei 8 Freiheitsgraden ist dieser Wert in den üblichen t-Tabellen nicht genau zu finden. Ein naher Wert ist t [ , , ] = 2,306. Demnach ist das Konfidenzniveau ungefähr 1 -  = 95 %. (Das genaue Konfidenzniveau wäre 94,79 %.)

166

10 Schätzmethodik

Aufgabe 10.3-7 a) Insgesamt haben 59 von 150 Schülern keine kranken Zähne. Die Punktschätzung für den Anteil lautet daher p = 59/150 = 0,3933. b) Gesucht ist das Konfidenzintervall für den Anteil. Da nach der Faustregel p(1 − p)n = 0,3933 ∙ (1 − 0,3933) ∙ 150 = 35,79 größer als 9 ist, kann das Konfidenzintervall mit P p − z[

⁄ ]

(

)

≤ π ≤ p + z[

⁄ ]

(

bestimmt werden. Aus der Normalverteilung erhält man z[ das Intervall

)

,

= 1 − α. ] =1,96.

Einsetzen ergibt

P(0,3151 ≤ π ≤ 0,4715) = 0,95. c) Ziehen mit Zurücklegen ist notwendig, weil die Herleitung des Konfidenzintervalls auf der Annahme beruht, dass die Zahl der Schüler ohne kranke Zähne („Erfolge“) in der Stichprobe binomialverteilt ist. Dies ist aber nur der Fall, wenn zurückgelegt wird, da sich ansonsten die Erfolgswahrscheinlichkeit von Zug zu Zug verändert. Allerdings ist die Grundgesamtheit (Gesamtzahl der Fünftklässler in Deutschland) viel größer als die Stichprobe von 150 Schülern. In diesem Fall ändert sich die Erfolgswahrscheinlichkeit von Zug zu Zug praktisch nicht. Daher ist es kein Problem, dass ohne Zurücklegen gezogen wurde. d) Für die Anwendung der Methoden der induktiven Statistik muss eine Zufallsstichprobe vorliegen. Dies ist hier offensichtlich nicht der Fall. Es wurde nur eine Klasse eines Mainzer Gymnasiums erhoben. Dieses Auswahlverfahren führt zu keinem verkleinertem, aber ansonsten vergleichbaren Abbild der Grundgesamtheit, da es vermutlich regionale und schulformspezifische Unterschiede gibt. Die unter a) und b) vorgenommene Punktschätzung und das Konfidenzintervall sind daher unbrauchbar.

11 Hypothesentests

167

11 Hypothesentests Aufgabe 11-1 A. a) Linksseitiger Test: H b) Zweiseitiger Test: H c) Rechtsseitiger Test: H d) Linksseitiger Test: H e) Zweiseitiger Test: H B. a) Fehler 1. Art (-Fehler) b) Fehler 2. Art (-Fehler).

: μ ≥ 30 H : μ < 30. : μ = 50 H : μ ≠ 50. :μ≤3 H : μ > 3. : π ≥ 0,3 % H : π < 0,3 %. : π = 40 % H : π ≠ 40 %.

Aufgabe 11-2 Hier und in den folgenden Aufgaben, in denen ein Hypothesentest durchgeführt wird, wird folgendes Lösungsschema in 6 Schritten angewendet: 1. 2. 3. 4. 5. 6.

Hypothesenformulierung Vorgabe einer Teststatistik/Prüfgröße Vorgabe einer Irrtumswahrscheinlichkeit (Signifikanzniveau) Formulierung einer Entscheidungsregel Stichprobenerhebung und Rechnung Entscheidung

a) 1. 2.

H : μ = 500 H : μ ≠ 500. Das Merkmal ist in der Grundgesamtheit normalverteilt. Aufgrund der Reproduktionseigenschaft der Normalverteilung ist auch das Stichprobenmittel normalverteilt, und es kann folgende Prüfgröße (Teststatistik) verwendet werden: T

3. 4.

5.

=

=

√n .

 = 1 %. Aus der t-Tabelle mit 24 Freiheitsgraden ergibt sich bei der Wahrscheinlichkeit von 99,5 % das Quantil 2,797. Die Entscheidungsregel lautet daher: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße kleiner als −2,797 oder größer als 2,797 ist. Berechnung: , t= √25 = −2,4. ,

6.

Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Die durchschnittliche Füllmenge in der Stichprobe weicht nicht signifikant von 500 ml ab.

b) 1. 2. 3. 4. 5. 6.

H : μ ≥ 500 H : μ < 500. Prüfgröße wie in a) Signifikanzniveau wie in a) Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße kleiner als −2,492 ist. Berechnung wie in a). Entscheidung: Die Nullhypothese wird abgelehnt. Die durchschnittliche Füllmenge in der Stichprobe ist bei  = 1 % signifikant kleiner als 500 ml.

168

11 Hypothesentests

Aufgabe 11-3 1. 2.

H : μ ≤ 400 H : μ > 400. Die Stichprobe ist so groß, dass aufgrund des zentralen Grenzwertsatzes Normalverteilung des Mittelwerts angenommen werden kann. Außerdem kann die t-Verteilung mit der Normalverteilung approximiert werden. Daher wird die folgende Teststatistik verwendet: Z=

3. 4. 5.

√n. Alternativ könnte auch die t-Verteilung benutzt werden.  = 1 %. Lehne H ab, wenn der berechnete Wert der Prüfgröße größer als 2,33 ist. Berechnung: z=

6.

√40 = 2,108.

Entscheidung: H kann bei diesem  nicht abgelehnt werden. Das Durchschnittsgewicht der Dachziegel in der Stichprobe ist nicht signifikant größer als 400 g.

Aufgabe 11-4 1. 2.

H : μ = 20 H : μ ≠ 20. Aufgrund der Reproduktionseigenschaft der Normalverteilung kann angenommen werden, dass der Durchschnitt in der Stichprobe normalverteilt ist. Die Teststatistik lautet daher T

3. 4. 5.

=

=

√n.

 = 2 %. Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße kleiner als −2,998 oder größer als 2,998 ist. Berechnung: Zunächst müssen x und s erwartungstreu aus der Stichprobe geschätzt werden: x= ∑

x = (18,3 + 18,6 + ⋯ + 17,1) = 19 ∑

s=

(x − x) =

((18,3 − 19) + ⋯ + (17,1 − 19) ) = 1,3617.

Einsetzen in die Teststatistik ergibt:

t= 6.

,

√8 = 2,0771.

Entscheidung: H kann  = 2 % nicht abgelehnt werden. Die Durchschnittslänge der Nudeln in der Stichprobe unterscheidet sich nicht signifikant von 20 cm.

Aufgabe 11-5 1. 2.

H : π ≤ 15 % H : π > 15 %. Eine standardnormalverteilte Prüfgröße lässt sich angeben, sofern das eigentlich binomialverteilte Zählergebnis in der Stichprobe durch die Normalverteilung approximiert werden kann. Gemäß einer oft verwendeten Faustregel kann die Binomialverteilung durch die Normalverteilung approximiert werden sofern π (1 − π )n ≥ 9. Dabei bezeichnet π den Wert aus der Nullhypothese. Hier gilt π (1 − π )n = 0,15 ∙ 0,85 ∙ 225 = 28,7. Eine Approximation ist also möglich. Die Teststatistik lautet:

11 Hypothesentests Z= 3. 4. 5.

(

)

.

 = 5 %. Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße 1,645 übersteigt. Berechnung: Der Stichprobenanteil ist p = 37/225=16,4444 %. z=

6.

=

169

,

% 15 %∙85 %

%

= 0,607.

Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Der Anteil der Kunden mit Beschwerden in der Stichprobe ist nicht signifikant größer als 15 % (bei  = 5 %).

Aufgabe 11-6 a) Der P-Wert wird der Normalverteilungstabelle entnommen: P-Wert = F (−1,20) = 0,1151. Wenn ein Signifikanzniveau von mehr als 11,51 % vorgegeben wird, ist die Nullhypothese abzulehnen. Da  standardmäßig höchstens bis 10 % gewählt wird, würde man hier die Nullhypothese bei allen Standardwerten von  nicht ablehnen. b) Der Test in Aufgabe 11-3 ist rechtsseitig. Die berechnete Prüfgröße lautet 2,108. Damit ist der P-Wert 1 − F (2,108) = 0,0174. Man würde H0 also ablehnen, sobald  größer als 1,74 % wäre (z. B.  = 5 % oder 10 %). Solange  kleiner gleich 1,74 % ist (z. B.  = 1 %), kann H0 nicht abgelehnt werden. c) Für den zweiseitigen Test ist der P-Wert 2 ∙ 1 − F (2,108) = 2 ∙ 0,0174 = 0,0348. H0 müsste also abgelehnt werden, wenn man für  Werte von größer als 3,48 % vorgäbe. d) Es handelt sich um einen zweiseitigen Test. Aus der Normalverteilungstabelle ergibt sich F (0,45) = 0,6736. Da eine Verdoppelung dieses Wertes zu einer Wahrscheinlichkeit von mehr als 100 % führen würde, ist der P-Wert nach 2(1 − F (0,45)) = 2(1 − 6736) = 0,6528. Dieser Wert ist so hoch, dass die Nullhypothese bei keinem der üblichen Werte von  abgelehnt werden kann. Aufgabe 11-7 Aufgabe 11-2 a): Fehler 1. Art: Die Kommission geht davon aus, dass die Maschine falsch justiert ist, obwohl sie in Wirklichkeit im Durchschnitt 500 ml abfüllt. Fehler 2. Art: Die Maschine füllt im Durchschnitt nicht 500 ml ab, eine Neujustierung wäre gerechtfertigt, die Eichkommission erkennt das aber nicht. Aufgabe 11-2 b): Fehler 1. Art: Die Verbraucherorganisation moniert zu Unrecht, dass die Brauerei im Schnitt zu wenig abfüllt. Fehler 2. Art: Die Verbraucherorganisation erkennt nicht, dass die Brauerei im Schnitt zu wenig abfüllt. Aufgabe 11-3: Fehler 1. Art: Die Dachziegel erfüllen die Norm, werden aber (zu Unrecht) als zu schwer zurückgewiesen. Fehler 2. Art: Die Dachziegel sind zu schwer, werden aber fälschlicherweise trotzdem akzeptiert (und verbaut). Aufgabe 11-5: Fehler 1. Art: Der Reiseveranstalter kommt zum Schluss, dass die Zahl der Beschwerden überdurchschnittlich ist, obwohl sie im Normalbereich liegt. Eventuell wird die Insel unnötigerweise aus dem Programm genommen. Fehler 2. Art: Überdurchschnittlich viele Kunden sind mit dem Urlaub auf der Insel unzufrieden. Der Reiseveranstalter erkennt dies aber nicht (und wird daher auch keine Gegenmaßnahmen ergreifen).

12 Regressionsanalyse

171

12 Regressionsanalyse 12.1 Das Regressionsmodell Aufgabe 12.1-1 Regressionsanalysen dienen der Quantifizierung funktionaler Abhängigkeiten. Das bedeutet, dass mit Regressionsanalysen Daten an vorgegebene mathematische Funktionen angepasst werden können. Unterstellt man also, dass Größen in einer funktionalen Abhängigkeit zueinander stehen, so erlaubt die Regressionsanalyse die genaue Bestimmung dieser Funktion anhand von beobachteten Daten. Die Bedeutung der Regressionsanalysen in den Wirtschaftswissenschaften erklärt sich daraus, dass viele betriebs- und volkswirtschaftliche Theorien und Modelle mit Funktionen arbeiten. Funktionen dienen dann meist im Rahmen von Theorien und Modellen der vereinfachten Darstellung von Ursache-Wirkungsbeziehungen, wie zum Beispiel der Wirkung des Preises eines Produktes auf dessen Absatz in der Preis-Absatzfunktion. Nimmt man beispielsweise eine lineare Preis-Absatzfunktion an, so erlaubt die Regressionsanalyse die genaue Quantifizierung dieser linearen Funktion aus den beobachteten Preisen und Absatzzahlen. Diese Quantifizierung erlaubt (i) eine Aussage darüber, ob die vermutete Abhängigkeit überhaupt gegeben ist, (ii) wie stark der Absatz auf Preisänderungen reagiert und (iii) Prognosen über die Absatzzahlen bei verschiedenen vorgegebenen Preisen. Wenn also in den Wirtschaftswissenschaften mit theoretisch-mathematischen Funktionen gearbeitet wird, dient die Regressionsanalyse der Theorieüberprüfung, der Messung von Ursache-Wirkungszusammenhängen und der Prognose. Dies ist der Grundansatz in der Ökonometrie. Aufgabe 12.1-2 Regressionsanalysen dienen der Quantifizierung von mathematisch-theoretischen Funktionen aus Beobachtungsdaten. In den Wirtschaftswissenschaften haben Funktionen aber Modellcharakter, das heißt, sie sind ein vereinfachtes Abbild der Realität. Vereinfacht ausgedrückt, stellt das Residuum (auch „Restwert“ oder „latente Variable“) den Unterschied zwischen der theoretischen Funktion und der beobachteten Realität dar. Da das Modell die Wirklichkeit nicht vollständig erklärt, ist die Einführung eines Residuums notwendig. Genauer gesagt, ist das Residuum ε die Differenz aus der beobachteten abhängigen Variable Y (Regressand) und dem durch die Funktion erwarteten Wert Y (oder auch als E(Y|X = x) bezeichnet), also ε = Y − Y. Die Differenz kommt dadurch zustande, dass es neben den in die Funktion einbezogenen unabhängigen Variablen (X, Regressoren) noch andere – systematische oder unsystematische – Einflussfaktoren geben wird, die man aus Vereinfachungsgründen nicht in die Regressionsanalyse einbeziehen will oder nicht einbeziehen kann. Daneben können Messfehler zu einer Abweichung des beobachtetem Y und Y führen. Aufgabe 12.1-3 Man setzt Regressionsanalysen dazu ein, funktionelle Abhängigkeiten zu quantifizieren. Stellt man sich vor, dass die Werte für die unabhängige(n) Variable(n) X vorgegeben werden (also exogen sind), so besagt die Exogenitätsannahme, dass für jedes vorgegebene X alle möglichen beobachteten Y im Durchschnitt genau dem Funktionswert entsprechen, der sich bei X er-

172

12 Regressionsanalyse

rechnet. Vereinfacht ausgedrückt heißt das, dass die Funktion im „Durchschnitt stimmt“. Formal lässt sich die Annahme schreiben mit Y = E(Y|X = x) = f(X). Man beachte, dass die Annahme dann auch dazu führt, dass die Restwerte im Schnitt verschwinden, also E(ε|X = x) = 0. Die Exogenitätsannahme ist die zentrale Annahme des Regressionsmodells, zumindest wenn das Modell nur aus einer Modellgleichung besteht.

12.2 Das klassische Regressionsmodell Aufgabe 12.2-1 Der Begriff Regressionsmodell bezeichnet eine Regressionsanalyse (also eine Analyse, bei der mathematische Funktionen mit Hilfe von Daten angepasst werden), bei der die Exogenitätsannahme getroffen wird (Annahme 1, siehe Aufgabe 12.1-3). Ein klassisches Regressionsmodell liegt vor, wenn folgende weitere Annahmen getroffen werden: (i) Die anzupassende Funktion ist eine Gerade (Linearitätsannahme, Annahme 2), (ii) die Residuen weisen für jedes gegebene X dieselbe Varianz auf (Homoskedastie, Annahme 3), sind unabhängig (Annahme 4) und normalverteilt (Annahme 5), (iii) keiner der Regressoren lässt sich durch eine Linearkombination anderer Regressionen vollständig erklären (keine perfekte Multikollinearität, Annahme 6). Trifft man diese Annahmen, so lassen sich vergleichsweise einfach Punktschätzer mit wünschenswerten Eigenschaften, Konfidenzintervalle und Hypothesentests für die Regression ermitteln.

12.3 Einfachregression in Stichproben Aufgabe 12.3-1 a) Die Punktschätzer lauten β =

∑

(X − X)(Y − Y) ∑ (X − X)

und β = Y − β X.

12 Regressionsanalyse

173

Die entsprechenden Schätzungen werden mit b0 und b1 bezeichnet und können mit der folgenden Arbeitstabelle berechnet werden: i 1 2 3 4 5 6 7 8 9 10 11 12 

x=

xi 9 12 6 10 9 10 7 8 12 6 11 8 108

=9

b =

yi 69 76 52 56 57 77 58 55 67 53 72 64 756

y=

x −x 0 3 -3 1 0 1 -2 -1 3 -3 2 -1

y −y 6 13 -11 -7 -6 14 -5 -8 4 -10 9 1

(x − x) 0 9 9 1 0 1 4 1 9 9 4 1 48

(x − x)(y − y) 0 39 33 -7 0 14 10 8 12 30 18 -1 156

= 63

= 3,25 und b = 63 − 3,25 ∙ 9 = 33,75.

Die Angebotsfunktion lautet y = 33,75 + 3,25x . Mit jeder Preiserhöhung um 1 € steigt die angebotene Menge des Gutes im Schnitt um 3,25 Einheiten. b ist oft wie hier ökonomisch nicht sinnvoll zu interpretieren. b) Die Punktschätzer sind erwartungstreu und unter den linearen Schätzern effizient (GaußMarkov-Theorem). Man nennt die Punktschätzer daher BLUE (best linear unbiased estimator). Aufgabe 12.3-2 a) Für jede weitere Geldeinheit, die die Eltern im Alter von 30 Jahren verdienten, verdient das Kind im Durchschnitt 0,65 Geldeinheiten mehr. Kinder aus gutverdienenden Elternhäusern haben demnach ein tendenziell höheres Einkommen. b) Getestet wird, ob ein positiver Einfluss des Einkommens der Eltern vorliegt gegen die Alternative, dass kein Einfluss vorliegt (rechtsseitiger Test auf β ): 1. 2.

H : β = 0 H : β > 0. Mit den Annahmen das klassischen Regressionsmodells ist folgende Prüfgröße t-verteilt: T

3. 4.

5.

=

.

 = 5 %. Aus der t-Tabelle mit n – 2 = 23 Freiheitsgraden ergibt sich bei der Wahrscheinlichkeit von 95 % das Quantil 1,714. Die Entscheidungsregel lautet daher: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 1,714 ist. Berechnung: , = 2,031. t= ,

6.

Entscheidung: Die Nullhypothese muss bei der vorgegebenen Irrtumswahrscheinlichkeit abgelehnt werden. Der Regressionskoeffizient ist signifikant größer als null.

174

12 Regressionsanalyse Daher liefert die Stichprobe Evidenz dafür, dass Kinder umso mehr verdienen, je mehr die Eltern vor 30 Jahren verdient haben.

Aufgabe 12.3-3 a) Die Anpassungsgüte lässt sich mit Hilfe des Bestimmtheitsmaßes (Determinationskoeffizienten) R² messen: ∑ e2i

R = 1 − ∑(

Ti −T)2

=1−

360,63 1.540,17

= 1 − 0,234 = 0,766.

Rund 77 % der Summe der quadrierten Abweichungen der abhängigen Variablen (= T) von ihrem Mittelwert können durch die Regression (das BIP) bestimmt werden, der Rest ist auf andere Einflussfaktoren zurückzuführen. b) Gesucht ist die Regressionsfunktion T = β + β Y . Die Kleinstquadratschätzer lauten β =

)(

∑( ∑(

) )

und β = T − β Y.

Es ergibt sich b =

.

, .

,

= 0,246 und b = T − b Y = 350 − 0,246 ∙ 1.280 = 35,120.

Die gesuchte Regressionsfunktion lautet demnach T = 35,12 + 0,246Y . Eine Erhöhung des Bruttosozialprodukts um 1.000 GE erhöht die Steuereinnahmen durchschnittlich um ca. 246 GE. c) Sofern die Annahmen des klassischen Regressionsmodells erfüllt sind, lässt sich ein Konfidenzintervall angeben mit P b − t[

⁄ ,

]s

≤ β ≤ b + t[

⁄ ,

]s

= 1 − α.

Aus der t-Tabelle erhält man bei 1 − α⁄2 = 0,975 und n – 2 = 22 Freitsgraden das Quantil 2,074. Einsetzen ergibt P(0,246 − 2,074 ∙ 0,029 ≤ β ≤ 0,246 + 2,074 ∙ 0,029) = 0,95 ⟺ P(0,186 ≤ β ≤ 0,306) = 0,95. Bei einer Irrtumswahrscheinlichkeit von 5 % liegt der wahre Regressionsparameter 1 zwischen 0,186 und 0,306. d) Den Prognosewert erhält man durch Einsetzen in die Regressionsgerade: T = 35,12 + 0,246 ∙ 1.800 = 477,92. Es kann mit einem Steueraufkommen von knapp 488 Geldeinheiten gerechnet werden.

12 Regressionsanalyse

175

12.4 Multiple Regression in Stichproben Aufgabe 12.4-1 a) Für jedes weitere Lebensjahr kann eine Erhöhung des Einkommens um 9,78 € erwartet werden, sofern alle anderen Regressoren (Zahl der Kinder und Arbeitszeit) konstant bleiben. Für jedes weitere Kind ergibt sich im Schnitt ein Rückgang des Einkommens um 206,38 €, sofern die beiden anderen Regressoren konstant bleiben. Für jede weitere Stunde, die pro Monat mehr gearbeitet wird, ist ceteris paribus mit einer Einkommenserhöhung um 12,20 € zu rechnen. b) Für den Koeffizienten alter lautet der Test 1. 2.

=0 H :β ≠ 0. H :β Mit den Annahmen das klassischen Regressionsmodells ist folgende Prüfgröße tverteilt: T

3. 4.

5.

=

,

.

Dabei steht m für die Zahl der Regressoren. Es gibt also 25.407 Freiheitsgrade.  = 5 % (bzw. 1 % oder 10 %). Aus der t-Tabelle mit unendlich vielen Freiheitsgraden (oder der Standardnormalverteilung) ergibt sich bei  = 5 % ein kritischer Wert von +/- 1,96. Die Entscheidungsregel lautet daher: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 1,96 oder kleiner als −1,96 ist. Berechnung: , = = 8,083. t ,

6.

Entscheidung: Die Nullhypothese muss abgelehnt werden. Der Regressionskoeffizient ist signifikant von null verschieden. Das Alter beeinflusst das Einkommen. Auch bei anderen üblichen Signifikanzniveaus wird die Nullhypothese abgelehnt (bei  = 1 % sind die kritischen Werte +/-2,576, bei  = 10 % gilt +/- 1,645).

Für die weiteren Koeffizienten bleiben die Schritte 1 bis 4 gleich. Die Berechnungen sind t

=

, ,

= 2,161

und t

=

, ,

= 2,699.

In beiden Fällen wird die Nullhypothese bei  = 5 % jeweils abgelehnt. Die Koeffizienten sind demnach signifikant von null verschieden. Legt man  = 1 % zugrunde, wird die Nullhypothese für den Koeffizienten der Arbeitszeit weiterhin abgelehnt, nicht aber für die Zahl der Kinder: Das bedeutet, dass der Koeffizient bei  = 1 % insignifikant ist – die Stichprobe gibt bei dieser Irrtumswahrscheinlichkeit keinen Hinweis dafür, dass die Kinderzahl das Einkommen überhaupt beeinflusst. c) Durch Einsetzen in die Regressionsgleichung erhält man eine Schätzung des erwarteten Einkommens: alter = 35, kinder = 2, arbeitszeit = 160: eınkommen = 1.371,4 + 9,780 ∙ 35 − 206,381 ∙ 2 + 12,201 ∙ 160 = 3.253,098. Es ist mit einem Einkommen von rund 3.253 € zu rechnen.

176

12 Regressionsanalyse

Aufgabe 12.4-2 a) Mit Signifikanztests sind die Tests auf Regressionskoeffizienten (H : β = 0) gemeint. Üblicherweise testet man zweiseitig. Stata weist in der Spalte P>|t| die P-Werte des zweiseitigen Tests aus. Demnach ist der Koeffizient der Variable „literate“ bei jedem üblichen Signifikanzniveau insignifikant, d. h. die Regression bestätigt nicht, dass die Alphabetisierungsquote einen Einfluss auf das BIP hat. Die P-Werte aller anderen Koeffizienten sind auf die dritte Nachkommastelle gerundet null, so dass sich diese Koeffizienten bei üblichen Signifikanzniveaus signifikant von null unterscheiden. Der Einfluss lässt sich folgendermaßen beschreiben: Für jeden weiteren Promillepunkt in der Kindersterblichkeitsrate ist ein durchschnittlicher BIP-Verlust von 1,415 Mrd. USD zu verzeichnen, sofern die anderen im Modell enthaltenen Größen konstant sind. Große Flächen führen ceteris paribus zu höherem BIP und zwar in dem Ausmaß von 22 Mio. USD für jede weitere Flächeneinheit von 1.000 qkm. In die gleiche Richtung wirkt sich die Bevölkerungszahl aus: Für jede weitere Millionen Einwohner ergibt sich bei gleichbleibender Fläche und Kindersterblichkeitsrate im Durchschnitt ein BIP-Zuwachs von 2,631 Mrd. USD. b) Die Prüfgröße des t-Tests lautet T,

=

.

Der berechnete t-Wert ist der Regressionskoeffizient (in der Spalte Coef.) geteilt durch den geschätzten Standardfehler des entsprechenden Koeffizienten (in der Spalte Std. Err): t

= 0,150073/0,5427989 = 0,27647993 ≈ 0,28.

Um den P-Wert zu berechnen, müsste die t-Verteilung bei df =n – m – 1 = 141 – 4 – 1 = 136 Freiheitsgraden benutzt werden. Hilfsweise kann die Normalverteilung verwendet werden, da die Werte denen der t-Verteilung ab ca. 30 Freiheitsgraden entsprechen. Aus der Standardnormalverteilungstabelle erhält man F (0,28) = 0,6103. Der P-Wert des zweiseitigen Tests ist 2 ∙ (1 − 0,6103) = 0,7794. Der Wert entspricht nicht genau dem ausgewiesenen P-Wert, da die Standardnormalverteilungstabelle nur Quantile bis zur zweiten Nachkommastelle enthält. Aufgabe 12.4-3 a) Der Determinationskoeffizient berechnet sich aus ∑

R² = ∑

(

)

(

)

.

Die Größe im Zähler stellt die erklärte Variation (SSE), die Größe im Nenner stellt die gesamte Variation (SST) dar. In der Aufgabenstellung ist SSE = 235.887 gegeben. Außerdem gegeben ist die unerklärte Variation SSR = 5.21454, nicht aber SST. Aus der Streuungszerlegung SST = SSE + SSR lässt sich SST aber berechnen mit SST = 235.887 + 521.454 = 235.887. Damit gilt R² =

=

. .

= 0,3115.

.

Ca. 31 % der Variation des Einkommens können durch die Regression angepasst werden und knapp 69 % sind auf andere als die hier betrachteten Einflussgrößen zurückzuführen. b) Das adjustierte R² erhält man aus ∑

R² = 1 − ∑

/( (

) ) /(

)

.

12 Regressionsanalyse

177

Benutzt man die in der Lösung von a) verwendeten Abkürzungen, so heißt es /(

R² = 1 −

)

/(

)

.

Dabei steht n für die Stichprobengröße (25.410) und m für die Zahl der Regressoren (m = 3): .

R² = 1 −

.

.

= 1 − 0,6886 = 0,3114.

.

.

Der adjustierte Regressionskoeffizient wird hauptsächlich zum Vergleich der Anpassungsgüte von Modellen mit unterschiedlicher Variablenzahl benutzt. c) 1. 2.

H : β = β = β = 0, H : β ≠ 0 fü r mindestens ein j (j = 1, 2, 3). Mit den Annahmen das klassischen Regressionsmodells ist folgende Prüfgröße Fverteilt: F

3. 4.

5.

=

,

/ /(

.

)

Dabei ist n = 25.410 und m = 3 für die Zahl der Regressoren. Es ergeben sich 3 Zähler- und 25.406 Nenner-Freiheitsgrade.  = 1 %. Aus der F-Tabelle mit 3 Zähler- und (näherungsweise) 1.000 Nenner-Freiheitsgraden erhält man den kritischen Wert 3,80. Da dieser Test stets rechtsseitig ist, lautet die Entscheidungsregel: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 3,80 ist. Berechnung: . / = 3.830,92. f= .

6.

∑ ∑

/

.

Entscheidung: Die Nullhypothese muss abgelehnt werden. Mindestens einer der Regressoren unterscheidet sich signifikant von null. Mit anderen Worten ist der unter a) berechnete Determinationskoeffizient signifikant größer als null – die Regression weist eine systematische, also nicht rein zufallsbedingte Anpassungsgüte auf.

Aufgabe 12.4-4 Der untere Teil des Outputs bezieht sich auf die Koeffizientenschätzungen. Hierzu werden die Ergebnisse der Punktschätzungen der Koeffizienten selbst (Spalte „Coef.“), sowie der Standardabweichungen der Koeffizientenschätzer (Spalte „Std. Err.“) ausgewiesen. Es folgen die berechnete Teststatistik des Tests auf H0: j = 0 (Spalte „t“) sowie der dazugehörige P-Wert. Die letzten beiden Spalten geben Ober- und Untergrenze des 95 %-Konfidenzintervalls des jeweiligen Koeffizientenschätzers an. Zunächst ist festzustellen, dass der P-Wert für alle Koeffizienten auf die dritte Nachkommastelle gerundet null ergibt. Somit wird die Nullhypothese, dass die einzelnen Koeffizienten null sind, bei allen üblichen Signifikanzniveaus bei jeder Variable abgelehnt. Jeder einzelne Koeffizient ist damit „signifikant“ und die zugehörigen Variablen haben einen Einfluss auf Y. Die einzelnen Koeffizienten lassen sich folgendermaßen interpretieren: Jeder zusätzliche Quadratmeter Wohnfläche führt zu einem durchschnittlichen Anstieg der Nettomiete um 8,62 €, sofern alle anderen Einflussgrößen (Zimmerzahl, Baujahr und Stockwerk) konstant bleiben. Bei einem Konfidenzniveau von 95 % liegt der Quadratmetereffekt zwischen rund 8,10 € und 9,15 €. Entsprechend gilt, dass jedes weitere

178

12 Regressionsanalyse

Zimmer bei gleicher Wohnfläche, Baujahr und Stockwerk die Nettomiete durchschnittlich um 40,44 € senkt (bzw. zwischen 26,95 € und 53,92 € bei einem 95 %-Konfidenzniveau). Mit sinkendem Alter steigt die Miete ceteris paribus und zwar um durchschnittlich 2,22 € pro Jahr (bzw. zwischen 1,91 € und 2,53 € bei einem 95 %-Niveau pro Einheit). Pro weiterem Stockwerk muss man – bei ansonsten gleichbleibenden Faktoren – mit 3 € (bzw. 1,93 € bis 4,07 € bei einem 95 %-Niveau) Miete weniger rechnen. Die Koeffizienten weisen plausible Vorzeichen und Größenordnungen auf. Der obere Teil des Outputs weist Größen zur Gesamtbeurteilung aus. In der Tabelle oben links wird die gesamte quadratische Variation („SS Total“) aufteilt, in einen Teil, der durch das Modell erklärt wird („SS Model“) und einen Teil, der nicht durch das Modell erklärt wird („SS Residual“). Mit Hilfe der Freiheitsgrade („df“) werden aus der Variation Varianzen berechnet („MS“). Diese Größen dienen der Berechnung der rechts oben aufgelisteten Werte: Neben dem Beobachtungsumfang („Number of obs“) finden wir die Teststatistik des F-Tests mit den Freiheitsgraden („F( 4, 2048)“), den dazugehörigen P-Wert („Prob > F“), den Determinationskoeffizienten („R-squared“), den adjustierten Determinationskoeffzienten („Adj R-squared“) und den Standardfehler der Schätzung („Root MSE“, entspricht der Wurzel aus „MS Residual“). Zur Interpretation der Güte der Anpassung beurteilen wir zunächst den F-Test: Der PWert ist auf die vierte Nachkommastelle gerundet null, daher kann die Nullhypothese, dass keiner der aufgenommenen Regressoren einen Einfluss hat, klar abgelehnt werden. Das bedeutet, dass der Determinationskoeffizienten R² signifikant von null verschieden ist. Insgesamt sind 55,27 % der Variation der Nettomiete auf die Erklärungsfaktoren in der Regression zurückzuführen. Aufgabe 12.4-5 a) Auch hier deuten der hohe t-Wert bzw. der geringe P-Wert darauf hin, dass die Zimmerzahl einen signifikanten Einfluss auf die Nettomiete hat. Das Vorzeichen des Koeffizienten ist jedoch hier positiv: Nach der hier vorliegenden Schätzung steigt die Miete für jedes weitere Zimmer im Schnitt um 136 €, während sie gemäß der Ergebnisse aus Aufgabe 12.4-4 um rund 40 € sinkt. Dieser Unterschied ist darauf zurückzuführen, dass mit der multiplen Regression der partielle Effekt gemessen wird, den eine Veränderung der Zimmerzahl bei ansonsten gleichen Wohnungen (gleiche Wohnfläche, Stockwerk und Baujahr) zur Folge hat. Vermutlich sind Zimmerzahl und Wohnfläche stark miteinander korreliert, da Wohnungen mit mehr Zimmern tendenziell größer sind. In einer Einfachregression kann man daher den Zimmer- und Größeneffekt nicht trennen. Der in der Einfachregression ausgewiesene Koeffizient von 136 € ist eben nicht der Zimmereffekt, sondern ein Konglomerat aus Zimmer, Wohnfläche und anderen Größen. Möchte man den Effekt der Zimmerzahl losgelöst von der Wohnungsgröße (und allen anderen Faktoren) betrachten, muss man den partiellen Effekt über die einzelnen Regressionskoeffizienten betrachten. Der Zimmereffekt für sich genommen ist also negativ: Je mehr Zimmer in einer Wohnung fester Größe vorhanden sind, desto günstiger wird tendenziell die Miete. In der Einfachregression erscheint der Zimmereffekt negativ, vermutlich weil er von dem nicht berücksichtigten Wohnflächeneffekt dominiert wird. Allgemein gilt, dass man die partiellen Effekte korrekt misst, wenn man alle wichtigen Erklärungsfaktoren, die mit anderen Regressoren nicht zu hoch korrelieren, auch in die Regression mit aufnimmt. Kenntnisse darüber gewinnt man z. B. aus Theorien der BWL oder der VWL.

12 Regressionsanalyse b)

179

Zum Vergleich der Anpassungsgüte muss der korrigierte Determinationskoeffizient herangezogen werden: In der multiplen Regression ist der Wert mit 0,5527 deutlich höher als derjenige in der Einfachregression (0,2959). Daher ist die Anpassung in der multiplen Regression besser.

12.5 Annahmen im klassischen Regressionsmodell Aufgabe 12.5-1 a) Diese Annahme bezeichnet man auch als Exogenitätsannahme. Sie besagt, dass für jeden möglichen vorgegebenen Wert von X die Residuen im Schnitt null ergeben. b) Eine Verletzung der Annahme hat zur Folge, dass die Koeffizienten- und Varianzschätzer im klassischen Regressionsmodell verzerrt und inkonsistent sind. Die Schätzergebnisse sind also völlig unbrauchbar. c) Man kann zeigen, dass diese Bedingung in Regressionen mit Absolutglied immer dann erfüllt ist, sofern die Residuen und die Regressoren unabhängig voneinander sind. Für eine mögliche Abhängigkeit der Residuen und Regressoren gibt es im Wesentlichen zwei Gründe: 1. Wichtige Erklärungsfaktoren, die mit einem anderen Regressor korrelieren, wurden weggelassen („Omitted-Variable-Bias“). 2. Der Regressand beeinflusst einen der Regressoren („Simultaneous-Equation-Bias“). Zur Überprüfung der Exogenitätsannahme muss die Regressionsgleichung also gedanklich-theoretisch daraufhin untersucht werden, ob ein Simultaneous-Equation- oder ein Omitted-Variable-Bias vorliegt. d) Zunächst fragen wir uns, ob ein Omitted-Variable-Bias vorliegen könnte. Dazu ist zu überlegen, ob (erstens) wichtige Variablen fehlen und (zweitens) ob diese mit den anderen Regressoren korrelieren. Eine fehlende Größe, die für das Niveau des BIP wichtig ist, ist die Arbeitsproduktivität. Diese Größe korreliert vermutlich mit der Alphabetisierungsrate. Daher ist von einem Omitted-Variable-Bias auszugehen. Trotzdem soll noch der Simultaneous-Equation-Bias diskutiert werden. Hierzu überlegt man, ob das BIP eine der Erklärungsgrößen selbst erklären könnte. Dies ist bei der Variable „land“ sicher nicht möglich. Bei den anderen Variablen ist es hingegen denkbar: Eine erhöhte Kindersterblichkeit wird vermutlich nicht nur das BIP senken, sondern gleichzeitig auch durch ein geringes BIP verursacht werden. Ähnlich kann man für die Variablen „literate“ und „pop“ argumentieren. Möchte man die Variablen der Aufgabe 12.4-2 als Ursache-Wirkungsbeziehung interpretieren, so müsste das Modell neu spezifiziert werden. e) In Aufgabe 12.4-5 liegt ein Omitted-Variable-Bias vor, da die Wohnfläche mit der Zimmerzahl korreliert und nicht in die Regression aufgenommen wurde. In der Spezifikation von Aufgabe 12.4-4 fehlen Angaben zur Lage und zur Ausstattung der Wohnung. Lage und Ausstattung dürften aber kaum mit den anderen Größen korrelieren, daher ist hier nicht mit einem Omitted-Variable-Bias zu rechnen. Die Nettomiete kann keine Wirkung auf Wohnfläche, Zimmerzahl, Baujahr und Stockwerk haben. Daher liegt auch kein Simultaneous-Equation-Bias vor. Die Exogenitätsannahme dürfte erfüllt sein.

180

12 Regressionsanalyse

Aufgabe 12.5-2 Die Regression aus Aufgabe 12.4-4 enthält das Baujahr. Zwischen Alter des Gebäudes in Jahren und Baujahr besteht eine perfekte lineare Abhängigkeit. Nimmt man also beide Variablen auf, so kommt es zu perfekter Multikollinearität zwischen diesen beiden Variablen. Eine Kleinstquadratschätzung ist nicht möglich. Aufgabe 12.5-3 a) Mit steigender Wohnfläche ist eine größere Streuung der Restwerte zu erkennen. Daher ist die Annahme der Homoskedastie vermutlich nicht erfüllt. Es liegt Heteroskedastie vor. b) Der Kleinstquadratschätzer ist nicht mehr effizient. Das bedeutet, dass ein anderer Schätzer die Regressionskoeffizienten genauer schätzen könnte. Folgenschwerer ist allerdings, dass außerdem die Standardfehler der Koeffizienten („Std. Err“) verzerrt sind. Daher sind die Ergebnisse der t-Tests fehlerhaft. Eventuell sind die als signifikant eingestuften Koeffizienten also gar nicht signifikant. Aufgabe 12.5-4 a) Zunächst wird eine Hilfsregression mit „literate“ als abhängiger und allen anderen Regressoren als Erklärungsgrößen geschätzt: literatei = b0 + b1infmortalitiyi + b2landi + b3popi + ei. Aus dieser Regression wird der Determinationskoeffizient R bestimmt. Der Wert für VIF berechnet sich dann aus VIF =

=

,

= 2,5.

b) Eine Faustregel besagt, dass keine (imperfekte) Multikollinearität vorliegt, wenn der VIF kleiner als 10 ist. Dies ist hier der Fall. Es ist also davon auszugehen, dass die in Aufgabe 12.4-2 ausgewiesene Regression nicht durch imperfekte Multikollinearität beeinträchtigt ist. Aufgabe 12.5-5 a) Es handelt sich um die Annahmen der Homoskedastie und Unkorreliertheit der Restwerte. b) Ineffizienz bedeutet, dass es andere Schätzer gibt, die geringere Varianzen aufweisen, also tendenziell genauer sind. Verzerrung bedeutet, dass der Erwartungswert des Schätzers nicht dem wahren Parameter entspricht. Die Schätzungen werden also von einer Formel berechnet, die bei wiederholter Stichprobenerhebung im Schnitt nicht dem gesuchten Parameter entsprechen. c) Die Ineffizienz hat zur Folge, dass es andere, genauere Schätzer gäbe. Würde man diese Schätzer heranziehen, so ergäben sich beispielsweise schmalere Konfidenzintervalle für die Regressionskoeffizienten. Die Verzerrung hat zur Folge, dass die Standardfehler im Schnitt eine „falsche“ Größenordnung aufweisen. Dies wiederum hat zur Folge, dass die Konfidenzintervalle und Tests für die Regressionskoeffizienten unbrauchbar sein können.

12 Regressionsanalyse

181

Aufgabe 12.5-6 a) Wenn ein höheres Baujahr bei niedrigem Niveau (alte Wohnungen) die Miete im Schnitt senkt, auf hohem Niveau (neuere Wohnungen) aber steigert, so ist die Annahme der Linearität verletzt. b) Man könnte sich die Beobachtungspaare Baujahr und Miete in einem Streudiagramm anzeigen lassen. Würde man eine annähernd lineare Beziehung erkennen, so wäre die Annahme nicht verletzt. Stellt man stattdessen fest, dass die Punktwolke bei kleinem Baujahr einen fallenden Verlauf und bei großem Baujahr einen steigenden Verlauf hat, so ist die Annahme verletzt. c) Man könnte neben dem Baujahr z. B. das quadrierte Baujahr als weiteren Regressor in die Regression einfügen.

13 Qualitative Einflussfaktoren

183

13 Qualitative Einflussfaktoren 13.1 Test auf Anteilswertvergleich Aufgabe 13.2-1 a)

1.

2.

H : π = π , H : π < π . Dabei bezeichnet p den Anteil der Personen, die einen angebotenen Keks essen. Der Index steht für die Art der zuvor gezeigten Werbung (1 = Werbung ohne Person, 2 = Werbung mit Triathlet): Die Prüfgröße Z=

(

)

mit S

=

(

)

und P =

ist in großen Stichproben approximativ normalverteilt. Ob die Stichprobe hier ausreichend groß ist, wird mit der Faustregel nπ(1 − π) ≥ 9 überprüft. Dabei wird p = 0,4933 geschätzt. Es gilt also np (1 − p ) = 150 ∙ 0,4933 ∙ mit p =

3. 4.

5.

0,5067 = 37,49. Da dieser Wert weitaus größer als 9 ist, dürfte die Verteilung der Teststatistik gut durch die Normalverteilung repräsentiert werden.  = 5 %. Aus der z-Tabelle ergibt sich der kritische Wert −1,645. Die Entscheidungsregel lautet daher: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße kleiner als −1,645 ist. Berechnung:

z= 6.

(

=

s (

)

=

)

,

,

∙ ,

= 0,0408

= −1,96.

Entscheidung: Die Nullhypothese wird abgelehnt. Der Anteil der Probanden, die einen Keks gegessen haben, ist in der Teilstichprobe signifikant kleiner als bei denjenigen, die in der Werbung nicht den Triathleten gesehen haben.

b) Der P-Wert ist bei diesem linksseitigen Test F (−1,96) = 0,025. Damit würde man die Nullhypothese bei einem Signifikanzniveau von 1 % nicht ablehnen. Das Testergebnis ist also nicht besonders klar, da eine leichte Änderung des Signifikanzniveaus zu einer Entscheidungsänderung führt. Um ein klareres Ergebnis zu erhalten, müsste die Zahl der Probanden erhöht werden.

13.2 Chi-Quadrat-Unabhängigkeitstest Aufgabe 13.2-1 a) Die Teststatistik ist nur asymptotisch Chi-Quadrat-verteilt, d. h. ihre Verteilung nähert sich bei steigendem Stichprobenumfang der Chi-Quadratverteilung immer weiter an. Als Faustregel fordert man oft, dass der Stichprobenumfang mindestens 60 sein sollte und dass in mindestens 80 % der Zellen die bei Unabhängigkeit erwarteten gemeinsamen absoluten Häufigkeiten mindestens 5 sind. Im vorliegenden Fall wurden 100 Testpersonen

184

13 Qualitative Einflussfaktoren

erhoben, so dass der Mindestumfang gemäß Faustregel überschritten wird. Die erwarteten gemeinsamen Häufigkeiten bei Unabhängigkeit ergeben sich aus . .

.

Dabei bezeichnen f . und f. die Randverteilungen aus der Stichprobe, jeweils der Zeiten bzw. der Spalten. Es ergibt sich

Verpackung

f . f. n

Sehr gut

Wahrgenommene Qualität Mittel Schlecht

f.

Karton

5,98

16,38

3,64

26

Folie

7,36

20,16

4,48

32

Papier

9,66

26,46

5,88

42

f.

23

63

14

100

Beispielsweise errechnet man den Wert Karton/Mittel aus folgendermaßen: . .

=

∙

= 16,38.

In den Zellen Karton/Schlecht und Folie/Schlecht ist der Wert kleiner als 5. Demnach sind in 7 von insgesamt 9 Zellen die Werte mindestens 5. Dies entspricht einem Anteil von 7/9 = 77,78 %. Laut Faustregel sollte dieser Anteil mindestens 80 % betragen. Der Test sollte nicht durchgeführt werden. b) Teilaufgabe a) hat ergeben, dass die Stichprobe für den Chi-Quadrat-Unabhängigkeitstest zu klein ist. Die Werte der Faustregel wurden allerdings nur knapp unterschritten. Deshalb wird hier der Test trotzdem durchgeführt. Die Ergebnisse sollten aber aufgrund der kleinen Stichprobe nur sehr vorsichtig interpretiert werden und durch alternative Untersuchungen (zum Beispiel Fishers exakter Test oder Chi-Quadrat-Unabhängigkeitstest in zusammengefasster Tabelle) gestützt werden. a)

1.

2.

H : Die Merkmale Verpackung und wahrgenommene Qualität sind statistisch unabhängig. H : Die Merkmale Verpackung und wahrgenommene Qualität sind statistisch abhängig. Prüfgröße (Teststatistik): . .

C² = ∑ 3. 4.

∑

. .

~χ(

)(

)

.

 = 5 %. Der Test ist rechtsseitig. Die Teststatistik ist Chi-Quadrat-verteilt mit einer Zahl von Freiheitsgraden von (r − 1)(c − 1). Dabei steht r für die Zahl der Zeilen und c für die Zahl der Spalten. Da die vorliegende Tabelle 3 Spalten und Zeilen hat, erhält man (3 − 1)(3 − 1) = 4 Freiheitsgrade. Aus der Chi-Quadrat-Tabelle mit 4 Freiheitsgraden ergibt sich bei der Wahrscheinlichkeit von 95 % das Quantil 9,488. Die Entscheidungsregel lautet daher: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 9,488 ist.

13 Qualitative Einflussfaktoren 5.

Berechnet werden muss die quadratische Kontingenz. Dazu fließen die Werte der beobachteten gemeinsamen Häufigkeiten (siehe Aufgabenstellung) und der bei Unabhängigkeit erwarteten gemeinsamen Häufigkeiten (siehe Lösung zu Aufgabenteil a)) ein: c =

6.

185

(

)

, ,

+

(

,

)

,

+⋯+

(

)

,

= 2,008.

,

Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Die Stichprobe gibt beim vorgegebenen  keinen Hinweis darauf, dass die Verpackung und die wahrgenommene Qualität statistisch abhängig sind.

Aufgabe 13.2-2 a) Tabelle mit den empirischen gemeinsamen absoluten Häufigkeiten und der Randverteilung:

Beratung

f

Zufriedenheit unzufrieden 25 7 32

zufrieden 65 28 93

telefonisch online f.

f. 90 35 125

b) Zunächst wird überprüft, ob der Chi-Quadrat-Unabhängigkeitstest durchgeführt werden kann. Der Stichprobenumfang ist mit 125 weitaus größer als der nach der Faustregel geforderte Mindestumfang von 60. Die theoretisch bei Unabhängigkeit erwarteten Häufigkeiten sind:

Beratung

. .

Zufriedenheit unzufrieden 23,04 8,96 32

zufrieden 66,96 26,04 93

telefonisch online f.

f. 90 35 125

In keiner Zelle ist die Häufigkeit kleiner als 5. Der Chi-Quadrat-Unabhängigkeitstest kann daher durchgeführt werden: 1. 2.

H : Die Art der Beratung und die Zufriedenheit sind statistisch unabhängig. H : Die Art der Beratung und die Zufriedenheit sind statistisch abhängig. Prüfgröße (Teststatistik): . .

C² = ∑ 3. 4.

5.

∑

~χ(

. .

).

)(

 = 1 %. Der Test ist rechtsseitig. Es ergibt sich (r − 1)(c − 1) = (2 − 1)(2 − 1) = 1 Freiheitsgrad. Aus der Chi-Quadrat-Tabelle erhält man den kritischen Wert von 6,635. Entscheidungsregel: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 6,635 ist. Die Teststatistik ist die quadratische Kontingenz, die sich aus den empirischen gemeinsamen Häufigkeiten und den theoretischen Werten bei Unabhängigkeit ergeben: c =

(

, ,

)

+

(

, ,

)

+

(

, ,

)

+

(

, ,

)

= 0,8003.

186 6.

13 Qualitative Einflussfaktoren Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Die Untersuchung lässt nicht erkennen, dass die Art der Beratung und die Zufriedenheit statistisch abhängig sind.

13.3 Zweistichprobentest auf Mittelwertvergleich Aufgabe 13.3-1 a) Die Schulung ist erfolgreich, wenn die Montagezeit gesenkt wurde. Wir bezeichnen mit dem Index 1 die Montagezeit ohne Schulung und mit dem Index 2 den entsprechenden Wert mit Schulung: 1. 2.

H :μ ≤μ H :μ >μ . Die Stichprobe ist groß. Da keine Annahmen über die Varianzgleichheit in beiden Gruppen getroffen wird, gilt folgende Prüfgröße: T =

3. 4.

(

)

mit S

=

df =

.

=

. ,

, .

= 213,85

,

Freiheitsgrade. Damit erhält man aus der Tabelle einen kritischen Wert von 1,28 und die Entscheidungsregel lautet: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 1,28 ist. Berechnung: s

6.

und

 = 10 %. Es ergeben sich df =

5.

+

=

+

= 26,88 und t =

= 1,30.

,

Entscheidung: Die Nullhypothese wird, wenn auch knapp, abgelehnt. Die durchschnittliche Montagezeit in der Stichprobe ist bei Monteuren ohne Schulung signifikant größer als bei Monteuren ohne Schulung. Damit ist bei  = 10 % die Wirksamkeit der Schulung statistisch nachgewiesen.

b) Nimmt man gleiche Varianzen, so wird der Test mit folgender Teststatistik durchgeführt: T =

(

)

mit s

=

S

+

und

S =

(

)

(

)

.

Die Zahl der Freiheitsgrade bei diesem Test ist df = n + n − 2 = 240 + 100 − 2 = 338. Daher lauten kritischer Wert und Entscheidungsregel wie im Aufgabenteil a). Die gepoolte Varianz ist s =

(

)

(

)

= 57.733,06.

13 Qualitative Einflussfaktoren

187

Damit ergibt sich s

=

5.733,06

+

= 28,60 und t =

,

= 1,22.

Die Nullhypothese kann, wenn auch knapp, nicht abgelehnt werden. Die durchschnittliche Montagezeit in der Stichprobe ist bei Monteuren ohne Schulung nicht signifikant größer als bei Monteuren mit Schulung. Die Wirksamkeit der Schulung lässt sich nicht nachweisen. c) Die Tests aus den Aufgabenteilen a) und b) kamen zu gegenteiligen Entscheidungen. Der Test aus b) hat eine höhere Macht, sofern die Annahme der Varianzhomogenität erfüllt ist, ist aber verzerrt, sofern diese Annahme nicht erfüllt ist. Daher sollte überprüft werden, ob die Varianzen der Montagezeiten ohne und mit Schulung gleich sind oder nicht. Dies geschieht mit dem Varianzhomogenitätstest: 1. 2.

H :σ ≠σ . H :σ =σ Die Teststatistik lautet F

3. 4.

5.

=

.

 = 5 %. Es ergeben sich n − 1 = 239 Zähler- und n − 1 = 99 Nennerfreiheitsgrade. Typischerweise sind die Tabellen der F-Verteilung nicht so detailliert, dass diese Freiheitsgrade angegeben werden. Bei jeweils 100 Zähler- und Nennerfreiheitsgraden erhält man das Quantil 1,39. Daher formulieren wir die Entscheidungsregel: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 1,39 ist. Hinweis: Der Test darf nur rechtsseitig durchgeführt werden, wenn die Stichprobenvarianz in Gruppe 1 größer als in Gruppe 2 ist. Berechnung:

f= 6.

,

= 1,35.

Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Damit gibt es keinen Hinweis auf unterschiedliche Varianzen. Demnach sollte das Testergebnis aus dem Aufgabenteil b) herangezogen werden, wenn beurteilt werden soll, ob die Schulungen die Montagezeit senken. Im Aufgabenteil b) ergab sich keine signifikant geringere Montagezeit bei geschulten Monteuren. Allerdings sind in allen drei Aufgabenteilen die Testergebnisse sehr knapp. Hinzu kommen folgende Einwände:  Der genaue kritische Wert im Varianzhomogenitätstest lautet 1,33. Berücksichtigt man diesen Wert, so kommt man zu dem Schluss, dass die Varianzen nicht gleich sind, so dass der Test aus Aufgabenteil a) herangezogen werden müsste.  Wählt man in allen Tests  = 1 %, so müsste man in allen drei Tests die Nullhypothese ablehnen. Man käme zu dem Schluss, dass die Schulung erfolgreich war. Zusammengenommen sind die Ergebnisse aus dem Testverfahren also undeutlich. Um klarere Entscheidungen treffen zu können, müsste der Stichprobenumfang erhöht werden.

d) Die in den Aufgabenteilen a), b) und c) durchgeführten Tests gelten nur bei unabhängigen Stichproben. Die Beobachtungseinheiten sind Montagen. Die einzelnen Stichproben wären nur dann unabhängig, wenn jede Montage von einem anderen Monteur durchgeführt

188

13 Qualitative Einflussfaktoren

worden wäre. Diese Information ist in der Aufgabenstellung nicht gegeben, daher ist im Zweifel nicht von Unabhängigkeit auszugehen. Aufgabe 13.3-2 Um den P-Wert zu ermitteln, muss die Prüfgröße des Tests auf Mittewertvergleich mit den Stichprobendaten ausgerechnet werden. Zuvor muss überprüft werden, ob die Prüfgröße für gleiche Varianzen oder die Prüfgröße für ungleiche Varianzen verwendet werden soll. Dazu wird der Varianzhomogenitätstest durchgeführt: Bei einem 5 %igen Signifikanzniveau und 328 Zähler- und 651 Nennerfreiheitsgraden erhält man aus der F-Verteilung näherungsweise den kritischen Wert von 1,26 (bzw. 1,38 bei 1 %). Die berechnete Prüfgröße ist ,

f=

,

= 1,58,

also größer als der kritische Wert, so dass Nullhypothese gleicher Varianzen abgelehnt werden muss. Es sollte also die Prüfgröße für ungleiche Varianzen verwendet werden (1 = Frauen, 2 = Männer): T =

(

)

mit S

=

+

und

df =

.

Einsetzen der Stichprobenwerte ergibt: s

=

,

+

,

= 0,129 und t =

,

, ,

= 1,56.

Da die Prüfgröße t-verteilt ist, benötigt man zur Ermittlung des P-Wertes die Freiheitsgrade: ,

df =

,

, ,

≈ 542.

Da die t-Verteilung ab ca. 30 Freiheitsgraden gut durch die Standardnormalverteilung approximiert werden kann, kann der P-Wert der Standardnormalverteilungstabelle entnommen werden. Weil in der Aufgabenstellung kein Hinweis gegeben ist, dass einseitig getestet werden soll, wird der P-Wert des zweiseitigen Tests berechnet: 2 ∙ 1 − F (1,56) = 2 ∙ (1 − 0,9406) = 0,1188. Der P-Wert ist größer als alle üblichen Signifikanzniveaus. Daher kann die Nullhypothese, dass die durchschnittliche Zahl der Krankheitstage bei Männern und Frauen gleich ist, nicht abgelehnt werden. Aufgabe 13.3-3 Es handelt sich um verbundene Stichproben. Daher kann die Altersdifferenz zwischen Männern (im Folgenden Index 1) und Frauen (Index 2) bei Eheschließung berechnet und überprüft werden, ob diese Differenz im Durchschnitt signifikant größer als null ist:

13 Qualitative Einflussfaktoren Ehe-Nr. Alter des Mannes bei Eheschließung Alter der Frau bei Eheschließung Differenz (Di)

1. 2.

5.

2 42 42 0

3 34 38 -4

4 25 24 1

5 27 30 -3

6 25 23 2

7 41 42 -1

8 32 30 2

H :μ ≤μ H :μ >μ . Da das Alter als normalverteilt angenommen wird, kann mit folgender Prüfgröße gearbeitet werden: T

3. 4.

1 25 21 4

189

=

∑

mit S =

√n

(D − D) .

 = 5 %. Es ergeben sich 7 Freiheitsgrade. Aus der t-Verteilungstabelle erhält man den kritischen Wert von 1,895. Die Entscheidungsregel lautet: Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 1,895 ist. Berechnung: d = 1/8(4 + 0 − 4 + 1 − 3 + 2 − 1 + 2) = 0,125 ((4 − 0,125) + (0 − 0,125) + ⋯ + (2 − 0,125) ) = 2,6959

s =

t= 6.

, ,

√8 = 0,1311.

Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Das Durchschnittsalter bei Eheschließung in der Stichprobe ist bei Männern nicht signifikant größer als bei Frauen.

13.4 Einfache Varianzanalyse Aufgabe 13.4-1 1.

H :μ =μ =μ =μ =μ =μ =μ H1 : μi ≠μj fü r mindestens ein i, j=1, …, 7.

2.

Die Stichprobe ist unabhängig, da (bzw. wenn) jedes Unternehmen eindeutig einer Branche zugeordnet ist. Aufgrund der Normalverteilung und Varianzgleichheit ist folgende Prüfgröße F-verteilt: F

3. 4.

5.

=

,

=

Dabei steht k für die Zahl der Gruppen.  = 1 %. Es ergeben sich k − 1 = 6 und n − k = 735 Freiheitsgrade. Wählt man aus der F-Tabelle näherungsweise den Wert mit 6 und 1.000 Freiheitsgraden, so erhält man folgende Entscheidungsregel: Lehne H0 ab, wenn der berechnete Wert der Teststatistik größer als 2,82 ist. Berechnung: ,

f= 6.

.

=

,

=

, ,

= 153,62.

Entscheidung: Die Nullhypothese wird abgelehnt. In mindestens eine der Branchen liegt eine signifikant unterschiedliche Eigenkapitalquote vor.

190

13 Qualitative Einflussfaktoren

Aufgabe 13.4-2 a) Die Varianzanalyse beruht auf den drei Annahmen (1) Unabhängigkeit der Stichprobe, (2) Normalverteilung des quantitativen Merkmals und (3) Varianzhomogenität zwischen den Gruppen. b) Ob die Stichprobenziehungen unabhängig sind, ließe sich nur beurteilen, wenn man mehr über die Erhebung wüsste. Wenn jedes Unternehmen eindeutig einer Branche zugeordnet ist und die Unternehmen nicht in abhängiger Beziehung zueinander stehen (zum Beispiel zum selben Konzern gehören), so ist von Unabhängigkeit auszugehen. Theoretisch kann die Eigenkapitalquote nicht normalverteilt sein, da sie auf Werte zwischen 0 % und 100 % beschränkt ist, die Normalverteilung aber auch negative und unendlich große Werte zuließe. Da Extremwerte bei der Normalverteilung aber sehr unwahrscheinlich sind, ist eventuell trotzdem eine gute Approximation gegeben. Dies könnte man durch eine graphische Überprüfung (Histogramm der Eigenkapitalquoten) herausfinden oder durch Tests auf Normalverteilung. Um die Varianzhomogenität zu untersuchen, bieten sich der Bartlett’s Test oder Levene’s Test an. Mit den in der Aufgabenstellung angegebenen Werten lassen sich diese Tests allerdings nicht durchführen. Aufgabe 13.4-3 a) 1.

H :μ =μ =μ =μ =μ H1 : μi ≠μj fü r mindestens ein i, j=1, …, 5.

2.

Falls die Annahmen erfüllt sind, gilt folgende Prüfgröße: F

3. 4.

5.

,

=

=

.

Dabei steht k für die Zahl der Gruppen.  = 5 %. Es ergeben sich k − 1 = 4 und n − k = 976 Freiheitsgrade. Wählt man aus der F-Tabelle näherungsweise den Wert mit 6 und 1.000 Freiheitsgraden, so erhält man folgende Entscheidungsregel: Lehne H0 ab, wenn der berechnete Wert der Teststatistik größer als 2,38 ist. Berechnung: Zunächst wird die Streuung zwischen den Gruppen berechnet: SSB = ∑ n x − x . Dazu wird das Gesamtmittel x benötigt. Um das Gesamtmittel aus den Gruppenmitteln zu berechnen, muss mit der Stichprobengröße gewichtet werden: x=∑ ∑

x n =

SSB = ∑ n x − x = 13.236,32.

(76,59 ∙ 49 + 62,73 ∙ 68 + ⋯ + 71,24 ∙ 213) = 66,79 = 49 ∙ (76,59 − 66,79) + ⋯ + 213 ∙ (71,24 − 66,79)

Durch den Zusammenhang SST = SSB + SSW erhält man SSW: SSW = SST - SSB = 8.06059,39 – 13.236,32 = 792.823,07 und daraus die berechnete Prüfgröße:

13 Qualitative Einflussfaktoren

f= 6.

.

=

,

.

/

,

=

/

.

, ,

191 = 4,07.

Entscheidung: Die Nullhypothese wird abgelehnt. In mindestens einem der Berufszweige wird ein signifikant unterschiedliches Gehalt gezahlt.

b) 1.

H :σ =σ =σ =σ =σ H1 : μi ≠μj fü r mindestens ein i, j=1, …, 5.

2.

Die Prüfgröße lautet χ

=

(

)

(

) ∑

(

3. 4.

5.

)

(

)

.

∑

 = 5 %. Es ergeben sich k − 1 = 4 Freiheitsgrade. Aus der Chi-Quadratverteilung erhält man den kritischen Wert. Entscheidungsregel: Lehne H0 ab, wenn der berechnete Wert der Teststatistik größer als 9,488 ist. Berechnung: Zunächst werden die Summen in der Formel berechnet: ∑ n − 1 ln(s ) = 48 ∙ ln(28,37 ) + ⋯ + 212 ∙ ln(29,56 ) = 321,15 + ⋯ + 1.435,84 = 6.536,52 ∑

=

+ ⋯+

= 0,0473.

Einsetzen in die Prüfgröße ergibt: c =

(

)

(

(

6.

,

)

.

,

)

,

)

=

, ,

= 2,56.

Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Die Stichprobe enthält keinen Hinweis, dass die Varianzen nicht gleich sein sollten. Damit kann davon ausgegangen werden, dass die Annahme der Varianzhomogenität erfüllt ist.

Aufgabe 13.4-4 Wenn die Nullhypothese der Varianzanalyse abgelehnt wird, kann mit Hilfe von paarweisen Zweistichprobentests auf Mittelwertvergleich untersucht werden, zwischen welchen Gruppen signifikante Unterschiede bestehen. Da sich in Aufgabe 13.4-3 b) gezeigt hat, dass die Varianzen gleich sind, kann auch der Zweistichprobentest mit der Annahme gleicher Varianzen durchgeführt werden. Aufgrund der -Fehlerkumulierung muss das Signifikanzniveau der Zweistichprobentests angepasst werden. Für die Varianzanalyse in Aufgabe 13.4-3 a) galt α =5 %. Die Bonferroni-Korrektur führt zu einem individuellen Signifikanzniveau für die Tests auf Mittelwertvergleich von α =

(

)

=

, ∙ /

= 0,005.

Im Folgenden wird ausführlich der Test zum Vergleich der Abteilungen IT-Support (Index 1) und Personal (Index 2) durchgeführt. Danach werden nur die Ergebnisse der anderen Paarvergleiche gezeigt. 1. 2.

H :μ =μ Prüfgröße:

H :μ ≠μ .

192

13 Qualitative Einflussfaktoren

=

T 3. 4.

5.

)

mit s

=

S

+

und S =

(

)

(

)

.

 = 0,5 %. Die kritischen Werte können in der Standardnormalverteilungstabelle abgelesen werden (bei 0,25 % und 99,75 %): Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße kleiner als −2,81 oder größer als 2,81 ist. Berechnung: ∙

s =

t= 6.

(

,

,

∙ ,

,

,

= 705,04 und s

=

705,04(

+

) = 49,76 und

= 2,79.

Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Der Unterschied in den Durchschnittseinkommen ist in den Zweigen IT-Support und Personal nicht signifikant von null verschieden. Der berechnete Wert der Prüfgröße ist allerdings sehr nahe am kritischen Wert, so dass diese Entscheidung sehr knapp ausfällt.

Für die anderen Paarvergleiche ändern sich nur die konkrete Formulierung von H0 und die Berechnung in Schritt 5. Die berechneten Prüfgrößen aller Tests sind in folgender Matrix wiedergegeben: Personal IT-Support Personal Produktion Beschaffung

2,79

Produktion Beschaffung 2,93 -0,36

2,16 -1,07 -1,19

Vertrieb 1,15 -2,14 -2,98 -1,58

Es gibt also lediglich zwei signifikante Mittelwertunterschiede, zum einen zwischen Produktion und IT-Support, zum anderen zwischen Produktion und Vertrieb. Hätte man in der Varianzanalyse ein Signifikanzniveau von 10 % gewählt, so ergäben sich Bonferroni-korrigierte kritische Werte von +/-2,58. In diesem Fall wäre zusätzlich der Gehaltsunterschied zwischen IT-Support und Personal signifikant.

13.5 Regressionsanalyse mit Dummy-Variablen Aufgabe 13.5-1 a) Die Güte der Anpassung wird im oberen Teil der Tabelle ausgewiesen. Zunächst einmal zeigt der P-Wert des F-Tests („Prob > F = 0.0000“), dass die Nullhypothese, alle Regressionskoeffizienten seien null, bei jedem üblichen Signifikanzniveau abgelehnt wird. Der Determinationskoeffizient von R² = 0,1365 besagt, dass 13,65 % der quadratischen Abweichungen des Umsatzes durch die Regression angepasst werden können. Die Anpassung gelingt also nicht nur zufällig, sondern systematisch, aber in nur geringem Ausmaß. Der durch andere, nicht im Modell aufgenommene Faktoren verursachte unerklärte Rest ist groß. b) Die Dummy-Variable für das Brettspiel wurde weggelassen. Damit ist die Kategorie Brettspiel Basiskategorie. Allgemein gilt, dass man bei qualitativen Variablen mit k Kategorien nur k – 1 Dummyvariablen in Regressionen einbeziehen darf. Man muss eine Kategorie

13 Qualitative Einflussfaktoren

193

(„Basiskategorie“) weglassen, um perfekte Multikollinearität zu vermeiden. Perfekte Multikollinearität liegt vor, wenn sich eine der erklärenden Variablen vollständig durch eine Linearkombination anderer erklärender Variablen ergibt. Genau dies wäre der Fall, wenn man auch die Dummy für das Brettspiel aufnähme: Sofern die Dummys für andere Spielekategorien den Wert null annehmen, muss nämlich die Brettspieldummy den Wert eins annehmen. Hat hingegen eine der anderen Dummies den Wert eins, so muss die Brettspieldummy null sein. An dieser Beschreibung sieht man, dass sich der Wert der Brettspieldummy eindeutig aus den Werten der anderen Dummies ergibt. Die Information ist also bereits vollständig in den anderen Dummies enthalten. c) Der P-Wert zeigt an, dass der Koeffizient bei einem Signifikanzniveau von 10 % signifikant von null verschieden ist: Der Umsatz bei Kartenspielen ist im Vergleich zu Brettspielen um durchschnittlich 2,6 Cent niedriger, sofern alle anderen Variablen (Werbung, Alter, Preis und Spielerzahl) konstant bleiben. Läge man ein 5 %iges Niveau zugrunde, so könnte man keinen signifikanten Umsatzunterschied zwischen Karten- und Brettspiel bei ansonsten gleichen Bedingungen feststellen. d) Es muss ein partieller F-Test durchgeführt werden, der das unrestringierte Modell (mit Spieletyp) mit dem restringierten Modell (ohne Spieletyp) vergleicht. 1. 2.

H : β_ _ _ = β_ _ Prüfgröße: F

3. 4.

5.

_

,

= β_ _

=

=0

H : β_

∑

_

≠ 0 fü r mind. ein j (j=2,3,4).

∑ ∑

/( /(

)

)

.

Dabei ist k die Zahl der Kategorien (hier k = 4), m die Zahl der Regressoren im unrestringierten Modell (hier m = 7) und n die Zahl der Beobachtungen (hier n =3687).  = 5 %. Aus der F-Tabelle mit 3 Zähler- und (näherungsweise) 1.000 Nenner-Freiheitsgraden erhält man den kritischen Wert 2,61. Lehne die Nullhypothese ab, wenn der berechnete Wert der Prüfgröße größer als 2,61 ist. Berechnung:

f= 6.

_

( ,

, ,

/( .

)/(

) )

= 1,29.

Entscheidung: Die Nullhypothese kann nicht abgelehnt werden. Ein signifikanter Erklärungsbeitrag des Spieletyps für den Umsatz ist aus der Regression nicht erkennbar.

e) Betrachtet man in der Regression lediglich die Kategorien des Spieletyps und den Umsatz, so entspricht das der Fragestellung der einfachen Varianzanalyse. Tatsächlich lässt sich zeigen, dass der F-Test aus einer derartigen Regression auch rechnerisch dem F-Test der Varianzanalyse entspricht. Hier zeigt der F-Test der „einfachen“ Regression mit seinem PWert von nahezu null an, dass der Spieletyp einen signifikanten Erklärungswert für den Umsatz hat. Dieses Ergebnis widerspricht demjenigen aus dem partiellen F-Test des vorherigen Aufgabenteils: In der multiplen Regression konnte kein signifikanter Einfluss des Spieletyps festgestellt werden. Der Unterschied kommt dadurch zustande, dass die multiple Regression partielle Effekte misst, also den Einfluss des Spieletyps unter Konstanthalten anderer wichtiger Einflussfaktoren bestimmt. Dieser Vergleich ist geeigneter, daher ist das Ergebnis aus der Teilaufgabe c) vorzuziehen.

194

13 Qualitative Einflussfaktoren

Aufgabe 13.5-2 a) Der P-Wert des F-Tests („Prob > F = 0.0000“) besagt, dass mindestens einer der Regressionskoeffizienten signifikant von null verschieden ist. Damit hat die Regression einen systematischen „Erklärungswert“. Der Determinationskoeffizient ist mit R² = 0,5570 recht hoch: 55,70 % der Variation des Umsatzes kann aus der rechten Seite der Regressionsgleichung abgeleitet werden. Die Anpassung der beobachteten Umsätze durch die Regressoren gelingt gut. b) Der Koeffizient der Werbung ist insignifikant, daher ist kein Einfluss der Werbung auf den Umsatz feststellbar. Alle anderen Koeffizienten sind bei jedem üblichen Signifikanzniveau signifikant von null verschieden. Für jede Stufe, die das Produkt im Test schlechter bewertet wird, sinkt der Umsatz im Schnitt um 516 € bei Konstanz aller weiteren Faktoren. Mit jeder Zunahme des Preises um eine Einheit (1 € pro 100 ml) sinkt der Umsatz durchschnittlich um 95 €, sofern alle anderen Faktoren konstant sind. Handelt es sich um ein Kombiprodukt, so ist der Umsatz im Schnitt um 33 € höher bei ansonsten gleichen Faktoren. c) Der einfache Mittelwertvergleich ergibt, dass der absolute Umsatzunterschied nur 3 € beträgt und insignifikant ist. Demzufolge sind aus dem Vergleich zwischen Kombiprodukten und einfachen Shampoos keine Umsatzunterschiede feststellbar. Zu einer genau gegenteiligen Schlussfolgerung kommt man allerdings aus der multiplen Regression im Aufgabenteil a). Hier wird ein signifikanter Umsatzunterschied in der Höhe von 33 € festgestellt. Dabei handelt es sich um einen partiellen Effekt, denn im Umsatzvergleich sind andere Faktoren (Preis, Testergebnis) herausgerechnet. Kombiprodukte und reine Duschgels erzielen also in einem pauschalen Vergleich den gleichen Umsatz. Führt man den Vergleich hingegen so durch, dass man Produkte mit selbem Preis und selbem Testergebnis vergleicht, dann weisen Kombiprodukte einen deutlich höheren Durchschnittsumsatz auf. Die multiple Regression ist daher besser geeignet, die Ausgangsfrage zu beantworten. d) Der Koeffizient der Dummyvariablen misst den Unterschied im Durchschnitt im Vergleich zur Basiskategorie. Kommen ansonsten keine weiteren Variablen vor, so kann man die Koeffizienten direkt aus den einfachen Durchschnitten bestimmen: β ist der Durchschnittsumsatz der Basiskategorie (hier 6072) und β der Unterschied, sofern es ein Kombiprodukt ist (6.075 – 6.072 = 3), so dass sich ergibt: Umsatz = 6.072 + 3D_Duschgel. Der P-Wert muss dem P-Wert aus dem Test auf Mittelwertvergleich (bei gleichen Varianzen) entsprechen, also wie in Aufgabenteil b) genannt, 68,02 % betragen.

196

Wahrscheinlichkeitstabellen

Wahrscheinlichkeitstabellen Standard-Normalverteilung (Werte der Verteilungsfunktion FSt(z)) z

0

1

2

3

4

5

6

7

8

9

3, 2,9 2,8 2,7 2,6 2,5 2,4 2,3 2,2 2,1 2,0 1,9 1,8 1,7 1,6 1,5 1,4 1,3 1,2 1,1 1,0 ,9 ,8 ,7 ,6 ,5 ,4 ,3 ,2 ,1 ,0

,0013 ,0019 ,0026 ,0035 ,0047 ,0062 ,0082 ,0107 ,0139 ,0179 ,0228 ,0287 ,0359 ,0446 ,0548 ,0668 ,0808 ,0968 ,1151 ,1357 ,1587 ,1841 ,2119 ,2420 ,2743 ,3085 ,3446 ,3821 ,4207 ,4602 ,5000

,0010 ,0018 ,0025 ,0034 ,0045 ,0060 ,0080 ,0104 ,0136 ,0174 ,0222 ,0281 ,0352 ,0436 ,0537 ,0655 ,0793 ,0951 ,1131 ,1335 ,1562 ,1814 ,2090 ,2389 ,2709 ,3050 ,3409 ,3783 ,4168 ,4562 ,4960

,0007 ,0017 ,0024 ,0033 ,0044 ,0059 ,0078 ,0102 ,0132 ,0170 ,0217 ,0274 ,0344 ,0427 ,0526 ,0643 ,0778 ,0934 ,1112 ,1314 ,1539 ,1788 ,2061 ,2358 ,2676 ,3015 ,3372 ,3745 ,4129 ,4522 ,4920

,0005 ,0017 ,0023 ,0032 ,0043 ,0057 ,0075 ,0099 ,0129 ,0166 ,0212 ,0268 ,0336 ,0418 ,0516 ,0630 ,0764 ,0918 ,1093 ,1292 ,1515 ,1762 ,2033 ,2327 ,2643 ,2981 ,3336 ,3707 ,4090 ,4483 ,4880

,0003 ,0016 ,0023 ,0031 ,0041 ,0055 ,0073 ,0096 ,0126 ,0162 ,0207 ,0262 ,0329 ,0409 ,0505 ,0618 ,0749 ,0901 ,1075 ,1271 ,1492 ,1736 ,2005 ,2297 ,2611 ,2946 ,3300 ,3669 ,4052 ,4443 ,4840

,0002 ,0016 ,0022 ,0030 ,0040 ,0054 ,0071 ,0094 ,0122 ,0158 ,0202 ,0256 ,0322 ,0401 ,0495 ,0606 ,0735 ,0885 ,1056 ,1251 ,1469 ,1711 ,1977 ,2266 ,2578 ,2912 ,3264 ,3632 ,4013 ,4404 ,4801

,0002 ,0015 ,0021 ,0029 ,0039 ,0052 ,0069 ,0091 ,0119 ,0154 ,0197 ,0250 ,0314 ,0392 ,0485 ,0594 ,0722 ,0869 ,1038 ,1230 ,1446 ,1685 ,1949 ,2236 ,2546 ,2877 ,3228 ,3594 ,3974 ,4364 ,4761

,0001 ,0015 ,0021 ,0028 ,0038 ,0051 ,0068 ,0089 ,0116 ,0150 ,0192 ,0244 ,0307 ,0384 ,0475 ,0582 ,0708 ,0853 ,1020 ,1210 ,1423 ,1660 ,1922 ,2206 ,2514 ,2843 ,3192 ,3557 ,3936 ,4325 ,4721

,0001 ,0014 ,0020 ,0027 ,0037 ,0049 ,0066 ,0087 ,0113 ,0146 ,0188 ,0238 ,0300 ,0375 ,0465 ,0570 ,0694 ,0838 ,1003 ,1190 ,1401 ,1635 ,1894 ,2177 ,2483 ,2810 ,3156 ,3520 ,3897 ,4286 ,4681

,0000 ,0014 ,0019 ,0026 ,0036 ,0048 ,0064 ,0084 ,0110 ,0143 ,0183 ,0233 ,0294 ,0367 ,0455 ,0559 ,0681 ,0823 ,0985 ,1170 ,1379 ,1611 ,1867 ,2148 ,2451 ,2776 ,3121 ,3483 ,3859 ,4247 ,4641

Wahrscheinlichkeitstabellen

197

Fortsetzung Standardnormalverteilung

z ,0 ,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3

0 ,5000 ,5398 ,5793 ,6179 ,6554 ,6915 ,7257 ,7580 ,7881 ,8159 ,8413 ,8643 ,8849 ,9032 ,9192 ,9332 ,9452 ,9554 ,9641 ,9713 ,9772 ,9821 ,9861 ,9893 ,9918 ,9938 ,9953 ,9965 ,9974 ,9981 ,9987

1 ,5040 ,5438 ,5832 ,6217 ,6591 ,6950 ,7291 ,7611 ,7910 ,8186 ,8438 ,8665 ,8869 ,9049 ,9207 ,9345 ,9463 ,9594 ,9648 ,9719 ,9778 ,9826 ,9864 ,9896 ,9920 ,9940 ,9955 ,9966 ,9975 ,9982 ,9990

2 ,5080 ,5478 ,5871 ,6255 ,6628 ,6985 ,7324 ,7642 ,7939 ,8212 ,8461 ,8686 ,8888 ,9066 ,9222 ,9357 ,9474 ,9573 ,9656 ,9726 ,9783 ,9830 ,9868 ,9898 ,9922 ,9941 ,9956 ,9967 ,9976 ,9982 ,9993

3 ,5120 ,5517 ,5910 ,6293 ,6664 ,7019 ,7357 ,7673 ,7967 ,8238 ,8485 ,8708 ,8907 ,9082 ,9236 ,9370 ,9484 ,9582 ,9664 ,9732 ,9788 ,9834 ,9871 ,9901 ,9925 ,9943 ,9957 ,9968 ,9977 ,9983 ,9995

4 ,5160 ,5557 ,5948 ,6331 ,6700 ,7054 ,7389 ,7703 ,7995 ,8264 ,8508 ,8729 ,8925 ,9099 ,9251 ,9382 ,9495 ,9591 ,9671 ,9738 ,9793 ,9838 ,9874 ,9904 ,9927 ,9945 ,9959 ,9969 ,9977 ,9984 ,9997

5 ,5199 ,5596 ,5987 ,6368 ,6736 ,7088 ,7422 ,7734 ,8023 ,8289 ,8531 ,8749 ,8944 ,9115 ,9265 ,9394 ,9505 ,9599 ,9678 ,9744 ,9798 ,9842 ,9878 ,9906 ,9929 ,9946 ,9960 ,9970 ,9978 ,9984 ,9998

6 ,5239 ,5636 ,6026 ,6406 ,6772 ,7123 ,7454 ,7764 ,8051 ,8315 ,8554 ,8770 ,8962 ,9131 ,9278 ,9406 ,9515 ,9608 ,9686 ,9750 ,9803 ,9846 ,9881 ,9909 ,9931 ,9948 ,9961 ,9971 ,9979 ,9985 ,9998

7 ,5279 ,5675 ,6064 ,6443 ,6808 ,7157 ,7486 ,7794 ,8078 ,8340 ,8577 ,8790 ,8980 ,9147 ,9292 ,9418 ,9525 ,9616 ,9693 ,9756 ,9808 ,9850 ,9884 ,9911 ,9932 ,9949 ,9962 ,9972 ,9979 ,9985 ,9999

8 ,5319 ,5714 ,6103 ,6480 ,6844 ,7190 ,7517 ,7823 ,8106 ,8365 ,8599 ,8810 ,8997 ,9162 ,9306 ,9430 ,9535 ,9625 ,9700 ,9762 ,9812 ,9854 ,9887 ,9913 ,9934 ,9951 ,9963 ,9973 ,9980 ,9986 ,9999

9 ,5359 ,5753 ,6141 ,6517 ,6879 ,7224 ,7549 ,7852 ,8133 ,8389 ,8621 ,8830 ,9015 ,9177 ,9319 ,9441 ,9545 ,9633 ,9706 ,9767 ,9817 ,9857 ,9890 ,9916 ,9936 ,9952 ,9964 ,9974 ,9981 ,9986 1,0000

198

Wahrscheinlichkeitstabellen

Quantile der t-Verteilung df: Zahl der Freiheitsgrade Die Verteilung ist symmetrisch, deswegen gilt t

= −t . 1

df 1 2 3 4 5

0,75 1,000 ,816 ,765 ,741 ,727

0,80 1,376 1,061 ,978 ,941 ,920

0,85 1,963 1,386 1,250 1,190 1,156

0,90 3,078 1,886 1,638 1,533 1,476

0,95 6,314 2,920 2,353 2,132 2,015

0,975 12,706 4,303 3,182 2,776 2,571

0,99 31,821 6,965 4,541 3,747 3,365

0,995 63,657 9,925 5,841 4,604 4,032

0,9995 636,619 31,598 12,941 8,610 6,859

6 7 8 9 10

,718 ,711 ,706 ,703 ,700

,906 ,896 ,889 ,883 ,879

1,134 1,119 1,108 1,100 1,093

1,440 1,415 1,397 1,383 1,372

1,943 1,895 1,860 1,833 1,812

2,447 2,365 2,306 2,262 2,228

3,143 2,998 2,896 2,821 2,764

3,707 3,499 3,355 3,250 3,169

5,959 5,405 5,041 4,781 4,587

11 12 13 14 15

,697 ,695 ,694 ,692 ,691

,876 ,873 ,870 ,868 ,866

1,088 1,083 1,079 1,076 1,074

1,363 1,356 1,350 1,345 1,341

1,796 1,782 1,771 1,761 1,753

2,201 2,179 2,160 2,145 2,131

2,718 2,681 2,650 2,624 2,602

3,106 3,055 3,012 2,977 2,947

4,437 4,318 4,221 4,140 4,073

16 17 18 19 20

,690 ,689 ,688 ,688 ,687

,865 ,863 ,862 ,861 ,860

1,071 1,069 1,067 1,066 1,064

1,337 1,333 1,330 1,328 1,325

1,746 1,740 1,734 1,729 1,725

2,120 2,110 2,101 2,093 2,086

2,583 2,567 2,552 2,539 2,528

2,921 2,898 2,878 2,861 2,845

4,015 3,965 3,922 3,883 3,850

21 22 23 24 25

,686 ,686 ,685 ,685 ,684

,859 ,858 ,858 ,857 ,856

1,063 1,061 1,060 1,059 1,058

1,323 1,321 1,319 1,318 1,316

1,721 1,717 1,714 1,711 1,708

2,080 2,074 2,069 2,064 2,060

2,518 2,508 2,500 2,492 2,485

2,831 2,819 2,807 2,797 2,787

3,819 3,792 3,767 3,745 3,725

26 27 28 29 30

,684 ,684 ,683 ,683 ,683

,856 ,855 ,855 ,854 ,854

1,058 1,057 1,056 1,055 1,055

1,315 1,314 1,313 1,311 1,310

1,706 1,703 1,701 1,699 1,697

2,056 2,052 2,048 2,045 2,042

2,479 2,473 2,467 2,462 2,457

2,779 2,771 2,763 2,756 2,750

3,707 3,690 3,674 3,659 3,646

40 60 120 

,681 ,679 ,677 ,674

,851 ,848 ,845 ,842

1,050 1,046 1,041 1,036

1,303 1,296 1,289 1,282

1,684 1,671 1,658 1,645

2,021 2,000 1,980 1,960

2,423 2,390 2,358 2,326

2,704 2,660 2,617 2,576

3,551 3,460 3,373 3,291

Wahrscheinlichkeitstabellen

199

Quantile der Chi-Quadrat-Verteilung df: Zahl der Freiheitsgrade

1 df 1 2 3 4 5

0,0050 ,000 ,010 ,072 ,207 ,412

0,010 ,000 ,020 ,115 ,297 ,554

0,025 ,001 ,051 ,216 ,484 ,831

0,050 ,004 ,103 ,352 ,711 1,145

0,950 3,841 5,991 7,815 9,488 11,070

0,975 5,024 7,378 9,348 11,143 12,832

0,990 6,635 9,210 11,345 13,277 15,086

0,995 7,879 10,597 12,838 14,860 16,750

6 7 8 9 10

,676 ,989 1,344 1,735 2,156

,872 1,239 1,646 2,088 2,558

1,237 1,690 2,180 2,700 3,247

1,635 2,167 2,733 3,325 3,940

12,592 14,067 15,507 16,919 18,307

14,449 16,013 17,535 19,023 20,483

16,812 18,475 20,090 21,666 23,209

18,548 20,278 21,955 23,589 25,188

11 12 13 14 15

2,603 3,074 3,565 4,075 4,601

3,053 3,571 4,107 4,660 5,229

3,816 4,404 5,009 5,629 6,262

4,575 5,226 5,892 6,571 7,261

19,675 21,026 22,362 23,685 24,996

21,920 23,337 24,736 26,119 27,488

24,725 26,217 27,688 29,141 30,578

26,757 28,300 29,819 31,319 32,801

16 17 18 19 20

5,142 5,697 6,265 6,884 7,434

5,812 6,408 7,015 7,633 8,260

6,908 7,564 8,231 8,907 9,591

7,962 8,672 9,390 10,117 10,851

26,296 27,587 28,869 30,144 31,410

28,845 30,191 31,526 32,852 34,170

32,000 33,409 34,805 36,191 37,566

34,267 35,718 37,156 38,582 39,997

21 22 23 24 25

8,034 8,643 9,260 9,886 10,520

8,897 9,542 10,196 10,856 11,524

10,283 10,982 11,689 12,401 13,120

11,591 12,338 13,091 13,848 14,611

32,671 33,924 35,172 36,415 37,652

35,479 36,781 38,076 39,364 40,646

38,932 40,289 41,638 42,980 44,314

41,401 42,796 44,181 45,558 46,928

26 27 28 29 30

11,160 11,808 12,461 13,121 13,787

12,198 12,879 13,565 14,256 14,953

13,844 14,573 15,308 16,047 16,791

15,379 16,151 16,928 17,708 18,493

38,885 40,113 41,337 42,557 43,773

41,923 43,194 44,461 45,722 46,979

45,642 46,963 48,278 49,588 50,892

48,290 49,645 50,993 52,336 53,672

200

Wahrscheinlichkeitstabellen

Quantile der F-Verteilung bei  = 5 % df : Zählerfreiheitsgrade (Freiheitsgrade der größeren Varianz), df : Nennerfreiheitsgrade df df

1

2

3

4

5

6

7

8

9

10

1

161,45

199,50

215,71

224,58

230,16

233,99

236,77

238,88

240,54

241,88

2

18,51

19,00

19,16

19,25

19,30

19,33

19,35

19,37

19,38

19,40

3

10,13

9,55

9,28

9,12

9,01

8,94

8,89

8,85

8,81

8,79

4

7,71

6,94

6,59

6,39

6,26

6,16

6,09

6,04

6,00

5,96

5

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,77

4,74

6

5,99

5,14

4,76

4,53

4,39

4,28

4,21

4,15

4,10

4,06

7

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,68

3,64

8

5,32

4,46

4,07

3,84

3,69

3,58

3,50

3,44

3,39

3,35

9

5,12

4,26

3,86

3,63

3,48

3,37

3,29

3,23

3,18

3,14

10

4,96

4,10

3,71

3,48

3,33

3,22

3,14

3,07

3,02

2,98

15

4,54

3,68

3,29

3,06

2,90

2,79

2,71

2,64

2,59

2,54

20

4,35

3,49

3,10

2,87

2,71

2,60

2,51

2,45

2,39

2,35

25

4,24

3,39

2,99

2,76

2,60

2,49

2,40

2,34

2,28

2,24

30

4,17

3,32

2,92

2,69

2,53

2,42

2,33

2,27

2,21

2,16

40

4,08

3,23

2,84

2,61

2,45

2,34

2,25

2,18

2,12

2,08

50

4,03

3,18

2,79

2,56

2,40

2,29

2,20

2,13

2,07

2,03

60

4,00

3,15

2,76

2,53

2,37

2,25

2,17

2,10

2,04

1,99

70

3,98

3,13

2,74

2,50

2,35

2,23

2,14

2,07

2,02

1,97

100

3,94

3,09

2,70

2,46

2,31

2,19

2,10

2,03

1,97

1,93

1000

3,85

3,00

2,61

2,38

2,22

2,11

2,02

1,95

1,89

1,84

Wahrscheinlichkeitstabellen

201

Fortsetzung

df 15

20

25

30

40

50

60

70

100

1000

1

245,95

248,01

249,26

250,10

251,14

251,77

252,20

252,50

253,04

254,19

2

19,43

19,45

19,46

19,46

19,47

19,48

19,48

19,48

19,49

19,49

3

8,70

8,66

8,63

8,62

8,59

8,58

8,57

8,57

8,55

8,53

4

5,86

5,80

5,77

5,75

5,72

5,70

5,69

5,68

5,66

5,63

5

4,62

4,56

4,52

4,50

4,46

4,44

4,43

4,42

4,41

4,37

6

3,94

3,87

3,83

3,81

3,77

3,75

3,74

3,73

3,71

3,67

7

3,51

3,44

3,40

3,38

3,34

3,32

3,30

3,29

3,27

3,23

8

3,22

3,15

3,11

3,08

3,04

3,02

3,01

2,99

2,97

2,93

9

3,01

2,94

2,89

2,86

2,83

2,80

2,79

2,78

2,76

2,71

10

2,85

2,77

2,73

2,70

2,66

2,64

2,62

2,61

2,59

2,54

15

2,40

2,33

2,28

2,25

2,20

2,18

2,16

2,15

2,12

2,07

20

2,20

2,12

2,07

2,04

1,99

1,97

1,95

1,93

1,91

1,85

25

2,09

2,01

1,96

1,92

1,87

1,84

1,82

1,81

1,78

1,72

30

2,01

1,93

1,88

1,84

1,79

1,76

1,74

1,72

1,70

1,63

40

1,92

1,84

1,78

1,74

1,69

1,66

1,64

1,62

1,59

1,52

50

1,87

1,78

1,73

1,69

1,63

1,60

1,58

1,56

1,52

1,45

60

1,84

1,75

1,69

1,65

1,59

1,56

1,53

1,52

1,48

1,40

70

1,81

1,72

1,66

1,62

1,57

1,53

1,50

1,49

1,45

1,36

100

1,77

1,68

1,62

1,57

1,52

1,48

1,45

1,43

1,39

1,30

1000

1,68

1,58

1,52

1,47

1,41

1,36

1,33

1,31

1,26

1,11

df

202

Wahrscheinlichkeitstabellen

Quantile der F-Verteilung bei  = 1 % df : Zählerfreiheitsgrade (Freiheitsgrade der größeren Varianz), df : Nennerfreiheitsgrade df df

1

2

3

4

5

6

7

8

9

10

1 4052,20 4999,50 5403,40 5624,60 5763,60 5859,00 5928,40 5981,10 6022,50 6055,80 2

98,50

99,00

99,17

99,25

99,30

99,33

99,36

99,37

99,39

99,40

3

34,12

30,82

29,46

28,71

28,24

27,91

27,67

27,49

27,35

27,23

4

21,20

18,00

16,69

15,98

15,52

15,21

14,98

14,80

14,66

14,55

5

16,26

13,27

12,06

11,39

10,97

10,67

10,46

10,29

10,16

10,05

6

13,75

10,92

9,78

9,15

8,75

8,47

8,26

8,10

7,98

7,87

7

12,25

9,55

8,45

7,85

7,46

7,19

6,99

6,84

6,72

6,62

8

11,26

8,65

7,59

7,01

6,63

6,37

6,18

6,03

5,91

5,81

9

10,56

8,02

6,99

6,42

6,06

5,80

5,61

5,47

5,35

5,26

10

10,04

7,56

6,55

5,99

5,64

5,39

5,20

5,06

4,94

4,85

15

8,68

6,36

5,42

4,89

4,56

4,32

4,14

4,00

3,89

3,80

20

8,10

5,85

4,94

4,43

4,10

3,87

3,70

3,56

3,46

3,37

25

7,77

5,57

4,68

4,18

3,85

3,63

3,46

3,32

3,22

3,13

30

7,56

5,39

4,51

4,02

3,70

3,47

3,30

3,17

3,07

2,98

40

7,31

5,18

4,31

3,83

3,51

3,29

3,12

2,99

2,89

2,80

50

7,17

5,06

4,20

3,72

3,41

3,19

3,02

2,89

2,78

2,70

60

7,08

4,98

4,13

3,65

3,34

3,12

2,95

2,82

2,72

2,63

70

7,01

4,92

4,07

3,60

3,29

3,07

2,91

2,78

2,67

2,59

100

6,90

4,82

3,98

3,51

3,21

2,99

2,82

2,69

2,59

2,50

1000

6,66

4,63

3,80

3,34

3,04

2,82

2,66

2,53

2,43

2,34

Wahrscheinlichkeitstabellen

203

Fortsetzung

df 15

df

20

25

30

40

50

60

70

100

1000

1 6157,30 6208,70 6239,80 6260,60 6286,80 6302,50 6313,00 6320,60 6334,10 6362,70 2

99,43

99,45

99,46

99,47

99,47

99,48

99,48

99,48

99,49

99,50

3

26,87

26,69

26,58

26,50

26,41

26,35

26,32

26,29

26,24

26,14

4

14,20

14,02

13,91

13,84

13,75

13,69

13,65

13,63

13,58

13,47

5

9,72

9,55

9,45

9,38

9,29

9,24

9,20

9,18

9,13

9,03

6

7,56

7,40

7,30

7,23

7,14

7,09

7,06

7,03

6,99

6,89

7

6,31

6,16

6,06

5,99

5,91

5,86

5,82

5,80

5,75

5,66

8

5,52

5,36

5,26

5,20

5,12

5,07

5,03

5,01

4,96

4,87

9

4,96

4,81

4,71

4,65

4,57

4,52

4,48

4,46

4,41

4,32

10

4,56

4,41

4,31

4,25

4,17

4,12

4,08

4,06

4,01

3,92

15

3,52

3,37

3,28

3,21

3,13

3,08

3,05

3,02

2,98

2,88

20

3,09

2,94

2,84

2,78

2,69

2,64

2,61

2,58

2,54

2,43

25

2,85

2,70

2,60

2,54

2,45

2,40

2,36

2,34

2,29

2,18

30

2,70

2,55

2,45

2,39

2,30

2,25

2,21

2,18

2,13

2,02

40

2,52

2,37

2,27

2,20

2,11

2,06

2,02

1,99

1,94

1,82

50

2,42

2,27

2,17

2,10

2,01

1,95

1,91

1,88

1,82

1,70

60

2,35

2,20

2,10

2,03

1,94

1,88

1,84

1,81

1,75

1,62

70

2,31

2,15

2,05

1,98

1,89

1,83

1,78

1,75

1,70

1,56

100

2,22

2,07

1,97

1,89

1,80

1,74

1,69

1,66

1,60

1,45

1000

2,06

1,90

1,79

1,72

1,61

1,54

1,50

1,46

1,38

1,16