225 30 1MB
German Pages 224 Year 2012
Statistik für Wirtschaft und Technik von
Prof. Dr. Katja Specht TH Mittelhessen
Prof. Dr. Rebecca Bulander Hochschule Pforzheim
Prof. Dr. Dr. Wolfgang Gohout Hochschule Pforzheim
Oldenbourg Verlag München
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2012 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Dr. Stefan Giesen Herstellung: Constanze Müller Titelbild: thinkstockphotos.de Einbandgestaltung: hauser lacour Gesamtherstellung: Grafik & Druck GmbH, München Dieses Papier ist alterungsbeständig nach DIN/ISO 9706. ISBN 978-3-486-71356-5 eISBN 978-3-486-71572-9
Vorwort Dieses Lehrbuch soll eine einf¨ uhrende Statistik–Vorlesung im Bereich der Wirtschaftswissenschaften, der Ingenieurwisschenschaften oder verwandter Gebiete un¨ terst¨ utzen. Ferner sollte es dank vieler Beispiele und Ubungsaufgaben bis zu einem gewissen Grad auch zum Selbststudium taugen. Den Autoren geht es vor allem um die Anwendung und Anwendbarkeit der Formeln und Verfahren, ohne dabei die wissenschaftliche Genauigkeit und das Verst¨andnis der Formeln und Verfahren zu vernachl¨assigen. Die Autoren halten Vorlesungen zur Statistik an der Technischen Hochschule Mittelhessen in Friedberg und an der Hochschule Pforzheim. Nicht nur den dortigen Studierenden soll durch dieses Lehrbuch eine zus¨atzliche Hilfe bei dem recht abstrakten Studium der Statistik angeboten werden. Konkrete Fragestellungen in der fiktiven Firma Pharmalift GmbH sollen im deskriptiven Teil die Anwendungsm¨oglichkeiten illustrieren. Den Kapiteln sind jeweils ¨ Lernziele vorangestellt, und Ubungsaufgaben dienen am Ende eines Kapitels der Fe¨ stigung des Lernstoffs. Die L¨osungen der Ubungsaufgaben finden die Leser als PDF– Download auf der Internetseite des Oldenbourg Verlages: www.oldenbourg.de
Sicherlich ist auch dieses Lehrbuch nicht frei von Fehlern, obwohl sich alle Beteiligten nat¨ urlich große M¨ uhe gegeben haben, solche zu vermeiden. Hinweise auf Fehler, Erg¨anzungen oder Verbesserungsvorschl¨age sind stets herzlich willkommen. F¨ ur die gute Zusammenarbeit mit dem Verlag m¨ochten die Autoren stellvertretend dem zust¨andigen Lektor, Herrn Dr. Stefan Giesen, herzlich danken. Katja Specht Friedberg
Rebecca Bulander Pforzheim
Wolfgang Gohout Pforzheim
Inhaltsverzeichnis Vorwort
V
1 Grundlagen der deskriptiven Statistik
1
1.1 Bereiche der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2 Statistische Einheiten und Massen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3 Merkmale und Skalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.4 Phasen einer statistischen Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.4.1 1.4.2 1.4.3 1.4.4 1.4.5 1.4.6
Zieldefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wissenschaftliche Fundierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Untersuchungsplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datengewinnung, -aufbereitung und -kontrolle . . . . . . . . . . . . . . . . Datenpr¨asentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenanalyse und Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11 11 12 13 14 14
1.5 Klassifikation von Datens¨atzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.6 Das Beispielunternehmen Pharmalift GmbH . . . . . . . . . . . . . . . . . . . . . . ¨ 1.7 Ubungsaufgaben ..................................................
16
2 Auswertung univariater Datens¨ atze
22 23
2.1 Nominale und ordinale Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.2 Kardinale Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.3 Parameter einer empirischen Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.3.1 2.3.2 2.3.3 2.3.4 2.3.5
Perzentile und Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Streuungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schiefeparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . W¨olbungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33 37 44 50 51
2.4 Grafischer Vergleich von Datens¨atzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 2.5 Ubungsaufgaben ..................................................
52 54
Inhaltsverzeichnis
VIII 3 Auswertung bivariater Datens¨ atze
57
3.1 H¨aufigkeitskonzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.1.1 H¨aufigkeitstabelle und Randverteilung . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Bedingte Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Statistische Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58 61 62
3.2 Zusammenhangsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
3.2.1 Zusammenhangsmaße f¨ ur nominale Merkmale . . . . . . . . . . . . . . . . 3.2.2 Zusammenhangsmaße f¨ ur ordinale Merkmale . . . . . . . . . . . . . . . . . 3.2.3 Zusammenhangsmaße f¨ ur kardinale Merkmale . . . . . . . . . . . . . . . .
64 67 69
3.3 Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
3.3.1 Lineare Einfachregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Nichtlineare Einfachregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 3.4 Ubungsaufgaben ..................................................
76 82
4 Wahrscheinlichkeitsrechnung
84 87
4.1 Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
4.2 Ereignisverkn¨ upfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
4.3 Wahrscheinlichkeitsbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
4.3.1 Klassischer Wahrscheinlichkeitsbegriff . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Frequentistischer Wahrscheinlichkeitsbegriff . . . . . . . . . . . . . . . . . . 4.3.3 Axiomatischer Wahrscheinlichkeitsbegriff . . . . . . . . . . . . . . . . . . . . .
91 93 94
4.4 S¨atze der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
4.5 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
4.6 Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
101
4.7 Stochastische Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 4.8 Ubungsaufgaben ................................................
103
5 Zufallsvariablen
107 111
5.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
113
5.1.1 Wahrscheinlichkeitsfunktion und Verteilungsfunktion . . . . . . . . 5.1.2 Wichtige Funktionalparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
113 115
5.2 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
118
5.2.1 Dichte und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Wichtige Funktionalparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
118 120
Inhaltsverzeichnis
IX
5.3 Diskrete bivariate Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
123
5.3.1 Gemeinsame Wahrscheinlichkeitsfunktion und gemeinsame Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
123 125
5.4 Stetige bivariate Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
126
5.4.1 Gemeinsame Dichte- und Verteilungsfunktion . . . . . . . . . . . . . . . 5.4.2 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
126 128
5.5 Verteilungsfreie Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 5.6 Ubungsaufgaben ................................................
130
6 Spezielle Verteilungen
131 135
6.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
136
6.1.1 Diskrete Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2 Verteilungen im Urnenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.3 Poisson–Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
136 137 144
6.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
147
6.2.1 Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.2 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.3 Normalverteilung und verwandte Verteilungen . . . . . . . . . . . . . . . ¨ 6.3 Ubungsaufgaben ................................................
147 148 149
7 Sch¨ atztheorie
157 161
7.1 Punktsch¨atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
162
7.1.1 Beurteilungskriterien f¨ ur Sch¨atzer . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Konstruktionsprinzipien f¨ ur Sch¨atzer . . . . . . . . . . . . . . . . . . . . . . . .
163 167
7.2 Intervallsch¨atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
171
7.2.1 Schwankungsintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Konfidenzintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3 Erforderlicher Stichprobenumfang . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 7.3 Ubungsaufgaben ................................................
171 172 174
8 Testtheorie 8.1 Signifikanztest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 8.1.2 8.1.3 8.1.4 8.1.5
Ziel und Ablauf eines Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hypothesenbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Signifikanzniveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pr¨ ufgr¨oße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ablehnbereich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
177 179 180 180 180 182 183 183
Inhaltsverzeichnis
X
8.2 Homogenit¨atstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
188
8.3 Unabh¨angigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
190
8.4 Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
192
8.4.1 χ2 –Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Kolmogoroff–Smirnoff–Anpassungstest . . . . . . . . . . . . . . . . . . . . . . 8.4.3 Anderson–Darling–Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . .
192 193 195
8.5 Test auf linearen Einfluss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 8.6 Ubungsaufgaben ................................................
196 199
Anhang
203
Literaturverzeichnis
209
Stichwortverzeichnis
211
Kapitel 1 Grundlagen der deskriptiven Statistik Lernziele • Welche Bereiche werden in der Statistik unterschieden? • Was versteht man unter einem Merkmalstr¨ager und einer Auswahleinheit? • Was ist ein Merkmal und was seine Merkmalsauspr¨agungen? • Was bezeichnet der Begriff Grundgesamtheit? • Wie k¨onnen Bestands- und Bewegungsmasse unterschieden werden? • Wie unterscheiden sich die Nominal–, Ordinal– und Kardinalskala? • Wie k¨onnen Merkmale nach dem Wertebereich klassifiziert werden? • Wie heißen die Phasen einer statistischen Analyse? • Welcher Unterschied besteht zwischen den drei Begriffen: univariater, bivariater und multivariater Datensatz? In Kapitel 1 werden wesentliche Grundbegriffe der Statistik definiert und grundlegende Konzepte erl¨autert. Diese bilden die Basis f¨ ur alle weiteren Kapitel. F¨ ur ein besseres Verst¨andnis soll deshalb zun¨achst auf die drei Anwendungsbereiche der Statistik eingegangen werden. Anschließend werden die Begriffe statistische Einheiten und Massen sowie Merkmale und Skalen erl¨autert. In dem Abschnitt Phasen einer statistischen Analyse werden die Grundlagen vermittelt, welche bei der Durchf¨ uhrung einer statistischen Erhebung ben¨otigt werden. Danach wird auf die Klassifikationsm¨oglichkeiten von Datens¨atzen eingegangen. Das Kapitel schließt mit der Vorstellung des Beispielunternehmens Pharmalift, welches als Datengrundlage f¨ ur die Aufgaben im deskriptiven Teil dieses Lehrbuches herangezogen wird.
2
Kapitel 1. Grundlagen der deskriptiven Statistik
1.1
Bereiche der Statistik
Die statistische Methodenlehre, kurz Statistik genannt, befasst sich mit der Quantifizierung und Beschreibung von Informationen beziehungsweise Daten. Die statistische Methodenlehre kann in zwei Kategorien unterteilt werden: die Allgemeine Statistik und die Spezielle Statistik. Die Allgemeine Statistik kann wiederum in die folgenden drei Bereiche unterteilt werden: • Deskriptive Statistik [lateinisch descriptivus: beschreibend] Diese umfasst die Beschreibung und Komprimierung von (umfangreichen) Datens¨atzen und Zusammenh¨angen mittels Tabellen, grafischen Darstellungen und statistischen Parametern. • Wahrscheinlichkeitsrechnung [syn.: Stochastik] Diese verbindet die deskriptive Statistik mit der induktiven und befasst sich mit Zufallsereignissen, –variablen und –funktionen. • Induktive Statistik [syn.: inferentielle Statistik, statistische Inferenz] Diese gestattet Schlussfolgerungen von Stichproben auf die Gesamtheit. Dazu werden die statistische Sch¨atz– und Testtheorie sowie Entscheidungstheorie eingesetzt. W¨ahrend die deskriptive Statistik in diesem Lehrbuch die Kapitel 1 bis 3 umfasst, decken die restlichen Kapitel die Wahrscheinlichkeitsrechnung und die induktive Statistik ab. Unter der Speziellen Statistik wird die Anwendung von Statistik auf statistische Probleme in anderen Wissenschaften verstanden. Beispiele hierf¨ ur sind: Wirtschafts– und Bev¨olkerungsstatistik, Medizinstatistik, Soziometrie (Methode der empirischen Sozialforschung) und technische Statistik. Dar¨ uber hinaus gibt es in Deutschland, wie in anderen L¨andern, Institutionen, welche statistische Informationen bereitstellen. Hierbei werden amtliche und nichtamtliche Statistiken unterschieden. ¨ Amtliche Statistiken zeichnen sich dadurch aus, dass daf¨ ur vorgesehene Amter — teilweise f¨oderalistisch organisiert — statistische Erhebungen aufgrund von Gesetzen oder Rechtsverordnungen legalisiert durchf¨ uhren und z.B. im Internet bereitstellen. Beispiele f¨ ur Institutionen amtlicher Statistiken sind: das Statistische Bundesamt ¨ (www.destatis.de), die Statistischen Landes¨amter oder kommunalstatistische Amter. Nichtamtlichen Statistiken liegt keine Legalisierung aufgrund von Gesetzen oder Rechtsverordnungen zugrunde. Unter diesem Begriff werden Verb¨ande, Wirtschaftsforschungsinstitute sowie Markt– und Meinungsforschungsinstitute gefasst. Beispiele hierf¨ ur sind die Industrie– und Handelskammern, Gewerkschaften, der Sachverst¨andigenrat oder das IFO–Institut f¨ ur Wirtschaftsforschung e.V.
1.2. Statistische Einheiten und Massen
1.2
3
Statistische Einheiten und Massen
In diesem Kapitel wird auf die Begriffe Merkmalstr¨ager, Auswahleinheit, Grund– und Teilgesamtheit sowie auf die Massenbegriffe Bestands– und Bewegungsmasse n¨aher eingegangen. Diese Begriffsdefinitionen bilden die Basis f¨ ur alle weiteren Kapitel. Unter einem Merkmalstr¨ager eν mit ν = 1, . . . , n [syn.: Erhebungseinheit, Untersuchungseinheit, statistische Einheit, Element] wird ein Objekt (nat¨ urliche Einheiten, sozio-¨okonomische Einheit, Gegenstand oder Ereignis) verstanden, welches Ziel einer statistischen Untersuchung ist und ein bestimmtes Merkmal — messbare Eigenschaft — aufweist. Merkmalstr¨ager sollten bezogen auf die Zielsetzung einer statistischen Untersuchung anhand von zeitlichen, r¨aumlichen und/oder sachlichen Kriterien identifizierbar und abgrenzbar sein. Beispiele f¨ ur Merkmalstr¨ager sind: Personen, Unternehmen, Haushalte, Projekte oder Abstrakta. Der Begriff Auswahleinheit [syn.: Stichprobeneinheit] bezeichnet eine Einheit von Merkmalstr¨agern oder Teilen von Merkmalstr¨agern, die f¨ ur eine statistische Untersuchung erfasst werden. Beispiele f¨ ur Auswahleinheiten sind: Volkswirtschaften, Einwohner eines Landes, Haushalte oder Unternehmen. Zur besseren Verdeutlichung des Zusammenhangs zwischen den beiden Begriffen Merkmalstr¨ager und Auswahleinheit soll folgendes Beispiel dienen: Im Rahmen einer Umfrage soll die Verdienst” zufriedenheit“ von Arbeitnehmern in mehreren Unternehmen erhoben werden. Bei diesem Beispiel sind die Arbeitnehmer die Merkmalstr¨ager, welche das Merkmal Verdienstzufriedenheit“ aufweisen, und die Unternehmen, in denen die befragten ” Arbeitnehmer angestellt sind, stellen die Auswahleinheit der statistischen Untersuchung dar. Die Grundgesamtheit [syn.: Gesamtheit, Untersuchungsgesamtheit, Population, Kollektiv, statistische Masse] stellt eine nach zeitlichen, r¨aumlichen und/oder sachlichen Kriterien sinnvolle Zusammenfassung beziehungsweise Menge von Merkmalstr¨agern dar, die sich aus der Zielsetzung der statistischen Untersuchung ergibt: G = {eν
| eν erf¨ ullt Kriterien}
Der Umfang der Grundgesamtheit wird wie folgt angegeben: N = #G = |G|. Dabei wird zwischen einer endlichen Gesamtheit (Anzahl N der Merkmalstr¨ager ist endlich) oder einer unendlichen Gesamtheit (N → ∞) unterschieden. Zur Verdeutlichung soll auch hier wieder ein Beispiel angef¨ uhrt werden. Im Rahmen einer statistischen Erhebung zu dem Thema Zufriedenheit der Bewohner mit der Wasserversorgung sollen die Haushalte in der Stadt A befragt werden. In diesem Fall ist die Grundgesamtheit dieser Untersuchung die Gesamtheit aller Haushalte, die zu dieser Stadt geh¨oren. Die Merkmalstr¨ager sind die Haushalte mit dem sachlichen Abgrenzungskriterium eν ist Haushalt der Stadt A“. Gibt es in dieser Stadt 72 000 ” Haushalte, so folgt daraus: N = 72 000.
4
Kapitel 1. Grundlagen der deskriptiven Statistik
Eine Teilgesamtheit Gi stellt eine Teilmenge einer Gesamtheit dar und sollte nach zeitlichen, r¨aumlichen und/oder sachlogischen Abgrenzungskriterien u ¨berschneidungsfrei gebildet worden sein. Die Gesamtheit setzt sich aus k Teilmengen zusammen:
Gi ,
Gi ∩ Gj = ∅ ∀ i = j,
i = 1, . . . , k,
k
Gi = G
i=1
Der Umfang der Teilgesamtheit, d.h. die Anzahl der Elemente wird wie folgt angegeben: Ni = |Gi |. Ebenso ist festzuhalten, dass die einzelnen Teilgesamtheiten in Summe den Umfang der Grundgesamtheit ergeben: k
Ni = N
i=1
Wenn wir das Beispiel mit den 72 000 Haushalten in der Stadt A weiterf¨ uhren, so kann diese Grundgesamtheit in folgende vier u ¨berschneidungsfreie Teilmengen unterteilt werden: Mit i = 1, 2, 3, 4 sei G1 G2 G3 G4
: : : :
Haushalte Haushalte Haushalte Haushalte
in in in in
der der der der
Stadt Stadt Stadt Stadt
A A A A
ohne Kinder (N1 = 33 200) mit einem Kind (N2 = 17 800) mit zwei Kindern (N3 = 13 200) mit drei oder mehr Kindern (N4 = 7 800)
Der Umfang der Grundgesamtheit berechnet sich als Summe aus den Umf¨angen der vier Teilmengen: N = 33 200 + 17 800 + 13 200 + 7 800 = 72 000 Eine Teilgesamtheit kann auch aufgrund einer Teilerhebung von n < N Elementen gebildet werden und heißt Stichprobe. Nach dem oben genannten zeitlichen Abgrenzungskriterium werden bei einer Gesamtheit Bestands– und Bewegungsmassen unterschieden. Bestandsmassen werden zu einem bestimmten Zeitpunkt erfasst. Die Einheiten einer Bestandsmasse treten zu einem bestimmten Zeitpunkt in die Masse ein, verweilen eine gewisse Dauer darin und verlassen diese wieder. Typische Beispiele hierf¨ ur sind der Bestand von Ersatzteilen in einem Lager eines Unternehmens oder die Anzahl der Mitarbeiter, die in einem Unternehmen angestellt sind. Bewegungsmassen [syn.: Ereignis– oder Punktmasse] beziehen sich immer auf eine Zeitperiode. Die Einheiten einer Bewegungsmasse sind Ereignisse, die keine zeitliche Verweildauer in einer Masse aufweisen, sondern erst durch die Festlegung des Zeitintervalls zu einer Masse bestehend aus zeitpunktbezogenen Ereignissen zusammengefasst werden. Beispiele f¨ ur Bewegungsmassen sind die Geburten in einem Jahr oder die Krankmeldungen von Angestellten in einem Quartal.
1.3. Merkmale und Skalen
1.3
5
Merkmale und Skalen
Nachdem in Abschnitt 1.2 der Begriff Merkmalstr¨ager definiert wurde, wird im Folgenden n¨aher auf den Begriff Merkmal eingegangen. Ein Merkmal [syn.: Variable] ist eine messbare Eigenschaft eines Merkmalstr¨agers. So k¨onnen z.B. Personen als Merkmalstr¨ager auf bestimmte f¨ ur eine Untersuchung relevante Eigenschaften beziehungsweise Merkmale untersucht werden. Merkmale von Personen k¨onnen sein: Name, Geschlecht, Verdienstzufriedenheit, Funktionale Zuordnung im Unternehmen, Gr¨oße, Alter oder Gewicht. Eine Merkmalsauspr¨agung [syn.: Merkmalswert, Modalit¨at] ist definiert als eine konkrete Auspr¨agung eines Merkmals und kann verschiedene Kategorien, Abstufungen oder Werte annehmen. Merkmalsauspr¨agungen werden bei Merkmalstr¨agern gemessen. Unter einer Messung wird eine Abbildung einer Menge empirischer Objekte beziehungsweise Merkmalstr¨ager auf Elemente einer einfach strukturierten Menge verstanden, der sogenannten Skala (z.B. Menge der reellen Zahlen R). In diesem Fall wird einem Merkmalstr¨ager entsprechend seiner Merkmalsauspr¨agung f¨ ur ein bestimmtes Merkmal eine reelle Zahl zugeordnet. F¨ ur unser Beispiel mit den Personen ergeben sich f¨ ur zwei bestimmte Merkmalstr¨ager (Person 1 und Person 2) folgende Merkmalsauspr¨agungen:
Merkmal Name Geschlecht Funktionale Zuordnung Verdienstzufriedenheit Gr¨oße Gewicht Alter
Merkmalsauspr¨ agungen fu ¨ r Person 1: fu ¨ r Person 2: Linda Manfred Weiblich M¨annlich Marketing Vertrieb 2 = gut 3 = neutral mittelgroß groß 59,6 kg 90,8 kg 33 45
Die Werte einer Skala werden auch Skalenwerte genannt. Hinsichtlich der Skalen k¨onnen im Wesentlichen drei Typen unterschieden werden: Nominalskala, Ordinalskala und Kardinalskala. Von der Nominal– bis zur Kardinalskala ergeben sich zum einen steigende Anforderungen an die Merkmale und zum anderen ein steigender Informationsgehalt. Die Unterscheidung nach diesen drei Skalentypen nimmt vor allem f¨ ur den Teil der deskriptiven Statistik eine sehr wichtige Rolle ein, da anhand des Typs die anzuwendenden statistischen Methoden bei der Erhebung, Aufbereitung, Pr¨asentation und Analyse der Daten bestimmt werden.
6
Kapitel 1. Grundlagen der deskriptiven Statistik
Die Nominalskala [syn.: kategoriale Skala] wird bei qualitativen Merkmalen [syn.: nominal, kategorial, klassifikatorisch] verwendet. Dabei erfolgt keine Wertung der Merkmalsauspr¨agungen durch die Skala. Die Merkmalsauspr¨agungen werden lediglich verschiedenen Kategorien zugewiesen. Merkmalsauspr¨agungen in dieser Skala sind entweder gleich oder ungleich zu einer anderen Auspr¨agung. Wird den einzelnen Kategorien eine Zahl zugeordnet, so erfolgt dies lediglich als eine neue Kennzeichnung. Dies wird auch als Kodierung bezeichnet und kann vor allem bei einer computergest¨ utzten Datenauswertung hilfreich sein. Die Nominalskala weist einen geringen Informationsgehalt auf. Die Erhebung erfolgt durch Feststellung, ob eine Merkmalsauspr¨agung in die gleiche oder eine andere Kategorie f¨allt. Hat ein Merkmal genau zwei Auspr¨agungen, wie dies z.B. bei dem Merkmal Geschlecht der Fall ist, so kann dieses auch als dichotomes Merkmal bezeichnet werden. Bei genau drei m¨oglichen Auspr¨agungen heißt dies entsprechend trichotomes Merkmal. Als polytomes Merkmal werden Merkmale mit mehr als drei Auspr¨agungen bezeichnet. Typische Beispiele f¨ ur nominalskalierte Merkmale sind: Augenfarbe, Haarfarbe, Name, Religion, Kfz–Kennzeichen oder Abteilungsbezeichnung. M¨ochte man vor allem f¨ ur die Verwendung von Merkmalsauspr¨agungen in einer Datenbank diese kodieren, so k¨onnte das f¨ ur die Augenfarbe wie folgt aussehen: 1 = blau; 2 = blau–grau; 3 = blau–gr¨ un; 4 = gr¨ un; 5 = gr¨ un–braun; 6 = braun Bei der Ordinalskala [syn.: Rangskala, Ratingskala] m¨ ussen die Merkmalsauspr¨agungen bei der Messung eine nat¨ urliche Ordnung oder Rangordnung aufweisen. Merkmale heißen bei dieser Skala ordinal oder komparativ. Die zugeordneten Zahlen in dieser Skala geben nur die Rangordnung wieder, die Abst¨ande zwischen benachbarten R¨angen k¨onnen nicht interpretiert werden. Merkmalsauspr¨agungen k¨onnen demnach gleich, gr¨oßer oder kleiner als eine andere Auspr¨agung sein. Der Informationsgehalt dieser Skala kann damit als mittelm¨aßig eingestuft werden. Die Erhebung erfolgt bei dieser Skala durch Vergleichen der Merkmalsauspr¨agungen. Typische Beispiele f¨ ur ordinalskalierte Merkmale sind: Examensnoten, G¨ uteklassen von Lebensmitteln, Energieeffizienzklassen bei weißer Ware oder Rangpl¨atze in der Bundesliga. Unter dem Begriff der Kardinalskala [syn.: metrische Skala] werden vier verschiedene Skalen mit steigenden Anforderungen zusammengefasst: Intervallskala, Differenzenskala, Verh¨altnisskala und Absolutskala. F¨ ur die Anfertigung von Frageb¨ogen und die anschließende Auswertung der damit erhobenen Daten, vor allem mit Methoden der induktiven Statistik, kann eine Unterscheidung hinsichtlich dieser vier Skalen durchaus sinnvoll und teilweise notwendig sein. Im Rahmen dieses Lehrbuches ist jedoch diese Differenzierung nicht weiter erforderlich, so dass im Folgenden nur der Begriff Kardinalskala als Sammelbegriff f¨ ur diese vier Skalen verwendet wird. Merkmale heißen bei dieser Skala kardinal, metrisch oder quantitativ. Die Merkmalsauspr¨agungen k¨onnen gemessen und gez¨ahlt werden. Sie sind wie bei der Ordinalskala gleich, gr¨oßer oder kleiner als eine andere Auspr¨agung.
1.3. Merkmale und Skalen
7
Dar¨ uber hinaus kann bei der Kardinalskala der Abstand zwischen zwei Merkmalsauspr¨agungen objektiv gemessen werden und hat eine inhaltliche Bedeutung. Dadurch kann eine Rangfolge zwischen Merkmalsauspr¨agungen und auch die Differenz zwischen zwei Auspr¨agungen gebildet und interpretiert werden. Diese Skala weist damit einen hohen Informationsgehalt auf. Beispiele f¨ ur kardinale Merkmale sind: Gewicht in Kilogramm, Geschwindigkeit in Kilometer pro Stunde, L¨ange in Zentimeter oder Geldangaben. Wenn wir nun die oben aufgef¨ uhrten beiden Merkmalstr¨ager Person 1 und 2 und ihre Merkmale mit ihren dazugeh¨origen Merkmalsauspr¨agungen nach den oben genannten Kriterien pr¨ ufen, so k¨onnen folgende Skalenzuordnungen getroffen werden: Merkmal Name Geschlecht Funktionale Zuordnung Verdienstzufriedenheit Gr¨oße Alter Gewicht
Menge der Merkmalsauspr¨ agungen Menge alle Vornamen m¨annlich oder weiblich Menge aller Funktionsbereiche {1 = sehr gut; 2 = gut; 3 = neutral; 4 = schlecht; 5 = sehr schlecht} {sehr klein; klein; mittelgroß; groß; sehr groß} positive ganze Zahlen Z+ positive reelle Zahlen R+
Skala Nominalskala Nominalskala Nominalskala Ordinalskala Ordinalskala Kardinalskala Kardinalskala
Prinzipiell kann bei der Angabe eines Merkmals nicht unbedingt immer gleich auf den dazugeh¨origen Skalentyp geschlossen werden. Erst die Angabe der dazugeh¨origen Merkmalsauspr¨agungen verschafft Klarheit u ¨ber den Skalentyp. Anhand eines Beispiels soll demonstriert werden, wie ein Merkmal entsprechend seiner unterschiedenen Merkmalsauspr¨agungen verschiedenen Skalentypen zugeordnet werden kann. Hierf¨ ur wird bei dem Merkmalstr¨ager Erwachsener“ das Merkmal K¨orpergr¨oße“ ” ” herangezogen. Werden bei einer Stichprobe von Personen die Merkmalsauspr¨agungen bez¨ uglich der K¨orpergr¨oße“ in Zentimetern erhoben, so handelt es sich um ein ” kardinales Merkmal. Werden jedoch bei der Messung der Merkmalsauspr¨agungen die Merkmalstr¨ager lediglich nach den Kategorien 1 = sehr klein“, 2 = klein“, ” ” 3 = mittelgroß“, 4 = groß“ und 5 = sehr groß“ geordnet, so liegt in diesem ” ” ” Fall aufgrund der nat¨ urlichen Rangfolge ein ordinales Merkmal vor. Wird bei der Messung des Merkmals K¨orpergr¨oße“ bei einer Stichprobe von Merkmalstr¨agern ” lediglich unterschieden, ob diese in die Kategorie Normalgr¨oße“ (zwischen 1,30 m ” und 2,10 m) oder Nicht–Normalgr¨oße“ (kleiner als 1,30 m oder gr¨oßer als 2,10 m) ” fallen, so liegt in diesem Fall ein nominalskaliertes Merkmal mit zwei Kategorien vor. Mit diesem Beispiel sollte aufgezeigt werden, dass bei der Messung von Merkmalstr¨agern aufgrund der Wahl der Merkmalsauspr¨agungen das Skalenniveau bestimmt ¨ werden kann; dabei ist darauf zu achten, dass ein Ubergang immer nur in eine Richtung und zwar von der Skala mit dem h¨oheren Informationsgehalt, z.B. Kardinal–
8
Kapitel 1. Grundlagen der deskriptiven Statistik
oder Ordinalskala, zu der mit dem niedrigeren Informationsgehalt Nominalskala erfolgen kann. Auf diese Besonderheiten ist vor allem zu Beginn einer Erhebung bei der Festlegung der Messung und der Merkmalsauspr¨agungen zu achten. Neben der Einteilung von Merkmalen nach dem Skalentyp k¨onnen diese auch nach ihrer Eigenschaft bei der Erhebung, Aufbereitung und Analyse unterschieden werden. Besonders hervorzuheben dabei sind die Identifikations–, Hilfs– und Pr¨adikatsmerkmale. Identifikationsmerkmale k¨onnen sachliche, r¨aumliche und/oder zeitliche Aspekte beinhalten und werden f¨ ur die Abgrenzung der Grundgesamtheit herangezogen. Bei einer bestimmten Grundgesamtheit weist jedes Element dasselbe Identifikationsmerkmal auf. Wenn wir diesen Begriff auf unser Beispiel aus Abschnitt 1.2 anwenden, so ist ein sachliches Identifikationsmerkmal jeder Haushalt, auf den das Kriterium ist Haushalt der Stadt A“ zutrifft. Alle Haushalte der Stadt A, also in diesem Fall ” der f¨ ur dieses Beispiel relevanten Grundgesamtheit, weisen dieses Merkmal auf. Hilfsmerkmale werden zur Unterst¨ utzung einer Erhebung herangezogen, also zur Organisation, Aufbereitung und Kontrolle. F¨ ur unser Beispiel mit den Haushalten in der Stadt A k¨onnten dies zur Vermeidung von Doppelerhebungen oder zur eindeutigen Identifizierung z.B. die Namen der Bewohner und die Anschrift des Haushaltes sein. Pr¨adikatsmerkmale sind die Merkmale, die das Hauptaugenmerk einer statistischen Untersuchung darstellen. Aus dem Grund werden teilweise der Begriff Pr¨adikat“ ” weggelassen und diese nur Merkmal genannt. F¨ ur unser Beispiel mit den Haushalten in der Stadt A k¨onnten diese sein: Anzahl der Kinder im Haushalt, Haushaltseinkommen, Beruf, Hobbys oder die Zufriedenheit mit der Wasserversorgung. Neben den oben aufgef¨ uhrten Einteilungsm¨oglichkeiten f¨ ur Merkmale gibt es insbesondere f¨ ur nominalskalierte und kardinalskalierte Merkmale noch weitere. So k¨onnen nominalskalierte Merkmale danach unterschieden werden, ob je Merkmalstr¨ager zur gleichen Zeit nur eine Merkmalsauspr¨agung (nichth¨aufbares Merkmal ) oder mehrere Merkmalsauspr¨agungen (h¨aufbares Merkmal ) auftreten d¨ urfen. Bei h¨aufbaren Merkmalen sind z.B. mehrere Antworten auf eine Frage m¨oglich. Dabei ist zu beachten, dass durch h¨aufbare Merkmale keine Einteilung der Grundgesamtheit in Klassen erfolgt. F¨ ur unser Beispiel mit den Haushalten in der Stadt A sind nichth¨aufbare Merkmale: Anzahl der Kinder im Haushalt, Haushaltseinkommen und Zufriedenheit mit der Wasserversorgung (sofern hier nur eine Antwortm¨oglichkeit erlaubt ist). H¨aufbare Merkmale sind hier Hobbys oder erlernter Beruf, wenn z.B. ein Haushaltmitglied zwei oder mehr Berufe erlernt hat oder bei mehr als einem Haushaltsmitglied jedes Haushaltmitglied mindestens einen Beruf angibt.
1.3. Merkmale und Skalen
9
Eine wichtige M¨oglichkeit zur weiteren Einteilung kardinaler Merkmale anhand des Wertebereichs der Auspr¨agungsmenge ist die Unterscheidung nach diskreten, stetigen und quasistetigen Merkmalen. Ein diskretes Merkmal liegt vor, wenn der Wertebereich der m¨oglichen Auspr¨agungen endlich oder abz¨ahlbar unendlich ist, z.B. Menge der nat¨ urlichen Zahlen N, der ganzen Zahlen Z oder der rationalen Zahlen Q. Ein diskretes Merkmal liegt immer vor, wenn die Merkmalsauspr¨agungen nur einzelne Zahlenwerte annehmen k¨onnen und keine Zwischenwerte erlaubt sind. Die Werte werden dabei meist durch einen Z¨ahlprozess erhoben. F¨ ur unser Beispiel mit den Haushalten w¨aren dies z.B. die Anzahl der Kinder je Haushalt. Das Haushaltseinkommen z¨ahlt auch zu den diskreten Merkmalen, da der Geldbetrag meist mit einer Genauigkeit von maximal zwei Stellen hinter dem Komma angegeben wird und damit nicht jede beliebige Zahl annehmen kann. Ein stetiges Merkmal [syn.: kontinuierliches Merkmal] liegt vor, wenn der Wertebereich u ¨berabz¨ahlbar ist, z.B. [0, 1], Menge der positiven reellen Zahlen R+ oder der reellen Zahlen R. Die Werte werden meist durch (physikalische) Messungen gewonnen. Theoretisch ist damit jeder Wert innerhalb eines sinnvollen Intervalls m¨oglich; diese werden jedoch durch die Genauigkeit der Messinstrumente beeinflusst. Typische Beispiele f¨ ur stetige Merkmale sind Gewichts–, L¨angen–, Fl¨achen– oder Volumenangaben sowie Temperaturangaben. Prinzipiell kann jedes stetige Merkmal durch Rundungen, Gruppierungen oder Einordnung in Intervalle in ein diskretes Merkmal u uhrt werden; dabei gehen jedoch immer Informationen verloren. ¨berf¨ Treten bei einem diskreten Merkmal sehr viele, fein abgestufte Merkmalsauspr¨agungen auf, so wird ein solches Merkmal auch quasistetiges Merkmal genannt; dieses kann dann wie ein stetiges Merkmal gehandhabt werden. Als Beispiele k¨onnen die Angabe von Geldbetr¨agen mit den vielen Auspr¨agungsm¨oglichkeiten oder die Anzahl verkaufter Zeitungen in ganz Deutschland an einem Tag genannt werden. Eine weitere M¨oglichkeit kardinale Merkmale zu klassifizieren, besteht nach dem Sinn der Summenbildung der Merkmalsauspr¨agungen. Danach werden extensive und intensive Merkmale unterschieden. Ein extensives Merkmal liegt vor, wenn die Merkmalsauspr¨agungen positiv sind und die Summe der Merkmalsauspr¨agungen verschiedener Merkmalstr¨ager sinnvoll ist. Beispiele hierf¨ ur sind Gewichtsangaben (Gewicht der verladenen G¨ uter auf einem LKW, Gewichte aller transportierten G¨ uter in einem Monat oder Jahr) oder Geldbetr¨age (Angaben zu Kosten, Umsatz oder Gewinn pro Tag, Quartal oder Jahr). Bei einem intensiven Merkmal dagegen ist die Summe der verschiedenen Merkmalsauspr¨agungen unsinnig. Beispiele hierf¨ ur sind die Geschwindigkeit von Autos zu einem bestimmten Zeitpunkt auf einer bestimmten Autobahn oder der Blutdruck von Patienten.
10
1.4
Kapitel 1. Grundlagen der deskriptiven Statistik
Phasen der statistischen Analyse
In diesem Abschnitt werden die sechs Phasen einer statistischen Analyse vorgestellt. Diese bilden die Basis f¨ ur die weiteren Kapitel und sollen vor allem den Zusammenhang einer empirischen Untersuchung oder eines empirischen Forschungsprojektes mit den Inhalten der nachfolgenden Kapitel aufzeigen. Eine empirische Untersuchung basiert auf realen Daten, die beispielsweise aus einem Unternehmen stammen (etwa die Zufriedenheit von Mitarbeitern oder Kunden). Die folgende Abbildung stellt die einzelnen Phasen und deren zeitliche Abfolge dar. Die Inhalte der Phasen werden in den anschließenden Abschnitten behandelt. Im Rahmen dieses Lehrbuches liegt der Fokus auf den Methoden der quantitativen Forschung, die Methoden der qualitativen Forschung (z.B. Delphi–Methode oder Szenario–Technik) werden nicht behandelt.
Zieldefinition
Wissenschaftliche Fundierung
Entscheidung Forschungsmethode Qualitative Forschung Quantitative Forschung
Untersuchungsplanung
Datengewinnung, –aufbereitung und –kontrolle
Datenpr¨asentation
Datenanalyse und Bewertung
1.4. Phasen der statistischen Analyse
1.4.1
11
Zieldefinition
Zu Beginn einer statistischen Analyse ist das Problemfeld, in dem diese stattfinden soll, zu beschreiben und genau abzugrenzen. Hier kann es auch hilfreich sein, festzuhalten, was alles nicht untersucht werden soll. Im Anschluss daran empfiehlt es sich, die Zielsetzung der statistischen Analyse schriftlich zu fixieren. Wenn eine statistische Analyse im Rahmen eines Unternehmens durchgef¨ uhrt werden soll, ist es ratsam, die Zieldefinition mit dem Management abzustimmen. Hierbei muss bedacht werden: Ist eine statistische Erhebung einmal durchgef¨ uhrt worden, so ist es schwierig, vergessene Aspekte nachtr¨aglich zu ber¨ ucksichtigen. Eine gut durchdachte und abgestimmte Zieldefinition kann helfen, am Ende der durchgef¨ uhrten statistischen Analyse Unstimmigkeiten und Fehlinterpretationen zu vermeiden.
1.4.2
Wissenschaftliche Fundierung
In der n¨achsten Phase sollte eine wissenschaftliche Auseinandersetzung mit dem Thema der statistischen Analyse stattfinden. Bei einer Analyse im Rahmen eines ¨ Forschungsprojekt wird dies meist unter der Uberschrift Stand der Forschung“ zu” sammengefasst. Hierunter werden die wissenschaftlichen Grundlagen und Annahmen verstanden, auf denen die geplante statistische Analyse aufbaut. Zu dieser Phase geh¨ort auch die kritische Betrachtung und W¨ urdigung von bereits erfolgten statistischen Analysen zum relevanten Thema und deren Ergebnisse. Auf solchen Studien kann aufgesetzt werden, indem f¨ ur eine bessere Vergleichbarkeit der Ergebnisse teilweise ¨ahnliche Ans¨atze (etwa Fragen eines Fragebogens) verwendet werden. In Abgrenzung zu bereits erfolgten Studien sollte herausgestellt werden, was die Durchf¨ uhrung der eigenen statistischen Analyse rechtfertigt beziehungsweise deren Alleinstellungsmerkmal und Neuheitswert ist. Am Ende dieser Phase muss die Entscheidung u ¨ber die angestrebte Forschungsmethode getroffen werden. Diese ergibt sich aus der Zielsetzung und der wissenschaftlichen Fundierung. Prinzipiell wird zwischen einem qualitativen und einem quantitativen Forschungsansatz unterschieden. Der qualitative Forschungsansatz wird vor allem dann gew¨ahlt, wenn zu einem bestimmten wissenschaftlichen Gebiet bisher ein geringer Kenntnisstand existiert und versucht werden soll, ein besseres Verst¨andnis komplexer Ph¨anomene zu erhalten. Im Rahmen von ausf¨ uhrlichen Fallstudien wird das wissenschaftliche Gebiet erschlossen. Das Ergebnis der Fallstudien sind meist Hypothesen, welche dann in einem zweiten Schritt durch einen quantitativen Forschungsansatz u uft werden sollen. ¨berpr¨
12
Kapitel 1. Grundlagen der deskriptiven Statistik
Der quantitative Forschungsansatz wird insbesondere dann gew¨ahlt, wenn bereits zu der interessierenden Zielsetzung ein fundierter wissenschaftlicher Kenntnisstand vorliegt und die aufgestellten Hypothesen beziehungsweise Fragestellungen bei einer entsprechenden Anzahl an Merkmalstr¨agern untersucht werden sollen. Die weiteren Schritte zu diesem Forschungsansatz werden in den folgenden Kapiteln n¨aher beschrieben.
1.4.3
Untersuchungsplanung
In der Phase der Untersuchungsplanung wird festgelegt, wie die statistische Analyse konkret durchgef¨ uhrt werden soll. Hierf¨ ur werden z.B. die zu untersuchenden Hypothesen formuliert, die statistischen Verfahren f¨ ur die Untersuchung festgelegt sowie der zeitliche Rahmen der Analyse fixiert. Ebenso werden die Merkmalstr¨ager, die Auswahleinheiten und die Grundgesamtheit definiert. Dar¨ uber hinaus muss festgelegt werden, woher die Daten f¨ ur die Untersuchung stammen: Sollen hierf¨ ur Prim¨aroder Sekund¨ardaten verwendet werden? Unter der Prim¨ardatenerhebung wird verstanden, dass Merkmalstr¨ager ausschließlich f¨ ur den Zweck der statistischen Analyse befragt oder beobachtet werden. Vorteile einer Prim¨ardatenerhebung sind z.B. die Gewissheit, dass die ben¨otigten Daten mit der gew¨ unschten Zielsetzung erhoben werden sowie die Sicherheit, dass die Erhebung nach den geforderten zeitlichen und sachlogischen Gesichtspunkten durchgef¨ uhrt wird. Als Nachteile k¨onnen meist ein damit verbundener hoher zeitlicher und monet¨arer Aufwand angef¨ uhrt werden. Bei der Prim¨ardatenerhebung gibt es zwei verschiedene Erhebungsformen: Voll- und Teilerhebung. W¨ahrend bei der Vollerhebung [syn. Totalerhebung, ersch¨opfende Erhebung] alle Elemente einer Grundgesamtheit erfasst werden, ist dies bei einer Teilerhebung nur eine Teilmenge. Teilerhebungen werden nach der Art der Erhebung in nichtzuf¨allige und zuf¨allige unterschieden. Bei nichtzuf¨alligen Teilerhebungen erfolgt die Auswahl der Elemente nach Gutd¨ unken oder einem bewussten Verfahren, bei der zuf¨alligen [syn. Stichprobe] geschieht dies per Zufall, d.h. jedes Element der Gesamtheit weist eine von Null verschiedene Auswahlwahrscheinlichkeit auf. Bei der Erhebung von Prim¨ardaten werden drei Kategorien unterschieden: die Befragung, die Beobachtung und das Experiment. Befragungen werden besonders in der Wirtschaft und Technik eingesetzt, dabei k¨onnen diese prinzipiell pers¨onlich durch einen Interviewer vor Ort oder telefonisch erfolgen (pers¨onliche Befragung). Der Fragebogen kann dabei eine Variation aus Fragen mit vorgegebenen oder freien Antwortm¨oglichkeiten sein. Bei einer schriftlichen Befragung wird den zu befragenden Person ein Fragebogen zugesendet. Dies erfolgt entweder per Post oder per E-Mail mit einem Link auf einen Onlinefragebogen. Dar¨ uber hinaus k¨onnen auch die pers¨onliche und schriftliche Befragung miteinander kombiniert werden.
1.4. Phasen der statistischen Analyse
13
Bei einer Beobachtung werden Daten u ¨ber reale Abl¨aufe, die von der erfassenden Person nicht beeinflusst werden, erhoben. Ein Beispiel hierf¨ ur sind Verkehrsz¨ahlungen. Ein Experiment wird vor allem im naturwissenschaftlichen Bereich eingesetzt und zeichnet sich dadurch aus, dass der Zusammenhang von Einflussgr¨oßen auf Zielgr¨oßen in reproduzierbaren Versuchskonstellationen statistisch untersucht wird. Unter der Sekund¨ardstatistik wird die statistische Aufbereitung und Auswertung bereits erhobener Daten verstanden, welche zun¨achst f¨ ur eine andere statistische Analyse erhoben wurden. Vorteile bei der Verwendung von Sekund¨ardaten sind vor allem der geringe zeitliche und monet¨are Aufwand. Nachteile ergeben sich dadurch, dass sich die Beschaffung der f¨ ur eine solche statistische Analyse notwendigen Daten teilweise schwierig gestalten kann, die Daten veraltet sein k¨onnen oder m¨oglicherweise nicht alle erforderlichen Informationen enthalten. Ebenso k¨onnen die Zielsetzungen der eigenen Analyse von der bereits durchgef¨ uhrten Analyse stark abweichen, so dass die Verwendung der Daten kritisch hinterfragt werden muss.
1.4.4
Datengewinnung, –aufbereitung und –kontrolle
Im Rahmen der Datengewinnung wird entsprechend der Planung der statistischen Analyse vorgegangen, indem die erforderlichen Daten systematisch gesammelt und erfasst werden. Bei der Datenaufbereitung wird das in Frageb¨ogen oder anderer Form gewonnene rohe Datenmaterial anonymisiert und in eine strukturierte Form f¨ ur die weitere Analyse umgewandelt. Dies geschieht meist mit DV–technischer Unterst¨ utzung und mit statistischen Auswertungsprogrammen. Dabei sollte darauf geachtet werden, dass bei dieser Umwandlung keine Informationen verloren gehen. Bei Datens¨atzen gr¨oßeren Umfangs kann es sinnvoll sein, Klassen zu bilden. Als Faustregeln f¨ ur die Anzahl k der zu bildenden Klassen k¨onnen folgende Formeln herangezogen werden: k ≈ n0.5 ,
k ≈ 5 · lg n
oder
k ≈ 1 + 3.3 · lg n
Bei einem Umfang von n = 150 w¨ urden sich nach der ersten Faustregel demnach k = 1500.5 ≈ 12.25 ≈ 12 Klassen ergeben. Nach der zweiten Faustregel w¨aren es k = 5 · lg 150 ≈ 10.88 ≈ 11 Klassen und nach der dritten Faustregel k = 1 + 3.3 · lg 150 ≈ 8.18 ≈ 8 Klassen.
14
Kapitel 1. Grundlagen der deskriptiven Statistik
Weitere Informationen zu Klassen sowie zur Darstellung und Behandlung klassierter Daten finden sich in Abschnitt 2.2. Bei der Datenkontrolle werden die aufbereiteten und gespeicherten Daten auf Vollz¨ahligkeit, Vollst¨andigkeit und sachliche Richtigkeit gepr¨ uft. Auftretende Fehler in den Daten sollten unbedingt korrigiert werden, da diese erhebliche Auswirkungen auf alle Folgeaussagen und Folgeberechnungen haben k¨onnten. Fehlen bei einem Merkmalstr¨ager zu einem oder mehreren Merkmalen die Merkmalsauspr¨agungen (z.B. fehlende Antworten bei einem Fragebogen), so spricht man von missing values. Eine m¨ogliche L¨osung dieses Problems ist es, die fehlenden Werte durch die Merkmalsauspr¨agungen eines struktur¨ahnlichen Merkmalstr¨agers zu erg¨anzen beziehungsweise zu korrigieren.
1.4.5
Datenpr¨ asentation
In der Phase der Datenpr¨asentation werden die gewonnenen Daten f¨ ur den interessierten Leser so aufbereitet, dass m¨oglichst wenig Informationen verloren gehen ¨ und dennoch eine gute Ubersichtlichkeit erreicht wird. Hierbei unterscheidet man die Aufbereitung der Daten in tabellarischer und grafischer Form. Im Rahmen dieses Lehrbuches werden f¨ ur die tabellarische Darstellung verschiedener H¨aufigkeitskonzepte die H¨aufigkeitstabelle und die Kontingenztabelle verwendet. Neben der tabellarischen Pr¨asentation werden h¨aufig auch das Stabdiagramm und das Kreisdiagramm, das Histogramm, die Treppenfunktion, das Summenpolygon sowie das Streudiagramm zur grafischen Veranschaulichung der Daten verwendet. Diese Darstellungsformen und deren Anwendungsvoraussetzungen werden in den nachfolgenden beiden Kapiteln zur deskriptiven Statistik ausf¨ uhrlich erl¨autert.
1.4.6
Datenanalyse und Bewertung
Die Analyse der Daten kann entsprechend den drei Bereichen der allgemeinen Statistik erfolgen: deskriptiv, stochastisch und induktiv. Dabei wird bei einer statistischen Analyse im Normalfall mit dem deskriptiven Teil begonnen. Ob die Analyse auch auf die anderen beiden Bereiche ausgedehnt wird, h¨angt von der Zielsetzung der Untersuchung ab. Die Analysemethoden zur deskriptiven Statistik werden im Rahmen dieses Lehrbuches in den Kapitel 2 und 3, die der Stochastik und induktiven Statistik ab Kapitel 4 behandelt. F¨ ur die abschließende Bewertung einer statistischen Analyse werden die Ergebnisse aus den einzelnen Teilbereichen der Statistik noch einmal zusammengefasst und daraus Schlussfolgerungen formuliert. Bei einer Untersuchung in einem Unternehmen ¨ wird dies auch gerne mit der Uberschrift Management Summary“ betitelt, die die ” wesentlichen Kernaussagen der durchgef¨ uhrten statistischen Analyse enthalten soll.
1.5. Klassifikation von Datens¨atzen
1.5
15
Klassifikation von Datens¨ atzen
Datens¨atze k¨onnen unter anderem hinsichtlich des Zeitbezuges und der Dimension (Anzahl Merkmale) klassifiziert werden. Findet eine Erhebung nur zu einem Zeitpunkt statt, so spricht man von einer Querschnittsreihe. Die Zeit hat in diesem Fall keine weitere Bedeutung, außer dass der Erhebungszeitpunkt dokumentiert werden muss. Die Merkmalsauspr¨agungen der untersuchten Merkmalstr¨ager werden in diesem Fall zu einem bestimmten Zeitpunkt erhoben und erf¨ ullen bestimmte sachliche oder r¨aumliche Kriterien. Erfolgt dagegen eine Erhebung nach regelm¨aßigen Abst¨anden, so spielt die Zeit bei der Erhebung eine Rolle. Dies wird auch als L¨angsschnittreihe [syn. Zeitreihe] bezeichnet. Werden bei einer L¨angsschnitterhebung in regelm¨aßigen Abst¨anden dieselben ausgew¨ahlten Elemente befragt, so heißt dies Panel, andernfalls bei regelm¨aßig wiederholten Stichprobenerhebungen Rotation. Ein Beispiel f¨ ur eine L¨angsschnittreihe erh¨alt man, wenn st¨ undlich an einem Ort die Temperatur gemessen und dokumentiert wird. Bei der Klassifikation von Datens¨atzen hinsichtlich der Dimension werden univariate, bivariate und multivariate Datens¨atze unterschieden. Ein univariater Datensatz [syn. eindimensional] liegt vor, wenn die in einer statitischen Analyse erhobenen Einheiten beziehungsweise Merkmalstr¨ager nach genau einem Merkmal aufbereitet werden. F¨ ur das Beispiel mit den Personen aus Abschnitt 1.3 w¨ urde das bedeuten, dass zu dem Merkmalstr¨ager Person“ das Merkmal Geschlecht“ mit den beiden Merk” ” malsauspr¨agungen weiblich und m¨annlich aufbereitet wurde. Auf die Auswertung univariater Datens¨atze wird in Kapitel 2 eingegangen. Bei einem bivariaten Datensatz [syn. zweidimensional] sind die erhobenen Einheiten nach zwei Merkmalen aufbereitet. F¨ ur das Personenbeispiel w¨ urden zu dem Merkmalstr¨ager Person“ die Merkmale ” Geschlecht“ (weiblich, m¨annlich) und Funktionale Zuordnung“ mit den Funktions” ” bereichen des Unternehmens als Auspr¨agungen aufbereitet werden. Die Auswertung bivariater Datens¨atze wird in Kapitel 3 beschrieben. Ein multivariater Datensatz [syn. mehrdimensional] liegt vor, wenn die erhobenen Einheiten nach drei oder mehr Merkmalen aufbereitet werden. F¨ ur das Personenbeispiel w¨ urden zu dem Merkmalstr¨ager Person“ die Merkmale Geschlecht“ (weiblich, ” ” m¨annlich), Funktionale Zuordnung“ (Funktionsbereiche in einem Unternehmen), ” Verdienstzufriedenheit“ (1 = sehr gut bis 5 = sehr schlecht) usw. aufbereitet wer” den. Die Auswertung multivariater Datens¨atze wird in diesem Lehrbuch nicht weiter beschrieben.
16
1.6
Kapitel 1. Grundlagen der deskriptiven Statistik
Das Beispielunternehmen Pharmalift GmbH
Zur Vermittlung des Praxisbezuges statistischer Methoden im betriebswirtschaftlichen und technischen Bereich m¨ochten wird in diesem Abschnitt des Lehrbuches ein fiktives Unternehmen namens Pharmalift GmbH vorstellen. Es werden verschiedene ¨ Datens¨atze pr¨asentiert, die in den einzelnen Kapiteln vor allem f¨ ur die Ubungsaufgaben herangezogen werden. Stellen Sie sich vor, Sie arbeiten in einem mittelst¨andischen Unternehmen namens Pharmalift GmbH. Die Firma produziert und vertreibt Mischmaschinen und Mischbeh¨alter, die haupts¨achlich in der Pharmaindustrie, aber auch in der Chemie und Lebensmittelindustrie eingesetzt werden. Neben der Lieferung von Maschinen, Containern und Zubeh¨or werden den Kunden auch Servicevertr¨age zur Wartung und Instandhaltung mit mehrj¨ahrigen Laufzeiten angeboten. Damit wird die geforderte Verf¨ ugbarkeit u ¨ber einen l¨angeren Zeitraum gew¨ahrleistet. Dies ist in der Pharmaindustrie von besonderer Bedeutung, da die Prozessabl¨aufe zur Herstellung von Medikamenten vor allem aus Qualit¨atsgr¨ unden reproduzierbar sein m¨ ussen. Ein weiterer Schwerpunkt des Unternehmens liegt in der Sicherstellung der Qualit¨at der Produkte und einer effizienten Produktion mit hochwertigen Materialien. Das Unternehmen ist mit zurzeit 245 Arbeitnehmern als mittelst¨andisches Unternehmen einzustufen. Die Arbeitnehmer sind wie folgt in den Abteilungen des Unternehmens besch¨aftigt: Tab. 1.1: Verteilung der Besch¨aftigten der Pharmalift GmbH Funktion Anzahl Besch¨aftigte Gesch¨aftsf¨ uhrung 5 Einkauf 10 Produktion 131 Qualit¨atssicherung 15 Logistik und Versand 23 Marketing, Vertrieb und Service 32 Controlling und Finanzen 8 Personalwesen 5 IT-Abteilung 12 Facility Management (Hausmeister, Pforte, etc.) 4 Im Folgenden werden verschiedene Daten der Pharmalift GmbH — zur besseren ¨ Ubersicht — nach den funktionalen Bereichen gegliedert vorgestellt.
Einkauf Die Lieferfristen xν (in Tagen) des Hauptlieferanten f¨ ur die Edelstahlgestelle der Mischmaschinen f¨ ur die letzten 40 Lieferungen sind in folgender Tabelle gegeben:
1.6. Das Beispielunternehmen Pharmalift GmbH
17
Tab. 1.2: Lieferzeiten der Edelstahlgestelle in Tagen ν xν ν xν
1 2 21 3
2 3 22 4
3 6 23 5
4 8 24 6
5 3 25 7
6 5 26 2
7 5 27 8
8 6 28 5
9 4 29 6
10 6 30 7
11 6 31 4
12 6 32 3
13 7 33 4
14 3 34 5
15 4 35 4
16 2 36 5
17 3 37 4
18 5 38 1
19 8 39 5
20 5 40 4
Die Einkaufsabteilung erhebt an einem Stichtag die Preise in Euro f¨ ur den Rohstoff Silber pro 100 g bei 15 Lieferanten. Die Beobachtungen sind bereits der Gr¨oße nach geordnet. Tab. 1.3: Rohstoffpreise f¨ ur 100 g Silber in Euro ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 xν 91.4 91.4 91.9 91.9 91.9 91.9 91.9 92.9 93.9 93.9 95.9 95.9 95.9 96.9 97.9
Produktion Das Unternehmen stellt acht unterschiedliche Standardprodukte her: vier unterschiedliche Mischmaschinen und die dazugeh¨origen Beh¨alter. Die Mischmaschinen werden dazu eingesetzt, pharmazeutische Stoffe gleichm¨aßig zu mischen, um somit die Grundlage f¨ ur die Arzneimittelherstellung zu schaffen. Mit den Beh¨altern werden die Mischmaschinen gef¨ ullt. Zu den Mischmaschinen sind auch verschiedene Zubeh¨orteile erh¨altlich. Die Produktnummern, Produktnamen und Preise der einzelnen Artikel sind in der folgenden Tabelle aufgef¨ uhrt: Tab. 1.4: Produkt¨ ubersicht u ¨ber Mischer und Beh¨alter i 1 2 3 4 5 6 7 8
Produktnummer M-001 M-002 M-003 M-004 B-001 B-002 B-003 B-004
Produktname Verkaufspreis in Euro Labor–Mischer 10.000 Fass–Mischer 20.900 Container–Mischer 25.000 Klein–Chargen–Mischer 15.500 Beh¨alter Labor–Mischer 5.000 Beh¨alter Fass–Mischer 6.000 Beh¨alter Container–Mischer 5.500 Beh¨alter Klein–Mischer 3.000
Bei der Produktentwicklung eines neuen Modells f¨ ur den Fass–Mischer werden vier Tests durchgef¨ uhrt, in denen gemessen wird, wie viele F¨ ullungen f¨ ur die Durchmengung eines bestimmten Medikamentes pro Stunde ausgef¨ uhrt werden k¨onnen. Tab. 1.5: Durchmengungsgeschwindigkeit des neuen Fass–Mischer–Modells 1 2 3 4 F¨ ullung ν xν [F¨ ullungen pro h] 1.23 1.29 1.30 1.19
18
Kapitel 1. Grundlagen der deskriptiven Statistik
Qualit¨ atssicherung Bei einer Qualit¨atskontrolle der Klein–Chargen–Mischer wurden folgende Zylinderdurchmesser erhoben: Tab. 1.6: Zylinderdurchmesser Klein–Chargen–Mischer 1 2 3 4 5 6 ν Zylinderdurchmesser in mm 21.3 21.4 21.5 21.9 22.1 22.1 Vor dem Versand werden die Container–Mischer bei einer Qualit¨atskontrolle zwei Tests (Test A und Test B) unterzogen. Bestehen die Mischer beide Tests, so k¨onnen sie an die Kunden versendet werden, die restlichen Mischer werden als Ausschuss gekennzeichnet. Die nachfolgende Tabelle zeigt die Ergebnisse der beiden Tests f¨ ur ein Quartal. Tab. 1.7: Qualit¨atstestergebnisse f¨ ur Container–Mischer Bestanden Nicht bestanden
Test A Test B 45 50 15 10
Logistik und Versand Die Logistikabteilung hat f¨ ur einen Tag bei Lieferungen von Zubeh¨orteilen an Kunden in Europa die Entfernung(X) und die angefallenen Versandkosten (Y ) in der nachfolgenden Tabelle zusammengefasst: Tab. 1.8: Aufstellung der Lieferungen f¨ ur Zubeh¨orteile X km von . . . bis unter . . . Y e von . . . bis unter . . . 0 – 100 100 – 300 300 – 400
0 – 500
500 – 1000
1000 – 2000
2000 – 2500
1 3 1
1 3 0
0 1 2
0 2 1
Marketing, Vertrieb und Service Der Vertriebsleiter l¨asst sich einen Bericht u ¨ber die Verkaufszahlen der Container– Mischer des letzten Halbjahrs erstellen (n = 165). Aus einer Urliste ergeben sich folgende absolute H¨aufigkeiten: Tab. 1.9: Verkaufszahlen von Container–Mischern i xi ni
1 1 35
2 2 29
3 3 23
4 4 16
5 5 24
6 6 3
7 7 5
8 8 5
9 9 10
10 10 15
1.6. Das Beispielunternehmen Pharmalift GmbH
19
Das Verkaufsgebiet Deutschland wurde in vier Regionen aufgeteilt. Die folgende Tabelle zeigt die Verkaufszahlen der wichtigsten Produkte im Jahr 2011. Tab. 1.10: Verkaufszahlen im Jahr 2011 Verkaufszahlen: in rel. H¨aufigkeiten hi Region 1 Region 2 Region 3 Region 4
M-001
M-002
M-003
M-004
B-001
B-002
0.00 0.00 0.17 0.30
0.00 0.15 0.16 0.20
0.90 0.05 0.18 0.30
0.00 0.70 0.16 0.10
0.00 0.10 0.17 0.05
0.10 0.00 0.16 0.05
Die nachfolgende Tabelle enth¨alt eine Auflistung der abgeschlossenen Service- und Wartungsvertr¨age f¨ ur Mischmaschinen in einem Jahr. Tab. 1.11: Service- und Wartungsvertr¨age f¨ ur Mischmaschinen Klasse i
Wert in Tsd. Euro
1 2 3 4 5 6 7
1 bis 2 u ¨ber 2 bis 3 u ¨ber 3 bis 4 u ¨ber 4 bis 5 u ¨ber 5 bis 7 u ¨ber 7 bis 9 u ¨ber 9 bis 15 —
absolute H¨aufigkeit ni 7 11 16 15 9 7 5 70
Varianz s2i der i-ten Klasse 0.1824 0.0460 0.0923 0.1320 0.0550 0.0837 0.1735 —
Klassenmittelwert x¯i 1.423 2.561 3.607 4.513 6.009 8.105 12.314 —
Bei einer Befragung von acht Top–Kunden wurden zu drei Fragen folgende Antworten gegeben. Zu den drei Fragen gab es folgende Antwortm¨oglichkeiten: 1 = sehr gut bis 5 = sehr schlecht. Tab. 1.12: Ergebnisse der Befragung zur Kundenzufriedenheit Kunde ν Kundenzufriedenheit Weiterempfehlungsabsicht Wiederholungskauf
1 3 3 5
2 1 2 2
3 3 2 3
4 4 5 4
5 2 3 3
6 2 4 2
7 5 4 5
8 1 2 1
Controlling und Finanzen In der nachstehenden Tabelle sind der j¨ahrliche Umsatz (in Mio. Euro) und der Werbeaufwand (in Tsd. Euro) der Pharmalift GmbH angegeben. Tab. 1.13: J¨ahrlicher Umsatz und Werbeaufwand Jahr Umsatz Werbeaufwand
2005 20.8 71
2006 20.9 78
2007 21.1 79
2008 22.2 82
2009 21.6 89
2010 23.9 92
2011 24.5 95
20
Kapitel 1. Grundlagen der deskriptiven Statistik
Personalwesen F¨ ur zwei Montagegruppen liegt folgende Einkommensverteilung (in Euro) f¨ ur sechs beziehungsweise sieben Mitarbeiter pro Monat vor. Tab. 1.14: Einkommensverteilung der Montagegruppen A und B ν Montagegruppe A Montagegruppe B
1 2624 2832
2 2830 2734
3 2386 2435
4 2395 2290
5 2147 2180
6 2546 2110
7 — 2930
Der Personalabteilung der Pharmalift GmbH m¨ochte sich u ¨ber die t¨aglich anfallenden Anfahrtswege ihrer 131 Mitarbeiter in der Produktion informieren. Dabei ist folgende Tabelle erstellt worden: Tab. 1.15: Anfahrtszeiten der Mitarbeiter in der Produktion km von . . . bis unter . . . Anzahl der Mitarbeiter
0—1 17
1—5 27
5 — 15 42
15 — 30 25
30 — 50 20
Gegeben sei die folgende zweidimensionale H¨aufigkeitsverteilung zur Bewertung von Mitarbeitern bez¨ uglich ihres Kommunikationsverhaltens xi und ihrer Arbeitsflexibilit¨at yj in Schulnoten von 1 bis 4: Tab. 1.16: Bewertung der Mitarbeiter im Marketing, Vertrieb und Service
x1 x2 x3 x4
=1 =2 =3 =4
y1 = 1 10 3 2 0
y2 = 2 2 6 0 1
y3 = 3 2 0 1 0
y4 = 4 3 1 0 1
Die folgende Tabelle zeigt die Entwicklung der Mitarbeiterzahlen der Pharmalift GmbH u ¨ber die letzten Jahre. Tab. 1.17: Entwicklung der Besch¨aftigtenzahlen Jahr Anzahl Mitarbeiter
2007 233
2008 239
2009 227
2010 230
2011 245
1.6. Das Beispielunternehmen Pharmalift GmbH
21
Von der Personalabteilung wurden folgende Daten im Rahmen einer Befragung u ¨ber die Zufriedenheit der Mitarbeiter mit dem Gehalt (xi ) und u ¨ber die Mitarbeiterzufriedenheit (yi ) erhoben und in folgender Tabelle zusammengestellt. Die Werte in der Tabelle geben dabei das arithmetische Mittel der kardinalskalierten Einsch¨atzungen aller Mitarbeiter in % an. Tab. 1.18: Gehaltszufriedenheit und Mitarbeiterzufriedenheit Jahr i xi yi
2007 34 60
2008 46 78
2009 44 82
2010 80 80
2011 66 90
IT–Abteilung In der IT–Abteilung wird die Dauer aller durchgef¨ uhrten IT–Projekte in folgender Tabelle dokumentiert. Bisher wurden 32 IT–Projekte durchgef¨ uhrt. Tab. 1.19: Dauer IT–Projekte ni Projektdauer in [Monaten]
1 1
2 8
5 12
6 15
4 16
8 19
3 24
2 48
1 96
Gesch¨ aftsfu ¨ hrung ¨ Uber die letzten vier Jahre sind die Anzahl der zu Gesch¨aftszwecken durchgef¨ uhrten Langstreckenfl¨ uge der Gesch¨aftsleitung nach Asien und Amerika (X) und ihre H¨aufigkeiten ni mit i = 1, . . . , n = 20 aufgenommen worden. Tab. 1.20: Erhebung u uge ¨ber Langstreckenfl¨ i xi ni
1 11 1
2 12 2
3 13 3
4 14 3
5 15 5
6 16 3
7 17 2
8 18 1
Ein Mitglied der Gesch¨aftsf¨ uhrung legte bei einer Dienstreise eine Strecke von 510 km zur¨ uck. Dabei wurden auf vier Teilstrecken folgende Geschwindigkeiten erreicht. Tab. 1.21: Verteilung der Geschwindigkeiten Teilstrecke i Geschwindigkeit xi [km/h] zur¨ uckgelegte km ni
1 70 105
2 90 45
3 100 120
4 120 240
22
Kapitel 1. Grundlagen der deskriptiven Statistik
1.7
¨ Ubungsaufgaben
1. Handelt es sich um eine Bestands– oder Bewegungsmasse? (a) Lagerbestand der Fass–Mischer am Standort Pforzheim zu einem bestimmten Stichtag (b) Krankmeldungen im Monat Mai 2011 (c) Neueinstellungen bei der Pharmalift GmbH im Jahr 2011 (d) Neu zugelassene Dienstwagen der Pharmalift GmbH im Jahr 2011 (e) Filialen der Pharmalift GmbH zum 01.01.2012 (f) Kundenreklamationen u ur Kleinmischer im Juni 2011 ¨ber den Beh¨alter f¨ 2. Geben Sie f¨ ur die folgenden Fragestellungen Merkmalstr¨ager, Merkmal und Merkmalsauspr¨agungen an: (a) Bewertung der Qualifikation eines Mitarbeiters der Pharmalift GmbH (in Schulnoten) (b) Betriebszugeh¨origkeit von Mitarbeitern in Jahren (c) Kundenzufriedenheit in Prozent mit dem Produkt Fass–Mischer 3. Welche Skala liegt vor: Nominal–, Ordinal– oder Kardinalskala? (a) Einkommen in Euro (b) Mitarbeiterbewertung in Noten (c) Abteilungsname (d) Mitarbeiteranzahl bei Pharmalift (e) Aufgabenbereiche von Managern (f) Gehaltsklasse {A, B, C, D} mit steigenden Geh¨altern (g) Mitarbeiterkapazit¨at (Arbeitszeit) (h) Verwendungszweck von Produkten (i) Umsatz in Euro 4. Geben Sie an, ob es sich um ein diskretes, stetiges oder quasistetiges Merkmal handelt: (a) Anzahl der Mitarbeiter (b) Durchlaufzeit in der Fertigung eines Fass–Mischers (c) Jahresumsatz der Pharmalift GmbH in Euro (d) Geleistete Arbeitszeit aller Mitarbeiter in einem Monat in Minuten (e) Gewicht der Produkte Container–Mischer
Kapitel 2 Auswertung univariater Datens¨ atze Lernziele • Welche H¨aufigkeitskonzepte sind bei der Analyse statistischer Daten zu unterscheiden? • Wie kann man die Lage der empirischen Verteilung eines nominalen, ordinalen oder kardinalen Merkmals beschreiben? • Welche Kenngr¨oßen — in Abh¨angigkeit vom jeweiligen Skalenniveau — beschreiben die Variabilit¨at eines univariaten Datensatzes? • Was bedeutet Schiefe und W¨olbung einer empirischen Verteilung und wie k¨onnen diese gemessen werden? • Welche M¨oglichkeiten bestehen, um Datens¨atze grafisch darzustellen und zu vergleichen?
Im Abschnitt 1.5 wurde dargelegt, dass Datens¨atze nach ihrer Dimension in univariat, bivariat und multivariat klassifiziert werden k¨onnen. Dabei sind univariate Datens¨atze dadurch charakterisiert, dass von jedem Merkmalstr¨ager nur ein Merkmal analysiert wird, w¨ahrend sich bivariate bzw. multivariate Datens¨atze durch zwei bzw. mehr Merkmale auszeichnen, die pro Merkmalstr¨ager erhoben werden. Die Struktur des ersten Teils im vorliegenden Lehrbuch — der Deskriptiven Statistik — greift genau diese Klassifikation auf und beschreibt zun¨achst in diesem zweiten Kapitel die M¨oglichkeiten der Auswertung univariater und im nachfolgenden dritten Kapitel die Analysemethoden bivariater Datens¨atze. Auf Analysemethoden multivariater Daten wird in dieser Einf¨ uhrung nicht weiter eingegangen. Es existiert eine Vielzahl von Lehrb¨ uchern, die sich auf dieses Thema spezialisiert haben (vgl. z.B. Fahrmeir/Hamerle/Tutz, 1996, oder Rinne, 2000).
24
Kapitel 2. Auswertung univariater Datens¨atze
Grunds¨atzlich werden f¨ ur jede Dimension die Merkmale zun¨achst eindimensional untersucht, d.h. die Analysemethoden f¨ ur univariate Datens¨atze sind ebenfalls relevant f¨ ur h¨oherdimensionierte Datens¨atze. Bei bivariaten Datens¨atzen kann aber u ¨ber die Beschreibung eines Merkmals hinaus noch die interessante Frage nach einem eventuellen Zusammenhang der zwei erhobenen Merkmalen untersucht werden. Welche Art der Analyse bei beliebig dimensionierten Datens¨atzen m¨oglich ist, h¨angt maßgeblich vom Skalenniveau des betrachteten Merkmals oder der betrachteten Merkmale ab. Der Informationsgehalt der Daten und damit die M¨oglichkeiten einer statistischen Analyse nimmt vom Nominal– zum Ordinal– bis hin zum Kardinalmerkmal zu. Wir beginnen mit den Konzepten f¨ ur Nominalmerkmale und erweitern die Analyse schrittweise auf Merkmale h¨oheren Skalenniveaus. Gegenstand der Auswertung von univariaten Datens¨atzen ist eine Reihe (Urliste) der n Beobachtungswerte xν mit ν = 1, 2, . . . , n des betrachteten Merkmals X. Solch eine Urliste wird jedoch schnell sehr un¨ ubersichtlich. Das Ziel der Auswertung ist daher die zusammenfassende Beschreibung der Teilgesamtheit hinsichtlich des Merkmals X durch Tabellen, Grafiken und Maßzahlen. Die durch die Zusammenfassung ge¨ wonnene Ubersichtlichkeit steht allerdings einem abnehmenden Informationsgehalt gegen¨ uber. In den nachfolgenden Abschnitten wird f¨ ur alle Arten von Merkmalen der Gang einer univariaten statistischen Auswertung beschrieben: Nach der a) Ausz¨ahlung und Berechnung verschiedener H¨aufigkeiten wird b) die empirische Verteilung tabellarisch und grafisch dargestellt bevor c) Maßzahlen und Parameter der empirischen Verteilung des betrachteten Merkmals ermittelt werden.
2.1
Nominale und ordinale Merkmale
Der Personalleiter der Pharmalift GmbH soll der Gesch¨aftsf¨ uhrung u ¨ber die aktuelle Personalsituation berichten. Nachfolgende Tabelle gibt Auskunft, wie sich die Mitarbeiter zum 31.12.2011 (¨ ubrigens eine Bestandsmasse) u ¨ber die verschiedenen Abteilungen verteilt haben: Abteilungen ai Gesch¨aftsf¨ uhrung Einkauf Produktion Qualit¨atssicherung Logistik/Versand Marketing/Vertrieb/Service Controlling/Finanzen Personalwesen Facility Management Summe
i 1 2 3 4 5 6 7 8 9 245
Anzahl ni 5 10 131 15 23 32 8 5 4 1.000
Anteil hi 0.0204 0.0408 0.5347 0.0612 0.0939 0.1306 0.0327 0.0204 0.0163 100
prozentualer Anteil hi · 100% 2.04 4.08 53.47 6.12 9.39 13.06 3.27 2.04 1.63
2.1. Nominale und ordinale Merkmale
25
In der Tabelle sind neben den sogenannten absoluten, ni , auch die relativen, hi , und die prozentualen H¨aufigkeiten angegeben. Man sagt, dass in den einzelnen Spalten die absolute, relative bzw. prozentuale Verteilung der Merkmalstr¨ager auf die einzelnen Merkmalsauspr¨agungen des Nominalmerkmals Abteilungszugeh¨origkeit“ ” gegeben ist. Betrachten wir nun allgemein ein Nominalmerkmal X mit m verschiedenen Auspr¨agungen (im Bsp. m = 9 verschiedene Abteilungen). Die absolute H¨aufigkeit ist die Anzahl der Einheiten mit einer Auspr¨agung ai (i = 1, . . . , m): m
ni := n(xν = ai ) mit 0 ≤ ni ≤ n und
ni = n
i=1
Der Anteil der Einheiten mit einer Auspr¨agung ai (i = 1, . . . , m) hi := h(xν = ai ) :=
ni n
mit 0 ≤ hi ≤ 1 und
m
hi = 1
i=1
wird als die relative H¨aufigkeit bezeichnet. Die prozentuale H¨aufigkeit entspricht hi · 100%. Eine tabellarische Beschreibung der H¨aufigkeitsverteilung ist aufschlussreich, aber f¨ ur beispielsweise die Berichterstattung des Personalleiters an die Gesch¨aftsf¨ uhrung ist zudem eine visuelle Aufbereitung der Daten w¨ unschenswert. Wir wollen die H¨aufigkeitsverteilung im Folgenden mit Hilfe eines Stabdiagramms und eines Kreisdiagramms grafisch darstellen. Bei einem Stabdiagramm ist die H¨ohe der St¨abe u ¨ber den Auspr¨agungen ai proportional zur Gr¨oße der jeweiligen H¨aufigkeit, bei einem Kreisdiagramm beschreibt die Wahl der Winkel bei der Sektoreinteilung diese Proportionalit¨at. Die nachfolgende Abbildung zeigt die relativen H¨aufigkeiten der Abteilungszugeh¨origkeit“, wobei wegen des Fehlens der nat¨ urlichen Ordnung und ” des Abstandes der Merkmalsauspr¨agungen keine eindeutige Darstellung existiert. Hier wurde die Reihenfolge entsprechend der Zeilenanordnung in der obigen Tabelle gew¨ahlt. ni 120
a3
100 80
a2 a1 a9 a8 a7
60 40 20 0
a6
a4 a 1 a 2 a 3 a4 a 5 a 6 a 7 a 8 a 9
a5
26
Kapitel 2. Auswertung univariater Datens¨atze
Betrachten wir nun folgenden Fall: Im vergangenen Monat hat die Marketing– Abteilung eine Befragung ihrer Kunden zu dem erworbenen Labor–Mischer durchgef¨ uhrt. Insgesamt wurden n = 8 Kunden gefragt, ob sie zufrieden sind mit dem Produkt. Das Merkmal wurde auf einer Skala von sehr gut (1) bis sehr schlecht (5) gemessen, so dass eine nat¨ urliche Rangordnung bei den Merkmalsauspr¨agungen gegeben ist und es sich somit um ein Ordinalmerkmal handelt. Lassen Sie uns die Kundenzufriedenheit“ genauer analysieren: Welche H¨aufigkeiten wurden beobach” tet und wie k¨onnen wir diese visualisieren? Zun¨achst k¨onnen auch f¨ ur Ordinalmerkmale die bereits beschriebenen H¨aufigkeiten berechnet werden:
Auspr¨agung ai sehr gut gut mittel schlecht sehr schlecht Summe
i 1 2 3 4 5
Anzahl ni 2 2 2 1 1 8
Anteil hi 0.250 0.250 0.250 0.125 0.125 1.000
Kumulierte Kumulierter Anzahl Ni Anteil Hi 2 0.250 4 0.500 6 0.750 7 0.875 8 1.000
Neben diesen gemeinsamen H¨aufigkeitskonzepten k¨onnen f¨ ur mindestens ordinales Skalenniveau zus¨atzlich die kumulierten H¨aufigkeiten Ni und Hi ermittelt werden. Die kumulierte absolute H¨aufigkeit
Ni := n(X ≤ ai ) :=
i
nj
mit 0 ≤ N1 ≤ N2 ≤ . . . ≤ Nm = n
j=1
gibt die Anzahl der Einheiten mit einer Merkmalsauspr¨agung von h¨ochstens ai (i = 1, . . . , m) an. Analog dazu beschreibt die kumulierte relative H¨aufigkeit den Anteil der Einheiten mit einer einer Merkmalsauspr¨agung von h¨ochstens ai (i = 1, . . . , m):
Hi := h(X ≤ ai ) :=
i
hj
mit 0 ≤ H1 ≤ H2 ≤ . . . ≤ Hm = 1
j=1
Die Summation der H¨aufigkeiten setzt eine eindeutige Reihenfolge, d.h. eine nat¨ urliche Rangordnung, der Merkmalsauspr¨agungen voraus. Daher sind die kumulierten H¨aufigkeiten auf nominale Merkmale nicht anwendbar.
2.1. Nominale und ordinale Merkmale
27
Um von der kumulierten relativen H¨aufikeitsverteilung auf die empirische Verteilungsfunktion Fn (x) zu kommen, wird die Betrachtung mathematisch wie folgt komplettiert:1 ⎧ ⎨ 0, x < a1 Hi , ai ≤ x < ai+1 , i = 1, . . . , m − 1 Fn (x) := ⎩ 1, x ≥ am Die grafische Darstellung der empirischen Verteilungsfunktion hat die Form einer Treppenfunktion, da die einzelnen relativen H¨aufigkeiten addiert — d.h. die St¨abe des Stabdiagramms gestapelt — werden. Die Sprungh¨ohe der Funktion an der Stelle x entspricht also der zu x geh¨origen relativen H¨aufigkeit (= Stabh¨ohe). Nachfolgend ist die Verteilungsfunktion des Merkmals Kundenzufriedenheit“ grafisch ” veranschaulicht: Fn (x) 1.00 0.75 0.50 0.25 0
ai sehr gut
gut
mittel
schlecht
sehr schlecht
W¨ahrend die absolute bzw. relative H¨aufigkeitsverteilung angibt, wie viele bzw. welcher Anteil von Beobachtungen auf eine bestimmte Merkmalsauspr¨agung entfallen, liefert die empirische Verteilungsfunktion Fn (x) Antworten auf folgende Fragen: Wie groß ist der Anteil der Daten, die 1. h¨ochstens so groß sind wie die Auspr¨agung x (= Fn (x)) oder 2. gr¨oßer sind als x (= 1 − Fn (x)) oder 3. zwischen zwei Werten x1 und x2 , mit x1 ≤ x2 , liegen (= Fn (x2 ) − Fn (x1 ))? Bei dem Merkmal Kundenzufriedenheit“ ist beispielsweise der Anteil der Kunden, ” die 1. das Kreuz bei mittel“ oder besser setzen Fn (x = a3 ) = 0.75, ” 2. schlecht“ oder sehr schlecht“ ankreuzen 1 − Fn (x = a3 ) = 1 − 0.75 = 0.25 ” ” oder 3. gut“ oder mittel“ w¨ahlen Fn (x = a3 ) − Fn (x = a1 ) = 0.75 − 0.25 = 0.5. ” ” 1 Der Begriff empirische Verteilungsfunktion (symbolisiert durch das n im Index) kommt daher, dass die Verteilung einer empirischen Erhebung mit Stichprobenumfang n beschrieben wird.
28
Kapitel 2. Auswertung univariater Datens¨atze
2.2
Kardinale Merkmale
Die f¨ ur nominale und ordinale Merkmale vorgestellten H¨aufigkeitskonzepte sind ebenfalls anwendbar auf Kardinalmerkmale, bei deren Auspr¨agungen neben der nat¨ urlichen Rangordnung auch die Interpretation des Abstandes m¨oglich ist. Wir greifen die bisherigen Konzepte auf, m¨ ussen dabei jedoch die beiden F¨alle unklassierte und klassierte Daten unterscheiden. Angenommen ein Pharmalift–Qualit¨atsmanager pr¨ uft die elektrische Spannung (in [V]) eines Zubeh¨orteils, das f¨ ur die Produktion von Labor–Mischern ben¨otigt wird. Er entnimmt eine Stichprobe von n = 10 Teilen aus der letzten Lieferung und erfasst zun¨achst die Beobachtungen einzeln, also unklassiert: Beobachtung ν xν xν
1 223 214
2 218 215
3 215 216
4 219 218
5 220 219
6 222 220
7 216 220
8 220 222
9 224 223
10 214 224
Dabei stellt die zweite Zeile die Urliste dar, w¨ahrend sich die dritte Zeile nach Sortierung der Beobachtungswerte gem¨aß ihrer nat¨ urlichen Rangordnung ergibt. Der Wert in spitzen Klammern im Index symbolisiert die Position innerhalb der nat¨ urlichen Rangreihe, so ist x3 beispielsweise der dritte Wert in der Reihung, hier 216 Volt. Wenn eine Merkmalsauspr¨agung mehrmals auftritt, spricht man von Bindungen im Datensatz. Darauf kommen wir aber sp¨ater noch zur¨ uck. Die gute Nachricht ist, dass sich bei der Analyse unklassierter Daten gegen¨ uber der Vorgehensweise bei einem ordinalen Merkmal nichts ¨andert. Die relativen (Stabdiagramm) und kumulierten relativen H¨aufigkeiten (Treppenfunktion) f¨ ur die zehn Spannungsmessungen sind nachfolgend dargestellt: 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
x [V] 214
216
218
220
222
224
Alternativ kann man die Merkmalsauspr¨agungen in Klassen zusammenfassen: Klasse ni
(200;215) 1
[215;220) 4
[220;225) 5
Summe 10
2.2. Kardinale Merkmale
29
¨ Diese Zusammenfassung dient der besseren Ubersichtlichkeit, bedeutet aber gleichzeitig den Verlust der Information u ¨ber die genaue Verteilung innerhalb einer Klasse. Oft ist der Datensatz bzw. die Anzahl m der verschiedenen Merkmalsauspr¨agungen so groß, dass eine Klassierung unverzichtbar ist. Zur Veranschaulichung betrachten wir die Bev¨olkerung nach Altersgruppen in Deutschland (Quelle: Statistisches Bundesamt, Stand: 31.12.2010): Alter in Jahren
Anzahl ni
Anteil hi
unter 6 von 6 bis unter 15 von 15 bis unter 25 von 25 bis unter 45 von 45 bis unter 65 65 und mehr Summe
4 099 621 6 841 580 9 136 385 21 387 571 23 442 152 16 844 293 81 751 602
0.050 0.084 0.112 0.261 0.287 0.206 1.000
Kumulierte Anzahl Ni 4 099 621 10 941 201 20 077 586 41 465 157 64 907 309 81 751 602
Kumulierter Anteil Hi 0.050 0.134 0.246 0.507 0.794 1.000
Eine unklassierte Betrachtung w¨ urde bedeuten, dass jeder einzelne Bundesb¨ urger mit seinem Alter aufgef¨ uhrt werden m¨ usste, ein m¨ uhsames Vorhaben mit un¨ ubersichtlichem Ergebnis. Zwei Fragen gilt es nun zu kl¨aren: Wie bildet man sinnvolle Klassen und was bedeutet die Klassenbildung f¨ ur die H¨aufigkeitskonzepte? Doch zuvor einige Grundbegriffe und allgemeine Anmerkungen: • Klassenbildung entspricht einer Zerlegung des Wertebereichs des betrachteten Kardinalmerkmals in Klassen Ki (mit i = 1, . . . k), ur • die sich einerseits nicht u ¨berschneiden (disjunkte Mengen, Ki ∩ Kj = ∅ f¨ i = j), • und andererseits alle m¨oglichen Merkmalsauspr¨agungen erfassen ( ki=1 Ki = R), • die erste Klasse K1 und die letzte Klasse Kk heißen Fl¨ ugelklassen, • die Obergrenze der Klasse Ki wird als xoi bezeichnet und ist gleichzeitig die ur i = 1, . . . , k − 1, Untergrenze der nachfolgenden Klasse Ki+1 f¨ ur i = 2, . . . , k, • Δxi := xoi − xoi−1 heißt Klassenbreite der Klasse Ki f¨ • xi = (xoi − xui )/2 ist die Klassenmitte. Durch die Wahl der Klassengrenzen muss eindeutig definiert sein, in welche Klasse eine Beobachtung f¨allt. Es stehen grunds¨atzlich die beiden Alternativen von. . . bis ” unter“oder u ¨ber. . . bis zu“ zur Auswahl. Bei dem Bev¨olkerungsbeispiel wurde z.B. ” im Fall der 3. Klasse von bis unter 25“ gew¨ahlt, die andere Variante w¨are u ¨ber ” ”
30
Kapitel 2. Auswertung univariater Datens¨atze
15 bis zu 25“ gewesen. Eine Person im Alter von 15 Jahren w¨are nach der ersten Formulierung in diese Klasse gefallen, bei der alternativen Formulierung h¨atte man die Beobachtung der vorangehenden Klasse zuordnen m¨ ussen. Nun zur¨ uck zu der Frage: Wie bildet man sinnvolle Klassen? Um Manipulationen bei der Klasseneinteilung zu vermeiden, k¨onnen sachlich begr¨ undete Klassengrenzen gew¨ahlt werden, wie z.B. Erwerbsf¨ahigkeitskonzepte, vorgegebene Einkommensklassen, Organisationsstruktur eines Unternehmens oder eine bestimmte Punkte–Noten– Skala. Weiterhin ist eine Zerlegung der Teilgesamtheit in gleichartige Klassen als objektives Kriterium denkbar: Bei gleicher Klassenbreite, Δxi = const. ∀ i, spricht man von ¨aquidistanten und bei gleicher H¨aufigkeit in jeder Klasse, |Ki | = const. ∀ i, von ¨aquifrequenten Klassen. ur die Klasse Die absoluten (ni ), relativen (hi ) und kumulierten H¨aufigkeiten (Hi ) f¨ i mit i = 1, . . . , k sind analog zur bisherigen Betrachtung:
ni := |Ki |
hi :=
ni n
Hi :=
i
hj
j=1
Im Falle nicht–¨aquidistanter Klassen ist zudem die H¨aufigkeitsdichte zu berechnen, um Vergleichbarkeit der Klassen zu gew¨ahrleisten und dabei dem Prinzip der Fl¨achentreue Rechnung zu tragen. Die H ¨aufigkeitsdichte gibt die relative H¨aufigkeit in einer Klasse je Einheit des betrachteten Merkmals an, d.h. es ist die relative H¨aufigkeit durch die Klassenbreite zu dividieren:
fn (x) :=
hi Δxi
f¨ ur xoi−1 < x ≤ xoi ;
i = 2, . . . , k
Mittels der H¨aufigkeitsdichte k¨onnen die einzelnen Klassen verglichen werden, da die Klassenbreite keine Rolle mehr spielt. Das Bild w¨are verzerrt, wenn relative H¨aufigkeiten, die sich auf unterschiedlich breite Klassen beziehen, einander gegen¨ uber gestellt w¨ urden. Es sei noch angemerkt, dass sogenannte offene Fl¨ ugelklassen mit xu1 = −∞ oder xok = ∞ m¨oglichst zu vermeiden oder zumindest schwach zu besetzen sind, da sich f¨ ur diese Klassen Klassenbreiten von unendlich und damit H¨aufigkeitsdichten von null ergeben. Die grafische Darstellung der H¨aufigkeitsdichte wird als Histogramm bezeichnet, was an nachfolgendem Beispiel verdeutlicht werden soll. Betrachten wir die Ergebnisse einer Statistik–Klausur, bei der insgesamt 300 Punkte zu erreichen waren. Das von der Fakult¨at vorgegebene Notenschema sieht f¨ ur genau 300 Punkte die Note 1+, f¨ ur 270 bis unter 300 Punkte die Note 1, f¨ ur 225 bis unter 270 die Note 2 usw. vor, die Note 6 entspricht einer Leistung von weniger als 120 Punkten.
2.2. Kardinale Merkmale
31
Die H¨aufigkeiten f¨ ur die Statistikergebnisse bei der gegebenen nicht–¨aquidistanten Klasseneinteilung und das Histogramm sehen wie folgt aus: Punkte von bis unter 0 120 120 150 150 180 180 225 225 270 270 300 300 301
0.007 0.006 0.005 0.004 0.003 0.002 0.001 0
H¨aufigkeiten i Δxi ni hi 1 120 44 0.183 2 30 42 0.174 3 30 39 0.162 4 45 70 0.290 5 45 38 0.158 6 30 8 0.033 7 1 0 0 − 241 1
fn (x) 0.0015 0.0058 0.0054 0.0064 0.0035 0.0011 0 −
Hi 0.183 0.357 0.519 0.809 0.967 1.000 1.000 −
fn (x) = hi /Δxi
x
0 120 150 180 225 270 300 Im Histogramm beschreibt die Fl¨ache jedes Rechtecks u ¨ber einer Klasse die relative H¨aufigkeit in dieser Klasse: hi = Δxi · fn (xi ), was dem oben genannten Prinzip der Fl¨achentreue entspricht. Die empirische Verteilungsfunktion f¨ ur kardinale klassierte Merkmale basiert im Wesentlichen auf den kumulierten relativen H¨aufigkeiten, die in einem ersten Schritt der jeweiligen Obergrenze der dazugeh¨origen Klasse zuzuordnen sind. Erst an der Obergrenze der Klasse von beispielsweise 120 bis unter 150 Punkten ist die relative H¨aufigkeit von 0.357 komplett angelaufen. Zwischen den Obergrenzen wird unter der Annahme der Gleichverteilung aller Merkmalstr¨ager in einer Klasse linear interpoliert, so dass sich folgende formale Darstellung von Fn (x) ergibt: ⎧ 0, x < xu1 ⎪ ⎪ ⎨ o (x − xi−1 ) · hi Fn (x) := Hi−1 + , xoi−1 ≤ x < xoi , i = 2, . . . , k − 1 ⎪ Δxi ⎪ ⎩ 1, x ≥ xo k−1
Der Verteilungsfunktionswert an der Stelle 140 Punkte setzt sich beispielsweise aus zwei Summanden zusammen: Fn (x = 140) = 0.183 +
(140 − 120) · 0.174 = 0.299 30
32
Kapitel 2. Auswertung univariater Datens¨atze
Der erste Summand, H2−1 = 0.183, ist die kumulierte relative H¨aufigkeit an der Obergrenze der Klasse vor der sogenannten Einfallsklasse (also der Klasse, in der unsere 140 Punkte liegen, hier i = 2). Hinzu kommt noch der Anteil f¨ ur die fehlenden 140-120=20 Punkte. F¨ ur die gesamte Einfallsklasse 120 bis unter 150 Punkte haben wir eine relative H¨aufigkeit von 0.174, so dass auf die noch fehlende Differenz von 140 zu 120 Punkten der Anteil [(140 − 120) · 0.174]/30 entf¨allt. In der grafischen Veranschaulichung entsteht so das Verteilungspolygon, hier im oberen Teil der Abbildung: Fn (x)
1.0 0.8 0.6 0.4 0.2 0 0.007 0.006 0.005 0.004 0.003 0.002 0.001 0
x 0
120
150
180
225
270
300
fn (x)
x
0 120 150 180 225 270 300 Der zuvor gesuchte Verteilungsfunktionswert an der Stelle 140 Punkte ist der Grafik durch die gestrichelte Linie zu entnehmen. Zur Verdeutlichung der Zusammenh¨ange betrachten wir das Histogramm im unteren Teil der Abbildung. Der zu x = 140 geh¨orige Verteilungsfunktionswert entspricht definitionsgem¨aß der markierten Fl¨ache im Histogramm, also der relativen H¨aufigkeit f¨ ur null bis 140 Punkte.
2.3
Parameter einer empirischen Verteilung
Nachdem wir die empirische Verteilung kennengelernt haben, sind nun bestimmte wichtige Charakteristika einer Verteilung durch einen Parameter [syn.: Maßzahl, Kennzahl] zu erfassen. Die Verdichtung des Datensatzes zu einer Kennzahl bedeutet einerseits Informationsverlust, andererseits erm¨oglichen die Parameter den einfachen und u ¨bersichtlichen Vergleich mehrerer Datens¨atze. Der Informationsverlust sollte durch die Kombination mehrerer Parameter kompensiert werden. Folgende Eigenschaften einer Verteilung sind durch geeignete Maßzahlen zu beschreiben:
2.3. Parameter einer empirischen Verteilung
33
• Lage: Messung der Lage einer Verteilung auf der Merkmalsachse, d.h. der Gr¨oßenordnung der Beobachtungswerte, • Streuung: Messung der Streuung bzw. Verschiedenheit der Daten, d.h. des Ausmaßes der Abweichungen von der zentralen Lage, • Schiefe: Messung der Symmetrie bzw. der Art und des Ausmaßes der Asymmetrie der Verteilung, • W¨olbung: Messung der Kr¨ ummung der Verteilung. Der Darstellung der Parameter werden die Perzentile und die Momente vorangestellt, da beide Konzepte zur Beschreibung verschiedener Eigenschaften von Verteilungen und damit zur Konstruktion verschiedenartiger Parameter herangezogen werden k¨onnen.
2.3.1
Perzentile und Momente
Bei der Ermittlung eines (empirischen) Perzentils sucht man nach einem bestimmten Merkmalswert, der den gesamten Datensatz in zwei Teile zerlegt. Genauer formuliert ist das Perzentil der Ordnung p (xp mit 0 < p < 1) jener kleinste Merkmalswert, der vom Anteil p aller Merkmalstr¨ager nicht u ¨berschritten wird.2 xp trennt somit die p · 100% kleinen“ von den (1 − p) · 100% großen“ Merkmalstr¨agern. Besonders ” ” relevante Perzentile sind der Median (p = 0.5), das untere (p = 0.25) und das obere Quartil (p = 0.75). Bei der Perzentilsbestimmung sind im ersten Schritt die Merkmalswerte der Gr¨oße nach aufsteigend zu ordnen, was mindestens ordinales Skalenniveau erfordert. F¨ ur Nominalmerkmale sind Perzentile also nicht zu ermitteln. Dann ist der Merkmalswert gesucht, bei dem die kumulierte relative H¨aufigkeit Hi — d.h. der Verteilungsfunkionswert — erstmals gleich dem vorgegebenen p ist bzw. p erstmals u ¨berschritten wird. Formal ausgedr¨ uckt ergibt sich das Perzentil (bei klassierten kardinalen Merkmalen) aus der inversen empirischen Verteilungsfunktion an der Stelle p: xp = Fn−1 (p). Diese Formaldefinition gibt einen Hinweis darauf, wie xp grafisch ermittelt werden kann. Zur Veranschaulichung der Vorgehensweise kommen wir zur¨ uck zu den Messungen der elektrischen Spannung eines Zubeh¨orteils durch den Qualit¨atsmanager der Pharmalift GmbH. 2 Der Anteil p entspricht der kumulierten relativen H¨ aufigkeit, die wir zuvor als Hi := h(X ≤ xi ) = p kennengelernt haben.
34
Kapitel 2. Auswertung univariater Datens¨atze 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
x [V] 214
216
218 219 220 222 224 Median In der Grafik der Verteilungsfunktion findet man den Median, indem man zu dem vorgebenen Ordinatenwert p den zugeh¨origen Merkmalswert abliest. In der Abbildung ist zudem das Stabdiagramm zu finden. Der Merkmalswert x0.5 = 219 teilt den kompletten Datensatz in die 50% niedrigen und die 50% hohen Voltmessungen. 50% der Messungen sind kleiner oder gleich 219 Volt, die restlichen 50% sind gr¨oßer. 219 Volt ist somit der kleinste Merkmalswert, der von der unteren H¨alfte aller Messungen nicht u ¨berschritten wird. Die grafische Bestimmung eines Perzentils f¨ ur klassierte Daten ist entsprechend, nur dass die Verteilungsfunktion nicht die Form einer Treppe, sondern die eines Polygonzuges hat. Als Beispiel hierf¨ ur seien die in Abschnitt 2.2 vorgestellten Ergebnisse einer Statistik–Klausur betrachtet. Gem¨aß Verteilungsfunktion ist beispielsweise das untere Quartil x0.25 = 131.5 Punkte. Wie ist dieser Wert zu interpretieren? 25% der Klausurteilnehmer haben 131.5 Punkte oder weniger erreicht, die restlichen Teilnehmer (also 75%) haben mehr als 131.5 Punkte erzielt. Fn (x)
1.0
0.25 0
x 0
120
150
180
225
270
300
Bei der rechnerischen Ermittlung von Perzentilen m¨ ussen verschiedene F¨alle betrachtet werden. • Nur die Beobachtungswerte sind als Perzentil zugelassen, was im Folgenden f¨ ur ordinale und unklassierte diskrete Kardinalmerkmale unterstellt wird. Hier ist das Perzentil nicht direkt, sondern dessen Position (gekennzeichnet durch
2.3. Parameter einer empirischen Verteilung
35
die spitzen Klammern im Index) in der nat¨ urlichen Rangordnung aller Merkmalswerte zu bestimmen: xp = x−[−np] , wobei [y], die sogenannte Gauss–Klammer–Funktion, die gr¨oßte ganze Zahl bezeichnet, die kleiner oder gleich y ist. Als Faustregel f¨ ur die Gauss–Klammer sind nicht–ganze Zahlen abzurunden. Das ist – aufgrund des Minuszeichens in der Gauss–Klammer — gleichbedeutend mit der Faustregel, den Rangplatz im Falle einer nicht–ganzen Zahl np aufzurunden. • Als Perzentile sind (bei unklassierten stetigen Merkmalen) alle Werte zwischen dem kleinsten und gr¨oßten Beobachtungswert zugelassen. Hier gilt folgende Interpolationsformel: ⎧ f¨ ur 0 < np ≤ 1 ⎨ x1 ur ν < np ≤ ν + 1 xν + (np − ν)(xν+1 − xν ) f¨ xp = ⎩ f¨ ur n − 1 < np ≤ n xn F¨ ur den Median wird in der Praxis eine einfachere Formel angewendet:
f¨ ur ungerades n = 2k + 1 xk+1 x0.5 = ur gerades n = 2k (xk + xk+1 )/2 f¨ • Im Falle klassierter Kardinalmerkmale wird xp durch lineare Interpolation zwischen den Grenzen der Einfallsklasse e des Perzentils ermittelt: xp = xue +
p − Fn (xue ) · Δxe Fn (xoe − Fn (xue
f¨ ur Fn (xue ) < p ≤ Fn (xoe )
Im Beispiel der Voltmessungen hatten wir grafisch x0.5 = 219 bestimmt. Lassen wir als Perzentil nur Beobachtungswerte zu (Annahme: Messger¨at kann nur auf ganze Zahlen genau messen, es l¨age also ein diskretes Merkmal vor), dann ist der Median die Messung an der Position (−[−np]) = (−[−10 · 0.5]) = 5, also x5 = 219 Volt. Das untere Quartil ist der dritte (−[−10 · 0.25]) = 3 und das obere Quartil der achte Beobachtungswert (−[−10 · 0.75]) = 8, d.h. x0.25 = x3 = 216 Volt und x0.75 = x8 = 222 Volt. Beobachtung ν xν xν
1 223 214
2 218 215
3 215 216
4 219 218
5 220 219
6 222 220
7 216 220
8 9 220 224 222 223
10 214 224
W¨ urde das Messinstrument auf viele Nachkommastellen genau messen k¨onnen, sind die Messungen als Beobachtungen eines stetigen Merkmals aufzufassen. In dem Fall k¨onnten definitionsgem¨aß auch nicht–beobachtete Werte als Perzentil zugelassen werden. Der Median der stetigen Spannungsmessungen ist nach der vereinfachten Formel f¨ ur gerades n = 10 mit k = 5: x0.5 = (x5 + x6 )/2 = (219 + 220)/2 = 219.5
36
Kapitel 2. Auswertung univariater Datens¨atze
Volt. F¨ ur die Bestimmung des beispielsweise unteren Quartils nach der Interpolationsformel muss zun¨achst ν ermittelt werden. Das Produkt np muss genau zwischen ν und ν + 1 liegen. In unserem Beispiel ist np = 10 · 0.25 = 2.5, ν ist demnach der Wert 2, die Interpolation findet zwischen der zweiten und dritten Messung statt: x0.25 = x2 + (10 · 0.25 − 2)(x3 − x2 ) = 215 + (0.5)(216 − 215) = 215.5 Volt F¨ ur die Ergebnisse der Statistik–Klausur hatten wir anhand der Grafik das untere Quartil mit x0.25 = 131.5 Punkten identifiziert. Auch diesen Wert wollen wir nun rechnerisch nachvollziehen. Punkte H¨aufigkeiten von bis unter Δxi ni hi 0 120 120 44 0.183 30 42 0.174 120 150 30 39 0.162 150 180 45 70 0.290 180 225 45 38 0.158 225 270 30 8 0.033 270 300 1 0 0 300 301 − 241 1
kum. H¨aufigkeiten Ni Hi 44 0.183 86 0.357 125 0.519 195 0.809 233 0.967 241 1 241 1 − −
fn (x) 0.0015 0.0058 0.0054 0.0064 0.0035 0.0011 0 −
Das untere Quartil muss in der zweiten Klasse (120 bis unter 150 Punkte) liegen, denn 120 Punkte oder weniger hatten 18.3% und 150 Punkte oder weniger bereits 35.7% der Klausurteilnehmer erreicht. Der Anteil 0.25 geh¨ort zu einer Beobachtung zwischen diesen Grenzen der Einfallsklasse, n¨amlich konkret: x0.25 = 120 + 30 ·
0.25 − 0.183 = 131.5 0.174
Ein großer Teil von Verteilungs–Parametern l¨asst sich auf Perzentile oder auf (empirische) Momente zur¨ uckf¨ uhren. Die Momente mr (a; b) sind ganz allgemein definiert als Mittelwert der Funktionen r X −a g(X) = b eines Merkmals X: 1 1 mr (a; b) := g(X) = g(xν ) = n ν=1 n ν=1 n
n
Speziell f¨ ur a = 0 und b = 1 erh¨alt man die Nullmomente 1 r x , n ν=1 ν n
mr := mr (0; 1) = X r =
xν − a b
r
2.3. Parameter einer empirischen Verteilung
37
wobei das als arithmetisches Mittel bezeichnete erste (r = 1) Nullmoment, 1 = x¯ = xν , n ν=1 n
m1 von besonderer Bedeutung ist.
Eine weitere spezielle Klasse von Momenten sind die Zentralmomente (mit a = x¯ und b = 1) n 1 x; 1) = (X − x¯)r = (xν − x¯)r mr := mr (¯ n ν=1 Aus dieser Klasse werden wir sp¨ater insbesondere das zweite (r = 2) Zentralmoment, 1 (xν − x¯)2 , m2 = n ν=1 n
wieder aufgreifen. Mit Hilfe von Perzentilen und Momenten kann sowohl die Lage, die Streuung als auch die Schiefe einer Verteilung beurteilt werden. Wir beginnen im nachfolgenden Abschnitt mit den Lageparametern, auf denen Streuungs- und auch Schiefeparameter aufbauen.
2.3.2
Lageparameter
Wenden wir uns nun der ersten wichtigen Eigenschaft einer H¨aufigkeitsverteilung zu, n¨amlich der Lage. Lageparameter geben grunds¨atzlich Auskunft u ¨ber die Gr¨oßenordnung der Beobachtungswerte oder anders ausgedr¨ uckt u ¨ber die zentrale Tendenz des Datensatzes. Handelt es sich bei den Merkmalstr¨agern beispielsweise eher um junge oder ¨altere Menschen? Sind die Spannungsmessungen eher Klein–, Nieder– oder Hochspannungen? Sind befragte Kunden mit einem Produkt eher zufrieden oder unzufrieden? Es existieren eine ganze Reihe von verschiedenen Kennzahlen, um Fragen dieser Art zu beantworten. Entscheidend bei der Auswahl eines geeigneten Lageparameters ist das Skalenniveau des betrachteten Merkmals. Vermutlich hat jeder Leser schon einmal einen Durchschnittswert berechnet, z.B. den Durchschnittsverbrauch des PKWs bei einer Urlaubsreise, die Durchschnittspunktzahl einer Klausur, die Durchschnittskosten f¨ ur drei Veranstalter einer Feier oder ¨ahnliches. Hierbei ist jeweils die Addition der Merkmalswerte erforderlich, was definitionsgem¨aß nur f¨ ur kardinale Merkmale zul¨assig und sinnvoll ist. Eine durchschnittliche Haarfarbe von befragten Personen oder durchschnittliche Farbe von beobachteten PKWs macht keinen Sinn. Trotz allem m¨ochte man die Lage der Verteilung der beispielhaft genannten Nominalmerkmale mit einer Kennzahl beurteilen. Im Folgenden lernen wir eine Reihe von Lageparametern kennen: Zuerst den Modus als eine Maßzahl f¨ ur nominales und h¨oheres Skalenniveau, dann die bereits
38
Kapitel 2. Auswertung univariater Datens¨atze
bekannten Perzentile f¨ ur mindestens ordinale Merkmale und dann die Gruppe der Mittelwerte, die kardinales Skalenniveau erfordern. Der Modus [syn.: Modalwert] xd beschreibt die Merkmalsauspr¨agung mit der gr¨oßten H¨aufigkeit, warum man den Modus auch als h¨aufigsten Wert bezeichnet: xd := xi
mit
n(X = xi ) = max n(X = xj ) j
Es ist weder die Addition noch die nat¨ urliche Rangordnung der Merkmalswerte erforderlich, so dass diese Kennzahl auch f¨ ur Nominalmerkmale geeignet ist. In Abschnitt 2.1 haben wir das Merkmal Abteilungszugeh¨origkeit“ der Pharmalift-Belegschaft ” n¨aher betrachtet. In der Produktion sind mit 131 Mitarbeitern die meisten Merkmalstr¨ager zu finden, diese Abteilung stellt somit den Modus der H¨aufigkeitsverteilung dar. Selbstverst¨andlich kann der Modus auch f¨ ur h¨oherskalierte Merkmale bestimmt werden, dabei geht jedoch wertvolle Information verloren. F¨ ur klassierte Kardinalmerkmale wird zun¨achst die modale Klasse als die Klasse mit der gr¨oßten H¨aufigkeitsdichte bestimmt. Deren Klassenmitte, xi , ist definitionsgem¨aß der Modalwert: mit fn (xi ) = max fn (xj ) xd := xi j
F¨ ur das kleine Beispiel der klassierten Voltmessungen Klasse ni hi f( x)
(200;215) 1 1/10 (1/10)/15
[215;220) 4 4/10 (4/10)/5
[220;225) 5 5/10 (5/10)/5
10 1 —
ist der Modus demnach wie folgt zu bestimmen: Die modale Klasse ist die mittlere mit den Grenzen [215;220) und der gr¨oßten H¨aufigkeitsdichte von fn (x2 ) = (4/10)/5 = 0.08, der Modus ist dann deren Klassenmitte xd = 0.5 · (220 + 215) = 217.5 Volt. Es bieten sich f¨ ur ordinale und kardinale Merkmale andere Parameterkonzepte an, die die weitergehende Information der Merkmalsauspr¨agungen auch nutzen. Wir erweitern die Betrachtung im n¨achsten Schritt um die Perzentile, die eine nat¨ urliche Rangordnung voraussetzen und somit mindestens ordinales Skalenniveau erfordern. Die Klasse der Perzentile wurde bereits im vorangegangenen Abschnitt ausf¨ uhrlich vorgestellt. Im Zuge der Beurteilung der Lage einer Verteilung spielen vor allem die Quartile und dabei ganz besonders der Median, also das 50%–Perzentil x0.5 , eine wichtige Rolle. Erg¨anzend zu bereits in Abschnitt 2.3.1 besprochenen Beispielen sei an dieser Stelle noch der Median des in Abschnitt 2.1 aufgegriffenen Ordinalmerkmals Kundenzufriedenheit“ bestimmt. Wir haben gelernt, dass der Me” dian eines Ordinalmerkmals u urlichen Rangordnung ¨ber dessen Position in der nat¨ (hier sortierte Antworten von sehr gut“ bis hin zu sehr schlecht“) ermittelt wird: ” ” x0.5 = x−[−n·0.5] . Im Beispiel der Kundenzufriedenheit wurden insgesamt n = 8 Kunden befragt, d.h. der Median entspricht dem Merkmalswert an der Position
2.3. Parameter einer empirischen Verteilung
39
(−[−4]) = 4, also der vierten Antwort in der nat¨ urlichen Rangreihe, hier die Antwort gut“. ” Ist ein Kardinalmerkmal Gegenstand der Untersuchung, d¨ urfen neben Modus und Perzentilen auch Mittelwerte berechnet werden. Aus dieser Klasse von Lageparametern sind — in Abh¨angigkeit von der Struktur des untersuchten Merkmals — verschiedene Varianten des arithmetischen Mittels sowie das geometrische und harmonische Mittel zu besprechen. Das arithmetische Mittel , erstes Nullmoment x¯, ist die mittlere oder durchschnittliche Auspr¨agung eines Kardinalmerkmals. Im Falle unklassierter Daten kann entweder jeder der insgesamt n Beobachtungswerte summiert und durch n dividiert werden: x¯ :=
n 1 xν · n ν=1
oder man z¨ahlt zun¨achst die H¨aufigkeiten aus und gewichtet damit jede der j verschiedenen Auspr¨agungen: x¯ :=
k k 1 nj · x j = h j · xj · n j=1 j=1
Greifen wir unser Beispiel f¨ ur unklassierte Daten — die Messwerte der elektrischen Spannungen aus Abschnitt 2.2 — auf, um die Vorgehensweise zu verdeutlichen. Merkmalswert i xi ni x i · ni
1 214 1 214
2 215 1 215
3 216 1 216
4 218 1 218
5 219 1 219
6 220 2 440
7 222 1 222
8 223 1 223
9 224 1 224
10 2191
Man kann nun jede einzelne der n = 10 Messungen addieren und mitteln: x¯ =
1 2191 · (214 + 215 + . . . + 220 + 220 + . . . + 224) = = 219.1 Volt 10 10
Alternativ kann man aber die in der H¨aufigkeitsverteilung bereits verdichtete Information nutzen und die insgesamt k = 9 verschiedenen Merkmalswerte mit ihrer absoluten H¨aufigkeit gewichten und dann mitteln: x¯ =
1 · (214 · 1 + 215 · 1 + . . . + 220 · 2 + . . . + 224 · 1) = 219.1 Volt 10
Dieses Ergebnis bedeutet nun, dass die mittlere oder durchschnittliche Spannung der zehn gepr¨ uften Teile 219.1 Volt betr¨agt. Das gewogene arithmetische Mittel sollte man insbesondere dann verwenden, wenn eine große Stichprobe zu beschreiben ist. Man stelle sich vor, n = 1000 verschiedene Spannungen, die alle zwischen den Werten 214 und 224 liegen, einzeln zu addieren. Neben der Gewichtung der Merkmalswerte mit den dazugeh¨origen H¨aufigkeiten sind auch andere Gewichtssysteme je nach individuellem Untersuchungszweck denkbar.
40
Kapitel 2. Auswertung univariater Datens¨atze
Das arithmetische Mittel klassierter Daten (bei unbekannten Einzelwerten) ergibt sich aus dem Mittel der Produkte der Klassenmitten xi (mit i = 1, 2, . . . , k), als naheliegendem Stellvertreter einer Klasse, und der jeweiligen H¨aufigkeit: k 1 x i · ni x¯ := · n i=1
Unter der Annahme der Gleichverteilung der Punkteanzahl innerhalb jeder Klasse ergibt sich f¨ ur die mittlere Punktzahl in der Statistik–Klausur, siehe Bsp. aus Abschnitt 2.2, x¯ = 1/241 · 40605 = 168.5 Punkte mit: Punkte von bis unter Δxi xi n i x i · ni 0 120 120 60 44 2640 30 135 42 5670 120 150 30 165 39 6435 150 180 45 202.5 70 14175 180 225 45 247.5 38 9405 225 270 30 285 8 2280 270 300 − − 241 40605 H¨atte man volle Information, d.h. die genaue Punkteanzahl jedes Studierenden in jeder Klasse, k¨onnte man genauervorgehen und anstelle der Klassenmitten die Miti xij (mit i = 1, 2, . . . , k) verwenden und das telwerte jeder Klasse x¯i = n1i · nj=1 arithmetische Mittel exakt berechnen: x¯ :=
ni k k 1 1 xij = · x¯i · ni · n i=1 j=1 n i=1
Es seien zwei interessante Eigenschaften des arithmetischen Mittels angemerkt: Die Summe der Abweichungen der Merkmalswerte vom arithmetischen Mittel ist null − x¯) = 0) und die Summe der selbigen quadrierten Abweichungen ist ( nν=1 (xν minimal ( nν=1 (xν − x¯)2 = Min), keine Summe der quadrierten Abweichungen von irgendeinem anderen Bezugspunkt ist kleiner. Eine problematische Eigenschaft des arithmetischen Mittels ist die Empfindlichkeit gegen¨ uber Ausreißern, also extrem kleinen oder großen Merkmalswerten. Aus diesem Grund wird anstelle des arithmetischen Mittels oft der Median als robustes Lagemaß verwendet. Beim Median werden n¨amlich nicht die Merkmalswerte selbst, sondern nur deren Position in der nat¨ urlichen Rangordnung ber¨ ucksichtigt. Wie groß die kleinsten und gr¨oßten Werte genau sind, spielt beim Median keine Rolle. Eine hinzukommende sehr große Beobachtung w¨ urde den Median im Wert nur wenig oder u urde. ¨berhaupt nicht ver¨andern, w¨ahrend das arithmetische Mittel stark erh¨oht w¨ Man stelle sich z.B. das Merkmal Verkaufszahlen“ eines Produktes (in St¨ uck) der ” letzten f¨ unf Monate vor: 1200, 1400, 1350, 1150, 1250. Daraus ergibt sich x¯ = 1270 urde nun im sechsten Monat aufgrund außerund x0.5 = x−[−5·0.5] = x3 = 1250. W¨ gew¨ohnlicher Einfl¨ usse eine extrem hohe St¨ uckzahl verkauft, sagen wir 5200, dann
2.3. Parameter einer empirischen Verteilung
41
w¨ urde sich der Median gar nicht, aber das arithmetische Mittel stark ver¨andern: x¯neu = 1925 und xneu 0.5 = x−[−6·0.5] = x3 = 1250. Der neue extreme Wert ist nicht typisch f¨ ur den Datensatz, er verzerrt das Bild. Man w¨ unscht sich robuste Parameter, die auf wenige extreme Werte nicht oder nur wenig reagieren. An der Stelle bleibt jedoch die Frage offen, wie Ausreißer denn u ¨berhaupt definiert sind. Wo sind die Grenzen, d.h. wo f¨angt ein normal kleiner Wert an und wo h¨ort ein normal hoher Wert auf? Auf diese Frage kommen wir am Ende dieses zweiten Kapitels mit der Bestimmung sogenannter Ausreißergrenzen zur¨ uck. Neben dem Median l¨osen noch zwei robustifizierte arithmetische Mittel das Ausreißerproblem, der α–getrimmte und α–winsorisierte Mittelwert. Beim α–getrimmten Mittel p · x[αn]+1 + x[αn]+2 + · · · + xn−[αn]−1 + p · xn−[αn] x¯α := n · (1 − 2α) mit 0 < α < 0.5 und p = 1 + [αn] − αn werden die α · 100% kleinen und α · 100% großen Beobachtungen ersatzlos gestrichen:
weglassen
weglassen
Dagegen werden diese extremen Beobachtungen beim α–winsorisierten Mittelwert x¯wα :=
([αn] + 1) · x[αn]+1 + x[αn]+2 + · · · + xn−[αn]−1 + ([αn] + 1) · xn−[αn] n
mit 0 < α < 0.5 durch die kleinsten bzw. gr¨oßten noch akzeptalen, d.h. noch nicht extremen Werte, ersetzt:
F¨ ur zwei besondere Typen von Merkmalen ist das arithmetische Mittel zur Berechnung des Durchschnittswertes ungeeignet. Wir wollen mit Merkmalen beginnen, bei denen nicht die Summe der Beobachtungswerte, sondern das Produkt inhaltlich Sinn macht. Dies ist immer dann der Fall, wenn es um die Wachstumsfaktoren, also relati¨ ve Anderungen der Merkmalsauspr¨agungen, geht. Dazu ein Beispiel: Die Pharmalift GmbH hat in den letzten f¨ unf Jahren die in der nachfolgenden Tabelle aufgef¨ uhrten Ums¨atze erzielt: Jahr Umsatz [Mio. e] Umsatz / Vorjahresumsatz
2007 21.1 1.0521
2008 22.2 0.9730
2009 21.6 1.1065
2010 23.9 1.0251
2011 24.5
42
Kapitel 2. Auswertung univariater Datens¨atze
Das arithmetische Mittel der Wachstumsfaktoren betr¨agt x¯ = 1.039, d.h. im Durchschnitt w¨achst der Umsatz um 3,9% pro Jahr. Wenn dieser Durchschnittswert sachlogisch richtig w¨are, m¨ usste der Umsatz im f¨ unften Jahr 21.1 · 1.0395 = 25.569 [Mio.e] betragen, was jedoch nicht der Fall ist. Das richtige Lagemaß zur Mittelung von Wachstumsfaktoren ist das geometrische Mittel :
n n xν , xν > 0 x¯g := ν=1
√ Im Beispiel ergibt sich somit: x¯g := 4 1.0521 · 0.9730 · 1.1065 · 1.0251 = 1.0381, die durchschnittliche Umsatzsteigerung pro Jahr betr¨agt 3,81%. Die Probe 21.1 · 1.03814 = 24.5 [Mio.e] best¨atigt die Korrektheit der Vorgehensweise. Beispiel: Mittlerer Zinssatz Eine Bank gew¨ahrte in den letzten drei Jahren Zinss¨atze von 1%, 3.5% und 5%. Wie hoch ist der mittlere Zinssatz (bei zinseszinslicher Verzinsung)? √ Die Antwort lautet: x¯g := 3 1.01 · 1.035 · 1.05 = 1.0315, die durchschnittliche j¨ahrliche Verzinsung betrug 3.15%. W¨are der Zinseszinseffekt ausgeklammert worden, d.h. die Zinsen w¨aren in den darauffolgenden Jahren nicht mit verzinst worden, dann w¨are das arithmetische Mittel ad¨aquat gewesen. Weiterhin muss man sorgsam vorgehen, wenn Merkmale gemittelt werden sollen, deren Merkmalswerte im Quotienten zweier Maßeinheiten gegeben sind (z.B. km/h, l/100km oder e/St¨ uck). Im Falle solcher Verh¨altniszahlen ist unter bestimmten Voraussetzungen das harmonische Mittel anstelle des arithmetischen Mittels als Lageparameter zu verwenden. Zur Verdeutlichung der Problematik betrachten wir die Situation eines Eink¨aufers bei der Pharmalift GmbH. Insgesamt steht dem Eink¨aufer ein Budget von 120 Tsd. e zur Beschaffung zweier Ressourcen (Material 1 und 2) zur Verf¨ ugung, wobei das Budget h¨alftig f¨ ur die Beschaffung der beiden Materialien verwendet wird. Das eine Material kostet 4 Tsd. e pro Tonne und das andere 6 Tsd. e pro Tonne. Mit welchem Durchschnittspreis (pro Tonne) muss der Eink¨aufer weiter kalkulieren? Das einfache arithmetische Mittel w¨ urde zu einem Durchschnittspreis von x¯ = 1/2 · (4 + 6) = 5 Tsd. e pro Tonne f¨ uhren. Dabei wurde jedoch die Information u ¨ber die Aufteilung des Gesamtbudgets nicht ber¨ ucksichtigt. Der Eink¨aufer wird f¨ ur 60 Tsd. e Material 1 kaufen, d.h. er bekommt (120 · 0.5)/4 = 15 Tonnen. Die zweite H¨alfte des Budgets wird in (120 · 0.5)/6 = 10 Tonnen von Material 2 investiert. Damit verausgabt der ur insgesamt 25 Tonnen Material, d.h. im Durchschnitt kostet Eink¨aufer 120 Tsd. e f¨ jede Tonne 120/(10 + 15) = 4.8 Tsd. e. Der Preis des Materials mit dem gr¨oßeren Anteil im Warenkorb (hier das g¨ unstigere Material 1), muss bei der Berechnung des Durchschnittspreises auch st¨arker gewichtet werden. Diese intuitiv einleuchtende Vorgehensweise ist in der Formel f¨ ur das harmonische Mittel zusammengefasst: n x¯h := k
ni i=1 xi
1 = k
hi i=1 xi
2.3. Parameter einer empirischen Verteilung
43
Der Eink¨aufer kann damit den Durchschnittspreis in einem Schritt wie folgt ermitteln: 120 1 x¯h := 60 60 = 0.5 0.5 = 4.8 Tsd. e pro Tonne + 6 + 6 4 4 In diesem Beispiel war die Gewichtung bzw. Aufteilung in der Z¨ahler–Einheit (e) des Merkmals (bei der Messung des Merkmals in e/Tonne) gegeben. W¨are die Aufteilung direkt in Tonnen, also die Gewichtung in der Nenner–Einheit, bekannt gewesen, w¨are das gewogene arithmetische Mittel das ad¨aquate Maß gewesen: x¯ =
1 · (15 · 4 + 10 · 6) = 4.8 Tsd. e pro Tonne 25
Zusammenfassend l¨asst sich festhalten, dass bei der Mittelung von Verh¨altniszahlen die Art der Gewichtung den richtigen Lageparameter bestimmt. Haben die Gewichte (H¨aufigkeiten) die Dimension des Nenners der Verh¨altniszahl ist das gewogene arithmetische Mittel anzuwenden, im Falle von Gewichten (H¨aufigkeiten) in der Dimension des Z¨ahlers der Verh¨altniszahl erfolgt die Durchschnittsberechnung mit dem harmonischen Mittel. Beispiel: Durchschnittsgeschwindigkeit eines Außendienstmitarbeiters Ein Außendienstmitarbeiter f¨ahrt zu einem Top–Kunden. Auf der Hinfahrt betr¨agt seine Geschwindigkeit 70 [km/h], auf der R¨ uckfahrt 130 [km/h]. Die einfache Entfernung betr¨agt 50 km. Wie hoch war die Durchschnittsgeschwindigkeit des Mitarbeiters auf der Gesamtstrecke? Die 50 km Hinfahrt haben aufgrund der langsameren Geschwindigkeit l¨anger gedauert als die 50 km R¨ uckfahrt. Daher ist die langsamere Geschwindigkeit auf der ersten H¨alfte der Strecke bei der Mittelwertberechnung st¨arker zu ber¨ ucksichtigen. Die Gewichtung ergibt sich aus den beiden Streckenabschnitten, die in km — also in der Dimension des Z¨ahlers — der Geschwindigkeit [km/h] gemessen werden. Daher ist hier das harmonische Mittel das angemessene Lagemaß: 100 x¯h := 50 50 = 91 [km/h] + 130 70 Die Summe im Nenner des harmonischen Mittels gibt die gesamte Fahrzeit an, w¨ahrend im Z¨ahler die gesamte Strecke zu finden ist. Gesamtstrecke dividiert durch Gesamtzeit ergibt die Durchschnittsgeschwindigkeit 91 km pro eine Stunde. W¨aren die zwei Gewichte Zeiten gewesen, in der die beiden Geschwindigkeiten gefahren wurden, h¨atte man das gewogene arithmetische Mittel anwenden m¨ ussen. Abschließend sei zusammengefasst, dass die vorgestellten Lageparameter wie folgt anzuwenden sind: • F¨ ur Nominalmerkmale nur der Modus, • f¨ ur Ordinalmerkmale der Modus und die Perzentile und
44
Kapitel 2. Auswertung univariater Datens¨atze • f¨ ur Kardinalmerkmale der Modus, die Perzentile und ein ad¨ aquater Mittelwert.
Lageparameter geben mit einer Kennzahl Auskunft u ¨ber die zentrale Tendenz des Datensatzes. Bei dieser Verdichtung gehen jedoch einige Informationen verloren: Weichen die rechts und links vom Median liegenden Beobachtungen stark ab oder sind sie nahe beim Median gelegen? Ist der Anteil der Beobachtungen unterhalb des arithmetischen Mittels gleich, kleiner oder gr¨oßer als 50%? Diesen Fragen der Streuung und Schiefe der Verteilung wenden wir uns im anschließenden Abschnitt zu. Um einen guten Gesamteindruck von einer Verteilung zu bekommen, sollten Lageparameter immer in Kombination mit weiteren Parametern betrachtet werden.
2.3.3
Streuungsparameter
Nachdem wir die zentrale Lage der H¨aufigkeitsverteilung ermittelt haben, stellt sich die Frage nach dem Ausmaß der Abweichungen von dieser zentralen Lage. Wie verschieden sind die Daten, die zu einem bestimmten Lageparameter gef¨ uhrt haben? Je geringer die Streuung oder Variabilit¨at der Daten ist, um so besser beschreibt ein Lageparameter die Verteilung. Da die meisten Streuungsparameter auf Abstandsmessungen basieren, setzen diese Parameter — bis auf wenige Ausnahmen — kardinales Skalenniveaus voraus. Zur Verdeutlichung der Eigenschaft Streuung betrachten wir die folgenden beiden simulierten Datens¨atze: 1 2 3 4 5 6 7 8 9 10 ν xν 10.2 10.5 9.3 9.8 10.0 10.3 9.9 9.7 10.2 10.2 xν 9.3 9.7 9.8 9.9 10.0 10.1 10.2 10.2 10.3 10.5 yν 12 15 3 8 10 13 9 7 11 12 3 7 8 9 10 11 12 12 13 15 yν Der Simulation der beiden Merkmale liegt die Beziehung yν = (xν − 10) · 10 + 10 = −90 + 10xν zugrunde. Sowohl die Verteilung von X als auch die von Y weisen ein arithmetisches Mittel von x¯ = 10 auf, d.h. das Zentrum beider Datens¨atze ist identisch. Die grafische Veranschaulichung der Verteilungen mittels eines Stabdiagramms zeigt jedoch eine deutlich h¨ohere Variabilit¨at des Merkmals Y als es beim Merkmal X der Fall ist. Verteilung von xν
0
5
10 Geringe Streuung
Verteilung von yν
15 0
5
10 Starke Streuung
15
2.3. Parameter einer empirischen Verteilung
45
Die Information durch einen Lageparameter ist sozusagen nur die halbe Wahrheit, die zus¨atzliche Aussage u ¨ber die Streuung der Daten ist unerl¨asslich. Es gibt eine ganze Reihe von M¨oglichkeiten zur Beschreibung der Variabilit¨at der Beobachtungen. Wir wenden uns zun¨achst den wichtigsten Streuungsparametern f¨ ur Kardinalmerkmale zu, erg¨anzen sp¨ater aber auch eine M¨oglichkeit der Streuungsmessung von nicht–kardinalen Merkmalen. Allen Streuungsparametern ist gemein, dass sie definitionsgem¨aß niemals einen negativen Wert annehmen k¨onnen. Eine intuitiv naheliegende Idee ist es, die Differenz zwischen dem gr¨oßten und dem kleinsten Beobachtungswert zu berechnen, die sogenannte Spannweite: sw := xn − x1 Dieses einfache Maß ist jedoch sehr grob und vor allem extrem empfindlich gegen¨ uber Ausreißern. Bei einem Datensatz mit einer extrem kleinen und einer extrem großen Beobachtung w¨are die Spannweite entsprechend groß, obwohl die beispielsweise 998 restlichen Beobachtungen (n = 1000 angenommen) sehr eng beieinander liegen k¨onnen. Um den Einfluss von Ausreißern auszuschalten, verwendet man gern den zentralen Perzentilsabstand (mit 0 < p < 1): PAp := x (1+p) − x (1−p) 2
2
Dieser Wert gibt an, in welchem Bereich die mittleren p · 100% der Daten liegen. Besonders h¨aufig wird der Quartilsabstand Q mit p = 0.5, also die Differenz zwischen dem oberen und unteren Quartil Q := x0.75 −x0.25 , verwendet. Die 25% kleinsten und 25% gr¨oßten Beobachtungen werden bei diesem Streuungsparameter nicht ber¨ ucksichtigt, d.h. dieses Maß ist robust gegen¨ uber Ausreißern. F¨ ur die einzelnen Voltmessungen des Qualit¨atsmanagers der Pharmalift GmbH hatten wir im Abschnitt 2.1 das untere Quartil mit x0.25 = 216 Volt und das obere Quartil mit x0.75 = 222 Volt ermittelt. Demnach ist der Quartilsabstand in diesem Beispiel Q = 222 − 216 = 6 Volt, was in nachfolgender Abbildung grafisch dargestellt ist. In diesem 6 Volt breiten Bereich liegen die zentralen 50% der Daten, die unteren 25% und die oberen 25% wurden abgeschnitten. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
x [V] 214
216
218
220 Q=6
222
224
46
Kapitel 2. Auswertung univariater Datens¨atze
Es sei an der Stelle betont, dass auch die Perzentilsabst¨ande kardinales Skalenniveau erfordern. F¨ ur die Bestimmung der beiden Quartile ist zwar nur die nat¨ urliche Rangordnung n¨otig, aber anschließend wird die Differenz zweier Beobachtungswerte berechnet. Bei anderen Streuungsparametern wird nicht nur ein Abstand (wie bisher betrachtet zwischen dem gr¨oßten und kleinsten Beobachtungswert oder zwischen dem oberen und unteren Quartil) berechnet, sondern es werden die Abweichungen zwischen jeder Beobachtung und einem Bezugspunkt ber¨ ucksichtigt. Genauer wird nach der durchschnittlichen Abweichung aller Beobachtungswerte zu einem Bezugspunkt, z.B. dem arithmetischen Mittel, gesucht. Das arithmetische Mittel hat aber die Eigenschaft, dass die Summe der Abweichungen der Merkmalswerte von x¯ gleich null ist, ( nν=1 (xν − x¯) = 0). Um zu vermeiden, dass sich die negativen Abweichungen und die positiven Abweichungen kompensieren, gibt es grunds¨atzlich zwei M¨oglichkeiten: Die Betrachtung von Betr¨agen oder Quadraten. Das erstere f¨ uhrt zur mittleren absoluten Abweichung und die zweite Variante zur mittleren quadratischen Abweichung. Die Betragsfunkion Die mittlere absolute Abweichung vom beispielsweise Median (hier nur f¨ ur unklassierte Daten) 1 := |xν − x0.5 | n ν=1 n
dx0.5
ist wegen der enthaltenen Betragsfunktion nicht u ¨berall differenzierbar und hat sich nicht durchgesetzt, in der praktischen Anwendung spielt die mittlere quadratische Abweichung eine viel gr¨oßere Rolle. Die mittlere quadratische Abweichung kann grunds¨atzlich zu jedem beliebigen Bezugspunkt berechnet werden. Als Varianz bezeichnet man die mittlere quadratische Abweichung aller Beobachtungen von ihrem arithmetischen Mittel (also das zweite Zentralmoment): 1 1 2 (xν − x¯)2 = x − x¯2 n ν=1 n ν=1 ν n
s2 :=
1 1 2 (xi − x¯)2 ni = x ni − x¯2 n i=1 n i=1 i k
s2 :=
n
unklassiert
k
klassiert mit Klassenmitten xi
Der linke Teil der Gleichung wird als Definitions– und der rechte als Rechenformel bezeichnet. F¨ ur die bekannten Voltmessungen hatten wir das arithmetische Mittel x¯ = 219.1 Volt berechnet. In nachfolgender Arbeitstabelle sind alle Komponenten zu finden, die f¨ ur die Berechnung der Varianz ben¨otigt werden:
2.3. Parameter einer empirischen Verteilung ν 1 2 3 4 5 6 7 8 9 10
xν 214 215 216 218 219 220 220 222 223 224 2 191
x2ν 45 796 46 225 46 656 47 524 47 961 48 400 48 400 49 284 49 729 50 175 480 151
47 (xν − x¯)2 26.01 16.81 9.61 1.21 0.01 0.81 0.81 8.41 15.21 24.01 102.9
Die Varianz der Voltmessungen betr¨agt s2 = 1/10 · 102.9 = 1/10 · 480151 − 219.12 = 10.29 Volt2 . Was sagt dieser Wert aus? Die Varianz selbst ist√nicht interpretierbar, ur die Voltmesaber deren Wurzel, die sogenannte Standardabweichung s = s2 . F¨ √ sungen ist die Standardabweichung s = 10.29 = 3.208 Volt, was — zumindest n¨aherungsweise — der durchschnittlichen Abweichung der Merkmalswerte von ihrem arithmetisches Mittel entspricht. Als Beispiel f¨ ur die Berechnung der Varianz bei klassierten Daten kommen wir zur¨ uck zu den Ergebnissen der Statistik–Klausur mit dem Mittelwert von x¯ = 168.5 Punkten. Punkte von bis unter Δxi xi ni x2i x2i · ni (xi − x¯)2 · ni 0 120 120 60 44 3600.00 158400.00 517840.35 30 135 42 18225.00 765450.00 47093.64 120 150 30 165 39 27225.00 1061775.00 473.79 150 180 45 202.5 70 41006.25 2870437.50 80989.14 180 225 45 247.5 38 61256.25 2327737.50 237245.20 225 270 30 285 8 81225.00 649800.00 108605.07 270 300 − − 241 232537.50 7833600 992247.20 Auf Basis der Arbeitstabelle errechnet sich die Varianz als s2 =
1 · 992247.20 = 4117.21 Punkte2 241
Die Standardabweichung — also die mittlere Abweichung √ der Punktezahl von der im Durchschnitt erreichten Punktezahl — betr¨agt s = 4117.21 = 64.17 Punkte. Im Zusammenhang mit der Einf¨ uhrung des arithmetischen Mittels f¨ ur klassierte Daten wurde bereits die Situation der vollen oder vollst¨andigen Information erw¨ahnt. In unserem Beispiel bedeutet volle Information, dass nicht nur die Anzahl der Klausuren bzw. Studierenden in einer Klasse bekannt ist, sondern auch deren individuelle Punkteanzahl. Mit dieser Information k¨onnte man als Stellvertreter der Klasse das i xij (mit i = 1, 2, . . . , k) arithmetische Mittel innerhalb einer Klasse x¯i = n1i · nj=1
48
Kapitel 2. Auswertung univariater Datens¨atze
anstelle der Klassenmitte verwenden. Ebenso l¨asst sich f¨ ur jede Klasse i die Varianz s2i berechnen: ni 1 s2i := x2 − x¯2i ni j=1 ij Bei voller Information kann die exakte Varianz berechnet und in die beiden Komponenten interne und externe Varianz zerlegt werden: 1 2 1 = s i ni + (¯ x − x¯i )2 ni n i=1 n i=1 k
s2exakt
interne Varianz
k
externe Varianz
Durch diese Varianzzerlegung kann dem Ursprung der Gesamtvarianz nachgegangen werden. Ist s2 eher durch eine hohe Variabilit¨at der Daten innerhalb der Klassen (interne Varianz) oder eher durch eine große Unterschiedlichkeit zwischen den Klassen (externe Varianz) bedingt? Die Analyse der 241 Klausuren hat die in der nachfolgenden Arbeitstabelle bereitgestellten Mittelwerte und Varianzen in den einzelnen k = 6 Klassen ergeben. Punkte von bis unter 0 120 120 150 150 180 180 225 225 270 270 300
ni x¯i x¯i · ni s2i s2i · ni (¯ x − x¯i )2 · ni 44 58 2552 900 39600 551486.233 42 130 5460 25 1050 67046.727 39 170 6630 64 2496 0.081 70 204.5 14315 9 630 83538.102 38 255 9690 100 3800 274844.934 8 289 49 49 392 113374.921 241 − 40959 1147 47968 1090291
Auf der Basis voller Information ergibt sich zun¨achst eine mittlere Punktzahl von x¯exakt = 1/241 · 40959 = 169.95 Punkte, was etwas h¨oher liegt als es unter der Annahme gleichverteilter Punktezahl je Klasse, x¯ = 168.5, der Fall war. Die exakte Gesamtvarianz betr¨agt s2exakt =
1 1 · 47968 + · 1090291 = 199.04 + 4524.03 = 4723.07 Punkte2 241 241
Die Gesamtvarianz ist also unter Ber¨ ucksichtigung aller einzelnen Klausurergebnisse in jeder Klasse h¨oher als es die Absch¨atzung mittels der Klassenmitten mit s2 = 4117.21 Punkte2 ergeben hatte. Dabei hat die interne Varianz nur einen geringen Anteil an der Gesamtvarianz, d.h. die Gesamtvarianz ist im Wesentlichen durch die Unterschiedlichkeit zwischen den verschiedenen Punkteklassen und nicht durch die Abweichungen innerhalb einer Klasse bedingt. Nun wollen wir uns dem Problem der Vergleichbarkeit der Streuung verschiedener Merkmale zuwenden. Es sei z.B. die Streuung der K¨orpergr¨oße (gemessen in cm)
2.3. Parameter einer empirischen Verteilung
49
und des K¨orpergewichts (gemessen in kg) zu vergleichen. Oder man stelle sich vor, es sind die Streuungen der Ums¨atze deutscher Unternehmen (gemessen in e) denen amerikanischer Unternehmen (gemessen in US $) gegen¨ uberzustellen. Der Vergleich der Streuung von Merkmalen mit unterschiedlicher Dimension ist mit den bisher vorgestellten Streuungsparametern nicht m¨oglich. Zudem ist die Streuung einer Verteilung nur sinnvoll einzusch¨atzen in Verbindung mit einem Lageparameter. Beide Gr¨ unde f¨ uhren zu den sogenannten relativen Streumaßen [syn.: Dispersionskoeffizienten], von denen hier nur der Variationskoeffizient als die Kennzahl mit der h¨ochsten Relevanz in der praktischen Anwendung vorgestellt wird. Grunds¨atzlich setzen relative Streumaße einen Streuungsparameter ins Verh¨altnis zu einem Lageparameter, wodurch die Dimension des betrachteten Merkmals eliminiert wird. Beim Variationskoeffizienten wird die Standardabweichung ins Verh¨altnis gesetzt zum arithmetischen Mittel: s vk := x¯ Der Variationskoeffizient der zuvor √ betrachteten Punkteverteilung (bei voller Information) lautet beispielsweise vk = 4723.07 Punkte2 /169.95 Punkte = 0.404, d.h. die Standardabweichung entspricht ca. 40% des arithmetischen Mittels. Zum Abschluss der Ausf¨ uhrungen zu Streuungsparametern sei das Herfindahl–Maß als Beispiel von Kennzahlen zur Beurteilung der Variabilit¨at nicht–kardinaler Merkmale eingef¨ uhrt. Auch wenn ein Merkmal nur auf einer Nominalskala messbar ist, interessiert das Ausmaß der Verschiedenartigkeit der Merkmalswerte. Als Beispiel betrachten wir die Verteilung des Merkmals Farbe verkaufter PKWs“ eines be” stimmten Modells. Das Ausmaß der Unterschiedlichkeit kann eine wichtige Information f¨ ur Entscheidungen bez¨ uglich zuk¨ unftiger Produktgestaltung sein. Folgende zwei extreme Situationen der Absatzzahlen in zwei verschiedenen L¨andern sind vorstellbar: St¨ uck Land A Land B
schwarz 100 000 0
weiß 100 000 0
rot 100 000 500 000
blau 100 000 0
gr¨ un 100 000 0
Welche Aussagen k¨onnen u ¨ber die Streuung dieser Verkaufszahlen getroffen werden? In Land B stimmen alle Beobachtungen u ¨berein, es liegt keine Variabilit¨at vor. Das Streumaß sollte in diesem Fall den Wert null annehmen. Im ersten Land sind die Verk¨aufe gleich h¨aufig u ¨ber die Farben verteilt. Wenn die Beobachtungen solch eine ¨aquifrequente Verteilung aufweisen, soll der Streuungsparameter den maximalen Wert annehmen. Zudem muss — wie auch f¨ ur kardinale Merkmale — gelten, dass die Streuung niemals negativ werden soll. Aus diesen Anforderungen heraus sind das Herfindahl–Maß und die Entropie entwickelt worden, wobei wir nur auf das erstgenannte, in der Anwendung einfachere Maß, eingehen wollen.
50
Kapitel 2. Auswertung univariater Datens¨atze
Die Definition des Herfindahl–Maßes bei k m¨oglichen Auspr¨agungen des betrachteten nicht–kardinalen Merkmals lautet: HF := 1 −
k
h2i
mit
0 ≤ HF ≤ (k − 1)/k
i=1
Diese Kennzahl basiert demnach nicht auf den Merkmalsauspr¨agungen selbst, sondern nur auf deren relativen H¨aufigkeiten. F¨ ur HF = 0 liegt eine Einpunktverteilung vor, dies ist bei Land B im Automobil–Beispiel der Fall: HF = 1 − (02 + 02 + 12 + 02 + 02 ) = 1 − 1 = 0 Das Herfindahl–Maß nimmt die Obergrenze des Wertebereichs an, wenn eine Gleichverteilung gegeben ist, f¨ ur Land A beispielsweise: HF = 1 − (0.22 + 0.22 + 0.22 + 0.22 + 0.22 ) = 0.8 mit 0 ≤ HF ≤ (5 − 1)/5 = 0.8. Eine Normierung des Herfindahl–Maßes wird durch die Division von HF durch die Obergrenze erreicht, das normierte Herfindahl–Maß hat den Wertebereich 0 ≤ RHF ≤ 1: RHF :=
2.3.4
k · HF k−1
Schiefeparameter
Eine H¨aufigkeitsverteilung kann symmetrisch oder asymmetrisch sein. Symmetrie ist so zu interpretieren, dass kleine und große Merkmalswerte gleichh¨aufig auftreten. Bei der Asymmetrie gibt es zwei verschiedene Formen, die Verteilung kann linkssteil [syn.: rechtsschief] oder rechtssteil [syn.: linksschief] sein. Inhaltlich bedeutet Linkssteilheit, dass kleine Merkmalswerte h¨aufiger vorkommen als große, bei der Rechtssteilheit ist es genau umgekehrt. Die nachfolgende Abbildung verdeutlicht die verschiedenen F¨alle.
linkssteil
symmetrisch
x0.5 xd x¯
rechtssteil
x0.5 x¯ = x0.5 = xd
x¯ xd
2.3. Parameter einer empirischen Verteilung
51
In der Abbildung sind die drei Lageparameter Modus, Median und arithmetisches Mittel eingezeichnet. Es zeigt sich, dass im Falle einer symmetrischen H¨aufigkeits¨ verteilung alle drei Parameter u die Art der Asymmetrie gibt ¨bereinstimmen. Uber die sogenannte Fechnersche Lageregel , benannt nach dem deutschen Physiker und Psychologen Gustav Theodor Fechner (1801—1897), Auskunft: xd < x0.5 < x¯ : xd > x0.5 > x¯ :
linkssteile bzw. rechtsschiefe Verteilung rechtssteile bzw. linksschiefe Verteilung
Eine linkssteile Verteilung ist also dadurch charakterisiert, dass mehr als 50% der Abweichungen (xν − x¯) negativ sind, bei einer rechtssteilen Verteilung sind mehr als 50% der Abweichungen positiv. Der Vergleich der drei relevanten Lageparameter bei der Verteilung des Merkmals Voltmessungen“ (unklassiert) ergibt, dass die ” x = 219.1) rechtssteil ist. Verteilung mit (xd = 220) > (x0.5 = 219.5) > (¯ Neben der Lageregel existieren auch eine Reihe von Schiefeparametern, die entweder auf empirischen Momenten oder Differenzen von Perzentilsabst¨anden basieren. Hier seien — in Analogie zu den nachfolgenden W¨olbungsmaßen — das absolute und relative Schiefemaß vorgestellt: ⎫ ⎧ n ⎧ ⎫ 1 ⎪ ⎪ ⎪ (xν − x¯)3 (unklassierte Daten)⎪ linkssteil ⎬ ⎬ ⎨> 0 ⎨ n ν=1 = 0 symmetrisch m3 := k 1 ⎪ ⎩ ⎭ ⎪ 3 ⎪ ⎪ (x − x ¯ ) n (klassierte Daten) < 0 rechtssteil ⎭ ⎩ i i n i=1 ⎧ ⎫ linkssteil ⎬ ⎨> 0 m 3 = 0 symmetrisch m∗3 := 3 ⎩ ⎭ s < 0 rechtssteil
2.3.5
W¨ olbungsparameter
Die W¨olbung oder Kr¨ ummung — h¨aufig auch Kurtosis genannt — einer H¨aufigkeitsverteilung ist eine Eigenschaft, die bei der Beschreibung eines Merkmals nur eine untergeordnete Rolle spielt. Trotzdem stellen wir hier zwei W¨olbungsparameter vor, da diese im Rahmen von Inferenzaussagen in der praktischen Anwendung von großem Interesse sind. Im zweiten Teil des Buches werden wir die aus mehreren Gr¨ unden besonders wichtige Normalverteilung kennenlernen. Um feststellen zu k¨onnen, ob eine Variable in der Grundgesamtheit einer Normalverteilung folgt, was eine Reihe von w¨ unschenswerten Implikationen h¨atte, wird unter anderem die Schiefe und W¨olbung einer aus der betrachteten Grundgesamtheit gezogenen Stichprobe herangezogen. Auf der Basis empirischer Momente lautet das W¨olbungsmaß in seiner absoluten, m4 , und relativen, m∗4 , Form: ⎧ n 1 ⎪ ⎪ (xν − x¯)4 (unklassierte Daten) ⎨ m4 n ν=1 m∗4 := 4 m4 := k 1 ⎪ s ⎪ (xi − x¯)4 ni (klassierte Daten) ⎩ n i=1
52
Kapitel 2. Auswertung univariater Datens¨atze
Es werden je nach Wert des relativen W¨olbungsmaßes drei F¨alle unterschieden: • st¨arker gew¨olbt als die Normalverteilung, leptokurtisch, m∗4 > 3 bzw. • genauso gew¨olbt wie die Normalverteilung, mesokurtisch, m∗4 = 3 bzw. • schw¨acher gew¨olbt als die Normalverteilung, platykurtisch, m∗4 < 3. Nachfolgende Abbildung soll die drei verschiedenen F¨alle veranschaulichen: m∗4 > 3
m∗4 = 3
m∗4 < 3
2.4
Grafischer Vergleich von Datens¨ atzen
Zu Beginn des zweiten Kapitels wurde gezeigt, wie Verteilungen durch ein Stab– oder Kreisdiagramm, ein Histogramm oder die Verteilungsfunktion in Form einer Treppe oder eines Polygonzugs grafisch veranschaulicht werden k¨onnen. Die anschließend besprochenen Parameter von Verteilungen dienen der Informationsverdichtung und dem Vergleich verschiedener Datens¨atze. In diesem Abschnitt m¨ochten wir zwei weitere Instrumente zur grafischen Darstellung und zum Vergleich von Datens¨atzen mit kardinalem Skalenniveau vorstellen: Die 5–Zahlen–Zusammenfassung (five–digit–display) und den Box–Plot (box–and–whiskers–plot). Bei der 5–Zahlen–Zusammenfassung werden der Median (x0.5 ), die beiden Quartile (x0.25 und x0.75 ) sowie der kleinste (x1 ) und gr¨oßte Beobachtungswert (xn ) wie folgt zusammengefasst: n x0.5 x0.25 x0.75 x1 xn Zudem wird am oberen linken Rand der Stichprobenumfang n vermerkt. Durch diese Darstellung bekommt man auf einen Blick eine Information u ¨ber die Lage (durch den Median) und u ¨ber die Streuung (durch die Spannweite (xn − x1 ) bzw. das robuste Maß Quartilsabstand (x0.75 − x0.25 )) der Verteilung. Zwei oder mehr Datens¨atze k¨onnen auf diese Weise leicht miteinander verglichen werden.
2.4. Grafischer Vergleich von Datens¨atzen
53
Der Box–Plot visualisiert neben Lage und Streuung auch die Schiefe der Verteilung und gibt Auskunft u ¨ber die eventuelle Existenz von Ausreißern. Die Darstellung erfolgt wahlweise u ¨ber eine horizontale oder vertikale Skala des relevanten Wertebereichs, hier in der horizontalen Variante pr¨asentiert. Dabei ist die untere (obere) Grenze der Box durch das untere (obere) Quartil bestimmt, der Median wird als senkrechter Strich in der Box eingetragen. Von der Box gehen zu beiden Seiten skalenparallele Linien ab, die an Schnurrbarthaare (engl. whiskers) erinnern. Die whiskers enden in orthogonalen Abschlusslinien. Die linke (rechte) Linie geht vom unteren (oberen) Ende der Box bis zum kleinsten (gr¨oßten) Beobachtungswert, der noch kein Ausreißer ist. Dabei ist zun¨achst zu bestimmen, ab welcher Grenze es sich um einen Ausreißer handelt. Die untere Ausreißergrenze ist durch x0.25 − 1.5 · PA0.5 (mit PA als Quartilsabstand) und die obere Ausreißergrenze analog durch x0.75 + 1.5 · PA0.5 definiert. Falls es Ausreißer — also Beobachtungswerte kleiner als die untere Ausreißergrenze oder gr¨oßer als die obere Ausreißergrenze — im Datensatz gibt, werden diese durch ein extra Symbol (z.B. ein Kreis oder Stern) gekennzeichnet. Beide Konzepte wollen wir an folgendem Beispiel verdeutlichen: An drei Produktionsst¨atten von Metallb¨andern werden Stichproben in unterschiedlichem Umfang entnommen. Analysiert werden soll das Merkmal L¨ange des Metallbandes“ (in mm). ” F¨ ur alle drei Datens¨atze seien jeweils die 5–Zahlen–Zusammenfassung und die Box– Plots gegeben: 20
Werk 1 102 97 105 93 123
16
Werk 2 106 100 114 92 126
22
Werk 3 111 107 115 94 129
Werk 3 Werk 2 Ausreißer
Werk 1 90
100
110
120
130
Der Vergleich der Box–Plots zeigt, dass die L¨ange der Metallb¨ander tendenziell zunimmt von Werk 1 bis Werk 3, wobei die Streuung — beispielsweise als Quartilsabstand erkennbar an der L¨ange der Box (= PA0.5 ) — im zweiten Werk am gr¨oßten ist. Die Schiefe der Verteilungen — zumindest im zentralen Bereich zwischen den Quartilen — erkennt man an der Positionierung des Medians in der Box. Liegt dieser in der Mitte (wie bei Werk 3) kann man die Verteilung dort als symmetrisch ansehen, ist der Median n¨aher am unteren Quartil liegt dort eher eine linkssteile (Werk 2) und im umgekehrten Fall eine rechtssteile Verteilung (Werk 1) vor.
54
Kapitel 2. Auswertung univariater Datens¨atze
Die Ausreißergrenzen f¨ ur beispielsweise die Stichprobe aus der ersten Produktionsst¨atte lauten, mit PA0.5 = x0.75 − x0.25 = 105 − 97 = 8: untere Ausreißergrenze x0.25 − 1.5 · PA0.5 = 97 − 1.5 · 8 = 85 x0.75 + 1.5 · PA0.5 = 105 + 1.5 · 8 = 117 obere Ausreißergrenze Da das k¨ urzeste Metallband im betrachteten Datensatz 93 mm lang ist, existieren keine Ausreißer nach unten. Nach oben gibt es jedoch mindestens einen Ausreißer, denn das l¨angste Metallband der Stichprobe ist gem¨aß 5–Zahlen–Zusammenfassung 123 mm lang. Der hier gegebene Box–Plot offenbart durch einen weiteren Kreis am rechten Rand, dass es sogar noch ein weiteres Metallband gab, dass definitionsgem¨aß ein Ausreißer ist.
2.5
¨ Ubungsaufgaben
1. Ziehen Sie f¨ ur diese Aufgabe die Lieferfristen (in Tagen) des Hauptlieferanten f¨ ur die Edelstahlgestelle der Mischmaschinen heran (siehe Tabelle 2). (a) Welches Skalenniveau liegt vor? (b) Geben Sie jeweils die absoluten, relativen, prozentualen und kumulierten relativen H¨aufigkeiten zu den oben aufgef¨ uhrten Werten in einer Tabelle an. (c) Zeichnen Sie ein Stabdiagramm mit den absoluten H¨aufigkeiten. (d) Zeichnen Sie ein Stabdiagramm mit den kumulierten relativen H¨aufigkeiten. (e) Zeichnen Sie ein Kreisdiagramm der relativen H¨aufigkeiten. 2. Verwenden Sie f¨ ur diese Aufgabe die Daten aus Tabelle 9: Verkaufszahlen von Container–Mischern. (a) Vervollst¨andigen Sie die Tabelle 9 um folgende Felder: relative H¨aufigkeit hi , kumulierte absolute H¨aufigkeit Ni und kumulierte relative H¨aufigkeit Hi . (b) Zeichnen Sie die empirische Verteilungsfunktion Fn (x). Welche Formel f¨ ur die empirische Verteilungsfunktion m¨ ussen Sie w¨ahlen und warum? 3. Verwenden Sie f¨ ur diese Aufgabe die Daten aus Tabelle 11: Service– und Wartungsvertr¨age f¨ ur Mischmaschinen. (a) Vervollst¨andigen Sie die Tabelle um die relativen H¨aufigkeiten hi sowie die kumulierten absoluten Ni und die kumulierten relativen H¨aufigkeiten Hi . Geben Sie ebenfalls die Klassenbreite Δxi und H¨aufigkeitsdichte fn (x) an.
¨ 2.5. Ubungsaufgaben
55
(b) Zeichnen Sie die empirische Verteilungsfunktion Fn (x). (c) Zeichnen Sie das Histogramm der Verteilung. (d) Kennzeichnen Sie f¨ ur den Wert x = 6 die entsprechende Stelle in der empirischen Verteilungsfunktion und die entsprechende Fl¨ache im Histogramm (grafische L¨osung). (e) Berechnen Sie f¨ ur den Wert x = 6 die entsprechende Stelle in der empirischen Verteilungsfunktion (rechnerische L¨osung). Interpretieren Sie Ihr Ergebnis. 4. Verwenden Sie f¨ ur diese Aufgabe die Daten aus Tabelle 3: Rohstoffpreise f¨ ur 100g Silber in Euro. (a) Erstellen Sie eine H¨aufigkeitstabelle. (b) Bestimmen Sie den Modus, Median und das arithmetische Mittel. Geben Sie ebenso die mittlere quadratische Abweichung vom arithmetischen Mittel sowie die Standardabweichung an. (c) Um ein genaueres Bild von dem Rohstoffmarkt zu bekommen, wurden im Einkauf bei weiteren 8 Lieferanten Rohstoffpreise eingeholt. Dabei konnte bei diesen 8 Lieferanten ein mittlerer Preis von 96.5 e ermittelt werden. Berechnen Sie das arithmetische Mittel, x¯gesamt , aller 23 Rohstoffpreise. 5. Verwenden Sie f¨ ur diese Aufgabe die Daten aus Tabelle 15: Anfahrtszeiten der Mitarbeiter in der Produktion. (a) Geben Sie den Modalwert, den Median und das arithmetische Mittel an. (b) Entscheiden Sie anhand der Lageparameter, ob die H¨aufigkeitsverteilung linksschief, rechtsschief oder symmetrisch ist. 6. Berechnen Sie das 30%–Perzentil der gemessenen Zylinderdurchmesser in Tabelle 6. Verwenden Sie hierzu die Formel f¨ ur stetige Merkmale. 7. Ziehen Sie f¨ ur diese Aufgabe die Anzahl der Langstreckenfl¨ uge aus Tabelle 20 heran. Berechnen Sie mit der Formel f¨ ur diskrete Merkmale die Perzentile f¨ ur folgende Ordnungen: 10%, 25%, 33%, 50%, 66%, 75%, 90%. 8. Geben Sie die durchschnittliche Reisegeschwindigkeit des Mitglieds der Gesch¨aftsleitung an. Verwenden Sie hierf¨ ur die Werte aus Tabelle 21. 9. Geben Sie die durchschnittliche Durchmengungsgeschwindigkeit des neuen FassMischer-Modells an. Verwenden Sie hierf¨ ur die Werte aus Tabelle 5. 10. Berechnen Sie die durchschnittliche Mitarbeiterzuwachsrate der Pharmalift GmbH. Verwenden Sie daf¨ ur Tabelle 17. 11. Verwenden Sie f¨ ur diese Aufgabe die Daten aus Tabelle 14: Einkommensverteilung der Montagegruppe A und B. Berechnen Sie f¨ ur jede Montagegruppe:
56
Kapitel 2. Auswertung univariater Datens¨atze (a) die Lageparameter arithmetisches Mittel und Median (b) die Streuungsparameter Spannweite, Quartilsabstand, Varianz, Standardabweichung und Variationskoeffizient
12. Berechnen Sie die exakte Varianz und Standardabweichung f¨ ur die abgeschlossenen Service– und Wartungsvertr¨age. Verwenden Sie hierf¨ ur die Daten aus Tabelle 11. 13. Berechnen Sie jeweils ein passendes Streumaß f¨ ur die vier Verkaufsregionen und vergleichen Sie die Streumaße miteinander. Verwenden Sie daf¨ ur die Werte aus Tabelle 10. Interpretieren Sie Ihr Ergebnis. 14. Verwenden Sie f¨ ur diese Aufgabe die Daten aus Tabelle 19: Dauer IT–Projekte. (a) Berechnen Sie den Median und das arithmetische Mittel. Erl¨autern Sie, was Ihnen beim Vergleich der beiden Werte auff¨allt und erkl¨aren Sie kurz, warum das so ist? (b) Berechnen Sie den α–getrimmten Mittelwert mit α = 0.3. (c) Berechnen Sie den α–winsorisierten Mittelwert mit α = 0.1. (d) Geben Sie f¨ ur die Daten die 5–Zahlen–Zusammenfassung an. (e) Zeichnen Sie einen Box–Plot f¨ ur die Projektdauer der IT–Projekte. Berechnen Sie daf¨ ur alle ben¨otigten Parameter und kennzeichnen Sie Ausreißer, wenn vorhanden, mit einem eigenen Symbol. Hinweis: Sie k¨onnen die Achse f¨ ur den Box-Plot an geeigneter Stelle mit folgendem Zeichen verk¨ urzt zeichnen (z.B. Verk¨ urzung der Achse zwischen 150 Tsd. e und 900 Tsd. e): x Tsd. e 150
900
Kapitel 3 Auswertung bivariater Datens¨ atze Lernziele • Was versteht man unter einer bedingten Verteilung? • Was besagt das Konzept der statistischen Unabh¨angigkeit? • Welche Assoziationsmaße kennen Sie und wann werden diese angewendet? • Wie kann der Zusammenhang zweier mindestens ordinalskalierter Merkmale gemessen werden? • Worin unterscheiden sich die Korrelations– und die Regressionsanalyse? • Wie k¨onnen Regressionsans¨atze klassifiziert werden? • Wie k¨onnen die Koeffizienten einer linearen Einfachregression interpretiert werden? • Welche M¨oglichkeit zur Beurteilung der G¨ ute einer Regressionsgerade kennen Sie und wie kann diese interpretiert werden? • Welche Arten von nichtlinearen Regressionsfunktionen k¨onnen mit dem gew¨ohnlichen Kleinst–Quadrate–Ansatz gesch¨atzt werden? Bivariate Datens¨atze sind dadurch charakterisiert, dass pro Merkmalstr¨ager zwei Merkmale erhoben und aufbereitet werden. Beide Merkmale werden zun¨achst eindimensional mittels der im zweiten Kapitel ausgef¨ uhrten Methoden untersucht. Bei bivariaten Datens¨atzen kann u ¨ber die Beschreibung eines Merkmals hinaus aber noch die interessante Frage nach einem eventuellen Zusammenhang der zwei erhobenen Merkmale untersucht werden. Bevor im Abschnitt 3.2 die verschiedenen M¨oglichkeiten der Zusammenhangsanalyse — in Abh¨angigkeit vom Skalenniveau der Merkmale — erl¨autert werden, werden im nachfolgenden Abschnitt zuerst die erweiterten H¨aufigkeitskonzepte als Basis vorgestellt.
58
3.1
Kapitel 3. Auswertung bivariater Datens¨atze
H¨ aufigkeitskonzepte
Die Erweiterung von einem Merkmal auf zwei f¨ uhrt auch zur Erweiterung von ein– zu zweidimensionalen H¨aufigkeitstabellen und Grafiken. Der zus¨atzliche Aufwand bei der tabellarischen und grafischen Darstellung bivariater Datens¨atze wird durch zus¨atzliche Information belohnt. Das Ziel ist es, f¨ ur die erh¨ohte Datenkomplexit¨at eine u ¨bersichtliche Form der Darstellung zu finden, die alle relevanten Informationen enth¨alt. Neben den bekannten Konzepten der absoluten und relativen H¨aufigkeitsverteilung werden die Randverteilung und bedingte Verteilung von Merkmalen neu eingef¨ uhrt. Mit den Randverteilungen haben wir dann auch das erforderliche Instrument, um uns abschließend dem Thema der statistischen Unabh¨angigkeit zuzuwenden.
3.1.1
H¨ aufigkeitstabelle und Randverteilung
In einer empirischen Untersuchung wurden bei n = 140 Personen die Anzahl der Geschwister und die Anzahl der Kinder erhoben. Die Urliste besteht aus geordneten Beobachtungspaaren (x1 , y1 ), . . . , (xn , yn ), die in einer bivariaten Beobachtungsmatrix wiedergegeben werden k¨onnen. Anzahl Geschwister Anzahl Kinder Merkmalstr¨ager ν xν yν 1 2 1 3 0 2 2 2 3 .. .. .. . . . n = 140 2 1 Diese Matrix ist im n¨achsten Schritt in eine zweidimensionale H¨aufigkeitstabelle [syn.: Kontingenztabelle] zu u uhren. ¨berf¨ Anzahl Kinder Y Anzahl Geschwister X x1 = 0 x2 = 1 x3 = 2 x4 = 3 n•j
y1 = 0
y2 = 1
y3 = 2
ni•
20 10 6 4 40
2 25 12 11 50
8 15 18 9 50
30 50 36 24 140
Die Kopfzeile und –spalte geben die m¨oglichen Merkmalsauspr¨agungen beider Merkmale an. Im Inneren der Tabelle sind die H¨aufigkeiten f¨ ur die jeweilige Merkmalskombination zu finden, das k¨onnen grunds¨atzlich die gemeinsamen absoluten oder relativen H¨aufigkeiten sein. In unserem Beispiel sind es zun¨achst die gemeinsamen
3.1. H¨aufigkeitskonzepte
59
absoluten H¨aufigkeiten nij , wobei das Zeilenmerkmal X von i = 1, . . . , m und das Spaltenmerkmal Y von j = 1, . . . , k l¨auft. Jede Zelle im Inneren der Tabelle ist eindeutig durch eine Zeile i und eine Spalte j bestimmt; nij gibt die Anzahl der Merkmalstr¨ager an, die die Merkmalskombination (xi , yj ) aufweisen. In unserem Beispiel haben beispielsweise n32 = 12 Personen zwei Geschwister in Verbindung mit einem eigenen Kind. Die Anzahl muss definitionsgem¨aß immer nichtnegativ sein, nij ≥ 0, und die Summe der gemeinsamen absoluten H¨aufigkeiten aller Zellen entspricht dem Stichprobenumfang: m k nij = n i=1 j=1
Anstelle der absoluten k¨onnen in der Kontingenztabelle auch die gemeinsamen relatiussen definitionsgem¨aß immer ven H¨aufigkeiten hij dargestellt werden. Auch diese m¨ nichtnegativ sein, hij ≥ 0, und die Summe der gemeinsamen relativen H¨aufigkeim k ten u ¨ber alle Zellen ergibt Eins, i=1 j=1 hij = 1. Nachfolgend ist die relative Kontingenztabelle zum obigen Beispiel gegeben. (Die Bedeutung der fett und kursiv gekennzeichneten Zellen wird sp¨ater erl¨autert.) Anzahl Kinder Y Anzahl Geschwister X x1 = 0 x2 = 1 x3 = 2 x4 = 3 h•j
y1 = 0
y2 = 1
y3 = 2
hi•
20/140 10/140 6/140 4/140 40/140
2/140 25/140 12/140 11/140 50/140
8/140 15/140 18/140 9/140 50/140
30/140 50/140 36/140 24/140 1
In der letzten Spalte und letzten Zeile der Kontingenztabelle befinden sich die sogenannten Randverteilungen der beiden Merkmale. Die absolute Randverteilung des Merkmals X entspricht den ni• der letzten Spalte und die Randverteilung des Merkmals Y den n•j der letzten Zeile. Was bedeutet das inhaltlich und was besagt der Punkt? Bei den Randverteilungen interessiert nur ein Merkmal, das zweite Merkmal wird sozusagen ausgeblendet. Der Punkt zeigt, welches Merkmal gerade nicht interessiert. Die H¨aufigkeit n1• = 30 besagt z.B., dass 30 Personen keine Geschwister (x1 , d.h. i = 1) haben, die Anzahl der eigenen Kinder wird dabei nicht beachtet (daher der Punkt anstelle des Spaltenindex j). Es wurden alle H¨aufigkeiten der zu x1 geh¨orenden Zeile addiert: n1• = kj=1 n1j . Umgekehrt gibt n•1 = 40 die Anzahl befragter Personen an, die keine Kinder haben. In diesem Fall wurden alle H¨aufigkeiten der zu y1 geh¨orenden Spalte addiert: n•1 = m i=1 ni1 . Die relativen Randverteilungen sind analog zu interpretieren: Die relative H¨aufigkeit h1• = 30/140 ist beispielsweise so zu interpretieren, dass der Anteil von 30/140 aller Personen Einzelkinder sind, die Anzahl der eigenen Kinder bleibt unber¨ ucksichtigt.
60
Kapitel 3. Auswertung bivariater Datens¨atze
Allgemein sind die absolute und relative Randverteilung des Zeilenmerkmals X (mit i = 1, . . . , m) definiert als ni• =
k
nij
hi• =
j=1
k
hij
j=1
und die des Spaltenmerkmals Y lauten entsprechend n•j =
m
nij
h•j =
i=1
m
hij
i=1
Bei den H¨aufigkeitskonzepten univariater Datens¨atze haben wir gelernt, dass f¨ ur Ordinal– und Kardinalmerkmale auch noch die kumulierte H¨aufigkeitsverteilung und die daraus abgeleitete empirische Verteilungsfunktion von großer Bedeutung sind. F¨ ur Nominalmerkmale ist beides nicht definiert, da aufgrund der fehlenden nat¨ urlichen Rangordnung der Merkmalsauspr¨agungen keine eindeutige Reihenfolge bei der Kumulation der H¨aufigkeiten existiert. Die kumulierte gemeinsame absolute (relative) H¨aufigkeit Nij =
j i u=1 v=1
nuv
Hij =
j i
huv
mit i = 1, . . . , m; j = 1, . . . , k,
u=1 v=1
beschreibt die Anzahl (den Anteil) der Merkmalstr¨ager, bei denen f¨ ur die beiden Merkmale X ≤ xi und Y ≤ yj gilt. Diese Formeln wollen wir mit Hilfe des obigen 3 Beispiel 2 verdeutlichen: Die kumulierte gemeinsame relative H¨aufigkeit H32 = u=1 v=1 huv = (20 + 10 + 6 + 2 + 25 + 12)/140 = 75/140 ergibt sich durch Addition der relativen H¨aufigkeiten, die in der relativen Kontingenztabelle fett gedruckt sind. Um f¨ ur eine Zelle die kumulierte H¨aufigkeit zu bestimmen, muss man alle H¨aufigkeiten addieren, die links und oberhalb von der betrachteten Zelle sind. Inhaltlich bedeutet H32 = 75/140, dass der Anteil der Merkmalstr¨ager mit X ≤ x3 (zwei Geschwister oder weniger) in Verbindung mit Y ≤ y2 (also kein oder ein eigenes Kind) 75/140 ist. Berechnet man die kumulierten gemeinsamen relativen H¨aufigkeiten f¨ ur alle Zellen, erh¨alt man f¨ ur unsere Stichprobe der 140 Personen: Anzahl Kinder Y Anzahl Geschwister X x1 = 0 x2 = 1 x3 = 2 x4 = 3 H•j
y1 = 0
y2 = 1
y3 = 2
Hi•
20/140 30/140 36/140 40/140 40/140
22/140 57/140 75/140 90/140 90/140
30/140 80/140 116/140 140/140 140/140
30/140 80/140 116/140 140/140 —
3.1. H¨aufigkeitskonzepte
61
Aus den Hij ergibt sich direkt die gemeinsame empirische Verteilungsfunktion, hier beispielhaft f¨ ur zwei unklassierte Kardinalmerkmale: ⎧ x < x1 oder y < y1 ⎨ 0, Fn (x, y) := Hij , xi ≤ x < xi+1 , yj ≤ y < yj+1 , i = 2, . . . , m − 1, j = 2, . . . , k − 1 ⎩ 1, x ≥ xm und y ≥ yk Auf die grafische Darstellung der zweidimensionalen Funktionen wollen wir verzichten, es handelt sich dabei nur um die Erweiterung der bekannten Grafiken um eine Dimension. Abschließend sei angemerkt, dass alle vorgestellten Konzepte ganz analog auf klassierte Kardinalmerkmale angewendet werden k¨onnen. Statt der Merkmalsauspr¨agungen xi und yj sind dabei die verschiedenen Klassenmitten einzusetzen. Ein Beispiel f¨ ur eine gemeinsame H¨aufigkeitsverteilung klassierter Daten ist bei der Zusammenhangsanalyse kardinaler Merkmale (Abschnitt 3.2.3) zu finden.
3.1.2
Bedingte Verteilung
Bivariate Datens¨atze erlauben verschiedene Blickrichtungen auf eine bestimmte Merkmalskombination, z.B. Einzelkind (also keine Geschwister, x1 ) und ein eigenes Kind (y2 ) aus dem Beispiel des vorangegangenen Abschnitts. Folgende Fragen k¨onnte man formulieren: • Wie groß ist der Anteil der Eltern eines Kindes“ in der Gruppe der Einzel” ” kinder“? • Wie groß ist unter den Eltern eines Kindes“ der Anteil der Einzelkinder“? ” ” • Wie groß ist der Anteil der Personen, die selbst Einzelkind“ und zugleich ” Eltern eines Kindes“ sind? ” Auf den ersten Blick scheinen die Fragen und damit auch die Antworten identisch zu sein. Schaut man jedoch genauer hin, wird der Unterschied in den Formulierungen (hoffentlich) deutlich. Wir beginnen mit der letzten Formulierung. Man weiß nichts u ¨ber die befragten Personen, d.h. man hat keine Vorinformation, hier ist die gemeinsame relative H¨aufigkeit h12 = 2/140 gesucht. Die ersten beiden Fragen sind dagegen mit bedingten H¨aufigkeiten zu beantworten, denn in den Fragen sind Rahmenbedingungen genannt. In der ersten Frage ist die Information oder Bedingung gegeben, dass wir nur Einzelkinder befragen: . . . in der Gruppe der Einzelkinder“. Also ist die Bezugsbasis ” bei der Berechnung des Anteils nicht die Gruppe aller 140 Personen, sondern nur die Gruppe der 30 Einzelkinder (d.h. x1 = 0). Von diesen n1• = 30 haben genau n12 = 2 ein Kind, der bedingte Anteil ist demnach h(y2 |x1 ) = n12 /n1• = 2/30.
62
Kapitel 3. Auswertung bivariater Datens¨atze
Bei der zweiten Frage ist die Situation genau umgekehrt: . . . unter den Eltern eines ” Kindes“. Ein Blick in die Randverteilung des Merkmals Y ergibt n•2 = 50. Unter diesen 50 Eltern eines Kindes sind n12 = 2 selbst Einzelkinder, so dass die Antwort auf die zweite Frage h(x1 |y2 ) = n12 /n•2 = 2/50 lautet. Allgemein ist die bedingte relative H¨aufigkeit h(xi |yj ) definiert als die relative H¨aufigkeit der Merkmalstr¨ager mit der Auspr¨agung xi innerhalb einer Teilgesamtheit, die durch yj festgelegt wird, und umgekehrt: h(xi |yj ) :=
hij nij = h•j n•j
h(yj |xi ) :=
hij nij = hi• ni•
Im ersten Ausdruck h(xi |yj ) ist das Spaltenmerkmal fest und das Zeilenmerkmal variabel, im zweiten Ausdruck h(yj |xi ) ist es genau anders herum. Die kompletten bedingten Verteilungen unseres Beispiels sind in nachfolgenden Tabellen zusammengefasst. h(xi |yj ) x1 = 0 x2 = 1 x3 = 2 x4 = 3 h(yj |xi ) x1 = 0 x2 = 1 x3 = 2 x4 = 3
3.1.3
y1 = 0 20/40 10/40 6/40 4/40 1
y1 = 0 20/30 10/50 6/36 4/24
y2 = 1 2/50 25/50 12/50 11/50 1
y2 = 1 2/30 25/50 12/36 11/24
y3 = 2 8/50 15/50 18/50 9/50 1
y3 = 2 8/30 15/50 18/36 9/24
1 1 1 1
Statistische Unabh¨ angigkeit
Auf der Basis der Randverteilungen kann die Frage der statistischen Unabh¨angigkeit gekl¨art werden. Lassen Sie uns eine Untersuchung von n = 100 Personen hinsichtlich der Marke ihres aktuellen PKWs (Merkmal X) und des Geschlechts (Merkmal Y ) n¨aher betrachten. Geschlecht PKW–Marke deutsch x1 nicht–deutsch x2 n•j
m¨annl. y1 30 10 40
weibl. y2 45 15 60
ni• 75 25 100
3.2. Zusammenhangsanalyse
63
Von den insgesamt 100 Merkmalstr¨agern besitzen n1• = 75 beziehungsweise h1• = 75/100 einen deutschen PKW. Ist genau diese Aufteilung auch bei den beiden Geschlechtern gegeben? Ja, von den n•1 = 40 M¨annern sind genau 75%, n¨amlich n11 = (75 · 40)/100 = (n1• · n•1 )/n = 30, stolzer Besitzer eines deutschen PKW. Die restlichen 25% der M¨anner, n21 = (25 · 40)/100 = (n2• · n•1 )/n = 10, bevorzugen ein ausl¨andisches Modell. Bei den Frauen findet sich die Information der Randverteilung, 75% deutscher und 25% nicht–deutscher PKW, ebenfalls wieder. Daraus k¨onnen wir ableiten, dass statistische Unabh¨angigkeit zweier Merkmalen genau dann gegeben ist, wenn f¨ ur alle Merkmalskombinationen (alle inneren Zellen der Kontingenztabelle) gilt: nij =
(ni• · n•j ) = hi• · h•j n
mit i = 1, . . . , m;
j = 1, . . . k
Diese Besetzungszahlen bei Unabh¨angigkeit werden Unabh¨angigkeitszahlen (uij ) genannt. Statistische Abh¨angigkeit liegt demnach genau dann vor, wenn mindestens in einer Zelle der Kontingenztabelle die tats¨achliche H¨aufigkeit von der Unabh¨angigkeitszahl abweicht.
3.2
Zusammenhangsanalyse
Im unternehmerischen Alltag, in wissenschaftlichen Untersuchungen, aber auch in der Tagespresse werden immer wieder Vermutungen u ¨ber Zusammenh¨ange von zwei Merkmalen thematisiert. Sind beispielsweise das Werbebudget und die Umsatzzahlen eines Unternehmens abh¨angig voneinander? Ist eine Abh¨angigkeit zwischen dem Konsumverhalten und dem Einkommensniveau privater Haushalte nachweisbar? Existiert ein Zusammenhang zwischen der Ausbildung der Eltern und dem Schulabschluss der Kinder? Hypothesen dieser Art begegnen uns immer wieder in verschiedenem Kontext. Das Ziel der Zusammenhangsanalyse ist die Messung der St¨arke und — wenn m¨oglich — der Richtung des Zusammenhangs zweier Merkmale. F¨ ur die Wahl eines ad¨aquaten Zusammenhangsmaßes ist das Skalenniveau der betrachteten Merkmale aus¨ schlaggebend. Nachfolgende Ubersicht gibt Auskunft u ¨ber anwendbare Zusammenhangsmaße, wobei das niedrigere Skalenniveau der beiden Merkmale maßgeblich ist. Wird z.B. der Zusammenhang zwischen einem Nominal– und einem Kardinalmerkmal untersucht, f¨ uhrt das informationsschw¨achere Nominalmerkmal zu den Assoziationsmaßen.
64
Kapitel 3. Auswertung bivariater Datens¨atze Y
nominal
ordinal
kardinal
nominal
Assoziationsmaße z.B. χ2 , φ2
←−
←−
ordinal
↑
Rangkorrelationskoeffizient z.B. Spearman
←−
kardinal
↑
↑
Korrelationskoeffizient von Bravais/Pearson
X
Es gibt auch modifizierte Maße, die f¨ ur bestimmte Kombinationen von Skalenniveaus ¨ (in der Ubersicht als Pfeile gekennzeichnet) entwickelt wurden. Diese speziellen Maße werden im Rahmen des vorliegenden Lehrbuches nicht behandelt, der interessierte Leser findet eine ausf¨ uhrliche Darstellung z.B. bei Cleff (2011) oder Rinne (2008).
3.2.1
Zusammenhangsmaße fu ¨ r nominale Merkmale
Im Abschnitt 3.1.3 haben wir die Unabh¨angigkeitszahlen (uij ) kennengelernt und festgestellt, dass statistische Abh¨angigkeit genau dann vorliegt, wenn mindestens in einer Zelle der Kontingenztabelle die tats¨achliche Besetzungszahl von der Unabh¨angigkeitszahl abweicht: nij = uij . Je gr¨oßer der Unterschied zwischen nij und uij ausf¨allt, desto st¨arker ist der Zusammenhang der beiden Merkmale. Gesucht ist nun eine Kennzahl, die die Information aller Zellen vereint. Stimmen die nij mit den uij (also den H¨aufigkeiten, die bei Unabh¨angigkeit der beiden Merkmale in der Zelle stehen m¨ ussten) f¨ ur alle i, j u ¨berein, liegt die umgekehrte Situation der statistischen Unabh¨angigkeit vor. Es liegt nahe, eine Kennzahl auf der Basis der Differenzen (nij − uij ) zu konstruieren, die sowohl positiv als auch negativ oder auch exakt null sein k¨onnen. Addiert man jedoch diese Differenzen, so ergibt sich immer der Wert null. Daher werden bei den sogenannten Assoziationsmaßen nicht die einfachen, sondern die quadrierten Differenzen u ¨ber alle Zellen (das macht bei einer zweidimensionalen Tabelle eine Doppelsumme erforderlich) ber¨ ucksichtigt. Weiterhin werden die quadrierten Differenzen in Relation gesetzt zu der Unabh¨angigkeitszahl der betrachteten Zelle. Diese ¨ Uberlegungen f¨ uhren zu der Quadratischen Kontingenz , auch χ2 –Maß genannt: χ2 :=
m k (nij − uij )2 uij i=1 j=1
m k n2ij =n −1 n n i=1 j=1 i• •j
3.2. Zusammenhangsanalyse
65
Bei Unabh¨angigkeit ist jede Differenz, und damit auch die Quadratische Kontingenz, exakt gleich null (negativ kann χ2 nie werden). Die obere Grenze des Wertebereiches lautet: n · min{m − 1, k − 1}, d.h. man nehme das Minimum aus der jeweils um Eins reduzierten Zeilen– beziehungsweise Spaltenanzahl. Die Anzahl der verschiedenen Merkmalsauspr¨agungen des Merkmals X (Y ) hatten wir erstmals im Rahmen der H¨aufigkeitskonzepte mit m (k) eingef¨ uhrt. urliche Rangordnung, noch die Interpretation der Das χ2 –Maß setzt weder eine nat¨ Abst¨ande benachbarter Beobachtungswerte voraus und ist somit auch f¨ ur Nominalmerkmale geeignet. Sind die erhobenen Merkmale h¨oher skaliert, kann das χ2 –Maß ebenfalls angewendet werden, es wird aber wertvolle Information aufgegeben. Aus diesem Grund werden in den beiden nachfolgenden Abschnitten weitere Zusammenhangsmaße vorgestellt, die genau diese zus¨atzliche Information auch verarbeiten. Die Berechnung der neuen Maßzahl χ2 soll durch ein kleines Beispiel verdeutlicht werden. Bei der Pharmalift GmbH werden im Produktionsprozess der Fass–Mischer Qualit¨atstests an zwei aufeinanderfolgenden Stationen durchgef¨ uhrt. Beide Tests kann ein Mischer bestehen oder nicht. Die Frage ist, ob die beiden Testergebnisse einen Zusammenhang aufweisen. Insgesamt wurden n = 100 Mischer an den beiden Stationen untersucht. Test A Test B bestanden x1 nicht–bestanden x2 n•j
bestanden y1 28 (33.2 ) 12 (6.8 ) 40
nicht–bestanden y2 55 (49.8 ) 5 (10.2 ) 60
ni• 83 17 100
In Klammern sind f¨ ur jede Zelle die Unabh¨angigkeitszahlen, z.B. u21 = (17·40)/100 = 6.8, angegeben. Aus diesen uij ergibt sich bei m = k = 2 ein χ2 –Wert in H¨ohe von: χ2 =
(28 − 33.2)2 (12 − 6.8)2 (55 − 49.8)2 (5 − 10.2)2 + + + ≈ 7.985 33.2 6.8 49.8 10.2
Die Obergrenze der berechneten Kennzahl ist in diesem Beispiel n · min{m − 1, k − 1} = 100 · min{1, 1} = 100 Der berechnete χ2 –Wert liegt nahe an der Untergrenze null, d.h. es besteht nur ein schwacher Zusammenhang zwischen den beiden Testergebnissen eines Fass– Mischers. Eine unsch¨one Eigenschaft der Quadratischen Kontingenz ist die Tatsache, dass das Maß selbst und auch die Obergrenze des Wertebereichs vom Stichprobenumfang n abh¨angen. Aus diesem Grund werden wir zwei Modifikationen der Kontingenz, die Mittlere quadratische Kontingenz und den Kontingenzkoeffizienten von Cram´er, vorstellen. Die Menge aller Zusammenhangsmaße f¨ ur Nominalmerkmale werden als Assoziationsmaße bezeichnet.
66
Kapitel 3. Auswertung bivariater Datens¨atze
Die Mittlere quadratische Kontingenz [syn.: φ2 –Koeffizient] entspricht — wie der Begriff bereits nahelegt — dem durch n dividierten χ2 : χ2 mit 0 ≤ φ2 ≤ min{m − 1, k − 1} n Man beachte, dass auch die Obergrenze des Wertebereichs durch n geteilt wurde, ur verschieden umfangreiche Stichproben was einen Vergleich der φ2 –Werte auch f¨ erm¨oglicht. φ2 :=
Dividiert man das χ2 –Maß nicht nur durch n, sondern durch die gesamte Obergrenze des Wertebereichs und zieht aus diesem Quotient die quadratische Wurzel, so erh¨alt man den Kontingenzkoeffizienten von Cram´er (1893—1985): χ2 mit 0≤C≤1 C := n · min{m − 1, k − 1} Dieses Assoziationsmaß kann mit 100% multipliziert werden, so dass das Ergebnis prozentual interpretierbar ist. F¨ ur das oben betrachtete Beispiel der beiden Testergebnisse eines Fass–Mischers ergeben sich folgende modifizierten Kontingenzmaße: φ2 ≈ 0.080
mit 0 ≤ φ2 ≤ 1
C ≈ 0.283
mit 0 ≤ C ≤ 1
Insbesondere der Kontingenzkoeffizienten von Cram´er zeigt, dass nur eine schwache Abh¨angigkeit von ca. 28% zwischen den beiden Nominalmerkmalen besteht. Wenn beide betrachteten Merkmale nur zwei m¨ogliche Auspr¨agungen haben (m = k = 2), bezeichnet man die Kontingenztabelle als Vier–Felder–Tafel. F¨ ur diese Situation sind eine Reihe spezieller Kennzahlen entwickelt worden, vgl. dazu beispielsweise Rinne (2008). Wir wollen auf diese Maße aber nicht weiter eingehen, da die vorstehenden allgemeinen Assoziationsmaße nat¨ urlich auch im Falle einer Vier–Felder– Tafel — wie in unserem Beispiel geschehen — angewendet werden k¨onnen. Beispiel: Zusammenhang Anzahl Geschwister und eigene Kinder Das Einf¨ uhrungsbeispiel zu den H¨aufigkeitskonzepten war eine empirische Untersuchung, bei der von n = 140 Personen die Anzahl der Geschwister und der eigenen Kinder erhoben wurden. Die absoluten H¨aufigkeiten und Randverteilungen sind in nachfolgender absoluter Kontingenztabelle zusammengefasst, die Unabh¨angigkeitszahlen sind in Klammern angegeben. Anzahl Kinder Y Anzahl Geschwister X x1 = 0 x2 = 1 x3 = 2 x4 = 3 n•j
y1 = 0
y2 = 1
y3 = 2
ni•
20 (8.571 ) 10 (14.286 ) 6 (10.286 ) 4 (6.857 ) 40
2 (10.714 ) 25 (17.857 ) 12 (12.857 ) 11 (8.571 ) 50
8 (10.714 ) 15 (17.857 ) 18 (12.857 ) 9 (8.571 ) 50
30 50 36 24 140
3.2. Zusammenhangsanalyse
67
F¨ ur die Berechnung des χ2 –Maßes wurden zwei Rechenvarianten vorgestellt, beide wollen wir hier anwenden: m k (nij − uij )2 χ := uij i=1 j=1 2
=
(20 − 8.571)2 (2 − 10.714)2 (11 − 8.571)2 (9 − 8.571)2 + + ... + + = 33.413 8.571 10.741 8.571 8.571
= 140 ·
k m n2ij 2 χ =n −1 n n i=1 j=1 i• •j
202 22 92 + + ... + −1 30 · 40 30 · 50 24 · 50
= 33.413
Zu Interpretation der Quadratischen Kontingenz ben¨otigen wir deren Wertebereich, hier 0 ≤ χ2 ≤ n · min{4 − 1, 3 − 1} = 140 · 2 = 280. Die Obergrenze von 280 macht es m¨oglich, den Zusammenhang der beiden Merkmale als eher schwach einzusch¨atzen, da 33.413 doch sehr viel n¨aher bei null als bei 280 liegt. Die beiden anderen χ2 – orientierten Maße nehmen in diesem Beispiel folgende Werte an: φ2 :=
33.413 χ2 = ≈ 0.239 n 140
C :=
χ2 = n · min{m − 1, k − 1}
mit 0 ≤ φ2 ≤ min{4 − 1, 3 − 1} = 2
33.413 = 0.345 280
mit
0≤C≤1
Der Kontigenzkoeffizient C ist so zu interpretieren, dass in der analysierten Stichprobe zu 34.5% eine Abh¨angigkeit zwischen Anzahl der Geschwister und Anzahl der eigenen Kinder besteht. Dieser Wert ist als schwache Abh¨angigkeit zu bewerten.
3.2.2
Zusammenhangsmaße fu ¨ r ordinale Merkmale
Soll der Zusammenhang von Merkmalen untersucht werden, die mindestens ordinalskaliert sind, kann neben den gerade eingef¨ uhrten Assoziationsmaßen der Rangkorrelationskoeffizient nach Charles Edward Spearman (1863—1945) berechnet werden. Typischerweise werden bei Befragungen von Kunden, Mitarbeitern, Patienten o.¨a. Ordinalmerkmale mittels einer Zufriedenheitsskala erhoben. M¨ochte beispielsweise ein Marktforscher der Automobilindustrie wissen, ob die Zufriedenheit der Kunden mit einem bestimmten Modell eine Abh¨angigkeit zur Zufriedenheit mit dem Service der Werkstatt aufweist, kann er auf der Basis der ordinalskalierten Zufriedenheitswerte den Rangkorrelationskoeffizienten ermitteln. Wir haben gelernt, dass mit den Auspr¨agungen ordinaler Merkmale keine mathematische Operationen durchgef¨ uhrt
68
Kapitel 3. Auswertung bivariater Datens¨atze
werden d¨ urfen. Es besteht zwar eine nat¨ urliche Rangordnung, aber die Abst¨ande benachbarter Beobachtungswerte k¨onnen nicht interpretiert werden. Die Merkmale beziehungsweise die Merkmalswerte einer vorliegenden Urliste m¨ ussen im ersten Schritt aufsteigend sortiert werden, das Ergebnis sind die sogenannten Rangzahlen [syn.: R¨ange]: R(xν ) = ν ∗ ⇔ xν = xν ∗ ;
R(yν ) = ν ∗ ⇔ yν = yν ∗
Von Bindungen im Datensatz spricht man, wenn Auspr¨agungen mehrfach auftreten. In diesem Fall wird mit den mittleren Rangzahlen gearbeitet. Im konkreten Marktforschungs–Beispiel haben n = 10 Kunden den Fragebogen zur¨ uckgesendet. Die Zufriedenheit mit dem Modell (Merkmal X) und die mit dem Werkstatt–Service (Merkmal Y ) wurde jeweils auf einer Skala von Eins bis Zehn gemessen (mit 1 = Maximale Unzufriedenheit bis 10 = Maximale Zufriedenheit). xν R(xν ) R(xν )2 yν R(yν ) R(yν )2 R(xν ) · R(yν ) ν 1 2 3 9 1 1.5 2.25 4.5 5 7 49 4 6.5 42.25 45.5 2 7 8 64 5 8.0 64.00 64.0 3 4 6 36 3 4.5 20.25 27.0 4 9 10 100 8 9.5 90.25 95.0 5 8 9 81 8 9.5 90.25 85.5 6 1 1 1 2 3.0 9.00 3.0 7 2 3 9 3 4.5 20.25 13.5 8 3 5 25 4 6.5 42.25 32.5 9 2 3 9 1 1.5 2.25 4.5 10 Summe − − 383 − − 383.00 375.0 Schauen wir uns das Merkmal X genauer an: Der kleinste Wert ist x7 = 1, also erh¨alt dieser Wert den Rang 1, R(x7 ) = 1. Die Beobachtungen x1 = x8 = x10 = 2 teilen sich die R¨ange 2 bis 4, sie bekommen alle den mittleren Rang (2+3+4)/3 = 3 zugewiesen. Es geht mit Rang 5 f¨ ur den Beobachtungswert x6 = 3 weiter, danach folgen keine Bindungen mehr. Auf der Basis der Rangzahlen ist der Spearman–Korrelationskoeffizient definiert als: 1/n nν=1 (R(xν ) − R(x))(R(yν ) − R(y)) rsp = 1/n nν=1 (R(xν ) − R(x))2 1/n nν=1 (R(yν ) − R(y))2 2 1/n nν=1 R(xν )R(yν ) − (n+1) 4 rsp = 2 2 1/n nν=1 R(xν )2 − (n+1) 1/n nν=1 R(yν )2 − (n+1) 4 4 Der Z¨ahler dieses Quotienten ist die sogenannte Kovarianz der Rangzahlen von X und Y , der Nenner entspricht dem Produkt der Standardabweichungen der Rangzahlen beider Merkmale. Dieser Zusammenhang wird im n¨achsten Abschnitt wieder aufgegriffen und n¨aher erl¨autert.
3.2. Zusammenhangsanalyse
69
Der Wertebereich des Spearman–Korrelationskoeffizienten ist −1 ≤ rsp ≤ +1. Ein rsp von null bedeutet, dass die R¨ange der beiden Merkmale keinen linearen Zusammenhang aufweisen. Bei rsp = +1 beziehungsweise rsp = −1 spricht man von perfekter positiver beziehungsweise negativer Abh¨angigkeit der Rangzahlen. Ein positiver (negativer) Koeffizient beschreibt eine gleichl¨aufige (gegenl¨aufige) Beziehung, d.h. große R¨ange des einen Merkmals gehen tendenziell einher mit großen (kleinen) R¨angen des anderen Merkmals. F¨ ur den Sonderfall, dass keine Bindungen im Datensatz vorkommen, sich also alle Beobachtungswerte unterscheiden, kann rsp einfacher berechnet werden: 6 nν=1 (R(xν ) − R(yν ))2 rsp = 1 − n3 − n In der praktischen Anwendung wird diese Formel oft auch dann verwendet, wenn Bindungen vorliegen. Das Ergebnis ist dann nicht exakt, aber meist eine recht gute N¨aherung. In der Arbeitstabelle der Zufriedenheitsbefragung sind alle erforderlichen Komponenten gegeben. Der exakte Spearman–Korrelationskoeffizient errechnet sich als 1/10 · 375 − 121/4 = 0.9006, rsp = 1/10 · 383 − 121/4 1/10 · 383 − 121/4 es liegt ein starker positiver beziehungsweise gleichl¨aufiger Zusammenhang vor. Je h¨oher die eine Zufriedenheit, desto h¨oher ist tendenziell auch die andere und umgekehrt. Die vereinfachte Formel f¨ ur Datens¨atze ohne Bindungen f¨ uhrt hier zu rsp = 1 −
6 · 16 = 0.9030, 1000 − 10
also kaum abweichend vom exakten Ergebnis.
3.2.3
Zusammenhangsmaße fu ¨ r kardinale Merkmale
In der Controlling–Abteilung der Pharmalift GmbH sind f¨ unf Mitarbeiter, die nach ihrem Alter (X in Jahren) und Einkommen (Y in e) befragt wurden. Beide Merkmale sind kardinalskaliert, so dass mit den Beobachtungswerten selbst anstelle der Rangzahlen Berechnungen durchgef¨ uhrt werden k¨onnen. Um einen ersten Eindruck zu bekommen, sollte zuerst das sogenannte Streudiagramm [syn.: Streuungsdiagramm, scatter plot] erstellt werden. Hierzu werden die Merkmalsauspr¨agungen der beiden Merkmale auf den Achsen eines Koordinatensystems abgetragen, in welchem dann f¨ ur jeden Merkmalstr¨ager das Beobachtungspaar gekennzeichnet wird. Auf diese Weise erh¨alt man schnell einen Hinweis, ob die Daten linear (positiv oder negativ) oder nichtlinear zusammenh¨angen oder eher gar kein Zusammenhang besteht.
70
Kapitel 3. Auswertung bivariater Datens¨atze
Wir kommen sp¨ater auf einige allgemeine Formen von Streudiagrammen zur¨ uck, m¨ochten jetzt aber erst das Beispiel der Controlling–Abteilung fortf¨ uhren. Es folgt ur alle f¨ unf Mitarbeiter. Dar¨ uber eine Tabelle mit den Beobachtungspaaren (xν , yν ) f¨ hinaus wurde die Arbeitstabelle bereits um Spalten erg¨anzt, die im Verlauf dieses Abschnitts ben¨otigt werden. xν yν ν 1 21 1850 28 1800 2 35 2230 3 46 2500 4 55 2560 5 Summe 185 10940
xν · yν 38850 50400 78050 115000 140800 423100
x2ν yν2 441 3422500 784 3240000 1225 4972900 2116 6250000 3025 6553600 7591 24439000
y 2600 2400 2200 2000 1800
x 20
25
30
35
40
45
50
55
Das Streudiagramm zeigt einen positiven linearen Zusammenhang, der relativ deutlich ausgepr¨agt, aber nicht perfekt ist. Gesucht ist eine Kennzahl, die sowohl die Richtung als auch die St¨arke des vermuteten linearen Zusammenhangs der beiden Merkmale genauer beschreibt. Im Zuge der Zusammenhangsanalyse ordinaler Merkmale haben wir bereits den Spearman–Korrelationskoeffizienten als Quotienten aus der Kovarianz und dem Produkt der Standardabweichungen (der Rangzahlen) beider Merkmale kennengelernt. Diesen Ansatz wollen wir aufgreifen und etwas genauer beleuchten. Die Kovarianz (sXY ) ist definiert als das mittlere Produkt der Abweichungen von jedem Beobachtungswert und dem dazugeh¨origen Mittelwert: 1 1 := (xν − x¯)(yν − y¯) = xν yν − x¯y¯ n ν=1 n ν=1 n
sXY
n
f¨ ur unklassierte Daten beziehungsweise 1 1 (xi − x¯)(yj − y¯)nij = xi yj nij − x¯y¯ n i=1 j=1 n i=1 j=1 m
sXY :=
k
f¨ ur klassierte Daten mit Klassenmitten xi und yj .
m
k
3.2. Zusammenhangsanalyse
71
Die jeweils rechte Darstellung ergibt sich aus dem Verschiebungssatz und erspart bei einer großen Anzahl von Beobachtungswerten oder Klassen Rechenarbeit. Geometrisch entspricht jedes Produkt der Fl¨ache eines Rechtecks, das sich zwischen einem Beobachtungspunkt und dem Schwerpunkt der Beobachtungspaare (Wertepaar x¯ und y¯) aufspannt. Die Breite“ der Rechtecke ist (xν − x¯) und die H¨ohe“ ” ” (yν − y¯). Beachten Sie, dass diese Gr¨oßen auch negativ sein k¨onnen. Ihr Produkt ist genau dann positiv, wenn der Punkt im ersten oder dritten Quadranten des unten eingezeichneten Koordinatenkreuzes“ mit Mittelpunkt im Datenschwerpunkt liegt. ” Im Falle eines positiven (negativen) Zusammenhangs der Merkmale ist der gr¨oßere Teil der Gesamtfl¨ache und damit die Kovarianz positiv (negativ), was nachfolgende Abbildungen (oben positiver und unten negativer Zusammenhang) veranschaulichen sollen. Eine Kovarianz von null bedeutet, dass die Merkmale nicht linear voneinander abh¨angen. y II
I
III
IV
y¯
x x¯
y II
I
III
IV
y¯
x x¯ Die Kovarianz ist bereits ein Maß f¨ ur die Richtung und auch die St¨arke des linearen Zusammenhangs zweier Kardinalmerkmale, allerdings ergeben sich Schwierigkeiten bei der Interpretation der St¨arke. Der Wertebereich der Kovarianz lautet uber erlaubt, ob eine Kovarianz von bei−∞ ≤ sXY ≤ ∞, was keine Aussage dar¨ spielsweise 2576 als niedriger, mittlerer oder gar starker linearer Zusammenhang zu
72
Kapitel 3. Auswertung bivariater Datens¨atze
bewerten ist. Aus diesem Grund normiert man die Kovarianz mittels Division durch das Produkt der Standardabweichungen der beiden Merkmale und erh¨alt so den Korrelationskoeffizienten nach Bravais und Pearson (Auguste Bravais, 1811—1863; Karl Pearson, 1857—1936): 1/n nν=1 (xν − x¯)(yν − y¯) sXY = rXY = sX · sY 1/n nν=1 x2ν − x¯2 1/n nν=1 yν2 − y¯2 Der Wertebereich und die Interpretation des Koeffizienten entspricht der des Rangkorrelationskoeffizienten nach Spearman: Der Korrelationskoeffizient nimmt Werte im Bereich −1 ≤ rXY ≤ +1 an. Ein rXY von null bedeutet, dass die beiden Merkmale keinen linearen Zusammenhang aufweisen, also unkorreliert sind. Bei rXY = ±1 spricht man von perfekter positiver beziehungsweise negativer linearer Abh¨angigkeit. Die perfekte lineare Abh¨angigkeit f¨ uhrt zu einem Streudiagramm, bei dem die Beobachtungspaare exakt auf einer Gerade liegen. Die Richtung des Zusammenhangs ist durch das Vorzeichen der Steigung der den Zusammenhang beschreibenden Gerade gegeben. Nachfolgend sind einige Beispiele f¨ ur verschiedene St¨arken und Arten von Zusammenh¨angen abgebildet. rXY = +1
rXY = −1
rXY ≈ +1
0 < rXY ≈ 0
rXY ≈ 0
rXY = 0
Es muss betont werden, dass bei einem Bravais–Pearson–Korrelationskoeffizienten von exakt oder beinahe null kein linearer Zusammenhang zwischen den Merkmalen vorliegt. Es k¨onnte jedoch sein, dass die Beziehung durch eine andere mathematische
3.2. Zusammenhangsanalyse
73
Funktion beschrieben werden k¨onnte. In diesem Fall k¨onnen oft das Streudiagramm oder auch der Spearman–Rangkorrelationskoeffizient weitere Erkenntnisse liefern. Festzuhalten ist, dass zwei statistisch unabh¨angige Merkmale immer auch linear unabh¨angig sind. Aus dem Spezialfall der linearen Unabh¨angigkeit kann jedoch nicht auf allgemeine statistische Unabh¨angigkeit geschlossen werden. F¨ ur die Formulierung der Abh¨angigkeit gilt umgekehrt: Lineare Abh¨angigkeit bedeutet immer auch statistische Abh¨angigkeit, statistische Abh¨angigkeit muss aber nicht unbedingt linearer Natur sein. Kommen wir zur¨ uck zum Zusammenhang der beiden Merkmale Alter und Einkommen der Controlling–Mitarbeiter. Es ergibt sich aus den gegebenen f¨ unf Datenpaaren ein Korrelationskoeffizient in H¨ohe von: sXY 3664 = 0.9464 = rXY = sX · sY 12.2147 · 316.9479 Es besteht bei den befragten f¨ unf Mitarbeitern ein hoher positiver linearer Zusammenhang zwischen dem Alter und dem Einkommen, mit h¨oherem Alter wird tendenziell auch mehr verdient. Das stimmt mit dem ersten Eindruck aus dem Streudiagramm u ¨berein und ist angesichts der mit dem Alter tendenziell h¨oheren fachlichen Kompetenz und der damit meist einhergehenden Erweiterung von Budget– und ¨ Personalverantwortung plausibel. Vor dem Ubergang zum nachfolgenden Abschnitt sollen zwei weitere Beispiele, eines mit unklassierten und eines mit klassierten Daten, die Korrelationsanalyse festigen. Beispiel: Zusammenhangsanalyse bei Spritzgießmaschinen In einer der Produktionsst¨atten der Pharmalift GmbH stehen n = 6 baugleiche Spritzgießmaschinen, die mit unterschiedlicher Geschwindigkeit betrieben werden (Merkmal X in [cm/sek.]). Nachfolgende Beobachtungspaare zeigen, bei welcher Betriebsgeschwindigkeit welche Anzahl von Produktionsunterbrechungen (Merkmal Y ) aufgetreten ist. xν yν xν · yν x2ν yν2 ν 1 4 6 24 16 36 5 8 40 25 64 2 6 9 54 36 81 3 4 7 11 77 49 121 8 10 80 64 100 5 9 13 117 81 169 6 Summe 39 57 392 271 571 Das Streudiagramm l¨asst auf einen hohen positiven linearen Zusammenhang der beiden Merkmale schließen, d.h. je gr¨oßer die Betriebsgeschwindigkeit, umso h¨oher wird tendenziell die Anzahl der Produktionsunterbrechungen. Die Berechnung des Bravais–Pearson–Korrelationskoeffizienten best¨atigt diese Vermutung: 1/6 · 392 − 39/6 · 57/6 3.583¯ = = 0.9463 rXY = 2 2 1.7078 · 2.2174 1/6 · 271 − (39/6) 1/6 · 571 − (57/6)
74
Kapitel 3. Auswertung bivariater Datens¨atze
Beispiel: Zusammenhangsanalyse von Personenalter und PKW–Anschaffungspreis Ein Marktforschungsinstitut hat n = 50 Personen nach ihrem Alter (Merkmal X, gemessen in Jahren) und dem Anschaffungspreis f¨ ur ihr aktuelles Auto (Merkmal Y , gemessen in 10 000 e) befragt. Preis (in 10 Tsd. e) u ¨ber. . . bis Alter u ¨ber. . . bis 20—30; x1 = 25 30—40; x2 = 35 40—50; x3 = 45 50—60; x4 = 55 60—70; x5 = 65 n•j
0—1 y1 = 0.5
1—2 y2 = 1.5
2—3 y3 = 2.5
3—4 y4 = 3.5
ni•
1 2 1 1 1 6
2 4 4 3 1 14
3 6 6 3 2 20
1 3 2 2 2 10
7 15 13 9 6 n = 50
In der Tabelle sind neben den absoluten H¨aufigkeiten nij auch die jeweiligen Klassenmitten xi und yj angegeben, die bei der Berechnung des Korrelationskoeffizienten als Repr¨asentant der Klasse dienen. Die Mittelwerte, Varianzen und die Kovarianz der beiden klassierten Merkmale lauten: 1 xi ni• = 43.4 Jahre; n i=1 m
x¯ =
1 yj n•j = 2.18 10 Tsd. e n j=1 k
y¯ =
1 2 x ni• − x¯2 = 12.2245 Jahre2 n i=1 i m
s2X =
1 2 y n•j − y¯2 = 0.9261 10 Tsd. e2 n j=1 j k
s2Y =
1 xi yj nij − x¯y¯ = 0.688 n i=1 j=1 m
sXY =
k
Der Wert der Kovarianz deutet bereits einen zu vernachl¨assigenden positiven linearen Zusammenhang zwischen den betrachteten Merkmalen an. Tieferen Einblick gew¨ahrt der Korrelationskoeffizient in H¨ohe von rXY =
sXY 0.688 √ =√ = 0.0608, sX · sY 12.2245 0.9261
d.h. es gibt zwischen dem Alter einer Person und dem PKW–Anschaffungspreis beinahe keinen linearen Zusammenhang. Wenn die Korrelationsanalyse eine Abh¨angigkeit zwischen den betrachteten Merkmalen offenbart hat, liegt der Wunsch nahe, diese Abh¨angigkeit auch formal durch eine mathematische Funktion genauer zu beschreiben. Das f¨ uhrt zur Regressionsanalyse, die wir im nachfolgenden Abschnitt n¨aher betrachten wollen.
3.3. Regressionsanalyse
3.3
75
Regressionsanalyse
Die Regressionsanalyse, kurz: Regression, hat hohe Relevanz im praktischen Alltag vieler Unternehmen: Sei es die Frage der Erkl¨arung des Absatzes eines Produktes in Abh¨angigkeit vom eingesetzten Werbebudget, des Umsatzes eines Beratungsunternehmens in Abh¨angigkeit von der Anzahl der Berater, der Rendite eines Wertpapiers in Abh¨angigkeit vom Marktzins, der Transportpreise eines Produktes in Abh¨angigkeit von der Transporttechnologie, der Stromst¨arke in Abh¨angigkeit von der elektrischen Spannung, der Meißeldrehzahl in Abh¨angigkeit von der Bohrgeschwindigkeit oder ¨ahnliches. Immer wenn die Abh¨angigkeit eines kardinalen Merkmals von einem anderen Kardinalmerkmal analysiert wird, kommt die Regressionsrechnung in verschiedenen Auspr¨agungen zum Einsatz. Dabei kann die Abh¨angigkeitsstruktur linearer oder nichtlinearer Natur sein, und es kann eine oder mehrere Erkl¨arungsgr¨oßen geben. Daraus ergibt sich folgende Klassifikation von Regressionsans¨atzen: Ansatz linear nichtlinear
eine Erkl¨arungsgr¨oße Lineare Einfachregression Nichtlineare Einfachregression
mehrere Erkl¨arungsgr¨oßen Lineare Mehrfachregression Nichtlineare Mehrfachregression
An dieser Stelle sind noch einige wesentliche Begriffe einzuf¨ uhren, auf denen die nachfolgenden Ausf¨ uhrungen aufbauen. Im Rahmen der Regression wird ein Kardinalmerkmal, der Regressand, durch andere Kardinalmerkmale, die Regressoren, erkl¨art. Die Regressionsfunktion ist die mathematische Funktion zur Beschreibung der Abh¨angigkeitsstruktur, und die Regressionsrechnung ist die Methode zur Sch¨atzung der Regressionsfunktion. Wo stammt die Bezeichnung und die Methode Regression eigentlich her? Der aus dem Englischen stammende Begriff bedeutet R¨ uckgang“ oder R¨ uckf¨ uhrung“ und ” ” wurde im 19. Jahrhundert erstmals vom Engl¨ander Francis Galton (1822–1911) zur Beschreibung biologischer Ph¨anomene verwendet. Namen gebend war vor allem die Analyse der K¨orpergr¨oße von V¨atern und S¨ohnen, bei der sich die Tendenz R¨ uckf¨ uhrung zum Durchschnitt zeigte. Die S¨ohne großer V¨ater zeigten in dem betrachteten Datensatz eine Tendenz in Richtung durchschnittlicher K¨orpergr¨oße. Kleine V¨ater tendierten zu S¨ohnen, die gr¨oßer wurden als sie selbst und sich somit ebenfalls dem Durchschnitt ann¨aherten. Die Idee der Regression griffen sp¨ater der schottische Statistiker George Udny Yule (1871–1956) und der uns durch die Korrelationsanalyse schon bekannte britische Mathematiker Karl Pearson auf und etablierten diese u ¨ber die biologischen Fragestellungen hinaus. Das vorliegende Lehrbuch hat eher einf¨ uhrenden Charakter, so dass wir uns hier nur den beiden Varianten der Einfachregression — vornehmlich der linearen Einfachregression — zuwenden werden. Die Theorie der Mehrfachregression [syn.: multiple ¨ Regression] ist Gegenstand der sogenannten Okonometrie, f¨ ur die eine Vielzahl von speziellen Lehrb¨ uchern existiert (vgl. z.B. Rinne, 2004, von Auer, 2011, oder Winker, 2010).
76
Kapitel 3. Auswertung bivariater Datens¨atze
3.3.1
Lineare Einfachregression
W¨ahrend bei der Korrelationsanalyse nur der Zusammenhang von Merkmalen Gegenstand der Untersuchung ist, wird bei der Regressionsanalyse eine kausale Richtung der Abh¨angigkeit vorausgesetzt. Nicht immer ist die Wirkungsrichtung eindeutig gekl¨art: Bedingt beispielsweise der Preis die Nachfrage nach einem Gut oder umgekehrt? Die Regression ist in beide Richtungen durchf¨ uhrbar, ob das jedoch sachlogisch sinnvoll ist, muss der Anwender entscheiden. Die Frage der Kausalit¨at kann unter Umst¨anden mittels ¨okonometrischer Kausalit¨atstests gekl¨art werden, aber das ist ein Thema jenseits der Lernziele des vorliegenden Lehrbuches. Wir kommen nun — zur Verdeutlichung der Grundidee der Regression — zur¨ uck zu dem in Abschnitt 3.2.3 eingef¨ uhrten Beispiel der Spritzgießmaschinen. Bereits das Streudiagramm hatte bei den betrachteten sechs Maschinen einen hohen positiven linearen Zusammenhang zwischen der Anzahl der Produktionsunterbrechungen (Merkmal Y ) und der Geschwindigkeit (Merkmal X in [cm/sek.]) offenbart. Der Korrelationskoeffizient in H¨ohe von r = 0.946 hat diesen ersten Eindruck best¨atigt. Kennt man den konkreten funktionalen Zusammenhang zwischen den beiden Merkmalen, k¨onnte beispielsweise f¨ ur eine neue siebte Maschine, die mit einer bestimmten Geschwindigkeit betrieben wird, die Anzahl der Produktionsunterbrechungen abgesch¨atzt werden. Ein linearer Zusammenhang bedeutet, dass die Beobachtungspaare der einzelnen Merkmalstr¨ager mehr oder weniger eng, je nach St¨arke des Zusammenhangs, um eine Gerade streuen. y 14 12 10 8 6 4 2 x
0 0
1
2
3
4
5
6
7
8
9
10
3.3. Regressionsanalyse
77
Die eingezeichnete Gerade erm¨oglicht es, aus gegebenen Werten des einen Merkmals (Regressor, hier Geschwindigkeit X) die zugeh¨origen durchschnittlichen Merkmalsauspr¨agungen des anderen Merkmals (Regessand, hier Produktionsunterbrechungen Y ) zu errechnen. Die Geraden– beziehungsweise Regressionsgleichung lautet ganz allgemein: yˆν = a + b · xν
mit
ν = 1, 2, . . . , n ,
wobei das Dach u ¨ber yν symbolisiert, dass es sich um eine Sch¨atzung handelt. Die tats¨achlich beobachteten y–Werte weichen in der Regel — außer bei dem sehr seltenen Fall des perfekten linearen Zusammenhangs — von der Regressionsgerade ab. Diese Abweichung wird als Residuum uν bezeichnet: uν = yν − yˆν Anders ausgedr¨ uckt setzt sich ein Beobachtungswert yν aus einem systematischen Teil yˆ und einem unerkl¨arten Rest, dem Residuum, zusammen: yν = yˆν + uν Welche Gerade, also welches a und b, ist nun optimal? Was bedeutet Optimalit¨at in diesem Kontext? Die Gerade soll sich optimal an die gegebenen Beobachtungspaare anpassen. Intuitiv sucht man nach der Gerade, die den Beobachtungspaaren m¨oglichst nah kommt, also die Summe der Residuen minimiert. Dieses Kriterium legt aber nicht eindeutig eine Gerade fest, sondern wird von allen Geraden erf¨ ullt, die durch den Schwerpunkt der Beobachtungspaare (Wertepaar x¯ und y¯) laufen. Der Grund f¨ ur die fehlende Eindeutigkeit ist das Ph¨anomen, dass sich bei der Summe der Residuen positive und negative Abweichungen in verschiedener Weise ausgleichen k¨onnen. Um diese Kompensation zu vermeiden, k¨onnte man die Betr¨age oder die Quadrate der Residuen betrachten. Die absoluten Abweichungen verursachen jedoch mathematische Probleme und werden daher nicht weiter betrachtet. Nach der 1805 von Adrien–Marie Legendre (1752–1833) und 1809 von Carl Friedrich Gauß (1777–1855) ver¨offentlichten Kleinsten–Quadrate–Methode (kurz KQ– Methode) ist genau die Gerade optimal, die die Summe aller quadrierten Residuen minimiert: n n n u2ν = (yν − yˆν )2 = (yν − a − b · x)2 Min! ν=1
ν=1
ν=1
78
Kapitel 3. Auswertung bivariater Datens¨atze
Die algebraische L¨osung dieser recht einfachen Optimierungsaufgabe erfolgt in wenigen Schritten: Zun¨achst sind die beiden partiellen Ableitungen erster Ordnung nach a und b zu bestimmen und gleich null zu setzen (notwendige Bedingung, die hier gleichermaßen hinreichend ist): n ∂ (yν − a − b · xν ) = 0 = −2 · ∂a ν=1 n ∂ xν · (yν − a − b · xν ) = 0 = −2 · ∂b ν=1
Nach Umformung ergeben sich hieraus die beiden Normalgleichungen: n
yν = a · n + b
ν=1 n ν=1
xν · yν = a
n
xν
ν=1 n ν=1
xν + b
n
x2ν
ν=1
Die Aufl¨osung der beiden Normalgleichungen nach den unbekannten Parametern ergibt nachfolgende Sch¨atzformeln: n n (xν − x¯)(yν − y¯) ¯y¯ sXY sY ν=1 ν=1 xν yν − n · x n = = 2 = rXY b= n 2 2 2 ¯) x sX sX ν=1 (xν − x ν=1 xν − n¯ n x2 n yν − nν=1 xν nν=1 xν yν a = ν=1 ν ν=1 = y¯ − b · x¯ n nν=1 x2ν − ( nν=1 xν )2 Es bietet sich an, zuerst den Parameter b zu sch¨atzen, um anschließend die einfache Rechenformel f¨ ur a anwenden zu k¨onnen. Aber wie sind die beiden Parameter zu interpretieren? Der Parameter a gibt grunds¨atzlich den Schnittpunkt der Regressionsgeraden mit der Ordinate (Achsenabschnitt) an, und b beschreibt die Steigung der Geraden. Diese Steigung gibt Auskunft u ¨ber die Richtung des Zusammenhangs der betrachteten Merkmale. Die Richtung ist durch das Vorzeichen gegeben, eine positive (negative) Steigung entspricht auch einem positiven (negativen) Zusammenhang. Das Steigungsmaß beschreibt die durchschnittliche Ver¨anderung des (zu erkl¨arenden) Regressanden bei einer Erh¨ohung des (erkl¨arenden) Regressors um eine Einheit. Je gr¨oßer b ist, umso st¨arker ist die Reaktion. In der letzten Darstellung der Sch¨atzgleichung, b = rXY ssXY , kommt zum Ausdruck, dass der Korrelationskoeffizient und das Verh¨altnis der Standardabweichungen der beiden Merkmale das Steigungsmaß bestimmen. Die Gerade steigt umso steiler je st¨arker — bei gleichem rXY und sX — die y–Werte streuen. Der Sch¨atzung liegt ein bestimmter Bereich zwischen den beiden ¨außeren Beobachtungspaaren — der sogenannte St¨ utzbereich — zugrunde. Eigentlich d¨ urfen a
3.3. Regressionsanalyse
79
und b nur in diesem Bereich gedeutet werden. Bei der Interpretation der Regressionskoeffizienten ist also immer dann Vorsicht geboten, wenn man sich außerhalb des St¨ utzbereichs bewegt. Es muss genau bedacht werden, ob eine Interpretation in diesem Fall sachlogisch Sinn macht. Einige Eigenschaften einer nach der KQ–Methode gesch¨atzten Regressionsgerade sind an dieser Stelle noch zu erg¨anzen: Die Summe der Residuen und das arithmetische Mittel der Residuen sind jeweils null, uν = 0 und u¯ = 1/n uν = 0, und die arithmetischen Mittel der Regressionswerte und der Beobachtungswerte entsprechen sich, y¯ˆ = y¯. Zur Veranschaulichung der vorgestellten KQ–Methode ziehen wir das Beispiel der n = 6 Spritzgießmaschinen heran. Die f¨ ur die Sch¨atzung der Regressionsparameter xν yν = 392 f¨ uhren erforderlichen Komponenten x¯ = 3, y¯ = 4.5, x2ν = 271 und zu folgender Sch¨atzung f¨ ur die unbekannten Parameter: n xy¯ 392 · −6 · 3 · 4.5 21.5 ν xν yν − n¯ = 1.2286 b= = = n 2 2 2 x 271 − 6 · 4.5 17.5 ν xν − n¯ a = y¯ − b · x¯ = 4.5 − 1.2286 · 3 = 1.5143 Daraus ergibt sich die gesch¨atzte Regressionsfunktion yˆ = a + b · x = 1.5143 + 1.2286 · x Auf der Basis dieser Sch¨atzfunktion w¨ urden beispielsweise f¨ ur eine siebte Maschine mit einer Geschwindigkeit von 11 [cm/sek.] ca. 15 Unterbrechungen vorhergesagt, da yˆ = 1.5143 + 1.2286 · 11 = 15.02. Die Steigung b = 1.2286 ist so zu interpretieren, dass in dem St¨ utzbereich zwischen den zwei ¨außeren Punkten im Streudiagramm (Paare (4;6) und (9;13)) ein Anstieg der Geschwindigkeit um eine Einheit (Merkmal X in [cm/sek.]) im Durchschnitt zu zus¨atzlichen 1.2286 Unterbrechungen f¨ uhrt. Der Schnittpunkt der Regressionsgeraden mit der Ordinate a = 1.5143 liegt außerhalb des St¨ utzbereiches, sodass die Sinnhaftigkeit einer Interpretation genau durchdacht werden muss. Hier stellt sich konkret die Frage, ob 1.5143 Unterbrechungen bei einer Geschwindigkeit von null Sinn macht? Die Antwort ist sicherlich nein. Zudem ist bei der Regressionsanalyse generell zu bedenken, dass die Sch¨atzung der Regressionsfunktion auf Basis von Vergangenheitsdaten erfolgt ist. Deshalb sind Prognosen nur dann sinnvoll, wenn sich die der Sch¨atzung zugrunde liegenden Rahmenbedingungen nicht ge¨andert haben. Mit der Regressionsrechnung haben wir eine Methode kennengelernt, um die lineare Beziehung zwischen zwei Kardinalmerkmalen mathematisch zu beschreiben. Auf der Basis der berechneten Regressionsfunktion kann man auch die Werte der abh¨angigen ur die keine X–Werte vorliegen. Eine Frage ist jedoch noch Variablen Y sch¨atzen, f¨ offen: Wie gut ist die gesch¨atzte Regressionsgerade? Es fehlt uns noch ein geeignetes G¨ utemaß f¨ ur die Regression. Grundlage der G¨ utebeurteilung ist die Zerlegung der
80
Kapitel 3. Auswertung bivariater Datens¨atze
Varianz der zu erkl¨arenden Variablen Y in die durch die Regressionsgerade erkl¨arte Varianz (s2yˆ) und einen unerkl¨arten Rest (s2u ): 1 1 1 2 (yν − y¯)2 = (ˆ yν − y¯)2 + u n ν=1 n ν=1 n ν=1 ν n
n
s2Y
n
s2yˆ
s2u
Die erkl¨arte Varianz (s2yˆ) ist die Varianz auf der Regressionsgeraden, also die Varianz der Regressionswerte, und die unerkl¨arte Varianz (s2u ) ist die Varianz um die Regressionsgerade, d.h. die Varianz der Residuen. Der Anteil der durch die Regression erkl¨arten Varianz an der Gesamtvarianz von Y wird als Bestimmtheitsmaß R2 bezeichnet: n 1 s2yˆ (ˆ yν − y¯)2 s2u 2 2 n = 1 − = rXY R = 2 = 1 ν=1 n sY s2Y ¯)2 ν=1 (yν − y n Es handelt sich bei R2 um einen Anteilswert, so dass der Wertebereich zwischen null ur und eins liegt (0 ≤ R2 ≤ 1), was eine prozentuale Interpretation erm¨oglicht. F¨ unser Beispiel der Spritzgießmaschinen berechnet sich das Bestimmtheitsmaß wie folgt (vgl. obige Arbeitstabelle): 1 2 1 2 xν − x¯ = · 2712 − 6.52 = 1.7078 sX = n 6 1 2 1 2 sY = yν − y¯ = · 5712 − 9.52 = 2.2174 n 6 1 1 xν yν − x¯ · y¯ = · 392 − 6.5 · 9.5 = 3.58¯3 sXY = n 6 sXY = 0.9463 rXY = sX sY 2 R2 = rXY = 0.8954
Dieses Bestimmtheitsmaß ist so zu interpretieren, dass 89.54% der Varianz von Y durch die berechnete Regressionsgerade erkl¨art werden kann, die restlichen 10.46% bleiben unerkl¨art. Nachfolgend ist ein weiteres Beispiel zur Regressionsrechnung gegeben, bei dem jedoch die Besonderheit eines Strukturbruchs vorliegt. Beispiel: Lebensdauer eines Bauteils in Abh¨angigkeit von der Belastung Der Qualit¨atsmanager der Pharmalift GmbH m¨ochte die Lebensdauer des bereits betrachteten Labor–Mischer–Zubeh¨orteils (Y , gemessen in Stunden) durch die Belastung (X, gemessen in [kilopond/cm2 ]) erkl¨aren. Das nachfolgende Streudiagramm visualisiert die Beobachtungspaare von allen 20 Teilen.
3.3. Regressionsanalyse
81
y 9000
y = 10357 − 5.679 · x
8000 y = 10357 − 5.679 · x 7000
500
550
x 600
xν yν xν yν x2ν yν2 536 7327 3927272 287296 53684929 507 7484 3794388 257049 56010256 515 7421 3821815 265255 55071241 540 7307 3945780 291600 53392249 503 7510 3777530 253009 56400100 536 7327 3927272 287296 53684929 526 7353 3867678 276676 54066609 548 7227 3960396 300304 52229529 517 7414 3833038 267289 54967396 521 7392 3851232 271441 54641664 599 8323 4985477 358801 69272329 573 8483 4860759 328329 71961289 586 8385 4913610 343396 70308225 555 8605 4775775 308025 74046025 574 8466 4859484 329476 71673156 569 8522 4849018 323761 72624484 553 8670 4794510 305809 75168900 560 8600 4816000 313600 73960000 565 8560 4836400 319225 73273600 573 8501 4871073 328329 72267001 10956 158877 87268507 6015936 1268703911 Die Sch¨atzung einer Regressionsfunktion unter Verwendung aller 20 Datenpaare f¨ uhrt zu yˆ = −1123.30 + 16.5519 · x. Erwarten w¨ urde man jedoch ein negatives Steigungsmaß, also eine Lebensdauer, die mit zunehmender Belastung abnimmt. Trotz eines ganz beachtlichen Bestimmtheitsmaßes von R2 = 0.5903 muss der Plausibilit¨atstest unter Ber¨ ucksichtigung des Streudiagramms zu der Erkenntnis f¨ uhren, dass die Trennung des Datensatzes in zwei Teile die richtige Vorgehensweise w¨are. F¨ ur die ersten zehn und die letzten zehn Beobachtungspaare w¨ urde sich jeweils anstelle eines positiven der plausible negative lineare Zusammenhang zwischen den beiden Merkmalen zeigen (einzelne Regressionsgleichungen siehe Streudiagramm). Das beschriebene Ph¨anomen wird als Strukturbruch im Datensatz bezeichnet.
82
Kapitel 3. Auswertung bivariater Datens¨atze
3.3.2
Nichtlineare Einfachregression
Wenn sich im Streudiagramm offenbart, dass der Zusammenhang der betrachteten Merkmale eher nichtlinearer Natur ist, k¨onnen unter Umst¨anden die Erkenntnisse aus der linearen Regression trotzdem hilfreich sein. Eine Reihe von mathematischen Funktionen, die sich zur Modellierung von typischen betriebswirtschaftlichen oder technischen Ph¨anomenen eignen, ist relativ einfach zu linearisieren. In einem zweiten Schritt kann auf die linearisierten Merkmale wieder die KQ–Methode zur Sch¨atzung einer linearen Regressionsfunktion angewendet werden. Wir betrachten beispielsweise und Y : ν xν 1 −3 2 −1 3 1 3 4 5 5 7 6 9 7 8 11 9 13 10 15 60
n = 10 Beobachtungspaare der beiden Merkmale X yν ln yν xν · ln yν 0.24 −1.43 4.28 0.39 −0.94 0.94 0.64 −0.45 −0.45 1.06 0.06 0.17 1.75 0.56 2.80 2.88 1.06 7.40 4.74 1.56 14.00 7.82 2.06 22.62 12.90 2.56 33.24 21.26 3.06 45.85 53.68 8.09 130.88
x2ν 9 1 1 9 25 49 81 121 169 225 690
Das zugeh¨orige Streudiagramm zeigt wohl einen funktionalen Zusammenhang, der jedoch durch eine Gerade nicht ad¨aquat beschrieben wird. y 20
15
10
5 x −5
0
5
10
15
3.3. Regressionsanalyse
83
Die lineare Sch¨atzung w¨ urde die Regressionsgerade yˆν = −0.5378 + 0.9843 · xν ergeben, was offensichtlich keine gute Anpassung an den Datensatz w¨are. Den perfekten Fit liefert in unserem Beispiel eine Exponentialfunktion, y = a · eb·x Durch Transformation der Merkmale kann diese Funktion linearisiert werden: Mit y ∗ = ln(y); a∗ = ln(a) ist die Regressionsgerade y ∗ = a∗ + b · x nach der KQ– Methode zu sch¨atzen. Es liegt also zwischen den logarithmierten Y –Werten und der Erkl¨arungsgr¨oße X ein linearer Zusammenhang vor, so dass b und a∗ wie folgt berechnet werden k¨onnen: n ∗ xy¯∗ 130.88 − 10 · (60/10) · (8.09/10) ν=1 xν yν − n¯ b= = = 0.25 n 2 2 x − n¯ x 690 − 10 · (60/10)2 ν=1 ν a∗ = y¯∗ − b · x¯ = 8.09/10 − 0.25 · 60/10 = −0.69 Um die Exponentialfunktion zu spezifizieren, muss der Achsenabschnitt r¨ ucktransformiert werden. Aus a∗ = ln(a) = −0.69 ergibt sich a = exp(−0.69) = 0.5. Der exponentielle Zusammenhang zwischen den beiden Merkmalen X und Y kann demnach durch die Funktion y = 0.5 · e0.25·x modelliert werden. Viele ¨okonomische und auch technische Merkmale folgen solchen Wachstumsprozessen, oft in Verbindung mit einer S¨attigungsgrenze. In der nachfolgenden Tabelle sind einige praxisrelevante nichtlineare Funktionen und deren linearisierte Form angegeben. Auf die transformierten Merkmale kann in allen aufgef¨ uhrten F¨allen der einfache KQ–Ansatz angewendet werden. Funktion
Linearisierte Form
Exponentialfunktion y = a · eb·x
y ∗ = a∗ + b · x mit y ∗ = ln(y); a∗ = ln(a) y = a + b · x∗ mit x∗ = ln(x) y ∗ = a∗ + b · x ∗ mit y ∗ = ln(y); x∗ = ln(x); a∗ = ln(a) y = a + b · x∗ mit x∗ = 1/x
Logarithmusfunktion y = a + b ln(x) Potenzfunktion y = axb Hyperbolische Funktion y = a + b/x
84
Kapitel 3. Auswertung bivariater Datens¨atze
3.4
¨ Ubungsaufgaben
1. Liegt bei folgenden f¨ unf relativen H¨aufigkeitsverteilungen (hij ) statistische Unabh¨angigkeit vor? Begr¨ unden Sie Ihre Antwort. Erstellen Sie eine weitere H¨aufigkeitsverteilung, bei der statistische Unabh¨angigkeit gegeben ist. y2 a) y1 x1 0.25 0.25 x2 0.25 0.25
b) y1 y2 x1 0.5 0 x2 0 0.5
c) y1 y2 x1 0 0.4 x2 0 0.6
d) y1 y2 x1 0 1 x2 0 0
e) y1 y2 x1 0.23 0.12 x2 0.3 0.35
2. Berechnen Sie zur Beurteilung der Ergebnisse der Qualit¨atstests f¨ ur die Container–Mischer den Kontingenzkoeffizienten von Cram´er und interpretieren Sie das Ergebnis. Verwenden Sie daf¨ ur die Daten aus Tabelle 7. Pr¨ ufen Sie zuerst, ob statistische Unabh¨angigkeit vorliegt. 3. Die Pharmalift GmbH m¨ochte mehr aus den Ergebnissen einer Befragung zur Kundenzufriedenheit lernen. Verwenden Sie dazu die Daten aus Tabelle 12. (a) Berechnen Sie den Korrelationskoeffizienten nach Spearman f¨ ur die beiden Variablen Kundenzufriedenheit und Weiterempfehlungsabsicht sowie Kundenzufriedenheit und Wiederholungskauf. Verteilen Sie dazu zun¨achst die R¨ange in den Datenreihen und u ¨berlegen Sie, ob Bindungen vorliegen. (Mit X: Kundenzufriedenheit; Y : Weiterempfehlungsabsicht; Z: Wiederholungskauf) (b) Interpretieren Sie Ihre Ergebnisse. 4. Die Personalabteilung m¨ochte zur Bewertung der Mitarbeiter im Marketing, Vertrieb und Service hinsichtlich der Merkmale X (Kommunikationsverhalten) ¨ und Y (Arbeitsflexibilit¨at) Aussagen treffen (vgl. dazu Tabelle 16). Uberpr¨ ufen Sie, ob die folgenden Aussagen richtig sind. A: Von allen Mitarbeitern, die bei der Flexibilit¨at die Note 1 bekommen haben, haben 50% im Kommunikationsverhalten die Note 3 B: N (x4 , y3 ) = 14 und H(x2 , y3 ) = 0.3 C: n•4 = 6 und h2• = 1/5 D: h(x2 |y2 ) = 0.6 und h(y1 |x3 ) = 0.75 E: Keine der Alternativen A bis D ist korrekt 5. Die Gesch¨aftsleitung m¨ochte wissen, ob ein Zusammenhang zwischen Umsatz und Marketingausgaben besteht. Verwenden Sie dazu die Daten aus Tabelle 13. Es wird davon ausgegangen, dass der Umsatz (Regressor) den Werbeaufwand (Regressand) beeinflusst. (a) Geben Sie die Kovarianz und den Korrelationskoeffizienten nach Bravais– Pearson an.
¨ 3.4. Ubungsaufgaben
85
(b) Bestimmen Sie mit der Methode der kleinsten Quadrate die Regressionsgerade. (c) Geben Sie das Bestimmtheitsmaß an. Interpretieren Sie Ihr Ergebnis. (d) Welcher Werbeaufwand wird bei einem Umsatz von 28 Mio. e Umsatz erwartet?
6. Verwenden Sie f¨ ur diese Aufgabe die Daten aus Tabelle 18: Gehaltszufriedenheit und Mitarbeiterzufriedenheit. Diese Daten sind bei Mitarbeiterbefragungen erhoben worden.
(a) Geben Sie den Korrelationskoeffizienten nach Bravais–Pearson an. Was sagt dieser genau aus? (b) Die Personalabteilung geht davon aus, dass die Zufriedenheit mit dem Gehalt die Mitarbeiterzufriedenheit linear beeinflusst. Bestimmen Sie mit der Methode der kleinsten Quadrate die Regressionsgerade. (c) Berechnen Sie das Bestimmtheitsmaß und interpretieren Sie Ihr Ergebnis. (d) Zeichnen Sie ein Streudiagramm.
7. Bei einer Studie zur Situation von Arbeitnehmern mit Migrationshintergrund bei der Pharmalift GmbH am Standort Deutschland wurde untersucht, welche Bedeutung der Erwerb der deutschen Sprache f¨ ur die Integration in den einzelnen Arbeitsteams hat. An der Studie nahmen acht Arbeitnehmer teil. Dabei wurden die Sprachkenntnisse im Rahmen eines Sprachtests anhand einer Skala von 0 (keinerlei Kenntnisse der deutschen Sprache) bis 20 (vollst¨andige Beherrschung der deutschen Sprache) bewertet. Außerdem wurde der Grad der Integration im Arbeitsteam im Rahmen eines Interviews mit einer Integrationsnote auf einer Skala von 0 (v¨ollige Isolation im Team) bis 10 (v¨ollige Integration ins Team) bewertet. Die nachfolgende Tabelle zeigt die Studienergebnisse. ν 1 2 3 4 5 6 7 8 Sprachkenntnisse 15 4 10 20 5 0 3 8 Grad der Integration 9 0 8 10 3 1 3 4
(a) Was sagt das folgende Streudiagramm zu den gegebenen Daten u ¨ber den Zusammenhang von X und Y aus?
86
Kapitel 3. Auswertung bivariater Datens¨atze y 10 8 6 4 2 x
0 0
2
4
6
8
10
12
14
16
18
20
(b) Berechnen Sie den Korrelationskoeffizienten nach Spearman. Verteilen Sie dazu zun¨achst die R¨ange in beiden Datenreihen und u ¨berlegen Sie, ob Bindungen vorliegen. (c) In einem anderen Unternehmen B ergab sich f¨ ur vier Arbeitnehmer mit Migrationshintergrund folgendes Streudiagramm. Welchen Wert w¨ urden Sie hier f¨ ur den Korrelationskoeffizienten nach Spearman erwarten (Rechnung nicht erforderlich)? Begr¨ unden Sie kurz Ihre Antwort. y 10 8 6 4 2 x
0 0
2
4
6
8
10
12
14
16
18
20
W¨are der Korrelationskoeffizient nach Bravais–Pearson f¨ ur die Datenreihen von Unternehmen B kleiner, gleich oder gr¨oßer als der von Spearman? Begr¨ unden Sie kurz Ihre Antwort. 8. Verwenden Sie f¨ ur diese Aufgabe die Werte aus der Tabelle 8: Aufstellung der Lieferungen f¨ ur Zubeh¨orteile. Berechnen Sie unter Verwendung der Klassenmitten einen geeigneten Korrelationskoeffizienten als Maß f¨ ur den Zusammenhang zwischen X (Kilometer der Lieferungen) und Y (Versandkosten). Begr¨ unden Sie kurz die Wahl des verwendeten Korrelationskoeffizienten.
Kapitel 4 Wahrscheinlichkeitsrechnung Lernziele • Was ist ein Zufallsexperiment? • Was versteht man unter einem Ergebnis und was versteht man unter einem Ereignis? • Welche Ereignisverkn¨ upfungen kennen Sie und was ist ein Venn–Diagramm? • Nach welchen Ans¨atzen k¨onnen konkrete Wahrscheinlichkeiten f¨ ur Ereignisse ermittelt werden? • Wie lauten die Kolmogorov–Axiome und ihre Interpretation? • Was versteht man unter einer bedingten Wahrscheinlichkeit und wie wird sie berechnet? • Worin unterscheiden sich der allgemeine Additionssatz und der allgemeine Multiplikationssatz? • Was ist die Idee der Formel von Bayes? • Was versteht man unter stochastischer Unabh¨angigkeit und unter totaler Unabh¨angigkeit? Im Gegensatz zur deskriptiven Statistik wird in der induktiven Statistik — auch statistische Inferenz genannt — die Wahrscheinlichkeitsrechnung ben¨otigt, der wir uns daher in diesem Kapitel zuwenden wollen. Dazu m¨ ussen wir zun¨achst einige Begriffe einf¨ uhren. Darauf aufbauend k¨onnen Wahrscheinlichkeiten und Wahrscheinlichkeitsmaße vorgestellt werden. Die Kolmogorov–Axiome er¨offnen dann die M¨oglichkeiten zum Rechnen mit Wahrscheinlichkeiten. Schließlich f¨ uhrt das Konzept der bedingten Wahrscheinlichkeit zu der wichtigen Formel von Bayes und zum Begriff der Unabh¨angigkeit.
88
4.1
Kapitel 4. Wahrscheinlichkeitsrechnung
Ereignisse
Am Anfang steht das Zufallsexperiment. Man versteht darunter einen wiederholbaren Vorgang mit nicht vorhersagbarem Ausgang. Einfache Beispiele f¨ ur Zufallsexperimente sind der M¨ unzwurf, das W¨ urfeln mit einem oder auch mit mehreren W¨ urfeln oder das Ziehen von Losen oder von Kugeln aus einer Urne. Man kann diese Vorg¨ange einer anderen Person eindeutig beschreiben. Und jeder kann sie durchf¨ uhren und identisch wiederholen. Dennoch ist das konkrete Ergebnis einer einzelnen Durchf¨ uhrung nicht vorhersagbar, also zuf¨allig. Die Ergebnisse eines Zufallsexperiments werden auch Elementarereignisse oder Realisationen genannt. Die Ergebnisse des Zufallsexperiments M¨ unzwurf“ lauten Kopf ” und Zahl. Die Ergebnisse des einfachen W¨ urfelns mit einem W¨ urfel lauten 1,2,3,4,5 oder 6. Die Menge aller m¨oglichen Ergebnisse eines Zufallsexperiments heißt Ergebnisraum und wird mit Ω bezeichnet. Der Ergebnisraum des einfachen M¨ unzwurfs ist daher Ω = {Kopf, Zahl}. Der Ergebnisraum des einfachen W¨ urfelwurfs lautet Ω = {1, 2, 3, 4, 5, 6}. Der Ergebnisraum des Zufallsexperiments Zweimaliges W¨ urfeln“ lautet: ” Ω = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (2, 6), . . . , (6, 1), (6, 2), . . . , (6, 6)} Er besteht also aus 36 Zahlenpaaren und kombiniert dabei alle m¨oglichen Ergebnisse 1 bis 6 des ersten Wurfes mit allen m¨oglichen Ergebnissen 1 bis 6 des zweiten Wurfes. Da das Ergebnis (1, 2) :
1 im ersten Wurf und 2 im zweiten Wurf
offenbar unterschieden werden kann von dem Ergebnis (2, 1) :
2 im ersten Wurf und 1 im zweiten Wurf,
m¨ ussen im Ergebnisraum Ω beide Ergebnisse auftreten und entsprechend getrennt gez¨ahlt werden. Diese Unterscheidung ist ebenso m¨oglich, wenn gleichzeitig mit zwei — zum Beispiel farblich — unterscheidbaren W¨ urfeln gew¨ urfelt wird. Wird jedoch gleichzeitig mit zwei gleichen W¨ urfeln gew¨ urfelt, dann sind als Ergebnisse die Paa” re“, bei denen ja die Reihenfolge eine Rolle spielt, durch Mengen“ zu ersetzen, bei ” denen die Reihenfolge ihrer Elemente bekanntlich keine Rolle spielt. Der Ergebnisraum w¨are dann Ω = {{1, 1}, {1, 2}, . . . , {1, 6}, {2, 2}, . . . , {2, 6}, . . . , {6, 6}} und h¨atte nur noch 21 Elemente, die jeweils zweielementige Teilmengen sind. Nicht zu verwechseln mit dem Ergebnis ist das Ereignis. Ein Ereignis ist jede Teilmenge des Ergebnisraums Ω. Im Zufallsexperiment des einfachen W¨ urfelns sind beispielsweise die folgenden Teilmengen von Ω Ereignisse im Sinne dieser Definition: A = {6},
B = {2, 4, 6},
C = {1, 2}
4.2. Ereignisverkn¨ upfungen
89
Man k¨onnte diese Ereignisse auch verbal beschreiben. So ist A das Ereignis, eine 6 zu w¨ urfeln. B ist das Ereignis, eine gerade Zahl zu w¨ urfeln. Und C ist das Ereignis, h¨ochstens eine 2 zu w¨ urfeln. Auch die leere Menge ∅ und Ω selbst sind formal Teilmengen von Ω. Die leere Menge nennt man das unm¨ogliche Ereignis, da bei Durchf¨ uhrung des Zufallsexperiments ja schließlich irgendein m¨ogliches Ergebnis eintreten muss. Ω heißt dagegen sicheres Ereignis, da offenbar irgendein Ergebnis aus Ω auftreten muss; so ist der Ergebnisraum Ω ja definiert. Die Menge aller Ereignisse, also aller Teilmengen von Ω heißt Potenzmenge von Ω. Die Potenzmenge des Ergebnisraums Ω = {1, 2, 3, 4, 5, 6} f¨ ur den einfachen W¨ urfelwurf lautet beispielsweise: P(Ω) = {∅, {1}, {2}, . . . , {1, 2}, {1, 3}, . . . , {5, 6}, {1, 2, 3}, . . . , Ω} Wie viele Teilmengen von Ω kann man eigentlich bilden? Wenn der Ergebnisraum Ω eines Zufallsexperiments unendlich viele Elemente, also Ergebnisse, enth¨alt, dann kann man daraus offenbar auch unendlich viele Teilmengen bilden. Die Frage ist also nur interessant f¨ ur einen endlichen Ergebnisraum. Wenn Ω nun n Elemente besitzt, dann kann man daraus insgesamt 2n Teilmengen bilden: |Ω| = n
⇒
|P(Ω)| = 2n
Die Potenzmenge im obigen Beispiel enth¨alt demnach 26 = 64 Elemente, also Mengen.
4.2
Ereignisverknu ¨ pfungen
Nachdem wir wissen, was Ereignisse sind, wollen wir untersuchen, wie man mit ihnen rechnen“ oder — besser gesagt — wie man sie miteinander verkn¨ upfen kann. Da ” Ereignisse Mengen sind, sind ihre Verkn¨ upfungen mit den aus der Schule bekannten Mengenoperationen identisch. Sie sollen im Folgenden anhand von Beispielen in der mathematischen Mengenschreibweise und grafisch anhand eines sogenannten Venn– Diagramms verdeutlicht werden. Im Venn–Diagramm wird Ω als Rechteck und die betrachteten Ereignisse als Kreise oder andere Teilfl¨achen des Rechtecks dargestellt. Die Vereinigung der Ereignisse A und B ist die Menge, die alle Elemente von A oder B umfasst: A = {1, 3, 4},
B = {1, 2, 3} A
⇒
A ∪ B = {1, 2, 3, 4} B
90
Kapitel 4. Wahrscheinlichkeitsrechnung
Der Durchschnitt von A und B ist die Menge, die alle Elemente von A und B umfasst: A = {1, 3, 4}, B = {1, 2, 3} ⇒ A ∩ B = {1, 3}
A
B
Die Differenz von A und B ist die Menge, die alle Elemente von A ohne B umfasst: A = {1, 3, 4},
B = {1, 2, 3}
⇒
A
A \ B = {4}
B
Die symmetrische Differenz von A und B ist die Menge, die entweder die Elemente von A oder die Elemente von B umfasst: A = {1, 3, 4},
B = {1, 2, 3}
A
⇒
A ◦ B = {2, 4}
B
Das Komplement von A ist die Menge, die alle Elemente von Ω außer denen von A enth¨alt: A = {1, 3, 4}
⇒
A = Ω \ A = {2, 5, 6} f¨ ur Ω = {1, 2, 3, 4, 5, 6}
A
A
4.3. Wahrscheinlichkeitsbegriffe
4.3
91
Wahrscheinlichkeitsbegriffe
Was ist eine Wahrscheinlichkeit? Eine Wahrscheinlichkeit ist eine reelle Zahl zwischen 0 und 1. Aber was bedeutet diese Zahl? Zun¨achst muss man den Bezug kl¨aren: eine Wahrscheinlichkeit wof¨ ur? Eine Wahrscheinlichkeit bezieht sich immer auf ein Ereignis. Dies ist auch der Grund daf¨ ur, dass wir uns so intensiv mit Ereignissen befasst haben. So wie eine mathematische Funktion einer Zahl x eine andere Zahl f (x) zuordnet, so ordnet das Wahrscheinlichkeitsmaß P einem Ereignis A eine Zahl zwischen 0 und 1 zu: A⊂Ω
⇒
A
→
P (A) ∈ [0, 1]
Wie kommt man aber zu den Wahrscheinlichkeiten, die man den Ereignissen zuordnet? Dazu gibt es mehrere alternative Ans¨atze, von denen anschließend die wichtigsten vorgestellt werden.
4.3.1
Klassischer Wahrscheinlichkeitsbegriff
Der klassische Wahrscheinlichkeitsbegriff geht auf den franz¨osischen Gelehrten Pierre Simon de Laplace (1749 – 1827) zur¨ uck: P (A) =
Anzahl der f¨ ur A g¨ unstigen F¨alle Anzahl aller gleich–m¨oglichen F¨alle
Mit den F¨allen sind hier die verschiedenen Ergebnisse des Zufallsexperiments gemeint. Eine Voraussetzung f¨ ur die Anwendung dieses Wahrscheinlichkeitsbegriffs ist also ein Zufallsexperiment mit endlich vielen, gleich–m¨oglichen Ergebnissen. Die Funktionsweise dieser Definition soll an einigen Beispielen illustriert werden. Beispiel: Produktpool aus zwei Betrieben Ein bestimmtes Produkt wird in zwei Betrieben hergestellt. Anschließend werden die fertigen Produkte in einem gemeinsamen Lager eingelagert, ohne die Herkunft zu notieren. Betrieb 1 stellt 800 Exemplare her, Betrieb 2 stellt 1200 Exemplare her. Wir betrachten die folgenden beiden Ereignisse: A — ein zuf¨allig gekauftes Produkt stammt aus Betrieb 1 B — ein zuf¨allig gekauftes Produkt stammt aus Betrieb 2 Wie groß ist die Wahrscheinlichkeit, dass ein zuf¨allig gekauftes Produkt aus Betrieb 1 stammt? 800 P (A) = = 0.4 800 + 1200
92
Kapitel 4. Wahrscheinlichkeitsrechnung
Es gibt offenbar 800 + 1200 = 2000 verschiedene M¨oglichkeiten, eines dieser Produkte auszuw¨ahlen. Diese Zahl liefert den Nenner in der Laplace’schen Wahrscheinlichkeitsdefinition. 800 dieser 2000 Auswahlm¨oglichkeiten f¨ uhren auf ein Produkt aus Betrieb 1. Dies ergibt den Z¨ahler des Quotienten. Die Wahrscheinlichkeit f¨ ur das Ereignis A betr¨agt nach Laplace also 0.4 = 40%. Beispiel: Urne mit 6 roten und 4 schwarzen Kugeln In einem Gef¨aß (Urne) befinden sich 6 rote und 4 schwarze Kugeln, die sich beim Ertasten nicht unterscheiden. Das Zufallsexperiment besteht darin, dreimal jeweils eine Kugel blind“ zu ziehen, die Farbe zu notieren, die gezogene Kugel zur¨ uckzulegen ” und gut durchzumischen. Wie groß ist die Wahrscheinlichkeit f¨ ur 2 schwarze Kugeln in 3 Z¨ ugen mit Zur¨ ucklegen? 4·4·6+4·6·4+6·4·4 288 P (A) = = = 0.288 10 · 10 · 10 1000 Wenn wir uns die zehn Kugeln mit 0 bis 9 durchnummeriert denken, dann sehen wir sofort, dass es insgesamt 1000 verschiedene und gleich–m¨ogliche F¨alle gibt, drei Kugeln zu ziehen, n¨amlich die Reihenfolgen 000, 001, . . . , 999. F¨ ur den Z¨ahler muss man sich u ¨berlegen, dass es vier M¨oglichkeiten gibt, im ersten Zug eine schwarze Kugel zu ziehen. Es gibt ebenfalls vier M¨oglichkeiten, im zweiten Zug eine schwarze Kugel zu erwischen, da die zuerst gezogene Kugel ja wieder zur¨ uckgelegt wird. Schließlich m¨ usste dann im dritten Zug eine rote Kugel gezogen werden, damit das Ereignis A eintritt; daf¨ ur gibt es sechs M¨oglichkeiten. Da diese M¨oglichkeiten f¨ ur die drei Z¨ uge beliebig kombiniert werden k¨onnen, sind die genannten Anzahlen zu multiplizieren. Da aber f¨ ur das Ereignis A die beiden schwarzen Kugeln nicht unbedingt zuerst gezogen werden m¨ ussen, kommen im Z¨ahler analog die Anzahlen der Kombinationen f¨ ur die Reihenfolgen schwarz–rot–schwarz und rot–schwarz–schwarz hinzu. Die Wahrscheinlichkeit f¨ ur das Ereignis A betr¨agt also 0.288 = 28.8%. uckWie groß ist die Wahrscheinlichkeit f¨ ur 2 schwarze Kugeln in 3 Z¨ ugen ohne Zur¨ legen? 216 4·3·6+4·6·3+6·4·3 = = 0.3 P (A) = 10 · 9 · 8 720 Da jetzt eine gezogene Kugel nicht mehr zur¨ uckgelegt wird, gibt es nur noch 10 · 9 · 8 verschiedene M¨oglichkeiten, drei Kugeln zu ziehen. Dies liefert den Nenner. F¨ ur den Z¨ahler ist ebenfalls zu bedenken, dass eine bereits gezogene schwarze Kugel nicht noch einmal zur Verf¨ ugung steht. Die Wahrscheinlichkeit f¨ ur dasselbe Ereignis betr¨agt nach Laplace — wegen des ge¨anderten Zufallsexperiments — nun 0.3 = 30%.
4.3. Wahrscheinlichkeitsbegriffe
93
Beispiel: Augensumme beim zweimaligen W¨ urfeln Wie groß ist die Wahrscheinlichkeit f¨ ur das Ereignis A, dass die Summe der Punkte beim zweimaligen W¨ urfeln 6, 7 oder 8 betr¨agt? Den Ergebnisraum kennen Sie ja schon; er enth¨alt 36 gleich–m¨ogliche“ Ergebnisse: ” Ω = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (2, 6), . . . , (6, 1), (6, 2), . . . , (6, 6)} Die Enumeration derjenigen Zahlenpaare mit einer Quersumme von 6, 7 oder 8 ergibt den Z¨ahler von 16 g¨ unstigen F¨allen“: ” |{(1, 5), (1, 6), (2, 4), . . . , (6, 2)}| 16 P (A) = = = 0.44 36 36 Die Wahrscheinlichkeit f¨ ur das Ereignis A kann also nach Laplace berechnet werden und betr¨agt 0.44 ≈ 44.44%. An dem klassischen Wahrscheinlichkeitsbegriff ist die Kritik zu u ¨ben, dass im Nenner von gleich–m¨oglichen F¨allen“ die Rede ist. Was aber bedeutet gleich–m¨oglich, ” wenn nicht gleich–wahrscheinlich? Im Grunde wird Wahrscheinlichkeit durch wahrscheinlich definiert, was nat¨ urlich ein unzul¨assiger Selbstbezug ist. Trotz dieser etwas subtilen Kritik, wird dieser Wahrscheinlichkeitsbegriff in der Praxis verwendet, wann immer er anwendbar ist; also in allen Zufallsexperimenten mit gleich–m¨oglichen“ ” Ergebnissen.
4.3.2
Frequentistischer Wahrscheinlichkeitsbegriff
Der deutsche Mathematiker Richard von Mises (1883 – 1953) hat den frequentistischen Wahrscheinlichkeitsbegriff gepr¨agt: P (A) = lim
n→∞
n(A) n
Diese Definition geht davon aus, dass das Zufallsexperiment wiederholt durchgef¨ uhrt wird. n(A) bezeichnet dann die Anzahl der Experimente, in denen das Ereignis A tats¨achlich eingetreten ist. n bezeichnet die Anzahl aller Experimente. Der frequentistische Wahrscheinlichkeitsbegriff definiert also die Wahrscheinlichkeit f¨ ur ein Ereignis A als Grenzwert der relativen H¨aufigkeit der Experimente, in denen das Ereignis A eingetreten ist. Beispiel: Fehlerhafter Rechnungsbeleg Mit welcher Wahrscheinlichkeit ist ein zuf¨allig gepr¨ ufter Rechnungsbeleg fehlerhaft? Um diese Wahrscheinlichkeit zu ermitteln, k¨onnte man nach der frequentistischen Wahrscheinlichkeitsdefinition der Reihe nach verschiedene Belege pr¨ ufen und nach jeder Pr¨ ufung die relative H¨aufigkeit der fehlerhaften Belege notieren. Wenn beispielsweise der erste Beleg fehlerhaft ist, der zweite und dritte nicht, der vierte aber
94
Kapitel 4. Wahrscheinlichkeitsrechnung
wieder, der f¨ unfte und sechste nicht etc., dann w¨ urde sich eine Folge solcher relativen H¨aufigkeiten ergeben: 1 1 1 2 2 2 360 , , , , , ,..., ,... 1 2 3 4 5 6 1000
⇒
P (A) ≈
360 = 0.36 1000
Wenn sich also wie im Beispiel nach 1000 Pr¨ ufungen 360 fehlerhafte Belege ergeben h¨atten — was wir nicht hoffen wollen —, dann k¨onnte man nach Richard von Mises die Wahrscheinlichkeit f¨ ur das genannte Ereignis mit 0.36 beziffern. Die naheliegende Kritik an diesem Wahrscheinlichkeitsbegriff besteht darin, dass in der Praxis nie unendlich viele Experimente durchgef¨ uhrt werden k¨onnen. Man muss also — wie im Beispiel — nach endlich vielen Experimenten abbrechen und erh¨alt somit stets nur eine Approximation der gesuchten Wahrscheinlichkeit. Dennoch ist f¨ ur großes n sicherlich auch dieser Wahrscheinlichkeitsbegriff praxistauglich.
4.3.3
Axiomatischer Wahrscheinlichkeitsbegriff
Die bisher betrachteten Wahrscheinlichkeitsbegriffe sagen uns zwar, wie man zu konkreten Wahrscheinlichkeiten f¨ ur gegebene Ereignisse kommt, aber nicht, wie man mit Wahrscheinlichkeiten rechnet. Der axiomatische Wahrscheinlichkeitsbegriff des russischen Mathematikers Andrej Nikolajevic Kolmogorov (1903 – 1987) stammt aus dem Jahr 1933 und leistet genau dieses. Die Kolmogorov–Axiome lauten: 1. P (A) ≥ 0
f¨ ur alle Ereignisse A
2. P (Ω) = 1 3. A1 , A2 , A3 , . . . paarweise disjunkt (also Ai ∩ Aj = ∅) ⇒ P (A1 ∪ A2 ∪ A3 ∪ . . . ) = P (A1 ) + P (A2 ) + P (A3 ) + . . . Axiome sind m¨oglichst einfache Aussagen oder Forderungen, die allgemein anerkannt werden, also nicht bewiesen“ werden m¨ ussen. Es gibt viele Theorien, die axioma” tisch begr¨ undet sind, also auf jeweils wenigen Axiomen aufbauen. Beispiele sind etwa die Zahlentheorie, die auf f¨ unf Axiomen von Guiseppe Peano (1858 – 1932) beruht, die Euklidische Geometrie, die aus f¨ unf Axiomen von Euklid (365 – 300 v.Chr.) entwickelt wird, oder die Entscheidungstheorie, f¨ ur gleich mehrere Axiomensysteme vorgeschlagen worden sind. Das erste Axiom von Kolmogorov besagt, dass Wahrscheinlichkeiten nicht negativ sein d¨ urfen, was sicherlich schon aus der Schule bekannt sein wird. Das zweite Axiom besagt, dass die Wahrscheinlichkeit f¨ ur das sichere Ereignis Ω gleich 1 (oder 100%) ist. (Versuchen Sie also niemals, einem statistisch vorgebildeten Gespr¨achspartner eine 110–prozentige Chance zu versprechen oder Ihrem Professor eine Wahrscheinlichkeit gr¨oßer als eins anzubieten!) Das dritte Axiom ist etwas komplexer. Es besagt,
4.3. Wahrscheinlichkeitsbegriffe
95
dass die Wahrscheinlichkeit, dass A1 oder A2 oder A3 . . . eintritt, als Summe der einzelnen Wahrscheinlichkeiten berechnet werden darf, wenn die betrachteten Ereignisse paarweise disjunkt sind, sich im Venn–Diagramm also nicht u ¨berlappen. Wir wollen nun einige einfache Folgerungen aus den drei Kolmogorov–Axiomen herleiten: • A⊂B
⇒
P (A) ≤ P (B)
Wenn A eine Teilmenge von B ist, dann k¨onnen wir B offenbar als Vereinigung der beiden disjunkten Mengen A und B \ A schreiben: B = A ∪ (B \ A). B A
B\A
Dann gilt nach dem dritten Axiom P (B) = P (A) + P (B \ A), was nach dem ersten Axiom gr¨oßer ist als P (A), da P (B \ A) ≥ 0 ist. Wir haben diese neue Regel also mit den Axiomen bewiesen. • 0 ≤ P (A) ≤ 1 Wegen A ⊂ Ω und wegen der vorigen Folgerung, die ja auch aus den Axiomen hervorgeht, ist P (A) ≤ P (Ω). Mit den ersten beiden Axiomen folgt daraus die Ungleichungskette, die besagt, dass Wahrscheinlichkeiten stets Zahlen zwischen null und eins sein m¨ ussen. • P (A) = 1 − P (A) Dies folgt mit A1 = A und A2 = A aus dem dritten und dem zweiten Axiom, da P (A) + P (A) = P (A ∪ A) = P (Ω) = 1 ist. • P (∅) = 1 − P (Ω) = 0 Dies folgt mit A1 = ∅ und A2 = Ω aus dem dritten und dem zweiten Axiom. Zwei weitere Begriffe sollen an dieser Stelle eingef¨ uhrt werden. Ein Ereignis, das zwar nicht das unm¨ogliche Ereignis ist, aber dennoch eine Wahrscheinlichkeit von null besitzt, heißt fast unm¨ogliches Ereignis: A = ∅ heißt fast unm¨oglich
⇐⇒
P (A) = 0
Ein Ereignis, das zwar nicht das sichere Ereignis ist, aber dennoch eine Wahrscheinlichkeit von eins besitzt, heißt fast sicheres Ereignis: A = Ω heißt fast sicher
⇐⇒
P (A) = 1
Beispiele f¨ ur fast unm¨ogliche und fast sichere Ereignisse werden sp¨ater im Zusammenhang mit stetigen Zufallsvariablen vorgestellt.
96
Kapitel 4. Wahrscheinlichkeitsrechnung
4.4
S¨ atze der Wahrscheinlichkeitsrechnung
Hier sollen weitere wichtige S¨atze und Regeln der Wahrscheinlichkeitsrechnung vorgestellt und interpretiert werden. Sie lassen sich zwar allesamt aus den Kolmogorov– Axiomen beweisen. Dies soll aber hier nicht mehr geschehen. Der Schwerpunkt liegt auf dem Verst¨andnis und der Anwendung dieser S¨atze. Wie ein Handwerker sein Werkzeug kennt und weiß, wann er den Hammer und wann er den Schraubenzieher ben¨otigt, so muss ein Statistiker diese S¨atze kennen und bei Bedarf anwenden k¨onnen. Veranschaulichen Sie sich die S¨atze selbst an einem Venn–Diagramm! • P (A \ B) = P (A ∩ B) = P (A) − P (A ∩ B) Mit diesem Satz wird die Berechnung der Wahrscheinlichkeit f¨ ur die Differenz zweier Ereignisse auf zwei andere, ¨aquivalente Ausdr¨ ucke zur¨ uckgef¨ uhrt. Beispiel: Wenn P (A) = 0.6 und P (A ∩ B) = 0.2 gegeben sind, dann ist P (A \ B) = 0.6 − 0.2 = 0.4 • P (A ◦ B) = P (A) + P (B) − 2 · P (A ∩ B) Da in P (A) und in P (B) jeweils die Wahrscheinlichkeit f¨ ur den Durchschnitt enthalten ist, der aber nicht zur symmetrischen Differenz geh¨ort, muss auf der rechten Seite die Wahrscheinlichkeit f¨ ur den Durchschnitt zweimal entfernt werden. Beispiel: Wenn P (A) = 0.6, P (B) = 0.5 und P (A ∩ B) = 0.2 gegeben sind, dann ist P (A ◦ B) = 0.6 + 0.5 − 2 · 0.2 = 0.7 • Sei A1 , A2 , . . . , An eine Zerlegung von Ω, d.h. Ai ∩ Aj = ∅ f¨ ur alle i = j
n
∧
Ai = A1 ∪ A2 ∪ · · · ∪ An = Ω
i=1
A3
A1 B A2 Dann gilt:
P (B) =
n
A4
P (B ∩ Ai )
i=1
Die Wahrscheinlichkeit eines Ereignisses B kann also mit Hilfe einer Zerlegung sukzessive als Summe seiner disjunkten Teilereignisse P (B ∩ Ai ) ermittelt werden.
4.4. S¨atze der Wahrscheinlichkeitsrechnung
97
Beispiel: F¨ ur das Zufallsexperiment des einfachen W¨ urfelwurfs stellen die beiden Ereignisse A1 = {1, 3, 5} und A2 = {2, 4, 6} eine (sehr einfache) Zerlegung von Ω dar, da A1 ∩ A2 = ∅ und A1 ∪ A2 = Ω ist. Die Wahrscheinlichkeit f¨ ur ein weiteres Ereignis, z.B. B = {1, 2, 3}, k¨onnte nun nach diesem Satz wie folgt berechnet werden:
P (B) = P (B ∩ A1 ) + P (B ∩ A2 ) = P ({1, 3}) + P ({2}) =
2 1 1 + = 6 6 2
Dass dies hier nat¨ urlich nicht wirklich n¨otig ist und sogar eine Komplikation gegen¨ uber der direkten Berechnung u ¨ber den klassischen Wahrscheinlichkeitsbegriff darstellt, liegt an der Einfachheit des Beispiels. In komplexeren Beispielen, die hier nicht in K¨ urze dargestellt werden k¨onnen, sp¨ater aber noch ben¨otigt werden, kann der Satz eine erhebliche Hilfe sein. • Allgemeiner Additionssatz f¨ ur zwei Ereignisse: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Die Wahrscheinlichkeit daf¨ ur, dass A oder B eintritt, ist die Summe der Wahrscheinlichkeiten beider Ereignisse abz¨ uglich der Wahrscheinlichkeit daf¨ ur, dass A und B eintreten. Sie k¨onnen sich das wieder gut am Venn–Diagramm verdeutlichen. Denn in der Vereinigung steckt der Durchschnitt drin, aber nat¨ urlich nur einmal. Wenn wir die Wahrscheinlichkeiten f¨ ur A und B addieren, dann haben wir also die Wahrscheinlichkeit f¨ ur den Durchschnitt einmal zu viel erfasst und m¨ ussen ihn daher einmal wieder subtrahieren. Beispiel: Wenn P (A) = 0.7, P (B) = 0.4 und P (A ∩ B) = 0.3 ist, dann ergibt sich als Wahrscheinlichkeit f¨ ur die Vereinigung nach dem allgemeinen Additionssatz wie folgt: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0.7 + 0.4 − 0.3 = 0.8 Das Venn–Diagramm illustriert dieses Beispiel, wobei die Wahrscheinlichkeiten f¨ ur die Teilfl¨achen jeweils eingetragen sind:
A
B 0.4
0.3
0.1
98
Kapitel 4. Wahrscheinlichkeitsrechnung • Allgemeiner Additionssatz f¨ ur drei Ereignisse P (A ∪ B ∪ C) = P (A) + P (B) + P (C) −P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) C A
B
Bei der Addition der drei Einzelwahrscheinlichkeiten werden die paarweisen Durchschnitte jeweils einmal zu oft erfasst, so dass ihre Wahrscheinlichkeit jeweils einmal subtrahiert werden muss. Dabei ist aber der gemeinsame Durchschnitt aller drei Ereignisse (dreifach schraffierte Fl¨ache) dreimal erfasst und dann dreimal rausgerechnet worden, so dass schließlich seine Wahrscheinlichkeit noch einmal addiert werden muss. Beispiel: Wenn die Wahrscheinlichkeiten P (A) = 0.6, P (B) = 0.5, P (C) = 0.4, P (A ∩ B) = 0.4, P (A ∩ C) = 0.2, P (B ∩ C) = 0.2 und P (A ∩ B ∩ C) = 0.1 bekannt sind, dann ergibt sich f¨ ur die Vereinigung: P (A ∪ B ∪ C) = 0.6 + 0.5 + 0.4 − 0.4 − 0.2 − 0.2 + 0.1 = 0.8
4.5
Bedingte Wahrscheinlichkeit
Wenn wir uns f¨ ur die Wahrscheinlichkeit eines Ereignisses A interessieren, aber wissen, dass ein anderes Ereignis B bereits eingetreten ist, dann kann dieses Wissen die Wahrscheinlichkeit f¨ ur das Ereignis A beeinflussen. Wir sprechen dann von der bedingten Wahrscheinlichkeit von A unter der Bedingung B: P (A|B) :=
P (A ∩ B) P (B)
mit P (B) > 0
Das Ereignis A, f¨ ur dessen Wahrscheinlichkeit wir uns interessieren, nennen wir dann Prim¨arereignis. Das Ereignis B, u ¨ber das wir bereits ein gesichertes Wissen haben, nennen wir dann Bedingung. Es steht hinter dem senkrechten Bedingungsstrich. Die Wahrscheinlichkeit f¨ ur die Bedingung muss positiv sein, damit die bedingte Wahrscheinlichkeit definiert ist.
4.5. Bedingte Wahrscheinlichkeit
99
Einige Beispiele sollen die Berechnung der bedingten Wahrscheinlichkeit verdeutlichen. Beispiele: 1. Stellen Sie sich vor, mit verbundenen Augen einmal zu w¨ urfeln. Ein Partner sagt Ihnen, dass Sie eine gerade Zahl gew¨ urfelt haben. Wie groß ist dann die Wahrscheinlichkeit, dass Sie eine 6 gew¨ urfelt haben? P ({6}|{2, 4, 6}) =
1/6 1 = 1/2 3
Die bedingte Wahrscheinlichkeit, eine 6 zu w¨ urfeln, unter der Bedingung, eine gerade Zahl zu w¨ urfeln, betr¨agt 1/3. 2. Die Wahrscheinlichkeit f¨ ur ein Ereignis B betrage 80%. Die Wahrscheinlichkeit f¨ ur das gleichzeitige Eintreten der Ereignisse A und B betrage 20%. Wie groß ist die Wahrscheinlichkeit f¨ ur A, wenn wir wissen, dass B eingetreten ist? P (B) = 0.8, P (A ∩ B) = 0.2
⇒
P (A|B) =
0.2 = 0.25 0.8
Die bedingte Wahrscheinlichkeit f¨ ur A unter der Bedingung B betr¨agt 1/4. 3. Die bedingte Wahrscheinlichkeit f¨ ur das unm¨ogliche Ereignis ist unabh¨angig von der Bedingung stets null: P (∅|B) =
P (∅ ∩ B) P (∅) = =0 P (B) P (B)
4. Wie groß ist die Wahrscheinlichkeit f¨ ur ein Ereignis, wenn wir bereits wissen, dass es eingetreten ist? Nat¨ urlich eins: P (B|B) =
P (B) P (B ∩ B) = =1 P (B) P (B)
5. Stellen Sie sich vor, Sie werfen mit verbundenen Augen einen Wurfpfeil auf ein Venn–Diagramm, in dem zwei Ereignisse A und B mit B ⊂ A eingezeichnet sind. Ein Partner sagt Ihnen, dass Sie B getroffen haben. Was wissen Sie dann u urlich mit Sicherheit auch A getroffen. ¨ber A? Genau: Sie haben nat¨ B⊂A
⇒
P (A|B) =
P (B) P (A ∩ B) = =1 P (B) P (B)
6. Sie werfen wieder mit verbundenen Augen einen Wurfpfeil auf ein Venn– Diagramm, in dem diesmal zwei disjunkte Ereignisse A und B eingezeichnet sind. Ein Partner sagt Ihnen, dass Sie B getroffen haben. Was wissen Sie dann u urlich: Sie k¨onnen dann A keinesfalls getroffen haben. ¨ber A? Nat¨ B∩A=∅
⇒
P (A|B) =
P (∅) P (A ∩ B) = =0 P (B) P (B)
100
Kapitel 4. Wahrscheinlichkeitsrechnung
Eine einfache Umformung der Definitionsgleichung f¨ ur die bedingte Wahrscheinlichkeit f¨ uhrt auf den allgemeinen Multiplikationssatz f¨ ur zwei Ereignisse : P (A ∩ B) = P (A) · P (B|A) Er sagt uns, wie wir die Wahrscheinlichkeit f¨ ur das gleichzeitige Eintreten zweier Ereignisse berechnen k¨onnen. Die Wahrscheinlichkeit f¨ ur das gleichzeitige Eintreten von drei Ereignissen berechnet sich entsprechend wie folgt: P (A ∩ B ∩ C) = P (A) · P (B|A) · P (C|A ∩ B) Der allgemeine Multiplikationssatz f¨ ur n Ereignisse lautet: n Ai = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ · · · ∩ An−1 ) P i=1
Beispiel: Wetterprognose Wir wollen eine Drei–Tage–Prognose u ¨ber Regen abgeben. Bezeichne Ai das Ereignis, dass es am Tag i regnet (f¨ ur i = 1, 2, 3). In manchen Situationen ist es einfacher, bedingte Wahrscheinlichkeiten anzugeben, als unbedingte. Die als bekannt angenommenen Wahrscheinlichkeiten sind in der folgenden Baumstruktur eingetragen. P (A3 |A1 ∩ A2 |A 1 P (A 2
= 1) P (A
P (A¯
1)
0.45
=0 .55
.65 )=0
P (A¯2 |A1 ) =
| P (A 2
0.35
= 0.4 A¯1)
P (A¯2 |A¯1 ) =
0.6
) = 0.7
P (A¯3 |A1 ∩ A
2 ) = 0.3 ¯ ) = 0.2 P (A3 |A1 ∩ A2
P (A¯3 |A1 ∩ A¯ 2 ) = 0.
8 6 0. = ) ¯ P (A3 |A1 ∩ A2
P (A¯3 |A¯1 ∩ A
2 ) = 0.4 ¯ ) = 0.3 ¯ P (A3 |A1 ∩ A2
P (A¯3 |A¯1 ∩ A¯ 2 ) = 0.
7
Tag 1 Tag 2 Tag 3 Nun lassen sich Wahrscheinlichkeiten f¨ ur Drei–Tage–Prognosen einfach berechnen. Wie groß ist zum Beispiel die Wahrscheinlichkeit f¨ ur Regen–Regen–trocken“? ” ¯ ¯ P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) = 0.45 · 0.65 · 0.3 = 0.08775 Wie groß ist beispielsweise die Wahrscheinlichkeit f¨ ur trocken–trocken–Regen“? ” ¯ ¯ ¯ ¯ ¯ ¯ ¯ P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) = 0.55 · 0.6 · 0.3 = 0.099
4.6. Formel von Bayes
4.6
101
Formel von Bayes
In diesem Abschnitt soll eine sehr wichtige Formel der Wahrscheinlichkeitstheorie vorgestellt werden, die gleichzeitig eine Anwendung der bedingten Wahrscheinlichkeiten darstellt. Zur Vorbereitung wird dazu der folgende Satz ben¨otigt, der auch von eigenst¨andigem Interesse ist. Satz von der totalen Wahrscheinlichkeit ur alle Ereignisse B: Sei A1 , . . . , An eine Zerlegung von Ω. Dann gilt f¨ P (B) =
n
P (B|Ai ) · P (Ai )
i=1
Beispiel: Produktpool aus drei Produktionsst¨atten In drei Produktionsst¨atten eines Unternehmens wird das gleiche Produkt hergestellt. 100 Teile pro Tag stammen aus Betrieb 1; davon sind im Schnitt 25 Teile defekt. 600 Teile kommen aus Betrieb 2, wovon im Schnitt 80 Teile defekt sind. Schließlich stammen 500 Teile aus Betrieb 3, der eine Ausschussquote von 10% hat. Alle Produkte kommen in ein gemeinsames Lager (Produktpool). Mit welcher Wahrscheinlichkeit ist ein zuf¨allig gezogenes Teil aus diesem Pool defekt? (Ereignis B) Die Zerlegung von Ω ergibt sich naheliegender Weise: Ai
−
gezogenes Teil stammt aus Betrieb i,
i = 1, 2, 3
Die in dem Satz von der totalen Wahrscheinlichkeit ben¨otigten unbedingten und bedingten Wahrscheinlichkeiten sind alle in der Aufgabenstellung enthalten: P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) 25 1 80 6 50 5 = · + · + · 100 12 600 12 500 12 = 0.129166 Die Wahrscheinlichkeit, aus diesem Pool ein defektes Teil zu ziehen, betr¨agt also knapp 13%. Wir kommen nun zu der angek¨ undigten Formel von Bayes, die auf den englischen Presbyterianer–Priester und Hobby–Statistiker“ Thomas Bayes (1702 – 1761) ” zur¨ uckgeht, jedoch erst zwei Jahre nach dessen Tod ver¨offentlicht worden ist. Sie unterstellt — wie im vorigen Satz — eine Zerlegung von Ω und ein weiteres Ereignis B. Und sie gibt an, wie man die bedingten Wahrscheinlichkeiten f¨ ur die Zerlegungserur B eignisse Aj unter der Bedingung B aus den bedingten Wahrscheinlichkeiten f¨ ur die unter den Bedingungen Ai und aus den unbedingten Wahrscheinlichkeiten f¨ Zerlegungsereignisse erh¨alt.
102
Kapitel 4. Wahrscheinlichkeitsrechnung
Formel von Bayes: Sei A1 , . . . , An eine Zerlegung von Ω und P (B) > 0. Dann gilt: P (B|Aj ) · P (Aj ) P (Aj |B) = , n P (B|Ai ) · P (Ai )
j = 1, . . . , n
i=1
Die unbedingten Wahrscheinlichkeiten P (Ai ) heißen in diesem Zusammenhang Prior– Wahrscheinlichkeiten oder a priori–Wahrscheinlichkeiten. Die resultierenden bedingten Wahrscheinlichkeiten P (Aj |B) heißen dann Posterior–Wahrscheinlichkeiten oder a posteriori–Wahrscheinlichkeiten. So seltsam die Formel auf jeden zun¨achst wirken muss (Bayes hatte genau deshalb nicht gewagt, die Formel zu Lebzeiten zu ver¨offentlichen), so wichtig ist sie doch f¨ ur praktische Fragestellungen, wie nachfolgende Beispiele verdeutlichen sollen. Es geht dabei stets um Situationen, in denen eine Zerlegung des Ergebnisraumes in Teilereignisse Ai sowie eine Vorinformation u ¨ber deren Wahrscheinlichkeiten vorliegt. Außerdem liegt noch ein weiteres Ereignis B vor, dessen bedingte Wahrscheinlichkeit bei jeweils angenommener Bedingung Ai einfach ermittelt werden kann. Diese Erkenntnis u ¨ber B erm¨oglicht dann durch die Bayes–Formel eine verbesserte“ ” Einsch¨atzung der Wahrscheinlichkeiten f¨ ur die Zerlegungsereignisse. Beispiel: Verbesserung der Diagnosesicherheit Ein Patient kommt mit dem Verdacht auf eine bestimmte Krankheit zum Arzt. Aus den Medien oder durch die Gesundheits¨amter sei die aktuelle Verbreitung dieser Krankheit und damit die a priori–Wahrscheinlichkeit daf¨ ur bekannt, dass der Patient diese Krankheit hat (Ereignis A1 ) oder nicht (Ereignis A2 ): P (A1 ) = 0.1,
P (A2 ) = 1 − P (A1 ) = 0.9
Der Arzt wird aber nat¨ urlich eine Untersuchung durchf¨ uhren, deren Ergebnis die Sicherheit der individuellen Diagnose verbessern kann. Aber keine Untersuchung ist fehlerfrei. Nehmen wir an, dass die Untersuchung einen tats¨achlich kranken Patienten (Ereignis B) mit einer Wahrscheinlichkeit von 95% auch als solchen erkennt und nur mit einer Wahrscheinlichkeit von 10% einen Gesunden irrt¨ umlich als krank darstellt. (Solche Kenngr¨oßen einer Untersuchungsmethode werden in medizinischen Studien ermittelt und ver¨offentlicht.) P (B|A1 ) = 0.95,
P (B|A2 ) = 0.1
Wie groß ist nun die Wahrscheinlichkeit, dass der Patient wirklich krank ist, wenn der Untersuchungsbefund dies ergibt? P (A1 |B) = =
P (B|A1 )P (A1 ) P (B|A1 )P (A1 ) + P (B|A2 )P (A2 )
0.95 · 0.1 0.095 = ≈ 0.5135 0.95 · 0.1 + 0.1 · 0.9 0.185
4.7. Stochastische Unabh¨angigkeit
103
Auch wenn der Befund positiv“ ist — was f¨ ur den Patienten nat¨ urlich eigentlich ” negativ“ ist —, ist die a posteriori–Wahrscheinlichkeit daf¨ ur, dass er die Krank” heit hat, nur“ etwas gr¨oßer al 50%. Dies liegt zum einen nat¨ urlich an den Feh” lerm¨oglichkeiten der Untersuchungsmethode, vor allem aber an der geringen a priori– Wahrscheinlichkeit in unserem Beispiel, krank zu sein. uhwarnsystem einer Produktionsanlage Beispiel: Fr¨ Das Fr¨ uhwarnsystem einer Produktionsanlage weist — mit Hilfe einer Ampel — in 80% der Zeit auf keine Probleme hin (Ampel gr¨ un: Ereignis A1 ), in 15% auf geringe Probleme (gelb: A2 ) und in 5% auf große Probleme (rot: A3 ). P (A1 ) = 0.8,
P (A2 ) = 0.15,
P (A3 ) = 0.05
Wenn die Ampel gr¨ un anzeigt, f¨allt die Anlage mit einer Wahrscheinlichkeit von 10% aus (Ereignis B). Wenn sie gelb ist, f¨allt die Anlage mit einer Wahrscheinlichkeit von 30% aus, und bei rot f¨allt die Produktionsanlage mit einer Wahrscheinlichkeit von 80% aus. P (B|A1 ) = 0.1,
P (B|A2 ) = 0.3,
P (B|A3 ) = 0.8
Wie hoch ist die Wahrscheinlichkeit f¨ ur einen Ausfall der Anlage? Diese Frage kann mit dem Satz von der totalen Wahrscheinlichkeit beantwortet werden: P (B) = P (B|A1 ) · P (A1 ) + P (B|A2 ) · P (A2 ) + P (B|A3 ) · P (A3 ) = 0.1 · 0.80 + 0.3 · 0.15 + 0.8 · 0.05 = 0.165 Die unbedingte Wahrscheinlichkeit f¨ ur einen Ausfall betr¨agt 16.5%. Mit welcher Wahrscheinlichkeit war die Ampel gr¨ un beziehungsweise gelb beziehungsweise rot, wenn die Anlage ausgefallen ist? Diese Fragen k¨onnen mit der Bayes– Formel beantwortet werden: P (B|A1 ) · P (A1 ) 0.1 · 0.80 = = 0.48 P (B) 0.165 P (B|A2 ) · P (A2 ) 0.3 · 0.15 P (A2 |B) = = = 0.27 P (B) 0.165 P (B|A3 ) · P (A3 ) 0.8 · 0.05 P (A3 |B) = = = 0.24 P (B) 0.165 P (A1 |B) =
4.7
Stochastische Unabh¨ angigkeit
In diesem Abschnitt wird die stochastische Unabh¨angigkeit von Ereignissen erl¨autert. Diese Eigenschaft hat unmittelbar mit dem Konzept der bedingten Wahrscheinlichkeit zu tun.
104
Kapitel 4. Wahrscheinlichkeitsrechnung
Die Ereignisse A und B heißen stochastisch unabh¨angig, wenn irgendeine der folgenden f¨ unf ¨aquivalenten Beziehungen gilt: P (A ∩ B) = P (A) · P (B) P (A|B) = P (A) P (B|A) = P (B) P (A|B) = P (A|B) P (B|A) = P (B|A)
f¨ ur f¨ ur f¨ ur f¨ ur
P (B) > 0 P (A) > 0 0 < P (B) < 1 0 < P (A) < 1
Die erste Definition wird vermutlich am h¨aufigsten verwendet, um die Unabh¨angigkeit von Ereignissen zu u ufen. Sie besagt, dass Unabh¨angigkeit daran erkannt ¨berpr¨ werden kann, dass die Wahrscheinlichkeit f¨ ur das gleichzeitigen Eintreten gleich dem Produkt der Wahrscheinlichkeiten beider Ereignisse ist. Etwas intuitiver ist vielleicht die zweite Definition, die besagt, dass die Wahrscheinlichkeit f¨ ur A unabh¨angig davon ist, ob wir etwas u ¨ber das Eintreten von B wissen oder nicht. Aus Symmetriegr¨ unden ist dies ¨aquivalent zur dritten Definition. Die letzten beiden Definitionen charakterisieren die Unabh¨angigkeit, indem sie fordern, dass die Wahrscheinlichkeit f¨ ur ein Ereignis die gleiche ist, ob wir nun wissen, dass das andere Ereignis eingetreten ist oder nicht. Beispiel: Lotto (6 aus 49) Die Kombinatorik lehrt uns, dass es 49 49! = ≈ 14 Mio. 6 6! · (49 − 6)! verschiedene M¨oglichkeiten gibt, 6 von 49 Zahlen anzukreuzen. Die Wahrscheinlichkeit, bei der n¨achsten Ziehung 6 Richtige zu haben (Ereignis A), betr¨agt daher nach Laplace: 1 1 P (A) = 49 ≈ 14 Mio. 6 Die Wahrscheinlichkeit, bei der u ¨bern¨achsten Ziehung 6 Richtige zu haben (Ereignis B), ist offenbar genauso groß. Da es sich aber bekanntlich um unabh¨angige“ ” Ziehungen handelt, ist die Wahrscheinlichkeit daf¨ ur, sowohl bei der n¨achsten als auch bei der u ¨bern¨achsten Ziehung 6 Richtige zu haben, gleich dem Produkt der Einzelwahrscheinlichkeiten: 1 P (A ∩ B) = P (A) · P (B) ≈ 196 Bio. Das k¨onnen Sie vergessen! Andererseits k¨onnen Sie nach einem eventuellen Hauptgewinn getrost weiterspielen, denn die bedingte Wahrscheinlichkeit f¨ ur 6 Richtige in der u ¨bern¨achsten Ziehung unter der Bedingung (oder Annahme) eines Hauptgewinns in der n¨achsten Ziehung betr¨agt wegen der Unabh¨angigkeit wieder P (B|A) =
P (A ∩ B) P (B)
≈
1 14 Mio.
4.7. Stochastische Unabh¨angigkeit
105
Beispiel: Wareneingangspr¨ ufung In einer Lieferung von 100 gleichartigen Teilen befinden sich m (0 < m < 100) defekte. Ein zuf¨allig gezogenes Teil wird gepr¨ uft und zur¨ uckgelegt. Dann wird zuf¨allig ein ufte zweites Teil gezogen und gepr¨ uft. Bezeichne Ai das Ereignis, dass das i–te gepr¨ Teil defekt ist (i = 1, 2). Sind die beiden Ereignisse unabh¨angig? Die Wahrscheinlichkeit f¨ ur das Eintreten beider Ereignisse l¨asst sich nach der klassischen Wahrscheinlichkeitsdefinition angeben, wenn wir uns alle 100 Teile durchnummeriert denken: m·m P (A1 ∩ A2 ) = 100 · 100 Durch das Zur¨ ucklegen des zuerst gezogenen Teils gibt es auch f¨ ur den zweiten Zug wieder 100 M¨oglichkeiten, die beliebig mit den Ergebnissen des ersten Zuges kombiniert werden k¨onnen. F¨ ur die M¨oglichkeiten der defekten Teile (im Z¨ahler) gilt dasselbe. Dieses Produkt ergibt sich aber auch, indem die Einzelwahrscheinlichkeiten miteinander multipliziert werden: m m · P (A1 ) · P (A2 ) = 100 100 Daher sind die beiden Ereignisse stochastisch unabh¨angig. Was passiert, wenn das zuerst gepr¨ ufte Teil nicht zur¨ uckgelegt wird? Die Wahrscheinlichkeit f¨ ur den Durchschnitt k¨onnen wir nach dem allgemeinen Multiplikationssatz einfach berechnen: m m−1 P (A1 ∩ A2 ) = P (A1 ) · P (A2 |A1 ) = · 100 99 Die Wahrscheinlichkeit f¨ ur A2 k¨onnen wir nach dem Satz von der totalen Wahrur den ersten Zug) berechnen: scheinlichkeit (mit der Zerlegung {A1 , A1 } f¨ P (A1 ) · P (A2 ) = P (A1 ) · (P (A2 |A1 ) · P (A1 ) + P (A2 |A1 ) · P (A1 )) m m−1 m m 100 − m m2 = · · + · = 100 99 100 99 100 1002 Es gilt also P (A1 ∩ A2 ) = P (A1 ) · P (A2 ), die beiden Ereignisse sind daher nicht mehr unabh¨angig, wenn ohne Zur¨ ucklegen gezogen wird. Aus der Definition der stochastischen Unabh¨angigkeit ergeben sich einige n¨ utzliche Folgerungen: • A und B sind genau dann stochastisch unabh¨angig, wenn auch A und B stochastisch unabh¨angig sind oder A und B oder A und B. F¨ ur die erste Behauptung kann das beispielsweise folgendermaßen eingesehen werden: P (A ∩ B) = P (A \ B) = P (A) − P (A ∩ B) = P (A) − P (A) · P (B) = P (A) · (1 − P (B)) = P (A) · P (B)
106
Kapitel 4. Wahrscheinlichkeitsrechnung
• Jedes Ereignis A ist stochastisch unabh¨angig vom sicheren Ereignis Ω, denn offenbar gilt ja: P (Ω ∩ A) = P (A) = 1 · P (A) = P (Ω) · P (A) • Jedes Ereignis A ist stochastisch unabh¨angig vom unm¨oglichen Ereignis ∅, da gilt: P (∅ ∩ A) = P (∅) = 0 = 0 · P (A) = P (∅) · P (A) • Zwei Ereignisse A und B mit A ⊂ B und 0 < P (A) ≤ P (B) < 1 sind stochastisch abh¨angig, da gilt: P (A ∩ B) = P (A) > P (A) · P (B) • Zwei Ereignisse A und B mit A ∩ B = ∅ und P (A) > 0, P (B) > 0 sind stochastisch abh¨angig, da gilt: P (A ∩ B) = P (∅) = 0 < P (A) · P (B) Die stochastische Unabh¨angigkeit ist eine Relation zwischen zwei Ereignissen. Es gibt jedoch eine Verallgemeinerung dieser Relation auf drei (oder mehr) Ereignisse. Drei Ereignisse A, B, C heißen total unabh¨angig, wenn alle Paare von Ereignissen stochastisch unabh¨angig sind und die Wahrscheinlichkeit f¨ ur das gleichzeitige Eintreten aller drei Ereignisse gleich dem Produkt der Einzelwahrscheinlichkeiten ist: P (A ∩ B) = P (A)P (B) ∧ P (A ∩ C) = P (A)P (C) ∧ P (B ∩ C) = P (B)P (C) ∧ P (A ∩ B ∩ C) = P (A)P (B)P (C) Ein Gegenbeispiel soll zeigen, dass es auch Ereignisse gibt, die zwar paarweise unabh¨angig sind, aber dennoch nicht total unabh¨angig. Die Teilfl¨achen in dem folgenden Venn–Diagramm sollen die darin aufgef¨ uhrten Wahrscheinlichkeiten besitzen: C 0.05 A
0.2 0.25
0.25 0.2
B
0 0.05
Es l¨asst sich leicht nachrechnen, dass die Ereignisse A, B und C jeweils paarweise unabh¨angig sind. Aber die f¨ ur die totale Unabh¨angigkeit zus¨atzliche Beziehung gilt eben nicht: P (A ∩ B ∩ C) = 0.25 = P (A)P (B)P (C) = 0.225
¨ 4.8. Ubungsaufgaben
4.8
107
¨ Ubungsaufgaben
1. F¨ ur ein Unternehmen seien folgende Ereignisse betrachtet (bezogen auf das laufende Gesch¨aftsjahr und gemessen am vergangenen): A B C
— Umsatzsteigerung — Zunahme der Auftragseing¨ange — Reduktion der Personalkosten
P (A) = 0.7 P (B) = 0.8 P (C) = 0.3
Es wird als sicher angenommen, dass mindestens eines dieser drei Ereignisse eintritt. Weiterhin sei angenommen: P (A ∩ B) = 0.5, P (A ∩ C) = 0.2, P (B ∩ C) = 0.2. (a) Mit welcher Wahrscheinlichkeit werden alle drei Ereignisse eintreten? (b) Mit welcher Wahrscheinlichkeit treten A und B, aber nicht C ein? (c) Zeichnen Sie die Situation in ein Venn–Diagramm ein und tragen Sie in jede Teilfl¨ache die zugeh¨orige Wahrscheinlichkeit ein! 2. Die Qualit¨atskontrolle eines Unternehmens entdeckt in 95% aller F¨alle ein defektes Produkt, sortiert aber mit einer Wahrscheinlichkeit von 1% ein gutes Produkt irrt¨ umlich aus. Die tats¨achliche Ausschussquote der Produktion betrage 20%. (a) Mit welcher Wahrscheinlichkeit wird ein gutes Produkt nicht aussortiert? (b) Mit welcher Wahrscheinlichkeit wird ein zuf¨allig gepr¨ uftes Produkt aussortiert? (c) Mit welcher Wahrscheinlichkeit passiert ein zuf¨allig gepr¨ uftes Produkt die Qualit¨atskontrolle? (d) Mit welcher Wahrscheinlichkeit ist ein Produkt gut, wenn es die Qualit¨atskontrolle passiert hat? 3. Betrachten Sie die folgenden drei Ereignisse: A – Maschine 1 arbeitet fehlerfrei B – Maschine 2 arbeitet fehlerfrei C – Maschine 1 hat einen bestimmten Fehler (a) Welche Beziehung besteht zwischen A und C und welche Wahrscheinlichkeitsaussage folgt daraus? (b) Die Maschinen 1 und 2 arbeiten unabh¨angig voneinander. Wie kann man dies als Gleichung f¨ ur Wahrscheinlichkeiten ausdr¨ ucken? (c) Tragen Sie mit Hilfe der folgenden Informationen in jede Teilfl¨ache des Venn–Diagramms die zugeh¨orige Wahrscheinlichkeit ein! P (A) = 0.5,
P (B) = 0.4,
P (Ω \ (A ∪ B ∪ C)) = 0.225
108
Kapitel 4. Wahrscheinlichkeitsrechnung
4. Der Personalchef eines Unternehmens sch¨atzt seine Menschenkenntnis folgendermaßen ein: Er stellt gute Leute mit einer Wahrscheinlichkeit von 90% ein, durchschnittliche mit 30% und schlechte mit 5%. Erfahrungsgem¨aß gibt es auf dem Arbeitsmarkt 30% gute, 50% durchschnittliche und 20% schlechte Bewerber. Mit welcher Wahrscheinlichkeit wird sich demnach ein vom Personalchef eingestellter Bewerber als schlecht herausstellen? 5. Vier Rechnungspr¨ ufer erkennen mit jeweils 80%, 85%, 90% und 94% Wahrscheinlichkeit einen korrekten Buchungssatz auch als korrekt an. Mit 40% Wahrscheinlichkeit ist mit dem Erscheinen des ersten (schlechtesten) Pr¨ ufers zu rechnen. Mit je 20% Wahrscheinlichkeit kommt einer der anderen Pr¨ ufer. (a) Mit welcher Wahrscheinlichkeit wird insgesamt ein korrekter Buchungssatz als korrekt anerkannt? (b) Mit welcher Wahrscheinlichkeit war der erste (schlechteste) Pr¨ ufer da, wenn ein korrekter Buchungssatz als korrekt anerkannt worden ist? (c) Mit welcher Wahrscheinlichkeit war der vierte (beste) Pr¨ ufer am Werk, wenn ein korrekter Buchungssatz als korrekt anerkannt worden ist? 6. Sie haben ein Wertpapierdepot und gehen von drei m¨oglichen Szenarien der B¨orsenentwicklung aus: • Der DAX steigt (mit einer Wahrscheinlichkeit von 70%) • Der DAX f¨allt (mit einer Wahrscheinlichkeit von 20%) • Der DAX bleibt unver¨andert (mit einer Wahrscheinlichkeit von 10%) Wenn der DAX steigt, wird es auch Ihr Depot mit einer Wahrscheinlichkeit von 80% tun; wenn er unver¨andert bleibt, wird Ihr Depot mit 40% Wahrscheinlichkeit steigen; und wenn der DAX f¨allt, wird Ihr Depot mit 10% Wahrscheinlichkeit steigen. (a) Mit welcher Wahrscheinlichkeit wird Ihr Depot steigen? (b) Mit welcher Wahrscheinlichkeit wird der DAX fallen, falls Ihr Depot steigt? 7. Sie nehmen an zwei unabh¨angigen Ziehungen einer Lotterie teil. Betrachten Sie die folgenden Ereignisse! A — irgendein Gewinn in der 1. Ziehung B — irgendein Gewinn in der 2. Ziehung C — Hauptgewinn in der 1. Ziehung, der Sie dann aber von der Teilnahme an der 2. Ziehung ausschließt. (a) Geben Sie P (B ∩ C) an! (b) Geben Sie P (A ∩ B) an, wenn P (A) = P (B) = 0.1 ist! (c) Tragen Sie in jede Teilfl¨ache des Venn–Diagramms die entsprechende Wahrscheinlichkeit ein, wenn P (C) = 0.01 ist!
¨ 4.8. Ubungsaufgaben
109
8. F¨ ur die Ereignisse A, B, C, D sei folgendes bekannt: A umfasst B, C und D; B und D sind disjunkt; P (B|C) = 1/6, P (B) = 0.2 P (A) = 0.1, P (B \ C) = P (B ∩ C), P (D) = 0.4, P (C|D) = 3/4. Berechnen Sie die Wahrscheinlichkeiten f¨ ur jede der sieben Teilfl¨achen von Ω und tragen Sie diese in das Venn–Diagramm ein! 9. In einer Hochschule gibt es die drei Bereiche Gestaltung (mit 20 Professoren), Wirtschaft (mit 100 Professoren) und Technik (mit 30 Professoren). 5% der Professoren der Gestaltung tragen einen Schlips, ebenso 90% im Bereich Wirtschaft und 60% im Bereich Technik. (a) Mit welcher Wahrscheinlichkeit wird ein zuf¨allig getroffener Professor einen Schlips tragen? (b) Mit welcher Wahrscheinlichkeit geh¨ort ein zuf¨allig getroffener Professor mit Schlips zum Bereich Gestaltung, beziehungsweise zur Wirtschaft oder zur Technik? 10. Eine dreistellige Zahl zwischen 000 und 999 wird erzeugt, indem jede Dezimalziffer zuf¨allig“ zwischen 0 und 9 erzeugt wird. ” (a) Wie lautet der Ergebnisraum? (b) Wie viele Ereignisse gibt es (ganz grob)? (c) Wie viele Elemente hat das Ereignis C := A ∩ B, wenn A das Ereignis gerade Zahl“ ist und B das Ereignis durch 3 teilbar“? ” ” (d) Wie viele Elemente hat das Ereignis D := A ∪ B? (e) Skizzieren Sie A, B und E := {009, 099, 999} grob, aber qualitativ korrekt, im Venn–Diagramm! (f) Welche Beziehungen bestehen zwischen A und E und zwischen B und E? 11. Geburtstagsproblem (a) In einem H¨orsaal einer (teueren) Privathochschule sitzen 15 Studenten. Mit welcher Wahrscheinlichkeit haben mindestens zwei am selben Tag Geburtstag (Ereignis A)? (b) In einem H¨orsaal einer staatlichen Hochschule sitzen 42 Studenten. Wie groß ist diese Wahrscheinlichkeit jetzt? (c) Wie viele Studenten m¨ ussten es sein, damit diese Wahrscheinlichkeit etwa 50% betr¨agt? 12. (a) Mit welcher Wahrscheinlichkeit ist die Summe dreier W¨ urfel gleich 10? (b) Mit welcher Wahrscheinlichkeit ist sie kleiner oder gr¨oßer“ als 10? ” (c) Mit welcher Wahrscheinlichkeit ist sie durch 2 oder 3 teilbar?
110
Kapitel 4. Wahrscheinlichkeitsrechnung
¨ 13. Das skizzierte System mit 3 Zust¨anden und den angegebenen Ubergangswahrscheinlichkeiten startet im Zustand 1. 0.4 1
0.6 0.8
0.2 0.7
2
3
0.3 (a) Mit welcher Wahrscheinlichkeit ergibt sich die Zustandsfolge 1−2−1−3? (b) Skizzieren Sie den vollst¨andigen Entscheidungsbaum f¨ ur eine solche Folge aus 4 Zust¨anden! (c) Berechnen Sie P (1 − 3 − 2 − 1 − 2 − 3)! 14. Ein Parallelsystem bestehe aus drei Paaren zusammen geh¨orender Kontakte. Es funktioniere“ genau dann, wenn mindestens ein zusammen geh¨orendes ” Paar miteinander verbunden wird. Die Verbindungen zwischen den oberen und den unteren Kontakten werden rein zuf¨allig hergestellt, wobei jeweils ein oberer Kontakt mit genau einem unteren Kontakt verbunden wird. Die Abbildung zeigt ein Beispiel f¨ ur eine solche zuf¨allige Verbindungsstruktur: 1
2
3
1
2
3
(a) Mit welcher Wahrscheinlichkeit wird das System funktionieren? (b) Mit welcher Wahrscheinlichkeit wird ein solches System mit n Kontakt– Paaren funktionieren? (c) Gegen welchen Wert strebt diese Wahrscheinlichkeit f¨ ur n → ∞? (d) Bei einer Betriebsfeier soll jeder Teilnehmer einem anderen ein Geschenk machen. Dazu zieht jeder einen Zettel aus einem Hut, in den zuvor die Zettel mit den Namen der Teilnehmer gelegt worden waren. Mit welcher Wahrscheinlichkeit gelingt es, dass keiner seinen eigenen Namen zieht?
Kapitel 5 Zufallsvariablen Lernziele • Was ist eine Zufallsvariable und welcher Zusammenhang besteht zwischen Zufallsvariablen und Ereignissen? • Was zeichnet eine diskrete Zufallsvariable aus? • Was versteht man unter der Wahrscheinlichkeitsfunktion? • Welche Beziehung besteht zwischen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion? • Welche Funktionalparameter kennen Sie und welche Bedeutung haben sie? • Wie rechnet man mit Erwartungswert, Varianz und Standardabweichung? • Was zeichnet eine stetige Zufallsvariable aus? • Welche Beziehung besteht zwischen der Dichte und der Verteilungsfunktion? • Wie berechnet man die Funktionalparameter bei stetigen Zufallsvariablen? • Was unterscheidet bivariate Zufallsvariablen von zwei normalen (univariaten) Zufallsvariablen? • Welche Arten von Abh¨angigkeit zweier Zufallsvariablen kennen Sie und welche Maße gibt es f¨ ur deren Messung? Zuf¨allige Ereignisse sind der Schl¨ ussel zur Wahrscheinlichkeitsrechnung. In der Praxis ergeben sich diese Ereignisse jedoch h¨aufig durch Zufallsvariablen. Zufallsvariablen ordnen jedem Ergebnis eines Zufallsexperiments eine reelle Zahl zu und sind damit — mathematisch formuliert — Abbildungen. Eine Zufallsvariable X ist eine
112
Kapitel 5. Zufallsvariablen
Abbildung vom Ergebnisraum Ω eines Zufallsexperiments in die Menge der reellen Zahlen: X : Ω → R, Ω ω → X(ω) = x ∈ R Einige Beispiele f¨ ur Zufallsvariablen sind etwa • die Anzahl der K¨opfe“ in zehn M¨ unzw¨ urfen mit den potenziellen Werten ” 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 • die Anzahl der M¨ unzw¨ urfe bis zum ersten Kopf“ mit den potenziellen Werten ” 1, 2, 3, 4, 5, . . . • die L¨ange (z.B. in Millimeter) einer automatisch gefertigten Schraube mit potenziellen Werten im Intervall (0, ∞) • die an einer Stromquelle gemessene Spannung (z.B. in Volt) mit potenziellen Werten im Intervall (0, ∞) Mit Hilfe von Zufallsvariablen k¨onnen praktisch relevante Ereignisse formuliert werden. Die Erzeugung von Ereignissen durch Zufallsvariablen soll durch einige Beispiele verdeutlicht werden: • A := {X = a} := {ω ∈ Ω | X(ω) = a} Das Ereignis A ist hier die Teilmenge von Ω, deren Elemente ω durch die Zufallsvariable X auf die reelle Zahl a abgebildet werden. Ab jetzt wird daf¨ ur die kurze Schreibweise verwendet. • B := {X ≤ a} Das Ereignis B ist hier die Teilmenge von Ω, deren Elemente ω durch die Zufallsvariable X auf eine reelle Zahl kleiner oder gleich a und damit also in das Intervall (−∞, a] abgebildet werden. • C := {a < X ≤ b} = {X ≤ b} \ B Das Ereignis C ist hier die Teilmenge von Ω, deren Elemente ω durch die Zufallsvariable X in das Intervall (a, b] abgebildet werden. Es kann mit Hilfe des bereits definierten Ereignisses B also auch in der zuletzt genannten Form als Mengendifferenz dargestellt werden. Aus mehreren Gr¨ unden m¨ ussen wir zwischen diskreten und stetigen Zufallsvariablen unterscheiden. Wir wenden uns zun¨achst den diskreten und anschließend den stetigen Zufallsvariablen zu.
5.1. Diskrete Zufallsvariablen
5.1
113
Diskrete Zufallsvariablen
Diskrete Zufallsvariablen sind Zufallsvariablen, deren Wertebereich endlich oder abz¨ahlbar unendlich ist, also kurz abz¨ahlbar : X : Ω → W = {x1 , x2 , x3 , . . . },
W abz¨ahlbar
Die bekannteste abz¨ahlbar unendliche Menge ist die Menge N der nat¨ urlichen Zahlen. Generell sind abz¨ahlbar unendliche Mengen solche mit unendlich vielen Elementen, die sich aber vollst¨andig durch ein geeignetes Verfahren des Abz¨ahlens erfassen lassen. Mathematisch kann man dies korrekt formulieren, indem man verlangt, dass f¨ ur eine abz¨ahlbar unendliche Menge eine bijektive Abbildung zwischen der Menge und N existieren muss — ohne dass wir hier n¨aher darauf eingehen k¨onnen. Neben N ist beispielsweise auch die Menge Q der rationalen Zahlen, also der Br¨ uche aus ganzen Zahlen, abz¨ahlbar.
5.1.1
Wahrscheinlichkeitsfunktion und Verteilungsfunktion
Die beiden wichtigsten Funktionen einer diskreten Zufallsvariablen sind ihre Wahrscheinlichkeitsfunktion und ihre Verteilungsfunktion. Die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen X ordnet jedem Wert x der Zufallsvariablen, der auch Realisation der Zufallsvariablen genannt wird, die Wahrscheinlichkeit zu, mit der genau dieser Wert auftritt: P (X = x) = P (X = xi ) =: pi
f¨ u r x = xi ,
i = 1, 2, . . .
Diese Wahrscheinlichkeitsfunktion ist f¨ ur alle x ∈ R definiert, auch f¨ ur solche Werte x, die von der Zufallsvariablen gar nicht angenommen werden k¨onnen; f¨ ur solche Werte hat die Wahrscheinlichkeitsfunktion dann den Wert null. Beispiel:
Produktivit¨at eines Mitarbeiters
Ein Beispiel soll den Begriff der Wahrscheinlichkeitsfunktion f¨ ur eine diskrete Zufallsvariable X verdeutlichen. Die Zufallsvariable gibt die Anzahl der Produkte an, die ein an einem zuf¨allig gew¨ahlten Tag zuf¨allig ausgew¨ahlter Mitarbeiter der Pharmalift GmbH herstellt. Die Anzahl der hergestellten Produkteinheiten und deren Wahrscheinlichkeiten werden hier einfach angenommen; in der Praxis w¨ urden sie durch zahlreiche Beobachtungen mit Hilfe der frequentistischen Wahrscheinlichkeitsdefinition ermittelt werden. x P (X = x)
5 0.3
6 0.5
7 0.2
Ein durchschnittlicher Mitarbeiter stellt also 5 Teile mit einer Wahrscheinlichkeit von 30% her, 6 Teile mit einer Wahrscheinlichkeit von 50% und 7 Teile mit einer Wahrscheinlichkeit von 20%. Die Produktion von weniger als 5 und von mehr als 7 Teilen wird hier ausgeschlossen und hat daher eine Wahrscheinlichkeit von null.
114Kapitel 5. Zufallsvariablenuberschreitet,
1.0
0.5
0
1
2
3
4
5
6
7
Die Summe aller pi u ¨ber alle m¨oglichen Realisationen xi einer diskreten Zufallsvariablen muss offenbar eins ergeben, da das bezeichnete Ereignis ja das sichere Ereignis Ω darstellt. Diese Eigenschaft einer Wahrscheinlichkeitsfunktion bezeichnet man als Normierung: pi = 1 P (X = xi ) = Die Verteilungsfunktion einer diskreten Zufallsvariablen ordnet jeder reellen Zahl x die Wahrscheinlichkeit zu, dass die Zufallsvariable X diesen Wert nicht ¨ sondern einen Wert von maximal x annimmt: P (X = xi ) F (x) = P (X ≤ x) = xi ≤x
Beispiel:
Produktivit¨at eines Mitarbeiters F (x)
5≤x
Arbeitsunf¨alle in zwei Betrieben
An 100 Tagen werden die Arbeitsunf¨alle in zwei Betrieben gez¨ahlt. Die Hypothese der gleichen Verteilung der Unfallh¨aufigkeit in beiden Betrieben soll zum Niveau von f¨ unf Prozent getestet werden. Die Anzahl der Tage ohne Unfall (i = 1), mit einem Unfall (i = 2), mit zwei Unf¨allen (i = 3), mit drei Unf¨allen (i = 4) und mit mehr als drei Unf¨allen (i = 5) werden bestimmt und in die Spalten 2 und 3 der folgenden Tabelle eingetragen. Auch die anderen ben¨otigten Gr¨oßen k¨onnen daraus berechnet und in die Tabelle eingetragen werden: i 1 2 3 4 5
ni m i ni + m i 27 23 50 30 25 55 18 20 38 13 12 25 12 20 32 100 100 200
n (i 25.0 27.5 19.0 12.5 16.0 100
m (i 25.0 27.5 19.0 12.5 16.0 100
n i )2 (ni − n i
(mi −m i )2 m i
0.160 0.227 0.053 0.020 1.000 1.460
0.160 0.227 0.053 0.020 1.000 1.460
Der Wert der Pr¨ ufgr¨oße kann nun berechnet und mit dem entsprechenden Perzentil der χ2 –Verteilung verglichen werden: χ2 = 2.92
χ2(k−1)·(m−1),1−α
8.3. Unabh¨angigkeitstest Beispiel:
191
Schultyp X und Beruf des Vaters Y
In einer Umfrage wird bei n = 250 zuf¨allig ausgew¨ahlten Personen der Typ X ihrer Schule mit den Auspr¨agungen Hauptschule (x1 ), Realschule (x2 ) und Gymnasium (x3 ) sowie die berufliche Stellung Y ihres Vaters mit den Auspr¨agungen Arbeiter (y1 ), Angestellter (y2 ), Beamter (y3 ) und Selbstst¨andiger (y4 ) erhoben. Sind diese beiden Variablen stochastisch unabh¨angig? Die H¨aufigkeiten und die berechneten Unabh¨angigkeitszahlen sind in der folgenden Kontingenztabelle eingetragen: nij
uij x1 x2 x3
y2 y3 y4 50 36 20 18 9 18 11 18 90 90 42 40 18 20 21 20 19 20 100 100 8 24 12 12 20 12 20 12 60 60 100 100 50 50 50 50 50 50 250 250 y1
Der Wert der Pr¨ ufgr¨oße wird mit dem entsprechenden Perzentil der χ2 –Verteilung verglichen: χ2 = 34.61 > χ22·3,0.95 = 12.591 Die Hypothese der Unabh¨angigkeit von besuchtem Schultyp und der beruflichen Stellung des Vaters ist f¨ ur diese Stichprobe auf dem Signifikanzniveau α = 0.05 abzulehnen. Beispiel:
Anfangsgehalt X und Hochschulart Y
Sind die folgenden Zufallsvariablen zum Niveau von 5% stochastisch unabh¨angig? X: Anfangsgehalt von Wirtschaftsingenieuren Y : Hochschulart Die H¨aufigkeiten nij , mit denen die 300 Berufsanf¨anger zur jeweiligen Hochschulart und gleichzeitig zur jeweiligen Gehaltsklasse geh¨oren, sind zusammen mit den berechneten Unabh¨angigkeitszahlen in der folgenden Tabelle angegeben: nij uij (0, 30] (30, 40] (40, 45] Uni 10 12.25 25 29.05 50 47.95 FH 12 11.90 30 28.22 45 46.58 Rest 13 10.85 28 25.73 42 42.47 35 83 137
(45, ∞) 20 15.75 105 15 15.30 102 10 13.95 93 45 300
Die Pr¨ ufgr¨oße ist wieder mit dem entsprechenden χ2 –Perzentil zu vergleichen: χ2 = 4.13 ≤ χ22·3,0.95 = 12.591 Das Anfangsgehalt scheint — bei dieser Stichprobe und beim Niveau von 5% — von der Hochschulart unabh¨angig zu sein.
192
8.4
Kapitel 8. Testtheorie
Anpassungstest
Es gibt zahlreiche Anpassungstests. Drei der bekanntesten sollen hier vorgestellt werden. Mit einem Anpassungstest kann gepr¨ uft werden, ob eine Stichprobe aus einer konkreten Verteilung stammt: H0 :
8.4.1
FX = F0
FX = F0
H1 :
χ2 –Anpassungstest
Der χ2 –Anpassungstest kann f¨ ur endlich–diskrete Verteilungen mit den m¨oglichen ur andere Verteilungen mit den Werteklassen K1 , . . . , Kk Werten x1 , . . . , xk oder f¨ verwendet werden. Man berechnet zun¨achst die (unter der Nullhypothese) g¨ ultigen Wahrscheinlichkeiten Pi = P (X = xi )
Pi = P (X ∈ Ki )
beziehungsweise
Daraus berechnet man mit dem Stichprobenumfang n die erwarteten H¨aufigkeiten ui := n · Pi , wobei kein ui kleiner als 1 und nur wenige kleiner als 5 sein sollen. Die Pr¨ ufgr¨oße k (ni − ui )2 G := χ2 := ui i=1 ist dann approximativ χ2 –verteilt mit k − 1 Freiheitsgraden, wobei ni die absolute H¨aufigkeit des Wertes xi beziehungsweise der Klasse Ki bezeichnet. Die Nullhypothese der Anpassung an die hypothetische Verteilung wird abgelehnt, wenn die Pr¨ ufgr¨oße das entsprechende Perzentil der χ2 –Verteilung u ¨bersteigt. Beispiel:
Gleichverteilung der Arbeitsunf¨alle auf die Wochentage
Die Hypothese, dass Arbeitsunf¨alle nicht vom Wochentag abh¨angen, also f¨ ur jeden Werktag dieselbe Wahrscheinlichkeit besitzen, soll zum Niveau von f¨ unf Prozent getestet werden: H0 :
Pi = 0.2,
i = 1, . . . , 5
H1 :
Pi = 0.2 f¨ ur ein i
F¨ ur 120 Arbeitstage mit mindestens einem Arbeitsunfall wird jeweils der Wochentag festgehalten: Montag (x1 ) bis Freitag (x5 ). Die folgende Tabelle zeigt die H¨aufigkeiten und die weiteren berechneten Gr¨oßen: xi 1 2 3 4 5
ni 26 17 22 24 31 120
Pi 0.2 0.2 0.2 0.2 0.2 1.0
ui 24 24 24 24 24 120
(ni −ui )2 ui
0.1667 2.0417 0.1667 0.0000 2.0417 4.4167
8.4. Anpassungstest
193
Der Wert der Pr¨ ufgr¨oße kann nun mit dem entsprechenden Perzentil der χ2 –Verteilung verglichen werden: χ2 = 4.4167 < χ24,0.95 = 9.487 Die Hypothese der Gleichverteilung der Arbeitsunf¨alle auf die Werktage kann auf dem Niveau von f¨ unf Prozent nicht verworfen werden.
8.4.2
Kolmogoroff–Smirnoff–Anpassungstest
Der Kolmogoroff–Smirnoff–Anpassungstest erfordert eine stetige hypothetische Verteilung F0 : H1 : FX = F0 H0 : F X = F 0 Aus der Rangreihe, also der aufsteigend sortierten Stichprobe, x1 ≤ x2 ≤ · · · ≤ xn wird zun¨achst die empirische Verteilungsfunktion ur xi ≤ x < xi+1 Fn (x) := i/n f¨ berechnet. Als Pr¨ ufgr¨oße dient der supremale“ Abstand zwischen der empirischen ” und der hypothetischen Verteilungsfunktion: Δ := sup |Fn (x) − F0 (x)| = max {Δ1i , Δ2i } i=1,...,n
x∈R
mit Δ1i := |Fn (xi ) − F0 (xi )|,
Δ2i := |Fn (xi−1 ) − F0 (xi )|
Die Ablehnung der Nullhypothese erfolgt f¨ ur zu große Abweichungen, genauer gesagt, wenn die Pr¨ ufgr¨oße Δ das entsprechende Perzentil Δn,1−α der sogenannten Kolmogoroff–Verteilung u ¨bersteigt. Einige Perzentile dieser sehr speziellen Verteilung sind in der folgenden Tabelle angegeben (vgl. z.B. Rinne, 2008, S. 961f.): 1−α n=5 10 15 20 25 30 40 50 60 70 80 90 ≥ 100
0.80 0.4470 0.3226 0.2659 0.2316 0.2079 0.1903 0.1655 0.1484 0.1357 0.1259 0.1179 0.1113 1.073 √ n
0.90 0.5095 0.3687 0.3040 0.2647 0.2377 0.2176 0.1891 0.1696 0.1551 0.1438 0.1347 0.1271 1.224 √ n
0.95 0.5633 0.4093 0.3376 0.2941 0.2640 0.2417 0.2101 0.1884 0.1723 0.1598 0.1496 0.1412 1.358 √ n
0.99 0.6685 0.4889 0.4042 0.3524 0.3166 0.2899 0.2521 0.2260 0.2067 0.1917 0.1795 0.1694 1.628 √ n
194
Kapitel 8. Testtheorie
Beispiel:
Auslastungsgrad einer Arbeitsstation
Die Hypothese, dass der Auslastungsgrad einer Arbeitsstation mit dem Erwartungswert 0.7417 und der Standardabweichung 0.0043 normalverteilt ist, soll zum Niveau von 20 Prozent getestet werden: H0 :
FX = N (0.7414, 0.00432 )
H1 :
FX = N (0.7414, 0.00432 )
Die folgende Tabelle enth¨alt die urspr¨ ungliche und die standardisierte Rangreihe, die Werte der empirischen und der hypothetischen Verteilungsfunktion und die Hilfsufgr¨oße berechnet werden kann: gr¨oßen Δ1i und Δ2i , aus denen dann die Pr¨ i 1 2 3 4 5 6 7 8 9 10
xi 0.7356 0.7366 0.7370 0.7390 0.7424 0.7428 0.7430 0.7434 0.7444 0.7496
xi −0.7414 0.0043
−1.3488 −1.1163 −1.0233 −0.5581 0.2326 0.3256 0.3721 0.4651 0.6977 1.9070
Fn 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
F (xi ) 0.0887 0.1322 0.1531 0.2884 0.5919 0.6276 0.6451 0.6791 0.7573 0.9717
Δ1i 0.0113 0.0678 0.1469 0.1116 0.0919 0.0276 0.0549 0.1209 0.1427 0.0283
Δ2i 0.0887 0.0322 0.0469 0.0116 0.1919 0.1276 0.0451 0.0209 0.0427 0.0717
Die Abbildung zeigt die empirische Verteilungsfunktion der Stichprobe als Treppenfunktion und die hypothetische Verteilungsfunktion der Normalverteilung: 1.00 0.75 0.50 0.25 0 0.735
0.740
0.745
0.750
Der Wert der Pr¨ ufgr¨oße ist das Maximum der Zahlen in den letzten beiden Spalten der Tabelle und muss mit dem entsprechenden Perzentil der Kolmogoroff–Verteilung verglichen werden: Δ = 0.1919 < Δ10,0.80 = 0.3226 H0 kann f¨ ur diese Stichprobe selbst zu dem schwachen (weil hohen) Signifikanzniveau von 20% nicht abgelehnt werden.
8.4. Anpassungstest
8.4.3
195
Anderson–Darling–Anpassungstest
Der Anderson–Darling–Anpassungstest ist eine verbesserte Variante des Kolmogoroff– Smirnoff–Anpassungstests. Er pr¨ uft die Nullhypothese der Anpassung an eine Normalverteilung und kann auch bei unbekannten Funktionsparametern angewendet werden. Zun¨achst werden aus der Rangreihe der Stichprobe die folgenden — unter H0 unabh¨angigen und in [0, 1] gleichverteilten — Transformationen berechnet: xi − μ yi := Φ , i = 1, . . . , n σ Wenn die beiden Funktionsparameter unbekannt sind, k¨onnen sie bei diesem Test aus der Stichprobe gesch¨atzt werden. Die Pr¨ ufgr¨oße lautet dann: n * + 1 0.75 2.25 (2i − 1) · ln(yi ) + ln(1 − yn+1−i ) + 2 · −n− · ADn := 1 + n n n i=1 wi
F¨ ur n > 8 kann die Nullhypothese verworfen werden, wenn diese Pr¨ ufgr¨oße die folgenden, nicht mehr von n abh¨angigen Schwellenwerte u ¨bersteigt: α Schwelle
0.100 0.631
0.050 0.752
0.025 0.873
0.010 1.035
0.005 1.159
(Vgl. Stephens, M.A.: Tests Based on EDF Statistics. In: D’Agostino, R.B., Stephens, M.A. (Hrsg.): Goodness–of–Fit Techniques. Marcel–Dekker Inc., New York 1986.) Beispiel: Sind die monatlichen Ums¨atze xi einer Filiale normalverteilt? (α = 0.05) i 1 2 3 4 5 6 7 8 9 10 11 12
xi 564 575 584 588 598 617 621 696 701 710 726 732 7712
yi 0.112 0.148 0.182 0.199 0.245 0.346 0.369 0.795 0.816 0.851 0.901 0.916 5.881
ln(yi ) −2.190 −1.912 −1.703 −1.614 −1.407 −1.062 −0.997 −0.229 −0.203 −0.161 −0.104 −0.087 −11.670
ln(1 − yn+1−i ) −2.481 −2.314 −1.904 −1.695 −1.586 −0.460 −0.424 −0.281 −0.222 −0.201 −0.160 −0.119 −11.848
wi −4.671 −12.680 −18.033 −23.166 −26.931 −16.744 −18.482 −7.652 −7.221 −6.886 −5.543 −4.740 −152.750
ur 5 Prozent, Damit ergibt sich ADn = 0.786. Da dies gr¨oßer ist als die Schwelle f¨ muss die Hypothese normalverteilter Ums¨atze abgelehnt werden.
196
8.5
Kapitel 8. Testtheorie
Test auf linearen Einfluss
Mit einer linearen Regression wird der lineare Einfluss einer Gr¨oße X, dem Regressor, auf eine Gr¨oße Y , den Regressanden, gesch¨atzt. Die stochastische Regressionsgleichung lautet: i = 1, . . . , n Yi = a + b · Xi + Ui , Die latenten Variablen oder St¨orgr¨oßen Ui stellen gerade die Differenz zwischen ur jede dem beobachteten Wert des Regressanden und dem linearen Term a + b · Xi f¨ Beobachtung i dar. Sie werden als unabh¨angig N (0, σU2 )–verteilt angenommen. Die Nullhypothese H0 :
b=0
besagt, dass der Regressor keinen Einfluss auf den Regressanden besitzt. Sie soll mit dem Kleinst–Quadrate–Sch¨atzer, kurz: KQ–Sch¨atzer, f¨ ur b getestet werden. Die KQ–Sch¨atzer f¨ ur a und b sind aus der Regressionsrechnung bekannt und lauten n i=1 Yi · (Xi − X) (b = n 2 i=1 (Xi − X) ( a = Y − (b · X Unter der Annahme in der Nullhypothese ist der KQ–Sch¨atzer f¨ ur b normalverteilt mit dem Erwartungswert 0 und mit der Varianz σU2 2 i=1 (Xi − X)
V ((b) = n
Da σ 2 nicht bekannt ist, muss diese Varianz gesch¨atzt werden. Dazu berechnet man mit Hilfe der KQ–Sch¨atzer f¨ ur a und b zun¨achst die Sch¨atzwerte f¨ ur die latenten Variablen, die sogenannten Residuen: (i = Yi − (( a + (bXi ) U Daraus ergibt sich der folgende Sch¨atzer f¨ ur die Standardabweichung von (b, der hier ohne Herleitung angegeben wird: n ( 2 U 1 · n i=1 i 2 Sb := n−2 i=1 (Xi − X) Der empirische t–Wert (b/Sb besitzt eine t–Verteilung, was hier ebenfalls ohne Herleitung angegeben werden soll: (b Sb
∼
tn−2
Der Annahmebereich f¨ ur H0 lautet daher: −Sb · t1−α/2,n−2
≤
(b
≤
Sb · tn−2,1−α/2
8.5. Test auf linearen Einfluss Beispiel:
197
Statistische Kostenanalyse
Hat die Produktionsmenge X einen Einfluss auf die Produktionskosten Y , wenn Sie die Hypothese zum Signifikanzniveau von einem Prozent testen und die folgende Stichprobe betrachten? 1 2 3 4 5 6 7 8 9 10 11 12 i Xi 10.3 4.3 6.0 11.0 3.6 10.3 8.3 12.5 6.4 7.3 10.0 6.9 Yi 9.8 8.1 7.6 10.8 6.9 9.0 6.0 11.2 7.8 9.7 9.4 8.6 Die folgende Tabelle enth¨alt die erforderlichen Rechenschritte: i 1 2 3 4 5 6 7 8 9 10 11 12
Yi 9.8 8.1 7.6 10.8 6.9 9.0 6.0 11.2 7.8 9.7 9.4 8.6 104.9
Xi 10.3 4.3 6.0 11.0 3.6 10.3 8.3 12.5 6.4 7.3 10.0 6.9 96.9
(Xi − X)2 4.9506 14.2506 4.3056 8.5556 20.0256 4.9506 0.0506 19.5806 2.8056 0.6006 3.7056 1.3806 85.1625
Yi · (Xi − X) 21.8050 −30.5775 −15.7700 31.5900 −30.8775 20.0250 1.3500 49.5600 −13.0650 −7.5175 18.0950 −10.1050 34.5125
(i2 U 0.0245 0.7888 0.0905 0.7621 0.0008 0.4139 8.0250 0.4423 0.0691 1.6190 0.0148 0.1119 0.1119
Die KQ–Sch¨atzer f¨ ur a und b ergeben sich damit wie folgt: n i=1 Yi · (Xi − X) (b = = 0.4053 n 2 i=1 (Xi − X) ( a = Y − (b · X = 5.4692 F¨ ur Sb erh¨alt man dann Sb =
n ( 2 U 1 · n i=1 i 2 = 0.1205 n−2 i=1 (Xi − X)
Der Annahmebereich f¨ ur H0 lautet: −0.1205 · tn−2,1−α/2
≤
(b
≤
0.1205 · tn−2,1−α/2
≤
(b
≤
0.3819
beziehungsweise −0.3819
Da der Wert der Pr¨ ufgr¨oße nicht im Annahmebereich liegt, kann die Nullhypothese kein Einfluss“ zu dem Niveau von einem Prozent abgelehnt werden. Die Produk” tionsmenge hat f¨ ur unsere Stichprobe demnach einen signifikanten Einfluss auf die Produktionskosten.
198
Kapitel 8. Testtheorie
Analog kann man u ur die Standardabweichung des KQ–Sch¨atzers ( a ¨brigens auch f¨ eine Formel erhalten, die bei gegebener Stichprobe berechnet werden kann und die hier ohne Herleitung angegeben werden soll: n ( 2 n 2 1 i=1 Xi · i=1 Ui Sa = · n n(n − 2) (X − X)2 i i=1 F¨ ur unsere Stichprobe ergibt sich wegen n
Xi2 = 867.63
i=1
ur den empirischen t–Wert von a gilt: ein Wert von Sa = 1.0245. Auch f¨ ( a Sa
∼
tn−2
Die Nullhypothese H0 :
a=0
keines Absolutgliedes im Regressionsansatz und damit keiner Fixkosten der Produktion besitzt den Annahmebereich −Sa · tn−2,1−α/2
≤
( a
≤
Sa · tn−2,1−α/2
−3.2469
≤
( a
≤
3.2469
beziehungsweise Da der Wert von ( a f¨ ur unsere Stichprobe nicht im Annahmebereich liegt, kann also die Nullhypothese verworfen werden. Es existieren signifikante Fixkosten von 5.4692 Geldeinheiten.
¨ 8.6. Ubungsaufgaben
8.6
199
¨ Ubungsaufgaben
1. Sie sollen u ¨ber den Austausch einer Maschine entscheiden, die Schrauben der L¨ange 60 mm herstellt. Die Standardabweichung betr¨agt 0.2 mm. Die Wahrscheinlichkeit f¨ ur einen Austausch, obwohl sie die Norml¨ange einh¨alt, soll 1% nicht u ¨bersteigen. ufgr¨oße? (a) Wie lauten die Hypothesen sowie der Ablehnbereich f¨ ur X als Pr¨ (b) Wie lautet Ihre Entscheidung bei einer Stichprobe vom Umfang 50 und einem Stichprobenmittelwert von 60.08? (c) Wie groß ist das kritische Signifikanzniveau? 2. Ein Unternehmer f¨ uhrt in seinem Betrieb (normalverteilte) Emissionsmessungen durch, wobei der gesetzliche H¨ochstwert μ0 = 10 betrage und die Varianz unbekannt sei, also erwartungstreu zu sch¨atzen sei. Die Messwerte lauten: 9.5 10.2 10.5 9.3 9.4 10.4 9.2 9.4 9.5 (a) Wie wird der Unternehmer die Hypothesen formulieren? (b) Wie lautet die erwartungstreue Sch¨atzung f¨ ur die Varianz? (c) Wie lautet der kritische Bereich f¨ ur den Mittelwert und f¨ ur α = 0.1? (d) Wie lautet die Entscheidung? 3. Eine Fr¨asmaschine soll auf die genaue Einhaltung des normalverteilten Soll– ucke bei unbekannter Varianz u uft Durchmessers μ0 = 100 der Werkst¨ ¨berpr¨ werden. (a) Wie lauten die Hypothesen und wie heißt der Test? (b) Wie lautet der kritische Bereich f¨ ur α = 0.1 und f¨ ur die Stichprobe 98 97 99 101 105 104 100 96 95 98 (c) Wie lautet die Entscheidung? 4. Bei einer Umfrage unter 2000 Personen wurden bez¨ uglich der Einstellung zu Bank–Managern folgende Zahlen erhoben: Alter bis 30 Jahre 31 bis 45 Jahre u ¨ber 45 Jahre
positiv
negativ
neutral
195 220 385
340 320 180
65 160 135
Ist die Einstellung unabh¨angig vom Alter? Die irrt¨ umliche Ablehnung der Unabh¨angigkeitshypothese soll h¨ochstens mit einer Wahrscheinlichkeit von einem Prozent m¨oglich sein.
200
Kapitel 8. Testtheorie
5. Kann man bei den folgenden H¨aufigkeiten von nichtehelichen Kindern je 1000 Geburten bei einem Niveau von f¨ unf Prozent davon ausgehen, dass in jedem der genannten Bundesl¨ander die Wahrscheinlichkeit f¨ ur nichteheliche Geburten gleich hoch ist? Hamburg: 208, Saarland: 93, Bayern: 83, Hessen: 97, Sachsen: 91, Bremen: 204 6. Pr¨ ufen Sie zum Niveau von einem Prozent, ob die folgenden Summen von je sechs Re(0; 1)–verteilten Zufallszahlen als normalverteilt gelten k¨onnen. Xi X 1 X2 X3 X4 X5 X6 0.24 0.06 0.14 0.34 0.87 0.91 2.56 0.46 0.31 0.68 0.05 0.14 0.66 2.30 0.66 0.85 0.77 0.47 0.33 0.90 3.98 0.08 0.76 0.10 0.97 0.10 0.65 2.68 0.92 0.23 0.06 0.26 0.15 0.12 1.73 0.37 0.49 0.18 0.34 0.84 0.39 2.62 0.82 0.17 0.16 0.52 0.50 0.36 2.53 0.61 0.24 0.31 0.28 0.68 0.08 2.20 0.87 0.75 0.05 0.91 0.66 0.28 3.52 0.91 0.07 0.26 0.11 0.41 0.90 2.67 7. Eine Freischuss–Regelung“ (zus¨atzlicher freiwilliger Pr¨ ufungsversuch) f¨ ur baye” rische Jurastudenten hat vom 2. Halbjahr 1990 bis zum 1. Halbjahr 1992 die folgenden Notenh¨aufigkeiten ohne (ni ) und mit (mi ) Freischuss ergeben: Note sehr gut gut vollbefriedigend befriedigend ausreichend nicht bestanden
i 1 2 3 4 5 6
ni 8 79 374 845 1424 1152
mi 7 54 214 392 416 362
Kann die Hypothese, dass die Freischuss–Regelung keinen Vorteil bringt, zum Niveau α = 0.01 abgelehnt werden? 8. F¨ uhren Sie f¨ ur die folgenden H¨aufigkeiten einen χ2 –Anpassungstest an eine N (10, 4)–Verteilung zum Niveau von einem Prozent durch! Ki (−∞, 7.5] (7.5, 8.5] (8.5, 9.5] (9.5, 10.5] (10.5, 11.5] (11.5, 12.5] (12.5, ∞)
ni 93 100 152 199 192 144 120
¨ 8.6. Ubungsaufgaben
201
9. Eine Umfrage unter 423 Studenten hinsichtlich der Vorbereitungszeit (sehr viel / viel / mittel / wenig) und des Erfolgs (bestanden / nicht bestanden) einer Klausur hat folgende H¨aufigkeiten ergeben: sehr viel viel mittel wenig
bestanden 21 41 83 129 274
nicht bestanden 1 12 35 101 149
Ist der Erfolg unabh¨angig von der Vorbereitungszeit? (α = 0.05) 10. Die folgende Tabelle zeigt die Anzahl der in Deutschland im Straßenverkehr verungl¨ uckten Kinder von 1982 bis 1989: Jahr 1982 1983 1984 1985 1986 1987 1988 1989
West (ni ) 56747 57097 53043 47952 48767 45350 47342 48383 404681
Ost (mi ) 4553 4492 4560 4327 4347 4446 4617 4899 36241
Ist das Unfallrisiko in West und Ost gleich hoch? (α = 0.01) 11. Die Messung der Lebensdauer von 20 baugleichen Maschinen ergab die folgenden, bereits sortierten Werte: 10, 15, 18, 19, 20, 20, 29, 36, 44, 50, 63, 85, 86, 88, 90, 93, 98, 120, 150, 180 Testen Sie mit dem Kolmogoroff–Smirnoff–Test zum Niveau von f¨ unf Prozent, ob die Lebensdauer mit dem Erwartungswert von 50 Zeiteinheiten exponentialverteilt ist. 12. Ein Merkmal eines Produktes aus einer laufenden Fertigung sei normalverteilt mit dem bekannten Erwartungswert 80. Um sich gegen eine zu große Streuung des Merkmals zu sch¨ utzen, wird st¨ undlich eine Stichprobe vom Umfang n = 7 der laufenden Fertigung entnommen. Eine Varianz von σ 2 = 4 gilt als tolerabel. Ein unn¨otiger Eingriff in den Fertigungsprozess soll h¨ochstens mit einer Wahrscheinlichkeit von f¨ unf Prozent erfolgen. F¨ uhren Sie den geeigneten Test f¨ ur die folgende Stichprobe durch: 78.8, 79.2, 80.4, 79.9, 82.6, 80.3, 79.5
202
Kapitel 8. Testtheorie
13. Sie sollen zum Niveau von α = 0.15 entscheiden, ob eine Fertigungsanlage mit einer Ausschussquote von 10 Prozent durch eine neue Anlage ersetzt werden soll. In einer Stichprobe vom Umfang n = 50 sind zwei Teile defekt. Wie lautet die Entscheidung? 14. Nach Benfords Gesetz treten die Anfangsziffern i in großen Zahlenwerken — vor allem bei Geldbetr¨agen wie etwa Bilanzen oder umfangreichen Steuererkl¨arungen — mit bestimmten Wahrscheinlichkeiten Pi auf. Anderenfalls vermuten Wirtschaftspr¨ ufer oder Steuerfahnder eine Manipulation. Pr¨ ufen Sie die folgenden H¨aufigkeiten ni einer Stichprobe von 292 Zahlen bei einem Niveau von einem Prozent auf Anpassung an diese Verteilung: 1 2 3 4 5 6 7 8 9 i ni 68 40 47 37 20 26 23 12 19 Pi 0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046 15. Aus einer laufenden Fertigung werden in regelm¨aßigen Abst¨anden Stichproben eines wichtigen Produktmerkmals gezogen. Die (bereits sortierten) Mittelwerte von zw¨olf Zeitpunkten lauten: 23.8, 24.0, 24.2, 24.3, 24.5, 24.8, 24.9, 26.4, 26.5, 26.7, 27.0, 27.1 Testen Sie mittels Anderson–Darling–Test, ob diese Werte normalverteilt sind, und zwar zum Niveau von f¨ unf Prozent und zum Niveau von einem Prozent. 16. (a) In einer linearen Regression soll der fr¨ uhzeitige Studienerfolg in Gestalt der Durchschnittsnote nach dem ersten Studienabschnitt (Y ) durch die Durchschnittsnote der Hochschulzugangsberechtigung (X) erkl¨art werden. Dazu werden die entsprechenden Noten von 63 Studierenden erfasst. Ein Computerprogramm liefert den Sch¨atzwert und seine Standardabweichung, den sogenannten Standardfehler : (b = 0.330137
Sb = 0.120086
Testen Sie zu den Niveaus von α = 0.01 und α = 0.005 die Hypothese, dass die HZB–Note keinen linearen Einfluss auf den fr¨ uhzeitigen Studienerfolg hat. (b) Als Regressor dient nun die Schulabschlussnote in Mathematik. F¨ uhren Sie dieselben Tests durch, wenn das Programm folgende Werte liefert: (b = 0.242563
Sb = 0.072859
Anhang
1. Verteilungsfunktion Φ(x) der Standardnormalverteilung 2. Perzentilsfunktion Φ−1 (p) der Standardnormalverteilung 3. Approximative Berechnung von Φ(x) 4. Approximative Berechnung von Φ−1 (p) 5. Approximative Berechnung von χ2n,p 6. Approximative Berechnung von tn,p
Anhang
204 1. Verteilungsfunktion Φ(x) der Standardnormalverteilung 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000
0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000
0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000
Beispiel: Φ(1.93) = Φ(1.9 + 0.03) = 0.9732 F¨ ur x < 0 gilt: Φ(x) = 1 − Φ(−x) Beispiel: Φ(−1.79) = 1 − Φ(1.79) = 1 − Φ(1.7 + 0.09) = 1 − 0.9633 = 0.0367
Anhang
205
2. Perzentilsfunktion Φ−1 (p) der Standardnormalverteilung 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99
0.000 0.0000 0.0251 0.0502 0.0753 0.1004 0.1257 0.1510 0.1764 0.2019 0.2275 0.2533 0.2793 0.3055 0.3319 0.3585 0.3853 0.4125 0.4399 0.4677 0.4959 0.5244 0.5534 0.5828 0.6128 0.6433 0.6745 0.7063 0.7388 0.7722 0.8064 0.8416 0.8779 0.9154 0.9542 0.9945 1.0364 1.0803 1.1264 1.1750 1.2265 1.2816 1.3408 1.4051 1.4758 1.5548 1.6449 1.7507 1.8808 2.0537 2.3263
0.001 0.0025 0.0276 0.0527 0.0778 0.1030 0.1282 0.1535 0.1789 0.2045 0.2301 0.2559 0.2819 0.3081 0.3345 0.3611 0.3880 0.4152 0.4427 0.4705 0.4987 0.5273 0.5563 0.5858 0.6158 0.6464 0.6776 0.7095 0.7421 0.7756 0.8099 0.8452 0.8816 0.9192 0.9581 0.9986 1.0407 1.0848 1.1311 1.1800 1.2319 1.2873 1.3469 1.4118 1.4833 1.5632 1.6546 1.7624 1.8957 2.0749 2.3656
0.002 0.0050 0.0301 0.0552 0.0803 0.1055 0.1307 0.1560 0.1815 0.2070 0.2327 0.2585 0.2845 0.3107 0.3372 0.3638 0.3907 0.4179 0.4454 0.4733 0.5015 0.5302 0.5592 0.5888 0.6189 0.6495 0.6808 0.7128 0.7454 0.7790 0.8134 0.8488 0.8853 0.9230 0.9621 1.0027 1.0450 1.0893 1.1359 1.1850 1.2372 1.2930 1.3532 1.4187 1.4909 1.5718 1.6646 1.7744 1.9110 2.0969 2.4089
0.003 0.0075 0.0326 0.0577 0.0828 0.1080 0.1332 0.1586 0.1840 0.2096 0.2353 0.2611 0.2871 0.3134 0.3398 0.3665 0.3934 0.4207 0.4482 0.4761 0.5044 0.5330 0.5622 0.5918 0.6219 0.6526 0.6840 0.7160 0.7488 0.7824 0.8169 0.8524 0.8890 0.9269 0.9661 1.0069 1.0494 1.0939 1.1407 1.1901 1.2426 1.2988 1.3595 1.4255 1.4985 1.5805 1.6747 1.7866 1.9268 2.1201 2.4573
0.004 0.0100 0.0351 0.0602 0.0853 0.1105 0.1358 0.1611 0.1866 0.2121 0.2378 0.2637 0.2898 0.3160 0.3425 0.3692 0.3961 0.4234 0.4510 0.4789 0.5072 0.5359 0.5651 0.5948 0.6250 0.6557 0.6871 0.7192 0.7521 0.7858 0.8204 0.8560 0.8927 0.9307 0.9701 1.0110 1.0537 1.0985 1.1455 1.1952 1.2481 1.3047 1.3658 1.4325 1.5063 1.5893 1.6849 1.7991 1.9431 2.1444 2.5121
0.005 0.0125 0.0376 0.0627 0.0878 0.1130 0.1383 0.1637 0.1891 0.2147 0.2404 0.2663 0.2924 0.3186 0.3451 0.3719 0.3989 0.4261 0.4538 0.4817 0.5101 0.5388 0.5681 0.5978 0.6280 0.6588 0.6903 0.7225 0.7554 0.7892 0.8239 0.8596 0.8965 0.9346 0.9741 1.0152 1.0581 1.1031 1.1503 1.2004 1.2536 1.3106 1.3722 1.4395 1.5141 1.5982 1.6954 1.8119 1.9600 2.1701 2.5758
0.006 0.0150 0.0401 0.0652 0.0904 0.1156 0.1408 0.1662 0.1917 0.2173 0.2430 0.2689 0.2950 0.3213 0.3478 0.3745 0.4016 0.4289 0.4565 0.4845 0.5129 0.5417 0.5710 0.6008 0.6311 0.6620 0.6935 0.7257 0.7588 0.7926 0.8274 0.8633 0.9002 0.9385 0.9782 1.0194 1.0625 1.1077 1.1552 1.2055 1.2591 1.3165 1.3787 1.4466 1.5220 1.6072 1.7060 1.8250 1.9774 2.1973 2.6521
0.007 0.0175 0.0426 0.0677 0.0929 0.1181 0.1434 0.1687 0.1942 0.2198 0.2456 0.2715 0.2976 0.3239 0.3505 0.3772 0.4043 0.4316 0.4593 0.4874 0.5158 0.5446 0.5740 0.6038 0.6341 0.6651 0.6967 0.7290 0.7621 0.7961 0.8310 0.8669 0.9040 0.9424 0.9822 1.0237 1.0669 1.1123 1.1601 1.2107 1.2646 1.3225 1.3852 1.4538 1.5301 1.6164 1.7169 1.8384 1.9954 2.2262 2.7478
Beispiel: Φ−1 (0.824) = Φ−1 (0.82 + 0.004) = 0.9307 F¨ ur 0 < p < 0.5 gilt: Φ−1 (p) = −Φ−1 (1 − p) −1 Beispiel: Φ (0.1) = −Φ(0.9) = −Φ(0.90 + 0.000) = −1.2816
0.008 0.0201 0.0451 0.0702 0.0954 0.1206 0.1459 0.1713 0.1968 0.2224 0.2482 0.2741 0.3002 0.3266 0.3531 0.3799 0.4070 0.4344 0.4621 0.4902 0.5187 0.5476 0.5769 0.6068 0.6372 0.6682 0.6999 0.7323 0.7655 0.7995 0.8345 0.8705 0.9078 0.9463 0.9863 1.0279 1.0714 1.1170 1.1650 1.2160 1.2702 1.3285 1.3917 1.4611 1.5382 1.6258 1.7279 1.8522 2.0141 2.2571 2.8782
0.009 0.0226 0.0476 0.0728 0.0979 0.1231 0.1484 0.1738 0.1993 0.2250 0.2508 0.2767 0.3029 0.3292 0.3558 0.3826 0.4097 0.4372 0.4649 0.4930 0.5215 0.5505 0.5799 0.6098 0.6403 0.6713 0.7031 0.7356 0.7688 0.8030 0.8381 0.8742 0.9116 0.9502 0.9904 1.0322 1.0758 1.1217 1.1700 1.2212 1.2759 1.3346 1.3984 1.4684 1.5464 1.6352 1.7392 1.8663 2.0335 2.2904 3.0902
Anhang
206 3. Approximative Berechnung von Φ(x) Φ(x)
≈
1−
exp(−x2 /2) √ ·(b1 t + b2 t2 + b3 t3 + b4 t4 + b5 t5 ) 2π φ(x)
f¨ ur x ≥ 0 mit b2 = −0.356563782 b4 = −1.821255978 t = 1/(1 + 0.2316419 · x)
b1 = 0.319381530 b3 = 1.781477937 b5 = 1.330274429 7.5 · 10−8
maximaler Fehler:
(vgl. Abramowitz, M., Stegun, A.: Handbook of Mathematical Functions. Dover Publications, Inc., New York, 10. Aufl. 1978, S. 932) Beispiele: x 1.280 1.645 2.330 2.580
φ(x) 0.17584743 0.10311081 0.02642649 0.01430511
t 0.77130631 0.72408626 0.64946636 0.62592476
Φ(x) 0.89972737 0.95001511 0.99009695 0.99505995
4. Approximative Berechnung von Φ−1 (p) Φ−1 (p)
≈
c0 + c1 t + c2 t 2 −t 1 + d1 t + d2 t2 + d3 t3
f¨ ur p ≤ 0.5 mit c0 c1 c2 t maximaler Fehler:
= 2.515517 = 0.802853 = 0.010328 = ln(1/p2 )
d1 = 1.432788 d2 = 0.189269 d3 = 0.001308
4.5 · 10−4
(vgl. Abramowitz, M., Stegun, A.: Handbook of Mathematical Functions. Dover Publications, Inc., New York, 10. Aufl. 1978, S. 933) Beispiele: p 0.100 0.050 0.010 0.005
t 2.1460 2.4477 3.0349 3.2552
Φ−1 (p) −1.2817 −1.6452 −2.3268 −2.5762
Anhang
207
5. Approximative Berechnung von χ2n,p χ2n,p
=
n · 1 + a1 n−1/2 + a2 n−2/2 + · · · + a7 n−7/2 + ε(n, p)
f¨ ur n > 1 mit p a1 a2 a3 a4 a5 a6 a7
0.100 −1.81239 0.42825 0.54205 −0.04995 0.13111 −0.23636 0.00000
0.050 −2.32617 1.13703 0.56379 −0.22923 0.37667 −0.92933 0.39809
0.025 −2.77181 1.89431 0.50313 −0.46982 0.66612 −1.86469 1.05253
0.010 −3.28995 2.94126 0.30190 −0.71105 0.48838 −2.49181 1.83206
0.005 −3.64277 3.75660 0.05684 −0.70061 −0.59715 −1.62036 1.87472
0.950 2.32617 1.13703 −0.55481 −0.11690 0.02920 0.02077
0.975 2.77181 1.89431 −0.48734 −0.25317 0.09826 0.00000
0.990 3.28995 2.94126 −0.30314 −0.44886 0.15575 0.00000
0.995 3.64277 3.75660 −0.09869 −0.63648 0.21540 0.00000
beziehungsweise p a1 a2 a3 a4 a5 a6
0.900 1.81239 0.42815 −0.52961 −0.06590 0.06036 0.00000
maximaler relativer Fehler:
|ε(n, p)/χ2n,p | < 0.00005
(vgl. Bukaˇc, J., Burstein, H.: Approximations of Student’s t and Chi–square percentage points. Communications in Statistics — Simulation and Computation B9(6) 1980, S. 669–670) 6. Approximative Berechnung von tn,p tn,p p b0 b1 b2 b3 b4 b5 b6
=
0.900 1.28155 0.84658 0.57432 0.22086 0.15426 0.00000 0.00000
b0 + b1 /n + b2 /n2 + · · · + b6 /n6 + ε(n, p) 0.950 1.64485 1.52377 1.41902 1.00507 0.32789 0.39338 0.00000
maximaler relativer Fehler:
0.975 1.95996 2.37227 2.80775 2.76386 0.69551 2.10650 0.00000
0.990 2.32635 3.72907 5.72289 6.61349 6.61683 −0.22569 7.03691
mit 0.995 2.57583 4.91655 8.86832 11.35729 17.92627 −9.45008 27.46120
|ε(n, p)/tn,p | < 0.00005
(vgl. Bukaˇc, J., Burstein, H.: Approximations of Student’s t and Chi–square percentage points. Communications in Statistics — Simulation and Computation B9(6) 1980, S. 668)
Literaturverzeichnis Bamberg, G., Baur, F. und M. Krapp: Statistik. Oldenbourg Verlag, M¨ unchen, 16. Aufl. 2011. Cleff, Th.: Deskriptive Statistik und moderne Datenanalyse. Gabler Verlag, Wiesbaden, 2. Aufl. 2011. Fahrmeir, L., Hamerle, A. und G. Tutz: Multivariate statistische Verfahren. de Gruyter Verlag, Berlin, 2. Aufl. 1996. Rinne, H.: Statistische Analyse multivariater Daten. Oldenbourg Verlag, M¨ unchen 2000. ¨ Rinne, H.: Okonometrie. Vahlen Verlag, M¨ unchen 2004. Rinne, H.: Taschenbuch der Statistik. Verlag Harri Deutsch, Frankfurt, 4. Aufl. 2008. Schira, J.: Statistische Methoden der VWL und BWL — Theorie und Praxis. Pearson Studium, M¨ unchen, 3. Aufl. 2009. ¨ von Auer, L.: Okonometrie: Eine Einf¨ uhrung. Springer Verlag, Berlin, 5. Aufl. 2011. Wewel, M.C.: Statistik im Bachelor-Studium der BWL und VWL. Pearson Studium, M¨ unchen 2006. ¨ Winker, P.: Empirische Wirtschaftsforschung und Okonometrie. Springer Verlag, Berlin, 3. Aufl. 2010.
Stichwortverzeichnis χ2 –Verteilung, 154 χ2 –Maß, 64 t–Verteilung, 156 5-Zahlen-Zusammenfassung, 52 a posteriori–Wahrscheinlichkeiten, 102 a priori–Wahrscheinlichkeiten, 102 Abh¨angigkeit lineare, 71 Abweichung mittlere absolute, 46 mittlere quadratische, 46 Alternative, 181 Alternativhypothese, 181 Anpassungstest, 192 Assoziationsmaße, 64 Auswahleinheit, 3 Bayes, 101 Bedingung, 98 Befragung, 12 Beobachtung, 13 Beobachtungsmatrix, 58 Bernoulli–Verteilung, 138 Bestandsmasse, 4 Bewegungsmasse, 4 Bindungen, 68 Binomialverteilung, 139 bivariat, 15 BLUE–Sch¨atzer, 167 Box-Plot, 52 Datenaufbereitung, 13 Datengewinnung, 13 Datenkontrolle, 14 dichotom, 137
Dichte, 119 gemeinsame, 127 Dichtefunktion, 119 Differenz, 90 symmetrische, 90 Durchschnitt, 90 Effizienz, 166 Einfallsklasse, 32, 35 Elementarereignis, 88 Ereignis, 88 fast sicheres, 95 fast unm¨ogliches, 95 sicheres, 89 unm¨ogliches, 89 Ergebnis, 88 Ergebnisraum, 88 erwartungstreu, 163 Erwartungstreue, 163 Erwartungswert, 115, 120 Experiment, 13 Exponentialverteilung, 148 Fehler 1. Art, 182 Fehler 2. Art, 182 five-digit-display, 52 Fl¨ ugelklassen offene, 30 Formel von Bayes, 101 Funktionalparameter, 115 Funktionsparameter, 136 Gauss-Klammer-Funktion, 35 Geometrische Verteilung, 141 Gleichverteilung diskrete, 136
212 Grundgesamtheit, 3 H¨aufigkeit absolute, 25 bedingte, 62 gemeinsame, 58 kumulierte absolute, 26 prozentuale, 25 relative, 25 H¨aufigkeitsdichte, 30 H¨aufigkeitstabelle zweidimensional, 58 Herfindahl-Maß, 49 normiertes, 50 Hilfsmerkmal, 8 Histogramm, 30 Homogenit¨atstest, 188 Hypergeometrische Verteilung, 142 Identifikationsmerkmal, 8 Kardinalskala, 6 Klassen ¨aquidistante, 30 a¨quifrequente, 30 Klassenbildung, 29 Klassenbreite, 29 Kleinst–Quadrate–Methode, 77 Kolmogorov–Axiome, 94 Komplement, 90 Konfidenzintervall, 172 Konfidenzniveau, 173 Konsistenz einfache, 165 Kontingenzkoeffizient – Cram´er, 66 Kontingenztabelle, 58 Korrekturfaktor, 143 Korrelationsanalyse, 68, 72 Korrelationskoeffizient, 125, 129 Bravais–Pearson, 72 Kovarianz, 70, 117, 125, 128 Kreisdiagramm, 25 Kurtosis, 51 L¨angsschnittreihe, 15 Lageregel, 50
Stichwortverzeichnis leptokurtisch, 51 Likelihood–Funktion, 169 linkssteil, 50 Loglikelihood–Funktion, 169 Maximum–Likelihood–Sch¨atzer, 169 Median, 33, 117 Mediantreue, 165 Merkmal, 5 dichotomes, 6 diskretes, 9 extensives, 9 h¨aufbares, 8 intensives, 9 polytomes, 6 quasistetiges, 9 stetiges, 9 trichotomes, 6 Merkmalsauspr¨agung, 5 Merkmalstr¨ager, 3 mesokurtisch, 52 Mittel α-getrimmtes, 41 α-winsorisiertes, 41 arithmetisches, 39 geometrisches, 42 harmonisches, 42 ML–Sch¨atzer, 169 Modalwert, 117, 122 Modus, 38, 117, 122 Momente empirische, 36 Momentensch¨atzer, 168 MSE–Konsistenz, 166 Multinomialverteilung, 144 Multiplikationssatz allgemeiner, 100 multivariat, 15 Negative Binomialverteilung, 141 Nominalmerkmal, 25 Nominalskala, 6 Normalverteilung, 149 Nullhypothese, 180 einfache, 180
Stichwortverzeichnis zusammengesetzte, 180 Ordinalmerkmal, 26 Ordinalskala, 6 Panel, 15 Perzentil, 33, 117, 122 Perzentilsabstand zentraler, 45 Perzentilsordnung, 117 platykurtisch, 52 Poisson–Verteilung, 144 polytom, 137 Posterior–Wahrscheinlichkeiten, 102 Potenzmenge, 89 Pr¨adikatsmerkmal, 8 Prim¨ardatenerhebung, 12 Prim¨arereignis, 98 Prior–Wahrscheinlichkeiten, 102 Punktsch¨atzung, 162 Quadratische Kontingenz, 64 mittlere, 66 Quartil oberes, 33, 117 unteres, 33, 117 Quartilsabstand, 45 Querschnittsreihe, 15 Randdichte, 127 Randverteilung, 59 Randwahrscheinlichkeiten, 123 Rangkorrelationskoeffizient–Spearman, 67 Rangzahlen, 68 Realisation, 88 Rechteckverteilung, 147 rechtssteil, 50 Regressand, 75 Regression, 75 Regressionsfunktion, 75 Regressionsgerade, 77 Regressionsrechnung, 75 Regressoren, 75 Residuen, 77 Rotation, 15 Sch¨atzer, 162
213 Sch¨atzfunktion, 162 Sch¨atzung, 162 Sch¨atzwert, 162 Schwankungsintervall zentrales, 171 Sekund¨arstatistik, 13 Signifikanzniveau, 182 empirisches, 185 kritisches, 185 Signifikanztest, 180 Spannweite, 45 Stabdiagramm, 25 Standardabweichung, 47, 116, 121 Standardnormalverteilung, 150 Statistik allgemeine, 2 amtliche, 2 deskriptive, 2 induktive, 2 nichtamtliche, 2 spezielle, 2 Stichprobe, 4 Stichprobenvarianz, 164 stochastisch unabh¨angig, 103, 124, 128 Streudiagramm, 69 Strukturbruch, 81 Student–Verteilung, 156 Teilerhebung, 12 Teilgesamtheit, 4 Test einseitiger, 181 zweiseitiger, 181 total unabh¨angig, 106 Unabh¨angigkeit statistische, 62, 64 stochastische, 103 totale, 106 Unabh¨angigkeitstest, 190 Unabh¨angigkeitszahlen, 190 unbiased, 163 Ungleichungen verteilungsfreie, 130 univariat, 15
214 unkorreliert, 129 unverzerrt, 163 Urliste, 24 Varianz, 46, 116, 121 externe, 48 interne, 48 Varianzzerlegung, 48 Variationskoeffizient, 49 Venn–Diagramm, 89 Vereinigung, 89 Verschiebungssatz, 116, 121 Verschiebungssatz der Kovarianz, 125 Verteilung absolute, 25 relative, 25 Verteilungsfunktion, 114, 118 empirische, 26, 31 gemeinsame, 61, 123, 126 Vertrauensbereich, 172 Verzerrung, 163 Vollerhebung, 12 Wahrscheinlichkeit bedingte, 98 Wahrscheinlichkeitsbegriff axiomatischer, 94 frequentistischer, 93 klassischer, 91 Wahrscheinlichkeitsfunktion, 113 gemeinsame, 123 Wahrscheinlichkeitsmaß, 91 Wahrscheinlichkeitsrechnung, 2 Zeitreihe, 15 Zentraler Grenzwertsatz, 153 Zerlegung, 96 Zufallsexperiment, 88 Zufallsvariable, 111 diskrete, 113 stetige, 118 Zufallsvariablen diskrete bivariate, 123 stetige bivariate, 126
Stichwortverzeichnis