197 54 3MB
German Pages [434] Year 2012
Managementwissen für Studium und Praxis
Herausgegeben von Prof. Dr. Dietmar Dorn und Prof. Dr. Rainer Fischbach Lieferbare Titel: Anderegg: Grundzüge der Geldtheorie und Geldpolitik Arrenberg, Kiy, Knobloch, Lange: Vorkurs Mathematik Barth, Barth: Controlling Behrens, Kirspel: Grundlagen der Volkswirtschaftslehre Behrens, Hilligweg, Kirspel: Übungsbuch zur Volkswirtschaftslehre Behrens: Makroökonomie – Wirtschaftspolitik Bontrup: Lohn und Gewinn Bontrup: Volkswirtschaftslehre Bradtke: Mathematische Grundlagen für Ökonomen Bradtke: Statistische Grundlagen für Ökonomen Busse: Betriebliche Finanzwirtschaft Camphausen: Strategisches Management Dinauer: Grundzüge des Finanzdienstleistungsmarktes Dorn, Fischbach, Letzner: Volkswirtschaftslehre Dorsch: Abenteuer Wirtschaft, 40 Fallstudien mit Lösungen Drees-Behrens, Kirspel, Schmidt, Schwanke: Aufgaben und Fälle zur Finanzmathematik, Investition und Finanzierung Drees-Behrens, Schmidt: Aufgaben und Fälle zur Kostenrechnung Fischbach, Wollenberg: Volkswirtschaftslehre 1 Götze: Grafische und empirische Techniken des Business-Forecasting Gohout: Operations Research Haas: Excel im Betrieb Hans: Grundlagen der Kostenrechnung Heine, Herr: Volkswirtschaftslehre Koch: Marktforschung Koch: Betriebswirtschaftliches Kosten- und
Leistungscontrolling in Krankenhaus und Pflege Laser: Basiswissen Volkswirtschaftslehre Martens: Statistische Datenanalyse mit SPSS für Windows Mensch: Finanz-Controlling Peto: Grundlagen der Makroökonomik Piontek: Controlling Piontek: Beschaffungscontrolling Plümer: Logistik und Produktion Posluschny: Basis Mittelstandscontrolling Posluschny: Kostenrechnung für die Gastronomie Rau: Planung, Statistik und Entscheidung – Betriebswirtschaftliche Instrumente für die Kommunalverwaltung Rudolph: Tourismus-Betriebswirtschaftslehre Rüth: Kostenrechnung, Band I Rüth: Kostenrechnung, Band II Scharnbacher, Kiefer: Kundenzufriedenheit Schuster: Kommunale Kosten- und Leistungsrechnung Schuster: Doppelte Buchführung für Städte, Kreise und Gemeinden Specht, Schweer, Ceyp: Markt- und Ergebnisorientierte Unternehmensführung Stender-Monhemius: Marketing – Grundlagen mit Fallstudien Stibbe: Kostenmanagement Strunz, Dorsch: Management Strunz, Dorsch: Internationale Märkte Weeber: Internationale Wirtschaft Wilde: Plan- und Prozesskostenrechnung Wilhelm: Prozessorganisation Wörner: Handels- und Steuerbilanz nach neuem Recht Zwerenz: Statistik Zwerenz: Statistik verstehen mit Excel – Buch mit Excel-Downloads
Statistik
Einführung in die computergestützte Datenanalyse von
Prof. Dr. Karlheinz Zwerenz Hochschule München
5., überarbeitete Auflage
Oldenbourg Verlag München
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2011 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Dr. Stefan Giesen Herstellung: Constanze Müller Titelbild: thinkstockphotos.de Einbandgestaltung: hauser lacour Gesamtherstellung: Grafik + Druck GmbH, München Dieses Papier ist alterungsbeständig nach DIN/ISO 9706. ISBN 978-3-486-70769-4
Inhalt Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt
XI XII XII
TEIL I
GRUNDLAGEN
1
1. 1.1 1.2 1.3 1.4
Statistik als Wissenschaft Statistik im System der Wissenschaften Statistik: Begriff und praktische Bedeutung Das Statistik-Projekt Die statistische Datenanalyse
1 1 3 4 7
2. 2.1 2.2 2.2.1 2.2.2 2.2.3 2.3 2.3.1 2.3.2
Statistik am PC mit EXCEL und SPSS Motivation zur computergestützten Statistik Computerprogramme für die statistische Analyse Statistik als Zusatzfunktion Statistik im Programmpaket Interaktive statistische Analyse Grundkenntnisse der PC-gestützten Statistik Statistik mit EXCEL Statistik mit SPSS
9 9 10 11 11 12 13 13 18
3. 3.1 3.1.1 3.1.2 3.1.2.1 3.1.2.2 3.1.2.3 3.2
Präsentation statistischer Ergebnisse Grundformen der Ergebnisdarstellung Tabelle Grafik Grundformen der statistischen Grafik Regionalgrafik Spezielle statistische Grafiken Interaktive Ergebnispräsentation
23 23 23 27 28 33 35 37
4. 4.1 4.2 4.3
Statistik im Projekt Das Statistik-Projekt Ein Master-Projekt als Beispiel Bedeutung des Master-Projekts für dieses Lehrbuch
41 41 44 48
5. 5.1 5.2 5.3 5.4 5.5 5.6
Grundbegriffe der Statistik Statistische Gesamtheit und statistisches Element Variable und Wert Variablentypen und -skalen Variablentyp und statistische Analyse Variablentypen in EXCEL und SPSS Grundbegriffe und Variablentypen im Master-Projekt
49 49 50 51 55 55 56
VI
Inhalt
TEIL II
EINDIMENSIONALE DESKRIPTIVE STATISTIK
59
6. 6.1 6.2 6.3 6.4 6.5 6.5.1 6.5.2 6.5.3
Eindimensionale Häufigkeitsverteilung Häufigkeitsverteilung Arbeitstabelle – Symbole – Formeln Eindimensionale Häufigkeitsverteilung am PC Interpretation der Häufigkeitsverteilung Typen und Vergleiche von Verteilungen Typen von Verteilungen Verteilung sortiert nach Häufigkeiten Vergleich von Verteilungen
59 59 62 65 69 71 71 74 76
7. 7.1 7.2 7.3 7.4
Klassierte Häufigkeitsverteilung Klassierung von Häufigkeitsverteilungen Arbeitstabelle – Symbole – Formeln Klassierte Häufigkeitsverteilung am PC Vergleich von Verteilungen
77 77 80 81 86
8. 8.1 8.2 8.3 8.4 8.5 8.6 8.7
Lageparameter Lage einer Verteilung Modus Median Quantile Arithmetisches Mittel Geometrisches Mittel Bedeutung und Interpretation von Lageparametern
88 88 91 94 98 99 105 107
9. 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.7.1 9.7.2
112 112 114 115 117 118 120 124 124 125
9.8 9.9 9.10 9.10.1 9.10.2
Streuungsparameter Streuung einer Verteilung Spannweite Quantilsabstände Durchschnittliche absolute Abweichung vom Zentralwert Durchschnittliche absolute Abweichung vom arithmetischen Mittel Varianz und Standardabweichung Varianz und Standardabweichung einer klassierten Verteilung Streuungsberechnung mit Klassenmitten Streuungsberechnung mit Klassenmittelwerten (Streuungszerlegung) Relative Streuungsmaße Spezielle Darstellungen der Streuung am PC Bedeutung und Interpretation der Streuungsparameter Gemeinsame Interpretation von Streuung und Lage Streuung und Lage in Verteilungsvarianten
127 129 131 131 132
10. 10.1 10.2 10.2.1 10.2.2
Parameter der Schiefe und der Konzentration Schiefe einer Verteilung Konzentration einer Verteilung Absolute Konzentration Relative Konzentration
135 135 140 140 145
Inhalt
VII
11. 11.1 11.1.1 11.1.2 11.2
Transformation und Standardisierung Transformation Methoden der Transformation Auswirkung der linearen Transformation auf Lage und Streuung Standardisierung
149 149 149 155 156
12. 12.1 12.2 12.3 12.4 12.5
Verhältniszahlen (Relative Kennzahlen) Arten und Bedeutung von Verhältniszahlen Gliederungszahlen Beziehungszahlen Messzahlen Mittelwerte von Verhältniszahlen
162 162 163 165 169 172
13. 13.1 13.2 13.3 13.4 13.5 13.6 13.7 13.8 13.9 13.10 13.11 13.12
Indexzahlen Grundlagen und Bedeutung von Indexzahlen Ungewogene Indexzahlen Symbole und Formeln zu den Indexzahlen Preisindizes nach Laspeyres und nach Paasche Preisindex von Laspeyres als Mittelwert von Preismesszahlen Preisindizes nach Lowe und nach Fisher Mengenindizes nach Laspeyres und nach Paasche Wertindex Verbraucherpreisindex (Preisindex der Lebenshaltung) Umbasierung und Verkettung von Indexreihen Preisbereinigung Indexberechnung am PC
174 174 175 177 178 180 183 185 186 187 190 193 196
TEIL III
ZWEIDIMENSIONALE DESKRIPTIVE STATISTIK
199
14. 14.1 14.1.1 14.1.2 14.2
Zweidimensionale Häufigkeitsverteilung Häufigkeitsverteilung Zweidimensionale Verteilung bei quantitativen Variablen Zweidimensionale Verteilung bei qualitativen Variablen Grafische Darstellung der zweidimensionalen Verteilung
199 199 199 204 205
15. 15.1 15.2 15.3 15.4 15.4.1 15.4.2 15.5 15.6
Zusammenhang bei quantitativen Variablen Messung des Zusammenhangs Kovarianz als Basis quantitativer Zusammenhangsmaße Korrelationsanalyse Regressionsanalyse Methode der kleinsten Quadrate (KQ-Methode) Berechnung der Regressionsparameter Regressionsgerade und Prognose Multiple und nichtlineare Regression
208 208 209 214 220 220 222 227 228
16. 16.1 16.2 16.3 16.4 16.5
Zusammenhang bei qualitativen Variablen Rangkorrelation nach Spearman Chi-Quadrat als Basis qualitativer Zusammenhangsmaße Qualitative Zusammenhangsmaße Qualitative Zusammenhangsmaße mit EXCEL und SPSS Spezielle grafische Darstellungen
229 229 232 237 238 239
VIII
Inhalt
17. 17.1 17.2 17.2.1 17.2.2 17.3 17.4 17.5 17.6 17.7 17.8
Zeitreihenanalyse Zeitreihen und ihre Komponenten Glatte Komponente Regressionsgerade Gleitende Durchschnitte Saisonkomponente und Restkomponente Saisonbereinigung Prognose Exponentielle Glättung Einfache Berechnungen für Zeitreihen Spezielle grafische Darstellungen
241 241 245 246 251 254 256 258 259 262 263
TEIL IV
GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG
265
18. 18.1 18.2 18.3 18.4 18.5
Zufallsexperiment und Wahrscheinlichkeit Zufallsexperiment Ergebnisse und Ereignisse Wahrscheinlichkeit Regeln der Wahrscheinlichkeitsrechnung Kombinatorik
265 265 268 271 275 280
19. 19.1 19.2 19.3 19.4 19.5
Zufallsvariablen und ihre Verteilungen Zufallsvariable Verteilungen diskreter Zufallsvariablen Verteilungen stetiger Zufallsvariablen Lage- und Streuungsparameter Besonderheiten bei qualitativen Variablen
284 284 287 292 294 299
20. 20.1 20.2 20.3
Spezielle diskrete Verteilungen Binomialverteilung Hypergeometrische Verteilung Poissonverteilung
301 301 309 313
21. 21.1 21.2 21.3 21.4
Spezielle stetige Verteilungen Normalverteilung Chi-Quadrat-Verteilung t-Verteilung F-Verteilung
317 317 328 330 332
22. 22.1 22.2 22.3 22.4 22.4.1 22.4.2
Approximationen und Grenzwertsätze Approximation zwischen diskreten Verteilungen Approximation zwischen diskreten und stetigen Verteilungen Approximation zwischen stetigen Verteilungen Grenzwertsätze Zentraler Grenzwertsatz Grenzwertsatz von DeMoivre-Laplace
335 335 338 342 343 343 345
TEIL V
GRUNDLAGEN DER INDUKTIVEN STATISTIK
347
23. 23.1
Punktschätzung Ziele und Aufgaben der induktiven Statistik
347 347
Inhalt
IX
23.2 23.3 23.4 23.5
Zufallsstichproben und Stichprobenvariablen Schätzfunktionen und ihre Eigenschaften Interpretation der Punktschätzung Punktschätzung mit EXCEL und SPSS
348 352 354 355
24. 24.1 24.2 24.3 24.4 24.5 24.6
Intervallschätzung Grundlagen und Ablauf der Intervallschätzung Konfidenzintervalle für quantitative Variablen Konfidenzintervalle für qualitative Variablen Korrekturfaktor bei endlichen Gesamtheiten Notwendiger Stichprobenumfang Intervallschätzung mit EXCEL und SPSS
357 357 360 364 365 366 367
25. 25.1 25.2 25.3
Hypothesentest Grundlagen und Ablauf des Hypothesentests Hypothesen beim ein- und zweiseitigen Test Testgrößen mit standardisiertem und unstandardisiertem Ablehnungsbereich Fehler beim Hypothesentest Testentscheidung und Interpretation
369 369 371 374
25.4 25.5 26. 26.1 26.1.1 26.1.2 26.1.3 26.2 26.3 26.4 26.5 26.6 26.6.1 26.6.2 26.6.3
Ausgewählte Testverfahren Hypothesentest für Parameter quantitativer Variablen Test für den Erwartungswert einer Normalverteilung bei bekannter Varianz der Grundgesamtheit Test für den Erwartungswert einer Normalverteilung bei unbekannter Varianz der Grundgesamtheit (t-Test) Test für den Erwartungswert bei unbekannter Varianz der Grundgesamtheit und hinreichend großer Stichprobe Hypothesentest für den Anteilswert qualitativer Variablen Chi-Quadrat-Anpassungstest (Test auf Verteilung) Chi-Quadrat-Unabhängigkeitstest Test auf linearen Zusammenhang (F-Test) Hypothesentest mit EXCEL und SPSS Besonderheiten des Hypothesentests am PC Grundlegende Tests am PC Ergänzende Testverfahren am PC
375 376 377 377 377 379 380 382 384 386 388 390 390 392 396
Anhang 1 Verzeichnis zum Master-Projekt
399
Anhang 2 A 2.1 A 2.2 A 2.3 A 2.4
401 401 403 404 404
Mathematische Grundlagen Summenzeichen Summen mit EXCEL und SPSS Produktzeichen Fakultät und Binomialkoeffizient
Anhang 3 Tabellen
407
Literatur + Datenquellen
417
Stichwortverzeichnis
419
Vorwort Dieses Lehrbuch bietet dem Leser – dem Studierenden und dem praktischen Anwender der Statistik – eine übersichtliche und umfassende Einführung in die statistische Methodenlehre und in die computergestützte Datenanalyse, wobei als Anwendungsprogramme EXCEL und SPSS zum Einsatz kommen: - Die statistischen Methoden sind mit konkreten Berechnungsbeispielen und zahlreichen grafischen Darstellungen anschaulich beschrieben. - Zu Beginn jedes Kapitels bereiten Leitfragen das aktive Erlernen der Formeln und Methoden vor. - Ein Master-Projekt, das die einzelnen Kapitel und Abschnitte in Form von Berechnungsbeispielen wie ein roter Faden durchläuft, verdeutlicht Ziele, Inhalt und praktische Anwendung der statistischen Methoden. - Die zahlreichen Erläuterungen und Hinweise zum Einsatz der beiden Computerprogramme EXCEL und SPSS erleichtern den Zugang zur Statistik mit zeitgemäßer Softwareanwendung. EXCEL und SPSS werden eingesetzt, weil sie zu den Standardprodukten der PCgestützten Statistik gehören. Sie sind an jeder Hochschule und an vielen Arbeitsplätzen verfügbar. EXCEL hat seine Stärken in der einfachen Anwendungsoberfläche und dem leichten Zugang zu statistischen Berechnungen. SPSS ist ein leicht zu bedienendes Programmpaket für die umfassende Anwendung einfacher und komplexer statistischer Methoden mit großen Datenmengen. Beide Programme bieten gute Möglichkeiten der modernen Präsentation statistischer Ergebnisse. Dieses Lehrbuch soll das Verständnis für die Grundlagen und die Anwendbarkeit der gängigen statistischen Methoden fördern. Die frühzeitige und selbständige PCAnwendung der Statistik vertieft die Methodenkenntnis und bereitet den regelmäßigen Umgang mit den PC-Programmen vor. Und schließlich soll dadurch Interesse an der Statistik insgesamt geweckt werden, vielleicht sogar Spaß an der Anwendung statistischer Methoden! Ein Hinweis: Zur Anwendung und Vertiefung der statistischen Methoden ist – in Ergänzung zu diesem Lehrbuch – im Oldenbourg-Verlag das Buch „Statistik verstehen mit Excel – Interaktiv lernen und anwenden“ erschienen. Hierzu werden kostenfreie Downloads von Excel-Anwendungen unter www.oldenbourg.de, Wissenschaftsverlag, Autor Zwerenz, Zusatzmaterial angeboten.
Der Autor
Hinweise zu EXCEL und SPSS Die folgenden Hinweise richten sich an die Leser, die eines der beiden Computerprogramme EXCEL oder SPSS parallel zum Studium der Methoden einsetzen. - Die Anwendungsbeispiele im Buch wurden mit den Programmen EXCEL 2010 bzw. 2003 und SPSS 17.0 (unter WINDOWS XP) erstellt. - Die wichtigsten neuen Funktionen von SPSS werden am Ende von Abschnitt 2.3.2 benannt. Außerdem finden sich dort Hinweise zum Ergebnis-Assistenten, der eine methodisch richtige Interpretation der SPSS-Ergebnisse erleichtert. - Die statistischen Methoden werden anhand ihrer klassischen Formeln erörtert. Für das selbständige Nachvollziehen der dazugehörigen Arbeitstabellen mit EXCEL finden sich Hinweise in Kapitel 2, Abschnitt 2.3.1. - Die PC-Benutzerhinweise sind im Buch jeweils fett gekennzeichnet. Neben grundlegenden Erläuterungen sind die Hinweise für das Auffinden der beschriebenen Methoden und Optionen in den Programmen gedacht. Weitere Erläuterungen finden sich in den Online-Hilfen von EXCEL oder SPSS und – insbesondere – in der zahlreich vorhandenen Spezialliteratur; siehe Literaturverzeichnis. - Alle Einzelhinweise zur Anwendung von EXCEL und SPSS können über das Stichwortverzeichnis gefunden werden!
Hinweise zum Master-Projekt - In diesem Lehrbuch wird für die Erläuterung der wichtigsten statistischen Methoden ein umfassendes Auswertungsbeispiel als „Master-Projekt“ verwendet. Dieses Master-Projekt bietet die Gelegenheit, die Anwendung der statistischen Methoden auf eine fachliche Fragestellung zu beziehen. - Die konkreten Anwendungsbeispiele des Master-Projekts sind in den einzelnen Kapiteln jeweils vollständig beschrieben. Sie können damit vom Leser unabhängig von der allgemeinen Erläuterung des Master-Projekts in Kapitel 4 nachvollzogen werden. - Zusätzlich zu den Master-Beispielen werden zahlreiche andere Anwendungsbeispiele verwendet. - Ein Gesamtverzeichnis zu den Einzelbeispielen des Master-Projekts findet sich in Anhang 1.
1
TEIL I GRUNDLAGEN
1. Statistik als Wissenschaft x Leitfragen 1) Wie ist die Statistik im System der Wissenschaften und an den Hochschulen positioniert? 2) Wie wirkt die Statistik mit anderen Disziplinen zusammen? 3) Was sind die Ziele, Aufgaben und Formen der statistischen Analyse?
1.1 Statistik im System der Wissenschaften Die Statistik ist eine formale, methodische Hilfswissenschaft. So ist sie im System der Wissenschaften und an den meisten Hochschulen positioniert. An den Hochschulen wird „Statistik für Ökonomen“, „Statistik für Psychologen“, „Statistik für Mediziner“, „Ingenieurstatistik“ gelehrt, und man könnte die Reihe noch weiter fortsetzen. Überall liefert die Statistik die mathematischen Verfahren und das methodische Werkzeug für Berechnungen und Schätzungen sowie zur Beurteilung von Strukturen und Entwicklungen. Das Lehrfach Statistik hat seinen Schwerpunkt im Grundstudium und ist häufig als Wahlpflichtfach im Hauptstudium oder in einschlägigen Seminaren vertreten. Die Statistik ist zudem in einigen speziellen Methodenfächern integriert, beispielsweise den „Quantitativen Methoden der Wirtschaftswissenschaften“ oder den „Methoden der empirischen Sozialforschung“. Nur selten (Universität München und Universität Dortmund) wird Statistik als eigenständiges Studienfach mit Möglichkeiten der Spezialisierung und dem Abschluss als Diplom-Statistiker angeboten. Die Statistik gehört zu den Formalwissenschaften, die als Teilbereich der Idealwissenschaften anzusehen sind (siehe Abb. 1.1). Im Gegensatz zu den normativen Wissenschaften, die sich mit dem Finden, Setzen und Erörtern von Werten beschäftigen, stellen die Formalwissenschaften (formalisierte) Methoden zur Verfügung, die zur Analyse und zum Erkenntnisgewinn in anderen Wissenschaften geeignet sind. Somit lässt sich speziell die Statistik als formale Hilfswissenschaft für die Realwissenschaften begreifen, die ihrerseits aus den Sozial- und den Naturwissenschaften (oder moderner: den Natur- und Kultur- bzw. Sozialwissenschaften) bestehen. Die nachfolgende Grafik zeigt die Einordnung der Statistik im traditionellen System der Wissenschaften.
Grundlagen
2
Wissenschaften
Realwissenschaften
Sozialwissenschaften
Idealwissenschaften
Naturwissenschaften
BWL / VWL Psychologie ...
Physik Chemie...
Formalwissenschaften
Statistik Mathematik ...
Normativwissenschaften
Ethik Religion ...
Abb. 1.1: Die Statistik im System der Wissenschaften
Von besonderer Bedeutung ist das Zusammenwirken der Statistik mit anderen Disziplinen, das man als einen typischen Fall interdisziplinären Denkens und Handelns ansehen kann. Das Beispiel der drei Fächer Ökonomie, Psychologie und Statistik verdeutlicht dies, wobei die nachfolgende Abbildung 1.2 die einzelnen Disziplinen und ihre Überschneidungen mit den anderen Fächern – als VennDiagramm der Mengenlehre – darstellt.
Ökonomie
Statistik
2
4 1
3
Psychologie
Abb. 1.2: Zusammenwirken dreier wissenschaftlicher Disziplinen
Zunächst zeigt das Schaubild 1.2 in insgesamt vier Überschneidungsfeldern, wie die drei Disziplinen zusammenwirken können: Feld 1 = Personalführung / Betriebspsychologie (z.B. Mitarbeitermotivation, Führungstechniken ...); Feld 2 = Ökonomische Statistik (z.B. Berechnung des Durchschnittseinkommens, Umsatzanalyse der letzten 12 Monate, Berechnung des Preisindex der Lebenshaltung ...);
1. Statistik als Wissenschaft
3
Feld 3 = Statistik für Psychologen (z.B. Auswertung einer Befragung zum Suchtverhalten Jugendlicher ...); Feld 4 = Marktforschung (z.B. Kundenbefragung nach der Zufriedenheit mit Dienstleistungen ...). Feld 3 kann auch im Sinne der folgenden Frage interpretiert werden: Welche psychologischen Auswirkungen hat ein statistisches Ergebnis? Denken wir nur an die Veröffentlichung eines Umfrageergebnisses wenige Tage vor einer Wahl: Bekommt die Partei des voraussichtlichen Wahlgewinners noch mehr Zulauf, weil viele zu den Siegern gehören wollen? Oder ist es umgekehrt so, dass Anhänger der vermeintlichen Siegerpartei gar nicht zur Wahl gehen, weil „schon alles gelaufen“ ist? Oder bekommt die Partei des vorhergesagten Verlierers aufgrund der Umfrageergebnisse zusätzliche Mitleids- und Rettungsstimmen. Die gesamte Abbildung 1.2 kann auch für die konkrete Zusammenarbeit dreier Experten (Diplom-Statistiker, Diplom-Psychologe und Diplom-Kaufmann) in einem Projektteam stehen. Nehmen wir als Beispiel das Projekt „Kundenbefragung für einen weltweiten Anbieter von Jeans“, das die Gründe für einen Umsatzrückgang untersuchen soll. Und schließlich kann die Abb. 1.2 so interpretiert werden, dass das Spezialwissen aus drei Disziplinen – vielleicht sogar konzentriert vorhanden bei einem einzigen hochqualifizierten Mitarbeiter – zusammenwirken muss, um eine bestimmte Aufgabenstellung erfolgreich zu absolvieren. Stellen wir uns dazu einen Marktforscher vor, der in seinem kleinen Beratungsunternehmen eine Umfrage unter den Patienten eines privaten Kurkrankenhauses durchführt. Hier wird ebenfalls der interdisziplinäre und auch der kommunikative Aspekt der Statistik deutlich: Der Marktforscher hat einen Auftraggeber, der mit der Befragung konkrete Ziele und einen bestimmten Erkenntnisgewinn verbindet, vielleicht sogar seinen betriebswirtschaftlichen „Gewinn“. Und der Marktforscher muss seine statistische Analyse bezogen auf die Untersuchungsziele, vor dem Hintergrund der realisierbaren Datenerhebung und mit der Absicht einer klaren Ergebnispräsentation durchführen.
1.2 Statistik: Begriff und praktische Bedeutung Der Begriff „Statistik“ – ursprünglich als Beschäftigung mit staatlichen Angelegenheiten entstanden – lässt sich aus verschiedenen Blinkwinkeln erschließen.
Statistik ist -
eine methodische Hilfswissenschaft
-
die praktische Tätigkeit der statistischen Analyse
-
das Ergebnis der Datenanalyse als Tabelle oder Grafik.
Im angelsächsischen Sprachraum verwendet man die Bezeichnung „statistics“ in derselben Mehrfachbedeutung wie im deutschsprachigen Bereich.
Grundlagen
4
Die Rolle der Statistik als methodische Wissenschaft wurde bereits in Abschnitt 1.1 erörtert. Die praktische Tätigkeit der Statistik kann den unterschiedlichsten Akteuren zugeordnet werden: - den amtlichen Statistikern (in Bund, Land, größeren Städten und auf internationaler Ebene), die in den jeweiligen Statistischen Ämtern hauptamtlich Statistik betreiben: zur Erhebung der Bevölkerungszahl und -struktur, zur Ermittlung von Studentenzahlen, zur Berechnung des Bruttoinlandsprodukts etc. - den Forschungsinstituten in und außerhalb der Hochschulen - den Verbänden sowie - einzelnen Betrieben und Institutionen. Ob nun die Statistik im Auftrag durchgeführt oder im eigenen Haus erstellt wird, immer gilt: Alle Konsumenten der Statistik wollen aus der statistischen Analyse einen erkennbaren Nutzen ziehen und – darauf aufbauend – sachlich fundierte Entscheidungen treffen. Die dritte der o.g. Definitionen von Statistik betrifft das Ergebnis der Datenanalyse: Eine „Statistik“ wird als Tabelle oder Grafik erstellt und präsentiert. Dieser Bereich hat eine sehr große Bedeutung für den Nutzen von Statistik und wird deshalb ausführlich in Kapitel 3 dargelegt. Fassen wir die voranstehenden Ausführungen zusammen und beziehen den praktischen Nutzen der Statistik mit ein, so können wir sagen:
Die statistische Analyse - hat die Aufgabe, Daten zu sammeln, zu analysieren und zu präsentieren, - verbunden mit dem Ziel, gültige Schlussfolgerungen und fundierte Entscheidungen zu unterstützen.
1.3 Das Statistik-Projekt Die nachfolgende Skizzierung der statistischen Projektarbeit ist als Leitfaden gedacht, um schon mit Beginn der entsprechenden Tätigkeiten alle wesentlichen Arbeitsschritte im Auge zu behalten. Eine exemplarische Diskussion der Arbeitsschritte erfolgt dann in Kapitel 4 anhand eines Beispiel-Projekts. Dieses MasterProjekt wird in allen geeigneten Abschnitten des vorliegenden Lehrbuchs aufgegriffen, um den Bezug zwischen Aufgabenstellung und statistischer Methode kontinuierlich aufzuzeigen.
1. Statistik als Wissenschaft
5
Die Struktur der statistischen Projektarbeit orientiert sich daran, dass man heute üblicherweise die Datenanalyse mit Einsatz eines Computers vornehmen wird. Dies kann bedeuten, dass man die gesamte Analyse, von der Konzeption über die Datenerfassung bis hin zur Ergebnispräsentation mit PC-Unterstützung ausführt. Aber auch die Weiterverarbeitung vorhandener Statistiken kann PC-gestützt erfolgen und ergänzend zur eigenen Datenerhebung mit einbezogen werden. Wir wollen folgende Phasen der statistischen Projektarbeit unterscheiden, wobei das Statistik-Projekt der analytische Teil eines Gesamtprojekts ist.
Phasen des Statistik-Projekts (1) Vorbereitung (2) Datenerhebung (3) Statistische Analyse (4) Ergebnispräsentation
Welche Aufgaben gehören zu den einzelnen Phasen?
(1)
Vorbereitung Wesentliche Aufgaben bei der Vorbereitung einer statistischen Analyse sind: - Festlegung des Untersuchungsziels (sachlich, zeitlich, räumlich) - Abgrenzung der statistischen Gesamtheit - Bestimmung der Erhebungsmerkmale (Variablen) - Ausarbeitung der Erhebungspapiere (z.B. Fragebogen) - Strukturierung von Ergebnistabellen und -grafiken - Schaffung der organisatorischen und technischen Voraussetzungen - Probeerhebung (bei Bedarf)
(2)
Datenerhebung Die Datenerhebung kann sich auf Daten beziehen, die man selbst erhebt oder die bereits von anderen erfasst und zusammengestellt wurden.
Grundlagen
6 - Primärerhebung
= Erhebung eigener Daten (insbesondere durch Befragung) - Sekundärerhebung = Auswertung vorhandener Daten, die primär für andere Zwecke erhoben wurden (z.B. Rechnungen, Personaldaten, frühere Befragungen etc.) - Aufbereitung und Verschlüsselung des Materials Insbesondere für die computergestützte Auswertung ist die Verschlüsselung von verbalen Ausprägungen (z.B. weiblich, männlich) mit Buchstaben (w, m) oder Zahlen (1,2) notwendig.
(3)
Statistische Analyse In der Regel wird die statistische Analyse mit Hilfe geeigneter Computerprogramme an einem Großrechner oder einem Personalcomputer durchgeführt. Wir können zwei grundsätzlich unterschiedliche Arten der Analyse vornehmen, die explorative oder die „eigentliche“ statistische Datenanalyse.
(3a) Explorative Datenanalyse Hier wird das Datenmaterial zur ersten Sichtung und „Erforschung“ analysiert, ohne spezielle Hypothesen überprüfen zu wollen. Dieser Schritt dient insbesondere einer ersten, groben „Beschreibung“ der untersuchten Gesamtheit und dem Auffinden vorläufiger Ergebnisse und Auffälligkeiten.
(3b) Statistische Datenanalyse Bei der statistischen Datenanalyse werden die einzelnen Methoden gezielt eingesetzt. Die statistische Gesamtheit wird umfassend (ein- und mehrdimensional) beschrieben. Man versucht Zusammenhänge oder Trends zu entdecken, führt Schätzungen durch und überprüft Hypothesen. Nähere Ausführungen finden sich in Abschnitt 1.4.
(4)
Ergebnispräsentation Statistische Ergebnisse werden in Form von Tabellen oder Grafiken dargestellt. Hier ist es wichtig, sich bereits zu Beginn einer statistischen Analyse Gedanken über die mögliche Ergebnisdarstellung zu machen. Insbesondere Klarheit und Übersichtlichkeit müssen vorhanden sein, um die statistischen Ergebnisse erfolgreich zu präsentieren. Wir können hier ein vielfältiges Angebot einzelner Computerprogramme nutzen, müssen aber deren sachgerechten Einsatz anstreben (siehe Kapitel 3).
1. Statistik als Wissenschaft
7
1.4 Die statistische Datenanalyse Die oben (unter 3b) genannte statistische Datenanalyse kann in unterschiedlicher Form, mit verschiedenen Untersuchungszielen sowie mit spezifischen methodischen Ansätzen und Ansprüchen erfolgen. Neben den bereits oben genannten Untersuchungsformen unterscheiden wir grundsätzlich zwischen der deskriptiven und der induktiven Statistik, der Querschnitts- und der Längsschnittanalyse sowie der ein- und der mehrdimensionalen Analyse. x
Deskriptive (beschreibende) Statistik
Die deskriptive statistische Analyse wird zur Beschreibung einer Gesamtheit vorgenommen. Wir gehen hier davon aus, dass alle (relevanten und interessierenden) Daten zur Verfügung stehen. Ziel unserer Analyse ist es, durch die Ermittlung statistischer Kennzahlen einen Sachverhalt „verdichtet“ beschreiben und mit anderen Sachverhalten vergleichen zu können. Beispiele: - Durchschnittsnote in einem Abiturzeugnis - Wahlergebnisse einer Europawahl - Umsatzentwicklung in einem Betrieb x
Induktive (schließende) Statistik
Die induktive Statistik will auf der Basis von Stichprobenergebnissen Schlüsse auf eine Grundgesamtheit ermöglichen. Hier werden für die Stichprobe ähnliche Berechnungen durchgeführt wie in der deskriptiven Statistik. Diese Ergebnisse werden dann - in Verbindung mit Wahrscheinlichkeiten - dazu verwendet, die Eigenschaften der Grundgesamtheit zu „schätzen“ oder zu „testen“. „Schätzen“ bedeutet, einen Schätzwert zu berechnen oder ein Schätzintervall mit einer Sicherheitswahrscheinlichkeit anzugeben. Testen bedeutet, eine Hypothese über die Grundgesamtheit anhand einer Stichprobe auf Gültigkeit zu überprüfen. Beispiele: - Politische Meinung von Wahlberechtigten „zwischen“ den Wahlen - Kundenzufriedenheit bei einem Automobilhersteller - Unternehmer-Erwartung der Wirtschaftsentwicklung im kommenden Jahr x
Querschnittsanalyse
Eine Querschnittsanalyse bezieht sich auf einen Zeitpunkt oder Zeitraum. Die Analyseergebnisse erlauben Vergleiche aller Einheiten oder Gruppen von Einheiten untereinander, aber – für sich alleine – keine Aussagen über die zeitliche Entwicklung. Beispiele: - Volkszählung in Deutschland (Zensus 2011) zum Stichtag 9.5.2011 - Europawahl von 4. - 7.6.2009 - Durchschnittspunktzahl einer Statistik-Klausur am 11.7.2011 an der Hochschule München
Grundlagen
8 x
Längsschnittanalyse
Die Längsschnitt- oder Zeitreihenanalyse untersucht den zeitlichen Verlauf bestimmter Werte und Kennzahlen. Hier greifen besondere Methoden der Statistik, die eigens für diese Fragestellungen entwickelt wurden (siehe Kapitel 17). Beispiele: - Monatliche Arbeitslosenzahlen der letzten drei Jahre - Entwicklung des Beliebtheitsgrades von Politikern - Quartalsergebnisse des Umsatzes eines Ferienhotels x
Ein- und mehrdimensionale Analyse
Bei der eindimensionalen statistischen Analyse wird nur eine Variable betrachtet (siehe Teil II dieses Lehrbuchs), bei mehrdimensionalen Analysen werden mehrere Variablen und insbesondere die Zusammenhänge zwischen diesen Variablen untersucht (siehe Teil III). Analysen mit mehr als zwei Variablen werden auch multivariate Analysen genannt und mit speziellen Methoden durchgeführt. Weitere Analyseformen sind die Voll- und die Teilerhebung sowie die Detail- und die Aggregierte Analyse. Während bei der Vollerhebung alle relevanten Daten verfügbar sind, werden bei einer Teilerhebung nur bestimmte Merkmalsträger in die Untersuchung einbezogen. Bei der Detailanalyse sind die Einzeldaten eines jeden Merkmalsträgers vorhanden, bei der Aggregierten Analyse nur die Ergebnisse für sachliche, zeitliche und räumliche Aggregate (= Zusammenfassungen). Die Aggregation ist für die praktische Statistik von großer Bedeutung. Aggregieren bedeutet das Zusammenfassen von einzelnen Elementen zu einer Gruppe und gleichzeitig die Bildung von Summenwerten für diese Gruppe. So werden einzelne Betriebe zu einer Branche zusammengefasst, einzelne Tageswerte zu einem Monats- oder Jahresergebnis, die Werte einzelner Staaten zu einem internationalen Ergebnis usw. Hierbei sind nun einerseits die Ergebnisse und die zeitliche Entwicklung des Aggregats von Bedeutung, andererseits aber auch der Vergleich der „Gruppenmitglieder“ untereinander und mit dem Gruppenergebnis. Beispiele: - Gästezahl eines Fremdenverkehrsbetriebs im Vergleich zur Gesamtbranche - Monatlicher Umsatz im Vergleich zum Jahresdurchschnitt - Inflationsrate eines EU-Mitglieds im Vergleich zu anderen EU-Mitgliedern und zum EU-Durchschnitt In der Praxis kommen die genannten Analyseformen selten streng getrennt voneinander vor. Häufig findet man Mischformen, wobei insbesondere eine Kombination von Primär- und der Sekundärerhebung sinnvoll ist. Die Kapitel dieses Lehrbuchs können den Methoden wie folgt zugeordnet werden: -
Deskriptive Statistik: Induktive Statistik: Querschnittsanalyse: Längsschnittanalyse:
Kapitel 6 bis 17 Kapitel 23 bis 26 Kapitel 6 bis 12 sowie 14 bis 16 Kapitel 13 und 17.
9
2. Statistik am PC mit EXCEL und SPSS x Leitfragen
1) Welche Möglichkeiten bietet die Statistik am Computer? 2) Was sind die Eigenschaften und Unterschiede der beiden Programme EXCEL und SPSS? 3) Welche Grundkenntnisse werden für die statistische Analyse am Computer benötigt?
2.1 Motivation zur computergestützten Statistik Die Ausführungen in Kapitel 1 haben bereits angedeutet, dass die Statistik nicht nur als wissenschaftliche Disziplin anzusehen ist. Statistik hat viel mit Projektarbeit und -organisation zu tun und steht – seit etwa drei Jahrzehnten – einem breiten Anwenderkreis in Form von Computerprogrammen zur Verfügung. Während in früheren statistischen Lehrbüchern die Computertechnik meist am Ende (als Anhang) zu finden ist, wird im vorliegenden Buch die computergestützte Statistik offensiv und motivierend an den Anfang und in den Mittelpunkt gestellt. Dies ist zum einen damit zu begründen, dass heute fast an jedem Schreibtisch oder Arbeitsplatz Computerprogramme zur Verfügung stehen, die eine „automatisierte“ Berechnung von statistischen Ergebnissen ermöglichen. Zum anderen wird durch den Einsatz von Computerprogrammen das Erlernen und Vertiefen des Stoffes erleichtert. Zum dritten kann durch den „unkomplizierten“ und „unverkrampften“ Umgang mit den EDV-technischen Auswertungsmedien (insbesondere auch mit den Präsentationsmedien) der regelmäßige und kompetente Umgang mit der Statistik gefördert werden. Ein viertes sei noch erwähnt: Gerade der „unkomplizierte“ Umgang mit Computerprogrammen, die Statistiken per Knopfdruck liefern, birgt durchaus die Gefahr des falschen oder „schlampigen“ Umgangs mit der Statistik in sich. Daher werden im Folgenden neben den Chancen auch einige „Fehler“ und „Fallen“ beim Einsatz computergestützter Statistik zur Sprache kommen. x
Möglichkeiten der PC-gestützten Statistik
Statistik wird zu Recht mit Computern und Rechentechnik in Verbindung gebracht. Man kann heute so weit gehen und sagen: Statistik hat zu tun mit der Technik der Datenerhebung und -erfassung, mit Rechentechniken bei der Auswertung und schließlich mit der EDV-technisch gestützten Ergebnispräsentation. In diesem einführenden Abschnitt wird kurz skizziert, welche Themen damit angesprochen sind.
10
Grundlagen
Wir wollen uns einen Unternehmensberater vorstellen, der für eine Partei X eine deutschlandweite Werbekampagne für die nächste Bundestagswahl beratend unterstützen soll. Neben vielen anderen Themen will er dabei auch die regional unterschiedlichen Ergebnisse der letzten Wahl berücksichtigen. Wie beginnt er nun – etwas vereinfacht gesehen – seine Analyse? Der Unternehmensberater wählt im Internet die Homepage des Statistischen Bundesamtes. Dort findet er die Wahlergebnisse der letzten Bundestagswahl. Er lädt diese Daten auf seinen PC (oder Laptop) herunter und spielt sie anschließend in ein Tabellenkalkulations- oder Statistikprogramm ein. Zusätzlich lädt er von einer CD-ROM einige Daten der amtlichen Bevölkerungsstatistik in sein StatistikProgrammpaket. Nachdem er seine Auswertung durchgeführt hat (z.B. Rangliste der Bundesländer nach Stimmenanteilen für die Partei X mit Angabe der Einwohnerzahl ab 18 Jahren) überträgt er die Tabelle in ein Präsentationsprogramm. Mit diesem Programm erstellt er zusätzlich einige Grafiken sowie Text-Charts. Mit dem Laptop kommt er anschließend zum Auftraggeber und präsentiert – über einen Video-Beamer – das vorläufige Ergebnis und später auch das endgültige Ergebnis. Dabei ist natürlich auch davon auszugehen, dass Daten „von Hand“ ausgewertet werden, ein Ergebnisbericht gefertigt und auf Papier gedruckt sowie mittels Overhead-Folien präsentiert wird. Grundsätzlich aber hat Statistik in der heutigen Zeit sehr viel mit Computertechnik zu tun. Daher wird im Folgenden der PCtechnischen Realisierung der statistischen Analyse eine besondere Bedeutung zugemessen. Welche Computerprogramme eignen sich nun für die statistische Analyse?
2.2 Computerprogramme für die statistische Analyse Bei den Computerprogrammen, die für statistische Analyse eingesetzt werden können, sind zu unterscheiden - Programme, die „Statistik“ als Funktionalität enthalten, grundsätzlich aber einen anderen Hauptzweck erfüllen - Programme, die als umfangreiche und spezielle Statistikpakete auf den Markt gebracht wurden - Programme, die in Form einer „interaktiven Online-Analyse“ am Bildschirm flexible und umfassende Möglichkeiten der statistischen Untersuchung bieten. Die Aussagen zu den nachfolgenden Produkten sollen weder eine Marktübersicht noch eine Produktbewertung darstellen. In einer kurzen Übersicht werden einige derjenigen Programme erwähnt, die heute im Hochschulbereich und in der unternehmerischen Praxis weit verbreitet und erfolgreich im Einsatz sind. Nicht erwähnte Anbieter seien hiermit um Nachsicht gebeten und gleichzeitig zu vermehrten Anstrengungen für eine weitere Verbreitung (insbesondere im Hochschulbereich) aufgefordert.
2. Statistik am PC mit EXCEL und SPSS
11
2.2.1 Statistik als Zusatzfunktion x
EXCEL
Die Grundfunktionen des Microsoft-Produkts EXCEL sind die Tabellenkalkulation und die Erstellung von Grafiken. In EXCEL sind zahlreiche statistische Berechnungsfunktionen – vom arithmetischen Mittel bis zur Zufallszahl – integriert, die sehr leicht zu bedienen sind. Die Tabelle stellt in EXCEL die Auswertungsbasis dar. Kalkulationen für Zeilen, Spalten und Felder sowie insbesondere die Summenbildung können für statistische Berechnungen verwendet werden. Simultan dazu können am selben Bildschirm grafische Darstellungen ergänzt werden. x
POWERPOINT
Die Grundfunktion von POWERPOINT (ebenfalls von Microsoft) ist die Erstellung von Präsentationsfolien, bestehend aus Text, Tabellen und Grafiken. Außerdem sind einige einfache statistische Berechnungen möglich. POWERPOINT ergänzt andere Programme, mit denen Auswertungen durchgeführt wurden. So können Ergebnistabellen und Grafiken aus EXCEL und aus SPSS importiert und zu einer „professionellen“ Präsentation zusammengestellt werden.
2.2.2 Statistik im Programmpaket x
SPSS
Der Name des Programmpakets SPSS stand ursprünglich für „Statistical Package for the Social Sciences“, heute für „Statistical Product and Service Solution“. Das Programm ist an fast allen Hochschulen und in vielen Betrieben im Einsatz. Ursprünglich für den Großrechner konzipiert, gibt es seit einigen Jahren die benutzerfreundliche WINDOWS-Version für den PC. SPSS kommt aus den USA, ist aufgegliedert in einzelne Module (Basispaket, Professionelle Statistik, Data Entry etc.) und bietet eine Reihe von ergänzenden Programmen an, wie z.B. ein multimedia-orientiertes Programm für Befragungen. x
SAS
Das Statistik-Analyse-System SAS kommt ebenfalls aus den USA. Das Programmpaket ist sehr leistungsfähig im Bereich Datenmanagement und in speziellen statistischen Methoden. SAS erhebt mittlerweile den Anspruch nicht „nur“ Statistikpaket zu sein, sondern das Zentrum eines „DATAWAREHOUSE“, d.h. eines umfassenden Informationssystems für die gesamte Unternehmung. x
SYSTAT oder P-STAT
Die Programme SYSTAT und P-STAT gehören zu den preiswerteren Alternativen und sind eher in kleinen und mittleren Unternehmen im Einsatz. Die beiden Programme enthalten alle grundlegenden Methoden und lassen sich mit wenig Aufwand am eigenen PC einsetzen. Sie sind allerdings nicht so umfassend ausgestattet und bedienerfreundlich wie die obigen „größeren Brüder“.
Grundlagen
12
2.2.3 Interaktive statistische Analyse In den letzten Jahren haben sich zahlreiche Anbieter von Auswertungsprogrammen darauf spezialisiert, ein benutzerfreundliches Informationssystem zu schaffen, in dem „per Knopfdruck“ alle wichtigen Daten einer Unternehmung für Analysen verfügbar sind. Die Analyse kann direkt am Bildschirm „interaktiv“ erfolgen, so dass „online“ alle relevanten Informationen produziert werden können. Drei Entwicklungsrichtungen sind hier zu unterscheiden: x
OLAP-Tools
OLAP bedeutet „Online Analytical Processing“, d.h. die Analyse am Bildschirm durch direkten Zugriff auf die Auswertungsdaten. Hierbei geht es im wesentlichen darum, statistische Tabellen anzuzeigen und vom „Analytiker“ direkt bearbeiten und verändern zu lassen: Einzelne Zeilen und Spalten können ein- und ausgeblendet, Spalten und Zeilen vertauscht, aggregierte Daten können durch einen „Drill-Down“ detailliert angezeigt werden, Tabellen und Grafiken lassen sich simultan darstellen und ändern. Als bekannte Anbieter sind hier zu nennen ORACLE EXPRESS, COGNOS, MIS und BUSINESS OBJECTS. x
Pivot-Tabellen
Die Zielsetzung, mit Tabellen „interaktiv“ arbeiten zu können, ist nicht nur ein Merkmal von OLAP, sondern auch von sogenannten Pivot-Tabellen. Zahlreiche andere Programme bieten diese Pivot-Funktion („drehen“) an. Das Vertauschen von Spalten und Zeilen und das flexible Arbeiten mit einer Tabelle sind auch in EXCEL und SPSS (siehe Kapitel 3, Abb. 3.15) enthalten. x
Interaktive Grafik in EXCEL, SPSS und SAS
Eine neue statistische Analysemöglichkeit, die aufgrund leistungsfähiger PCs und hochauflösender Bildschirme inzwischen schon weit verbreitet ist, ist die interaktive grafische Analyse am Bildschirm. Zu erwähnen ist hier das Produkt INSIGHT von SAS, das ein mehrdimensionales Streuungsdiagramm interaktiv analysiert. In SPSS ist seit 1998 die interaktive Grafikfunktion vorhanden (siehe Kapitel 3, Abb. 3.17) und auch EXCEL bietet diese Möglichkeit (siehe Abb. 3.18). Die nachfolgenden Ausführungen zur Computeranwendung stützen sich ausschließlich auf die beiden PC-Programme EXCEL und SPSS. Auf die frühere Großrechner-Version von SPSS wird nicht eingegangen. Der Leser kann an zahlreichen Beispielen erkennen, „wie“ heute Statistik betrieben wird. Durch eigene Berechnungen mit diesen oder anderen Programmen kann der Computer begleitend zum Erlernen der Methoden eingesetzt werden.
2. Statistik am PC mit EXCEL und SPSS
13
2.3 Grundkenntnisse der PC-gestützten Statistik Wer Daten mit Hilfe eines PC-Programmes analysieren will, muss nur einige wenige Grundkenntnisse besitzen. Insbesondere muss er seine Daten so strukturieren, dass ihn sein Computer auch „versteht“. In diesem Abschnitt wird anhand der beiden Programme EXCEL und SPSS aufgezeigt, wie die Datenbasis aussehen muss, damit Statistiken erstellt werden können. Es wird nur die einfachste Form einer Basisstruktur erörtert, damit ein erster Zugang gefunden werden kann. Zusätzlich wird damit ein computerorientierter Rahmen für die spätere „klassische“ Erläuterung der statistischen Grundbegriffe und Methoden geschaffen. Als Beispiel ziehen wir ein Thema aus dem Master-Projekt in Kapitel 4 heran: 20 Teilnehmer eines Seminars werden nach ihrem Alter und Geschlecht befragt. Wie sieht nun die einfache statistische Analyse am Computer aus?
2.3.1 Statistik mit EXCEL Die Anwendung von EXCEL erfolgt grundsätzlich auf der Basis eines Arbeitsblattes. Dies ist eine Tabelle, in der die Daten für die Berechnung eingetragen werden. Wir können Spalten und Zeilen wie folgt zuordnen (Spalten und Zeilen könnten aber auch umgekehrt definiert werden) und beziehen uns auf Abb. 2.1:
- Tabelle = Statistik-Datei Eine EXCEL-Tabelle besteht aus Spalten, Zeilen und Zellen. Eine EXCEL-Datei kann aus mehreren EXCEL-Tabellen bestehen.
- Spalte = Merkmal, Variable Wir sehen in Abb. 2.1 die Spalte A als die Variable Alter und die Spalte B als die Variable Geschlecht (kodiert mit m für männlich und w für weiblich).
- Zeile = Element, Fall Jede Zeile (durchnumeriert mit 1, 2, ...) gehört zu einem Seminarteilnehmer (Person, Element).
- Zelle = Wert, Ausprägung In den einzelnen Zellen der Tabelle (A1, A2 ...) können wir die Werte für jedes Element bezüglich der jeweiligen Spaltenvariablen finden.
14
Grundlagen
Abb. 2.1: EXCEL-Tabelle als Statistik-Datei
Bei EXCEL unterscheiden wir vier Wege zur statistischen Analyse: Erstens den Einsatz eigener Berechnungsformeln im Rahmen der Tabellenkalkulation, zweitens die Anwendung fest vorgegebener statistischer Funktionen, unterstützt durch den Funktions-Assistenten=Funktion einfügen (siehe unten), drittens spezielle Analyse-Funktionen im Menüpunkt Daten bzw. Extras und viertens kommerzielle Add-In-Programme, wie z.B. XLSTAT (siehe www.xlstat.com). x
Statistik im Rahmen der Tabellenkalkulation
Tabellen werden für statistische Berechnungen und Ergebnisdarstellungen regelmäßig verwendet. Besonders wichtig ist hierbei die Ermittlung von Summen für Spalten und/oder Zeilen. Die Summenfunktion steht in EXCEL als eigener Button mit der Bezeichnung 6 zur Verfügung (siehe Abb. 2.2) und ist damit sehr leicht anzuwenden. Zusätzlich können alle anderen Kalkulationsmöglichkeiten (wie z.B. Spalten voneinander abziehen oder miteinander multiplizieren) genutzt werden. Die folgende Tabelle in Abb. 2.2 verdeutlicht diese Vorgehensweise. In Zeile 4 sehen wir die Spaltenbezeichnungen. Ab Zeile 5 finden wir die Werte der Variablen. Die dritte und fünfte Spalte sind als Produkte der jeweils genannten Spalten definiert, wobei im Funktionsfeld die Definition eines Produkts zu erkennen ist. Die Tabellenkalkulation ist zwar etwas mühsam, sie erlaubt aber (bei Kenntnis der jeweiligen Methoden und Formeln) nachvollziehbare statistische Berechnungen.
2. Statistik am PC mit EXCEL und SPSS
15
Berechnungsformel für Spalte C (Zeile 5) Summenfunktion
Funktions-Assistent = Funktion einfügen
Abb. 2.2: Tabellenkalkulation in EXCEL für statistische Berechnungen
x
Funktions-Assistent (= Funktion einfügen) mit statistischen Funktionen
Abb. 2.3: Funktions-Assistent in EXCEL für Statistikberechnungen
Der Funktions-Assistent wird durch das Klicken auf den Button fx (siehe Abb. 2.2) oder die Menüfolge „Einfügen – Funktion“ aufgerufen. Im Auswahlfenster des Funktions-Assistenten (siehe Abb. 2.3) kann die gewünschte statistische Be-
16
Grundlagen
rechnung gesucht und menügestützt ausgeführt werden. So erkennen wir in Abb. 2.4, dass von EXCEL der Mittelwert für die Zahlen der Felder A1 bis A20 (Altersangaben von 20 Personen) berechnet und im Feld D4 ausgegeben wird.
Abb. 2.4: Funktion und Ergebnisausgabe einer statistischen Berechnung in EXCEL
Dies bedeutet zusammengefasst:
Statistische Analyse mit EXCEL-Funktions-Assistent = fx Funktion einfügen (1) Dateneingabe in der EXCEL-Tabelle (2) Bestimmung eines Feldes für die Ergebnisausgabe: (möglichst mit Beschriftung im Nachbarfeld) (3) Aufruf des Funktions-Assistenten oder: Formeln – Mehr Funktionen - Statistisch (Eingabeaufforderungen erfolgen am Bildschirm) (4) OK-Button (grüner Haken neben Funktionsfeld) (5) Ergebnisanzeige
2. Statistik am PC mit EXCEL und SPSS
x
17
Analyse-Funktionen
Eine dritte Möglichkeit zur Anwendung spezieller statistischer Methoden in EXCEL besteht aus den Analyse-Funktionen im Menübereich Daten (früher Extras). Diese Analyse-Funktionen sind in EXCEL nicht standardmäßig vorhanden, können aber durch Aufruf des Add-In-Managers (im Bereich Optionen) durch einfaches Anklicken aktiviert werden. Die nachfolgende Abbildung 2.5 zeigt beispielhaft, wie die Analyse-Funktion aufgerufen wird und wie die Ergebnisausgabe aussieht. Hier wird die Funktion Korrelation (vgl. Kapitel 15) ausgewählt und das Ergebnis in den Spalten D bis F ausgegeben. Der Korrelationskoeffizient (der Noten von 5 Studenten in den Fächern A und B) ist in Feld E3 angegeben.
Abb. 2.5 Analyse-Funktion in EXCEL
Die im Zusammenhang mit diesem Lehrbuch wichtigsten Analyse-Funktionen sind: - Histogramm - Kovarianz, Korrelation - Regression - Gleitende Durchschnitte, Exponentielle Glättung - Hypothesentests (t-Tests) - Generierung von Zufallszahlen.
Grundlagen
18
2.3.2 Statistik mit SPSS Für die statistischen Auswertungen stellt SPSS einen Daten-Editor zur Verfügung, der aus der Datenansicht und der Variablenansicht besteht. In der Datenansicht befinden sich die Auswertungsdaten, in der Variablenansicht werden die Variablen definiert und verändert. Für die statistische Analyse müssen die Variablen vor der Eingabe der Daten in der Datenansicht festgelegt werden. x
Datenansicht
Die Datenansicht sieht ähnlich wie eine EXCEL-Datei aus, wobei einige wichtige Unterschiede zu berücksichtigen sind. So erkennen wir in Abb. 2.6 eine Tabellenstruktur mit Spalten, Zeilen und Zellen. Die grundsätzliche Zuordnung ist auch hier: Spalte = Variable, Zeile = Element und Zelle = Einzelwert. Wir sehen – ebenso wie in EXCEL – eine Numerierung der Zeilen, die damit eine laufende Nummer des einzelnen Elements (Person) in der Datei darstellt. Allerdings wird diese Numerierung weniger zur Identifikation einzelner Zellen benötigt. Vielmehr wird in SPSS mit den Spalten als Variablen gearbeitet.
Abb. 2.6: SPSS-Datei – Daten-Editor – Datenansicht
x
Variablenansicht
In der Variablenansicht (siehe Abb. 2.7) werden die Eigenschaften der Analysevariablen (Name, Typ usw.) festgelegt. Hierbei wird (in einigen Fällen) durch Anklicken des Eingabefeldes ein Drop-Down-Menu aktiviert.
2. Statistik am PC mit EXCEL und SPSS
19
Abb. 2.7: SPSS-Datei – Daten-Editor – Variablenansicht
Die folgenden Eigenschaften der Variablen sind in der Variablenansicht festzulegen und können durch „cut and paste“ auf andere Variablen übertragen werden: -
Name: bis zu 64 Zeichen (hier: alter bzw. sex)
-
Typ: Numerisch, Komma, Punkt, String usw. (hier: Numerisch bzw. String)
-
Spaltenformat/Dezimalstellen: Anzahl Spalten/Anzahl Dezimalstellen (hier: 2/0 bzw. 1/0)
-
Variablenlabel: Textliche Erläuterung zum Variablennamen hier: „Alter“ bzw. „Geschlecht“
-
Wertelabel: Textliche Erläuterung zu den Variablenwerten (hier: m = männlich und w = weiblich)
-
Fehlende Werte: Schlüsselwerte für fehlende Angaben
-
Spalten: Breite der Variablenspalte
-
Ausrichtung: Rechts (bei numerischen Variablen), Links (bei String-Variablen) oder Mitte
-
Messniveau: Metrisch (Variable alter), Ordinal oder Nominal (Variable sex)
Grundlagen
20 x
Statistische Analyse mit SPSS
Das Erstellen einer Statistik sieht in SPSS grundsätzlich anders aus als in EXCEL. So sehen wir im Daten-Editor (Abb. 2.6 bzw. 2.7) oben eine Menü-Leiste, in der Funktionen wie Daten, Transformieren, Analysieren, Diagramme zu lesen sind. Zunächst suchen wir über eine der Basisfunktionen die gewünschte Auswertungsmethode, füllen dort die Bildschirmfenster aus und starten die Auswertung. Das Ergebnis wird in ein eigenes Ausgabefenster geschrieben, im dem die Tabellen und Grafiken – nach Doppel-Klick – formal bearbeitet und angepasst werden können. Unser Beispiel der Berechnung des Mittelwertes geht von folgendem Aufruf aus: SPSS-Dialog: Analysieren – Deskriptive Statistik (2x)
Abb. 2.8: Aufruf der statistischen Berechnung mit SPSS
Im Methodenfenster Deskriptive Statistik (siehe Abb. 2.8) können wir zum einen die Analysevariable bestimmen (hier: alter). Es können noch Optionen gewählt werden, um die zu berechnenden Parameter zu benennen. Auch Spezialfunktionen wie die Standardisierung sind vorhanden (siehe Kapitel 11). Für die nachfolgende Ergebnisdarstellung in Abb. 2.9 wurden die (voreingestellten) Optionen Mittelwert, Minimum, Maximum und Standardabweichung gewählt.
2. Statistik am PC mit EXCEL und SPSS
x
21
Ausgabefenster (SPSS-Viewer)
Nach Aktivieren der Berechnung mit OK führt SPSS die Analyse durch und wechselt zum Ausgabefenster des SPSS-Viewers (siehe Abb. 2.9).
Deskriptive Statistik StandardN
Minimum
Alter
20
Gültige Werte (Listenweise)
20
Maximum
18
Mittelwert
28
abweichung
21,90
3,447
Abb. 2.9: Ausgabefenster im SPSS-Viewer
Die Ergebnisausgabe besteht bei SPSS aus einer Überschrift, die auf die gewählte Auswertungsfunktion hinweist, und einer Ergebnistabelle. Wir erkennen in Abb. 2.9 die Angabe der Analysevariablen „alter“, die Anzahl der untersuchten Personen N = 20 und den berechneten Mittelwert von 21,9. Der Hinweis Gültige Werte wird von SPSS immer gegeben, da es in der Praxis – insbesondere bei Befragungen – häufig vorkommt, dass Werte wegen nicht gegebener Antworten fehlen. Dann ist die Basis für die Berechnung eines Parameters eine andere als die Gesamtzahl der befragten Personen. In unserem Beispiel ist die Zahl der gültigen Werte gleich der Gesamtzahl von N. Der Ablauf der statistischen Datenanalyse mit SPSS lässt sich wie folgt zusammenfassen:
Statistische Analyse mit SPSS (1) SPSS-Datei (in Variablenansicht) anlegen: Variablen definieren, Labels für Variablen und Werte vergeben etc. (2) Daten (in Datenansicht) eingeben (3) „Analysieren“ oder „Grafiken“ im Hauptmenü auswählen (4) Auswertung definieren, Optionen festlegen (5) Auswertung mit OK starten (6) Ergebnistabelle oder -grafik erscheint im SPSS-Ausgabefenster (7) Tabellen und Grafiken nachbearbeiten (bei Bedarf) (8) Ergebnis in Text- oder Präsentationsprogramm exportieren (bei Bedarf)
22
Grundlagen
x
Wichtige neue Funktionen in den SPSS-Versionen 15 folgende:
-
Variablenname jetzt bis zu 64 Zeichen lang Klassierung mit einer automatischen, grafisch unterstützten Funktion Benutzerdefinierte Erstellung von Tabellen und Grafiken
Die Ausführungen dieses Kapitels sollen auch den ungeübten Leser motivieren, selbständig mit den Computerprogrammen EXCEL oder SPSS zu arbeiten. Der Anfang ist leicht, Handbücher helfen bei Spezialfragen weiter (siehe Literaturverzeichnis) und – was am wichtigsten ist – die Programme besitzen eine ausführliche Hilfefunktion (Aufruf mit: Hilfe oder ?), die bei vielen Fragen die Lösung direkt am Bildschirm anbietet! SPSS beinhaltet außerdem noch ein integriertes Lernprogramm, das in den Umgang mit Daten, Dateien, Methoden und Ergebnissen sehr gut einführt.
23
3. Präsentation statistischer Ergebnisse x Leitfragen 1) Was kennzeichnet Tabellen und Grafiken als Grundformen der statistischen Ergebnispräsentation? 2) Wann sind Tabellen, wann sind Grafiken besser zur Präsentation von Ergebnissen geeignet? 3) Welche Präsentationsmöglichkeiten bieten moderne Computerprogramme? 4) Was ist bei der automatischen Erstellung von Computergrafiken und -tabellen zu beachten?
3.1 Grundformen der Ergebnisdarstellung Die Darstellung der Ergebnisse einer statistischen Analyse erfolgt heute üblicherweise mit den in Kapital 2 vorgestellten Computerprogrammen. Unabhängig vom Technikeinsatz gibt es einige Grundformen und -regeln für die Ergebnisdarstellung. Diese sollten bekannt sein, um bereits mit Beginn eines Analyseprojekts das Ziel der „richtigen“ Ergebnisdarstellung ins Auge zu fassen. Daher werden in diesem Kapitel die Grundformen der Darstellung in Verbindung mit der technischen Realisierung am PC erörtert. Das Ergebnis einer statistischen Untersuchung kann als Tabelle oder als Grafik dargestellt werden, wobei im Allgemeinen eine sinnvolle Kombination und Arbeitsteilung beider Formen anzustreben ist. Die unterschiedlichen Darstellungsformen sowie ihre Vor- und Nachteile werden im Folgenden an einem (zahlenmäßig einfachen) Beispiel aufgezeigt, der Analyse der Erwerbstätigkeit in Deutschland zwischen 1960 und 2001. Dabei werden die drei elementaren Wirtschaftsbereiche unterschieden: primärer Sektor (Land- und Forstwirtschaft, Energie etc.), sekundärer Sektor (Verarbeitendes und Baugewerbe), tertiärer Sektor (Handel, Banken, Staat, sonstige Dienstleistungen etc.). Ein wesentliches Ergebnis der Analysen und Darstellungen sei bereits vorweg genannt: Deutschland ist auf dem Weg zur Dienstleistungsgesellschaft!
3.1.1 Tabelle Die tabellarische Darstellung muss bestimmten Mindestanforderungen genügen, um vollständig und aussagefähig zu sein. Dabei ist immer an den Adressaten zu denken, der in einer Arbeit oder einem Buch bestimmte Ergebnisse selektiv wahrnimmt und weiterwendet. Dieser Leser muss bei jeder einzelnen Ergebnisdarstellung eine umfassende Information in der Tabelle vorfinden.
Grundlagen
24
Die wichtigsten Elemente für Struktur und Aufbau einer vollständigen Tabelle sind: 1 - Titel (Überschrift) - Fußnote (für Erläuterungen und Quellenangaben) - Bezeichnung der Spalten (bei Bedarf: mit Einheiten) - Bezeichnung der Zeilen (bei Bedarf: mit Einheiten) - Spalten - Zeilen - Tabellenfelder - Summenzeile - Summenspalte. x
Tabellen mit EXCEL und mit SPSS
Erwerbstätige in Deutschland nach Wirtschaftsbereichen (in Tausend)
1960 Primärer Sektor Sekundärer Sektor Tertiärer Sektor Insgesamt
Neue Länder und Berlin-Ost
Früheres Bundesgebiet
Wirtschaftsbereiche
1970
1980
1991
2001
1991
2001
3.541
2.402
1.437
1.045
717
530
226
12.807
13.005
12.174
12.065
9.995
3.285
1.939
9.846
10.937
13.263
16.574
19.596
3.947
4.343
26.194
26.344
26.874
29.684
30.308
7.762
6.508
Quelle: Statistisches Bundesamt (2003)
Abb. 3.1: Einfache Tabellendarstellung (1)
Diese Tabelle wird von EXCEL ausgegeben, nachdem entsprechende Formatierungen (Spaltenbreite, Zahlendarstellung etc.) durch den Benutzer vorgenommen wurden. Anmerkung: In die obige Fußnote könnten – neben der Quellenangabe – noch Erläuterungen wie „Jahresdurchschnitt, Volkswirtschaftliche Gesamtrechnung“ aufgenommen werden. Die Tabelle in Abb. 3.1 erlaubt folgende Aussagen und Vergleiche: - horizontal: zeitliche Entwicklung der Zahlen - vertikal: Vergleich der Sektoren untereinander und Vergleich der Sektoren mit dem Gesamtwert 1
Siehe hierzu auch die Deutsche Industrienorm DIN 55301, die detaillierte Vorgaben für richtige Tabellendarstellungen enthält.
3. Präsentation statistischer Ergebnisse
25
Während man bei Absolutzahlen, insbesondere wenn sie mehrstellig sind, die Tabellendarstellung benötigen und bevorzugen wird, reicht bei Anteilswerten (Prozentsätzen etc.) vielfach eine grafische Darstellung aus. Wir werden im Folgenden auf Basis der Daten von Abb. 3.1 die Tabelle mit Prozentzahlen sowie die dazugehörige Grafik und eine um Zahlenangaben ergänzte Grafik erstellen (siehe Abschnitt 3.1.2). Betrachten wir zunächst die Tabelle mit den Anteilswerten für die einzelnen Wirtschaftsbereiche (in %) in Abb. 3.2. Hier wurde lediglich die Summenzeile weggelassen, weil sie mit 100 immer denselben Wert liefern würde (Ausnahme: Rundungsdifferenzen). In der Praxis wird die Angabe von 100 zur Verdeutlichung allerdings oftmals mit angegeben. Die Vergleichsmöglichkeiten dieser Tabelle beziehen sich auf die Anteile der Sektoren untereinander und auf die zeitliche Entwicklung der einzelnen Anteile.
Erwerbstätige in Deutschland nach Wirtschaftsbereichen (Anteile in %) Neue Länder und Berlin-Ost
Früheres Bundesgebiet
Wirtschaftsbereiche 1960
1970
1980
1991
2001
1991
2001
Primärer Sektor
13,5
9,1
5,3
3,5
2,4
6,8
3,5
Sekundärer Sektor
48,9
49,4
45,3
40,6
33,0
42,3
29,8
Tertiärer Sektor Insgesamt
37,6
41,5
49,4
55,8
64,7
50,9
66,7
100,0
100,0
100,0
100,0
100,0
100,0
100,0
Quelle: Statistisches Bundesamt (2003)
Abb. 3.2: Einfache Tabellendarstellung (2)
Eine komplexere Tabelle entsteht durch weitere Dimensionen, die Spalten und/oder Zeilen untergliedern. Im nachfolgenden Beispiel sind bezüglich der Spalten die beiden Dimensionsangaben Frauen/Männer sowie Deutschland insgesamt/Ost/West miteinander verschachtelt. Die Anzahl der Kombinationen von Spalten- und Zeilenmerkmalen bestimmt die Komplexität der Tabelle, im Beispiel 2 x 3 = 6 Spalten. Die wesentlichen Informationen aus der Tabelle in Abb. 3.3 sind: unterschiedliche Erwerbsquoten der Frauen in Ost- und Westdeutschland; starker Rückgang der Erwerbsquoten in Ostdeutschland seit der Wiedervereinigung 1990; stärkerer Rückgang der Erwerbsquoten in Ostdeutschland im Vergleich zu Westdeutschland; geringere Unterschiede der Quoten der Männer gegenüber den Frauen. Der Erstellung einer entsprechenden Tabelle erfolgt in SPSS über den SPSS-Dialog: Analysieren – Tabellen – Benutzerdefinierte Tabellen.
Grundlagen
26
Erwerbsquoten in Deutschland (Anteil Erwerbspersonen an Bevölkerung in %) Erwerbsquote Frauen Männer in in WestDeutschDeutschl. land
Frauen in Deutschland
Frauen in OstDeutschl.
Männer in OstDeutschl.
Männer in WestDeutschl.
1990
40,70
51,20
37,90
59,40
61,80
58,80
1991
40,50
49,50
1992
39,50
44,20
38,20
58,00
57,70
58,10
38,40
57,40
56,60
57,60
1993
39,80
45,00
38,50
55,90
53,60
56,40
1994
39,90
45,70
38,50
55,50
54,80
55,70
1995
39,60
45,20
38,30
54,80
55,00
54,70
1996
39,50
45,20
38,10
54,40
54,90
54,30
1997
39,40
45,20
38,10
54,20
54,90
54,10
Quelle: IW (1998)
Abb. 3.3: Komplexe Tabellendarstellung
x
Hinweise für die Tabellenerstellung mit EXCEL
Mit EXCEL muss die Tabelle weitgehend selbst definiert und formatiert werden. Als Vorteil ist zu sehen, dass z.B. Summen (wie oben die letzte Zeile in Abb. 3.1) innerhalb der EXCEL-Tabelle als Berechnungsformel hinterlegt werden können. Damit kann eine EXCEL-Tabelle gleichzeitig als Rechen- und Ausgabemedium dienen. Das Aussehen der Tabelle (Rahmen, Schriftgröße, Spaltenbreite, Zeilenhöhe, Schattierung oder Farben für Zellen, Spalten und Zeilen etc.) kann dabei weitgehend frei bestimmt werden. So kann auch die SPSS-Tabelle aus Abb. 3.1 mit EXCEL völlig identisch erstellt werden. Zusätzlich existiert in EXCEL die Option „Als Tabelle formatieren“ (früher AutoFormat). Sie ermöglicht die Auswahl eines bestimmten Tabellenmusters aus einer Reihe von Format-Vorschlägen. EXCEL-Dialog: (Markieren der Zellen) – Start – Als Tabelle formatieren. Wenden wir diese Funktion auf die Daten der Abb. 3.1 an, kann beispielsweise die folgende Form der Abb. 3.4 gewählt werden. Eigenen Kreationen von Rahmen, Mustern und Farben sind in EXCEL kaum Grenzen gesetzt, ihr gezielter Einsatz ist aber anzustreben. Die Stärke von EXCEL liegt in der Kombination von Berechnungs- und Präsentationstabellen und im freien Formatieren von Tabellen.
3. Präsentation statistischer Ergebnisse
27
Erwerbstätige in Deutschland nach Wirtschaftsbereichen (in Tausend) Früheres Bundesgebiet
Wirtschaftsbereiche
Primärer Sektor Sekundärer Sektor Teritärer Sektor Insgesamt
2001
Neue Länder und Berlin-Ost 1991 2001
1960
1970
1980
1991
3.541
2.402
1.437
1.045
717
530
226
12.807 13.005 12.174 12.065
9.995
3.285
1.939
9.846 10.937 13.263 16.574 19.596
3.947
4.343
26.194 26.344 26.874 29.684 30.308
7.762
6.508
Quelle: Statistisches Bundesamt (2003) Abb. 3.4: EXCEL-Tabelle – erstellt mit AutoFormat
Zusammenfassend gilt für die Tabellendarstellung:
Tabellen - Vorteile ¾ Genaue Zahlenangaben werden geliefert. ¾ Komplexe, mehrdimensionale Darstellungen sind möglich. ¾ Bezüge zu Summenzeilen und/oder Spalten können hergestellt werden. - Tipps ¾ Nicht zu viele Zahlen! ¾ Wenige Nachkommastellen! ¾ Gezielter Umgang mit Rahmen, Farben und Schattierungen! ¾ Genaue Beschriftung von Spalten und Zeilen!
3.1.2 Grafik Fast jede Präsentation statistischer Ergebnisse verwendet grafische Darstellungen. Die Grafik kann ergänzend zu einer Tabelle oder zu Tabellenteilen herangezogen werden und ist zuweilen die einzige Form der Ergebnisdarstellung. Ergänzt man die Grafik um Zahlenangaben, lassen sich optischer Gesamteindruck und statistische Genauigkeit geschickt verbinden (siehe Abb. 3.6 und Abb. 3.8).
Grundlagen
28
3.1.2.1 Grundformen der statistischen Grafik Die nachfolgenden grafischen Grundformen wurden mit dem DiagrammAssistenten von EXCEL erstellt. SPSS bietet im Menübereich Grafiken ganz ähnliche Möglichkeiten. x
Streckendiagramm (Stab-, Säulen- oder Balkendiagramm)
Das Streckendiagramm verwendet – als elementare Form einer Grafik – lediglich die Länge einer Strecke oder die Höhe einer Säule (eines Balkens) zur Darstellung eines Sachverhalts. Das klassische Streckendiagramm, das nur eine Gerade zur Kennzeichnung statistischer Sachverhalte verwendet, wird von den Computerprogrammen EXCEL und SPSS nicht standardmäßig angeboten. Unter Anwendung der in den Programmen vorhandenen Optionen kann (mit etwas zusätzlichem Aufwand) ein Stabdiagramm erstellt werden. Hier das Beispiel mit EXCEL:
Erwerbstätige in Deutschland nach Wirtschaftsbereichen 2001 25.000
in Tausend
20.000
15.000
10.000
5.000
0 Primärer Sektor
Sekundärer Sektor
Tertiärer Sektor
Abb. 3.5: Stabdiagramm der Anzahl der Erwerbstätigen je Sektor (2001)
Die Grafik der Abb. 3.5 wird in SPSS erstellt mit dem Aufruf im SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Balken – Einfach. Ein Balkendiagramm für unsere Tabelle aus Abb. 3.2, erstellt mit diesem SPSSDialog (ergänzt um die Option „Balkenbeschriftung“), sieht ähnlich aus wie unser nachfolgendes Ergebnis mit EXCEL:
3. Präsentation statistischer Ergebnisse
29
Erwerbstätige in Deutschland nach Wirtschaftsbereichen 2001 70,0
64,7
60,0
Anteile in %
50,0 40,0
33,0
30,0 20,0 10,0
2,4
0,0 Primärer Sektor
Sekundärer Sektor
Tertiärer Sektor
Abb. 3.6: Balkendiagramm
Das Strecken- oder Balkendiagramm hat den großen Vorteil, dass die Y-Achse zum Ablesen der Einzelwerte herangezogen werden kann, was bei Grafiken mit Flächen und räumlichen Darstellungen meist nicht mehr der Fall ist.
Erwerbstätige in Deutschland nach Wirtschaftsbereichen (früheres Bundesgebiet)
Anteile in %
100% 90% 80% 70% 60% 50% 40% 30% 20% 10%
Tertiärer Sektor Sekundärer Sektor Primärer Sektor
0% 1960
1970
1980
1991
Abb. 3.7: Gestapeltes Balkendiagramm
2001
Grundlagen
30
Mehrdimensionale Balkendiagramme können in SPSS erstellt werden über den SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Balken – Gestapelt. Ein entsprechendes Diagramm in Abb. 3.7 zeigt vier Verteilungen im Vergleich. Bei eindeutigen Entwicklungen – wie im Beispiel der drei Sektoren – ist die Information aus dem Diagramm klar. Bei weniger eindeutigen Unterschieden zwischen den Segmenten der Balken und bei unvorsichtigem Umgang mit Schraffierungen und/oder Farben können die „gestapelten“ Balkendiagramme sehr unübersichtlich werden! Die Computerprogramme bieten noch zahlreiche Möglichkeiten der grafischen Verfeinerung von Balkendiagrammen. Optionen wie 3-D-Schatten hinter den Balken und die Wahl modifizierter Balkenformen etc. stehen zur Verfügung. x
Kreisdiagramm (Kuchendiagramm, Pie-Chart)
Das Kreisdiagramm (Kuchendiagramm, Pie-Chart) stellt statistische Ergebnisse durch Segmente innerhalb eines Kreises dar. Die Mittelpunktswinkel müssen proportional zu den Werten der Analysevariablen sein. Auch die Größe des Kreises kann eine Rolle spielen, wenn z.B. zwei verschieden große Gesamtheiten verglichen werden.
Erwerbstätige in Deutschland nach Wirtschaftsbereichen 2001 - Anteile in %
2,4 33,0
64,7
Primärer Sektor
Sekundärer Sektor
Teritärer Sektor
Abb. 3.8: Kreisdiagramm – zweidimensionale Darstellung
Das Kreisdiagramm für denselben Sachverhalt wie oben, ist in Abb. 3.8 dargestellt, wobei hier Zahlenangaben ergänzt wurden. Dies ist insbesondere beim Kreisdiagramm hilfreich, da eine „genaue“ Unterscheidung der Segmentgrößen nur selten möglich ist. Die SPSS-Menüfolge („Anteile“ sind Variable) lautet: SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Kreis – Auswertung über Kategorien einer Variablen.
3. Präsentation statistischer Ergebnisse
31
Je besser die grafischen Möglichkeiten der Computerprogramme werden, desto mehr können Diagrammdarstellungen „aufgerüstet“ werden. Hier ist weniger an optische Spielereien gedacht, wie z.B. die Aufteilung des Welt-Reifenmarkts im Kreisdiagramms als Autoreifen darzustellen. Vielmehr gibt es zahlreiche Möglichkeiten, die Grafiken anschaulicher werden und geradezu „leben“ zu lassen. Die aktuellen Versionen von SPSS und EXCEL erlauben hier einen Einstieg in die dritte Dimension. Der EXCEL-Aufruf lautet: EXCEL-Dialog: Einfügen – Kreis – 3D-Kreis. Die dritte Dimension dient häufig der grafischen „Aufrüstung“, ohne inhaltlich wirklich wichtig zu sein. Die eigentlichen Vorteile der dritten Dimension kommen dann zum Tragen, wenn eine „räumliche“ Analyse am Bildschirm vorgenommen werden kann (siehe „interaktive Grafiken“ in Abschnitt 3.2). x
Flächendiagramm
Anteile in %
Erwerbstätige in Deutschland nach Wirtschaftsbereichen (früheres Bundesgebiet) 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 1960
Tertiärer Sektor Sekundärer Sektor Primärer Sektor
1970
1980
1991
2001
Abb. 3.9: Flächendiagramm
Das oben erörterte Kreisdiagramm ist ein Flächendiagramm, weil es Ergebnisse mittels Flächengrößen vermittelt. Nachdem aber die Computerprogramme (auch SPSS und EXCEL) hier einen Unterschied machen, wollen wir die Flächendiagramme gesondert betrachten. Für die zeitliche Darstellung von Strukturdaten ist das Flächendiagramm eine interessante Alternative: SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Grafiken – Fläche – Gestapelt.
Grundlagen
32
Unser Beispiel in Abb. 3.9 zeigt deutlich den Trend hin zur Dienstleistungsgesellschaft durch die im Zeitverlauf immer größer werdende obere Fläche. Das Flächendiagramm vermittelt allerdings weniger die exakten Werte als vielmehr die Gesamtentwicklung im Überblick. x
Liniendiagramm (Kurvendiagramm)
Liniendiagramme drücken Sachverhalte aus, die sich durch eine gewisse Kontinuität auszeichnen. Dies ist insbesondere bei zeitlichen Verläufen der Fall. Wir können daher das obige Flächendiagramm analog als Liniendiagramm darstellen. SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Linie – Mehrfach. In Abb. 3.10 wird ebenfalls der Trend hin zur Dienstleistungsgesellschaft deutlich. Der Hauptvorteil des Liniendiagramms ist der genauere zeitliche Bezug. Man erkennt, wann der tertiäre Sektor den sekundären überholt. Eine größere Genauigkeit im Liniendiagramm ist zu erreichen, wenn Jahreswerte anstelle der Werte im 10- bzw. 11-Jahres-Abstand verwendet werden.
Erwerbstätige in Deutschland nach Wirtschaftsbereichen 80 70
Anteile in %
60 50 40 30 20 10 0 1955
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
Primärer Sektor- West
Jahr Sekundärer Sektor- West
Tertiärer Sektor- West
Primärer Sektor - Ost
Sekundärer Sektor - Ost
Tertiärer Sektor - Ost
Abb. 3.10: Liniendiagramm
Weitere Ausführungen zur Darstellung von Zeitreihen mittels Liniendiagrammen finden sich in Kapitel 17.
3. Präsentation statistischer Ergebnisse
x
33
Wahl des Maßstabs
Eine wichtige Einflussgröße der statistischen Ergebnispräsentation ist die Wahl des Maßstabs. Zur Demonstration einer entsprechenden Wahl, die durchaus als „Manipulation“ verstanden werden kann, folgt die Grafik in Abb. 3.11. Sie beinhaltet bezüglich des primären und sekundären Sektors dieselbe Information wie die Abb. 3.10. Durch die Beschränkung auf die beiden wichtigsten Sektoren und die Streckung des Maßstabes der %-Achse wird nun aber ein wesentlich „dramatischerer“ Verlauf zum Ausdruck gebracht.
Erwerbstätige in Deutschland nach Wirtschaftsbereichen 65
60
Anteile in %
55
50
45
40
35
30 1955
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
Jahr
Sekundärer Sektor- West
Tertiärer Sektor- West
Abb. 3.11: Liniendiagramm mit verändertem Maßstab
Hinweis für PC-Benutzer: Computerprogramme für Statistik – so auch SPSS und EXCEL – legen die Achseneinteilung grafischer Darstellungen meist automatisch fest. Dies ist zwar bequem für den Benutzer, birgt aber die Gefahr von „verfälschten“ Darstellungen und Fehlinterpretationen. Daher ist dringend zu empfehlen, bei jeder PC-Grafik die angebotene Achseneinteilung zu überprüfen und ggf. zu ändern!
3.1.2.2 Regionalgrafik Eine spezielle Form der Ergebnispräsentation ist die Regionalgrafik. Hierfür müssen Daten für bestimmte Regionen (Landkreise, Bundesländer, Staaten etc.) vorliegen, die in Form einer Landkarte dargestellt werden können.
Grundlagen
34
Für die Erstellung von Regionalgrafiken müssen spezielle Programme eingesetzt werden, wie z.B. MapInfo oder RegioGraph. Eine andere Möglichkeit besteht darin, Online-Angebote zu nutzen, wie z.B. die DESTATIS-GENESIS-Seite des Statistischen Bundesamts. Wir wollen das Beispiel einer Regionalgrafik zur Tourismus-Statistik des Statischen Bundesamts erörtern. So können die Daten der linken Tabelle in Abb. 3.12 in GENESIS abgerufen und – ergänzt um die ebenfalls dort verfügbaren Bevölkerungszahlen – für die Berechnungen der rechten Tabelle verwendet werden. Für die links stehende Tabelle kann die dazugehörige Regionalgrafik – nach Bundesländern – ebenfalls Online abgerufen werden – siehe Abb. 3.13. Die unterschiedlich grau schraffierten Flächen (siehe Legende) zeigen, analog zur Tabelle, die absolute Bedeutung des Tourismus für das jeweilige Bundesland auf. Hier liegt Bayern mit der Anzahl seiner Gästeankünfte auf dem ersten Platz.
Bundesland
Gäste-Ankünfte im Juli 2010 in 1000
Bundesland
Gäste-Ankünfte im Jahr 2010 je Einw.
Baden-Württemberg
1.880
MecklenburgVorpommern Hamburg
Nordrhein-Westfalen
1.593
Berlin
263
Niedersachsen MecklenburgVorpommern Hessen
1.314
Bayern
226
1.164
Schleswig-Holstein
211
Bayern
3.314
1.054
404 267
Hessen
197
Schleswig-Holstein
974
Rheinland-Pfalz
191
Berlin
821
Bremen
157
Rheinland-Pfalz
821
Baden-Württemberg
155
Sachsen
601
Brandenburg
155
Brandenburg
489
Thüringen
154
Hamburg
427
Sachsen
154
Thüringen
339
Niedersachsen
152
Sachsen-Anhalt
273
Sachsen-Anhalt
118
Bremen
88
Nordrhein-Westfalen
104
Saarland
75
Saarland
73
Quelle: Statistisches Bundesamt 2011
Abb 3.12: Tourismus in Deutschland nach Bundesländern
Die rechts stehende Tabelle ergänzt diese Informationen um die Anzahl der Gästeankünfte je Einwohner, d.h. die Bedeutung des Tourismus in Relation zur Landesgröße. Hier liegt Mecklenburg-Vorpommern deutlich an der Spitze.
3. Statistische Ergebnispräsentation
35
Abb. 3.13: Regionalgrafik (Quelle: www.destatis.de/genesis)
3.1.2.3 Spezielle statistische Grafiken Teilnehmer nach Herkunftsländern (in %) Deutschland
35 30 25 20 15 Sonstige
10
Osteuropa
5
2010
0
Schweiz
Abb. 3.14: Netzdiagramm
2011
Österreich
Grundlagen
36
Computerprogramme bieten noch eine Reihe spezieller Grafiken an, die insbesondere für den Vergleich von Verteilungen geeignet sind. Außerdem wirken diese „modernen“ Grafiken im Rahmen einer Präsentation meist sehr ansprechend. Wir wollen hierzu ein Beispiel aus dem Fragebogen des Master-Projekts (siehe Abb. 4.2) erörtern: die Anteile der Herkunftsländer von Seminarteilnehmern im Jahresvergleich. Die Darstellung in Form eines Netzdiagramms (siehe Abb. 3.14) wird erstellt mit dem EXCEL-Diagramm-Assistenten. Es zeigt die Unterschiede der Verteilung zwischen 2011 und 2010 mit einer Verschiebung zugunsten Osteuropas sehr deutlich. Wird hier zusätzlich mit Farben und Verteilungsvergleichen im Bildschirmdialog gearbeitet, ist diese Darstellungsform sehr eindrucksvoll! Es gibt noch weitere spezielle grafische Darstellungen, die aber dazugehörige Methodenkenntnisse voraussetzen. Daher werden diese Grafiken (wie Polygone, Box-Plots, Streuungsdiagramme usw.) in den späteren Kapiteln bei der jeweiligen Methode vorgestellt und besprochen. Zusammenfasst sei festgehalten:
Grafiken - Vorteile ¾ Schnelle und direkte Vermittlung der Ergebnisse. ¾ Ein Bild sagt mehr als Tausend Worte – oder Tausend Zahlen. ¾ Einsatz von Farben und Formen ermöglicht intelligente und lebendige Präsentationen. - Tipps ¾ Ergänzung der Grafik um Zahlen bringt Verdeutlichung! ¾ Balkendiagramme sind meist „erste Wahl“! ¾ Segmente im Kreisdiagramme immer oben (bei 00) beginnen und die Gruppen im Uhrzeigersinn anordnen (in derselben Reihenfolge wie in der dazugehörigen Tabelle)! ¾ Flächendiagramme nur bei besonderer Eignung einsetzen! ¾ Bei Zeitreihen Liniendiagramme bevorzugen! ¾ Bei Liniendiagrammen immer genaue Achsenangaben liefern und nicht mit dem Maßstab die Darstellung „manipulieren“! ¾ Gezielter Umgang mit Farben und Schraffierungen! ¾ Gezielter Umgang mit 3D!
3. Statistische Ergebnispräsentation
37
3.2 Interaktive Ergebnispräsentation x
Interaktive Tabellen
Eine interaktive Präsentation von Tabellen bedeutet, die Ergebnistabellen im Bildschirmdialog zu verändern. Die Veränderung kann die Interpretation erleichtern und die Ergebnisse in einem sich verändernden Kontext verdeutlichen. Im Wesentlichen handelt es sich hier um folgende Funktionen, die von einigen Softwareanbietern Pivot-Funktionen (oder Pivot-Tabellen 1) genannt werden und mit einem Mausklick am Bildschirm „per Knopfdruck“ aktiviert werden können: -
Vertauschen von Zeilen und Spalten (= Transponieren einer Matrix) Verschieben von Zeilen und Spalten Anlegen und Aufheben von Gruppierungen für Zeilen und Spalten Ein- und Ausblenden von Zellen.
In SPSS lautet der Aufruf aus dem Ausgabefenster heraus: SPSS-Dialog: (Doppelklick auf Tabelle) – Pivot – Zeilen und Spalten vertauschen.
Abb. 3.15: Pivot-Funktionen bei Tabellen 1
Pivot (frz.) = Schwenkzapfen an Drehkrähnen, pivoter = sich um die eigene Achse drehen
Grundlagen
38
Abb. 3.15 zeigt ein einfaches Beispiel mit vertauschten Zeilen und Spalten, bei dem je nach Interesse an „Zeit“ oder „Sektor“ die obere oder die untere Tabelle den Sachverhalt besser vermittelt. In EXCEL wird ebenfalls eine entsprechende Funktion Pivot-Tabellen angeboten (Erläuterungen: siehe EXCEL-Hilfefunktion). x
Interaktive Grafiken mit SPSS
Interaktive Grafiken können mittels spezieller Dialogfunktionen am Bildschirm erstellt und so modifiziert werden, dass sie eine größtmögliche Aussagefähigkeit erhalten. Für die Darstellung in einem Buch ist dies weniger geeignet, vielmehr wäre eine Life-Demo am Bildschirm vorzuziehen. Hier werden lediglich die Grundfunktionen besprochen und gezeigt, wobei folgende Befehlsfolge gilt: SPSS-Dialog: Diagramme – Veraltete Dialogfelder – 3D-Balken.
Abb. 3.16: Interaktive, dreidimensionale Grafik – während der Bearbeitung: Zweidimensionale Häufigkeitsverteilung – Noten in VWL- und STATISTIK-Klausur
3. Statistische Ergebnispräsentation
39
Die Möglichkeiten der Bearbeitung am Bildschirm sind insbesondere: - Einblick-Winkel mit den beiden Stellschrauben (links) verändern - Farben und Markierungen zuordnen. Nach einigen Schritten der Bearbeitung erhalten wir die folgende Grafik:
Abb. 3.17: Interaktive Grafik – nach der Bearbeitung: Zweidimensionale Häufigkeitsverteilung – Noten in VWL- und STATISTIK-Klausur
Welche Informationen liefert eine dreidimensionale Darstellung wie die unseres Beispiels der Notenverteilung der Prüfungsfächer Statistik und VWL? - „Gleiche“ Notenkombinationen beider Fächer (gut mit gut, schlecht mit schlecht) sind „am häufigsten“. - Durchschnittliche Noten sind häufiger als gute und sehr gute. - Etwa 18 Studenten haben die Klausuren beider Fächer nicht bestanden. - Die Unterschiede der einzelnen Häufigkeiten können anhand der Anzahl-Achse beurteilt werden. Exakte Zahlenangaben hierzu müssten aus einer zweidimensionalen Tabelle entnommen werden. - Falls einzelne Ausreißer vorhanden sind, können diese „entdeckt“ werden.
40 x
Grundlagen
Interaktive Grafiken mit EXCEL
Das Anzeigen und Bearbeiten von Tabellen und Grafiken in EXCEL erfolgt automatisch, simultan und interaktiv im Start-Menü (siehe Abb. 3.18). In EXCEL können Tabellen und Grafiken parallel erstellt werden, wenn beides zusammen auf einen Bildschirm passt. Das folgende Beispiel veranschaulicht diese Möglichkeit:
Abb. 3.18: Grafik und Tabelle – simultan am EXCEL-Bildschirm
In der Praxis der Ergebnisdarstellung, vor allem aber für die Simulation bestimmter Daten- und Ergebniskonstellationen, sind die Dialogmöglichkeiten von großer Bedeutung. Diese Technik wird häufig in Controlling-Systemen eingesetzt und verbreitet sich derzeit sehr schnell als moderne Form der Präsentation statistischer Ergebnisse.
41
4. Statistik im Projekt x Leitfragen
1) Warum ist es wichtig, die statistische Analyse als Projekt zu konzipieren? 2) Was sind die Besonderheiten der statistischen Projektarbeit? 3) Welche Phasen umfasst die statistische Projektarbeit? 4) Was bedeutet ein „Master-Projekt“ für das Erlernen der statistischen Methoden?
4.1 Das Statistik-Projekt Die praktische statistische Projektarbeit ist immer Teil eines fachlichen Gesamtprojekts. Die statistische Analyse ist kein Selbstzweck, sie dient einem Untersuchungsziel und liefert Analyseergebnisse. Diese Ergebnisse sind zu interpretieren und – sofern machbar – in Aktivitäten umzusetzen. In dieser Hinsicht hat jede statistische Analyse einen Auftraggeber, der eine bestimmte Fragestellung beantwortet haben möchte. Hier einige Beispiele für solche Fragestellungen: - Wie lautet das amtliche Endergebnis der Bundestagswahl vom 27.9.2009? - Welche „Wählerwanderungen“ zwischen den Parteien hat es im Vergleich zur Wahl vor 5 Jahren gegeben? - Wie sieht die Gehalts- und Altersstruktur in den einzelnen Abteilungen eines Betriebes aus? - Warum steigen die Umsatzzahlen nicht mehr so stark, wie noch vor zwei Jahren? - Warum sinkt die Zahl der Feriengäste aus Ostdeutschland in Bayern? - Ist der Bekanntheitsgrad eines Produkts aufgrund einer Werbekampagne gestiegen? - Welcher Umsatz ist in den nächsten vier Quartalen zu erwarten?
Grundlagen
42
Aufgabe der statistischen Analyse ist es nun, diese Fragen exakt zu beantworten, oder – falls das nicht möglich ist – Anhaltspunkte, Indizien und Erklärungen für bestimmte Strukturen und Entwicklungen zu liefern. Was ist zu beachten, wenn man eine statistische Analyse in Sinne einer gut organisierten Projektarbeit durchführt? Dazu die folgende Checkliste wichtiger Fragen:
(1) Auftraggeber - Wer ist der Auftraggeber? - Wird der Auftrag innerhalb des eigenen Hauses vergeben? - Welche konkreten Vorgaben, welche konkrete Mitarbeit sind seitens des Auftraggebers zu erwarten? - Werden die Ergebnisse dem Auftraggeber persönlich präsentiert?
(2) Aufgabenstellung = Untersuchungsziel - Ist das Untersuchungsziel vom Auftraggeber bereits exakt formuliert oder gibt es nur ein Globalziel für die Untersuchung? - Wie lauten das Untersuchungsziel und die einzelnen Subziele? - Welche Genauigkeit der Ergebnisse wird aufgrund des Untersuchungsziels erwartet?
(3) Integration und Abgrenzung des Projekts - Stellt das Projekt eine erstmalige oder einmalige Analyse dar? - Gibt es frühere Untersuchungen des Auftraggebers, vergleichbare Projekte anderer Institutionen etc.? - Ist das Projekt völlig eigenständig oder Teil eines größeren Gesamtprojekts?
(4) Personal - Wer ist für die exakten fachlichen Vorgaben zuständig? - Wer nimmt die Datenerfassung vor? - Welche statistische Methodenkompetenz haben die Projektmitarbeiter? - Wer ist Projektleiter?
4. Statistik im Projekt
43
(5) Technische Ausstattung - Sind Großrechner, PCs oder Laptops vorhanden? - Können spezielle Statistik-Programme eingesetzt werden? - Erfolgt die Ergebnispräsentation mittels Papier und Folien (ggf. farbig) oder mit Video-Beamer und Computer?
(6) Datenquellen - Sind direkt auswertbare (interne oder externe) Daten verfügbar? - Müssen Daten erhoben werden? - Welcher organisatorische Aufwand entsteht für die Datenerhebung?
(7) Zeitlicher Rahmen des Projekts - Wann ist Projektbeginn, wann Projektende? - Wann können Zwischen- oder vorläufige Ergebnisse vorgelegt werden? - Wann ist der exakte Termin für Übergabe/Präsentation der Endergebnisse?
(8) Projektablauf - Kommen alle vier Phasen eines Projekts vor: Vorbereitung – Datenerhebung – Analyse – Präsentation? - Wer sind die Hauptakteure der einzelnen Phasen? - Welche Arbeitsergebnisse müssen nach den einzelnen Phasen vorliegen?
(9) Datenschutz - Wie wird die Anonymität personenbezogener Daten sichergestellt?
Die konkrete Beantwortung dieser Checkliste von Fragen trägt dazu bei, eine statistische Analyse zu planen und dem Auftrag und Projektziel entsprechend durchzuführen. Auch in diesem einführenden Lehrbuch sollen möglichst viele Elemente einer projektorientierten Vorgehensweise berücksichtigt werden. Daher wird ein BeispielProjekt skizziert und kontinuierlich weiterverfolgt.
Grundlagen
44
4.2 Ein Master-Projekt als Beispiel Eine Vielzahl der Anwendungsbeispiele in den einzelnen Kapiteln dieses Lehrbuchs bezieht sich auf ein Master-Projekt. Dieses Projekt soll als Beispiel einer fachlichen Aufgabenstellung den Rahmen und die Klammer für die konkrete Erörterung einzelner Methoden und ihrer Anwendung darstellen. Wir wollen dabei von folgender Projektstruktur ausgehen:
Phasen der statistischen Projektarbeit (im Master-Projekt) 1. Vorbereitung ¾ Thema: Analyse der Geschäftsentwicklung sowie der Kundenmeinungen und -struktur in einem Unternehmen für Fortbildungsveranstaltungen ¾ Untersuchungsziele: - Entwicklung des Umsatzes - Bewertung der Seminare durch die Teilnehmer - Kundenstruktur - Vorbereitung und Bewertung einer Werbekampagne für die Fortbildungsveranstaltungen ¾ Entwicklung eines Fragebogens für die Teilnehmerbefragung ¾ Erarbeiten eines Tabellen- und Grafik-Programmes 2. Datenerhebung ¾ Befragung der Teilnehmer ¾ Auswertung der vorhandenen Daten des Unternehmens (insbesondere Umsatzzahlen, Teilnehmerzahlen etc.) 3. Analyse ¾ Anwendung der statistischen Methoden
Ö siehe einzelne Kapitel dieses Lehrbuchs
4. Ergebnispräsentation ¾ Anwendung der Präsentationsmethoden
Ö siehe insbesondere Kapitel 3 dieses Lehrbuchs
Abb. 4.1: Phasen der statistischen Analyse im Master-Projekt
4. Statistik im Projekt
45
Das Beispiel des Master-Projekts lässt sich damit wie folgt skizzieren: Ein Veranstalter von Fortbildungsseminaren, die sich an deutschsprachige Europäer richten, möchte eine Analyse seiner Geschäftsentwicklung vornehmen. Dabei interessiert er sich für die Beurteilung der Seminare durch die Teilnehmer, deren Vorkenntnisse und weitere persönliche Merkmale. Außerdem interessieren ihn andere Daten seines Unternehmens, wie die Anzahl der Veranstaltungen und Teilnehmer, der Umsatz und die Kosten etc. x
Auswertung vorhandener Daten
Eine wichtige Datenquelle in statistischen Projekten sind vorhandene Daten, z.B. aus einer Kunden- oder Personaldatei. Eine Verwendung dieser personenbezogenen Daten ist in konkreten Auswertungsprojekten nur unter Wahrung von Anonymität und Datenschutz möglich. In unserem Master-Projekt gehen wir davon aus, dass der Gesamtumsatz des Unternehmens sowie Umsatzdaten einzelner Bereiche für einen längeren Zeitraum vorliegen. Für eine gründliche betriebswirtschaftliche Analyse müssten zusätzlich Kostendaten herangezogen werden. Die Auswertung vorhandener Daten ist in den letzten Jahren immer wichtiger geworden. Zahlreiche Unternehmen haben riesige Datenbestände, die für das operative Geschäft benötigt werden, die sich aber auch für dispositive und strategische Auswertungen eignen. In diesen Datenschätzen zu „graben“ – die entsprechende Auswertungsmethode wird „Data Mining“ genannt – und sie für Betrieb oder Institution nutzbar zu machen, ist eine der wichtigsten Entwicklungslinien der Statistik in der Zukunft. x
Fragebogen
Häufig werden eigene Erhebungen in Analyseprojekten benötigt. Für einen denkbaren Fragebogen zur Evaluation der Seminare in unserem Master-Projekt wollen wir einen Ausschnitt (siehe Abb. 4.2) definieren. Der Fragebogen besteht aus einem ersten Teil für Seminarbeurteilung und -erfolg und einem zweiten Teil für persönliche Angaben der Teilnehmer. Dieser zweite Teil wird in der Praxis häufig überschrieben mit „Ergänzende statistische Angaben“ und an den Schluss des Fragebogens gesetzt. Diese Fragen sind sehr wichtig für die spätere Differenzierung der Gesamtergebnisse, z.B. nach Alter, Geschlecht etc. Bei den Beurteilungsfragen des ersten Teils wird die beliebte „Schulnotenskala“ von 1 bis 5 verwendet. Bei dieser Skala mit einer ungeraden Anzahl von Werten ist die Einordnung einer mittleren Kategorie (teils/teils) leicht möglich. Will man den Befragten zu einer klaren Entscheidung zwischen „gut“ und „schlecht“ motivieren, wird man eine gerade Anzahl von Bewertungen festlegen. Eine moderne Variante der Beurteilung kann aus Frage 1.2 (Punkte auf einer Skala zwischen 0 und 100) entstehen, wenn der Befragte auf einer Geraden seinen Wert durch Ankreuzen eintragen kann. Die Erfassung der Antwort muss dann aber EDV-technisch erfolgen.
Grundlagen
46
Fragebogen zur Seminar-Bewertung 1. Seminarbeurteilung und Seminarerfolg 1.1 Waren Sie mit dem Seminar insgesamt zufrieden?
ja
1.2 Beurteilen Sie das Seminar auf einer Skala zwischen 0 Punkten (sehr schlecht) und 100 Punkten (sehr gut):
....... (Punkte)
1.3 Wie zufrieden waren Sie im Einzelnen …? völlig unzuunzufrieden frieden
zufrie- sehr zuden frieden
teils/ teils
nein
(1)
(2)
(3)
(4)
(5)
Wirkte der Dozent motivierend?
War der Einsatz von Medien ansprechend?
1.4 Ihr persönliches Seminar-Ergebnis Wieviele Punkte erzielten Sie im Abschlusstest?
....... (Punkte)
2. Angaben zur Person des Teilnehmers 2.1 Alter
..... (in vollendeten Lebensjahren)
2.2 Geschlecht
weiblich
männlich
2.3 Schulausbildung
Hauptschule
Gymnasium
Realschule
FH/Universität
2.4 Nationalität/Herkunft
Deutschland
Osteuropa
Österreich
andere
2.5 Berufstätigkeit
........ (in Jahren, im gegenwärtigen Beruf)
2.6 Einkommen
........ (in €, pro Monat)
Abb. 4.2: Fragebogen zum Master-Projekt (Ausschnitt)
Schweiz
4. Statistik im Projekt
x
47
Tabellen- und Grafikprogramm
Zu Beginn eines Analyseprojekts ist es zumeist schwierig, sich die Form und Gliederung von Ergebnistabellen und Grafiken konkret vorzustellen. Dieser Punkt hat auch dadurch an praktischer Bedeutung verloren, dass die Computerprogramme eine Vielzahl von Tabellen und Grafiken anbieten, unter denen man dann im Laufe eines Projekts (z.T. durch Probieren) die geeigneten findet. Doch sollte man dieses Thema nicht dem Zufall oder den technischen Möglichkeiten allein überlassen. Zumindest die zentralen Ergebnistabellen und Grafiken sollten bereits zu Beginn eines Projekts „skizziert“ werden. Modifikationen und Ergänzungen ergeben sich während der praktischen Arbeit von selbst. Wir wollen – beispielhaft für unser Projekt – zwei „Rohlinge“ von Tabellen so vorbereiten, wie wir sie aus den obigen Untersuchungszielen und dem Fragebogen bereits vor Beginn der Projektarbeit ableiten können: ¾ Eindimensionale Tabellen
Altersverteilung der Teilnehmer Alter
Anzahl
%-Anteil
20
2
0,50
21
6
1,50
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
Summe
999
100,00
Abb. 4.3: Eindimensionale Ergebnistabelle für das Master-Projekt
¾ Mehrdimensionale Tabellen Wollen wir die Motivation durch den Dozenten differenziert nach dem Geschlecht der Teilnehmer betrachten, dann kann die Ergebnistabelle wie folgt aussehen:
Grundlagen
48
Motivation durch den Dozenten nach Geschlecht der Teilnehmer Geschlecht
Motivation teils/ kaum teils ... ...
sehr
etwas
männlich
12
...
weiblich
23
...
...
Summe
45
...
...
gar nicht
Summe
...
...
...
...
...
...
...
999
Abb. 4.4: Mehrdimensionale Ergebnistabelle für das Master-Projekt
In ähnlicher Weise können wir uns bereits jetzt überlegen, dass bestimmte Balkendiagramme und andere Grafiken zur Ergebnisdarstellung benötigt werden. Diese können auf Basis der Ausführungen in Kapitel 3 skizziert werden.
4.3 Bedeutung des Master-Projekts für dieses Lehrbuch Einzelne Berechnungsbeispiele aus dem Master-Projekt werden in allen geeigneten Kapiteln und Abschnitten dieses Lehrbuchs behandelt. Das Master-Beispiel ist als roter Faden gedacht, der eine inhaltliche Verbindung und Orientierung darstellt und kontinuierlich dazu motiviert, statistische Ergebnisse hinsichtlich ihrer Aufgabenstellung zu beurteilen und einzuordnen. Ein Verzeichnis zum Master-Projekt am Ende des Lehrbuchs (siehe Anhang 1) bietet dem Leser die Möglichkeit, das vorliegenden Buch auch „projektorientiert“ zu lesen, und die Anwendung statistischer Methoden hinsichtlich eines Projektbeispiels zu verfolgen. Unabhängig vom Master-Projekt wird in den einzelnen Abschnitten mit zahlreichen zusätzlichen Beispielen gearbeitet, um andere typische und passende Anwendungsfälle mit einzubeziehen und – natürlich – um den Leser nicht mit einem einzigen Beispielthema zu ermüden.
49
5. Grundbegriffe der Statistik x Leitfragen 1) Wie wird die Gesamtheit festgelegt, für die eine statistische Analyse durchzuführen ist? 2) Was sind die einzelnen Elemente der statistischen Gesamtheit? 3) Welche Eigenschaften von statistischen Elementen sind für eine Analyse von Interesse? 4) Welche Werte statistischer Variablen können vorkommen? 5) Welche Bedeutung haben Zahlen als Werte von Variablen? 6) Wie wirken sich Skalen und Messgenauigkeit auf die statistische Analyse aus?
5.1 Statistische Gesamtheit und statistisches Element Die statistische Analyse bezieht sich auf eine definierte Gesamtheit, eine Menge von Elementen (Personen, Institutionen etc.). Während die statistische Erhebung an den einzelnen Elementen vorgenommen wird, soll das Ergebnis der Analyse für die Gesamtheit gelten. x
Statistische Gesamtheit
Eine statistische Gesamtheit (Masse) ist eine Menge von Elementen (Einheiten), die Gegenstand einer statistischen Analyse sind. Die statistische Gesamtheit wird sachlich, zeitlich und räumlich eindeutig definiert, indem für alle Elemente bestimmte Eigenschaften als identisch vorgegeben werden. Die folgenden Beispiele können dies verdeutlichen: - Wahlberechtigte für die Wahl zum Bundestag am 27.9.2009 in der Bundesrepublik Deutschland (Umfang der Gesamtheit: 62.168.489) - Seminarteilnehmer im 5. Semester der Fakultät B an einer Hochschule in der Stadt M (Umfang: 16) - Gäste eines Hotels H im Monat September 2011 im Kurort X (Umfang: 673). Zu unterscheiden ist, ob eine statistische Gesamtheit vollständig, mit allen ihren Elementen Gegenstand der statistischen Analyse ist, oder ob – aus organisatorischen oder Kostengründen – nur Teile der Gesamtheit für die Untersuchung verwendet werden können.
Grundlagen
50
Werden alle Elemente in die Untersuchung einbezogen, spricht man von der Grundgesamtheit und von einer Vollerhebung (siehe auch Kapitel 1, Abschnitt 1.4). Werden nicht alle Elemente betrachtet, spricht man von einer Teilgesamtheit (meist Stichprobe) und einer Teilerhebung. Bei der Teilerhebung ist zu unterscheiden, ob die gewonnenen Ergebnisse nur für die Teilgesamtheit gelten oder repräsentativ für die Grundgesamtheit sein sollen.
x Statistisches Element Das einzelne Element einer statistischen Gesamtheit ist die Einheit oder der Merkmalsträger. In Statistikprogrammen, wie z.B. SPSS wird die Bezeichnung Fall verwendet. Das statistische Element ist Träger einer statistischen Information.
5.2 Variable und Wert Variablen sind der inhaltliche Gegenstand statistischer Analysen, und sie konkretisieren ein Untersuchungsziel. Variablen und ihre Ausprägungen bei einzelnen Elementen sind die zentralen Größen jeder statistischen Analyse. x
Variable
Eine Variable ist ein Merkmal, d.h. eine Eigenschaft des statistischen Elements.
Gesamtheit
Wohnbevölkerung (eines Landes X an einem Stichtag T)
Element
Variablen
Einwohner
Alter, Einkommen, Beschäftigungsstatus, ...
Haushalt
Teilnehmer eines Hochschulseminars Student (einer Hochschule X in einem Semester T)
Besucher eines Freizeitparks
Familie
(an einem Wochentag T)
Abb. 5.1: Gesamtheiten, Elemente, Variablen
Haushaltsgröße, Haushaltseinkommen, Wohnungsgröße, ... Semesterzahl, Klausurnote, Urteil über Professor, ...
Familiengröße, Gesamtausgaben, Herkunftsland, Aufenthaltsdauer, ...
5. Grundbegriffe der Statistik
x
51
Wert
Der Wert ist die konkrete Ausprägung eines Merkmals bei der einzelnen statistischen Einheit. Für die obige Abb. 5.1 sind beispielsweise einzelne Werte: 23 Jahre (für Alter), 3 Personen (für Haushaltsgröße), Italien (für Herkunftsland der Besucher des Freizeitparks).
5.3 Variablentypen und -skalen x
Variablentypen, Merkmalsskalen
Variablen unterscheiden sich dadurch, dass sie bestimmte Arten von Werten (Ausprägungen) aufweisen. Außerdem ist zu beachten, ob und wie den Werten Zahlen zugeordnet werden können. So entstehen unterschiedliche Variablentypen, für die jeweils bestimmte statistische Berechnungen und Methoden von Bedeutung sind. Zusätzlich kann die Skala der Variablen benannt werden. Die Skala ist eine Vorschrift, nach der jedem Element einer Gesamtheit genau ein Wert zugeordnet werden kann. Die Arten von Variablen und Skalen gehören wie folgt zusammen und lassen sich anhand der Beispiele in Abb. 5.2 nachvollziehen:
Variablentyp
Skala
Qualitative Variable
Nominalskala
Rangvariable
Ordinalskala
Quantitative Variable
Metrische Skala
Qualitative Variablen weisen Werte auf, die sich nur nach der Art oder Kategorie unterscheiden. Eine bestimmte Reihenfolge bei der Angabe der Werte ist nicht zwingend, kann zuweilen aber sinnvoll sein. Die qualitative Variable ist meist nominalskaliert und besitzt damit „verbal“ formulierte Ausprägungen. Liegt bei einer qualitativen Variablen eine zwingende Reihenfolge ihrer Werte vor, spricht man von einer Rangvariablen, die anhand einer Ordinalskala gemessen wird. Die Ordinalskala weist verbale Ausprägungen auf, die eine Ordnung erkennen lassen, z.B. von wichtig bis unwichtig, von gut bis schlecht. Die Besonderheiten der Rangvariablen werden weiter unten erörtert. Quantitative Variablen weisen jedem Element der Gesamtheit eine reelle Zahl zu und sind metrisch skaliert. Damit folgen sie entweder einer Intervallskala (mit aussagefähigen Differenzen der Ausprägungen) oder einer Verhältnisskala (mit aussagefähigen Quotienten der Ausprägungen). Zusätzlich ist zu unterscheiden zwischen diskreten und stetigen Variablen.
Grundlagen
52
Diskrete Variablen weisen Werte auf, die eindeutig voneinander verschieden sind. Die Werte ergeben sich aus einem Zählvorgang. Liegt eine sehr große Anzahl von Werten vor, die sehr dicht beieinander liegen, kann ein diskretes Merkmals als quasi-stetig betrachtet und dargestellt werden (siehe weiter unten bei: Messniveau und Variablentyp). Bei stetigen Variablen sind alle reellen Zahlen eines Intervalls als Werte möglich. Die Werte der stetigen Variablen ergeben sich durch einen Messvorgang. Die beschränkte Messgenauigkeit sorgt allerdings dafür, dass stetige Variablen in der Praxis häufig als quasi-diskret zu betrachten sind (siehe weiter unten bei: Messniveau und Variablentyp). Alle Variablentypen können zahlenmäßige Ausprägungen aufweisen. Während bei den quantitativen Variablen die Zahlen konkrete Werte oder Ausprägungen sind, werden Zahlen bei qualitativen Variablen zur Verschlüsselung und zur computergestützten Auswertung verwendet. Bei Rangvariablen erlauben sinnvoll zugeordnete Zahlen bestimmte Berechnungen, z.B. eine Durchschnittsbildung. Hier einige Beispiele für Variablen und Skalen:
Variablentyp
Skala
Variable
Werte
Qualitativ
Nominalskala
Autofarbe
rot, weiß, ...
-„-
-„-
Reiseland
USA, Italien, ...
Rangvariable
Ordinalskala
Prüfungsnote
-„-
-„-
Bekanntheitsgrad
Quantitativ
Diskret
Kinderzahl
0, 1, 2, ...
-„-
-„-
Hotelgäste
0, 1, 2, ...
Quantitativ
Stetig
Körpergröße
158, 159, ...
-„-
-„-
Temperatur
20,7; 20,8; ...
sehr gut, gut, ... (1, 2, ...) sehr bekannt, bekannt, ...
Abb. 5.2: Variablentypen, Skalen und Werte
Schließlich sind noch das Vorhandensein und die Bedeutung eines Nullpunkts sowie die Aussagefähigkeit der Größenordnung der Werte untereinander zu betrachten. Bei quantitativen Variablen ist „Null“ als sinnvoller Wert vorhanden, bei qualitativen Variablen ist grundsätzlich kein Nullpunkt definierbar. Bei Rangvariablen kann die „Null“ bei der Verschlüsselung als „Mitte“ fungieren. Werte größer Null stehen dann für positive Einschätzungen, Werte kleiner Null für negative.
5. Grundbegriffe der Statistik
x
53
Besonderheiten der Rangvariablen
Das nachfolgende Beispiel von Schul- und Klausurnoten verdeutlicht – in einigen Varianten – die Verschlüsselung und die Verwendung von Zahlen bei einer ordinalen Variablen.
Note in Deutschland
Note in der Schweiz oder Ungarn
Note in den USA oder England
„neu definiert“
sehr gut
1
5
A
+2
gut
2
4
B
+1
befriedigend
3
3
C
0
ausreichend
4
2
D
-1
mangelhaft
5
1
E
-2
Note
Beurteilung
Note
Abb. 5.3: Rangvariable mit unterschiedlichen Ordinalskalen
Als weitere Anwendung einer Ordinalskala kann das sogenannte „Punktesystem“ in deutschen Gymnasien angesehen werden. Hier wird jede Note zusätzlich in eine eigene Dreierskala unterteilt (sehr gut plus, sehr gut, sehr gut minus usw.), so dass insgesamt folgende Zuordnung – zur Vereinfachung bezogen auf Notenziffern und Punkte – entsteht:
Note
1+
1
1-
2+
2
2-
3+
3
3-
4+
4
4-
5+
5
5-
Punkte
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Abb. 5.4: Rangvariable mit verfeinerter Ordinalskala
Wird bei dieser verfeinerten Notenskala außerdem noch die Ausprägung „Null“ für „Ungenügend“ (die unbeliebte Note 6) verwendet, weist die Ordinalskala einen Nullpunkt auf und damit eine starke Annäherung in Richtung eines quantitativen Merkmals. Wirklich „quantitativ“ wäre dann eine Mathematik-Klausur, die aus 50 Berechnungen besteht und für jedes richtige Ergebnis einen Punkt vorsieht. Die möglichen Werte lauten dann 0, 1, ..., 49, 50 Punkte.
Grundlagen
54 x
Messniveau und Variablentyp
Wie oben erläutert, kann das Messniveau den Variablentyp beeinflussen oder sogar bestimmen. Am Beispiel der Variablen Alter kann dies aufgezeigt werden. ¾ Alter als „theoretisch“ stetige Variable Wenn das Alter einer Person angegeben werden soll, dann könnte das in der Genauigkeit von Jahren, Monaten, Wochen, Tagen, Stunden, Minuten, Sekunden erfolgen (theoretisch natürlich noch viel genauer). Doch wer kennt schon seine Geburtsstunde, -minute und -sekunde so genau, dass er hier eine exakte Angabe machen könnte, vom praktischen Nutzen einer solchen Genauigkeit ganz zu schweigen. Trotzdem zeigen diese Überlegungen, dass das Alter eine stetige Variable ist, mit unendlich vielen Ausprägungen im Bereich der reellen Zahlen. ¾ Alter als „praktisch“ diskrete Variable Für die praktische Handhabung wird man das Alter in diskreten Intervallen messen, meist in ganzen Zahlen als „vollendete Lebensjahre“. Wenn man aus sachlichen Gründen eine größere Genauigkeit braucht (z.B. als Kinderarzt), kann das Alter auch in „Lebenstagen“ gemessen werden. Insgesamt liegt jetzt eine diskrete Variable vor, die als Werte die Zahlen 0, 1, 2, ... aufweist. ¾ Alter als Variable mit Klasseneinteilung Für viele Fragestellungen und insbesondere für umfangreiche Gesamtheiten wird die Angabe einzelner Jahreszahlen für das Alter nicht benötigt. Vielmehr wird man nach „Altersklassen“ unterscheiden wollen, um so die Gesamtstruktur besser zu erkennen. Damit reduziert man das Messniveau noch weiter und verzichtet auf genauere Informationen. Man gibt nur noch an, ob ein statistisches Element in die Klasse „0 bis unter 5 Jahre“, „5 bis unter 10 Jahre“ usw. gehört. ¾ Zeitpunkt der Datenerhebung (Messung) Stellen wir uns vor, das Alter soll in „vollendeten Lebensjahren“ angegeben werden. Damit wird der exakte Zeitpunkt der Frage oder Messung bedeutsam. Am heutigen Tag wird man von denjenigen Personen, die morgen Geburtstag haben, eine andere Antwort erhalten, als morgen. Diese Frage ist deshalb von praktischer Bedeutung, weil häufig aus einer Personaldatei das Geburtsdatum EDV-technisch übernommen werden kann, um damit per Computerprogramm das Alter zu berechnen. Zusammenfassend kann man zur Variablen Alter festhalten:
Alter „stetig“
Ö
Alter „diskret“
Ö
Alter „diskret und klassiert“
kann die Werte aufweisen „21,365278“ Jahre
Ö
„21“ Jahre
Ö
„20 bis unter 25 Jahre“.
5. Grundbegriffe der Statistik
55
5.4 Variablentyp und statistische Analyse Die Einteilung von Variablen in bestimmte Typen (und Skalen) hat für die praktische statistische Analyse eine Reihe von Auswirkungen. So sind insbesondere die folgenden Fragen zu beantworten: - Sind Zahlen als „natürliche“ Werte der Variablen vorhanden? - Müssen Ausprägungen – aus Gründen der zügigen Datenerfassung und/oder Auswertbarkeit – mit Buchstaben oder Zahlen verschlüsselt werden? - Können mit den Zahlen „quantitative“ Berechnungen vorgenommen werden? - Müssen statistische Methoden gewählt werden, die ohne zahlenmäßige Ausprägungen auskommen? - Sind die Ergebnisse der Analyse quantitativer oder qualitativer Natur?
5.5 Variablentypen in EXCEL und SPSS Auch die Computerprogramme, die für die Durchführung der statistischen Analyse herangezogen werden, unterscheiden verschiedene Variablentypen. Insbesondere aus Gründen der Auswertungstechnik ergeben sich hier noch zusätzliche Variablenarten. x
Variablen in SPSS
Das Programm SPSS unterscheidet die Variablentypen gemäß den Angaben in der Variablen-Ansicht (siehe Abb. 5.5). SPSS-Dialog: Variablenansicht – Hilfsfenster in einem Feld der Spalte „Typ“ öffnen Wir erkennen den Variablentyp „numerisch“ mit Angabe der Breite und der Nachkommastellen. Mit numerischen Variablen können Rechenoperationen wie Addieren, Multiplizieren, Dividieren durchgeführt werden. Die anschließend aufgeführten Variablentypen sind ebenfalls „numerisch“, sie weisen nur spezielle Eigenschaften auf, wie z.B. „Punkt“ statt Dezimalkomma, Währungsangabe etc. Eine Ausnahme stellt die letzte Variable dar. Diese „String“-Variable ist für die Eingabe von Buchstaben oder Texten vorgesehen.
Grundlagen
56
Abb. 5.5: Variablentypen in SPSS
x
Variablen in EXCEL
Die unterschiedliche Art von Variablen zeigt sich in EXCEL dadurch, dass den einzelnen Zellen innerhalb der EXCEL-Tabelle ein bestimmtes Format zugeordnet werden kann. EXCEL-Dialog: Format – Zellen – Zahlen. Als Formate stehen u.a. zur Verfügung: -
Zahl (mit einer festzulegenden Anzahl von Nachkomma-Stellen) Prozent (Zahl mit %-Zeichen) Währung (Zahl mit Währungsangabe) Datum Uhrzeit Text.
Als Besonderheit ist zu erwähnen, dass hier mit den Zeit- oder Datumsvariablen EXCEL-Berechnungen durchgeführt werden können, was z.B. für die Ermittlung einer „Dauer“ oder eines „Alters“ von Bedeutung sein kann. Der Variablentyp ist auch für die grafische Darstellung in EXCEL von Bedeutung, insbesondere bezüglich der Abszisse (X-Achse). Hier ist zu unterscheiden, ob einzelne Kategorien vorliegen oder eine exakte numerische Skala mit einem genau definierten Schnittpunkt von X- und Y-Achse.
5.6 Grundbegriffe und Variablentypen im Master-Projekt Im Master-Projekt, das in Kapitel 4 skizziert wird, kommen zahlreiche Grundbegriffe und verschiedene Variablentypen für die statistische Analyse zur Anwendung. Die Grundbegriffe betreffen die Struktur der statistischen Analyse, und die einzelnen Variablentypen legen die Anwendungsmöglichkeiten statistischer Methoden fest.
5. Grundbegriffe der Statistik
x
57
Grundbegriffe im Master-Projekt
Die statistische Gesamtheit ist zum einen das Fortbildungsunternehmen als Ganzes mit den verschiedenen Ausprägungen je Abteilung oder im Zeitverlauf (insbesondere für Umsatzanalysen etc.). Zum anderen ist es die Gesamtheit der (tatsächlichen oder potentiellen) Kunden des Unternehmens. Insbesondere die Gesamtheit der Teilnehmer der einzelnen Seminare ist hier von Bedeutung. Variablen sind die Umsätze sowie die einzelnen Fragen des Fragebogens zur Seminarbeurteilung (siehe unten: Variablentypen). Elemente sind z.B. einzelne Jahre oder Monate (bei Umsatzdaten) bzw. die einzelnen Teilnehmer. Werte sind die konkreten Umsatzzahlen bzw. die Antworten (oder codierten Angaben) zu den einzelnen Fragen. x
Variablentypen im Master-Projekt
Sehen wir uns nun den Fragebogen des Master-Projekts an (siehe Abb. 4.2 in Kapitel 4). Wir erkennen, dass verschiedene Variablentypen vorkommen, was die Anwendung unterschiedlicher statistischer Methoden zur Folge haben wird. ¾ Nominalskalierte Variablen Die Fragen nach Geschlecht, Schulausbildung, Nationalität/Herkunft der Teilnehmer liefern nominalskalierte Variablen. Eine Besonderheit stellt die qualitative Variable „Abgeschlossene Berufsausbildung“ mit den Kategorien „ja“ und „nein“ dar. Solche Variablen werden bei Befragungen häufig verwendet und können mit den Zahlen „0“ und „1“ verschlüsselt werden. Wir werden auf 0-1-Variablen bei einigen Methoden speziell zu sprechen kommen. ¾ Ordinalskalierte Variablen Die Fragen nach der Meinung zum Seminar mit der jeweiligen Rangfolge „sehr“ bis „gar nicht“ entsprechen ordinalskalierten Variablen. Die im Fragebogen angegebenen Ziffern von 1 bis 5 werden – analog Schulnoten – zur Verschlüsselung und zur Auswertung verwendet. ¾ Quantitative Variablen Die Fragen nach Alter, Berufserfahrung und Einkommen der Teilnehmer ergeben quantitative Variablen.
58
Grundlagen
Grundsätzlich sind verschiedene Variablentypen bei praktischen Projekten in der Statistik ganz typisch. Bei Befragungen ist es eher selten, dass quantitative Variablen vorliegen, die mit konkreten Zahlen zu beantworten sind. Auch wenn Variablen tatsächlich quantitativ sind, gibt man aus Gründen der Vereinfachung häufig Klassen an: Altersklassen, Einkommensklassen etc. Damit verzichtet man auf die Genauigkeit des Messniveaus zugunsten der Chance, mehr Antworten bei der Befragung zu bekommen.
59
TEIL II EINDIMENSIONALE DESKRIPTIVE STATISTIK
6. Eindimensionale Häufigkeitsverteilung x Leitfragen
1) Was ist eine eindimensionale Häufigkeitsverteilung? 2) Wie ermittelt man eine Häufigkeitsverteilung? 3) Wie wird eine Häufigkeitsverteilung dargestellt und was sagt sie aus? 4) Was ist der Vorteil von relativen Häufigkeitsverteilungen? 5) Wie vergleicht man Verteilungen?
6.1 Häufigkeitsverteilung Eine eindimensionale Häufigkeitsverteilung beruht auf einer quantitativen oder qualitativen Variablen. Diese Variable weist für jede Einheit (jeden Merkmalsträger) einen Wert auf, wobei die einzelnen Werte voneinander verschieden oder auch gleich groß sein können. Fasst man gleich große Werte zusammen und ordnet ihnen die Anzahl des Auftretens als Häufigkeiten zu, entsteht eine Häufigkeitsverteilung oder eine statistische Verteilung. Die Statistik wird vielfach auch als „Lehre von Verteilungen“ bezeichnet, daher ist der Verteilungsbegriff von ganz grundlegender Bedeutung für die statistische Analyse.
Häufigkeitsverteilung (statistische Verteilung) = Einzelne, unterschiedlich große Werte einer statistischen Variablen und dazugehörige Häufigkeiten
Die Häufigkeiten können als absolute Zahl, als %-Anteil usw. berechnet werden. Die Häufigkeitsverteilung vermittelt zunächst den Gesamteindruck einer Variablen, insbesondere hinsichtlich einer Gleichmäßigkeit oder Ungleichmäßigkeit, mit der die Werte in der Gesamtheit auftreten.
Eindimensionale deskriptive Statistik
60
Die Häufigkeitsverteilung wird benötigt, um bestimmte Eigenschaften einer Variablen zu beschreiben und darzustellen. Die Verteilung soll – zusammen mit den Parametern der Lage und Streuung (siehe Kapitel 8 und 9) – Fragen beantworten wie: Welche Werte sind typisch für die Verteilung und besonders häufig? Welche Werte liegen in der Mitte, am Rand ...? Und auch die Frage: In welchem Streubereich liegt die Verteilung? Beispiel (aus dem Master-Projekt, Kapitel 4): Ein Veranstalter von Fortbildungsseminaren will seine Teilnehmerzahl erhöhen. Zur Konzeption einer Werbekampagne möchte er zunächst wissen, welche Altersgruppen in seinen Seminaren bereits jetzt gut vertreten sind und welche Altersgruppen noch stärker aktiviert werden müssten. Zur Vorbereitung einer größeren Befragung wird in einem ausgewählten Seminar eine erste Erhebung durchgeführt, die folgendes Ergebnis für die 20 Teilnehmer (Altersangaben in Jahren) liefert: 19, 18, 22, 23, 19, 20, 25, 27, 18, 23, 19, 19, 26, 28, 24, 28, 19, 18, 21, 22. Ausgangspunkt der weiteren Überlegungen ist diese Ergebnisliste, auch Urliste genannt. Sie kann mit einem Laufindex i für die Elemente wie folgt dargestellt werden:
i
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi 19 18 22 23 19 20 25 27 18 23 19 19 26 28 24 28 19 18 21 22 Abb. 6.1: Eindimensionale Urliste
x
Ermittlung und Darstellung einer (quantitativen) Häufigkeitsverteilung
Die Ermittlung einer quantitativen Häufigkeitsverteilung erfolgt auf der Basis der ursprünglich erhobenen Daten durch Sortieren, Zusammenfassen und Zuordnen von Häufigkeiten. Eine Urliste wie in Abbildung 6.1 ist die Auflistung der einzelnen Werte in der ursprünglichen Reihenfolge der Erhebung, d.h. die ungeordnete Liste der Werte. Der Laufindex i = 1, 2, ... 20 stellt die Numerierung der Merkmalsträger dar. Eine Häufigkeitsverteilung ist eine Tabelle mit Werten einer Variablen und den dazugehörigen Häufigkeiten. Aus einer Urliste entsteht eine Häufigkeitsverteilung, indem folgende Tätigkeiten ausgeführt werden: -
Sortieren: 18, 18, 18, 19, 19, 19, 19, 19, 20, 21, 22, 22, 23, 23, 24, 25, 26, 27, 28, 28
-
Gruppieren: 18, 18, 18 - 19, 19, 19, 19, 19 - 20 - 21 - 22, 22 - .......... - 27 - 28, 28
6. Eindimensionale Häufigkeitsverteilung
61
-
Ermitteln der absoluten Häufigkeiten: 18: 3-mal, 19: 5-mal, 20: 1-mal, 21: 1-mal, 22: 2-mal ......... 27: 1-mal, 28: 2-mal
-
Ermitteln der relativen Häufigkeiten: 18: 3/20, 19: 5/20, 20: 1/20 .................................................................... 28: 2/20
-
Ermitteln der prozentualen relativen Häufigkeiten: 18: 3/20*100=15%, 19: 25%, 20: 5% ..................................................... 28: 10%
-
Ermitteln der absoluten kumulierten Häufigkeiten: 18: 3, 19: 8=(3+5), 20: 9=(8+1) ................................................................. 28: 20 Kumulierte absolute Häufigkeiten sind absolute Häufigkeiten, die als Summen aller absoluten Häufigkeiten bis zu einem bestimmten Wert entstehen. So bedeutet beispielsweise 8 für das Alter 19, dass 8 Personen ein Alter von „höchstens 19 Jahren“ aufweisen. Alle 20 Personen weisen ein Alter von „höchstens 28 Jahren“ auf.
-
Ermitteln der relativen (prozentualen) kumulierten Häufigkeiten: 18: 15%, 19: 40%=(15+25)%, 20: 45%=(40+5)% ............................... 28: 100% Kumulierte relative Häufigkeiten sind relative Häufigkeiten, die als Summen aller relativen Häufigkeiten bis zu einem bestimmten Wert entstehen. So bedeutet beispielsweise 40% für 19, dass 40% der Besucher „19 Jahre oder jünger“ sind. 45% für 20 bedeutet, dass 45% der Besucher „20 Jahre oder jünger“ sind.
-
Darstellen der Häufigkeitsverteilung: Die Verteilung wird in Form einer Tabelle oder Grafik dargestellt (siehe unten).
Von der Urliste zur Häufigkeitsverteilung (1) Sortieren
=
(2) Gruppieren =
Ordnen der Urliste Zusammenfassen gleich großer Werte
(3) Ermitteln der absoluten Häufigkeiten = Ermitteln der Anzahl der Elemente mit gleich großen Werten (4) Ermitteln der relativen Häufigkeiten = Dividieren der absoluten Häufigkeiten durch die Gesamtzahl der Merkmalsträger (5) Ermitteln der prozentualen relativen Häufigkeiten = Multiplizieren der relativen Häufigkeiten mit 100 (6) Ermitteln von kumulierten Häufigkeiten (bei Bedarf) (7) Darstellen der Häufigkeitsverteilung als Tabelle oder Grafik
Eindimensionale deskriptive Statistik
62
6.2 Arbeitstabelle – Symbole – Formeln Die Arbeitstabelle (siehe Abb. 6.2) ist eine erste, elementare Form der Darstellung einer Häufigkeitsverteilung und zugleich Ausgangspunkt zahlreicher statistischer Berechnungen. In der Arbeitstabelle werden Symbole und Formeln sowie der Laufindex (j) der Werte angegeben. Wichtig ist die Summenzeile, wobei aber Summen nicht für alle Spalten sinnvoll sind.
A
B
C
D
1
j
xj
fj
Fj
hj
2
1 2 3 4 5 6 7 8 9 10 11 Summe
3 5 1 1 2 2 1 1 1 1 2 20
3 8 9 10 12 14 15 16 17 18 20 -
0,15 0,25 0,05 0,05 0,10 0,10 0,05 0,05 0,05 0,05 0,10 1,00
3 4 5 6 7 8 9 10 11 12 13
18 19 20 21 22 23 24 25 26 27 28 -
E
F
h j' 15,0 25,0 5,0 5,0 10,0 10,0 5,0 5,0 5,0 5,0 10,0 100,0
G
Hj' 15,0 40,0 45,0 50,0 60,0 70,0 75,0 80,0 85,0 90,0 100,0 -
Abb. 6.2: Arbeitstabelle zur eindimensionalen Häufigkeitsverteilung (als EXCEL-Tabelle)
Diese Arbeitstabelle wurde mit EXCEL erstellt (siehe Spalten- und Zeilenbezeichnung). Die ersten drei Spalten wurden direkt in die Tabelle eingegeben, die übrigen Spalten und die Summenzeile wurden über Rechenfunktionen ermittelt: - Kumulierte Häufigkeiten Fj (rekursive Summenbildung der Häufigkeiten): EXCEL-Funktion: Da die erste Häufigkeit in Feld C2 steht, ist die erste kumulierte Häufigkeit in Feld D2=C2. Die zweite kumulierte Häufigkeit lautet D3=D2+C3 und kann über die ganze Tabelle nach unten gezogen werden. - Relative Häufigkeiten hj (Dividieren der absoluten Häufigkeiten durch 20): EXCEL-Funktion: E2=C2/$C$13 etc. - Prozentuale Häufigkeiten hj‘ (Multiplizieren der relativen Häufigkeiten mit 100): EXCEL-Funktion: F2=E2*100 etc. - Summenzeile: EXCEL-Summenfunktion für die jeweilige Spalte. Die in der Tabelle von Abb. 6.2 verwendeten Symbole und Formeln werden in der nachfolgenden Übersicht zusammengefasst und erläutert. Außerdem werden einige der Grundbegriffe aus Kapitels 5 angewandt.
6. Eindimensionale Häufigkeitsverteilung
Symbol
Formel
63
Bedeutung
Beispiel (ÖAbb. 6.1 u. 6.2)
(6-1)
n
Umfang der statistischen Gesamtheit
20
(6-2)
X
Variable, Merkmal
Alter
Laufindex der Merkmalsträger; Laufindex der Urliste (i läuft von 1 bis n) einzelner Wert der Urliste, Merkmalsausprägung (des i-ten Elements)
(6-3)
i
(6-4)
xi
(6-5)
i‘
(6-6)
m
(6-7)
j
(6-8)
xj
einzelner Wert der Häufigkeitsverteilung
18, 19 ... 28
(6-9)
fj
absolute Häufigkeit (des j-ten Werts)
3, 5 ... 2
(6-10)
hj
fj / n
relative Häufigkeit (des j-ten Werts)
3/20, 5/20 ... 2/20
(6-11)
hj‘
hj . 100
relative Häufigkeit in % (des j-ten Werts)
15%, 25% ... 10%
(6-12)
Fj
Fj-1 + fj
kumulierte absolute Häufigkeit (des j-ten Werts)
3, 8 (=3+5) ... 20
(6-13)
Hj
Hj-1 + hj
(6-14)
Hj‘
Hj . 100
Laufindex der sortierten Urliste (i‘ läuft von 1 bis n) Anzahl unterschiedlich großer Werte einer Verteilung Laufindex der unterschiedlich großen Werte; Laufindex der Häufigkeitsverteilung (j läuft von 1 bis m)
kumulierte relative Häufigkeit (des j-ten Werts) kumulierte relative Häufigkeit in % (des j-ten Werts)
1, 2 ... 20
19, 18 ... 22 1, 2 ... 20
11
1, 2 ... 11
3/20, 8/20 ... ... 20/20 15%, 40% ... ... 100%
Eindimensionale deskriptive Statistik
64
Die folgende Tabelle 6.3 zeigt den Weg von der sortierten Urliste zur Häufigkeitsverteilung komprimiert auf. Wir erkennen den Übergang von der sortierten Urliste zur Verteilung mit den Werten xj und den Häufigkeiten fj.
i'
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi' 18 18 18 19 19 19 19 19 20 21 22 22 23 23 24 25 26 27 28 28 j
1
2
3
4
5
6
7
9 10
11
xj
18
19
20 21
22
23
24 25 26 27
28
fj
3
5
1
2
2
1
2
1
8
1
1
1
Abb. 6.3: Von der sortierten Urliste zur Häufigkeitsverteilung (quantitative Variable)
x
Häufigkeitsverteilung für qualitative Variablen
Was für eine quantitative Variable gezeigt wurde, gilt in ähnlicher Weise für qualitative Variablen. Die nachfolgende Abb. 6.4 zeigt für das Merkmal „Geschlecht“ (mit den Ausprägungen m=männlich und w=weiblich) als Ausgangspunkt die ungeordnete Urliste (mit den Angaben von 20 Seminarteilnehmern).
i
1
xi
w w m m w w m m w m m m m m w m w w m m
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
Abb. 6.4: Ungeordnete Urliste (qualitative Variable)
Nach dem Ordnen der Urliste, dem Zusammenfassen gleicher Werte und dem Auszählen der Häufigkeiten ergeben sich die letzten beiden Zeilen in Abb. 6.5 als Häufigkeitsverteilung für die qualitative Variable Geschlecht.
i'
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi' m m m m m m m m m m m m w w w w w w w w j
1
2
xj
m
w
fj
12
8
Abb. 6.5: Von der sortierten Urliste zur Häufigkeitsverteilung (qualitative Variable)
6. Eindimensionale Häufigkeitsverteilung
65
Bei qualitativen Variablen gibt es keine „natürliche“ Reihenfolge der Werte, daher bieten kumulierte Häufigkeiten nicht in jedem Falle eine sinnvolle Information. Bei Vorliegen einer sachlich begründeten Reihenfolge der Werte können die kumulierten Häufigkeiten aber durchaus von Interesse sein (siehe Abschnitt 6.5.2). Zusammenfassend gelten folgende Aussagen zu den statistischen Häufigkeiten:
Häufigkeiten und ihre Eigenschaften - absolute Häufigkeiten fj (6-15)
0 d fj d n
für alle fj
Die Summe der absoluten Häufigkeiten ist gleich dem Umfang der Gesamtheit n. - relative Häufigkeiten hj (6-16)
0 d hj d 1
für alle hj
Die Summe der relativen Häufigkeiten ist 1, das entspricht 100%.
6.3 Eindimensionale Häufigkeitsverteilung am PC In EXCEL können Häufigkeitsverteilungen über die Funktion HÄUFIGKEIT im Funktions-Assistenten oder die Analyse-Funktion HISTOGRAMM ermittelt werden. Beide Funktionen sind nicht sehr flexibel und bequem. Dagegen können Verteilungen mittels des Diagramm-Assistenten sehr einfach grafisch dargestellt werden. Die Ermittlung von Häufigkeitsverteilungen ist eine der Stärken von StatistikProgrammpaketen. Hierbei ist üblicherweise die Urliste Ausgangspunkt der Aktivitäten, und zwar in Form einer PC-Datei, auf die das Statistikprogramm zugreift. Mit SPSS kommt man zur Häufigkeitsverteilung durch den SPSS-Dialog: Analysieren – Deskriptive Statistiken – Häufigkeiten. Hier kann als Option die gleichzeitige grafische Ausgabe als Balkendiagramm ausgewählt werden. Oder man fordert die Grafikausgabe getrennt an: SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Balken, wobei (nach Doppelklick auf die Grafik) mit der Funktion „Interpolationslinie hinzufügen“ die Balkendarstellung um ein Polygon ergänzt wird (siehe Abb. 6.7). Es kommt zu folgenden Ergebnisdarstellungen:
Eindimensionale deskriptive Statistik
66 x
Häufigkeitstabelle und Balkendiagramm für quantitative Variablen
Gültig
19 18 22 23 28 20 21 24 25 26 27 Gesamt
Häufigkeit 5 3 2 2 2 1 1 1 1 1 1 20
Prozent 25,0 15,0 10,0 10,0 10,0 5,0 5,0 5,0 5,0 5,0 5,0 100,0
Gültige Prozente 25,0 15,0 10,0 10,0 10,0 5,0 5,0 5,0 5,0 5,0 5,0 100,0
Kumulierte Prozente 25,0 40,0 50,0 60,0 70,0 75,0 80,0 85,0 90,0 95,0 100,0
Abb. 6.6: Häufigkeitstabelle (mit SPSS) Hinweis zu SPSS: SPSS unterscheidet für den Fall „fehlender Werte“ (z.B. nicht gegebene Antworten bei Befragungen) zwischen „Prozent“ und „gültigen Prozent“. Sind alle Werte vorhanden, so kann die Spalte „gültige Prozent“ bei der Ergebnisanzeige ausgeblendet werden, um die Darstellung nicht unnötig zu überladen.
Abb. 6.7: Balkendiagramm und Polygon (mit SPSS)
6. Eindimensionale Häufigkeitsverteilung
67
Die tabellarische und insbesondere die grafische Darstellung erlauben eine erste Interpretation des Ergebnisses: Unsere Altersverteilung weist ein Übergewicht der jüngeren Jahrgänge auf. Das Alter variiert zwischen 18 und 28 Jahren. Das Alter von 19 kommt am häufigsten vor. Die Verbindungslinie in Abb. 6.7 zwischen den einzelnen Balken bezeichnet man als Polygon. Sie ermöglicht einen zusätzlichen Gesamteindruck der Verteilung. In der praktischen Analyse werden Verteilungen meist ohne Polygon dargestellt. Zuweilen aber werden Verteilungen nur als Polygon – und damit ohne Balken – präsentiert! x
Häufigkeitstabelle und Kreisdiagramm für qualitative Variablen
Die tabellarische Darstellung für qualitative Variablen wird analog der Tabelle in der obigen Abb. 6.5 vorgenommen. Kumulierte Häufigkeiten werden zwar von SPSS automatisch mit berechnet, ihre Verwendung ist aber nur dann sinnvoll, wenn eine sachlich begründete Ordnung der Werte vorliegt. Eine grafische Darstellung wäre ebenfalls in Form des Balkendiagramms denkbar. Wir wollen die alternative Darstellungsmöglichkeit eines Kreisdiagramms wählen, die sich bei qualitativen Variablen besonders gut eignet. Im Übrigen gibt es noch weitere geeignete Darstellungsformen, z.B. das Netzdiagramm (siehe Kapitel 3, Abb. 3.14).
Anteil weiblicher und männlicher Teilnehmer weiblich 40,0%
männlich 60,0%
Abb. 6.8: Kreisdiagramm für qualitative Variablen
x
Grafische Darstellung der kumulierten Häufigkeitsverteilung
Bei kumulierten Verteilungen ist zu unterscheiden, ob eine diskrete Variable mit einzelnen, verschieden großen Werten vorliegt, oder eine stetige Variable, deren Wertebereich sich kontinuierlich über ein Intervall erstreckt.
Eindimensionale deskriptive Statistik
68
¾ Treppenfunktion für diskrete Variablen Wir stellen die kumulierten Häufigkeiten einer diskreten Variablen mittels Treppenabsätzen dar und erhalten die folgende Treppenfunktion:
relative kumulierte Häufigkeit in %
100
80
60
40
20
0 18
19
20
21
22
23
24
25
26
27
28
Alter Abb. 6.9: Treppenfunktion der diskreten Variablen
Die Treppenfunktion liefert für jeden Wert zwischen 18 und 28 eine kumulierte relative Häufigkeit. So kann z.B. für 19,0 eine kumulierte Häufigkeit von 40% abgelesen werden. 40% der Personen sind höchstens 19,0 Jahre alt. Bezeichnend für die Treppenfunktion sind die Sprungstellen bei den ganzzahligen Ausprägungen, d.h. bei den einzelnen Werten der diskreten Verteilung. Die Interpretation der Gesamtgrafik setzt am Verlauf der Treppenabsätze an. Wir erkennen links in der Verteilung größere Sprünge als rechts, insbesondere bei 19 ist die Sprunghöhe auffällig groß. Eine völlig gleichmäßige Verteilung würde eine Treppenfunktion mit gleich hohen Sprüngen liefern. ¾ Summenhäufigkeitsfunktion für stetige Variablen Bei stetigen Variablen gibt es keine Sprungstellen bei einzelnen Werten, vielmehr gehen wir von einem kontinuierlichen Verlauf der kumulierten Häufigkeiten aus (siehe Abb. 6.10). Die Variable „Alter“ eignet sich besonders gut, um den Übergang von der diskreten zur stetigen Variablen zu verdeutlichen. Bei einer gleichmäßigen Verteilung von Personen innerhalb der einzelnen Altersklassen (der xjjährigen) steht der lineare Anstieg der Summenhäufigkeitsfunktion für Proportiona-
6. Eindimensionale Häufigkeitsverteilung
69
lität von Werten und Häufigkeiten. Damit wäre z.B. die Hälfte der Elemente der ersten Klasse bis zu 18,5 Jahre alt etc.
relative kumulierte Häufigkeit in %
100
80
60
40
20
0 18
19
20
21
22
23
24
25
26
27
28
29
Alter
Abb. 6.10: Summenhäufigkeitsfunktion der stetigen Variablen
6.4 Interpretation der Häufigkeitsverteilung x
Bedeutung und Motivation der Ergebnisinterpretation
Analyse und Ergebnisdarstellung einer Häufigkeitsverteilung sollen nicht unkommentiert im Raum stehen bleiben. So wurden im letzten Abschnitt bereits einige Aspekte der Ergebnisinterpretation angesprochen. Für die Interpretation gilt generell: Sie erfolgt zwar unter dem Blickwinkel der statistischen Analyse, dient aber als Basis für eine abschließende inhaltliche und fachliche Interpretation, für Schlussfolgerungen oder Entscheidungen. Die Ergebnisinterpretation kann aus unterschiedlicher Perspektive erfolgen: ¾ Interpretation aus der Sicht der betroffenen Verteilungselemente Eine Verteilung kann der Gesamtheit vorgelegt werden, auf die sie sich bezieht. Somit kann sich jeder einzelne Merkmalsträger persönlich - die Elemente und Ergebnisse sind ja anonymisiert! - in der Verteilung einordnen: - Gehöre ich eher zu den jüngeren oder zu den älteren Elementen der Gesamtheit? - Gehöre ich zu einer Altersgruppe, die sehr häufig vorkommt oder zu einer Gruppe, die eher schwach vertreten ist?
70
Eindimensionale deskriptive Statistik
¾ Interpretation durch den Auftraggeber in Einzelsicht Kennt der Auftraggeber die Elemente seiner Verteilung, so kann er ähnliche Fragen wie unter a) stellen, um einzelne Individuen einzuordnen: - Gehört der Teilnehmer x zu den jüngeren oder zu den älteren Teilnehmern? ¾ Interpretation durch den Auftraggeber in Gesamtsicht Wenn der Auftraggeber „seine“ Verteilung im Ganzen interpretiert, wird er Fragen nach dem Zentrum, nach dem Streubereich usw. stellen. Insbesondere wird er sich dafür interessieren, ob die Verteilung eher gleichmäßig oder ungleichmäßig ist und ob einzelne Elemente als „Ausreißer“ weit außerhalb der großen Masse der Verteilung liegen. - Was ist die Form, was sind Mittelwerte und wie ist die Streuung der Verteilung? ¾ Interpretation durch den Auftraggeber in Vergleichssicht Manche Informationen einer Verteilung besitzen zunächst keinen sichtbaren Erkenntniswert. Vielmehr kann eine Aussage über die Lage und die Streuung oftmals erst dadurch eingeordnet werden, dass man Vergleiche mit anderen Verteilungen vornimmt: - Ist die Altersverteilung der eigenen Kunden ähnlich wie bei anderen Anbietern oder gibt es deutliche Unterschiede? - Hat sich die Altersverteilung im Vergleich zum Vorjahr verändert, und was sind mögliche Ursachen hierfür? x
Beispielhafte Interpretation der Altersverteilung
Welche Fragen beantwortet nun unsere eindimensionale Häufigkeitsverteilung, dargestellt in den obigen Abb. 6.6 bis 6.10. - Gibt es einen Wert, der häufiger vorkommt als alle anderen? Die 19-jährigen Teilnehmer sind mit einer Anzahl von 5 am häufigsten vertreten. - Wie lauten der kleinste und der größte Wert dieser Verteilung? Die jüngsten Teilnehmer sind 18, die ältesten sind 28 Jahre alt. - Sind die einzelnen Altersjahrgänge eher gleich häufig oder sehr ungleichmäßig in der Gesamtheit vertreten? Die einzelnen Altersjahrgänge sind verschieden häufig vertreten. - Weist die kumulierte Darstellung besondere Sprungstellen auf? Die Verteilung weist zu Beginn größere Sprungstellen auf als am Ende.
6. Eindimensionale Häufigkeitsverteilung
71
- Ist die Verteilung symmetrisch oder unsymmetrisch? Die Verteilung ist unsymmetrisch, weil die jüngeren Altersjahrgänge häufiger vorkommen als die mittleren und älteren. - Weist die Verteilung eine typische Form auf? Die Verteilung hat links ihren „steilen“ Bereich. Niedrige Werte sind häufiger als hohe. Die letzten beiden Fragen führen unmittelbar zum nächsten Abschnitt, der sich mit unterschiedlichen Typen von Verteilungen und Verteilungsvergleichen befasst.
6.5 Typen und Vergleiche von Verteilungen Es existieren verschiedene Formen von Verteilungen, die jeweils einen anderen Verteilungscharakter in einer Gesamtheit wiedergeben. Wir unterscheiden im Wesentlichen zwischen symmetrischen und unsymmetrischen sowie linkssteilen und rechtssteilen Verteilungen. Im folgenden Abschnitt werden diese Verteilungstypen anhand verschiedener Altersverteilungen dargelegt.
6.5.1 Typen von Verteilungen x
Linkssteile (rechtsschiefe) Verteilungen weisen höhere Häufigkeiten bei kleineren Werten und niedrigere Häufigkeiten bei größeren Werten auf.
8
Absolute Häufigkeit
7 6 5 4 3 2 1 0 18
19
20
21
22
23
24
Alter Abb. 6.11: Linkssteile (rechtsschiefe) Verteilung
25
26
27
28
Eindimensionale deskriptive Statistik
72 x
Rechtssteile (linksschiefe) Verteilungen besitzen niedrigere Häufigkeiten bei kleineren Werten und höhere Häufigkeiten bei größeren Werten.
8
Absolute Häufigkeit
7 6 5 4 3 2 1 0 18
19
20
21
22
23
24
25
26
27
28
Alter
Abb. 6.12: Rechtssteile (linksschiefe) Verteilung
x
Symmetrische Verteilungen weisen bei einander gegenüberliegenden Werten (im Vergleich zur Mitte der Verteilung) gleich hohe Häufigkeiten auf. Sie können z.B. glockenförmig (siehe Abb. 6.13) oder U-förmig (Abb. 6.14) sein. Die Symmetrie ist entweder exakt vorhanden (Abb. 6.13) oder nur näherungsweise (siehe Abb. 6.14).
6
Absolute Häufigkeit
5
4
3
2
1 0 18
19
20
21
22
23
24
25
26
27
28
Alter
Abb. 6.13: Völlig symmetrische Verteilung (in Form der Glockenkurve)
6. Eindimensionale Häufigkeitsverteilung
73
8 7
Absolute Werte
6 5 4 3 2 1 0
18
19
20
21
22
23
24
25
26
27
28
Alter Abb. 6.14: U-förmige, nahezu symmetrische Verteilung
x
Gleichverteilung: Die Gleichverteilung besitzt – als Spezialform der symmetrischen Verteilung – für alle Werte die gleiche Häufigkeit.
5
Absolute Werte
4
3
2
1
0 18
19
20
21
22
23
Alter Abb. 6.15: Gleichverteilung
24
25
26
27
28
Eindimensionale deskriptive Statistik
74 x
Unregelmäßige Verteilung: Verteilungen ohne erkennbare Form, ggf. mit Lücken, bezeichnen wir als unregelmäßige Verteilungen.
10
Absolute Häufigkeit
8
6
4
2
0 18
19
20
21
22
23
24
25
26
27
28
Alter Abb. 6.16: Unregelmäßige Verteilung
x
Bedeutung des Verteilungstyps für die statistische Analyse
Die Frage, welcher Verteilungstyp bei einer Variablen vorliegt, ist von grundsätzlichem Interesse. Die Verteilungsform deutet auf gewisse Konzentrationen in bestimmten Wertebereichen hin und erlaubt Aussagen darüber, welche Werte häufig vertreten und welche Werte weniger häufig sind. Damit stellt sich auch die Frage nach den Gründen für das Vorliegen einer bestimmten Verteilungsform: Sind einzelne Gruppen im Vergleich zu einer Referenzgruppe (z.B. der Gesamtbevölkerung) eher unter- oder überrepräsentiert und warum ist das so? Um das Ergebnis der Verteilungsanalyse zu präzisieren, werden Parameter zur Beschreibung der Verteilung benötigt (siehe Kapitel 8 und 9).
6.5.2 Verteilung sortiert nach Häufigkeiten Wir wollen wieder unsere Altersverteilung zugrunde legen und eine Sortierung nach Häufigkeiten vornehmen. So zeigt die Abb. 6.17, dass die Altersgruppen 19 und 18 an der Spitze der Häufigkeits-„Hitliste“ stehen, gefolgt von den Gruppen 22, 23 und 28. Die kumulierten Häufigkeiten in der letzten Spalte zeigen, dass mit diesen ersten fünf „Spitzenreitern“ bereits 70% der Häufigkeitssumme erreicht sind.
6. Eindimensionale Häufigkeitsverteilung
Gültig
19 18 22 23 28 20 21 24 25 26 27 Gesamt
Häufigkeit 5 3 2 2 2 1 1 1 1 1 1 20
Prozent 25,0 15,0 10,0 10,0 10,0 5,0 5,0 5,0 5,0 5,0 5,0 100,0
Gültige Prozente 25,0 15,0 10,0 10,0 10,0 5,0 5,0 5,0 5,0 5,0 5,0 100,0
75
Kumulierte Prozente 25,0 40,0 50,0 60,0 70,0 75,0 80,0 85,0 90,0 95,0 100,0
Abb. 6.17: Hitliste der Altersjahrgänge
Der SPSS-Aufruf für diese Verteilung lautet SPSS-Dialog: Analysieren – Deskriptive Statistiken – Häufigkeiten. Zusätzlich ist das Auswahlfenster für Format zu verwenden, in dem Sortieren nach absteigenden Häufigkeiten anzuklicken ist. Besonders gut eignen sich solche „Hitlisten“ für qualitative Variablen, z.B. Reiseziele, Automarken, Nationalität von Hotelgästen. In unserem Master-Projekt kann die sortierte Häufigkeitstabelle für das Herkunftsland der Teilnehmer von Fortbildungsseminaren beispielsweise so aussehen:
Gültig
Deutschland Osteuropa Österreich Schweiz Sonstige Gesamt
Häufigkeit 6 5 4 3 2 20
Prozent 30,0 25,0 20,0 15,0 10,0 100,0
Gültige Prozente 30,0 25,0 20,0 15,0 10,0 100,0
Kumulierte Prozente 30,0 55,0 75,0 90,0 100,0
Abb. 6.18: Hitliste der Herkunftsländer der Seminarteilnehmer
Zu beachten ist, dass die Zusammenfassung von Ländern zu Ländergruppen wie „Osteuropa“ oder „Sonstige“ dazu führen kann, dass diese Gruppen größere Häufigkeiten aufweisen als einzelne Länder. Hier muss man ggf. die Gruppe oder die Kategorie „Sonstige“ aus der Verteilung herausnehmen und deren Häufigkeit gesondert darstellen.
Eindimensionale deskriptive Statistik
76
6.5.3 Vergleich von Verteilungen Ein wichtiges praktisches Ziel ist es, Verteilungen verschiedener Variablen oder Teilgesamtheiten untereinander zu vergleichen. Wir wollen dies anhand der absoluten Häufigkeitsverteilungen der Variablen Alter für die 20 Seminarteilnehmer unseres Master-Projekts aufzeigen, wobei wir für die Definition der Teilgesamtheiten das Merkmal Geschlecht heranziehen. So können wir in Abb. 6.19 deutliche Verteilungsunterschiede feststellen. Wir sehen, dass bei weiblichen Teilnehmern die jüngeren Altersjahrgänge häufiger vertreten sind als die älteren. Bei den männlichen Teilnehmern verteilen sich die Werte fast über den gesamten Wertebereich, wobei mehr ältere Teilnehmer vorkommen als bei der weiblichen Gruppe. Diese Verteilung kann mittels SPSS dadurch erstellt werden, dass wir das Geschlecht als Gruppierungsvariable verwenden und dann aufrufen: SPSS-Dialog: Grafiken – Balken – Gruppiert (eine Variable). Um die Verteilungen vollständig vergleichen zu können, wird man auch Mittelwerte und Streuungsmaße heranziehen. Außerdem werden die eben skizzierten Fragestellungen und Analysen typischerweise in Form von zweidimensionalen Tabellen und Verteilungen weiter verfolgt (siehe Teil III dieses Lehrbuchs).
Absolute Häufigkeiten
4
3
2
Geschlecht
1
männlich 0
weiblich 18 19 20 21 22 23 24 25 26 27 28
Alter Abb. 6.19: Vergleich von Verteilungen
77
7. Klassierte Häufigkeitsverteilung x Leitfragen 1) Was ist der Unterschied zwischen einer klassierten und einer unklassierten Häufigkeitsverteilung? 2) Wie wird die Klassierung durchgeführt? 3) Was muss beachtet werden, wenn man mit einer gegebenen klassierten Verteilung arbeitet? 4) Welcher Informationsverlust entsteht durch die Klassierung? 5) Welcher Gewinn für Darstellung und Interpretation einer Verteilung ergibt sich durch die Klassierung?
7.1 Klassierung von Häufigkeitsverteilungen Zur Vereinfachung der Darstellung von Häufigkeitsverteilungen mit vielen verschiedenen Ausprägungen und zur Verbesserung der Interpretierbarkeit wird die Klassierung von Häufigkeitsverteilungen durchgeführt. Zahlreiche Veröffentlichungen im Bereich der amtlichen Statistik, von wissenschaftlichen Analysen oder von Managementberichten, verwenden die „klassierte“ Häufigkeitsverteilung. Es ist daher wichtig, die klassierte Verteilung kennenzulernen, um entsprechende Ergebnisse richtig verstehen und interpretieren zu können. Außerdem sollte die Technik der „Klassierung“ bekannt sein, um dieses Verfahren selbst einzusetzen und dabei Möglichkeiten und Grenzen seiner Berechnung und Darstellung einschätzen zu können. Die Klassierung entspricht einer Gruppierung in größere Intervalle, in größere Wertebereiche der Ausprägungen. Die Klassierung kann auf Basis einer stetigen oder einer diskreten Variablen durchgeführt werden und führt in jedem Falle zu einer diskreten oder zumindest quasi-diskreten Variablen. Die klassierte Variable besitzt einzelne, voneinander verschiedene Werteklassen. Die Werteklassen haben die Bezeichnung „von ... bis unter ... “ oder „über ... bis ... “.
Stetige Variable
------------ Klassierung ------------Æ quasi-diskrete Variable
Diskrete Variable
------------ Klassierung ------------Æ diskrete Variable
78
Eindimensionale deskriptive Statistik
Wir wollen die Klassierung anhand der in den vorigen Abschnitten diskutierten Altersverteilung durchführen. Um den Zusammenhang von einzelnen Werten und klassierter Verteilung sowie die Parallelität zur Erstellung einer nicht-klassierten Verteilung zu verdeutlichen, gehen wir wieder von der ungeordneten Urliste aus. Beispiel des Master-Projekts mit Altersangaben (in Jahren) von 20 Personen: 19, 18, 22, 23, 19, 20, 25, 27, 18, 23, 19, 19, 26, 28, 24, 28, 19, 18, 21, 22
Durch folgende Arbeitsschritte gelangt man zur klassierten Verteilung:
- Definieren der Klassen: unter 20 Jahre, 20 bis unter 25 Jahre, 25 Jahre und älter - Sortierten der Urliste: 18, 18, 18 , 19, 19, 19, 19, 19, 20, 21, 22, 22, 23, 23, 24, 25, 26, 27, 28, 28 - Klassieren (Gruppieren) der Urliste entsprechend der Klasseneinteilung: 18, 18, 18 , 19, 19, 19, 19, 19 - 20, 21, 22, 22, 23, 23, 24 - 25, 26, 27, 28, 28 Anmerkung: Wird die Klassierung auf der Basis einer Häufigkeitsverteilung vorgenommen, bedeutet „Klassieren“ das Zusammenfassen von unterschiedlichen Ausprägungen der Verteilung zu Klassen. Dabei kommt es zu denselben Ergebnissen wie eben angegeben. - Ermitteln der absoluten klassierten Häufigkeiten: unter 20: 8-mal, 20 bis unter 25: 7-mal, 25 und älter: 5-mal - Ermitteln der relativen klassierten Häufigkeiten: unter 20: 8/20, 20 bis unter 25: 7/20, 25 und älter: 5/20 - Ermitteln der prozentualen relativen klassierten Häufigkeiten: unter 20: 40%, 20 bis unter 25: 35%, 25 und älter: 25% - Ermitteln von kumulierten relativen klassierten Häufigkeiten (in%): unter 20: 40%, unter 25: 75%, unter 30(!): 100% - Darstellen der klassierten Häufigkeitsverteilung als Tabelle und oder Grafik: (siehe unten) Eine weitere Berechnung kann bereits jetzt erfolgen, um damit für die Weiterverarbeitung der klassierten Verteilung geeignete Werte zu bekommen: - Berechnen der Klassenmitten = (Klassenobergrenze + Klassenuntergrenze) / 2: 17,5; 22,5; 27,5 Hinweis: Bei der ersten Klasse wurde eine Untergrenze von 15 unterstellt, bei der letzten Klasse eine Obergrenze von 30.
7. Klassierte Häufigkeitsverteilung
79
Von der Urliste zur klassierten Häufigkeitsverteilung (1) Definieren der Klassen (2) Sortieren der Urliste (3) Klassieren = Zusammenfassen der Werte der sortieren Urliste oder der Häufigkeitsverteilung entsprechend den Klassendefinitionen (4) Ermitteln der absoluten Klassenhäufigkeiten = Ermitteln der Anzahl der Elemente mit gleich großen Werten je Klasse (5) Ermitteln der relativen Klassenhäufigkeiten = Dividieren der absoluten Häufigkeiten durch die Gesamtzahl der Merkmalsträger (6) Ermitteln der prozentualen relativen Klassenhäufigkeiten = Multiplizieren der relativen Häufigkeiten mit 100 (7) Ermitteln von kumulierten Klassenhäufigkeiten (8) Darstellen der klassierten Häufigkeitsverteilung als Tabelle oder Grafik
Arbeitsschritte und Ergebnis sind anhand der folgenden Tabelle nachvollziehbar:
i'
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi' 18 18 18 19 19 19 19 19 20 21 22 22 23 23 24 25 26 27 28 28 j
1
2
3
xj
15 - unter 20
20 - unter 25
25 - unter 30
fj
8
7
5
Abb. 7.1: Von der sortierten Urliste zur klassierten Häufigkeitsverteilung
Bei der Definition von Klassen für eine Auswertung – oder als Antwortkategorien auf einem Fragebogen – ist darauf zu achten, dass jeder denkbare Wert eindeutig einer Klasse zugeordnet werden kann. Überschneidungen darf es nicht geben. „Klassierung“ bedeutet immer einen Informationsverlust. Man verzichtet auf genaue Informationen über die Werte in der Klasse, d.h. die Verteilung innerhalb der Klasse. Um mit klassierten Verteilungen arbeiten und rechnen zu können, muss man Annahmen über die Verteilung der Werte in der Klasse machen. Plausibel ist die Annahme der Gleichverteilung innerhalb der Klasse. Unter dieser Voraussetzung ist die Klassenmitte ein guter Repräsentant der Klasse.
Eindimensionale deskriptive Statistik
80
7.2 Arbeitstabelle – Symbole – Formeln Die nachfolgende Tabelle zeigt eine große Ähnlichkeit mit der Arbeitstabelle der nicht-klassierten Verteilung, ebenso die dazugehörigen Symbole und Formeln.
aj 15 20 25 -
j 1 2 3 Summe
bj 20 25 30 -
mj 17,5 22,5 27,5 -
fj 8 7 5 20
Fj 8 15 20 -
hj 0,40 0,35 0,25 1,00
Hj 0,40 0,75 1,00 -
Abb. 7.2: Arbeitstabelle klassierte Häufigkeitsverteilung
Symbol
Formel
Bedeutung
Beispiel (ÖAbb.7.2 u.7.3)
(7-1)
n
Anzahl der Elemente der Gesamtheit
20
(7-2)
m
Anzahl der Klassen der Verteilung
3
(7-3)
j
Laufindex der Klassen (j läuft von 1 bis m)
1, 2, 3
(7-4)
aj
Klassenuntergrenze
15, 20, 25
(7-5)
bj
Klassenobergrenze
20, 25, 30
(7-6)
mj
Klassenmitte (repräsentiert die Klasse)
17,5; 22,5; 27,5
(7-7)
fj
absolute Klassenhäufigkeit
8, 7, 5
(7-8)
hj
fj / n
relative Klassenhäufigkeit
8/20, 7/20, 5/20
(7-9)
hj‘
hj . 100
relative Klassenhäufigkeit in %
40%, 35%, 25%
(7-10)
Fj
Fj-1 + fj
kumulierte absolute Klassenhäufigkeit
8, 15, 20
(7-11)
Hj
Hj-1 + hj
kumulierte relative Klassenhäufigkeit
8/20,15/20,20/20
(7-12)
Hj‘
Hj . 100
(aj+bj) / 2
kumulierte 40%, 75%, 100% relative Klassenhäufigkeit in %
7. Klassierte Häufigkeitsverteilung
81
7.3 Klassierte Häufigkeitsverteilung am PC x
Tabellarische Darstellung der klassierten Verteilung
Die Klassierung können wir mit SPSS vornehmen, indem wir aus der ursprünglichen Variablen durch Transformieren eine neue Variable bilden, die nur noch die Klassen-Nummer des Merkmalsträgers enthält. Zusätzlich müssen den KlassenNummern Bezeichnungen zugeordnet werden, sogenannte Labels: 1 = unter 20, 2 = 20 bis unter 25, 3 = 25 bis unter 30. Damit ergibt sich die Tabelle:
Gültig
Häufigkeit unter 20 8 20 bis unter 25 7 25 bis unter 30 5 Gesamt 20
Prozent 40,0 35,0 25,0 100,0
Gültige Prozente 40,0 35,0 25,0 100,0
Kumulierte Prozente 40,0 75,0 100,0
Abb. 7.3: Klassierte Häufigkeitstabelle mit SPSS
x
Grafik der klassierten Verteilung als Balkendiagramm
10 9
Absolute Häufigkeit
8 7 6 5 4 3 2 1 0 unter 20
20 bis unter 25
25 bis unter 30
Alter Abb. 7.4: Balkendiagramm der klassierten Häufigkeitsverteilung
Eindimensionale deskriptive Statistik
82
Entsprechend der obigen Tabelle können wir als grafische Darstellung das Balkendiagramm wählen (siehe Abb. 7.4), das jede Klasse wie eine eigenständige Merkmalsausprägung auffasst und wiedergibt. Damit entspricht dieses Diagramm der Darstellung einer diskreten Variablen, wobei die Klassenbezeichnungen analog zu einzelnen Variablenwerten verwendet werden. x
Grafik der klassierten Verteilung bei gleichen Klassenbreiten
Die Klassierung einer Variablen deutet darauf hin, dass jede reelle Zahl innerhalb der einzelnen Klassen als Ausprägung vorkommen kann. Im Beispiel der Altersverteilung bedeutet dies, dass nicht nur ganzzahlige Jahresangaben sinnvoll sind, sondern auch alle Zwischenwerte. Das Alter ist eine grundsätzlich stetige Variable. Wenn wir dieser Tatsache gerecht werden wollen, ändert sich die obige Darstellung nur geringfügig, wird aber jetzt Histogramm genannt.
Ein Histogramm ist ein Flächendiagramm, in dem die Flächen den (absoluten oder relativen) Häufigkeiten proportional sind.
Da wir in unserem Beispiel gleiche Klassenbreiten festgelegt hatten (dreimal 5 Jahre), ist die Histogrammdarstellung einfach zu erstellen und zu interpretieren (siehe Abb. 7.5). Die Häufigkeiten können wir direkt an der Ordinatenachse ablesen und jeder einzelnen Klasse zuordnen. Als Variante dieser Darstellung könnten wir auch die Grafik mit relativen Häufigkeiten wählen.
8
Absolute Häufigkeit
7 6 5 4 3 2 1 0 unter 20
25 bis unter 30 20 bis unter 25
Alter Abb. 7.5: Histogramm mit gleichen Klassenbreiten
7. Klassierte Häufigkeitsverteilung
x
83
Grafik der klassierten Verteilung bei ungleichen Klassenbreiten
Wenn wir ungleiche Klassenbreiten verwenden, wird die Histogrammdarstellung deutlich komplizierter. Wir benötigen als Ordinatenwerte jetzt die Besetzungsdichten, das sind Häufigkeiten dividiert durch die Klassenbreite. Um eine weitere stetige Variable diskutieren zu können, wählen wir als Beispiel für ungleiche Klassenbreiten die Bafög-Zahlungen für eine Gruppe von 20 Studenten. Die Angaben liegen für drei Klassen (0 bis unter 200 €, 200 bis unter 300 € sowie 300 bis unter 600 €) vor und sind in der folgenden Arbeitstabelle dargestellt:
j 1 2 3
aj 0 200 300
bj 200 300 600
mj 100 250 450
-
-
-
Summe
fj 8 6 6 20
f j* 4,00 6,00 2,00 -
hj 0,40 0,30 0,30
h j* 0,20 0,30 0,10
1,00
-
Abb. 7.6: Arbeitstabelle für die Histogrammdarstellung mit ungleichen Klassenbreiten
Folgende Symbole und Formeln werden ergänzend zu (7-1) bis (7-12) benötigt:
Symbol
Formel
Bedeutung
Beispiel (Ö Abb. 7.6)
(7-13)
Bj
bj - aj
Klassenbreite
200, 100, 300
(7-14)
B
Normierungs-Klassenbreite
100
(7-15)
fj
absolute Klassenhäufigkeit
8, 6, 6
absolute Besetzungsdichte
4 = (8/200).100 6 = (6/100).100 2 = (6/300).100
relative Klassenhäufigkeit
0,4; 0,3; 0,3
relative Besetzungsdichte
0,2 = (0,4/200).100 0,3 = (0,3/100).100 0,1 = (0,3/300).100
(7-16)
fj*
(7-17)
hj
(7-18)
hj*
.
(fj / Bj) B
.
(hj / Bj) B
Die Besetzungsdichten (7-16 und 7-18) sind Häufigkeiten, die auf eine „gedachte“ Klassenbreite von B = 100 (Normierungs-Klassenbreite) normiert sind. Entsprechend können die Ordinatenwerte des Histogramms (siehe Abb. 7.7) als absolute Häufigkeiten von 100-er Unterklassen der gesamten Verteilung interpretiert werden. Unabhängig davon entspricht die Fläche weiterhin der Häufigkeit und bestimmt die Form der Häufigkeitsverteilung.
Eindimensionale deskriptive Statistik
84
Absolute Besetzungsdichte
6
5
4
3
2
1 0
100
200
300
400
500
600
500
600
BAFÖG in Euro Abb. 7.7: Histogramm mit ungleichen Klassenbreiten
x
Grafik der kumulierten klassierten Verteilung
Relative kumulierte Häufigkeit
1,0
,8
,6
,4
,2
0,0 0
100
200
300
400
BAFÖG in Euro Abb. 7.8: Summenhäufigkeitsfunktion
7. Klassierte Häufigkeitsverteilung
85
Die Summenhäufigkeitsfunktion in Abb. 7.8 erlaubt die grafische Ermittlung von kumulierten Häufigkeiten für vorgegebene Werte, oder – umgekehrt – die Zuordnung von Werten zu vorgegebenen kumulierten Häufigkeiten. Beispielhafte Fragestellungen können sein: 1) Wieviele Studenten bekommen höchstens 300 € BAFÖG? Ca. 70%. 2) Wieviel BAFÖG bekommen 50% der Studenten mindestens? Ca. 230 € (Ö siehe grafische Lösung in Abb. 7.8). x
Gleichverteilung innerhalb der Klassen
Die Annahme und Bedeutung der Gleichverteilung in den Klassen lässt sich anhand des eben dargestellten Beispiels verdeutlichen. Wir nehmen zusätzlich an, dass eine sehr umfangreiche Untersuchung zugrunde liegt mit einer großen Anzahl von Studenten in den einzelnen Klassen. Beispielhaft wollen wir nur die erste Klasse (0 bis unter 200 €) betrachten. Die Gleichverteilung führt zu einer gleichmäßig steigenden Treppenfunktion und – bei einer sehr großen Anzahl von einzelnen Werten – annähernd zu einer Geraden. Wird die Treppenfunktion als Balkendiagramm dargestellt, erhalten wir die Abb. 7.9.
100
Kumulative Prozent
80
60
40
20
0 20
40
60
80
100 120 140 160 180 200
BAFÖG in Euro Abb. 7.9: Kumulierte Häufigkeiten innerhalb einer Klasse (bei Gleichverteilung)
Eindimensionale deskriptive Statistik
86
Werden die Abstände der Werte weiter verkleinert und wird als Darstellungsform wieder die Treppenfunktion gewählt, so lässt sich der Übergang zur Geraden deutlich erkennen.
100
Kumulative Prozent
80
60
40
20
0 5
25
45
65
85
105
125
145
165
185
BAFÖG in Euro Abb. 7.10: Kumulierte Häufigkeiten: Von der Treppenfunktion zur Geraden
7.4 Vergleich von Verteilungen Zum Abschluss dieses Kapitels soll noch auf die Frage des Vergleichs von Verteilungen eingegangen werden. Um Verteilungen unterschiedlicher Gesamtheiten oder Zeiträume miteinander zu vergleichen, ist die klassierte Verteilung besonders gut geeignet. Durch die Klassierung wird die Verteilung in sehr kompakter Weise wiedergegeben. Wir vergleichen die Altersstruktur der Bevölkerung der Bundesrepublik Deutschland in den Jahren 1950, 1975 und 1996. In der grafischen Darstellung der Abb. 7.11 werden drei klassierte Verteilungen gleichzeitig dargestellt. Die Klasseneinteilung kommt aus der amtlichen Statistik. Deutlich kommt zum Ausdruck, wie sich die Altersstruktur zugunsten der älteren Jahrgangsklassen verändert hat. Die relativen Häufigkeiten der jüngeren Altersklassen waren 1950 größer als 1975 und sind 1995 noch niedriger. In der Altersklasse „21 bis unter 40“ sind die Häufigkeiten 1975 und 1995 größer als 1950. In den beiden folgenden Altersklassen bis „unter 65“ zeigt sich ein etwas uneinheitliches Bild. In der letzten Klassen „65 und älter“ ist insbesondere der Anstieg von 1950 bis 1975 sehr markant. Die Alterspyramide, d.h. die Altersverteilung hat sich in den betrachteten 45 Jahren deutlich verändert.
7. Klassierte Häufigkeitsverteilung
87
ALTERSVERTEILUNG IN DEUTSCHLAND unter 1 1 - u. 6 Altersklassen
6 bis u. 14 14 bis u. 15 15 bis u. 18 Jahr
18 bis u. 21 21 bis u. 40
1950
40 bis u. 60 60 bis u. 65
1975
65 und älter 1995 0
10
20
30
40
Prozent Quelle: Statistisches Bundesamt (1998a)
Abb. 7.11: Entwicklung der Altersverteilung in der Bundesrepublik Deutschland
Die Folgen dieser gravierenden Verteilungsveränderungen der „Alterspyramide“ werden in der Öffentlichkeit regelmäßig diskutiert: - Verschiebung in der Rentenversicherung von den Beitragszahlern hin zu den Rentenempfängern, - Konsequenzen für den Lehrstellen- und Arbeitsmarkt, - Auswirkungen auf das Bildungssystem, - Diskrepanz zwischen Beitragseinnahmen und Ausgabensteigerungen im Gesundheitswesen. Dieses Beispiel zeigte die besondere Eignung der klassierten Verteilung für Verteilungsvergleiche. Wenn die Häufigkeiten oder %-Anteile genauer verglichen werden sollen, kann natürlich auch die tabellarische Darstellung gewählt werden, die allerdings den Gesamteindruck nicht so gut vermittelt wie die Grafik.
88
8. Lageparameter x Leitfragen 1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung? 2) Was ist der Unterschied zwischen Parametern der Lage und der Streuung? 3) Was sind die wichtigsten Lageparameter? 4) Wie werden Lageparameter berechnet und interpretiert? 5) Gibt es Besonderheiten bei Lagemaßen klassierter Verteilungen? 6) Wie erkennt man Lageparameter in grafischen Darstellungen?
8.1 Lage einer Verteilung Neben der Beurteilung der Verteilungsform, die in den letzten beiden Kapiteln ausführlich diskutiert wurde, ist die Lage einer Verteilung von Bedeutung.
Absolute Häufigkeit
6 5 4 3 2 1 0 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Alter 1. Kurs
Abb. 8.1: Lage zweier Verteilungen
2. Kurs
8. Lageparameter
89
Die Abb. 8.1 stellt die Altersverteilungen zweier Kurse mit jeweils unterschiedlichem Zentrum dar. Der erste Kurs entspricht den Seminarteilnehmern unseres Master-Beispiels und wird im weiteren Verlauf dieses Kapitels mittels verschiedener Lageparameter genauer analysiert. Wir sehen, dass die Teilnehmer des ersten Kurses insgesamt jünger sind als die des zweiten Kurses. Der grafische Vergleich der Verteilungen deutet auch eine etwas größere „Streubreite“ der linken Verteilung an. Die exakte Streuung wird mit speziellen Parametern gemessen (siehe Kapitel 9). Lageparameter werden benötigt, um typische, zentrale Werte einer Verteilung zu erhalten. Sie sagen grundsätzlich nichts über den Streubereich der Verteilung aus. Die Lageparameter charakterisieren als Kennzahlen das Zentrum (die Mitte, den Durchschnitt) und damit die Lage der Verteilung. Die Berechnung von Lageparametern kann anhand der ungeordneten Urliste, der geordneten Urliste oder der Häufigkeitstabelle erfolgen. Hierzu die Angaben des Beispiels aus unserem Master-Projekt: -
die ungeordnete Urliste der Altersangaben: 19, 18, 22, 23, 19, 20, 25, 27, 18, 23, 19, 19, 26, 28, 24, 28, 19, 18, 21, 22
-
die geordnete Urliste: 18, 18, 18, 19, 19, 19, 19, 19, 20, 21, 22, 22, 23, 23, 24, 25, 26, 27, 28, 28
-
die Häufigkeitsverteilung; siehe Abb. 8.1 (Kurs 1) oder Abb. 8.3.
Zunächst werden die elementaren Lageparameter vorgestellt: der Modus (häufigster Wert), der Median (Zentralwert) und das arithmetische Mittel (Mittelwert): x
Modus ( Modalwert, häufigster Wert) = Wert mit maximaler Häufigkeit Ö 19 (da Häufigkeit für den Wert 19 = 5 = Maximum aller Häufigkeiten)
x
Median (Zentralwert) = Wert, der die Verteilung in zwei gleich große Teile aufteilt = Wert, der die geordnete Urliste halbiert = Mitte der Verteilung mit jeweils 50% der Werte „darunter“ und „darüber“ Ö Mittelwert des 10. und 11. Werts der geordneten Urliste: 21,5 = ½ (21 + 22)
x
Arithmetisches Mittel (Mittelwert) = Summe aller Einzelwerte / Anzahl der Elemente = Durchschnittsalter Ö 21,90 = (19 + 18 + 22 + ... 22) / 20 = 438 / 20.
Für die exakte Erläuterung der Berechnungsformeln der einzelnen Lageparameter werden im weiteren Verlauf Arbeitstabellen verwendet.
Eindimensionale deskriptive Statistik
90 x
Berechnung von Lageparametern am PC
Die Berechnung der Lageparameter erfolgt mit dem PC-Programm EXCEL grundsätzlich anders als mit dem Statistikprogramm SPSS. ¾ Berechnung mit EXCEL Bei der Berechnung mit EXCEL wird die ungeordnete Urliste als EXCEL-Tabelle angelegt. Nach dem Markieren der Werte können dann über den FunktionsAssistenten diverse Lageparameter (MITTELWERT, MEDIAN, MODAL-WERT, QUANTIL, GEOMITTEL etc.) abgerufen und in einem festgelegten Tabellenfeld ausgegeben werden. Diese Berechnung lässt sich leicht in einer EXCEL-Tabelle durchführen (vgl. Kapitel 2, Abb. 2.4). Eine weitere Möglichkeit besteht darin, die Arbeitstabellen der Lageparameter (siehe Abb. 8.3) in EXCEL abzubilden und die Werte selbst zu berechnen. Hier bleibt es dem Leser überlassen, die Tabellen in EXCEL selbst einzugeben und durchzurechnen (siehe auch Kapitel 2, Abb. 2.2). ¾ Berechnung mit SPSS Mit dem Statistikprogramm SPSS können Lageparameter über mehrere Programmfunktionen abgerufen werden. Dies sind insbesondere die Funktionen Deskriptive Statistiken (siehe im weiteren Verlauf dieses Kapitels) und Häufigkeiten, die wie folgt zu bedienen sind: SPSS-Dialog: Analysieren – Deskriptive Statistiken – Häufigkeiten – Statistik (Häufigkeitstabelle nicht anzeigen).
Für unser obiges Beispiel ergibt sich folgende Ergebnisausgabe: ALTER N Mittelwert Median Modus
Gültig Fehlend
20 0 21,9000 21,5000 19,00
Abb. 8.2: Lageparameter mit SPSS
Auf die PC-Aspekte der Berechnung von Lageparametern wird im weiteren Verlauf immer dann eingegangen, wenn sich Besonderheiten ergeben, die von der eben besprochenen, sehr einfachen Anwendung abweichen. Nun zu den Lageparametern und ihren Berechnungsformeln im Einzelnen.
8. Lageparameter
91
8.2 Modus Der Modus ist der häufigste Wert einer Verteilung. Wir können den Modus, wie in Abschnitt 8.1 gezeigt, sehr einfach ermitteln, wenn eine der Häufigkeiten größer ist als alle anderen. Bedeutung und Interpretation des Modus sind danach zu unterscheiden, ob eine einfache oder eine klassierte Verteilung – möglicherweise mit ungleichen Klassenbreiten – vorliegt. Auch macht es einen Unterschied, ob eine „maximale“ Häufigkeit nur unwesentlich über den anderen Häufigkeiten liegt, oder ob dieses Maximum deutlich aus der Verteilung herausragt. x
Modus der Häufigkeitsverteilung
Zur Ermittlung des Modus bei nicht-klassierten Häufigkeitsverteilungen genügt eine Analyse der absoluten oder der relativen Häufigkeiten. Im Beispiel unserer Altersverteilung (siehe Abb. 8.3) weist der Wert 19 mit einer absoluten Häufigkeit von 5 und einer relativen Häufigkeit von 0,25 bzw. 25% ein deutliches Maximum auf und ist daher der Modus: Teilnehmer mit einem Alter von 19 Jahren sind in der untersuchten Gesamtheit am häufigsten vertreten. Fragen nach dem häufigsten Wert lassen sich in der Praxis sehr oft finden: Welche Klausurnote ist am häufigsten? Welche Zeitung wird am meisten gelesen? Welche Partei hat die meisten Stimmen? Welches Land wird am häufigsten als Reiseziel gewählt?
j 1 2 3 4 5 6 7 8 9 10 11 Summe
xj 18 19 20 21 22 23 24 25 26 27 28 -
fj 3 5 1 1 2 2 1 1 1 1 2 20
hj 0,15 0,25 0,05 0,05 0,10 0,10 0,05 0,05 0,05 0,05 0,10 1,00
h j' 15,0 25,0 5,0 5,0 10,0 10,0 5,0 5,0 5,0 5,0 10,0 100,0
Abb. 8.3: Arbeitstabelle Modus
Die Berechnung des Modus ist nicht mehr ganz so einfach wie oben gezeigt, wenn die Verteilung bestimmte Besonderheiten aufweist. x
Modus der klassierten Verteilung mit gleichen Klassenbreiten
Bei einer klassierten Verteilung mit gleichen Klassenbreiten kann der Modus ähnlich wie bei der nicht-klassierten Verteilung ermittelt werden. Die Klassenhäufigkei-
92
Eindimensionale deskriptive Statistik
ten können wie die gewöhnlichen Häufigkeiten behandelt werden, nur bei der Bestimmung des konkreten Werts für den Modus müssen wir speziell vorgehen: - Einfallsklasse des Modus ermitteln (= Klasse mit der maximalen Häufigkeit) - Klassenmitte der Einfallsklasse als Näherungswert für den Modus verwenden. Greifen wir auf das Klassierungsbeispiel aus Kapitel 7 zurück (siehe Histogramm in Abb. 7.5), dann ist die erste Klasse die Einfallsklasse des häufigsten Werts. Mit der Klassenmitte von 17,5 erhalten wir den Näherungswert für den Modus. x
Modus der klassierten Verteilung mit ungleichen Klassenbreiten
Bei klassierten Häufigkeitsverteilungen mit unterschiedlichen Klassenbreiten, dürfen wir nicht die Klassenhäufigkeit zur Ermittlung der Einfallsklasse des Modus heranziehen. Jetzt wird die Besetzungsdichte als „normierte“ Klassenhäufigkeit verwendet. Damit gilt für die Ermittlung des Modalwerts: - Einfallsklasse des Modus ermitteln (= Klasse mit maximaler Besetzungsdichte) - Klassenmitte der Einfallsklasse als Näherungswert für den Modus verwenden. Auch hier wollen wir auf ein Beispiel aus Kapitel 7 und das entsprechende Histogramm in Abb. 7.7 zurückkommen. Während die Häufigkeit der 1. Klasse größer ist als alle anderen Klassenhäufigkeiten (siehe Tabelle in Abb. 7.6), stellt bei den Besetzungsdichten (und damit auch im Histogramm) die 2. Klasse das Maximum dar. Damit können wir die Klassenmitte von 250 DM als häufigste BAFÖGZahlung angeben. x
Verteilungen mit mehreren Modi
Werden in einer Verteilung mehrere Werte oder Klassen mit exakt gleich großer „maximaler“ Häufigkeit bzw. Besetzungsdichte vorgefunden, spricht man von einer multimodalen Verteilung. Die Häufigkeitsverteilung hat mehrere Modi. Die rechnerische Ermittlung des einzelnen Modus erfolgt wie oben gezeigt. Hinweis zur PC-Anwendung: SPSS und EXCEL gehen bei multimodalen Verteilungen unterschiedlich vor. Bei mehreren gleich großen Häufigkeiten gibt SPSS an, dass mehrere Modalwerte vorhanden sind und zeigt den kleinsten davon an. EXCEL gibt „ohne Kommentar“ den kleinsten der gleich häufigen Werte als Modalwert an. x
Verteilungen ohne Modus
Sind alle Häufigkeiten einer Verteilung gleich groß, so ergibt sich kein Modus. Es liegt eine Gleichverteilung (ohne häufigsten Wert) vor. Ergänzend sei noch darauf hingewiesen, dass zur Interpretation des Modus auch die Unterschiede der Häufigkeiten betrachtet werden sollten. So kann es sein, dass in einer Verteilung mit mehreren Tausend Elementen jeder Wert etwa 100mal vorkommt. Hier würde ein Modus mit einer Häufigkeit von z.B. 103 nur unwesentlich häufiger auftreten als andere Werte mit einer Häufigkeit von knapp unter 100.
8. Lageparameter
93
Und schließlich ist auch der Fall multimodaler Verteilungen so vorstellbar, dass die (lokalen) Häufigkeitsmaxima nicht exakt gleich groß sind. Die einzelnen Modalwerte können in ihrer unmittelbaren Umgebung ein lokales Maximum darstellen und trotzdem Häufigkeiten aufweisen, die sich untereinander unterscheiden. Hier sind dann spezielle Verteilungsanalysen gefragt, z.B. die Clusteranalyse, die Gruppierungen und Ballungen von Elementen entdecken will. Zusammengefasst gelten für den Modus folgende Definitionen und Formeln.
Modus = Häufigster Wert einer Verteilung = Wert mit maximaler absoluter oder maximaler relativer Häufigkeit = Klassenmitte der Klasse mit maximaler Klassenhäufigkeit (bei gleichen Klassenbreiten) = Klassenmitte der Klasse mit maximaler Besetzungsdichte (bei ungleichen Klassenbreiten)
Modus - bei nicht-klassierter Verteilung (8-1)
M = xD
wobei fD = max (fj) bzw. hD = max (hj) mit fj = absolute Häufigkeit
hj = relative Häufigkeit - bei klassierter Verteilung mit gleichen Klassenbreiten (8-2)
M = (aE +bE) / 2
wobei fE = max (fj) bzw. hE = max (hj) mit aE ,bE = Klassenunter-/obergrenze der Einfallsklasse E des Modus fj, hj = Klassenhäufigkeiten
- bei klassierter Verteilung mit ungleichen Klassenbreiten (8-3)
M = (aE + bE) / 2
*
*
wobei fE* = max (fj ) bzw. hE* = max (hj ) mit aE ,bE = Klassenunter-/obergrenze der Einfallsklasse E des Modus fj*, hj* = Besetzungsdichten der Klassen
Eindimensionale deskriptive Statistik
94
8.3 Median Der Median ist der Zentralwert einer Verteilung. Es ist derjenige Wert, der in der Mitte der Verteilung liegt und damit die Verteilung halbiert. x
Ermittlung anhand der geordneten Urliste (n gerade)
i'
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi' 18 18 18 19 19 19 19 19 20 21 22 22 23 23 24 25 26 27 28 28
Zentralwert
Abb. 8.4: Arbeitstabelle Median (1): Geordnete Urliste – n gerade
Eine erste Berechnungsmöglichkeit für den Median gilt für die geordneten Urliste mit einer geraden Anzahl von Elementen (siehe Abb. 8.4). Jeder Wert zwischen 21 und 22 (z.B. 21,5) halbiert die Verteilung dahingehend, dass 50% der Elemente kleiner und 50% der Elemente größer als dieser Wert sind. x
Ermittlung anhand der geordneten Urliste (n ungerade)
i' 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 xi' 18 18 18 19 19 19 19 19 20 21 22 22 23 23 24 25 26 27 28 Zentralwert
Abb. 8.5: Arbeitstabelle Median (2): Geordnete Urliste – n ungerade
Analog wird der Median auf Basis der geordneten Urliste (siehe Abb. 8.5) mit einer ungeraden Anzahl von Elementen ermittelt. Der 10. Wert der Verteilung, d.h. xi‘ = x10 = 21 halbiert die Verteilung, so dass gleich viele Elemente (9) kleiner und gleich viele Elemente (9) größer als dieser Wert sind.
Median = mittlerer Wert einer Verteilung, der die Verteilung halbiert - n ungerade (n < 100) (8-4)
Z
x n 1 2
8. Lageparameter
95
- n gerade (n < 100)
(8-5)
Z
1 (x n x n ) 2 1 2
2
Die Anwendung der Formeln auf die beiden obigen Beispiele bedeutet für - n ungerade:
Z = x(19+1) / 2 = x10 = 21 und für
- n gerade:
Z = ½ (x10 + x11) = ½ (21 + 22) = 21,5.
x
Ermittlung anhand der kumulierten Häufigkeitsverteilung j 1 2 3 4 5 6 7 8 9 10 11 Summe
xj 18 19 20 21 22 23 24 25 26 27 28 -
fj 3 5 1 1 2 2 1 1 1 1 2 20
Fj 3 8 9 10 12 14 15 16 17 18 20 -
hj 0,15 0,25 0,05 0,05 0,10 0,10 0,05 0,05 0,05 0,05 0,10 1,00
h j' 15,0 25,0 5,0 5,0 10,0 10,0 5,0 5,0 5,0 5,0 10,0 100,0
Hj' 15,0 40,0 45,0 50,0 60,0 70,0 75,0 80,0 85,0 90,0 100,0 -
Abb. 8.6: Arbeitstabelle Median (3): Kumulierte Häufigkeitsverteilung
Um die Lage des Medians als Zentrum einer Verteilung mit vielen Elementen zu verdeutlichen, benötigen wir die kumulierte Häufigkeitsverteilung. Der Median ist dann derjenige Wert, der „als erster“ die Mitte der Verteilung erreicht oder „als erster“ überschreitet. Betrachten wir in Abb. 8.6 die absoluten kumulierten Häufigkeiten, dann ist 21 derjenige Wert, der die absolute kumulierte Häufigkeit von 10 (=20/2) erreicht. Damit ist auch bei 21 – und nicht nur wie oben berechnet bei 21,5 – die Mitte der relativen Häufigkeitsverteilung erreicht. Z = 21 ist also der „Zentralwert“, der sich als Mitte der kumulierten Häufigkeitsverteilung interpretieren lässt. Wäre z.B. die absolute Häufigkeit für die Ausprägung des Zentralwerts von 21 nicht 1 sondern 2, dann hätten wir (bei sonst gleichen Werten und Häufigkeiten) bei 21 eine kumulierte Häufigkeit von 11 bzw. 52,3%. Trotzdem bliebe es bei einem Z von 21, da die kumulierte relative Häufigkeit der vorhergehenden Ausprägung nur 47,6% betragen würde.
Eindimensionale deskriptive Statistik
96
Median in Häufigkeitsverteilungen = Wert, bei dem die kumulierte relative Häufigkeit 50% erreicht oder erstmals überschreitet
- unklassiert (8-6)
(ohne Interpolation)
Z = xM mit FM t
n n und FM-1 < 2 2
bzw.
Z = xM mit HM t 0,5 und HM-1 < 0,5
- klassiert
(8-7)
(lineare Interpolation mit E: Einfallsklasse des Median gemäß (8-6), d.h. E=M)
Z = aE + (
n – FE-1 ) 2
Z = aE + ( 0,5 – HE-1 )
Z = aE + ( 50 – H‘E-1 )
x
bE aE FE FE 1
bzw.
bE aE HE HE 1
bzw.
bE aE H’E H’E 1 00
Median bei klassierten Verteilungen
Der Median klassierter Verteilungen muss aus den Angaben der Klassierung „geschätzt“ werden. Die drei Varianten der obigen Formel (8-7) ermöglichen die Ermittlung des Zentralwerts auf der Basis der absoluten, der relativen oder der relativen prozentualen kumulierten Häufigkeitsverteilung. Wir wollen eine klassierte Häufigkeitsverteilung aus Kapitel 7 heranziehen, um die Berechnung durchzuführen. Die Datenbasis ist in Abb. 8.7 zu sehen. Zur Verdeutlichung dient die Summenhäufigkeitsfunktion in Abb. 8.8. In der Arbeitstabelle in Abb. 8.7 erkennen wir, dass die 2. Klasse die Einfallsklasse des Zentralwerts ist, nachdem sie eine kumulierte Häufigkeit von mindestens 10 bzw. 0,5 bzw. 50% aufweist.
8. Lageparameter
aj 15 20 25 /
j 1 2 3 Summe
fj 8 7 5 20
bj 20 25 30 /
Fj 8 15 20 /
hj 0,40 0,35 0,25 1,00
97 Hj 0,40 0,75 1,00 /
h j' 40,0 35,0 25,0 100,0
Hj' 40,0 75,0 100,0 /
Abb. 8.7: Arbeitstabelle Median – klassierte Verteilung
Berechnen wir jetzt den Zentralwert nach Formel (8-7), so ergibt sich für - die absoluten kumulierten Häufigkeiten: Z = 20 + (10 – 8) . (25 – 20) / (15 – 8) = 20 + 2 . 5 / 7 = 21,43 - die relativen kumulierten Häufigkeiten: Z = 20 + (0,5 – 0,4) . (25 – 20) / (0,75 – 0,4) = 20 + 0,1 . 5 / 0,35 = 21,43 - die prozentualen relativen kumulierten Häufigkeiten: Z = 20 + (50 – 40) . (25 – 20) / (75 – 40) = 20 + 10 . 5 / 35 = 21,43. Die Berechnung des Zentralwerts beruht immer auf der Untergrenze der Einfallsklasse E (20 bis 25). Als Schätzbetrag gemäß einer linearen Interpolation wird zum Wert 20 derjenige Anteil der Klassenbreite (25 - 20) hinzugezählt, der dem Häufigkeitsanteil innerhalb der Einfallsklasse „bis zum Zentralwert“ proportional ist. Dies ist in unserem Beispiel ein Anteil von 2/7 der Breite von 5, d.h. 1,43. Die grafische Darstellung der Interpolation nach dem Strahlensatz zeigt Abb. 8.8.:
kumulierte relative Häufigkeit in %
100
80
60
40
20
0 0
20
25
Alter
Abb. 8.8: Median, klassierte Verteilung, grafische Ermittlung
30
Eindimensionale deskriptive Statistik
98
8.4 Quantile Ähnlich wie die Ermittlung des Zentralwerts können andere „prozentuale“ Lageparameter einer Verteilung berechnet werden, wenn anstelle der 50%-Grenze andere %-Sätze verwendet werden. Damit ergeben sich Quantile einer Verteilung, d.h. Werte, die einen bestimmten %-Anteil der Verteilung vom Rest abgrenzen.
Quantil = Wert einer Häufigkeitsverteilung, bei dem p% in der Reihe der kumulierten prozentualen Häufigkeiten erreicht oder das erste Mal überschritten werden (8-8)
Qp = xr
mit H’r t p und H‘r-1 < p wobei r = Ausprägung des Laufindex der sortierten Urliste (i‘) bzw. der Häufigkeitsverteilung (j)
p = beliebiger %- Satz (z.B. 10, 25, 75, 90 %)
Insbesondere die Quartile mit 25% bzw. 75% werden in der Praxis sehr häufig verwendet, ebenso das untere 10%- und das 90%-Quantil oder die Drittelung der Verteilung durch das 33,3- und das 66,6-Perzentil. Mit EXCEL und SPSS können Quantile für jeden Prozentsatz ermittelt werden. Wir wollen für das Beispiel der Altersverteilung in Abb. 8.6 das Ergebnis betrachten. ALTER N Perzentile
Gültig Fehlend 25 33,3 50 66,6 75
20 0 19,0000 19,0000 21,5000 23,0000 24,7500
Abb. 8.9: Quantile mit SPSS
Die Quantile lassen sich teilweise direkt aus der Häufigkeitsverteilung ablesen. Beim 50%- und 75%-Quantil wird hier vom Programm analog Formel (8-5) interpoliert.
8. Lageparameter
99
8.5 Arithmetisches Mittel Das arithmetische Mittel ist der bekannteste Lageparameter einer Verteilung und auch derjenige Parameter, der üblicherweise synonym zum Begriff „Mittelwert“ verwendet wird. Wir errechnen den Durchschnitt einer Gesamtheit, indem wir die Gesamtsumme aller Werte „gleichmäßig“ auf alle Elemente verteilen bzw. „umlegen“. x
Ungewogenes arithmetisches Mittel
Das arithmetische Mittel kann aus der Urliste als „ungewogenes arithmetisches Mittel“ berechnet werden. Ungewogen bedeutet, dass jedes Element der Gesamtheit genau 1-mal in die Berechnung eingeht. In unserem Master-Beispiel (siehe Urliste in Kapitel 6, Abb. 6.1) bedeutet dies: 21,9 = 1/20 (19 + 18 + ...) = 438 / 20. Das Durchschnittsalter der 20 Personen beträgt damit 21,9 Jahre. Das bedeutet allgemein:
Ungewogenes arithmetisches Mittel = Mittelwert einer Verteilung = Quotient aus der Summe aller Einzelwerte und der Anzahl der Elemente
und in Formeln:
Ungewogenes arithmetisches Mittel
(8-9)
x
x
1 n ¦ xi ni 1
Gewogenes arithmetisches Mittel
Das gewogene arithmetische Mittel basiert auf einer Tabelle mit absoluten und/oder relativen Häufigkeiten (siehe Tabelle 8.10 unseres Master-Beispiels).
Eindimensionale deskriptive Statistik
100
Wird die Gewichtung mit absoluten Häufigkeiten vorgenommen, dann wird jeder verschieden große Wert mit der absoluten Häufigkeit multipliziert. Die Division der resultierenden Summe durch den Umfang der Gesamtheit ergibt das arithmetische Mittel. Wird die Gewichtung mit relativen Häufigkeiten vorgenommen, dann wird jeder Wert mit der relativen Häufigkeit multipliziert. Summiert man diese Produkte, so erhält man bereits durch diese Summe das arithmetische Mittel. Der Begriff der „Gewichtung“ kommt durch die relativen Häufigkeiten besonders gut zum Ausdruck. Die Summe der Gewichte beträgt 1,0 oder 100%, d.h. es werden 100 Gewichtungsprozente auf die einzelnen Werte verteilt. Das Produkt von Wert und Gewicht macht dann deutlich, welchen Anteil der einzelne Wert „gewichtet“ zum Durchschnitt beiträgt. Unsere Häufigkeitsverteilung in Abb. 8.10 verdeutlicht diesen Sachverhalt. Wir erkennen, dass für das Alter von 19 ein Merkmalsbetrag xjfj von 95 resultiert, bzw. von 4,75 bei Verwendung der relativen Häufigkeiten. Damit trägt dieser Wert – in Kombination von Ausprägung und Häufigkeit – am meisten zum Durchschnitt bei. Beim Alter von 20 ergibt sich dagegen aufgrund der Häufigkeit von 1 nur ein Beitrag von 20 bzw. 1,00 zum Gesamtdurchschnitt. Die Merkmalssumme von 438 ist natürlich dieselbe wie oben bei der Urliste. Die Division durch 20 ergibt das arithmetische Mittel von 21,9. Dies ist auch die Summe der Spalte xjhj.
j 1 2 3 4 5 6 7 8 9 10 11 Summe
xj 18 19 20 21 22 23 24 25 26 27 28 -
fj 3 5 1 1 2 2 1 1 1 1 2 20
xjfj 54 95 20 21 44 46 24 25 26 27 56 438
hj 0,15 0,25 0,05 0,05 0,10 0,10 0,05 0,05 0,05 0,05 0,10 1,00
xjhj 2,70 4,75 1,00 1,05 2,20 2,30 1,20 1,25 1,30 1,35 2,80 21,90
Abb. 8.10: Arbeitstabelle arithmetisches Mittel (für die Variable X: Alter)
In Formeln ausgedrückt gilt damit:
8. Lageparameter
101
Gewogenes arithmetisches Mittel - mit absoluten Häufigkeiten
(8-10)
x
1m ¦ x jf j nj 1
- mit relativen Häufigkeiten
m
(8-11)
x
¦ x jh j j 1
x
Rein deskriptives arithmetisches Mittel (einer Grundgesamtheit)
Die oben eingeführte Symbolik für das arithmetische Mittel bezieht sich auf eine statistische Gesamtheit mit n Elementen. Dies ist in statistischen Lehrbüchern im allgemeinen der Umfang n einer Stichprobe. Auch das Symbol für den Mittelwert ¯ x ist häufig die Bezeichnung für das arithmetische Mittel einer Stichprobe. Wir wollen im weiteren Verlauf – bis einschließlich Kapitel 17 – grundsätzlich von statistischer „Gesamtheit“ sprechen, wobei eine Grundgesamtheit oder eine Stichprobe gemeint sein kann. Nur in wenigen Einzelfällen werden wir eine Unterscheidung zwischen Grundgesamtheit und Stichprobe benötigen. Wenn wir uns explizit auf eine Grundgesamt, bestehend aus N Elementen beziehen wollen, dann gelten die folgenden Formeln:
Formeln für das rein deskriptive arithmetische Mittel - ungewogen
(8-12)
P
1 N ¦ xi Ni 1
P
1m ¦ x jf j Nj 1
- gewogen
(8-13)
Eindimensionale deskriptive Statistik
102
Wir sehen, dass für die Berechnung lediglich die Bezeichnung des Umfangs der Gesamtheit den Unterschied zwischen den obigen Formeln (8-10) und (8-13) ausmacht. Dies begründet zusätzlich die vereinfachte Vorgehensweise durch Verwendung von n für eine statistische Gesamtheit. x
Arithmetisches Mittel klassierter Verteilungen
Das arithmetische Mittel klassierter Verteilungen kann – ohne Kenntnis der Einzelwerte der Verteilung – nur auf Basis der Klassenmitten errechnet werden. Diese werden analog den ursprünglichen Merkmalsausprägungen behandelt und mit den Klassenhäufigkeiten gewichtet. Damit ergibt sich folgende Formel:
Arithmetisches Mittel der klassierten Verteilung
(8-14)
m
1m ¦ m jf j nj 1
mit
mj den Klassenmitten und fj den Klassenhäufigkeiten
Die Berechnung für die klassierte Verteilung unseres Master-Beispiels wird anhand der ersten vier Spalten der folgenden Arbeitstabelle vorgenommen:
j 1 2 3 Summe
mj 17,5 22,5 27,5 -
fj 8 7 5 20
m jf j 140,0 157,5 137,5 435,0
aj 15,0 20,0 25,0 -
a jf j 120,0 140,0 125,0 385,0
bj 20,0 25,0 30,0 -
b jf j 160,0 175,0 150,0 485,0
Abb. 8.11: Arbeitstabelle Mittelwert klassierter Verteilungen
Das arithmetische Mittel ist damit 435 / 20 = 21,75. Im Vergleich dazu war der tatsächliche Mittelwert dieser Verteilung 21,90. Der Informationsverlust durch die Klassierung hat in diesem Fall keine allzu starke Abweichung zur Folge. Würden (im Extremfall) alle Werte an der jeweiligen Klassenuntergrenze aj liegen, bekämen wir als Mittelwert 19,25 = 385,0 / 20. Dies ist die Untergrenze des tatsächlichen Mittelwerts. Liegen alle Werte an der Klassenobergrenze, dann resultiert 24,25 = 485,0 / 20. Damit lautet das Intervall für den tatsächlichen Mittelwert ohne zusätzIiche Information aus den Klassen: [19,25; 24,25[. Aufgrund der Definition der Klassen „bis unter ...“ kann die Obergrenze nicht exakt erreicht werden.
8. Lageparameter
x
103
Arithmetisches Mittel aggregierter Verteilungen
Eine klassierte Verteilung ist zwar übersichtlich, sie bringt aber einen Informationsverlust mit sich. Es liegen keine Werte der einzelnen Elemente der Verteilung vor. Ähnlich verhält es sich mit aggregierten Verteilungen. Wir haben Teilgesamtheiten einer statistischen Masse vor uns, und die einzelnen Werte sind nicht bekannt. Allerdings können bestimmte exakte Parameter der Teilgesamtheiten zur Ermittlung genauer Gesamtergebnisse beitragen.
Aggregierte Verteilung = Verteilung bestehend aus Teilgesamtheiten, die zu einer Gesamtheit zusammengefasst (= aggregiert) werden
Jede Teilgesamtheit hat ihre eigene Verteilung und ihre eigenen Lage- und Streuungsparameter. Für die Berechnung der aggregierten Lage- und Streuungsparameter sind spezielle Formeln heranzuziehen. Die klassierte Verteilung ist in dieser Hinsicht ein Spezialfall der aggregierten Verteilung. Das arithmetische Mittel einer aggregierten Verteilung kann aus den Mittelwerten der Teilgesamtheiten errechnet werden. Die Berechnungsformeln (8-15 f.) verdeutlichen, dass der aggregierte Mittelwert dadurch entsteht, dass die Mittelwerte der Teilgesamtheiten mit einem Gewicht (absolute oder relative Häufigkeit) versehen und addiert werden. Damit ist die Formel des aggregierten Mittels analog zu sehen zur Formel des Mittelwerts einer gewöhnlichen Häufigkeitsverteilung.
Arithmetisches Mittel einer aggregierten Verteilung - allgemein
(8-15)
x
1m ¦ x jf j nj 1
mit
x j den tatsächlichen arithmetischen Mittel-
fj
werten der m Teilgesamtheiten den Häufigkeiten der Teilgesamtheiten
- deskriptiv
(8-16)
P
1m ¦ P jN j Nj 1
mit P j analog x j und Nj analog fj
Für unser Beispiel der klassierten Altersverteilung bedeutet dies:
Eindimensionale deskriptive Statistik
104 j
von
bis unter
xj
fj
x jf j
1
15
20
18,625
8
149,000
2
20
25
22,143
7
155,001
3
25
30
26,800
5
134,000
-
20
438,001
Summe Abb. 8.12: Aggregierte Altersverteilung
Die drei Mittelwerte der einzelnen Klassen müssen aus den Einzelwerten jeder Klasse (siehe z.B. Urliste in Abb. 8.4) errechnet werden: 18,625 = 149 / 8, 22,143 = 155 / 7 und 26,8 = 134 / 5. Das arithmetische Mittel dieser Verteilung ergibt sich dann nach Formel (8-15): 21,90 = 438,001 / 20. Dies ist – abgesehen von der Rundungsdifferenz von 0,001 – dasselbe Ergebnis wie für den Mittelwert der ursprünglichen Verteilung (siehe oben Abb. 8.10). Ein exakt berechneter aggregierter Mittelwert ist identisch mit dem tatsächlichen Mittelwert! Eine weitere typische Anwendung der aggregierten Verteilung ergibt sich, wenn eine Gesamtheit nach einer zweiten Variablen, einer Gliederungsvariablen, aufgeteilt wird. Verwenden wir z.B. das Geschlecht der Teilnehmer als Gliederungsvariable, dann folgt daraus die nachfolgende Ergebnistabelle (siehe auch Kapitel 9, Abb. 9.14).
Ges chle cht män nlic h ALTER w eiblich ALTER
N 12 8
Summe Mittelwert 283 ,00 23,5 833 155 ,00 19,3 750
Abb. 8.13: Mittelwerte einer aggregierten Verteilung
Wir erhalten die Tabelle in Abb. 8.13 durch den Aufruf: SPSS-Dialog:
Analysieren – Deskriptive Statistiken, vorbereitet durch die Aktivität Daten – Datei aufteilen nach „Geschlecht“.
Wir sehen, dass die Mittelwerte der beiden Teilgesamtheiten verschieden sind. Der Umfang der beiden Teilgesamtheiten ist 12 bzw. 8. Mathematisch exakt ermittelt, beträgt der Mittelwert aller Teilnehmer wieder: 21,9 = (23,5833 . 12 + 19,3750 . 8) / 20 = (283,00 + 155,00) / 20 = 438,00 / 20.
8. Lageparameter
105
8.6 Geometrisches Mittel Das geometrische Mittel wird dann angewandt, wenn eine multiplikative Verknüpfung der Werte einer Verteilung oder einer Reihe sinnvoll ist. Dies gilt insbesondere für die Betrachtung zeitbezogener Werte. So wird das geometrische Mittel vorwiegend für die Ermittlung von durchschnittlichen Wachstumsraten oder Zinssätzen benötigt. Die Berechnung erfolgt ähnlich wie beim arithmetischen Mittel, nur dass anstelle der Summenbildung die Produktbildung vorliegt und anstelle einer Division durch die Anzahl die Berechnung der n-ten Wurzel (siehe auch Anhang A2.3).
Geometrisches Mittel = Mittelwert einer Verteilung, berechnet als n-te Wurzel aus dem Produkt aller Werte - ungewogen n
(8-17)
GM
n
xi i 1
- gewogen m
(8-18)
GM n
x jf j j 1
Als Beispiel wollen wir die Berechnung des durchschnittlichen Zinssatzes von Bundesschatzbriefen heranziehen. Die Arbeitstabelle 8.14 besteht aus der Auflistung von Wachstumsraten wt , die Zinssätzen entsprechen, und Wachstumsfaktoren qt = xt / xt-1 , mit xt, dem Sparguthaben im Zeitraum t. Die Wachstumsraten lassen sich direkt aus den Wachstumsfaktoren ableiten [wt = (qt - 1) . 100].
i=t 1 2 3 4 5 6 7
wt 2,50 3,00 3,50 4,25 4,50 5,00 5,00
qt 1,0250 1,0300 1,0350 1,0425 1,0450 1,0500 1,0500
Abb. 8.14: Arbeitstabelle geometrisches Mittel
Eindimensionale deskriptive Statistik
106
Das geometrische Mittel der Wachstumsfaktoren errechnet sich wie folgt:
GM
7
1,025 1,03 1,035 1,0425 1,045 1,05 2
7 1,3124
1,0396
Damit resultiert ein durchschnittlicher Zinssatz von 3,96% [=(1,0396 - 1) . 100] pro Jahr. Zur weiteren Veranschaulichung des geometrischen Mittels soll als Beispiel die Veränderung des realen Bruttoinlandsprodukts (in Milliarden Euro) der Bundesrepublik Deutschland von 2004 bis 2010 betrachtet werden. Die nachfolgende Abbildung 8.15 (Quelle: Statistisches Bundesamt (2011)) zeigt die realen Werte (gerundet) sowie die Veränderungen, Wachstumsraten und Wachstumsfaktoren. Wir sehen, dass die Berechnung des geometrischen Mittels die ursprünglichen Wachstumsraten – im Jahr 2009 einen „historischen“ Rückgang – zu einem durchschnittlichen Zuwachs von 1,07% zusammenfasst.
Jahr
BIP
Veränd.
Wt-Rate Wt-Faktor BIP(Mittel)
Veränd.
2004
2108,7
2005
2124,6
15,9
0,75
1,0075
2131
23
2006
2196,2
71,6
3,37
1,0337
2154
23
2007
2254,5
58,3
2,65
1,0265
2177
23
2008
2276,8
22,3
0,99
1,0099
2200
23
2009
2169,3
-107,5
-4,72
0,9528
2224
24
2010
2247,7
78,4
3,61
1,0361
2248
24
Geometrisches Mittel der Wt-Faktoren
1,0107
Durchschnittliche Wachstumsrate (in %)
1,07
2109
Abb. 8.15: Geometrisches Mittel für das BIP (in Milliarden Euro)
Die letzten beiden Spalten von Abb. 8.15 verdeutlichen das rechnerische Ergebnis des geometrischen Mittels. Die Gesamtveränderung von 2109 bis 2248, die tatsächlich in jährlich unterschiedlichen Schritten vorliegt, wird jetzt als stetiger Wachstumsprozess mit durchschnittlich 1,07% dargestellt. Die absoluten Veränderungen betragen (rundungsbedingt) 23 bzw. 24 Milliarden EURO, da mit zunehmendem Niveau die 1,07% einem absolut höheren Betrag entsprechen.
8. Lageparameter
107
8.7 Bedeutung und Interpretation von Lageparametern x
Zusammenhang von Variablenskala und Lageparametern
Die Berechnungsmöglichkeiten für Lageparameter hängen davon ab, welche Skalierung eine Variable aufweist. Die folgenden Übersichten zeigen die Möglichkeiten und Grenzen für die Verwendung der drei wichtigsten Lageparameter.
Lageparameter
Nominalskala
Ordinalskala
Metrische Skala
Modus
ja
ja
ja
Median
nein
ja
ja
Arithmetisches Mittel
nein
nein: mit „nominalen“ Werten ja: mit „metrischer“ Verschlüsselung
ja
Dazugehörige Beispiele der Anwendung von Lageparametern sind:
Lageparameter
Modus
Nominalskala
Ordinalskala
Metrische Skala
a) Häufigste Auto- a) Häufigste Klausur- a) Häufigster Almarke bei der note im Fach tersjahrgang Erstzulassung VWL bei Studenten b) Häufigstes Rei- b) Häufigster Beb) Häufigste Körseland der Deutliebtheitsgrad pergröße von schen eines Politikern Kunden
Median
nein
Arithmetisches Mittel
nein
a) Schlechteste a) Höchstes AlKlausurnote ter der jüngder besten 50% sten 50% im Fach VWL b) Niedrigste b) Höchster BeliebtKörpergröße heitsgrad der der größeren kritischen 50% 50% der Befragten Mit metrischer Verschlüsselung: a) Durchschnittsa) Durchschnittsnote alter b) Durchschnittsb) DurchschnittsBeliebtheitsgrad größe
Eindimensionale deskriptive Statistik
108 x
Lageparameter bei verschiedenen Verteilungsformen
Wir wollen die Unterschiede der Lageparameter bei verschiedenen Verteilungsformen anhand einer völlig symmetrischen und einer „schiefen“ Verteilung erörtern. ¾ Symmetrische Verteilung (Glockenkurve)
Modus = Zentralwert = Arithm. Mittel
6
Absolute Häufigkeit
5
4
3
2
1 0 18
19
20
21
22
23
24
25
26
27
28
Alter ALTER N Mittelwert Median Modus
Gültig
27 23,00 23,00 23
Abb. 8.16: Symmetrische Verteilung mit Lageparametern
Wir erkennen in Abb. 8.16, dass alle drei Lageparameter (das arithmetische Mittel, der Median und der Modus) identisch sind. Diese Form der symmetrischen Verteilung ist vollständig um den Wert 23,0 herum zentriert.
8. Lageparameter
109
¾ Unsymmetrische Verteilung
Modus 8
Zentralwert
Absolute Häufigkeit
7 6
Arithm. Mittel
5 4 3 2 1 0 18
19
20
21
22
23
24
25
26
27
28
Alter ALTER N Mittelwert Median Modus
Gültig
42 24,43 25,00 28
Abb. 8.17: Unsymmetrische Verteilung mit Lageparametern
Die unsymmetrische, rechtssteile Verteilung von Abb. 8.17 hat ihren häufigsten Wert beim Maximum (28). Der Zentralwert ist kleiner und befindet sich bei 25,00. Das arithmetische Mittel ist mit 24,43 noch kleiner als der Zentralwert. Das arithmetische Mittel wird von jedem der kleineren Werte der Verteilung nach links „gezogen“ und befindet sich daher am weitesten links von den drei dargestellten Lageparametern. Bei einer linkssteilen Verteilung liegt die umgekehrte Größenbeziehung der Lageparameter vor. Allgemein gilt für die Lageparameter bei unterschiedlichen Verteilungsformen:
110
Eindimensionale deskriptive Statistik
Lageparameter bei verschiedenen Verteilungsformen - symmetrische Verteilung (Glockenkurve) Arithmetisches Mittel = Zentralwert (Median) = Modus
- rechtssteile Verteilung Arithmetisches Mittel < Zentralwert (Median) < Modus
- linkssteile Verteilung Arithmetisches Mittel > Zentralwert (Median) > Modus
Zusammenfassend lässt sich sagen, dass der Zentralwert bei unsymmetrischen Verteilungen ein besonders „robuster“ Mittelwert ist, weil er sich von der Schiefe einer Verteilung nicht so stark beeinflussen lässt wie das arithmetische Mittel. x
Lageparameter und Ausreißer
Als letztes Diskussionsthema dieses Kapitels wollen wir die Frage aufgreifen, wie die einzelnen Lageparameter auf Ausreißer in einer Verteilung reagieren. Den Modus können wir hierbei gesondert betrachten, da er nur in einem Extremfall von der Frage der Ausreißer betroffen ist. Nur wenn ein Wert sehr weit weg von einer Verteilung liegt und häufiger vorkommt als alle anderen, ist dieser Wert der Modus der Verteilung. Dies widerspricht allerdings der grundsätzlichen Bedeutung eines Ausreißers, der allgemein ein einzelner Wert oder Merkmalsträger ist, der auffällig weit von allen übrigen Werten entfernt ist. Insofern kann die Erörterung der Auswirkung von Ausreißern auf die beiden Lageparameter Zentralwert und arithmetisches Mittel beschränkt werden. Wir gehen in einem Beispiel von einer symmetrischen Verteilung aus, die um einen Ausreißer ergänzt wird (siehe Abb. 8.18): Ein Teilnehmer in der untersuchten Gruppe ist mit 41 Jahren deutlich älter als alle übrigen und stellt daher einen „Ausreißer“ dar. Wir sehen anhand der Ergebnisausgabe in Abb. 8.18 (im Vergleich zu Abb. 8.16), dass der Median unverändert bleibt, ebenso wie der Modus. Das arithmetische Mittel vergrößert sich durch den einen Ausreißer deutlich, und zwar von 23,00 auf 23,64 Jahre.
8. Lageparameter
111
6
Absolute Häufigkeit
5
4
3
2
1 0 18
20
22
24
26
28
30
32
34
36
38
40
Alter
ALTER N Mittelwert Median Modus
Gültig
28 23,64 23,00 23
Abb. 8.18: Verteilung und Lageparameter mit Ausreißer
Damit lässt sich eine weitere Aussage zum Median ergänzen: Der Zentralwert ist grundsätzlich unempfindlich gegenüber einzelnen Ausreißern einer Verteilung.
112
Eindimensionale deskriptive Statistik
9. Streuungsparameter x Leitfragen 1) Welche Kennzahlen beschreiben die Streuung einer Häufigkeitsverteilung? 2) Inwiefern ergänzen die Streuungsparameter die Kennzahlen der Lage? 3) Wie berechnet und interpretiert man Streuungsparameter? 4) Was ist der Unterschied zwischen absoluter und relativer Streuung? 5) Welche Besonderheiten gibt es bei Streuungsmaßen klassierter und aggregierter Verteilungen? 6) Was versteht man unter der Streuungszerlegung in Binnenklassen- und Zwischenklassenstreuung? 7) Was sind spezielle Darstellungsformen für die Streuungsparameter?
9.1 Streuung einer Verteilung Neben der Lage einer Verteilung ist häufig die Streuung Gegenstand der statistischen Analyse. Dabei geht es um den Streubereich insgesamt und insbesondere um die durchschnittliche Streuung. Die Streuung kennzeichnet – ergänzend zum Lageparameter – die Form einer Verteilung. Sie bringt zum Ausdruck, ob der Lageparameter „sehr typisch“ für die Verteilung ist, nur „annähernd typisch“ oder sogar „weniger typisch“. Die Streuung sagt etwas darüber aus, ob in einer Verteilung eher gleichartige oder verschiedenartige Werte vorkommen. Streuung ist diesbezüglich das Gegenstück zu „Homogenität“: Eine Verteilung mit einer geringen Streuung ist homogen, eine Verteilung mit einer großen Streuung ist inhomogen. Das Phänomen der Streuung kann am besten anhand einer grafischen Darstellung erläutert werden (siehe Abb. 9.1). So besitzt die Verteilung des ersten Kurses, die Altersverteilung unseres Master-Beispiels, eine größere Streuung als die des zweiten Kurses. Diese Verteilung liegt in einem engeren Wertebereich von nur 5 Jahren im Vergleich zu 10 Jahren bei der linken Verteilung. In der rechten Verteilung sind weniger Werte vorhanden, die vom Durchschnitt stark abweichen. Dagegen sind bei der linken Verteilung die Häufigkeiten der äußeren Werte eher größer als die der mittleren.
9. Streuungsparameter
113
9
Absolute Häufigkeit
8 7 6 5 4 3 2 1 0 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Alter 1. Kurs
2. Kurs
Abb. 9.1: Streuung zweier Verteilungen im Vergleich
Die exakte Streuung kann anhand einer Urliste ermittelt werden. Besonders geeignet ist die geordnete Urliste. Die Altersangaben der 20 Seminarteilnehmer unseres Master-Beispiels lauten dann:
i'
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi' 18 18 18 19 19 19 19 19 20 21 22 22 23 23 24 25 26 27 28 28 Abb. 9.2: Geordnete Urliste für die Streuungsberechnung
x
Berechnung der Streuungsparameter am PC
Die Streuungsparameter können mit den PC-Programmen EXCEL und SPSS auf ähnliche Weise berechnet werden wie die Lageparameter (siehe dazu auch die Ausführungen in den Kapiteln 2 und 8). Bei EXCEL werden die Parameter über den Funktions-Assistenten ausgewählt, z.B. VARIANZ. Dann ist die Auswertungsliste zuzuordnen, und das Ergebnis wird in einem festzulegenden Feld ausgegeben. Bei SPSS finden wir die Streuungsparameter insbesondere bei Häufigkeiten, Deskriptive Statistiken und Fälle Zusammenfassen des Funktionsbereichs Analysieren. In den nachfolgenden Abschnitten wird ergänzend auf einige Besonderheiten bei der PC-Anwendung eingegangen.
Eindimensionale deskriptive Statistik
114
9.2 Spannweite Als Spannweite bezeichnen wir die „gesamte“ Streubreite einer Verteilung, vom Minimum bis zum Maximum. Die Spannweite (engl. Range) ist definiert als Differenz zwischen Maximum und Minimum.
Spannweite (Range) = Differenz zwischen dem größten und kleinsten Wert einer Verteilung (9-1)
R = Max – Min
Für unser Master-Beispiel kann die Spannweite aus der Häufigkeitsverteilung oder der geordneten Urliste (siehe Abb. 9.1, linke Verteilung bzw. Abb. 9.2) ermittelt werden: R = 28 – 18 = 10. Mit EXCEL können wir die Spannweite auch aus der ungeordneten Urliste berechnen (siehe Abb. 9.3). Zuerst werden Minimum und Maximum über den Funktionsassistenten mit MIN bzw. MAX abgerufen und auf die Liste A1 bis A20 bezogen. Dann wird „RANGE“ als Differenz der beiden Felder D4 und D2 berechnet.
Abb. 9.3: Ermittlung der Spannweite mit EXCEL
9. Streuungsparameter
115
Mit SPSS erhalten wir Minimum, Maximum und Spannweite (siehe Abb. 9.4) über: SPSS-Dialog: Analysieren – Deskriptive Statistiken – Häufigkeiten. ALTER N
Gültig Fehlend
Spannweite Minimum Maximum
20 0 10,00 18,00 28,00
Abb. 9.4: Ermittlung der Spannweite mit SPSS
Der Nachteil der Spannweite liegt darin, dass ein einzelner Ausreißer die Größe der Spannweite wesentlich beeinflusst. Aus diesem Grund werden häufig – wie im nächsten Abschnitt gezeigt – bestimmte (mittlere) Quantile und deren Abstände berechnet, um damit die Streuung einer Verteilung zu messen.
9.3 Quantilsabstände Quantile sind p-%-Bereiche einer Verteilung (siehe Abschnitt 8.4). Typische Quantile sind die „unteren 10%“, die „unteren 25%“ sowie die entsprechenden „oberen“ Quantile. Der Quantilsabstand gibt die Differenz zweier zusammengehörender Quantile an, z.B. zwischen dem 90%- und dem 10%-Quantil oder zwischen dem 75%- und dem 25%-Quantil.
Quantilsabstand = Differenz zwischen dem oberen und dem dazugehörigen unteren Quantil einer Verteilung
- Dezilabstand (9-2)
D = Q90 – Q10
mit Q10 bzw. Q90, dem 10%- bzw. 90%-Quantil
- Quartilsabstand (9-3)
Q = Q75 – Q25
mit Q25 bzw. Q75, dem 25%- bzw. 75%-Quantil, d.h. dem 1. und 3. Quartil
Eindimensionale deskriptive Statistik
116
Die Aussagefähigkeit der Quantile und der Quantilsabstände wird deutlich, wenn wir mit der Häufigkeitsverteilung, insbesondere mit kumulierten Häufigkeiten, arbeiten. Die nachfolgende Abb. 9.5 zeigt die Häufigkeitsverteilung. An den in % ausgewiesenen kumulierten relativen Häufigkeiten können wir alle Quantile ablesen. Dementsprechend erfolgt auch die Ergebnisausgabe von SPSS in Abb. 9.6. Es ist zu beachten, dass das 10%-Quantil 18 beträgt, da die Häufigkeit für die Ausprägung 18 die unteren 10% beinhaltet. Bei den letzten drei Quantilen wird vom Programm interpoliert (analog Formel 8-5 in Kapitel 8), da hier der relevante Prozentsatz bei der jeweiligen Ausprägung exakt erreicht wird. Als Quantilsabstände erhalten wir: Dezilabstand: 9,90 = 27,90 – 18,00 Quartilsabstand: 5,75 = 24,75 – 19,00.
Gültig
18,00 19,00 20,00 21,00 22,00 23,00 24,00 25,00 26,00 27,00 28,00 Gesamt
Häufigkeit 3 5 1 1 2 2 1 1 1 1 2 20
Prozent 15,0 25,0 5,0 5,0 10,0 10,0 5,0 5,0 5,0 5,0 10,0 100,0
Gültige Prozente 15,0 25,0 5,0 5,0 10,0 10,0 5,0 5,0 5,0 5,0 10,0 100,0
Kumulierte Prozente 15,0 40,0 45,0 50,0 60,0 70,0 75,0 80,0 85,0 90,0 100,0
Abb. 9.5: Häufigkeitstabelle für die Ermittlung der Quantilsabstände
ALTER N Perzentile
Gültig Fehlend 10 25 50 75 90
20 0 18,0000 19,0000 21,5000 24,7500 27,9000
Abb. 9.6: Ermittlung der Quantile mit SPSS
Die Ermittlung der Quantile mit SPSS erfolgt über den SPSS-Dialog: Analysieren – Deskriptive Statistiken – Häufigkeiten.
9. Streuungsparameter
117
In EXCEL kann mit der Funktion QUANTIL jedes beliebige Quantil durch Angabe des %-Satzes (als Dezimalzahl) abgerufen und zur Berechnung eines Quantilsabstands verwendet werden. Wir erhalten für das 75%-Quantil 24,25, für das 90%Quantil 27,10 und erkennen ein anderes Interpolationsergebnis als bei SPSS. Mathematisch sind die Ergebnisse beider Programme richtig. Beide liefern als p%Quantil einen Wert, der „mindestens p%“ der Verteilung erreicht und zwischen zwei benachbarten Werten liegt. Die Interpretation der Quantilsabstände ist sinnvoll im Vergleich zum Mittelwert der Verteilung (hier: 21,90) und beim Vergleich mit anderen Verteilungen.
9.4 Durchschnittliche absolute Abweichung vom Zentralwert Die Berechnung einer durchschnittlichen Streuung geht von Abweichungen zwischen einem Lageparameter und den Einzelwerten aus.
Durchschnittliche absolute Abweichung vom Zentralwert = Mittelwert der absoluten Differenzen zwischen Zentralwert und den einzelnen Werten einer Verteilung
- ungewogen
(9-4)
DZ
1 n ¦ xi Z ni 1
DZ
1m ¦ x j Z fj nj 1
- gewogen (9-5)
Als Ausgangspunkt von Berechnungen nach Formel (9-5) wollen wir die Häufigkeitsverteilung unseres Master-Projekts und die dazugehörige Arbeitstabelle in Abb. 9.7 heranziehen. Das Ergebnis des Zentralwerts Z = 21,5 (vgl. Abschnitt 8.3) ist in der vierten Spalte der Tabelle fest zugeordnet. Damit ergibt sich als durchschnittliche absolute Abweichung von Zentralwert DZ = = 2,9 = 58,0 / 20. Die durchschnittliche Streuung um den Zentralwert beträgt 2,9, wobei die einzelnen Abweichungen in der vorletzten Spalte der Tabelle zwischen 0,5 und 6,5 schwanken. Die durchschnittliche Abweichung DZ ist der Mittelwert der einzelnen Abweichungen, die jeweils mit der absoluten Häufigkeit gewichtet werden.
Eindimensionale deskriptive Statistik
118
j 1 2 3 4 5 6 7 8 9 10 11 Summe
xj 18 19 20 21 22 23 24 25 26 27 28 -
fj
xj-21,5
3 5 1 1 2 2 1 1 1 1 2 20
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,5 5,5 6,5 -
xj Z
3,5 2,5 1,5 0,5 0,5 1,5 2,5 3,5 4,5 5,5 6,5 -
x j Z fj
10,5 12,5 1,5 0,5 1,0 3,0 2,5 3,5 4,5 5,5 13,0 58,0
Abb. 9.7: Arbeitstabelle durchschnittliche Abweichung vom Zentralwert
Die Gewichtung führt dazu, dass die ersten beiden und der letzte Wert der Verteilung einen großen (zweistelligen) Beitrag zur Gesamtstreuung leisten.
9.5 Durchschnittliche absolute Abweichung vom arithmetischen Mittel Ein ähnlicher Durchschnittswert der Streuung wie im vorigen Abschnitt bezieht sich auf das arithmetische Mittel.
Durchschnittliche absolute Abweichung vom arithmetischen Mittel = Mittelwert der absoluten Differenzen zwischen arithmetischem Mittel und den einzelnen Werten einer Verteilung - ungewogen
(9-6)
Dx
1 n ¦ xi x ni 1
Dx
1m ¦ x j x fj nj 1
- gewogen
(9-7)
9. Streuungsparameter
119
Die Arbeitstabelle für die Häufigkeitsverteilung entspricht hier weitgehend der Abb. 9.7 (mit ¯ x = 21,9 anstelle von Z), weshalb wir jetzt zur Urliste übergehen wollen. Wir nehmen die Berechnung auf Basis der Urliste mit EXCEL vor, wobei die dazugehörige EXCEL-Tabelle und die Ergebnisausgabe in Abb. 9.8 zu sehen sind. Das Ergebnis von 2,9 (= 58,0 / 20) für die durchschnittliche absolute Abweichung wird über die Funktion MITTELABW für die Spalte der xi-Werte ermittelt.
i
xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Summe
19 18 22 23 19 20 25 27 18 23 19 19 26 28 24 28 19 18 21 22 438
xi x
xi x
-2,9 -3,9 0,1 1,1 -2,9 -1,9 3,1 5,1 -3,9 1,1 -2,9 -2,9 4,1 6,1 2,1 6,1 -2,9 -3,9 -0,9 0,1 0,0
2,9 3,9 0,1 1,1 2,9 1,9 3,1 5,1 3,9 1,1 2,9 2,9 4,1 6,1 2,1 6,1 2,9 3,9 0,9 0,1 58,0
Mittelwert
21,9
Summe Abs. Abw.
58,0
D-Abs-Abweichung
2,9
Abb. 9.8: Durchschnittliche absolute Abweichung mit EXCEL
Zufällig ergibt sich mit 2,9 exakt die gleiche Abweichung wie die durchschnittliche absolute Abweichung vom Zentralwert in Abschnitt 9.4. Die Summe der absoluten Abweichungen beträgt in beiden Fällen 58,0. Dies ist ein mathematischer Grenzfall. Die durchschnittliche absolute Abweichung vom Zentralwert ist nämlich ein Minimum (gegenüber der Verwendung anderer Lageparametern). Sie ist kleiner gleich der durchschnittlichen absoluten Abweichung vom arithmetischen Mittel. Zu beachten ist noch die dritte Spalte der Tabelle. Die Summe der Abweichungen vom arithmetischen Mittel ist exakt gleich 0,0. Dies ist eine wichtige Eigenschaft des arithmetischen Mittels. Das arithmetische Mittel liegt insoweit „mitten“ in einer Verteilung, dass sich die positiven und die negativen Abweichungen insgesamt ausgleichen. Diese wichtige Eigenschaft des arithmetischen Mittels lautet damit:
Eindimensionale deskriptive Statistik
120
Schwerpunkteigenschaft des arithmetischen Mittels: Die Summe der Abweichungen vom arithmetischen Mittel ist gleich 0.
9.6 Varianz und Standardabweichung Die am meisten verwendeten und mathematisch am besten fundierten Streuungsmaße sind die Varianz und die Standardabweichung. Wir ziehen zur Berechnung die nachfolgende Arbeitstabelle der Häufigkeitsverteilung heran:
j
xj
fj
1 2 3 4 5 6 7 8 9 10 11 Summe
18 19 20 21 22 23 24 25 26 27 28 -
3 5 1 1 2 2 1 1 1 1 2 20
xj-21,9 -3,9 -2,9 -1,9 -0,9 0,1 1,1 2,1 3,1 4,1 5,1 6,1 -
(x j x)2 15,21 8,41 3,61 0,81 0,01 1,21 4,41 9,61 16,81 26,01 37,21 -
( x j x)2 f j 45,63 42,05 3,61 0,81 0,02 2,42 4,41 9,61 16,81 26,01 74,42 225,80
Abb. 9.9: Arbeitstabelle Varianzberechnung
Die Definitionen und Formeln von Varianz und Standardabweichung lauten:
Varianz = Mittelwert der quadrierten Differenzen zwischen arithmetischem Mittel und den einzelnen Werten einer Verteilung
- Varianz (ungewogen)
(9-8)
s2
1 n ¦ ( x i x )2 n 1i 1
9. Streuungsparameter
121
- Varianz (gewogen)
(9-9)
s2
1 m ¦ ( x j x )2 f j n 1j 1
- Standardabweichung = (positive) Wurzel aus der Varianz
(9-10)
x
s
s2
Berechnung mit SPSS ALTER N
Gültig Fehlend
Standardabweichung Varianz
20 0 3,4473 11,8842
Abb. 9.10: Ermittlung von Varianz und Standardabweichung mit SPSS
Das Ergebnis der SPSS-Berechnung lässt sich anhand der Arbeitstabelle in Abb. 9.9 leicht nachvollziehen: 11,8842 = 225,80 / 19. Dabei werden zunächst die einzelnen Abweichungen zwischen Ausprägung und arithmetischem Mittel errechnet und quadriert. Die Abweichungsquadrate werden anschließend mit den Häufigkeiten gewichtet und zu einer Summe (225,8) zusammengefasst. Die Standardabweichung ist mit 3,4473 die positive Wurzel der Varianz (11,8842). Die Varianz „mittelt“ die quadrierten Abweichungen vom arithmetischen Mittel, die in der vorletzten Spalte der Arbeitstabelle 9.9 stehen. Wir sehen dort, dass die kleinste quadrierte Abweichung mit 0,01 fast gleich 0 ist, während die größten Abweichungen (für die letzten beiden Ausprägungen) ca. 26 bzw. 37 betragen. Wenn wir die Gewichtung mit fj berücksichtigen, erkennen wir sehr große Beiträge zur Gesamtstreuung bei den ersten beiden und dem letzten Wert der Verteilung. Als mathematische Eigenschaft von Varianz und arithmetischem Mittel ist die Minimumeigenschaft zu erwähnen. Sie sagt aus, dass die Summe der quadrierten Abweichungen von jeder anderen Zahl als dem arithmetischen Mittel größer wäre als die Summe im Zähler der Varianz. Dies ist auch der Grund dafür, dass die Varianz das „beliebteste“ und wichtigste Streuungsmaß ist. Diese wichtige Eigenschaft der Varianz lautet:
Eindimensionale deskriptive Statistik
122
Minimumeigenschaft der Varianz: Die Summe der quadrierten Abweichungen vom arithmetischen Mittel ist ein Minimum (im Vergleich zur Summe der quadrierten Abweichungen von anderen Parametern).
Die oben vorgestellten Streuungsformeln beziehen sich auf eine statistische Stichprobe. Da sie in den meisten Computerprogrammen (so auch EXCEL und SPSS) sowie Taschenrechnern Verwendung finden, werden wir im Folgenden vorwiegend mit diesen Formeln arbeiten. Bei größeren Gesamtheiten ist der Unterschied zu den nachfolgenden „deskriptiven“ Formeln gering. Auch wird sich die praktische Beurteilung der Streuung nur selten an solch kleinen Unterschieden festmachen. Die rein deskriptive Streuung – auch „empirische“ Varianz genannt – bezieht sich auf eine Grundgesamtheit, bestehend aus N Elementen. Sie basiert auf folgenden Formeln und wird von manchen Computerprogrammen (z.B. EXCEL) und Taschenrechnern zusätzlich mit angeboten.
Formeln der rein deskriptiven Streuung - Varianz (ungewogen)
(9-11)
1 N ¦ ( x i P)2 Ni 1
V2
- Varianz (gewogen)
(9-12)
1m ( x j P)2 f j ¦ Nj 1
V2
- Standardabweichung
(9-13)
V
V2
Wir erkennen als Unterschied zur Stichprobenstreuung die Division durch N anstelle von n-1, d.h. die Stichprobenvarianz ist immer etwas größer als die deskriptive Streuung. Damit liegen wir mit der Stichprobenvarianz immer auf der pessimistischen, der statistisch aber „sicheren“ Seite der Streuungsmessung.
9. Streuungsparameter
x
123
Berechnung mit EXCEL
Im PC-Programm EXCEL stehen alle Formeln (9-8) bis (9-13) für die Berechnung der Streuung zur Verfügung (siehe Ergebnisse unseres Beispiels in Abb. 9.11). Mit dem Funktions-Assistenten können wir abrufen: VARIANZ und STABW für die Stichprobe, VARIANZEN und STABWN für die Grundgesamtheit.
bis Excel 2007
ab Excel 2010
VARIANZ
VARIANZA
bzw. VAR.S
11,8842
VARIANZEN
VARIANZENA bzw. VAR.P
11,2900
STABW
STABWA
bzw. STABW.S
3,4473
STABWN
STABWNA
bzw. STABW.N
3,3601
Abb. 9.11: Funktionen der Streuungsberechnung mit EXCEL
x
Verschiebungssatz für die Varianz
Die Varianz lässt sich auch nach einer anderen Formel ermitteln, dem sogenannten Verschiebungssatz. Diese Formel entsteht, wenn wir die ursprüngliche Varianzformel (9-11) als binomischen Ausdruck ausmultiplizieren und entsprechend weiterrechnen (siehe auch Anhang A2.1). Es resultiert die Formel (9-14):
Varianz - Verschiebungssatz
(9-14)
V2
1 N 2 xi P2 ¦ Ni 1
Für ein Berechnungsbeispiel ziehen wir die Arbeitstabelle in Abb. 9.12 heran: - Varianz nach der ursprünglichen Formel (9-11):
11,29 = 225,8 / 20.
- Varianz nach dem Verschiebungssatz; Formel (9-14): 11,29 = 490,90 – 479,61 = 9818 / 20 – 479,61, dem Quadrat des arithmetischen Mittels 21,90. Die Berechnung nach dem Verschiebungssatz ist einfacher, weil wir keine quadrierten Differenzen benötigen.
Eindimensionale deskriptive Statistik
124 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Summe
xi 19 18 22 23 19 20 25 27 18 23 19 19 26 28 24 28 19 18 21 22 438
2
xi P
361 324 484 529 361 400 625 729 324 529 361 361 676 784 576 784 361 324 441 484 9818
-2,9 -3,9 0,1 1,1 -2,9 -1,9 3,1 5,1 -3,9 1,1 -2,9 -2,9 4,1 6,1 2,1 6,1 -2,9 -3,9 -0,9 0,1 0,0
xi
( x i P )2 8,41 15,21 0,01 1,21 8,41 3,61 9,61 26,01 15,21 1,21 8,41 8,41 16,81 37,21 4,41 37,21 8,41 15,21 0,81 0,01 225,80
Abb. 9.12: Arbeitstabelle Varianz – Verschiebungssatz
9.7 Varianz und Standardabweichung einer klassierten Verteilung Die Streuung einer klassierten Verteilung muss auf Basis der Klassenmitten berechnet werden, wenn keine Informationen über die einzelnen Werte vorliegen. Wir greifen das Beispiel aus Abb. 8.11 auf und führen die Berechnungen in der Tabelle der Abb. 9.13 durch. Anschließend werden – zum Vergleich – die der klassierten Altersverteilung zugrundeliegenden Einzelwerte mit herangezogen.
9.7.1 Streuungsberechnung mit Klassenmitten Bei der Berechnung der Varianz (und die Standardabweichung) aus Klassenmitten werden die Klassenmitten wie die Werte einer nicht-klassierten Verteilung behandelt. Dies führt zur Arbeitstabelle in Abb. 9.13 (mit dem Mittelwert der Klassenmitten von 21,75). Für die Varianz ergibt sich damit (nach der deskriptiven Formel): 15,6875 = 313,75 / 20. Diese Varianz ist größer als die Streuung der Einzelwerte. Die Streuung der Klassenmitten „überzeichnet“ offensichtlich die Gesamtstreuung.
9. Streuungsparameter
j 1 2 3 Summe
125
mj
fj
mj-21,75
(m j m ) 2
(m j m ) 2 f j
17,5 22,5 27,5 -
8 7 5 20
-4,25 0,75 5,75 -
18,0625 0,5625 33,0625 -
144,5000 3,9375 165,3125 313,7500
Abb. 9.13: Arbeitstabelle Varianzberechnung bei Klassierung
9.7.2 Streuungsberechnung mit Klassenmittelwerten (Streuungszerlegung) Die Berechnung der Streuung einer klassierten Verteilung wird in diesem Abschnitt mit allen Informationen der Verteilung durchgeführt. Das bedeutet, dass zwar von einer Klassierung ausgegangen, ergänzend aber mit den Ursprungswerten gerechnet wird. Dies ermöglicht zum einen den Vergleich mit dem aus Klassenmitten errechneten Ergebnis. Zum anderen kann der Sachverhalt der Streuungszerlegung dargelegt werden. Die Streuung einer klassierten (aggregierten) Verteilung besteht zunächst aus der Streuung, die die einzelnen Werte innerhalb der Klassen (Teilgesamtheiten) bezüglich ihres arithmetischen Mittels (Klassenmittelwert) aufweisen. Zum zweiten kommt die Streuung zwischen den Klassen (Teilgesamtheiten) hinzu. Dies ist die Varianz der arithmetischen Mittel der Klassen (Teilgesamtheiten) bezüglich des arithmetischen Mittels der ganzen Gesamtheit. Alle Streuungskomponenten müssen mit der Klassenhäufigkeit (Umfang der Teilgesamtheit) gewichtet werden. Die Streuungszerlegung wird durch folgende Formel (der deskriptiven Varianz) dargestellt:
Streuungszerlegung
(9-15)
V2
wobei
1m 2 1m V j N j ¦ ( x j x )2 N j ¦ Nj 1 Nj 1 1. Summand = Binnenklassenstreuung 2. Summand = Zwischenklassenstreuung Nj = Umfang der Klasse (Teilgesamtheit)
Wir wollen als Beispiel (aus dem Master-Projekt) die beiden Teilgesamtheiten „männlich“ und „weiblich“ für die Altersverteilung der 20 Seminarteilnehmer heranziehen.
Eindimensionale deskriptive Statistik
126
Die nachfolgende Abb. 9.14 zeigt die entsprechende EXCEL-Tabelle, gruppiert nach dem Geschlecht „männlich“ bzw. „weiblich“ und zusätzlich sortiert nach dem Alter. Neben der Wertetabelle sehen wir die Mittelwerte und Streuungen der Gesamtheit, sowie der beiden Teilgesamtheiten. Zusätzlich sind die Umfänge der Teilgesamtheiten angegeben.
Alter 19 19 21 22 22 23 23 25 26 27 28 28 18 18 18 19 19 19 20 24
Geschlecht m m m m m m m m m m m m w w w w w w w w
Mittelwert Varianz
21,9000 11,2900
Mittelwert (m) Mittelwert (w)
23,5833 19,3750
Varianz (m) Varianz (w) N1 N2
9,4097 3,4844 12 8
Abb. 9.14: Streuungszerlegung mit Gruppierung
Es ergibt sich folgende Berechnung der Gesamtvarianz nach Formel (9-15): V2 = 11,2899 = 1/20 (9,4097 . 12 + 3,4844 . 8) + 1/20 [(23,5833 – 21,9) 2 . 12 + (19,3750 – 21,9) 2 . 8] = = 1/20 (112,9164 + 27,8752) + 1/20 (2,8335 . 12 + 6,3756 . 8) = = 1/20 . 140,7916 + 1/20 . 85,0068 = = 7,0396 + 4,2503 = 11,2899
Der Wert stimmt mit dem Ergebnis der ursprünglichen Varianzberechnung (siehe Abb. 9.11) überein, abgesehen von einer kleinen Rundungsdifferenz. Die letzte Zeile unserer Berechnung zeigt die Aufteilung der Gesamtvarianz von 11,2899 in die beiden Komponenten der Binnenklassenstreuung von 7,0396 und der Zwischenklassenstreuung von 4,2503.
9. Streuungsparameter
127
Natürlich eignet sich auch unser ursprüngliches Klassierungsbeispiel aus Kapitel 7 für die Betrachtung der Streuungszerlegung. Wir sehen in der nachfolgenden Abbildung 9.15 zunächst die Aufteilung in drei Altersklassen. Die Ergebniskomponenten mit den Mittelwerten und Streuungen der Klassen sind ebenfalls mit angegeben. Die Berechnung anhand der Formel (9-15) lässt sich völlig analog dem obigen Beispiel nachvollziehen und sei daher dem Leser überlassen.
Alter 18 18 18 19 19 19 19 19 20 21 22 22 23 23 24 25 26 27 28 28
Klasse 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3
Mittelwert Varianz
21,9000 11,2900
Mittelw.1 Mittelw.2 Mittelw.3
18,6250 22,1429 26,8000
Varianz1 Varianz2 Varianz3
0,2344 1,5510 1,3600
N1 N2 N3
8 7 5
Abb. 9.15: Streuungszerlegung mit Klassierung
9.8 Relative Streuungsmaße Die bisher diskutieren Streuungsparameter geben das Ausmaß der Streuung als absolute, positive Größe an. Die Interpretation dieser Zahl ist nicht immer einfach, weil oftmals eine Bezugsgröße fehlt. Vielfach greift man dann auf die Streuungsmaße vergleichbarer Gesamtheiten zurück, wie z.B. auf frühere Zeiträume, andere Gruppen etc. Die Interpretationsmöglichkeit der Streuungsmaße kann verbessert werden, indem die Streuung auf die Lage der Verteilung bezogen und damit ein relatives Streuungsmaß ermittelt wird. Das bekannteste relative Streuungsmaß ist der Variationskoeffizient. Der Variationskoeffizient gibt als Dezimalzahl oder in % an, wie groß die Streuung in Einheiten des Mittelwerts (Zentralwert oder arithmetisches Mittel) ist.
Eindimensionale deskriptive Statistik
128
Damit drückt der Variationskoeffizient aus, ob die Streuung im Vergleich zum Durchschnitt der Verteilung einen „relativ“ großen oder einen eher kleinen Wert aufweist. Insbesondere beim Vergleich der Streuung von Verteilungen mit einem sehr unterschiedlichen Niveau ist die Berechnung der relativen Streuung sinnvoll. Die dazugehörigen Formeln lauten:
Variationskoeffizienz - bezüglich Zentralwert
(9-16)
VZ
DZ Z
bzw.
VZ
DZ 100 (mit: Z z 0) Z
- bezüglich arithmetischem Mittel
(9-17)
Vx
s x
bzw.
Vx
s 100 x
(mit: ¯ x z 0)
(oder: deskriptiv mit V anstelle von s und P anstelle von ¯ x)
Für unsere Altersverteilung aus dem Master-Projekt ergibt sich nach Formel (917) die Berechnung: 3,4473 / 21,9 = 0,1574 oder 15,74%. Die relative Streuung beträgt damit ca. 16% des Mittelwerts. Die beiden obigen Teilgesamtheiten (männlich/weiblich) und die in Abb. 9.14 angegebenen Maßzahlen erlauben ebenfalls die Berechnung von deskriptiven Variationskoeffizienten. Für die männlichen Teilnehmer ergibt sich: 3,0675 / 23,5833 Ö 13,01%. Für die weiblichen Teilnehmer resultiert: 1,8667 / 19,3750 Ö 9,63%. Wir erkennen, dass die absolute Streuung für die männlichen Teilnehmer deutlich höher ist als bei den weiblichen Teilnehmern. Die relative Streuung gibt aber zu erkennen, dass die Differenz (wegen des Niveauunterschieds) nicht so extrem ist. x
Variationskoeffizient mit dem PC
Der Variationskoeffizient wird weder von EXCEL noch von SPSS als Streuungsparameter angeboten. Mit beiden Programmen müssen die Streuungs- und Lageparameter ermittelt und zur zusätzlichen Berechnung der Division nach Formel (916) oder (9-17) herangezogen werden.
9. Streuungsparameter
129
9.9 Spezielle Darstellungen der Streuung am PC x
Darstellung von Verteilung, Lageparameter und Streuungsparameter
Der Aufbau von Verteilungen, die Berechnung von Lageparametern und die Ermittlung von Streuungsmaßen wird im vorliegenden Lehrbuch – wie üblich – in verschiedenen Kapiteln behandelt. Alle drei Verfahren gehören aber eng zusammen. Dies wird in Computerprogrammen durch eine kombinierte Ausgabemöglichkeit zum Ausdruck gebracht. Wir sehen in der nachfolgenden Abb. 9.16 die Ergebnisausgabe der SPSSFunktion Histogramm – Menübereich Diagramme – für unser Master-Beispiel.
6
Absolute Häufigkeit
5
4
3
2 Std.abw. = 3,45
1
Mittel = 22 N = 20,00
0 18 19 20 21 22 23 24 25 26 27 28
Alter Abb. 9.16: Kombinierte Darstellung von Verteilung und Parametern mit SPSS
x
Darstellungsform mit Box-Plots
Eine relativ neue, aber bereits weit verbreitete Darstellungsmöglichkeit von Lage und Streuung einer Verteilung sind die Box-Plots. Ein Box-Plot zeigt Minimum, Maximum, 25%- und 75%-Quantil, Median und (falls vorhanden) Ausreißer an. Die Box-Plots sind besonders dann interessant, wenn man Verteilungen vergleicht. Wir wollen den Vergleich der beiden Altersverteilungen für die männlichen und die weiblichen Teilnehmer des Seminars als Beispiel heranziehen, vorher aber den Box-Plot für die Gesamtverteilung betrachten. Wir erkennen in Abb. 9.17 das Minimum der Verteilung von 18, das Maximum von 28, die Box mit den beiden Quartilen (19,0 und 24,75) sowie den Zentralwert von 21,5, der innerhalb der Box markiert ist.
Eindimensionale deskriptive Statistik
130
30 28
Alter
26 24 22 20 18 16 N=
20
Abb. 9.17: Box-Plot zur Darstellung von Lage und Streuung
Betrachten wir nun die Gruppierung in männliche und weibliche Seminarteilnehmer, dann ergibt sich die Darstellung in Abb. 9.18. Es werden deutliche Unterschiede der Verteilungen sichtbar. Wir erkennen die geringere Streuung bei den weiblichen Teilnehmern ebenso wie den deutlich niedrigeren Zentralwert. Bei den weiblichen Teilnehmern wird außerdem der Wert 24, der 15. Wert der unsortierten Urliste, als Ausreißer angezeigt.
30 28
Alter
26 24
15
22 20 18 16 N=
12
8
männlich
weiblich
Geschlecht Abb. 9.18: Box-Plots zum Verteilungsvergleich
9. Streuungsparameter
131
Die obigen Box-Plots werden mit SPSS wie folgt erstellt: SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Boxplot (Einfach bzw. Gruppiert).
9.10 Bedeutung und Interpretation der Streuungsparameter 9.10.1 Gemeinsame Interpretation von Streuung und Lage Bezüglich der Aussagefähigkeit einer Verteilung und ihrer Parameter ergänzen sich Lage- und Streuungsmaße. Daher wollen wir nun eine gemeinsame Interpretation von Streuung und Lage vornehmen.
Mittelwert und Streuung
Das arithmetische Mittel ist der Durchschnittswert einer Verteilung. Diesen Wert hätte jeder Merkmalsträger, wenn alle Werte der Verteilung gleich groß wären, d.h. wenn die gesamte Merkmalssumme gleichmäßig auf alle Merkmalsträger verteilt wäre.
Die Varianz (bzw. die Standardabweichung) ist die durchschnittliche Streuung einer Verteilung. Sie drückt aus, wie verschieden oder wie ähnlich die Werte untereinander sind. Sie gibt den durchschnittlichen Abstand der einzelnen Werte vom arithmetischen Mittel an.
Eine große Standardabweichung bedeutet, dass das arithmetische Mittel für die Verteilung „nicht sehr typisch“ ist, weil große und/oder zahlreiche Abweichungen vom Durchschnittswert existieren.
Eine kleine Standardabweichung bedeutet, dass das arithmetische Mittel für die Verteilung „typisch“ ist, weil die einzelnen Werte einander recht ähnlich sind und nicht sehr stark vom Mittelwert abweichen.
Das Minimum der Standardabweichung ist gleich Null. In diesem Falle sind alle Werte der Verteilung gleich groß und damit auch gleich dem arithmetischen Mittel.
Eindimensionale deskriptive Statistik
132
9.10.2 Streuung und Lage in Verteilungsvarianten Zum Vergleich der Streuungsmaße und zur ergänzenden Interpretation von Lageparametern wollen wir als Beispiel drei Altersverteilungen heranziehen, die jeweils mit relativen Häufigkeitsverteilungen dargestellt sind. x
Symmetrische Verteilung (Glockenkurve)
relative Häufigkeit in Prozent
20
10
0 18
19
20
21
22
23
24
25
26
27
28
Alter ALTER Mittelwert Median Modus Standardabweichung Varianz
23,00 23,00 23 2,63 6,92
Abb. 9.19: Symmetrische Verteilung mit Lage- und Streuungsparametern
Bei dieser vollkommen symmetrischen Verteilung sind Mittelwert, Median und Modus gleich groß. Die Streuung – gemessen mit der Standardabweichung – beträgt 2,63 und wird als Vergleichsbasis für die nachfolgenden Verteilungen herangezogen.
9. Streuungsparameter
x
133
Nahezu symmetrische Verteilung (U-Form)
relative Häufigkeit in Prozent
20
10
0 18
19
20
21
22
23
24
25
26
27
28
Alter ALTER Mittelwert Median Modus Standardabweichung Varianz
23,33 24,00 18a 3,82 14,62
a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt.
Abb. 9.20: U-Verteilung mit Lage- und Streuungsparametern
Beim Vergleich der Parameter der beiden Verteilungen in Abb. 9.19 und 9.20 stellen wir fest, dass der Mittelwert nahezu gleich ist. Bedingt durch die leichte Unsymmetrie der U-Verteilung hat diese ein nur um 0,33 größeres arithmetisches Mittel. Auch der Zentralwert beider Verteilungen ist etwa gleich groß. Beim Modus weist die U-Verteilung zwei Werte (18 und 28) auf. Das Programm SPSS gibt hier einen Hinweis auf „mehrere Modi“ und zeigt den kleinsten Wert an. Der auffälligste Unterschied ergibt sich bei der Varianz, die bei dieser U-Verteilung etwa doppelt so groß ist wie bei der Glockenkurve. Der Vergleich der Standardabweichungen zeigt ebenfalls einen deutlichen Unterschied. Die größere Streuung der U-Verteilung ist leicht nachvollziehbar, da im Vergleich zur Glocken-
Eindimensionale deskriptive Statistik
134
kurve verhältnismäßig mehr Werte vorkommen, die vom arithmetischen Mittel weiter entfernt sind. Der Mittelwert ist nicht mehr „typisch“ für die Verteilung. x
Unsymmetrische Verteilung (linkssteil)
relative Häufigkeit in Prozent
30
20
10
0 18
19
20
21
22
23
24
25
26
27
28
Alter ALTER Mittelwert Median Modus Standardabweichung Varianz
21,13 20,50 18 2,88 8,31
Abb. 9.21: Linkssteile Verteilung mit Lage- und Streuungsparametern
Bei der linkssteilen Verteilung zeigt sich, dass das arithmetische Mittel größer ist als der Median und dieser wiederum größer als der Modus. Die Streuung ist mit 2,88 nur unwesentlich höher als bei der symmetrischen Verteilung. Für die genaue Beurteilung der Symmetrie werden wir eine spezielle Maßzahl heranziehen und damit symmetrische von schiefen Verteilungen unterscheiden (siehe Kapitel 10).
135
10. Parameter der Schiefe und der Konzentration x Leitfragen 1) Welche Parameter sind – außer den Lage- und der Streuungsmaßen – für die Beurteilung von Häufigkeitsverteilungen wichtig? 2) Wie wird die Symmetrie oder die Schiefe einer Verteilung gemessen? 3) Was sagen die Maße der Konzentration von Verteilungen aus? 4) Welche speziellen Darstellungsformen gibt es für die Konzentrationsmaße?
10.1 Schiefe einer Verteilung Die Frage, ob die Verteilung einer Variablen (Einkommen, Umsatz etc.) symmetrisch oder unsymmetrisch ist, lässt sich meist sehr einfach anhand einer grafischen Darstellung beantworten (siehe auch Kapitel 9, Abb. 9.19 bis 9.21). Zusätzlich existieren in der statistischen Methodenlehre einige Kennzahlen zur Messung der Symmetrie, und auch die Computerprogramme EXCEL und SPSS bieten entsprechende Schiefemaße an. Eines dieser Maße wird im Folgenden exemplarisch vorgestellt und grafisch veranschaulicht (siehe Abb. 10.2 ff.). x
Schiefe
Die Schiefe einer Verteilung wird anhand der nachfolgenden Formel ermittelt:
Schiefemaß
(10-1)
SC
n n § xi x · ¸ ¨ ¦ (n 1)(n 2) i 1© s ¹
3
Das Schiefemaß ist = 0, wenn die Verteilung symmetrisch ist = positiv, wenn die Verteilung linkssteil (rechtsschief) ist = negativ, wenn die Verteilung rechtssteil (linksschief) ist.
Eindimensionale deskriptive Statistik
136
In unserem Master-Beispiel (Altersverteilung von 20 Seminarteilnehmern) sieht die Berechnung wie folgt aus:
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Summe
xi
xi x
(x i x) / s
(( x i x ) / s) 3
19 18 22 23 19 20 25 27 18 23 19 19 26 28 24 28 19 18 21 22
-2,90 -3,90 0,10 1,10 -2,90 -1,90 3,10 5,10 -3,90 1,10 -2,90 -2,90 4,10 6,10 2,10 6,10 -2,90 -3,90 -0,90 0,10
-0,84 -1,13 0,03 0,32 -0,84 -0,55 0,90 1,48 -1,13 0,32 -0,84 -0,84 1,19 1,77 0,61 1,77 -0,84 -1,13 -0,26 0,03
-0,60 -1,45 0,00 0,03 -0,60 -0,17 0,73 3,24 -1,45 0,03 -0,60 -0,60 1,68 5,54 0,23 5,54 -0,60 -1,45 -0,02 0,00
438
0,00
-
9,51
Abb. 10.1: Arbeitstabelle zur Schiefeberechnung
Diese Arbeitstabelle ermöglicht die Ermittlung der Schiefe nach Formel (10-1): 20 / (19 . 18) . 9,5135 = 0,5563. Hierbei werden zunächst die Abweichungen zwischen den einzelnen Werten und dem arithmetischen Mittel berechnet, jeweils durch die Standardabweichung dividiert und dreimal mit sich selbst multipliziert. Die Summe dieser 3. Potenzen der Abweichungen geht mit 9,51 in die Berechnung der Schiefe ein. In EXCEL wird die Schiefe mit dem Funktions-Assistenten berechnet, indem auf die Spalte der xi-Werte die Funktion SCHIEFE angewandt wird. Die nachfolgenden Ergebnisse wurden mit SPSS ermittelt mit dem Aufruf: SPSS-Dialog: Analysieren – Deskriptive Statistiken – Häufigkeiten. Die Grafik in Abb. 10.2 veranschaulicht die linkssteile (rechtsschiefe) Form der Verteilung, die aus der Urliste der Abb. 10.1 ermittelt wurde. Durch die Ungleichung „Mittelwert > Median > Modus“ kommt die Verteilungsform bereits deutlich zum Ausdruck. Der Wert der Schiefe von 0,556 fasst diesen Sachverhalt in einer Kennzahl zusammen.
10. Parameter der Schiefe und der Konzentration
137
relative Häufigkeit in Prozent
30
20
10
0 18
19
20
21
22
23
24
25
26
27
28
Alter
ALTER Mittelwert Median Modus Schiefe
21,90 21,50 19 ,556
Abb. 10.2: Linkssteile (rechtsschiefe) Verteilung mit Parametern
Sehen wir uns zum Vergleich zwei weitere Verteilungsformen sowie die Werte der dazugehörigen Schiefe- und Lageparameter an. x
Symmetrische Verteilung
Bei einer symmetrischen Verteilung in Form der Glockenkurve sind die drei Lageparameter Mittelwert, Median und Modus identisch. Die Schiefe weist den Wert von 0,0 auf. Die nachfolgende Abb. 10.3 zeigt diesen Sachverhalt. Die Verteilung ist symmetrisch und weist damit keinerlei Schiefe auf.
Eindimensionale deskriptive Statistik
138
relative Häufigkeit in Prozent
20
10
0 18
19
20
21
22
23
24
25
26
27
28
Alter ALTER Mittelw e rt Me dian Mo dus Sch iefe
23 ,00 23 ,00 23 ,00 0
Abb. 10.3: Symmetrische Verteilung mit Parametern
x
Rechtssteile Verteilung
ALTER Mittelwert Median Modus Schiefe
24,43 25,00 28 -,520
Abb. 10.4: Schiefe- und Lageparameter der rechtssteilen Verteilung
10. Parameter der Schiefe und der Konzentration
139
Bei der rechtssteilen Verteilung (Abb. 10.5) ist das arithmetische Mittel der kleinste der drei Lageparameter. Der häufigste Wert, der Modus, ist mit 28 am größten. Die Schiefe ist mit -0,520 negativ; die Verteilung ist linksschief.
relative Häufigkeit in Prozent
20
10
0 18
19
20
21
22
23
24
25
26
27
28
Alter Abb. 10.5: Rechtssteile (linksschiefe) Verteilung
Damit haben wir gesehen, wie die Schiefe (oder Symmetrie) einer Verteilung durch eine einzige Maßzahl zum Ausdruck gebracht wird. Zusätzlich wurden die grafische Darstellung und die Lageparameter zur Beurteilung der Symmetrie oder der Unsymmetrie einer Verteilung herangezogen. x
Symmetrie und Schiefe im Box-Plot
Zur Darstellung von Symmetrie oder Schiefe der drei obigen Verteilungen eignet sich auch der Box-Plot, der Lage und Verteilungsform grafisch verdeutlicht (vgl. auch Kapitel 9, Abschnitt 9.9). In der nachfolgenden Abb. 10.6 erkennen wir, dass alle drei Verteilungen einen Streubereich von 18 bis 28 aufweisen. Innerhalb dieses Streubereichs liegt die Box (begrenzt durch die Quartile) jeweils an einer anderen Stelle. Auch der Zentralwert ist innerhalb der einzelnen Box jeweils etwas anders positioniert. Bei der linkssteilen Verteilung liegt die Box im unteren Wertebereich und der Zentralwert tendiert zur unteren Hälfte innerhalb der Box. Damit kommt die Schiefe dieser Verteilung durch eine unsymmetrische grafische Darstellung zum Ausdruck.
Eindimensionale deskriptive Statistik
140
Die symmetrische Verteilung zeigt eine zentrale Lage der Box, wobei der Zentralwert exakt in der Mitte der Quartilsbox zu finden ist. Bei der rechtssteilen Verteilung ist die Box im oberen Wertebereich zu finden. Der Zentralwert liegt in der Box etwas oberhalb von der Mitte, d.h. er tendiert hin zu den größeren Werten. Die grafischen Darstellungen und deren Interpretation verdeutlichen, dass BoxPlots für Verteilungsvergleiche sehr gut geeignet sind.
30 28
Alter
26 24 22 20 18 16 linkssteil
symmetrisch
rechtssteil
Box-Plots Abb. 10.6: Box-Plots für 3 Verteilungsformen
10.2 Konzentration einer Verteilung Die Konzentrationsmessung widmet sich der Frage, ob die Gesamtsumme einer Verteilung auf mehrere unterschiedliche Werte verteilt ist, oder ob sie sich auf einige wenige Werte und Elemente konzentriert. Die Konzentration ist ein Phänomen moderner Volkswirtschaften. Konzentrationsprozesse, d.h. die Veränderungen des Konzentrationsgrades einzelner Branchen werden von den Kartellbehörden kontinuierlich beobachtet und in der Öffentlichkeit regelmäßig diskutiert.
10.2.1 Absolute Konzentration Die Maße der absoluten Konzentration geben Auskunft darüber, ob ein Großteil einer Merkmalssumme (z.B. Branchenumsatz) auf eine geringe Zahl von Merkmalsträgern konzentriert ist, oder ob eine eher gleichmäßige Verteilung der Summe auf alle Merkmalsträger vorliegt.
10. Parameter der Schiefe und der Konzentration
141
Absolute Konzentration = Verteilung eines großen Teils der Merkmalssumme auf eine geringe Anzahl von Merkmalsträgern
Die Messung der absoluten Konzentration beruht auf der Berechnung von Konzentrationskoeffizienten, die für jeden einzelnen Merkmalsträger ermittelt werden.
Absolute Konzentration - Konzentrationskoeffizienten k
¦ xi (10-2)
Ck
i 1 n
¦ xi
k
¦ ai i 1
mit ai = der Größe nach geordnete Anteile der einzelnen Werte an der Merkmalssumme
i 1
Ausgangspunkt der Konzentrationsmessung ist die Urliste, die zunächst der Größe nach geordnet wird. Dann können die Anteile gemäß Formel (10-2) berechnet und dahingehend beurteilt werden, ob sich die Merkmalssumme auf einige wenige Werte konzentriert.
Messung der absoluten Konzentration (1) Auflisten aller Merkmalsträger einschließlich Identifikationsmerkmal (z.B. Name) (2) Sortieren der Urliste in absteigender Reihenfolge der einzelnen Werte mit Vergabe des Laufindex i (3) Ermitteln der Merkmalssumme (4) Ermitteln der Anteile der einzelnen Werte an der Merkmalssumme (5) Ermitteln der kumulierten Anteile der Merkmalswerte
Eindimensionale deskriptive Statistik
142
Als Beispiel wollen wir eine Fremdenverkehrsregion mit insgesamt 10 Hotelund Pensionsbetrieben betrachten. Die Auflistung der Hotelbetriebe liegt beispielsweise in alphabetischer Anordnung nach den Hotelnamen vor. Anschließend wird die Liste sortiert, so dass die Hotelbetriebe nach dem Umsatz (gemessen in 100 Tausend €) geordnet sind. Damit ergibt sich die Arbeitstabelle in Abb. 10.7, in der auch die übrigen Berechnungen zu erkennen sind.
HotelName
Laufindex i
B A C F G I D E J H
1 2 3 4 5 6 7 8 9 10
Summe
-
Umsatz xi
Umsatzanteil ai in %
Umsatzanteil kumuliert (%)
2800 2100 70 15 5 3 2 2 2 1
56,00 42,00 1,40 0,30 0,10 0,06 0,04 0,04 0,04 0,02
56,00 98,00 99,40 99,70 99,80 99,86 99,90 99,94 99,98 100,00
5000
100,00
-
Abb. 10.7: Arbeitstabelle absolute Konzentration
kumulierter Umsatzanteil in %
100
80
60
40 Konzentration 20 hoch 0
keine 0
1
2
3
4
5
6
7
8
9
10
Nr. des Betriebes Abb. 10.8: Konzentrationskurven zur absoluten Konzentration
10. Parameter der Schiefe und der Konzentration
143
Wir stellen aufgrund der letzten Spalte in Abb. 10.7 eine hohe Konzentration fest, denn die ersten beiden Hotelbetriebe B und A vereinen zusammen bereits 98% des Gesamtumsatzes auf sich. Für die übrigen 8 Betriebe verbleiben nur noch 2% des gesamten Umsatzes der Region. Der Sachverhalt der Konzentration lässt sich grafisch darstellen (siehe Abb. 10.8). In einem Diagramm werden den einzelnen Betrieben gemäß der Reihenfolge in der Tabelle der Abb. 10.7 die kumulierten Umsatzanteile zugeordnet und die Punkte linear verbunden. Je schneller die entstehende Konzentrationskurve die 100% erreicht, desto höher ist die Konzentration. Bei einer gleichmäßigen Verteilung des Umsatzes auf alle Betriebe entsteht die Diagonale als Konzentrationskurve. Beim ersten der 10 Betriebe sind 10% des Umsatzes vorhanden, beim zweiten (kumuliert mit dem Umsatz des ersten) 20%, beim 5. Betrieb 50% usw. Dann liegt keinerlei Konzentration vor. Bei der hier vorgestellten Methode ist die Messung der Konzentration auf einzelne Werte „verteilt“ und damit der Interpretation der kumulierten Umsatzanteile überlassen. Von Vorteil ist die Berechnung der Konzentration in einer Kennzahl, die wir im Folgenden diskutieren wollen. x
Konzentrationsindex von Herfindahl
Wir wollen als Beispiel der Konzentrationsmessung den Index von Herfindahl (aus dem Jahr 1950) heranziehen, dessen Berechnung auf der nachfolgenden Arbeitstabelle in Abb. 10.9 beruht. Die Arbeitstabelle ist genauso aufgebaut wie die obige Tabelle der Abb. 10.7, ergänzt wird nur die letzte Spalte. Für die Indexberechnung genügen die Spalten der xi-Werte und der Werte für xi2. Der Grad der Konzentration wird durch die kumulierten Umsatzanteile zusätzlich veranschaulicht.
HotelName
Laufindex i
B A C F G I D E J H
1 2 3 4 5 6 7 8 9 10
Summe
-
Umsatz xi
Umsatzanteil ai in %
Umsatzanteil kumuliert (%)
2800 2100 70 15 5 3 2 2 2 1
56,00 42,00 1,40 0,30 0,10 0,06 0,04 0,04 0,04 0,02
56,00 98,00 99,40 99,70 99,80 99,86 99,90 99,94 99,98 100,00
7840000 4410000 4900 225 25 9 4 4 4 1
5000
100,00
-
12255172
Abb. 10.9: Arbeitstabelle Herfindahl-Index
xi2
Eindimensionale deskriptive Statistik
144
Der Herfindahl-Index wird gemäß der nachfolgenden Formel (10-3) berechnet:
Absolute Konzentration - Herfindahl-Index n
¦ x i2 CH
(10-3)
i 1
§ n · ¨ x ¸ ¨¦ i ¸ ©i 1 ¹
mit: 1/n d CH d 1
2
Hinweis: Wir erkennen in Formel (10-3) die beiden Summanden der Varianz nach dem Verschiebungssatz; vgl. Kapitel 9, Formel (9-14). Für unser Beispiel ergibt sich nun ein CH = 0,4902 = 12.255.172 / 25.000.000. Der Betrag des Konzentrationsmaßes ist nicht so groß wie vielleicht vermutet, da wir insgesamt zwei Hotels haben, die den Großteil des Gesamtumsatzes auf sich vereinen. Ein höherer Konzentrationswert ergibt sich, wenn nur ein Betrieb beinahe den gesamten Umsatz der Region erwirtschaftet. Das folgende Beispiel in Abb. 10.10 steht für eine sehr hohe Konzentration.
HotelName
Laufindex i
B A C F G I D E J H
1 2 3 4 5 6 7 8 9 10
Summe
-
Umsatz xi
Umsatzanteil ai in %
Umsatzanteil kumuliert (%)
4900 50 12 10 8 6 5 4 3 2
98,00 1,00 0,24 0,20 0,16 0,12 0,10 0,08 0,06 0,04
98,00 99,00 99,24 99,44 99,60 99,72 99,82 99,90 99,96 100,00
24010000 2500 144 100 64 36 25 16 9 4
5000
100,00
-
24012898
Abb. 10.10: Arbeitstabelle Herfindahl-Index bei sehr hoher Konzentration
xi2
10. Parameter der Schiefe und der Konzentration
145
Für den Herfindahl-Index resultiert nun CH = 0,9605 = 24.012.898 / 25.000.000. Das Konzentrationsmaß liegt nahe bei 1,0. Der erste Betrieb kann mit 98% fast den gesamten Umsatz der Region für sich verbuchen. Betrachten wir nun das extreme Gegenbeispiel, eine völlig gleichmäßige Verteilung der Merkmalssumme auf alle Betriebe.
HotelName
Laufindex i
Umsatz xi
Umsatzanteil ai in %
Umsatzanteil kumuliert (%)
B A C F G I D E J H
1 2 3 4 5 6 7 8 9 10
500 500 500 500 500 500 500 500 500 500
10,00 10,00 10,00 10,00 10,00 10,00 10,00 10,00 10,00 10,00
10,00 20,00 30,00 40,00 50,00 60,00 70,00 80,00 90,00 100,00
250000 250000 250000 250000 250000 250000 250000 250000 250000 250000
Summe
-
5000
100,00
-
2500000
xi
2
Abb. 10.11: Arbeitstabelle Herfindahl-Index bei fehlender Konzentration
Für den Herfindahl-Index erhalten wir jetzt CH = 0,1000 = 2.500.000 / 25.000.000. Der Wertebereich des Herfindahl-Index ist nicht völlig normiert. Auch bei fehlender Konzentration liegt der Wert nicht ganz bei 0; er beträgt 1/n. Bei totaler Konzentration auf einen einzigen Wert ergibt sich exakt 1,0.
10.2.2 Relative Konzentration In der statistischen Literatur ist die Lorenz-Kurve zur Darstellung und als Basis der Messung der relativen Konzentration am weitesten verbreitet. Daher wollen wir die Grundlagen der entsprechenden Berechnungsmethode erörtern. Wir gehen von einer klassierten Verteilung aus, wobei die Klassenmitten mj repräsentativ für die Klassen verwendet werden. Ein typisches Beispiel wäre hier eine Einkommensverteilung mit Häufigkeiten für einzelne Einkommensklassen. Die relative Konzentration kann anhand der nachfolgenden Arbeitstabelle in Abb. 10.12 berechnet werden. Die beiden fettgedruckten Spalten Hj‘ und Yj‘ liefern die Werte, die für die Darstellung der Lorenzkurve und die Berechnung des GiniKoeffizienten benötigt werden. Wir stellen damit einander gegenüber: die kumulierten relativen Häufigkeiten in % Hj‘ und die kumulierten relativen Anteile der Merkmalssumme in % Yj‘.
Eindimensionale deskriptive Statistik
146 j 1 2 3 4 5 Su.
xj
fj
h j'
Hj'
mj
000-100 100-200 200-300 300-400 400-500
2 2 2 2 2
20,0 20,0 20,0 20,0 20,0
20,0 40,0 60,0 80,0 100,0
50 150 250 350 450
-
10
100,0
-
-
m jf j 100 300 500 700 900
yj'
Yj'
4,00 4,00 12,00 16,00 20,00 36,00 28,00 64,00 36,00 100,00
2500 100,00
-
Y'j-1+Y'j (Y'j-1+Y'j)hj' 4,00 20,00 52,00 100,00 164,00 -
80,00 400,00 1040,00 2000,00 3280,00 6800,00
Abb. 10.12: Arbeitstabelle relative Konzentration
Die Summe der letzten Spalte verwenden wir für die Berechnung des GiniKoeffizienten, der die relative Konzentration misst:
Relative Konzentration - Gini-Koeffizient
(10-4)
CG
1
2R 10000
m
mit
2R
¦ ( Yj'1 Yj' ) h'j j 1
und
0 d CG d 1
Als Gini-Koeffizient resultiert CG = 0,3200 = 1 – 0,6800 = 1 – (6.800 / 10.000). Wir können damit 0,32 (= 32%) als Konzentrationsanteil feststellen. Die Bezeichnung „Anteil“ weist auf die geometrische Darstellung hin: Mit CG messen wir den Anteil der Fläche unterhalb der Lorenzkurve an der Gesamtfläche von 10.000 Einheiten (siehe Abb. 10.13). Die einzelnen Summanden von R sind jeweils Trapezflächen. Die grafische Darstellung sieht ähnlich aus wie bei der absoluten Konzentration, ist aber mehr am „klassischen“ Bild der kumulierten Häufigkeitsfunktion orientiert. Abb. 10.13 zeigt die Lorenzkurve für unser Beispiel. Eine völlige Gleichverteilung liefert die gestrichelte Linie. Die totale Konzentration der gesamten Merkmalssumme auf einen Merkmalsträger hat einen rechtwinkligen Verlauf zur Folge und umfasst die Abszisse und die Ordinate von links unten bis nach rechts oben.
kum. Anteil der Merkmalssumme in %
10. Parameter der Schiefe und der Konzentration
147
100
80
60
40 Konzentration 20 mittlere 0
keine 0
20
40
60
80
100
kumulierter Anteil der Merkmalsträger in % Abb. 10.13: Lorenzkurve und Gleichverteilungsgerade
Wir wollen – zum Vergleich mit der absoluten Konzentration – das obige Beispiel der sehr hohen Konzentration unter 10 Hotelbetrieben auf die Messung der relativen Konzentration und die Lorenzkurve übertragen.
j
xj
1 2 3 4 5 6 7 8 9 10
2 3 4 5 6 8 10 12 50 4900
Su.
-
fj 1 1 1 1 1 1 1 1 1 1
h j'
Hj'
mj
10,0 10,0 2 10,0 20,0 3 10,0 30,0 4 10,0 40,0 5 10,0 50,0 6 10,0 60,0 8 10,0 70,0 10 10,0 80,0 12 10,0 90,0 50 10,0 100,0 4900
10 100,0
-
-
m jf j 2 3 4 5 6 8 10 12 50 4900
yj'
Yj'
0,04 0,04 0,06 0,10 0,08 0,18 0,10 0,28 0,12 0,40 0,16 0,56 0,20 0,76 0,24 1,00 1,00 2,00 98,00 100,00
5000 100,00
Y'j-1+Y'j (Y'j-1+Y'j)hj' 0,04 0,14 0,28 0,46 0,68 0,96 1,32 1,76 3,00 102,00
-
-
0,40 1,40 2,80 4,60 6,80 9,60 13,20 17,60 30,00 1020,00 1106,40
Abb. 10.14: Arbeitstabelle Lorenzkurve bei sehr hoher Konzentration
Als Gini-Koeffizient erhalten wir CG = 0,8894 = 1 - 0,1106 = 1 – (1106,4/10000). Dies ist ein sehr hoher Wert, der eine starke Konzentration ausdrückt. Die grafische Darstellung mittels der Lorenzkurve ergibt hier eine fast rechtwinklige Kurve.
Eindimensionale deskriptive Statistik
kum. Anteil der Merkmalssumme in %
148
100
80
60
40 Konzentration 20 hoch 0
keine 0
20
40
60
80
100
kumulierter Anteil der Merkmalsträger in % Abb. 10.15: Lorenzkurve bei sehr hoher Konzentration
Wir erkennen eine gewisse Analogie zur absoluten Konzentration mit der ebenfalls beinahe rechtwinkligen Konzentrationskurve in Abb. 10.8. Ähnlich wie die Methoden der Messung der absoluten Konzentration weisen die Lorenzkurve und die dazugehörigen Parameter einige Schwächen bei der Interpretierbarkeit auf und sind zudem etwas aufwendig in der Berechnung. Die beiden Computerprogramme EXCEL und SPSS bieten für die Konzentrationsmessung keine Standardfunktionen an. Mit EXCEL kann über die Tabellenkalkulation eine „halb-automatische“ Berechnung vorgenommen werden. Nachdem zuletzt der Übergang zur Häufigkeitsverteilung hergestellt werden konnte, zeigte dieser Abschnitt als methodisch orientiertes Spezialthema seinen eigenen Stellenwert. Es wird deutlich, dass die Analyse einer Verteilung von der Lage und Streuung ausgeht, dass sich aber zusätzliche Fragen der Schiefe und der Konzentration ergeben. Erst alle Parameter zusammengenommen – die Lage-, die Streuungs-, die Schiefe- und die Konzentrationsparameter – und insbesondere die grafischen Darstellungen erlauben eine umfassende Beurteilung einer Verteilung und des zugrundeliegenden Sachverhalts.
149
11. Transformation und Standardisierung x Leitfragen
1) Warum werden Variablen in andere Variablen transformiert? 2) Wie wirkt sich die lineare Transformation auf Lage- und Streuungsparameter aus? 3) Was bedeutet die Standardisierung von Variablen? 4) Welche Interpretationen erlaubt eine standardisierte Variable?
11.1 Transformation 11.1.1 Methoden der Transformation Statistische Variablen werden häufig in andere Variablen transformiert. Das kann bedeuten, dass die „neue“ Variable inhaltlich den gleichen Sachverhalt wiedergibt wie die Ausgangsgröße, allerdings in einem neuen, transformierten Maßstab. Transformation liegt aber auch vor, wenn aus zwei (oder mehreren) Variablen eine inhaltlich neue Variable gebildet wird. Grundsätzlich stellt die Transformation eine Umwandlung von Variablen anhand einer bestimmten Formel dar, wobei die „lineare“ Umwandlung – die lineare Transformation – am häufigsten vorkommt.
Typische Beispiele für die Transformation sind die - Umwandlung der Temperaturangaben von oC in oF (und umgekehrt) - Umrechnung des Bruttoinlandsprodukts von Währung A in Währung B, z.B. von DM in DOLLAR - Verwendung des Maßstabes 1.000 € anstelle der Angabe in € - Addition von Variablen zur Bildung von Summen oder Zwischensummen - Berechnung von Verhältniszahlen (Division zweier Variablen) - Bildung einer Summenvariablen zur Plausibilitätsprüfung (z.B. bei der Dateneingabe am PC).
Wir wollen die nachfolgenden Formeln für die Transformation anhand einiger Beispiele aus der praktischen Statistik erörtern.
Eindimensionale deskriptive Statistik
150
Transformation von Variablen - Lineare Transformation einer Variablen X in eine Variable Y
(11-1)
Y = a + bX
(d.h. für jeden einzelnen Wert gilt: yi = a + bxi ) a, b = konstant; b z 0
- Berechnung einer Summenvariablen X aus den Summanden Xi n
(11-2)
X
¦ Xi
X1 + X2 + ... + Xn
i 1
- Berechnung von Verhältniszahlen (11-3)
x
Z
X Y
Lineare Transformation für internationale Temperaturvergleiche
Zur Ermittlung der durchschnittlichen Jahrestemperatur liegen für eine Stadt A in Deutschland und eine Stadt B in den USA die folgenden Beispielwerte (Monatsdurchschnitte) vor:
Jan Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez Stadt A 5,0 8,0 10,0 12,0 15,0 18,0 20,0 22,0 16,0 14,0 10,0 8,0 ( oC) Stadt B 48,0 56,0 57,0 60,0 65,0 68,0 74,0 76,0 72,0 63,0 58,0 50,0 ( oF) Abb. 11.1: Temperaturvergleich Deutschland – USA
Um die beiden unterschiedlichen Maßstäbe, die Celsius- und die FahrenheitSkala, vergleichbar zu machen, gibt es zwei Möglichkeiten der Umformung. Einmal können die C-Grade (Variable X) in F-Grade (Variable Y) umgewandelt werden. Die Transformationsgleichung lautet dann Y = 32 + 1,8 X. Oder es werden die F-Grade in C-Grade transformiert, wobei dann gilt: X = Y/1,8 – 17,78.
11. Transformation und Standardisierung
151
Wenn wir die zweite Gleichung wählen, erhalten wir eine Tabelle in einheitlichen C-Graden:
Jan Feb Mar Apr Stadt A ( oC) Stadt B ( oC)
5,0
Mai
Jun
Jul
Aug Sep Okt Nov Dez
8,0 10,0 12,0 15,0 18,0 20,0 22,0 16,0 14,0 10,0 8,0
8,9 13,3 13,9 15,6 18,3 20,0 23,3 24,4 22,2 17,2 14,4 10,0
Abb. 11.2: Temperaturvergleich Deutschland – USA (in Celsius-Graden)
x
Lineare Transformation am PC
Um die zweite Zeile in Abb. 11.2 zu ermitteln, werden die Werte der zweiten Zeile in Abb. 11.1 linear transformiert. In EXCEL legen wir hierzu eine zweite Tabelle an und wenden dort die Transformationsformel an, so dass aus F-Graden C-Grade werden. Stehen z.B. die FGrade in Zeile n der Spalte X und wollen wir in einer anderen Zeile die dazugehörigen C-Grade erhalten, dann gilt die Gleichung = X / 1,8 – 17,78 für alle Felder der Tabelle. Bei SPSS entsteht die transformierte Variable dadurch, dass wir in der SPSSDatei eine neue Variable anlegen und dieser die Formel zuweisen: = Y / 1,8 – 17,78. Hier ist Y die ursprüngliche Variable in F-Graden. Für die Eingabe dieser Formel brauchen wir den dazugehörigen SPSS-Dialog: Transformieren – Variable berechnen. Die Summenvariablen werden entsprechend der obigen Formel (11-2) am PC mit der Summenfunktion (als EXCEL-Summe oder als Summen-Statistik in einer SPSS-Programmoption) ermittelt. SPSS bietet zusätzlich eine Summierungsfunktionen über folgenden Aufruf an: SPSS-Dialog: Daten – Aggregieren. Mit dieser Aggregationsfunktion können Zwischensummen und Summen für alle möglichen Gruppen und Untergruppen einer Gesamtheit gebildet werden. x
Lineare Transformation für Währungsumrechnungen
Ähnlich gehen wir vor, wenn wir eine Variable, die in einer bestimmten Währung ausgewiesen ist, in eine Variable mit einer anderen Währung umrechnen wollen.
152
Eindimensionale deskriptive Statistik
Hat ein Anbieter von Fortbildungsveranstaltungen (siehe das Beispiel aus dem Master-Projekt) in dem Marktsegment „Verkäuferseminare“ bestimmte Jahresumsätze erzielt, dann können diese Umsätze für einen internationalen Vergleich beispielsweise in DOLLAR umgerechnet werden (verwendeter Umrechnungskurs vom 12.7.2011: 1 EURO = 1,40 DOLLAR). Damit lautet die Formel für die Umrechnung des EURO-Umsatzes (Variable X) in den DOLLAR-Umsatz (Variable Y): Y = 1,40 X, was zu folgender Ergebnistabelle führt:
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Umsatz in 1.000 € Umsatz in 1.000 $
120,0 140,0 155,0 150,0 160,0 165,0 170,0 180,0 185,0 195,0 168,0 196,0 217,0 210,0 224,0 231,0 238,0 252,0 259,0 273,0
Abb. 11.3: Umrechnung von EURO-Umsätzen in DOLLAR-Umsätze
Jede einzelne Umsatzangabe in DOLLAR ist Ergebnis der o.g. Umrechnungsformel. Insgesamt gesehen stellt die DOLLAR-Variable eine Lineartransformation der ursprünglichen EURO-Variablen dar. x
Summen, Differenzen und Quotienten in Transformationsformeln
Zur ergänzenden Veranschaulichung der obigen Transformationsformeln wollen wir ein Beispiel aus der internationalen Fremdenverkehrsstatistik betrachten. Für ausgewählte EU-Länder liegen die Tourismusausgaben im Ausland und die Tourismuseinnahmen von ausländischen Reisenden im Inland (jeweils in Millionen €) aus dem Jahre 2005 vor. Folgende Berechnungen sollen erfolgen: - Ermittlung des Saldos von Ausgaben und Einnahmen, um damit die einzelnen Länder als Netto-Verdiener oder als Netto-Zahler im internationalen Tourismus zu identifizieren - Ermittlung des Indikators Tourismusausgaben je Einwohner, um die „AuslandsReisefreudigkeit“ der einzelnen Länder messen zu können - Ermittlung der Einnahmen von ausländischen Reisenden je Einwohner, um den Beitrag der ausländischen Reisenden zum Pro-Kopf-Einkommen beurteilen zu können. Ausgangspunkt der Berechnungen ist die Tabelle in Abb. 11.4. Dort wird eine lineare Transformation vorgenommen: die Ermittlung des Saldos von Tourismusausgaben und -einnahmen. Dies entspricht einer Lineartransformation mit negativem Vorzeichen nach der obigen Formel (11-1).
11. Transformation und Standardisierung
153
Auslandstourismus in der Europäischen Union 2005 TOP-12-Länder der Tourismus-Einnahmen und -Ausgaben
Einnahmen
Ausgaben
Saldo Einnahmen minus Ausgaben
in Millionen Euro Belgien
7.929
11.939
-4.010
Dänemark
3.977
5.195
-1.218
Deutschland
23.473
58.430
-34.957
Frankreich
33.981
25.070
8.911
Griechenland
11.037
2.446
8.591
Großbritannien
24.687
48.001
-23.314
Italien
28.400
17.960
10.440
Niederlande
8.420
12.996
-4.576
Österreich
12.432
8.883
3.549
Portugal
6.376
2.473
3.903
Schweden
5.957
8.667
-2.710
38.494
12.125
26.369
Spanien
Quellen: Spörel (2007), S. 6 + Eurostat (2011)
Abb. 11.4: Tourismus-Indikatoren
In Abb. 11.4 können zunächst die Absolutbeträge interpretiert werden. Insbesondere werden deutlich: die hohen Ausgaben für den Auslandstourismus von Deutschland und Großbritannien (ca. 58 bzw. 48 Mrd. €) sowie die hohen Einnahmen von ausländischen Touristen in Spanien, Frankreich und Italien (ca. 38, 34 und 28 Mrd. €). Beim Saldo fallen die sehr große Ausgabenüberschüsse von Deutschland und Großbritannien und die hohen Einnahmeüberschüsse von Spanien und Italien auf. Die Berechnung von Verhältniszahlen entspricht einer Transformation nach der obigen Formel (11-3). Die Ergebnisse dieser Transformationen sind in der nachfolgenden Abb. 11.5 zusammengefasst.
Eindimensionale deskriptive Statistik
154
Auslandstourismus in der Europäischen Union 2005 TOP-12-Länder der Tourismus-Einnahmen und -Ausgaben
Einwohner
TourismusEinnahmen je Einwohner
TourismusAusgaben je Einwohner
in Euro Belgien
10.445.852
759
1.143
5.411.405
735
960
Deutschland
82.500.849
285
708
Frankreich
62.772.870
541
399
Griechenland
11.082.751
996
221
Großbritannien
60.038.695
411
800
Italien
58.462.375
486
307
Niederlande
16.305.526
516
797
Österreich
8.201.359
1.516
1.083
10.529.255
606
235
9.011.392
661
962
43.038.035
894
282
Dänemark
Portugal Schweden Spanien
Quellen: Spörel (2007), S. 6 + Eurostat (2011)
Abb. 11.5: Transformation in Pro-Kopf-Variablen
Bei den Pro-Kopf-Variablen sind zunächst die beiden hohen Werte für Österreich zu erwähnen. Die Österreicher sind unter den EU-Ländern (zusammen mit Belgien) am reisefreudigsten, was Auslandsreisen angeht. Andererseits nimmt Österreich auch deutlich am meisten (pro Einwohner) von ausländischen Reisenden ein. Bei den Pro-Kopf-Einnahmen von ausländischen Touristen bildet Deutschland das Schlusslicht der hier ausgewählten EU-Länder. Die Pro-Kopf-Ausgaben für Auslandstourismus von Deutschland liegen im Mittelfeld der EU-Länder. Hier sind (neben Österreich und Belgien) Dänemark und Schweden an der Spitze. Die geringsten Werte der Pro-Kopf-Ausgaben für Auslandstourismus finden wir in den vier südeuropäischen Reiseländern Griechenland, Portugal, Spanien und Italien.
11. Transformation und Standardisierung
155
11.1.2 Auswirkung der linearen Transformation auf Lage und Streuung Die Bildung einer neuen Variablen Y aus einer Variablen X mittels einer linearen Transformation hat zur Folge, dass die Lage- und Streuungsparameter der neuen Variablen ebenfalls als Funktion der Parameter der ursprünglichen Variablen X gesehen und ermittelt werden können.
Lage- und Streuungsparameter nach Lineartransformation
Y = a + bX
(siehe Formel 11-1)
- arithmetisches Mittel
(11-4)
y
a bx
- Varianz/Standardabweichung
(11-5)
s 2y
b 2 s 2x
bzw.
sy
bs x
Wenn wir für das obige Temperaturbeispiel die Parameter berechnen, dann ergibt sich die Ergebnistabelle in Abb. 11.6. Die Transformationsformel zwischen der letzten und der vorletzten Spalte (Umwandlung von Celsius in Fahrenheit) lautet: Y = 32 + 1,8X. Für das arithmetische Mittel gilt nun die Formel (11-4) und damit: 62,25 = 32 + 1,8 . 16,806. Das arithmetische Mittel vollzieht die lineare Transformation vollständig nach. Sowohl die additive (+ 32) als auch die multiplikative Veränderung (* 1,8) gilt für das arithmetische Mittel – seinerseits eine lineare Funktion der Ausgangswerte – in derselben Weise wie für die einzelnen Werte. Anders verhält es sich bei der Varianz, die eine quadratische Funktion der Ausgangswerte darstellt.
Eindimensionale deskriptive Statistik
156
Temperaturmessung in Celsius und Fahrenheit
1 2 3 4 5 6 7 8 9 10 11 12 Insgesamt
Monat Jan Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez Mittelwert Varianz Standardabweichung
Stadt A (in Grad Celsius) 5,0 8,0 10,0 12,0 15,0 18,0 20,0 22,0 16,0 14,0 10,0 8,0 13,167 27,424 5,237
Stadt B (in Grad Fahrenheit) 48,0 56,0 57,0 60,0 65,0 68,0 74,0 76,0 72,0 63,0 58,0 50,0 62,250 82,386 9,077
Stadt B (in Grad Celsius) 8,9 13,3 13,9 15,6 18,3 20,0 23,3 24,4 22,2 17,2 14,4 10,0 16,806 25,428 5,043
Abb. 11.6: Lineartransformation mit Lage- und Streuungsparametern
Für die beiden Streuungsparameter ergibt sich nach Formel (11-5): Varianz:
82,386
Standardabweichung:
9,077
= 1,8 2 . 25,428 und = 1,8 . 5,043.
Die Varianz vollzieht bei einer linearen Transformation nur die multiplikative Veränderung nach. Dies bedeutet, dass die reine Verschiebung einer Verteilung um eine additive Konstante die Streuung unverändert lässt. Die multiplikative Veränderung wirkt sich dagegen quadratisch aus (1,8 . 1,8). Durch die Berechnung der Standardabweichung ist die Quadrierung wieder aufgehoben, so dass der multiplikative Faktor von 1,8 exakt zum Tragen kommt.
11.2 Standardisierung Die Standardisierung ist eine spezielle Form der linearen Transformation einer Variablen. Sie hat zur Folge, dass die „neue“ Variable einen Mittelwert von 0 und eine Standardabweichung von 1 aufweist. Jeder Wert der standardisierten Variablen bringt zum Ausdruck, ob er über- oder unterdurchschnittlich groß ist und wie weit er vom Mittelwert entfernt ist. Diese Entfernung wird in Einheiten der Standardabweichung gemessen.
11. Transformation und Standardisierung
157
Die Standardisierung nach Formel (11-6) ist insbesondere dann sinnvoll und notwendig, wenn der Vergleich von Variablen durch stark unterschiedliche Niveaus oder Maßstäbe gestört wird. Sollen die Werte zweier oder mehrerer Variablen in einem „einheitlichen Maßstab“ vergleichbar sein, wendet man die Standardisierung an. Damit werden alle Variablen auf den einheitlichen 0-1-Maßstab gebracht. Das Ergebnis der Standardisierung sind dimensionslose Werte, die nur noch die relative Lage einer Ausprägung wiedergeben und nicht mehr den konkreten Wert. Die Formel (11-9) bietet ergänzend die Möglichkeit der „Rücktransformation“ standardisierter Werte in die ursprüngliche Variable.
Standardisierung
(11-6)
Z
Xx s
(11-7)
z
0
(11-8)
s 2z
(11-9)
X
sz
(bzw. deskriptiv
Z
XP ) V
1
Zs x
Als Beispiel analysieren wir die Aufenthaltsdauer von Hotelgästen. Wir gehen von der Verteilung der Aufenthaltsdauer der Gäste – erhoben jeweils in einem Vergleichsmonat der Jahre 2010 und 2011 – aus. Die nachfolgenden Abb. 11.7 zeigt die entsprechende Tabelle der absoluten Häufigkeitsverteilungen mit Lage- und Streuungsparametern. Wir erkennen, dass die durchschnittliche Aufenthaltsdauer im Jahr 2010 nur knapp vier Tage betrug, während im Jahr 2011 etwas mehr als 5 Tage festgestellt werden konnten. Die durchschnittliche Streuung – gemessen mit der Standardabweichung – ist in beiden Jahren mit 1,76 und 1,78 etwa gleich groß. Wir können aber sehen, dass die gesamte Streubreite im Jahr 2011 größer ist: Aufenthalte von 9 und 10 Tagen waren im Vorjahr noch gar nicht vorhanden und kommen jetzt mit 40 bzw. 10 Gästen vor. Die Standardisierung von Variablen wollen wir auf der Basis der grafischen Darstellung für 2010 in Abb. 11.8 erörtern. Die Ausgangsvariable wird durch die Standardisierungsformel (11-6) transformiert, was eine Veränderung der Werte aber keine Veränderung der Häufigkeiten bedeutet.
Eindimensionale deskriptive Statistik
158 Aufenthalts-
Gäste
Gäste
dauer
2010
2011
1
50
40
2
140
60
Lage- und Streuung 2010
3
170
120
Arithm. Mittel
3,98
4
190
240
Standardabw.
1,76
5
140
330
6
70
250
7
60
120
8
30
50
Arithm. Mittel
5,02
Standardabw.
1,78
9
0
40
10
0
10
850
1260
Summe
Lage und Streuung 2011
Abb. 11.7: Häufigkeitsverteilungen für die Aufenthaltsdauer 2010 und 2011
200 180 Absolute Häufigkeit
160 140 120 100 80 60 40 20 0 0
1
2
3
4
5
6
7
8
9
10
Aufenthaltsdauer 2010 (in Tagen)
Abb. 11.8: Häufigkeitsverteilung für die Aufenthaltsdauer 2010
In der Grafik 11.9 ist das Ergebnis der Standardisierung (2010) veranschaulicht. Die Verschiebung der ursprünglichen Variablen (Zähler der Formel 11-6) führt dazu, dass die standardisierte Variable einen Mittelwert von 0 aufweist. Die Division durch die Standardabweichung in Formel (11-6) hat eine Streuung der standardisierten Variablen von 1 zur Folge.
11. Transformation und Standardisierung
159
200
Absolute Häufigkeit
180 160 140 120 100 80 60 40 20 0 -3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
Aufenthaltsdauer 2010 (in Tagen) standardisierte Variable
ursprüngliche Variable
Abb. 11.9: Lage und Streuung der standardisierten Variablen
Das zahlenmäßige Ergebnis der Standardisierung ist in Tabelle 11.10 zu sehen.
Aufenthalts-
z-Werte
Gäste
Aufenthalts-
z-Werte
Gäste
dauer
2010
2010
dauer
2011
2011
1 2 3 4 5 6 7 8
-1,69 -1,13 -0,56 0,01 0,58 1,15 1,72 2,29
9 10 Summe
-
50
1
140 170 190 140 70 60 30
2 3 4 5 6 7 8
0 0
9 10
850
Summe
-2,27 -1,70 -1,14 -0,58 -0,01 0,55 1,11 1,68 2,24 2,80 -
40 60 120 240 330 250 120 50 40 10 1260
Abb. 11.10: Standardisierung der Variablen Aufenthaltsdauer 2010 und 2011
Die ersten beiden z-Werte (2010) ergeben sich wie folgt: -1,69 = (1 – 3,98) / 1,76 -1,13 = (2 – 3,98) / 1,76.
Eindimensionale deskriptive Statistik
160
Die z-Werte geben an, in welchem „Sigma-Abstand“ (d.h. in Einheiten der Standardabweichung gemessen) die einzelnen Werte der Verteilung vom Mittelwert entfernt liegen. Die beiden negativen Werte zu Beginn der Verteilung stehen für unterdurchschnittliche Werte. Der z-Wert für 4 von 0,01 zeigt einen Wert nahe dem Durchschnitt an. Die positiven Werte stehen für überdurchschnittliche Werte.
200
Absolute Häuf igkeit
180 160 140 120 100 80 60 40 20 0 0
1
2
3
4
5
6
7
8
9
10
Auf enthaltsdauer 2010 (in Tagen)
350
Absolute Häuf igkeit
300 250 200 150 100 50 0 0
1
2
3
4
5
6
7
8
9
10
Auf enthaltsdauer 2011 (in Tagen)
Abb 11.11: Vergleich zweier Verteilungen
Der Vergleich der z-Werte der beiden Verteilungen für 1998 und 1999 in Abb. 11.10 lässt erkennen, dass im Jahr 1999 – trotz etwa gleicher durchschnittlicher Streuung wie 1998 – die niedrigen und hohen Werte für die Aufenthaltsdauer relativ stärker vom Mittelwert abweichen als 1998. Dieses Ergebnis veranschaulicht der grafische Vergleich der beiden Verteilungen in Abb. 11.11.
11. Transformation und Standardisierung
x
161
Standardisierung am PC
Mit EXCEL können die Werte einer Urliste standardisiert werden, indem das arithmetische Mittel (MITTELWERT) und die Standardabweichung (STABW) ermittelt und über die Funktion STANDARDISIERUNG zur Transformation verwendet werden. In SPSS erhalten wir die standardisierten Werte z.B. über den SPSS-Dialog: Analysieren – Deskriptive Statistiken (2x) – Option: Standardisierte Werte ... speichern. Damit werden die z-Werte in der Auswertungsdatei als neue Variable angelegt und abgespeichert. x
Bedeutung der Standardisierung für die statistische Theorie
Die Standardisierung spielt in vielen Verfahren der schließenden Statistik eine wichtige Rolle (siehe Kapitel 23 bis 26). Insbesondere die Anwendung der standardisierten Normalverteilung liegt vielen Formeln und Berechnungen von Konfidenzintervallen und Signifikanztests zugrunde. Basis ist hierbei meist die Tabelle der Standardnormalverteilung, die approximativ auch für andere Verteilungen zur Analyse herangezogen werden kann. Bei der heutigen Computertechnik, die beinahe jede beliebige Verteilung „per Knopfdruck“ liefert, könnte man sich allerdings eine Standardisierung zuweilen ersparen. Die Standardnormalverteilung spielt außerdem bei den Grenzwertsätzen (siehe Kapitel 22) eine wichtige Rolle, da sie eine Referenzverteilung für viele Größen darstellt. x
Bedeutung der Standardisierung für die praktische Statistik
Von praktischer Bedeutung ist die Berechnung standardisierter Werte, wenn für einzelne Elemente einer Verteilung zu beurteilen ist, ob sie über oder unter dem Durchschnitt liegen und wie weit sie – im Vergleich zur durchschnittlichen Streuung – vom Mittelwert entfernt sind. Dies können studentische Leistungen in Klausuren oder sportliche Leistungen in verschiedenen Disziplinen sein. Insgesamt ist von speziellem Interesse, ob einzelne Werte innerhalb eines 1s- oder 2s-Bereichs der Verteilung liegen. Diese Grenzen führen z.B. bei niedergelassenen Ärzten dazu, dass bestimmte Überschreitungen des Durchschnittshonorars der Arztgruppe von den Krankenkassen nicht mehr akzeptiert und daher gekürzt werden.
162
12. Verhältniszahlen (Relative Kennzahlen) x Leitfragen
1) Warum werden für die statistische Analysen Verhältniszahlen benötigt? 2) Welche Arten von Verhältniszahlen gibt es? 3) Was ist die Besonderheit von Beziehungszahlen? 4) Was ist die Besonderheit von Messzahlen? 5) Welche praktischen Anwendungsfälle für Verhältniszahlen gibt es?
12.1 Arten und Bedeutung von Verhältniszahlen Verhältniszahlen sind statistische Kennzahlen, die als Quotienten zweier Maßzahlen einen bestimmten Sachverhalt beschreiben. Zum einen kann eine einfache Division vorliegen (ähnlich der Transformationsformel (11-3) in Kapitel 11), zum anderen die Zusammenfassung von einzelnen Kennzahlen zu einem Mittelwert, zu einer globalen Kennzahl. Allgemein können wir sagen, dass eine Verhältniszahl Q der Quotient zweier Maßzahlen A und B ist, wobei A und B auch eigenständige Variablen sein können.
Verhältniszahl
(12-1)
Q
A B
oder
(12-2)
Q
A c B
mit c = Konstante (z.B. 100, 1000 etc.)
Wir unterscheiden bei Verhältniszahlen zwischen Gliederungs-, Beziehungs-, Mess- und Indexzahlen.
12. Verhältniszahlen (Relative Kennzahlen)
163
Bei Gliederungszahlen ist B im Nenner die Summe der Teilgrößen A im Zähler. Bei Beziehungszahlen haben wir zwei unterschiedliche Größen vor uns, zwei verschiedene Variablen, die in einem sinnvollen Zusammenhang stehen. Bei Messzahlen vergleichen wir A mit einem Wert B aus einer Vorperiode, einer anderen Region oder einem „verwandten“ Sachverhalt. Bei Indexzahlen bilden wir Mittelwerte und damit Zusammenfassungen von Messzahlen. Die Indexzahlen werden wegen ihrer Bedeutung und Vielfalt gesondert in Kapitel 13 behandelt. Insgesamt können wir festhalten:
Verhältniszahlen = Kennzahlen statistischer Elemente, die zum sachlichen, räumlichen und zeitlichen Vergleich als Quotienten zweier Maßzahlen berechnet werden.
12.2 Gliederungszahlen Eine Gliederungszahl gibt den Anteil einer Teilgesamtheit an der Gesamtheit an, und zwar als Dezimalzahl oder als Prozentangabe. Im Allgemeinen handelt es sich um Anteile an einer Merkmalssumme, wobei Gliederungszahlen analog zu den in Kapitel 6 besprochenen „relativen Häufigkeiten“ gebildet werden. Formelmäßig bedeutet dies:
Gliederungszahl
(12-3)
gi
xi n
100
mit i=1, 2, ... n Teilgesamtheiten
¦ xi i 1
Als Beispiel wollen wir ein Thema aufgreifen, das bereits in Kapitel 3 – im Zusammenhang mit der Ergebnispräsentation – erörtert wurde: Der Anteil des tertiären Sektors in der Volkswirtschaft Deutschlands. Wir können den „Weg zur Dienstleistungsgesellschaft“ anhand von Gliederungszahlen aufzeigen: dem Anteil der Erwerbstätigen im tertiären Sektor im Vergleich zu den Anteilen des primären und sekundären Bereichs. Verhältniszahlen können bequem mit dem Computerprogramm EXCEL – über die Divisionen von Tabellenfeldern – ermittelt werden. Mit SPSS werden entsprechende Berechnungen unter dem Menüpunkt Transformieren (und Variable berechnen) vorgenommen.
Eindimensionale deskriptive Statistik
164
Die beiden Tabellen in Abb. 12.1 zeigen das Ergebnis von Berechnungen gemäß der obigen Formel (12-3). Aus den Absolutzahlen der oberen Tabelle entstehen Gliederungszahlen, indem jede Einzelzahl durch die dazugehörige Summe in der letzten Zeile der Tabelle dividiert wird. Die Gliederungszahlen der unteren Tabelle in Abb. 12.1 ergeben sich wie folgt: 13,5 = 3541 / 26194 . 100; 48,9 = 12807 / 26194 . 100 usw.
Erwerbstätige in Deutschland nach Wirtschaftsbereichen (in Tausend)
i
1960
1
Primärer Sektor
2
Sekundärer Sektor
3
Tertiärer Sektor
Summe Insgesamt
Neue Länder und Berlin-Ost
Früheres Bundesgebiet
Wirtschaftsbereiche
1970
1980
1991
2001
1991
2001
3.541
2.402
1.437
1.045
717
530
226
12.807
13.005
12.174
12.065
9.995
3.285
1.939
9.846
10.937
13.263
16.574
19.596
3.947
4.343
26.194
26.344
26.874
29.684
30.308
7.762
6.508
Erwerbstätige in Deutschland nach Wirtschaftsbereichen (Anteile in %)
i
Neue Länder und Berlin-Ost
Früheres Bundesgebiet
Wirtschaftsbereiche 1960
1970
1980
1991
2001
1991
1
Primärer Sektor
13,5
9,1
5,3
3,5
2,4
6,8
3,5
2
Sekundärer Sektor
48,9
49,4
45,3
40,6
33,0
42,3
29,8
3
Tertiärer Sektor
Summe Insgesamt
2001
37,6
41,5
49,4
55,8
64,7
50,9
66,7
100,0
100,0
100,0
100,0
100,0
100,0
100,0
Quelle: Statistisches Bundesamt (2003)
Abb. 12.1: Berechnung von Gliederungszahlen
Die Zeile i = 3 in der zweiten Tabelle von Abb. 12.1 zeigt eindrucksvoll, wie sich die Volkswirtschaft in Deutschland hin zur Dienstleistungsgesellschaft entwickelt hat. Der Anteil der Erwerbstätigen im tertiären Sektor steigt im Zeitraum von 1960 bis 2001 im früheren Bundesgebiet kontinuierlich von 37,6% auf 64,7% an. In den neuen Bundesländern zeigt sich dieser Trend zwischen 1991 und 2001 sogar noch deutlicher durch einen Anstieg von 50,9% auf 66,7%, Gliederungszahlen geben Auskunft über strukturelle Veränderungen in Wirtschaft und Gesellschaft. Weitere typische Beispiele der praktischen Statistik sind: - Anteil der Staatsausgaben am Bruttoinlandsprodukt - Anteil einzelner Sektoren am Bruttoproduktionswert - Anteil der Ausgaben eines Haushalts für Grundnahrungsmittel an den Gesamtausgaben - Anteil der Auslandsgäste eines Bundeslandes nach Herkunftsländern.
12. Verhältniszahlen (Relative Kennzahlen)
165
12.3 Beziehungszahlen Beziehungszahlen sind Quotienten zweier Kennzahlen, die als eigenständige statistische Variablen anzusehen sind. Diese Variablen können insofern zusammengehören, dass die Zahl A im Zähler eine Bewegungsmasse X darstellt, die eine Bestandsmasse B im Nenner (Variable Y) beeinflusst. Denkbar ist auch der Sachverhalt, dass X und Y nicht als Bestands- und Bewegungsmasse zusammengehören, sondern dass beide Variablen nur in einer sachlich sinnvollen Beziehung zueinander stehen. In diesem Fall erhalten wir die häufig vorkommenden DichteZiffern. Wir gehen von folgenden Definitionen aus:
Beziehungszahl
(12-4)
BZ
X Y
mit X und Y: zwei Variablen in sinnvoller Beziehung a) Verursachungszahl: X ist Bewegungsmasse, Y ist Bestandsmasse b) Entsprechungszahl: X und Y sind eigenständige Variablen
(12-5)
x
BZ
X c Y
mit c = Konstante (z.B. 100, 1000 etc.)
Verursachungszahlen
Geburten- und Sterbeziffern sind zwei typische und wichtige Beziehungszahlen der Bevölkerungsstatistik bzw. der Demografie. Sie geben – als Verursachungszahlen – den Einfluss der natürlichen Bevölkerungsbewegung auf die Bevölkerungszahl wieder. Dies sind insbesondere die jährlichen Zahlen des natürlichen Zugangs und Abgangs bei der Bevölkerungszahl. Die nachfolgende Abbildung 12.2 zeigt die Berechnung von Verursachungszahlen für die Bundesrepublik Deutschland im Jahre 2010. Zunächst sind die Absolutzahlen für Lebendgeborene, Gestorbene und die Gesamtbevölkerung angegeben. Nach Formel (12-5) erhalten wir Geburten- und Sterbeziffern, indem die Anzahl der Lebendgeborenen bzw. Gestorbenen durch die Bevölkerungszahl dividiert wird. Dann wird diese Zahl mit 1000 multipliziert, um eine anschauliche Beziehungszahl zu erhalten. Wir erkennen, dass pro 1000 Einwohner mehr Gestorbene (10,50) zu verzeichnen sind als Geborene (8,29). Die natürliche Bevölkerungsentwicklung trägt zum Rückgang der Bevölkerungszahl bei.
166
Eindimensionale deskriptive Statistik
Bevölkerungsentwicklung in Deutschland 2010 absolut
je 1000 Einwohner
Lebendgeborene
677.945
8,29
Gestorbene
858.778
10,50
Einwohnerzahl*
81.751.257
* Stichtag 31.12. Quelle: Statistisches Bundesamt (2011)
Abb. 12.2: Beziehungszahlen als Verursachungszahlen
Um die natürliche Bevölkerungsentwicklung als Ganzes zu erfassen, kann – als sinnvolle Transformation der beiden Ausgangsgrößen - die Differenz zwischen Geborenen und Gestorbenen berechnet werden. Der „Saldo“ gibt als Überschuss an Geborenen (positives Vorzeichen) oder an Gestorbenen (negatives Vorzeichen) an, ob eine natürliche Tendenz zum Bevölkerungswachstum oder -rückgang vorliegt. Auch diese Differenz kann auf 1000 Einwohner bezogen werden, womit wiederum eine Beziehungszahl (Verursachungsziffer) entsteht. Das entsprechende Ergebnis für Abb. 12.2 lautet: -2,21 = -180.833 / 81.751.257, d.h. es liegt im Jahr 2004 ein natürlicher Rückgang von ca. 1,37 Promille vor. Dies ist gleichzeitig die Differenz der beiden obigen Geburten- und Sterbeziffern: -2,21 = 10,50 – 8,29. Die Gesamtentwicklung der Bevölkerungszahl wird neben den natürlichen Einflüssen durch Zuzüge und Fortzüge beeinflusst. Hier können weitere Verursachungsziffern und auch eine Gesamtziffer für die Bevölkerungsstatistik errechnet werden. Weitere Beispiele für Verursachungsziffern sind die Zahlen für die Niederlassung und die Beendigung der Praxistätigkeit von Ärzten, die Neugründungen und die Konkurse von Firmen, die KFZ-Neuzulassungen und -abmeldungen. x
Entsprechungszahlen
In der Praxis weit verbreitet sind diejenigen Beziehungszahlen, die aus zwei verschiedenen Variablen bestehen. Durch Zusammenfassung dieser Variablen zu einer Kennzahl entstehen sogenannte Dichteziffern, wie zum Beispiel die - Bevölkerungsdichte: Einwohner / Fläche (für internationale Vergleiche) - KFZ-Dichte: zugelassene KFZ je Einwohner - Krankenhausdichte: Zahl der Krankenhausbetten je Einwohner.
12. Verhältniszahlen (Relative Kennzahlen)
167
Weitere Beispiele sind die Bruttoreiseintensität (Anzahl der Urlaubsreisen pro Einwohner) oder die Anzahl der Übernachtungen je Hotelgast. Das letztgenannte Beispiel ist gleichzusetzen mit der Berechnung einer durchschnittlichen Verweildauer pro Hotelgast. So hatten wir z.B. 2004 in der Bundesrepublik Deutschland folgende Werte: 2,9 = 338.768.840 / 116.411.417. Die durchschnittliche Verweildauer der Hotelgäste in Deutschland betrug damit ca. 3 Tage. x
Bereinigte Beziehungszahlen
Viele der bekannten Dichteziffern beziehen sich auf die Bevölkerung insgesamt. Soll die Aussagefähigkeit erhöht werden, weil nur ein Teil der Bevölkerung die relevante Zielgruppe für einen bestimmten Sachverhalt darstellt, so nimmt man eine „Bereinigung“ vor. Dies bedeutet, dass die Nennergröße um nicht relevante Anteile verringert wird. So kann zum Beispiel die „Heiratsintensität“ der Bevölkerung dadurch gemessen werden, dass die Anzahl der Eheschließungen auf 1000 Einwohner bezogen wird. Für die Bundesrepublik Deutschland ergibt sich für das Jahr 1996 ein Wert von 5,2. Nun wird eine Bereinigung vorgenommen, indem die Ziffern nur auf Ledige bezogen und zunächst nach dem Geschlecht, anschließend zusätzlich nach dem Alter, differenziert werden. Die amtliche Statistik bietet hier die folgenden Heiratsziffern an: Eheschließende Ledige je 1000 Ledige (getrennt nach weiblichen und männlichen Einwohnern). Die Ziffern für die Bundesrepublik Deutschland lauten: 18,5 für männliche Einwohner, 21,5 für weibliche Einwohner und 19,9 für die Gesamtbevölkerung. Wird nun die zusätzliche Bereinigung nach Altersklassen vorgenommen, erhalten wir die Ergebnistabelle in Abb. 12.3 sowie die grafische Darstellung in Abb. 12.4. In der Grafik werden die Heiratsziffern den Klassenobergrenzen der Altersklassen zugeordnet. Die bereinigten Ziffern zeigen, dass bei Frauen in jüngeren Jahren deutlich höhere Heiratsziffern vorliegen und dass Männer in „mittleren“ Jahren etwa gleichziehen. Bei den ältesten Jahrgängen weisen die Männer dann leicht höhere Ziffern als die Frauen auf. Offene Fragen der Wiederverheiratung Geschiedener oder die Häufigkeit anderer Lebensgemeinschaften müssen hier mangels Information ausgeklammert werden.
Eindimensionale deskriptive Statistik
168
Heiratsziffern Altersklasse von ... bis unter ... (Jahre)
männlich
weiblich
unter 20
0
2
20 - 25
22
47
25 - 30
55
79
30 - 35
58
62
35 - 40
36
34
40 - 45
20
18
45 - 50
13
12
50 - 55
8
7
55 - 60
6
4
60 - 65
0
0
Quelle: Statistisches Bundesamt (1997a, 1998a)
Abb. 12.3: Heiratsziffern nach Altersklassen
Eheschließungen Lediger je 1000 Einwohner
Heiratsziffern 90 80 70 60 50 40 30 20 10 0 15
20
25
30
35
40
45
50
55
60
65
70
Altersklasse (Obergrenze) männlich
weiblich
Abb. 12.4: Grafische Darstellung der Heiratsziffern lediger Einwohner
12. Verhältniszahlen (Relative Kennzahlen)
169
12.4 Messzahlen Messzahlen sind Kennzahlen, bei denen verschiedene Ausprägungen derselben Variablen zueinander ins Verhältnis gesetzt werden. Die Quotientenbildung kann einem sachlichen, einem räumlichen oder einem zeitlichen Vergleich dienen.
Messzahl
(12-6)
MZ 0 j
xj
wobei 0: Bezeichnung der Basisgröße, j: Bezeichnung der Bezugsgröße
x0
oder
(12-7)
MZ 0 j
xj x0
c
mit c = Konstante (z.B. 100, 1000 etc.)
Wir wollen anhand einiger Beispiele die Berechnung von Messzahlen und die daraus resultierenden Vergleichsmöglichkeiten erörtern. x
Sachlicher Vergleich
Im Jahr 2001 kommen – in Deutschland insgesamt – auf 100 Beschäftige im sekundären Sektor (produzierender Bereich) ca. 201 Beschäftige im tertiären Sektor (Dienstleistungsbereich). Die Berechnung dieser Messzahl stellt ein Beispiel der Anwendung von Formel (12-7) auf die Daten der Abb. 12.1 (obere Tabelle nach Summierung) dar: 200,6 = 23.939 / 11.934 . 100. Als alternative oder ergänzende Berechnung kann hier auch die in Abschnitt 12.1 diskutierte Gliederungszahl gewählt werden. Ein weiteres Beispiel können wir der Fremdenverkehrsstatistik entnehmen. In der Bundesrepublik Deutschland gab es im Jahr 2004 13.078 Hotelbetriebe mit insgesamt 949.381 Betten (Übernachtungsmöglichkeiten). Im gleichen Jahr wurden in der Bundesrepublik 126.295.023 Gästeübernachtungen in Hotels gezählt. Eine typische Messzahl für den sachlichen Vergleich ist nun der Auslastungsgrad der Hotels. Er wird errechnet, indem die Zahl der tatsächlichen Gästeübernachtungen durch die möglichen Gasteübernachtungen (= Bettenzahl . 365) dividiert und als %-Zahl ausgewiesen wird. Wir erhalten einen Auslastungsgrad von 33,45 % = 126.295.023 / 346.524.065 . 100.
Eindimensionale deskriptive Statistik
170 x
Räumlicher Vergleich
Ebenfalls aus dem Bereich des Fremdenverkehrs stammt das folgende Beispiel für einen räumlichen Vergleich. Wir können die „Auslandsintensität“ des Tourismus in Deutschland ermitteln, indem wir die Anzahl der Urlaubsgäste aus dem Ausland auf die Anzahl der Urlaubsgäste aus Deutschland beziehen. 20,14 Millionen Urlaubsgäste der Bundesrepublik Deutschland 2004 aus dem Ausland kommen auf 96,27 Millionen Gäste aus dem Inland, d.h. auf ca. 5 Gäste aus dem Inland kommt ca. 1 Gast aus dem Ausland. Auch hier kann man alternativ eine Gliederungszahl berechnen. x
Zeitlicher Vergleich
Sehr häufig dienen Messzahlen einem zeitlichen Vergleich. Hierbei wird ein Zeitpunkt/Zeitraum als Basisperiode gewählt und die Werte der übrigen Zeitpunkte/Zeiträume werden auf diese Basis bezogen. Betrachten wir als Beispiel die Übernachtungen 2003 und 2004 in Hotels der Bundesrepublik Deutschland einerseits und in Kurkliniken/Sanatorien andererseits (Quelle: Statistisches Bundesamt (2003+2004)):
Übernachtungen in 1000 in … Hotels Kurkliniken
2003
2004
Messzahl
189.541,1
195.047,2
102,90
45.656,7
43.489,3
95,25
Abb. 12.5: Messzahlen für den zeitlichen Vergleich
Die Berechnung der Messzahl nach Formel (12-7) führt zu den Ergebnissen der letzten Spalte von Abb. 12.5: 102,90 = 195.047,2 / 189.541,1 . 100 und 95,25 = 43.489,3 / 45.656,7 . 100. Während wir bei den Hotel-Übernachtungen einen leichten Anstieg um etwa 2,9% beobachten können, sind die Übernachtungen in Kurkliniken von 2003 auf 2004 um knapp 5% zurückgegangen. Die Gesundheitsreformen mit den Einschnitten im Kurbereich haben hier eine deutliche Spur hinterlassen. Bei Messzahlen sind insbesondere Zeitreihen von Interesse. Betrachten wir hierzu – ähnlich wie in Kapitel 11 – die Ausgaben und Einnahmen im Auslandstourismus der Bundesrepublik Deutschland. Das sind die Ausgaben von Deutschen für Auslandsreisen und die Einnahmen in Deutschland von ausländischen Reisenden. Wir gehen von den Absolutbeträgen in Millionen Euro aus (siehe Abb. 12.6).
12. Verhältniszahlen (Relative Kennzahlen)
171
Ausgaben und Einnahmen im Auslandstourismus der Bundesrepublik Deutschland
Ausgaben Einnahmen Saldo
in Mio. Euro 2001 2002 57.986 55.504 20.165 20.350 37.821 35.154
2003 57.187 20.426 36.761
Quelle: Statistisches Bundesamt (2005)
Abb. 12.6: Auslandstourismus der Bundesrepublik Deutschland
Zur Ermittlung von Messzahlen für die drei Zeitreihen der Abb. 12.6 wird eines der angegebenen Jahre als Basisperiode festgelegt. Wenn wir zunächst 2001 als Basisjahr bestimmen, entsteht die folgende Tabelle von Messzahlen:
Ausgaben und Einnahmen im Auslandstourismus der Bundesrepublik Deutschland
Ausgaben Einnahmen Saldo
Meßzahlen 2001=100 2001 2002 100,0 95,7 100,0 100,9 100,0 92,9
2003 98,6 101,3 97,2
Quelle: Statistisches Bundesamt (2005)
Abb. 12.7 Messzahlen mit Basisjahr am Beginn der Zeitreihe
Wenn wir das Jahr 2003 als Basisjahr wählen, ergibt sich:
Ausgaben und Einnahmen im Auslandstourismus der Bundesrepublik Deutschland
Ausgaben Einnahmen Saldo
Meßzahlen 2003=100 2001 2002 101,4 97,1 98,7 99,6 102,9 95,6
2003 100,0 100,0 100,0
Quelle: Statistisches Bundesamt (2005)
Abb. 12.8: Messzahlen mit Basisjahr am Ende der Zeitreihe
Die erste Variante (in Abb. 12.7) zeigt die Niveauveränderung bezüglich der Anfangsperiode an. Die zweite Variante (in Abb. 12.8) gibt das Niveau in früheren Perioden bezüglich des zuletzt angegebenen Jahres 2003 wieder.
172
Eindimensionale deskriptive Statistik
Wir können in den Tabellen Veränderungsraten zum Teil direkt ablesen. Aus Abb. 12.7 entnehmen wir bei den Einnahmen für das Jahr 2002 ein Plus von 0,9% etc. Außerdem können wir aus sämtlichen Messzahlen der beiden obigen Tabellen Veränderungsraten berechnen. Nehmen wir dies exemplarisch mit den Angaben von Abb. 12.8 vor, indem wir die Messzahlen des Jahres 2002 auf die Messzahlen des Jahres 2001 beziehen, dann erhalten wir: - 4,24 = ( 97,1 – 101,4) / 101,4 . 100, 0,91 = ( 99,6 – 98,7) / 98,7
.
100
- 7,10 = (95,6 - 102,9) / 102,9
.
100.
Abgesehen von Rundungsdifferenzen sind diese Wachstumsraten identisch mit den Wachstumsraten der Messzahlen mit Basis 2001 (siehe Abb. 12.7). Sie zeigen den Tourismus-Einbruch in Folge des 11. September 2001. Wir sehen, dass Reihen von Messzahlen mit unterschiedlichen Basisperioden zueinander proportional sind, dass sie also die gleiche Entwicklung auf unterschiedlichem Niveau darstellen. Die Differenz zweier Messzahlen einer Reihe ist als Veränderung in %-Punkten zu interpretieren. Der Anstieg der Ausgaben für Auslandstourismus beträgt 2003 im Vergleich zu 2002 2,9%-Punkte (= 98,6 – 95,7), wenn wir als Basis 2001 annehmen (siehe Abb. 12.7). Wenn wir die analoge Veränderung mit Basis 2003 berechnen, ergeben sich - 2,9%-Punkte (= 100,0 – 97,1). Es ist nachvollziehbar, dass beide %-Punkt-Veränderungen gleich groß sind. Unterschiedlich wäre das Ergebnis mit Veränderungsraten in %. Abschließend sei noch darauf hingewiesen, dass zeitlich definierte Messzahlen eine inhaltliche Übereinstimmung mit den Wachstumsfaktoren aufweisen, die wir für die Berechnung des geometrischen Mittels ermittelt hatten (siehe Abschnitt 8.6). Dies begründet auch die oben diskutierte Verwandtschaft von Messzahlen und Wachstumsraten.
12.5 Mittelwerte von Verhältniszahlen Mittelwerte von Verhältniszahlen können nicht völlig analog zum üblichen arithmetischen Mittel berechnet werden. Grundsätzlich können Verhältniszahlen nur dann zu einem Mittelwert zusammengefasst werden, wenn ein Gewichtungsschema berücksichtigt wird. Wir wollen dies anhand einer regionalen Beziehungszahl erörtern. Als Beispiel wird die Arbeitslosenquote zweier Regionen berechnet und anschließend die durchschnittliche Quote der beiden Regionen gesucht. Die nachfolgende Abb. 12.9 zeigt die entsprechenden Absolutwerte der Arbeitslosenzahlen und der Erwerbspersonen sowie die Arbeitslosenquoten. Die durchschnittliche Quote beider Regionen ist mit 6,0% nicht der einfache Mittelwert der beiden Einzelwerte von 5,0% und 10,0%. Vielmehr ist der Durchschnittswert
12. Verhältniszahlen (Relative Kennzahlen)
173
gleichzusetzen mit der Verhältniszahl für die Zusammenfassung beider Regionen (siehe letzte Zeile).
Region
Arbeitslose
Erwerbs-
Arbeitslosen-
personen
quote in %
A
400
8000
5,0
B
200
2000
10,0
Summe
600
10000
6,0
Abb. 12.9: Mittelwerte von Verhältniszahlen (Basisdaten)
Das gleiche Ergebnis wie bei der Summenbildung erhalten wir, wenn die Arbeitslosenquoten der beiden Regionen mit der Größe der Region (= der Anteil der Erwerbspersonen an der Gesamtregion) gewichtet werden. Dies ist in Abb. 12.10 zu erkennen, wobei als Summe der letzten Spalte die durchschnittliche Arbeitslosenquote von 6,0% resultiert. Die Anteile in der vorletzten Spalte entsprechen relativen Häufigkeiten. Die Berechnung des Mittelwerts von Verhältniszahlen kommt damit einer Anwendung des gewogenen arithmetischen Mittels gleich (Formel (811) aus dem 8. Kapitel), d.h. einer Multiplikation von Werten mit ihrem Gewicht (relative Häufigkeit) und einer Addition der Produkte.
Region
Arbeitslosen-
Erwerbs-
E-Personen
AL-Quote mal
quote in %
personen
Anteil
E-P-Anteil
A
5,0
8000
0,8
4,0
B
10,0
2000
0,2
2,0
10000
1,0
6,0
Summe
Abb. 12.10: Mittelwerte von Verhältniszahlen (Ergebnisse)
Betrachten wir das Gewichtungsschema in der vorletzten Spalte der Abb. 12.10 dann können wir erkennen, dass die durchschnittliche Arbeitslosenquote von 6,0% nahe bei der Quote von 5,0% in Region A liegt. Das Gewicht von 0,8 für diese Region ist wesentlich größer als das Gewicht für die Region B. Das hier skizzierte Gewichtungsproblem bei Mittelwerten von Verhältniszahlen ist auch ein wichtiges Thema bei der Definition von Indexzahlen und wird daher im nachfolgenden Kapitel 13 mehrfach aufgegriffen.
174
13. Indexzahlen x Leitfragen
1) Inwiefern sind Indexzahlen besondere Verhältniszahlen? 2) Welches Ziel wird mit der Berechnung von Indexzahlen verfolgt? 3) Was messen Preis-, Mengen- und Wertindizes und wie wirken sie zusammen? 4) Welche praktischen Anwendungsfälle für Indizes gibt es? 5) Welche Bedeutung hat die Preisbereinigung?
13.1 Grundlagen und Bedeutung von Indexzahlen Indexzahlen sind Mittelwerte von Messzahlen und damit Mittelwerte von Verhältniszahlen. Eine Indexzahl entsteht dadurch, dass einzelne Messzahlen mit einer Gewichtung versehen und zusammengefasst werden. Zuweilen wird der Begriff „Indexzahl“ synonym zu Messzahl verwendet oder auch synonym zu Verhältniszahl. Indexzahlen sind im Bereich der Preisentwicklung sehr bekannt und werden regelmäßig in der Tages- und Fachpresse zitiert: Wie hoch war die Preissteigerung im abgelaufenen Monat im Vergleich zum Vorjahresmonat? Wie hoch war die Inflationsrate im vergangenen Jahr, oder gab es sogar Deflation? Wie hat sich das Bruttoinlandsprodukt im letzten Jahr nominal entwickelt und wie stellt sich das Ergebnis real dar, d.h. preisbereinigt. Indexzahlen können sich auch auf einen Betrieb oder eine Branche beziehen, deren Umsatz als Wertgröße bekannt ist. Hier wird dann z.B. untersucht, ob eine Umsatzerhöhung vorwiegend auf Preiserhöhungen zurückzuführen ist oder auf Mengenerhöhungen. Während man in einzelnen Betrieben für das jeweilige Produkt auch mit Stückzahlen (Absatz) rechnen kann, ist in der Zusammenfassung von Betrieben und Branchen mit unterschiedlichen Produkten die reine Mengenzählung nicht mehr sinnvoll. Dann wird man auf Umsatz-, Preis- und Mengenindizes zurückgreifen. Andere Indizes, die ebenfalls Einzelwerte „gewichtet“ zusammenfassen, werden täglich in den Nachrichtensendungen zitiert: der Aktienindex DAX und seine zahlreichen „Verwandten“ (z.B. der „Neue-Markt-Index“), die geradezu eine Inflation von Indexzahlen darstellen. Und natürlich sind die großen internationalen Pendants bekannt, wie der DOW-JONES, der Aktienindex der New Yorker Börse.
13. Indexzahlen
175
Das Grundgerüst einer Indexzahl wird durch folgende Formeln ausgedrückt:
Indexzahl - allgemein n
¦ x it (13-1)
I0t
i 1 n
¦ x i0 i 1
mit
x = Menge q oder Preis p, i = Laufindex der Güter, 0,t = Index für die Zeit (oder eine Region)
- als Mittelwert von Messzahlen n
(13-2)
I0t
¦ MZ it git i 1
mit MZit = Messzahl und git
= Gewichtungsfaktor
An diesen Basisformeln erkennen wir einen wesentlichen Unterschied zwischen einzelnen Indexzahlen. Zum einen können wir eine Indexzahl ohne explizite Gewichtung konstruieren (Formel 13-1). Zum anderen kann ein Gewichtungsschema (Formel 13-2) verwendet werden, das die Gewichtungssumme von 1,0 oder 100% auf die einzelnen Werte verteilt.
13.2 Ungewogene Indexzahlen Wir wollen zunächst am Beispiel von Güterpreisen aus verschiedenen Ländern eine „ungewogene“ Indexzahl mit dem Ziel eines internationalen Vergleichs berechnen. In der Sunday Times vom 23. August 1998 war ein internationaler Preisvergleich von insgesamt 22 Produkten zu finden, vom Steak bis zum Ketchup. In der nachfolgenden Abb. 13.1 sind die Preise für einen Teil dieser Produkte dargestellt, wobei die Preise in Euro (1 Brit. Pfund = 3,00 DM = 1,5339 €) umgerechnet wurden. Das Gesamtergebnis des Vergleichs bleibt damit erhalten. Der Bericht in der Sunday Times war überschrieben mit „Britain paying highest prices“, und das Ergebnis der Abb. 13.1 bringt das auch deutlich zum Ausdruck: Für den Warenkorb sind in Großbritannien 74,38 € zu bezahlen, während derselbe Warenkorb in Deutschland nur 46,03 € kostet. Die USA und Frankreich liegen zwar über dem Preisniveau von Deutschland, aber immer noch deutlich unter dem „highest paying“ Großbritannien.
Eindimensionale deskriptive Statistik
176
Produkt Sirloin Steak Heineken Bier Coca Cola Kartoffeln Olivenöl Nescafe Kellogs Cornfl. Butter Milch Räucherlachs Heinz Ketchup
Menge 1 kg 4x440 ml 1l 1 kg 500 ml 100 g 500 g 250 g 1l 1 kg 460 g
Warenkorb
Großbritannien 17,93 4,99 1,00 0,84 3,13 2,95 1,76 1,37 0,64 38,19 1,58 74,38
USA
Frankreich
9,77 4,66 1,09 0,41 4,22 3,57 3,87 1,78 0,95 21,15 1,41 52,88
12,01 2,79 0,71 1,26 2,95 2,93 2,10 1,41 0,94 27,15 1,47 55,72
Deutschland 13,22 3,99 0,84 0,64 3,97 4,51 2,27 1,17 1,00 13,24 1,18 46,03
Abb. 13.1: Internationaler Preisvergleich (in Euro)
In dem Bericht war die prozentuale Abweichung der anderen Länder im Vergleich zu Großbritannien angegeben. Dies verdeutlicht Abb. 13.2:
Indizes GB = 100 %-Abweichung
Großbritannien 100,00
USA
Frankreich
71,10 -28,90
74,91 -25,09
Deutschland 61,88 -38,12
Abb. 13.2: Berechnung von Preisindizes und %-Abweichungen
Die Berechnung der Warenkorb-Preise in der Abb. 13.1 stellt eine Anwendung der Formel (13-1) dar. Zunächst werden die Preise bestimmter Produkte eines Landes addiert (Zähler von 13-1). Dasselbe passiert mit den Preisen des anderen Landes (Nenner von 13-1). Zur Indexberechnung werden die Ergebnisse der einzelnen Länder untereinander dividiert. In Abb. 13.2 sehen wir das Index-Ergebnis sowie die prozentualen Abweichungen der einzelnen Länder vom Wert Großbritanniens. Eine analoge Vorgehensweise ergibt sich, wenn wir aus zwei Zeiträumen die Preise einiger Güter addieren und die Summen dividieren. Auch hier liegt die Berechnung einer einfachen Indexzahl ohne explizite Gewichtung vor. Die Gewichtung ist allerdings implizit dadurch gegeben, dass wir von den betrachteten Gütern jeweils eine Standardmenge (Packung etc.) unterstellen. So sind die in der 2. Spalte der Abb. 13.1 angegebenen Mengen implizite Gewichte im Warenkorb. Der Nachteil von einfachen (und ungewogenen) Indexzahlen ist offensichtlich. Wir haben eine „kleine“ und nicht repräsentative Auswahl von Gütern in unserem Warenkorb. Sicherlich ist es in der Praxis durchaus von Bedeutung, ausgewählte Einzelpreise international oder zeitlich miteinander zu vergleichen. Dies wurde im Zuge der Einführung des EURO auch regelmäßig getan. Nur kann hier nicht von einem Preisindex in dem Sinne gesprochen werden, dass wir das Preisniveau oder
13. Indexzahlen
177
die Preisentwicklung insgesamt und repräsentativ erfassen. Daher eignen sich die Ausführungen dieses Abschnittes zwar als Einstieg in das Thema der Indexberechnung, aber auch als Warnung vor Fehlern, die hier passieren können. Beispielhaft sei auf eine „Besonderheit“ des Warenkorbs der Abb. 13.1 hingewiesen. Wir finden im Warenkorb 1 kg Räucherlachs und direkt daneben 1 l Milch. Es ist bekannt, dass die monatlichen Verbrauchsmengen von Lachs und Milch im „durchschnittlichen“ Haushalt nicht identisch sind, was aber im obigen Beispiel der Fall ist. Wenn man außerdem sieht, welch hohen Anteil die Lachs-Ausgaben am gesamten Warenkorb haben, wird man die Aussagefähigkeit solch „einfacher“ Preisindizes doch sehr in Zweifel ziehen.
13.3 Symbole und Formeln zu den Indexzahlen Bei den klassischen Indexzahlen spielen einerseits Preise und andererseits Mengen ausgewählter Güter eine wichtige Rolle. Zur Konstruktion der Indexzahl werden die in der nachfolgenden Übersicht zusammengestellten Symbole und Formeln verwendet. Wir sehen insbesondere die Güterarten i, die Preise p und die Mengen q. Alle Größen werden mit einem zeitlichen Bezug versehen, der Basisperiode 0 oder der Berichtsperiode t. Dies verdeutlicht, dass eine typische Indexzahl die zeitliche Entwicklung von einer Basisperiode zu einer Berichtsperiode, d.h. von einem Ausgangsmonat/-jahr zu einem aktuellen Monat/Jahr, erfassen möchte.
Symbol
Formel
Bedeutung
(13-3)
n
(13-4)
i
Anzahl von Gütern in einem „Warenkorb“ Laufindex der Güter (i läuft von 1 bis n)
(13-5)
0
Basisperiode
(13-6)
t
(13-7)
pi0
(13-8)
pit
(13-9)
qi0
(13-10)
qit
(13-11)
Ui0
pi0 qi0
(13-12)
Uit
pit qit
Berichtsperiode (t = 1, 2 ...) Preis des Gutes i in der Basisperiode 0 Preis des Gutes i in der Berichtsperiode 0 Menge des Gutes i in der Basisperiode 0 Menge des Gutes i in der Berichtsperiode t Wert des Gutes i in der Basisperiode 0 (= Umsatz, Ausgaben, ...) Wert des Gutes i in der Berichtsperiode t (=Umsatz, Ausgaben, ...)
Beispiel (Ö Abb. 13.3) 5 1, 2 ...
1, 2, 3 ... 2, 4, 3 ... 2, 2, 3 ... 1, 2, 2 ... 2, 4, 9 ...
2, 8, 6 ...
Eindimensionale deskriptive Statistik
178
13.4 Preisindizes nach Laspeyres und nach Paasche Insbesondere der Verbraucherpreisindex (früher Preisindex der Lebenshaltung), aber auch der Preisindex des Bruttoinlandsprodukts sind Indexzahlen, die regelmäßig in der Öffentlichkeit präsentiert und diskutiert werden. Sie werden bei zahlreichen wirtschaftspolitischen Fragestellungen zur Analyse oder bei Tarifverhandlungen zur Argumentation herangezogen. Hauptanwendung dieser Indexzahlen ist die Preisbereinigung, d.h. das Herausrechnen der Preisveränderung – i.a. der Preissteigerung, der Inflation – aus der Entwicklung von Wertgrößen. x
Preisindex nach Laspeyres
Am weitesten verbreitet ist der Preisindex nach einer Formel von Laspeyres, einem deutschen Nationalökonomen aus dem 19. Jahrhundert. Der Grundgedanke der Laspeyres-Formel (von 1864) beruht auf der Tatsache, dass zur Gewichtung Mengen aus der Basisperiode verwendet werden, die dann für einige Zeit als Gewichtungsschema konstant bleiben. Im Falle des Verbraucherpreisindex ist diese Basisperiode ein vom Statistischen Bundesamt festgelegtes Jahr, für das die durchschnittliche Verbrauchsstruktur der privaten Haushalte erhoben wird. Anfang 2008 wurde als neues Basisjahr 2005 bestimmt. Die davorliegenden Basisjahre waren 2000, 1995 und 1991 (zum ersten Mal mit gesamtdeutschem Preisindex. Die Basis des Laspeyres-Index der Verbraucherpreise hat immer etwa fünf Jahre Bestand und wird in dieser Zeit als einheitliches Mengenschema verwendet. Die grundlegende Formel des Preisindex nach Laspeyres lautet:
Preisindex nach Laspeyres n
(13-13)
P0Lt
¦ pit qi0 i 1 n
(i.a. mal 100)
¦ pi0 qi0 i 1
Der Hauptvorteil des Laspeyres-Index ist, dass die Gewichtung mit den Mengen qi0 für einige Zeit konstant bleibt. Die Ermittlung eines Warenkorbs als Gewichtungsschema ist eine sehr aufwendige und teure Angelegenheit, so dass eine jährliche Anpassung enorme Kosten für die amtliche Statistik verursachen würde. Auch ist es von Vorteil, wenn bei einer längeren Reihe von Indizes jeder Wert auf demselben Basiswert beruht. Die zeitliche Vergleichbarkeit der gesamten Indexreihe ist damit gegeben.
13. Indexzahlen
x
179
Preisindex nach Paasche
Wenn man den Hauptnachteil der Laspeyres-Formel, das „Veralten“ des Warenkorbs, vermeiden möchte, bietet sich die Indexformel von Paasche an, entwickelt im Jahre 1874. Hier werden anstelle von Basismengen die Mengen aus der Berichtsperiode als Gewichte eingesetzt. Die nachfolgende Formel nach Paasche wird bei der Preisbereinigung des Bruttoinlandsprodukts angewandt.
Preisindex nach Paasche n
P0Pt
(13-14)
¦ pit qit i 1 n
(i.a. mal 100)
¦ pi0 qit i 1
Die Berechnung von Indexzahlen nach Laspeyres und Paasche wollen wir an einem einfachen Zahlenbeispiel darlegen und gleichzeitig einander gegenüberstellen.
pi0 1 2 3 3 2 -
pit 2 4 3 4 2 -
PL0t =
37 29
i 1 2 3 4 5 Summe
P
P
0t =
32 25
qi0 2 2 3 2 4 13 .
100 =
qit 1 2 2 2 4 11
pi0qi0 2 4 9 6 8 29
pitqi0 4 8 9 8 8 37
pi0qit 1 4 6 6 8 25
127,59 Differenz:PL-PP
.
100 =
pitqit 2 8 6 8 8 32
-0,41
128,00
Abb. 13.3: Preisindex nach Laspeyres und nach Paasche
Wir haben hier einen ersten Fall vor uns, bei dem die beiden Preisindizes nicht sehr stark voneinander abweichen. Dies liegt daran, dass sich die Mengen in den beiden Perioden nicht sehr stark unterscheiden. Sehen wir uns einen zweiten Fall an (siehe Abb. 13.4), in dem die Konsumenten eine deutliche Substitution vornehmen. Sie ersetzen Güter, die überdurchschnittlich teurer werden, durch Güter, die vergleichsweise wenig teurer oder sogar billi-
Eindimensionale deskriptive Statistik
180
ger werden. Zur Beurteilung der Substitution ist auch die Summe der Mengen der Güter hilfreich, die wir ansonsten für die Indexberechnung nicht benötigen. Die Summe der Mengen zeigt, ob die betrachteten Güter insgesamt stärker oder weniger stark konsumiert werden. So sehen wir in unserem Beispiel einen Rückgang der konsumierten Mengen von 13 auf 10. Damit stellt sich die Frage, ob nicht Güter außerhalb unseres Warenkorbs vermehrt konsumiert wurden. Dies ist allerdings eine grundsätzliche Frage der Definition und Abgrenzung des Warenkorbs, die nicht allgemein zu beantworten ist. Die obige Tabelle und die Berechnungen stellen sich nun wie folgt dar:
i 1 2 3 4 5 Summe
pi0 1 2 3 3 2 -
pit 2 4 3 4 2 -
L 0t =
37 29
P P
P
0t =
27 23
.
qi0 2 2 3 2 4 13
qit 1 1 3 1 4 10
100 =
127,59
pi0qi0 2 4 9 6 8 29
pitqi0 4 8 9 8 8 37
pi0qit 1 2 9 3 8 23
L
Differenz:P -P .
100 =
pitqit 2 4 9 4 8 27
P
10,19
117,39
Abb: 13.4: Preisindizes nach Laspeyres und nach Paasche bei starker Substitution
Wir sehen jetzt einen deutlichen Unterschied: Der Laspeyres-Index lässt die Preissteigerung höher, der Paasche-Index lässt sie niedriger ausfallen. Die Substitution der teureren durch die billigeren Güter wird vom Paasche-Index erfasst, vom Laspeyres-Index dagegen nicht, weil dieser mit konstanten Mengen der Vergangenheit arbeitet.
13.5 Preisindex von Laspeyres als Mittelwert von Preismesszahlen Eine besondere Bedeutung für die Praxis und auch die theoretische Erläuterung hat die Interpretation des Preisindex von Laspeyres als gewogener Mittelwert von Preismesszahlen. Der Mittelwert entsteht durch einfache Umformung des Index (13-13), nämlich eine Erweiterung um pi0/pi0. Die neue Formel (13-15) erlaubt diese zusätzliche Interpretation des Preisindex. Die amtliche Statistik veröffentlicht regelmäßig entsprechende Tabellen mit Gewichten (siehe dazu Abb. 13.6). Auch für den Mengenindex kann eine entsprechende Formel (13-16) gebildet werden, die allerdings eine geringere praktische Bedeutung hat. Zunächst zu den aus der Umformung entstehenden Indexformeln:
13. Indexzahlen
181
Preisindex nach Laspeyres als Mittelwert von Preismesszahlen
(13-15)
P0Lt
n
p
¦ piit0 gi
mit
i 1
gi
pi0 qi0 n
¦ pi0 qi0 i 1
den Wert-/Ausgaben-/Umsatzanteilen in der Basisperiode
Mengenindex nach Laspeyres als Mittelwert von Mengenmesszahlen
(13-16)
QL0t
n
q
¦ qiit0 gi
mit gi aus (13-15)
i 1
Unser Berechnungsbeispiel geht von denselben Zahlen aus, wie oben bei Anwendung der ursprünglichen Formel für den Laspeyres-Preisindex.
i
pi0
pit
qi0
qit
pi0qi0
gi (%)
1 2 3 4 5 Summe
1 2 3 3 2 -
2 4 3 4 2 -
2 2 3 2 4 -
1 2 2 2 4 -
2 4 9 6 8 29
6,90 13,79 31,03 20,69 27,59 100,00
P
L 0t =
pit/pi0 *100 200,00 200,00 100,00 133,33 100,00
Meßzahl * gi /100 13,79 27,59 31,03 27,59 27,59 127,59
127,59
Abb. 13.5: Laspeyres-Preisindex als Mittelwert von Messzahlen
Die Berechnung des Preisindex entspricht jetzt einer Addition der Zahlen in der letzten Spalte der Tabelle 13.5. Diese Werte sind die Produkte aus einzelnen Preismesszahlen und dem Gewichtungsanteil. Wir stellen fest, dass das Gesamtergebnis dieselben 127,59% liefert wie die obigen Tabellen in Abb. 13.3 bzw. 13.4. Jetzt wird besonders deutlich, dass der Preisindex ein Mittelwert einzelner Preisveränderungen ist. Die einzelnen Preise erhöhen sich (siehe vorletzte Spalte)
Eindimensionale deskriptive Statistik
182
zweimal auf 200% und einmal auf 133,33%, zweimal bleiben sie gleich (100%). Diese Einzelwerte werden mit dem Ausgabenanteil im Warenkorb gewichtet. Die Gesamtausgaben betragen 29,00 DM, auf die einzelnen Güter entfallen 2 DM, 4 DM usw., d.h. 6,90%, 13,79% usw. Die gewogenen Preismesszahlen fasst der Preisindex zu einem Gesamtwert zusammen und stellt damit eine durchschnittliche Preisveränderung aller Güter dar. Das Ergebnis liegt mit einem Preisniveau von knapp 130% näher bei den 100% bzw. 133% der letzten drei Güter als bei den 200% der ersten beiden Güter. Diese Güter weisen zwar eine Preisverdopplung auf, haben aber relativ geringe Gewichte als Ausgabenanteile (nur ca. 7% bzw. 14%). Analog können wir einen Mengenindex nach Laspeyres berechnen, wobei dann Mengenmesszahlen mit Ausgabenanteilen gewogen werden (siehe Formel 13-16). x
Subindizes
Ein weiteres Beispiel für den Preisindex können wir betrachten, wenn wir die Formel (13-15) auf Subindizes (Indizes für Warengruppen) anwenden. Anstelle der oben verwendeten Preismesszahlen pit/pio gehen nun Indexzahlen für einzelne Warengruppen in die Gesamtformel des Preisindex ein. Diese Indexzahlen werden genauso verwendet wie zuvor die Preismesszahlen. Wir wollen die offiziell gültige Gliederung des Verbraucherpreisindex betrachten und können dabei von folgender Tabelle ausgehen:
i 1 2 3 4 5 6 7 8 9 10 11 12 Summe
Gütergruppe Nahrungsmittel, Getränke Alkohol. Getränke, Tabakwaren Bekleidung und Schuhe Wohnung, Wasser, Energie Hausrat incl. Instandhaltung Gesundheitspflege Verkehr Nachrichtenübermittlung Freizeit und Kultur Bildungswesen Hotels und Gaststätten Verschiedene Waren u.Dienstl. Warenkorb
PL05/10 =
Gewicht gi (o/oo)
Subindex
Subind. *gi / 1000
103,55 38,99 48,88 308,00 55,87 40,27 131,90 31,00 115,68 7,40 43,99 74,47 1000,00
112,5 113,0 103,7 110,1 104,6 104,7 112,1 88,0 101,3 131,8 109,9 108,4
11,65 4,41 5,07 33,91 5,84 4,22 14,79 2,73 11,72 0,98 4,83 8,07 108,21
108,21
Quelle: Statistisches Bundesamt (2011)
Abb. 13.6: Preisindex nach Laspeyres mit Subindizes
13. Indexzahlen
183
Die Daten der Tabelle in Abb. 13.6 geben den aktuellen Warenkorb für den Index der Verbraucherpreise der Bundesrepublik Deutschland wieder. Das Gewichtungsschema der gi-Spalte gilt seit Anfang 2008 und beruht auf einem Warenkorb des Jahres 2004. Die Gewichte sind die Ausgabenanteile (in Promille) eines repräsentativen Durchschnittshaushaltes für die jeweilige Gütergruppe. Für Nahrungsmittel werden ca. 10,4% der Ausgaben aufgewandt, für Wohnen ca. 30,8% usw. Wir sehen, dass die Summe der Gewichte 1000 Promille beträgt. Bei den Subindizes fällt auf, dass in einem Teilbereich Preissenkungen vorliegen: Die Preise für die Nachrichtenübermittlung sind (bedingt durch den liberalisierten Telekommunikations-Markt) auf ein Preisniveau von etwa 88% zurückgegangen. Bei den übrigen Gütergruppen sehen wir sehr unterschiedliche Preissteigerungen, z.B. 31,8% im Bildungswesen und nur 1,3% bei Freizeit und Kultur. Alle Preisveränderungen beziehen sich auf den Fünfjahreszeitraum von 2005 bis 2010. Der Gesamtindex für die 5 Jahre beträgt 108,21 und liegt – als Summe der gewichteten Subindizes – mit 8,21% Preissteigerung in der „Mitte“ der einzelnen Veränderungen. Der Gesamtindex ist das mit Ausgabenanteilen gewogene arithmetische Mittel der Subindizes. Die Aufteilung in die obigen 12 Gruppen wurde nach dem aktuellen internationalen Standard COICOP 1 vorgenommen und löst die frühere Einteilung in „Hauptgruppen“ ab. In analoger Weise kann der Index der Verbraucherpreise mit sämtlichen Einzelpreisen (ca. 750) und deren jeweiligem Gewicht in einer Tabelle dargestellt werden, womit dann wiederum die Formel (13-15) direkt zur Anwendung kommt.
13.6 Preisindizes nach Lowe und nach Fisher Um die Vorteile der beiden Indizes von Laspeyres und von Paasche zusammenzufassen, hat I. Fisher (1927) seinen „idealen“ Preisindex als geometrisches Mittel dieser beiden Indexzahlen konstruiert. Der Statistiker Lowe hatte bereits 1823 versucht, ein zeitlich übergreifendes Gewichtungsschema zu entwickeln, das wir anhand der Variante „Durchschnitt zweier Jahre“ betrachten wollen. Die beiden Indexzahlen von Lowe und von Fisher haben gemeinsam, dass sie keinen festen Bezug des Gewichtungsschemas zu einer Zeitperiode aufweisen. Damit vermeiden sie die Entscheidung für die Basis- oder die Berichtsperiode als Gewichtungszeitraum. Wir wollen hier – aus Platzgründen – nur die Preisindizes von Lowe und Fisher diskutieren. Mengenindizes können völlig analog errechnet werden. Die Formeln für die Preisindizes lauten:
1
COICOP = Classification of Individual Consumption by Purpose
Eindimensionale deskriptive Statistik
184
Preisindizes mit periodenübergreifenden Gewichten - Preisindex von Lowe n
(13-17)
¦ pit qi
P0Lo t
i 1 n
mit qi = Durchschnittsmengen aus mehreren Perioden
¦ pi0 qi i 1
- Preisindex von Fisher
(13-18)
P0Ft
P0Lt P0Pt
mit den beiden Preisindizes nach Laspeyres und nach Paasche gemäß den Formeln (13-13) und (13-14)
Die nachfolgende Ergebnistabelle in Abb. 13.7 zeigt beispielhaft die erforderlichen Berechnungen. Die Ermittlung der Lowe-Mengen qi kann leicht nachvollzogen werden. In diesem Beispiel sind die Mengen für den Lowe-Index jeweils das arithmetische Mittel der beiden Mengen aus der Basis- und der Berichtsperiode: 1,5 = (1+ 2) / 2 usw.
i
pi0
pit
qi0
qit
1 2 3 4 5
1 2 3 3 2
2 3 3 4 2
2 2 3 2 4
1 2 4 2 5
Su.
-
-
-
-
P
L 0t =
35 29
.
100 =
pi0qi0
pitqi0
pi0qit
pitqit
qi
pi0qi
pitqi
2 4 9 6 8
4 6 9 8 8
1 4 12 6 10
2 6 12 8 10
1,5 2,0 3,5 2,0 4,5
1,5 4,0 10,5 6,0 9,0
3,0 6,0 10,5 8,0 9,0
29
35
33
38
13,5
31,0
36,5
120,69 L
P
5,54
Diff.:PF-PLo
0,15
Diff.:P -P P
P
0t =
38 33
.
100 =
115,15
PF0t = 120,69115,15 = 117,89 PLo01=
36,5 . 100 = 31
117,74
Abb. 13.7: Preisindizes nach Fisher und Lowe
13. Indexzahlen
185
Wir können die Ergebnisse wie folgt interpretieren: - Die Werte der beiden Preisindizes nach Fisher und nach Lowe liegen zwischen den Werten der beiden Indizes nach Laspeyres und nach Paasche und sind damit Mittelwerte der ursprünglichen Indizes. - Die beiden Indizes nach Fisher und Lowe liegen nicht sehr weit auseinander, während die ursprünglichen Indizes nach Laspeyres und Paasche eine größere Differenz aufgewiesen hatten. Für die statistische Praxis sind die Indizes von Fisher und Lowe nicht von großer Bedeutung. Sie wären nur mit großem Aufwand und hohen Kosten zu realisieren, weil beide ständig aktuelle Verbrauchsmengen benötigen.
13.7 Mengenindizes nach Laspeyres und nach Paasche Bei den bisherigen Ausführungen zu den Indexzahlen standen die Gütermengen eher im Hintergrund. Die Mengen waren Gewichte oder Bestandteile von Gewichten. In Analogie zu den in den Abschnitten 13.3 und 13.4 diskutierten Preisindizes wurden von Laspeyres und Paasche auch Formeln für Mengenindizes entwickelt. Diese Indexzahlen haben das Ziel, Mengenveränderungen zu messen. Dabei werden zur Gewichtung jeweils unterschiedliche Preise herangezogen. Zunächst zu den Formeln:
- Mengenindex nach Laspeyres n
(13-19)
QL0t
¦ pi0 qit i 1 n
(i.a. mal 100)
¦ pi0 qi0 i 1
- Mengenindex nach Paasche n (13-20)
QP 0t
¦ pit qit i 1 n
¦ pit qi0 i 1
(i.a. mal 100)
Eindimensionale deskriptive Statistik
186
Sehen wir uns ein Berechnungsbeispiel an, das von denselben Zahlen wie in Abb. 13.3 ausgeht.
i 1 2 3 4 5 Summe
pi0 1 2 3 3 2 -
pit 2 4 3 4 2 -
L 0t =
37 29
P P
0t =
32 25
L 0t =
25 29
P
Q Q
P
0t =
U0t =
32 37 32 29
qi0 2 2 3 2 4 .
qit 1 2 2 2 4 -
pi0qi0 2 4 9 6 8 29
pitqi0 4 8 9 8 8 37
pi0qit 1 4 6 6 8 25
pitqit 2 8 6 8 8 32
100 = 127,59
.
100 = 128,00
.
100 =
Differenz:PL-PP
-0,41
Differenz:QL-QP
-0,28
86,21
.
100 =
.
100 = 110,34
86,49
Abb. 13.8: Mengenindizes nach Laspeyres und Paasche (mit Preis- und Wertindizes)
Zunächst stellen wir fest, dass beide Formeln etwa 86% als Ergebnis für den Mengenindex liefern. Die Mengen sind also um fast 14% zurückgegangen. Zur Interpretation können wir sagen, dass der Mengenindex nach Laspeyres die Veränderung der Mengen von der Basis- zur Berichtsperiode erfasst, wobei die Preise aus der Basisperiode zur Gewichtung dienen. Beim Paasche-Index sind die Preise der Berichtsperiode die Gewichte. Vergleichen wir Zähler und Nenner aller vier Indexformeln, dann sehen wir, dass der Zähler im Preisindex nach Laspeyres (= 37) identisch ist mit dem Nenner des Mengenindex nach Paasche. Die Nenner der beiden Laspeyres-Indizes (Preisund Mengenindex) sind mit 29 gleich groß. Die Zähler der beiden Paasche-Indizes sind mit 32 ebenfalls gleich groß. Und schließlich ist der Nenner des Preisindex nach Paasche identisch mit dem Zähler des Mengenindex nach Laspeyres. Die Gleichheit der Zähler- und Nennergrößen – nachvollziehbar durch einen Vergleich der entsprechenden Formelbestandteile – erleichtert praktische Berechnungen!
13.8 Wertindex Ausgangsgröße für viele Anwendungsfälle von Preisindizes ist die wertmäßige Veränderung einer Größe: der Wert des Bruttoinlandsprodukts BIP, die Ausgaben für den privaten Verbrauch, der Umsatz eines Betriebes etc.
13. Indexzahlen
187
Wertindex n
¦ pit qit (13-21)
U0 t
i 1 n
n
¦ Uit i 1 n
¦ pi0 qi0 ¦ Ui0 i 1
Ut U0
(i.a. mal 100)
i 1
Wertmäßige Veränderungen erfasst der Wertindex nach Formel 13-21. Für die Angaben der obigen Abb. 13.8 erhalten wir: 110,34% = 32 / 29 . 100. Damit können wir eine Zunahme der Ausgaben als Wertgröße um 10,34% konstatieren, die sich aus einer Preisänderung von ca. +28% und einer Mengenänderung von ca. -14% zusammensetzt. Wir werden auf den Wertindex und die Zusammenhänge mit Preis- und Mengenindizes bei der Preisbereinigung (siehe Abschnitt 13.11) zurückkommen.
13.9 Verbraucherpreisindex (Preisindex der Lebenshaltung) Der Verbraucherpreisindex (früher Preisindex der Lebenshaltung) steht im Mittelpunkt des Interesses an den Indexzahlen. In den meisten Ländern wird dieser Preisindex nach der Laspeyres-Formel berechnet. Mit dem Preisindex nach Laspeyres drücken wir aus, um wieviel % ein Warenkorb aus einer Basisperiode in der aktuellen Periode teurer oder billiger wird. Damit gibt der Index außerdem an, um wieviel % sich die Preise des Warenkorbs der Basisperiode im Durchschnitt verändert haben. Einige wichtige Informationen zum Verbraucherpreisindex der Bundesrepublik Deutschland lauten: - Etwa 750 Güter (Waren und Dienstleistungen) sind Bestandteil des Warenkorbs. Dieser Warenkorb wird durch eine Einkommens- und Verbrauchsstichprobe bei repräsentativen Haushalten ermittelt. - Die Güter werden zu 12 Gütergruppen (siehe Abb. 13.6, 13.9 und 13.10) zusammengefasst. Diese Gruppierung entspricht einem internationalen Standard. - Die Preise werden in 190 Gemeinden im ganzen Bundesgebiet (jeweils zur Monatsmitte) erhoben. Die Gemeinden sind repräsentativ zusammengesetzt (Ost/West, Stadt/Land etc.). Die Preise im Warenkorb sind Durchschnittspreise einer Vielzahl unterschiedlicher Preise in einzelnen Handelsunternehmen.
188
Eindimensionale deskriptive Statistik
- Die Preisindizes werden für jedes Bundesland getrennt errechnet und vom Statistischen Bundesamt zu einem Gesamtwert für Deutschland zusammengefasst. - Der statistische Durchschnittshaushalt besteht aus etwa 2,3 Personen, d.h. es sind die Ausgaben für 2 Erwachsene berücksichtigt und 30% der Ausgaben für ein Kind. Dies entspricht einer Durchschnittsbildung für alle Haushaltsgrößen. - Es gibt neben dem Gesamtindex noch Indizes für bestimmte Haushaltstypen: 4Personenhaushalte mit höherem Einkommen, 4-Personen-Haushalte mit mittlerem Einkommen, 2-Personen-Haushalte mit geringerem Einkommen. - Einige Spezialindizes, z.B. für die Lebenshaltung eines Kindes oder für die Kosten eines Automobils, informieren über ausgewählte Fragestellungen. - Für internationale Vergleiche wurde ein europäischer harmonisierter Verbraucher-Preisindex (HVPI) entwickelt, der parallel zu den nationalen Preisindizes in den EU-Mitgliedsländern berechnet und auch veröffentlicht wird. Dieser Index enthält ein für alle EU-Länder einheitliches Gewichtungsschema und stellt eine Modifikation des nationalen bundesdeutschen Index dar. So sind insbesondere die Dienstleistungen im HVPI stärker differenziert und damit genauer bewertet als in den Preisindizes der einzelnen Staaten. x
Bedeutung der Subindizes
Der Verbraucherpreisindex kann als Zusammenfassung von Subindizes aufgefasst werden. Diese Subindizes können sich auf einzelne Güter oder auf umfassende Gütergruppen beziehen. Von Bedeutung ist dann entweder das Gewicht für das einzelne Gut oder die Gütergruppe. Hierzu folgende Anmerkungen: - Einzelne Gütergruppen (ihre Preisentwicklung und ihr Gewicht als Ausgabenanteil) sind immer wieder von speziellem Interesse, so z.B. die Ausgaben für Wohnen in den neuen und den alten Bundesländern, die Ausgaben für Telekommunikation in den letzten Jahren etc. - Die Gewichte können sehr unterschiedlich sein, je nach Haushaltstyp, -größe, Einkommen und Region. Wir wollen zwei Fälle der unterschiedlichen Gewichtung exemplarisch diskutieren. Das ist einmal die Veränderung der Gewichte im Warenkorb des Verbraucherpreisindex durch die Revision von Anfang 2008. Zum zweiten wollen wir die Warenkörbe im Ost-West-Vergleich betrachten. Diese Unterscheidung hat das Statistische Bundesamt solange vorgenommen, bis die Angleichung des Warenkorbs der früheren Bundesrepublik und des Warenkorbs der neuen Bundesländer weitgehend vollzogen war. Regionale Unterschiede werden aber weiterhin durch den Bezug auf das einzelne Bundesland erfasst und dargestellt werden.
13. Indexzahlen
i 1 2 3 4 5 6 7 8 9 10 11 12 Summe
Gütergruppe Nahrungsmittel, Getränke Alkohol. Getränke, Tabakwaren Bekleidung und Schuhe Wohnung, Wasser, Energie Hausrat incl. Instandhaltung Gesundheitspflege Verkehr Nachrichtenübermittlung Freizeit und Kultur Bildungswesen Hotels und Gaststätten Verschiedene Waren u.Dienstl.
189
Gewicht 1995
Gewicht 2000
Gewicht 2005
131,26 41,67 68,76 274,77 70,56 34,39 138,82 22,66 103,57 6,51 46,08 60,95 1000,00
103,35 36,73 55,09 302,66 68,54 35,46 138,65 25,21 110,85 6,66 46,57 70,23 1000,00
103,55 38,99 48,88 308,00 55,87 40,27 131,90 31,00 115,68 7,40 43,99 74,47 1000,00
Quelle: Statistisches Bundesamt (2011)
Abb. 13.9: Warenkorb im zeitlichen Vergleich von 1995, 2000 und 2005
Zunächst zu einigen Änderungen des Warenkorbs von 2005 im Vergleich zu seinen Vorgängern aus den Jahren 1995 und 2000. Wir sehen in Abb. 13.9, dass der Ausgabenanteil für Nahrungsmittel, für alkoholische Getränke und Tabakwaren zwischen 1995 und 2000 deutlich zurückgegangen und danach leicht angestiegen ist. Bei Bekleidung und Schuhen liegt ein deutlicher, kontinuierlicher Rückgang vor. Dies alles liegt im langfristigen Trend über einige Jahrzehnte hinweg, der auch als Tendenz zu mehr Dienstleistungen (Bildung, Gesundheit, Versicherungen etc.) zu erkennen ist. Die Ausgabenanteile für Wohnen sind gestiegen, die Ausgabenanteile in Hotels und Gaststätten weisen 2005 einen Rückgang auf, nachdem sie in den Vorjahren angestiegen waren. Die Aktualisierung des Warenkorbs wirkt sich im Übrigen auf einzelne Güter direkt aus. So wurde beispielsweise 2000 erstmals die Internet-Nutzung in den Warenkorb aufgenommen. Kommen wir nun zur Gegenüberstellung der Warenkörbe des früheren Bundesgebiets und der neuen Bundesländer aus dem Jahre 1995. Wie wir der nachfolgenden Abb. 13.10 entnehmen können, hatten sich die Ausgabenanteile zwischen Ost und West bei einigen Gütergruppen weitgehend angegelichen. Größere Unterschiede ergaben sich allerdings noch bei den Ausgaben -
für Wohnen für Nahrungsmittel für alkoholische Getränke und Tabak in Hotels und Gaststätten.
Es sei angemerkt, dass in den ersten Jahren der Wiedervereinigung gravierende Unterschiede im Warenkorb vorlagen. So war insbesondere der Ausgabenenteil für Wohnen im Jahr 1991 im Westen noch mehr als doppelt so hoch als im Osten.
Eindimensionale deskriptive Statistik
190
i 1 2 3 4 5 6 7 8 9 10 11 12 Summe
Gütergruppe Nahrungsmittel, Getränke Alkohol. Getränke, Tabakwaren Bekleidung und Schuhe Wohnung, Wasser, Energie Hausrat incl. Instandhaltung Gesundheitspflege Verkehr Nachrichtenübermittlung Freizeit und Kultur Bildungswesen Hotels und Gaststätten Verschiedene Waren u.Dienstl.
Gewicht 1995 Ost
Gewicht 1995 West
147,06 48,99 69,98 243,07 84,68 18,79 144,73 22,08 111,33 8,57 41,14 59,58 1000,00
127,05 40,39 67,72 287,02 66,48 36,36 136,58 22,87 100,64 6,00 48,75 60,14 1000,00
Quelle: Statistisches Bundesamt (1999a)
Abb. 13.10: Warenkörbe im Ost-West-Vergleich
13.10 Umbasierung und Verkettung von Indexreihen Die Tatsache, dass Indexzahlen häufig „umbasiert“ werden, stellt eine besondere Hausforderung für den Umgang mit diesen Zahlen dar. „Umbasieren“ bedeutet in diesem Zusammenhang, ein neues Basisjahr festlegen und – insbesondere beim Verbraucherpreisindex – einen neuen Warenkorb zu bestimmen. Im Februar 2008 erfolgte eine solche inhaltliche Umbasierung. Die Folge ist, dass alte Indexreihen aufhören zu existieren, weil ihnen „die Basis entzogen“ wurde, und dass neue Indexreihen ohne genau nachvollziehbare „Vergangenheit“ beginnen. Diese Reihen zusammenzuführen und damit langfristige Entwicklungen aufzuzeigen, ist das Ziel der rechnerischen Umbasierung und Verkettung von Indexreihen. x
Umbasierung
Unter Umbasieren wollen wir das Umrechnen auf ein neues Basisjahr verstehen. Dies stellt nur eine mathematische Veränderung des Niveaus einer Reihe dar.
Umbasierung
(13-22)
Irt
I0t I0r
13. Indexzahlen
191
Die Umbasierung ermöglicht es, jede Indexreihe auf eine gewünschte Basis umzustellen. Der Wert eines beliebigen Jahres oder eines beliebigen Monats kann gleich 100 gesetzt werden. Wir wollen als Beispiel den Verbraucherpreisindex der Bundesrepublik Deutschland betrachten.
Jahr 2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Index 2000=100 2005=100
100,0 101,9 103,5 104,5 106,3 107,9 109,6 112,1 115,0 115,4 116,7 92,7
94,5
95,9
96,9
98,5 100,0 101,6 103,9 106,6 107,0 108,2
Veränderungsrate (in % ) 2000=100
-
1,9
1,5
1,0
1,7
1,5
1,6
2,3
2,6
0,4
1,1
2005=100
-
1,9
1,5
1,0
1,7
1,5
1,6
2,3
2,6
0,4
1,1
Quelle: Statistisches Bundesamt 2006+2011
Abb. 13.11: Umbasierung einer Indexreihe
In Abb. 13.11 finden wir die Originalwerte des Preisindex mit der Basis 2005=100 vor. Wenn nun aus Gründen der Vergleichbarkeit mit anderen Indizes (z.B. dem Index des Bruttoinlandsprodukts) der Wert des Jahres 2000 gleich 100 sein sollen, dann wird die Berechnung gemäß Formel (13-22) durchgeführt. Als Ergebnisse der Umbasierung erhalten wir für die ersten drei Werte z.B. 100,0 = 92,7 / 92,7 . 100 101,9 = 94,5 / 92,7 . 100 103,5 = 95,9 / 92,7 . 100. Wir sehen, dass alle Indexwerte der ursprünglichen Reihe durch den Wert dieses Index im Jahre 2000 dividiert und damit zu diesem Jahr in Bezug gesetzt werden. Eine weitere Aussage lässt sich aus den letzten beiden Zeilen der Abb. 13.11 ableiten. Wenn wir jährliche Wachstumsraten der Indizes und damit jährliche Preissteigerungen berechnen, dann ergeben sich dieselben Werte, ganz gleich ob 2000 oder 2005 das Basisjahr darstellt. So ergibt sich z.B. für das Jahr 2001: 1,9 = (101,9 – 100,0) / 100,0 . 100 bzw. 1,9 = ( 94,5 – 92,7) / 92,7 . 100. Lediglich durch Rundungsdifferenzen kann es dazu kommen, dass nicht exakt die gleichen Wachstumsraten resultieren. Ansonsten zeigt diese Berechnung, dass die beiden Reihen (die Ausgangsreihe und die umbasierte Reihe) zueinander proportional sind und eine (relativ) gleich große Zu- oder Abnahme des Index zum Ausdruck bringen.
Eindimensionale deskriptive Statistik
192 x
Verkettung / Verknüpfung von Indexreihen
Verkettungs-Faktoren - Fortschreibungsfaktor
(13-23)
I0r Irr
- Rückrechnungsfaktor
(13-24)
Irr I0r
Das oben beschriebene Verfahren der Umbasierung kann dazu genutzt werden, inhaltlich gleiche Indexreihen, die nicht als längere Zeitreihe verfügbar sind, zu verbinden. Damit erhalten wir eine langfristige Reihe von Indizes mit einer selbst gewählten Basisperiode. Wir wollen die Umbasierung des Verbraucherpreisindex in Deutschland als Beispiel für die Verkettung wählen. Die nachfolgende Abb. 13.12 zeigt im oberen Teil die beiden Reihen mit der jeweils unterschiedlichen Basis 2000 und 2005. Darunter ist das Ergebnis der Verkettung zu sehen.
Jahr 2003 Preisindizes 2000=100 104,5
2004 106,3
2005=100
Verkettung 2000=100 104,5 106,3 2005=100 96,8 98,5 Veränderungsrate (in %) 2000=100 1,7 2005=100 1,7
2005
2006
2007
2008
2009
2010
107,9 100,0
101,6
103,9
106,6
107,0
108,2
107,9 100,0
109,6 101,6
112,1 103,9
115,0 106,6
115,5 107,0
116,7 108,2
1,5 1,5
1,6 1,6
2,3 2,3
2,6 2,6
0,4 0,4
1,1 1,1
Quelle: Statistisches Bundesamt (2006+2011)
Abb. 13.12: Verkettung von Indexreihen
Die Verkettung mit den Faktoren (13-23) bzw. (13-24) ergeben die jeweils fettgedruckten Werte in der Tabelle. Die oberen Werte werden als Fortschreibung durch
13. Indexzahlen
193
Multiplikation der unteren Werte mit 1,079 ermittelt. Die unteren Werte ergeben sich als Rückrechnung, indem die oberen Werte durch 1,079 dividiert werden. Die beiden letzten Zeilen der Tabelle zeigen die identischen Wachstumsraten (Inflationsraten) für beide Reihen, d.h. die Proportionalität der Reihen nach Rückrechnung oder Fortschreibung. Auf die hier beschriebene Art und Weise können langfristige Reihen über mehrere Jahrzehnte hinweg berechnet und für Langzeitstudien genutzt werden.
13.11 Preisbereinigung Eine der wichtigsten Anwendungen von Preisindizes ist die Preisbereinigung. Preisbereinigung bedeutet, aus der Entwicklung einer Wertgröße (Bruttoinlandsprodukt, Umsatz, Ausgaben für den privaten Verbrauch) die Preisentwicklung heraus zu rechnen. Jede Wertgröße und jede Wertveränderung besteht aus einer Mengenkomponente und einer Preiskomponente; die Qualitätskomponente lassen wir hier außen vor. Durch die Preisbereinigung wird der Einfluss der Preiskomponente eliminiert, so dass Fragen zur Mengenentwicklung beantwortet werden können: - Wie viele Güter wurden im letzten Jahr im Vergleich zum Vorjahr produziert? - Wie viele Produkte konnten abgesetzt werden, ohne dass wir die durch Preissteigerungen beeinflusste Umsatzentwicklung betrachten? - Ist der Güterkonsum – nach Inflationsbereinigung – mengenmäßig gestiegen?
Preisbereinigung (1) Berechnen eines Wertindex (2) Berechnen des dazugehörigen Preisindex (3) Dividieren des Wertindex durch den Preisindex (=Preisbereinigung) (4) Beurteilen der realen Entwicklung
In Formeln ausgedrückt bedeutet eine Preisbereinigung die Division eines Wertindex durch den vorhandenen Preisindex. Werden die Preisveränderungen – wie beim privaten Verbrauch – mit einem Laspeyres-Index gemessen, entsteht durch die Preisbereinigung ein Mengenindex nach Paasche. Haben wir – wie beim Index des Bruttoinlandsprodukts - einen Preisindex nach Paasche vor uns, erhalten wir durch die Preisbereinigung einen Mengenindex nach Laspeyres. Die Übereinstimmung bestimmter Zähler und Nenner der Indexformeln – siehe Abschnitt 13.7 – ist der Grund für dieses Ergebnis.
Eindimensionale deskriptive Statistik
194
Preisbereinigung - mit Preisindex nach Laspeyres
U0 t
QP 0t
(13-25)
P0Lt
- mit Preisindex nach Paasche
U0 t
QL0t
(13-26)
P0Pt
Wir wollen die Preisbereinigung zunächst anhand einfacher Zahlen der Indexberechnung demonstrieren.
pi0 1 2 3 3 2 -
pit 3 4 3 4 2 -
U0t =
36 29
PL0t =
39 29
QP0t =
124,14 134,48
i 1 2 3 4 5 Summe
P
P
0t =
QL0t =
36 28 124,14 128,57
qi0 2 2 3 2 4 -
qit 1 2 3 2 4 -
pi0qi0 2 4 9 6 8 29
.
100 =
124,14
.
100 =
134,48 QP0t =
.
100 =
.
100 =
.
100 =
pitqi0 6 8 9 8 8 39
pi0qit 1 4 9 6 8 28
pitqit 3 8 9 8 8 36
36 39
=
92,31
28 29
=
96,55
92,31 128,57 QL0t = 96,55
Abb. 13.13: Preisbereinigung
Wir sehen in Abb. 13.13 das Ergebnis der Preisbereinigung entsprechend der obigen Formeln und den eben besprochenen Indexschemata.
13. Indexzahlen
195
Fassen wir den Wertindex U als Umsatzindex auf, dann können wir im Beispiel feststellen, dass der (nominale) Umsatz um 24,14% gestiegen ist. Die Preissteigerungen haben, gemessen mit dem Preisindex nach Laspeyres 34,48% betragen. Schon der Vergleich der beiden genannten Veränderungsraten macht deutlich, dass die Umsatzsteigerung ausschließlich durch die Preiserhöhungen begründet ist. Die Preisbereinigung mit dem Laspeyres-Preisindex liefert einen Mengenindex nach Paasche, der einen Wert von 92,31% aufweist. Dieser Wert kommt sowohl durch die Division von Umsatz- und Preisindex zustande als auch durch die Verwendung von Zähler und Nenner des Mengenindex (36/39). Real liegt damit ein „Umsatzrückgang“ vor bzw. ein Rückgang der abgesetzten Mengen um 3 Einheiten, d.h. ca. 8%. Wenn wir die Indexzahlen nicht in % ausdrücken, können wir eine multiplikative Verknüpfung von Preis- und Mengenindex vornehmen, und wir erhalten den Umsatzindex: 1,3448 . 0,9231 = 1,2414 Dasselbe Ergebnis kommt zustande, wenn wir zur Preisbereinigung den Preisindex nach Paasche verwenden und damit einen Mengenindex nach Laspeyres erhalten: 1,2857 . 0,9665 = 1,2414. Kommen wir zu einer weiteren praktischen Anwendung der Preisbereinigung in der amtlichen Statistik, der Berechnung des realen Bruttoinlandsprodukts aus den nominalen Größen (in Euro).
Jahr
2003
2004
2005
2006
2007
2008
2009
2010
BIP Y (nom.) Preise Y (real)
2163,8 104,0 2081,3
2210,9 105,0 2106,5
2242,2 105,6 2122,3
2326,5 106,0 2193,8
2432,4 108,0 2252,1
2481,2 109,1 2274,4
2397,1 110,6 2167,1
2498,8 111,3 2245,8
Vä.nom. Vä.real
-
2,2 1,2
1,4 0,8
3,8 3,4
4,6 2,7
2,0 1,0
-3,4 -4,7
4,2 3,6
107,3 105,0 102,2
108,8 105,6 103,0
112,9 106,0 106,5
118,1 108,0 109,3
120,4 109,1 110,4
116,3 110,6 105,2
121,3 111,3 109,0
2,2 1,2
1,4 0,8
3,8 3,4
4,6 2,7
2,0 1,0
-3,4 -4,7
4,2 3,6
Index Wert Preise Menge Vä.nom. Vä.real
105,0 104,0 101,0 -
Quelle: Statistisches Bundesamt (2006+2011)
Abb. 13.14: Preisbereinigung des Bruttoinlandsprodukts BIP
196
Eindimensionale deskriptive Statistik
In Abb. 13.14 erhalten wir die realen Werte des BIP durch Division des jeweiligen Nominalwerts durch den dazugehörigen Preisindex; Basisjahr ist 2000. Wir sehen anhand der berechneten Veränderungsraten, dass die Unterscheidung zwischen nominal und real zum Teil beträchtliche Differenzen zur Folge hat. Für die ökonomische Gesamtbewertung wird fast nur das reale BIP mit seinen Veränderungsraten herangezogen. Hierbei ist die Preissteigerung heraus gerechnet. Wir haben damit mengen- und gütermäßige Veränderungen vor uns, die im Falle eines Anstiegs eine tatsächliche Mehrproduktion an Gütern bedeuten und im Falle eines Rückgangs – wie im Krisenjahr 2009 – eine Minderproduktion. x
Indexzahlen und Wachstumsfaktoren
In diesem Zusammenhang sei auf die multiplikative Verknüpfung von Menge und Preis zur Ermittlung einer Wertgröße und die entsprechende Verknüpfung der Veränderungen hingewiesen. Indexzahlen drücken ähnlich wie Wachstumsfaktoren (siehe Kapitel 8, Abschnitt 8.7) Veränderungen aus. So ergibt sich in Abb. 13.14 für 2003 der Wachstumsfaktor 1,05 der Wertgröße als Produkt von 1,04 (Preis) und 1,01 (Menge). Zusammenfassend gilt:
Berechnungsfaktoren der Preisbereinigung .
Wachstumsfaktor Wert = Wachstumsfaktor Preis Wachstumsfaktor Menge
13.12 Indexberechnung am PC Die Berechnung von Indexzahlen ist – für Beispiele mit wenigen Zahlen – eine typische Anwendung der Tabellenkalkulation. Wir berechnen Produkte von Spalten (Mengen mal Preise) und Summieren diese Produkte. Anschließend werden die Summen dividiert. Dies sind Funktionen, die mit dem Programm EXCEL sehr gut durchgeführt werden können. So wurden sämtliche Arbeitstabellen und Berechnungen dieses Kapitels mit EXCEL erstellt. Mit einem Programm wie SPSS können wir ähnlich vorgehen. Wir legen eine Datei mit Preis-, Mengen- und Gewichtungsvariablen an, transformieren die Variablen durch Multiplikation und rechnen mit den Summen der Produkte weiter. x
PC für Datenübertragung
Eine besondere Anwendungsmöglichkeit des PCs bei der Indexrechnung liegt vor, wenn wir mit Daten der amtlichen Statistik arbeiten wollen, die über die Portale der statistischen Ämter ONLINE abgerufen werden können.
13. Indexzahlen
197
So kann eine Anwendung daraus bestehen, dass wir aus der Vielzahl der Güter des Verbraucherpreisindex eine bestimmte Gruppe herausgreifen, um sie für eine spezielle Fragestellung zu analysieren. Wir wollen dies am Beispiel der Preise für „Telekommunikations-Dienstleistungen“ in Deutschland aufzeigen. Zunächst wird über https://www-genesis.destatis.de/genesis/online der Eröffnungsbildschirm des Statistischen Bundesamtes für den Datenabruf aktiviert:
Abb. 13.15: DESTATIS – GENESIS ONLINE
Wir können jetzt themenbezogen bestimmte Tabellen auswählen und auf unseren PC übertragen. So können beispielsweise die Daten der Preise für Telekommunikation von 1995 bis 2010 über EXCEL ausgegeben werden, und wir erhalten eine Datei entsprechend der Abb. 13.16. Die Tabelle der Abb. 13.16 enthält Informationen über vier verschiedene Subindizes aus dem Bereich Telekommunikation: - Seit dem Jahr 2005 steigen die Preise für Festnetzverbindungen an. In den anderen drei Bereichen (auch bei der Kombination Festnetz+Internet) erkennen wir deutliche Preissenkungen seit dem Jahr 1995. Insbesondere beim Mobilfunk gingen die Preise sehr stark (fast auf ein Drittel) zurück. - Jährliche Preisveränderung lassen sich ermitteln, indem die Wachstumsraten der Indexwerte berechnet werden.
Eindimensionale deskriptive Statistik
198
Verbraucherpreisindizes für Telekommunikationsdienstleistungen: Deutschland, Jahre, Verbraucherpreisindizes Verkehr, Post, Telekomm., Deutschland VPI für Telekommunikationsdienstleistungen (2005=100)
Jahr
Telekommunikationsdienstleistungen insgesamt
Festnetz und Internet
Festnetzverb indungen
Mobilfunk
1995
141,6
139,3
-
224,8
1996
143,7
143,9
-
191,8
1997
138,1
140,6
-
150,4
1998
136,3
139,6
-
137,2
1999
120,7
124,5
-
109,1
2000
105,6
107,3
-
99,2
2001
98,3
99,2
-
95,0
2002
100,4
99,5
-
103,1
2003
101,6
100,7
-
104,2
2004
101,1
100,5
-
103,0
2005
100,0
100,0
100,0
100,0
2006
96,9
99,0
100,5
90,5
2007
96,6
98,9
102,3
89,5
2008
93,4
95,5
102,3
87,4
2009
91,2
93,3
102,4
85,2
2010
89,4
91,6
102,6
82,8
Festnetz und Internet: Bis einschließlich 1999 nur Festnetz. (C)opyright Statistisches Bundesamt, Wiesbaden 2011 Stand: 02.07.2011 - 13:10:46 Abb. 13.16: Verbraucherpreisindizes für Telekommunikationsdienstleistungen
- Für den Zeitraum zwischen 2005 und 2010 erkennen wir (mit Ausnahme des Bereichs Festnetz) Preisrückgänge von ca. 10 bis nahezu 20%. - Die Bedeutung der hier dargestellten Dienstleistungen für den privaten Konsum kann allerdings nur dann bewertet werden, wenn die Gewichte im Warenkorb ergänzend betrachtet werden. Die Gütergruppe „Nachrichtenübermittlung“ hatte im Jahr 1995 ein Gewicht von etwa 2,3%, im Jahr 2005 war das Gewicht auf etwa 3,1% deutlich angestiegen. Sinkende Preise gingen mit steigenden Mengen einher, ein Indikator für das beginnende Kommunikationszeitalter.
199
TEIL III ZWEIDIMENSIONALE DESKRIPTIVE STATISTIK
14. Zweidimensionale Häufigkeitsverteilung x Leitfragen
1) Wann wendet man die zweidimensionale statistische Analyse an? 2) Wie berechnet und beschreibt man eine zweidimensionale Verteilung? 3) Welche wesentlichen Unterschiede zwischen quantitativen und qualitativen Variablen gibt es bei der zweidimensionalen Analyse? 4) Welche speziellen grafischen Darstellungsmöglichkeiten sind verfügbar?
14.1 Häufigkeitsverteilung Die zweidimensionale statistische Analyse hat das Ziel, die Art und Stärke des Zusammenhangs zweier Variablen zu untersuchen: - Wie hängen Körpergröße und Gewicht von Kleinkindern voneinander ab? - Gibt es einen Zusammenhang der Klausurnoten in Statistik und Mathematik? - Wie stark ist der Zusammenhang zwischen Alter und Einkommen bei Beamten? Basis der Analyse ist die zweidimensionale Verteilung. Zunächst werden für jedes Element die Werte zweier Variablen erhoben. Diese Wertepaare werden entweder als zweidimensionale Urliste oder als Häufigkeitsverteilung dargestellt. In einer zweidimensionalen Verteilung können ausschließlich quantitative Variablen vorkommen, ausschließlich qualitative Variablen oder beide Variablentypen.
14.1.1 Zweidimensionale Verteilung bei quantitativen Variablen
i
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi 19 18 22 23 19 20 25 27 18 23 19 19 26 28 24 28 19 18 21 22 yi
1
1
4
2
2
1
5
4
2
1
1
2
4
Abb. 14.1: Zweidimensionale Urliste (quantitative Variablen)
5
5
5
2
1
2
3
Zweidimensionale deskriptive Statistik
200
Wir haben in Abb. 14.1 wieder unser Beispiel aus dem Master-Projekt vor uns. Zusätzlich zum Alter der 20 Teilnehmer eines Seminars wurde als zweite quantitative Variable die Dauer der Berufstätigkeit (in Jahren) erhoben. Aus der zweidimensionalen Urliste in Abb. 14.1 kann eine zweidimensionale Häufigkeitsverteilung in Form einer Kreuztabelle gebildet werden. Die Kreuztabelle wird von den Ausprägungen der ersten und der zweiten Dimension aufgespannt, und die Merkmalskombinationen der Urliste werden in die einzelnen Zellen der Kreuztabelle hineingezählt. Die Arbeitsschritte sind ähnlich denen der eindimensionalen Verteilung (siehe Kapitel 6). Als 2-dimensionale Kreuztabelle mit absoluten Häufigkeiten erhalten wir für unser Beispiel: Anzahl
X: Alter
18
1 2
19
2
20
1
Y: Dauer der Berufstätigkeit 2 3 4 1 3
1 1 1
22 1
1
2
1
2
24 25
1
1
1
1
26
1
1
27
1
1
28 Gesamt
Gesamt 3 5
1
21 23
5
6
6
1
3
2
2
4
20
Abb. 14.2: Zweidimensionale Häufigkeitsverteilung als Kreuztabelle
Die Variable X (Alter) hat Ausprägungen zwischen 18 und 28, die Variable Y (Dauer der Berufstätigkeit) hat Werte zwischen 1 und 5. Wir sehen im mittleren Teil der Kreuztabelle bei jeder Wertekombination, die in der Gesamtheit vorkommt, die dazugehörige absolute zweidimensionale Häufigkeit. 2 Teilnehmer sind 18 Jahre alt und haben 1 Jahr Berufserfahrung, 1 Teilnehmer ist 18 Jahre alt und hat 2 Jahre Berufserfahrung. Eine Berufserfahrung von 3, 4 oder 5 Jahren kommt bei den 18-jährigen nicht vor, daher sind die Felder der Kreuztabelle leer. Wir könnten hier auch absolute Häufigkeiten von 0 angeben. In der zweiten Zeile der Häufigkeiten finden wir ebenfalls nur zwei besetzte Zellen. In der vorletzten Zeile kommt nur für die Kombination 28 und 5 die zweidimensionale Häufigkeit von 2 vor. Die letzte Spalte und die letzte Zeile stellen die Summen der 2dimensionalen Häufigkeiten jeweils für eine Dimension dar. Dies sind die Randhäufigkeiten der jeweiligen Variablen, die in der Summe gleich 20 sind. Die Symbole und Formeln der zweidimensionalen Verteilung werden auf Basis der Symbolik der eindimensionalen Verteilung (siehe Kapitel 6) wie folgt zugeordnet:
14. Zweidimensionale Häufigkeitsverteilung
Symbol
Formel
201
Bedeutung
Beispiel (Ö Abb.14.1, 14.2, 14.3)
(14-1)
n
Umfang der statistischen Gesamtheit
20
(14-2)
X
erste Variable
Alter
(14-3)
Y
zweite Variable
Berufsjahre
(14-4)
i
(14-5)
xi,yi
(14-6)
m, l
(14-7)
j, k
(14-8)
xj, yk
einzelne Werte der Häufigkeitsverteilungen X bzw. Y
18, 19 ... 28 bzw. 1, 2 ... 5
(14-9)
fjk
zweidimensionale Häufigkeit der jk-ten Ausprägung
2, 1, 2, 3 ... 2
(14-10)
fj. , f.k
absolute Häufigkeit in der X- bzw. der Y-Dimension (Randhäufigkeit)
3, 5 ... 2 bzw. 6, 6 ... 4
(14-11)
hjk
fjk / n
relative zweidimensionale Häufigkeit
2/20, 1/20 ... ... 2/20
(14-12)
h‘jk
hjk . 100
relative zweidimensionale Häufigkeit in %
10%, 5% ... 10%
(14-13)
fj ¨k
(14-14)
fk ¨j
Laufindex der Merkmalsträger; Laufindex der Urliste (i läuft von 1 bis n) Wertepaar der zweidimensionalen Urliste für den i-ten Merkmalsträger Anzahl unterschiedlicher Werte der Variablen X bzw. Y Laufindizes der Verteilungen X bzw. Y; kombinierter Laufindex der zweidimensionalen Verteilung (j läuft von 1 bis m) (k läuft von 1 bis l)
bedingte Häufigkeit für xj, wenn Y den Wert yk hat bedingte Häufigkeit für yk,
1, 2 ... 20 (19;1) (18;1) ... ... (22;3) 11 bzw. 5
(1;1), (1;2) ... ... (11;5)
1, 3, 1, 1, wenn y = 2 ist
wenn X den Wert xj hat
2, 3, wenn x = 19 ist 16,7%, 50%, 16,7%, 16,7%, wenn y = 2 40%, 60%, wenn x = 19
(14-15)
h‘j ¨k
prozentuale bedingte Häufigkeit für xj
(14-16)
h‘k ¨j
prozentuale bedingte Häufigkeit für yk
Zweidimensionale deskriptive Statistik
202
Eine vollständige zweidimensionale Verteilung mit absoluten, relativen und bedingten Häufigkeiten stellt die nachfolgende Kreuztabelle dar.
1 X: Alter
18
19
20
21
22
23
24
25
26
27
28
Gesamt
Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl Anzahl % von X: Alter % von Y: Berufstät. % der Gesamtzahl
2 66,7% 33,3% 10,0% 2 40,0% 33,3% 10,0% 1 100,0% 16,7% 5,0%
Y: Berufstätigkeit 3 4 1 33,3% 16,7% 5,0% 3 60,0% 50,0% 15,0% 2
5
1 100,0% 16,7% 5,0% 1 50,0% 100,0% 5,0% 1 50,0% 16,7% 5,0%
1 50,0% 33,3% 5,0%
1 50,0% 16,7% 5,0% 1 100,0% 25,0% 5,0% 1 100,0% 25,0% 5,0% 1 100,0% 33,3% 5,0% 1 100,0% 33,3% 5,0%
6 30,0% 100,0% 30,0%
6 30,0% 100,0% 30,0%
1 5,0% 100,0% 5,0%
3 15,0% 100,0% 15,0%
2 100,0% 50,0% 10,0% 4 20,0% 100,0% 20,0%
Gesamt 3 100,0% 15,0% 15,0% 5 100,0% 25,0% 25,0% 1 100,0% 5,0% 5,0% 1 100,0% 5,0% 5,0% 2 100,0% 10,0% 10,0% 2 100,0% 10,0% 10,0% 1 100,0% 5,0% 5,0% 1 100,0% 5,0% 5,0% 1 100,0% 5,0% 5,0% 1 100,0% 5,0% 5,0% 2 100,0% 10,0% 10,0% 20 100,0% 100,0% 100,0%
Abb. 14.3: Zweidimensionale Verteilung mit absoluten und relativen Häufigkeiten
14. Zweidimensionale Häufigkeitsverteilung
203
In Abb. 14.3 sehen wir zunächst die absoluten zweidimensionalen und die absoluten Randhäufigkeiten, die bereits in Abb. 14.2 vorgekommen waren. Die erste Zeile der prozentualen Häufigkeiten besteht aus den bedingten Häufigkeiten der Variablen Y für die jeweilige Zeile der X-Ausprägung. Wir sehen, dass die Summe dieser Häufigkeiten pro Zeile jeweils 100% ist. Die zweite Zeile mit prozentualen Angaben enthält die bedingten Häufigkeiten für die einzelnen Spalten, d.h. für die jeweilige Y-Ausprägung. Hier sind die Summen pro Spalte jeweils 100%. Dem Vergleich von bedingten Verteilungen und der Randverteilungen wird bei der Frage nach dem Zusammenhang von Variablen (siehe Kapitel 15 und 16) eine besondere Bedeutung zukommen. In der jeweils letzten Zeile der %-Werte finden wir die relativen prozentualen zweidimensionalen Häufigkeiten. Dies sind die Häufigkeitsanteile jeder Merkmalskombination an der Summe von 20. So sehen wir z.B. in den ersten beiden Feldern 10% bzw. 5%. Die Summe dieser Häufigkeiten über alle Spalten und Zeilen hinweg ist 100% (ganz rechts unten in der Tabelle). In der Praxis werden wir nur selten eine Kreuztabelle mit sämtlichen Ausprägungen und Häufigkeiten verwenden, da die entsprechende Tabelle bei vielen besetzten Zellen sehr unübersichtlich wird. Zum einen können wir in diesem Fall Klassen für die Variablen X und Y bilden (siehe Kapitel 7), wodurch die Anzahl der Tabellenfelder stark reduziert wird. Zum anderen können wir uns – je nach Fragestellung – auf die Zeilen- oder die Spalten-Prozente beschränken. Oder wir stellen die einzelnen Verteilungen in verschiedenen Tabellen dar. x
Interpretation der zweidimensionalen Verteilung
Die Verteilung der Häufigkeiten innerhalb der Kreuztabelle informiert bereits über einen typischen zweidimensionalen Sachverhalt: eine eher gleichmäßige Besetzung aller Zellen oder – wie in unserem Beispiel – eine Besetzung nur bei bestimmten Kombinationen. Wir sehen insbesondere Häufigkeiten bei den Kombinationen „jung und wenig Berufsjahre“ bzw. „älter und mehr Berufsjahre“, was wir später als „Zusammenhang“ messen und interpretieren werden. x
Kreuztabellen mit SPSS
Die obigen Kreuztabellen der Abb. 14.2 und 14.3 werden mit SPSS erstellt durch den SPSS-Dialog: Analysieren – Deskriptive Statistiken – Kreuztabellen. Wir können hierbei festlegen, welche Häufigkeiten (absolute, relative, bedingte) in der Tabelle dargestellt werden sollen. Entsprechend unterschiedlich fallen die jeweiligen Tabellen aus (vgl. die beiden Abb. 14.2 und 14.3). In EXCEL gibt es keine Möglichkeit der automatischen Erstellung von Kreuztabellen. Sie müssen manuell angelegt und ausgefüllt werden.
Zweidimensionale deskriptive Statistik
204
14.1.2 Zweidimensionale Verteilung bei qualitativen Variablen Bei zweidimensionalen Verteilungen kommt es häufig vor, dass zwei qualitative Variablen einander gegenübergestellt werden, oder auch, dass eine Untersuchungsvariable quantitativ und die andere qualitativ ist. Wir wollen für diesen zweiten Fall das Beispiel unseres Master-Projekts heranziehen und von der folgenden zweidimensionalen Urliste (mit den beiden Variablen X = Alter und Y = Geschlecht) ausgehen:
i
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi 19 18 22 23 19 20 25 27 18 23 19 19 26 28 24 28 19 18 21 22 yi
w
w
m
m
w
w
m
m
w
m
m
m
m
m
w
m
w
w
m
m
Abb. 14.4: Zweidimensionale Urliste mit quantitativer und qualitativer Variablen
Für die Ermittlung der zweidimensionalen Verteilung müssen die Wertepaare erhalten bleiben. Es ist aber möglich nach einer der beiden Variablen zu sortieren und die Werte der zweiten Variablen jeweils fest zugeordnet zu lassen:
i'
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
xi' 18 18 18 19 19 19 19 19 20 21 22 22 23 23 24 25 26 27 28 28 yi'
w
w
w
w
w
m
m
w
w
m
m
m
m
m
w
m
m
m
m
m
Abb. 14.5: Sortierte zweidimensionale Urliste
In der sortierten zweidimensionalen Urliste in Abb. 14.5 sind alle Wertepaare erhalten geblieben, nur die Reihenfolge dieser Wertepaare ist nach dem Alter aufsteigend sortiert. Die sortierte Urliste kann (als Zwischenschritt zur zweidimensionalen Verteilung) der Veranschaulichung und Arbeitserleichterung dienen. Als zweidimensionale Verteilung in Form der Kreuztabelle ergibt sich Abb. 14.6. Zunächst erkennen wir, dass diese Kreuztabelle ähnlich aussieht wie oben bei den beiden quantitativen Variablen. Allerdings können wir die Reihenfolge m – w ohne Informationsverlust in w – m verändern, d.h. die beiden mittleren Spalten der Tabelle vertauschen. Wir haben bei qualitativen Variablen nicht mehr die „natürliche“ Reihenfolge der Werte wie bei den quantitativen Variablen Alter oder Dauer der Berufstätigkeit zu beachten. Ansonsten vermittelt Abb. 14.6 einen ersten Eindruck darüber, dass die weiblichen Teilnehmer eher jünger sind, die männlichen eher etwas älter. Dies ist eine typische Art der Beobachtung bei einer zweidimensionalen Analyse.
14. Zweidimensionale Häufigkeitsverteilung
205
Anzahl
Alter
18 19 20 21 22 23 24 25 26 27 28
Gesamt
Geschlecht m w 3 2 3 1 1 2 2 1 1 1 1 2 12
8
Gesamt 3 5 1 1 2 2 1 1 1 1 2 20
Abb. 14.6: Zweidimensionale Verteilung mit quantitativer und qualitativer Variablen
14.2 Grafische Darstellung der zweidimensionalen Verteilung Die grafische Darstellung einer zweidimensionalen Verteilung kann in unterschiedlicher Form erfolgen. Wir wollen hier die neuesten Möglichkeiten von SPSS nutzen. x
Balkendiagramm
Die grafische Darstellung in Abb. 14.7 ist das (dreidimensional dargestellte) Balkendiagramm der zweidimensionalen Verteilung der beiden Variablen X = Alter und Y = Berufsjahre. Zur grafischen Veranschaulichung mussten wir (inhaltlich bedingt) und konnten wir – aufgrund der technischen Möglichkeiten – in die dritte geometrische Dimension gehen, die Dimension der absoluten Häufigkeiten. Wir erkennen in der Grafik, ähnlich wie in der Tabelle, bei welchen Merkmalskombinationen sich die Balken – mit welcher Höhe – befinden. Sehr komplexe Verteilungen erlauben allerdings in dieser grafischen Form nicht immer eindeutige Interpretationen.
206
Zweidimensionale deskriptive Statistik
Abb. 14.7: Zweidimensionale Häufigkeitsverteilung als 3D-Balkendiagramm
x
Streuungsdiagramm
Eine weitere und elementare Form der Darstellung einer zweidimensionalen Verteilung ist das Streuungsdiagramm (siehe Abb. 14.8), das einen vorliegenden Zusammenhang direkt veranschaulicht. Der Vorteil des Streuungsdiagramms liegt darin, dass Stärke und Richtung des Zusammenhangs unmittelbar ersichtlich werden. Dies gilt insbesondere dann, wenn jede Kombination nur einmal vorkommt. Im Streuungsdiagramm wird jedes Wertepaar (hier: Berufstätigkeit und Alter der Seminarteilnehmer) durch ein Symbol im Diagramm dargestellt (hier: Kreise). Die Tatsache, dass bestimmte Kombinationen mehrfach besetzt sein können (Häufigkeiten größer 1) kann in SPSS durch den SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Streu-/PunktDiagramm und die Wahl der Option „Datenbeschriftungen einblenden“ im Diagramm-Editor veranschaulicht werden. Hierbei stehen die Fall-Nummern neben den Punkten und verdeutlichen somit Häufungen bei einzelnen Wertepaaren und damit deren Gewichtung.
14. Zweidimensionale Häufigkeitsverteilung
207
Abb. 14.8: Streuungsdiagramm (mit Fall-Nummern als Datenbeschriftung)
In unserem Beispiel sind Die Gewichte 1, 2 und 3 (z.B. beim Wertepaar 19;2) vorhanden, so dass der erste optische Eindruck bereits einen guten Hinweis auf den „positiven“ Zusammenhang gibt: Je älter die Seminarteilnehmer sind, desto mehr Berufsjahre haben sie bereits absolviert. Dieser Zusammenhang ist plausibel, gilt aber nicht als „vollkommen“ lineare Beziehung für alle Teilnehmer. Wir finden z.B. einen 23-jährigen Teilnehmer, der erst 1 Berufsjahr aufweist, während z.B. einer der 22-jährigen bereits 4 Berufsjahre hinter sich hat. Auch EXCEL bietet über den Diagramm-Assistenten mit Punkt (XY) eine bequeme Funktion zur Erstellung von Streuungsdiagrammen. Die Funktion ist dann gut geeignet, wenn jedes Wertepaar nur einmal vorkommt. EXCEL stellt allerdings auch bei Mehrfachbesetzungen im Streuungsdiagramm das Wertepaar als einen einfachen Punkt dar! Ausgehend von den Streuungsdiagrammen werden uns die Fragen der Messung des Zusammenhangs in den nächsten beiden Kapiteln beschäftigen.
208
15. Zusammenhang bei quantitativen Variablen x Leitfragen 1) Mit welchen Maßzahlen wird die Stärke des Zusammenhangs quantitativer Variablen gemessen? 2) Wie kann die Kovarianz mathematisch und grafisch interpretiert werden? 3) Was sind typische Fragestellungen für die Korrelationsanalyse? 4) Wann wendet man die Regressionsanalyse an? 5) Wie interpretiert man die Ergebnisse der Zusammenhangsanalyse? 6) Was ist bei der grafischen Darstellung der Ergebnisse zu beachten?
15.1 Messung des Zusammenhangs Bei der Analyse des Zusammenhangs zweier Variablen stellt sich in vielen Fällen die Frage nach der Kausalität, d.h. danach ob eine Variable von einer anderen kausal beeinflusst wird. Wir wollen wissen, ob - das Einkommen bestimmter Mitarbeiter höher ist, weil sie eine längere Ausbildung absolviert haben - die Ausgaben für Reisen und Freizeit ansteigen, weil das Realeinkommen der Erwerbstätigen gestiegen ist - die Nachfrage nach einem Produkt sinkt, weil der Preis erhöht wurde - die Kundenzufriedenheit deshalb steigt, weil die Mitarbeiter eine Fortbildung in „kundenorientiertem Verhalten“ absolviert haben. Die zweidimensionale statistische Analyse liefert zu diesen Fragen eine Reihe von Maßzahlen, die darauf hinweisen, ob ein Zusammenhang vorliegt oder nicht. Die Kausalität „beweisen“ kann die Statistik nicht! Sie kann eine vorliegende Theorie – oder auch die vorhandenen Zweifel daran – aber „bestärken“. Bei vielen Variablen ist es von grundlegendem Interesse, den Zusammenhang zu messen und zu überprüfen. Wir wollen zunächst die Art und die Stärke des Zusammenhangs deskriptiv ermitteln. Später (vgl. Abschnitte 26.4 und 26.5) werden
15. Zusammenhang bei quantitativen Variablen
209
Aussagen zum Sicherheitsgrad und zur Wahrscheinlichkeit für das Vorliegen eines Zusammenhangs ergänzt. Einen Beweis liefert die Statistik allerdings auch dann nicht. Die Frage einer möglichen Kausalität muss von der fachlichen und inhaltlichen Seite her kommen. Das Ergebnis der statistischen Analyse kann dann solche Hypothesen oder Theorien des Zusammenhangs bekräftigen. Oder es kann aussagen, dass der empirische Befund gegen einen theoretisch vermuteten Zusammenhang spricht. Die zweidimensionale statistische Analyse beschäftigt sich mit den Fragen: - Haben die Variablen einen erkennbaren Zusammenhang, d.h. eine Gleichläufigkeit bzw. eine Gegenläufigkeit. Oder ist kein Zusammenhang zu beobachten? - Ist der Zusammenhang stark oder schwach ausgeprägt? - Gibt es einzelne Ausreißer in einer ansonsten „zusammenhängenden“ Punktewolke von Elementen? Wer ist der Ausreißer und warum ist das so? Damit ergeben sich für die Statistik zahlreiche Möglichkeiten, etwas über einen Zusammenhang auszusagen. Als Methoden werden wir im Folgenden die Korrelations- und die Regressionsanalyse kennenlernen. Basis und Ausgangspunkt der Analyse des Zusammenhangs ist dabei die Kovarianz.
15.2 Kovarianz als Basis quantitativer Zusammenhangsmaße Die elementare Maßzahl für die Messung des Zusammenhangs quantitativer Variablen ist die Kovarianz. Die Kovarianz ist ein zweidimensionales Streuungsmaß, das eine Analogie zur Varianz im eindimensionalen Fall aufweist. Die Kovarianz wird zur Berechnung zahlreicher Zusammenhangsmasse verwendet und ermöglicht bereits einige grundlegende Aussagen zum Zusammenhang von Variablen. Wir wollen die Bedeutung der Kovarianz zunächst formelmäßig abstrakt und anschließend grafisch erschließen. Die nachfolgenden Formeln verdeutlichen zunächst, dass es bei der Kovarianz um die gleichzeitige Abweichung hinsichtlich zweier Variablen X und Y geht, das „Kovariieren“. Formel (15-1) sagt aus, dass die jeweiligen Differenzen vom arithmetischen Mittel zu berechnen und miteinander zu multiplizieren sind. Damit bleiben (im Gegensatz zur Varianz) die Vorzeichen dieser Differenzen erhalten, was insgesamt vier Kombinationen von Vorzeichen entstehen lässt. Einmal können die Abweichungen in der X- und der Y-Dimension jeweils positiv sein (alle Werte größer als das jeweilige arithmetische Mittel), was ein positives Produkt der beiden Differenzen zur Folge hat. Zum zweiten können beide Differenzen negativ sein (alle Werte kleiner als das jeweilige arithmetische Mittel), was ebenfalls ein positives Produkt ergibt. Drittens ist es möglich, dass für die XDimension eine negative (Werte kleiner arithmetisches Mittel) und für die YDimension eine positive Abweichung (Werte größer arithmetisches Mittel) vorkommt, wodurch in negatives Ergebnis resultiert. Und viertens kann dieser Fall umgekehrt vorliegen, was ebenfalls ein negatives Produkt liefert.
210
Zweidimensionale deskriptive Statistik
Dies lässt sich leicht in der grafischen Darstellung der Abb. 15.1 nachvollziehen, in der die vier möglichen Quadranten für die Abweichungen skizziert sind. Formel (15-2) zeigt den „Verschiebungssatz“ für die Kovarianz (analog zur Varianz), der eine einfachere Art der Berechnung ermöglicht. Formel (15-3) schließlich stellt die Kovarianz für Stichproben dar, was an dem Divisor n-1 zu erkennen ist.
Formeln zur Kovarianz - Kovarianz für Grundgesamtheiten
(15-1)
V xy
1 N ¦ (xi x)(yi y) Ni 1
- Kovarianz für Grundgesamtheiten – Verschiebungssatz
(15-2)
V xy
1 N ¦ xiyi x y Ni 1
- Kovarianz für Stichproben
(15-3)
s xy
1 n ¦ (xi x)(yi y) n 1i 1
Das Computerprogramm EXCEL bietet für die Berechnung der Kovarianz nur die Formel (15-1), das Programm SPSS nur die Formel (15-3) an. Dies stellt aber bei der Weiterverwendung der Kovarianz zur Berechnung der anderen Parameter des Zusammenhangs kein Problem dar. Dort kürzt sich 1/n bzw. 1/(n-1) jeweils heraus, wodurch die Ergebnisse im rein deskriptiven und im Stichprobenfall identisch sind; siehe insbesondere die Formeln (15-4) und (15-7). Die obigen verbalen Erläuterungen der Formel (15-1) werden im Folgenden durch grafische Darstellungen veranschaulicht. Anhand eines Beispiels mit wenigen Zahlen – Noten von 4 Studierenden in 4 Studienfächern – wollen wir die Kovarianz und weitere Parameter berechnen und darstellen. Wir behandeln dabei die Verschlüsselungen der ordinalen Variablen „Note“ mit den Zahlen 1 bis 5 wie die Werte einer quantitativen Variablen, ein in der Praxis übliches Vorgehen.
15. Zusammenhang bei quantitativen Variablen
211
Wir gehen in unserem Beispiel davon aus, dass vier Studenten Prüfungen in vier verschiedenen Fächern absolvieren und betrachten dabei nacheinander die Noten-Kombinationen von jeweils zwei Fächern: - Statistik und Mathematik - Statistik und Englisch - Statistik und Ethik. Wir unterstellen dabei extrem deutliche Situationen, die für jeden der drei Fälle jeweils eine eindeutige Form des Zusammenhangs aufzeigen. Zunächst sehen wir uns die Werte- und Arbeitstabelle und die dazugehörige Grafik für die beiden Fächer Statistik und Mathematik an:
5
(x 4 x) 4
(y 4 y) 3
yi 2
1
0 0
1
2
3
4
5
xi i 1 2 3 4 Summe
xi
yi
1 2 3 4 10
1 2 3 4 10
x y
= =
2,5 2,5
(x i x) -1,50 -0,50 0,50 1,50 0,00
( y i y ) ( x i x )( y i y ) -1,50 2,25 -0,50 0,25 0,50 0,25 1,50 2,25 0,00 5,00
V xy s xy
= 5,00 / 4 = = 5,00 / 3 =
xiyi 1,00 4,00 9,00 16,00 30,00 1,25 1,67
Abb. 15.1: Kovarianz bei positivem Zusammenhang
Wir können feststellen, dass die Wertepaare für die 4 Studenten völlig „gleichläufig“ sind. Es gibt alle Kombinationen zwischen (1;1) und (4;4) und damit ist auch
212
Zweidimensionale deskriptive Statistik
ein Student dabei, der in beiden Fächern mit (3;3) eine durchschnittliche Leistung erbringt. Im Streuungsdiagramm erkennen wir, dass nur Punkte entlang einer gedachten positiv steigenden Geraden vorkommen. Die Durchschnittsnote in beiden Fächern ist 2,5. Dies positioniert das Kreuz mit den Mittelwerten beider Variablen genau in der Mitte des Diagramms. Die Abweichungen vom jeweiligen Mittelwert haben für alle 4 Punkte in der X-Dimension dasselbe Vorzeichen wie in der Y-Dimension. Bei den Punkten 1 und 2 ist das Vorzeichen dieser Abweichung jeweils negativ, was ein positives Produkt der Abweichungen ergibt. Bei den beiden Punkten 3 und 4 ist das Vorzeichen der Abweichung jeweils positiv, was ebenfalls ein positives Produkt ergibt. Für den Punkt 4 ist in Abbildung 15.1 skizziert, dass das Produkt der Abweichungen (= der Distanzen oder Strecken) eine Fläche ergibt. Damit wird deutlich, dass die Summanden der Kovarianz geometrisch als Fläche interpretiert werden können. Allerdings sind diese „Flächen“ mit einem Vorzeichen versehen, so dass der Beitrag der einzelnen Fläche zur Gesamtsumme von diesem Vorzeichen abhängt. Die weiteren Beispiele erläutern diesen Sachverhalt. In unserem Beispiel können wir feststellen, dass das Produkt der Abweichungen jeweils eine positive Zahl ergibt. Die Kovarianz nimmt den positiven Wert von 1,25 an. Für die weitere Interpretation ist das Vorzeichen zunächst wichtiger als der berechnete Wert der Kovarianz. Wir können im Beispiel einen „ungestörten“ positiven Zusammenhang beobachten. Der Student, der im Fach Statistik eine gute Note schreibt, hat auch im Fach Mathematik eine gute Note. Der Student, der in Statistik schlecht abschneidet, hat auch in Mathematik ein schlechtes Ergebnis erzielt. Dies bedeutet, dass die beiden Fächer „positiv“ korreliert sind. Die Anwendung der drei Formeln der Kovarianz können wir wie folgt nachvollziehen: Formel (15-1): 1,25 = 5,00 / 4 Formel (15-2): 1,25 = 30 / 4 – 2,5 . 2,5 = 7,5 – 6,25 Formel (15-3): 1,67 = 5,00 / 3.
Wenden wir uns dem zweiten Fall der Fächer Statistik und Englisch zu, und gehen wir von der Darstellung der Abb. 15.2 aus. Wir können nachvollziehen, dass die Abweichungen im Produkt jeweils ein negatives Vorzeichen haben, was für die Summe und damit auch für die Kovarianz eine negative Zahl (-1,25) zur Folge hat. Die beiden Fächer sind „negativ korreliert“, d.h. der Student, der in Statistik gut abschneidet, hat in der Sprache – einer „entgegengesetzten“ Anforderung – eine schlechte Note und umgekehrt.
15. Zusammenhang bei quantitativen Variablen
213
5
4
3
yi 2
1
0 0
1
2
3
4
5
xi
i 1 2 3 4 Summe
xi
yi
1 2 3 4 10
4 3 2 1 10
x y
= =
2,5 2,5
(x i x)
(y i y)
-1,50 -0,50 0,50 1,50 0,00
1,50 0,50 -0,50 -1,50 0,00
V xy s xy
( x i x )( y i y )
-2,25 -0,25 -0,25 -2,25 -5,00 = -5,00 / 4 = = -5,00 / 3 =
xiyi 4,00 6,00 6,00 4,00 20,00 -1,25 -1,67
Abb. 15.2: Kovarianz bei negativem Zusammenhang
In der dritten Situation werden zwei Fächer (Statistik und Ethik) miteinander verglichen, die weder in „positiver“ noch in „negativer“ Richtung miteinander „korrelieren“. Wir erhalten das Ergebnis der Abb. 15.3. Die Abweichungsprodukte gleichen sich in der Summe aus, so dass die Summe der zweidimensionalen Abweichungen und damit auch die Kovarianz gleich 0 ist. Nur der Wert 0 (oder nahezu 0) kann bei der Kovarianz mit einer eindeutigen Interpretation, nämlich „kein Zusammenhang“, versehen werden. Ansonsten ist die Kovarianz nicht normiert. Sie kann Werte zwischen minus unendlich und plus unendlich annehmen. Werte, die durch einen großen Abstand von beiden Mittelwerten eine große Fläche „aufspannen“ tragen dazu bei, dass die Kovarianz sehr groß werden kann. Erst die Normierung, die im Rahmen der Korrelationsanalyse (im folgenden Abschnitt) vorgenommen wird, schafft die Voraussetzungen für eine bessere Interpretation.
Zweidimensionale deskriptive Statistik
214
5
4
3
yi 2
1
0 0
1
2
3
4
5
xi i 1 2 3 4 Summe
xi
yi
1 1 4 4 10
1 4 1 4 10
x y
= =
2,5 2,5
(x i x) -1,50 -1,50 1,50 1,50 0,00
(y i y)
-1,50 1,50 -1,50 1,50 0,00
V xy s xy
( x i x )( y i y )
2,25 -2,25 -2,25 2,25 0,00 = 0,00 / 4 = = 0,00 / 3 =
xiyi 1,00 4,00 4,00 16,00 25,00 0,0 0,0
Abb. 15.3: Kovarianz bei Variablen ohne Zusammenhang
15.3 Korrelationsanalyse Bei der Korrelationsanalyse ist die Stärke des Zusammenhangs zweier Variablen X und Y von Interesse. Dazu ist es nicht notwendig zu unterscheiden, ob X von Y beeinflusst wird oder umgekehrt Y von X. Es wird die gegenseitige Abhängigkeit der beiden Variablen hinterfragt, und das Ergebnis soll eine Aussage über Stärke und Richtung des Zusammenhangs ermöglichen. Ausgangsgröße für die Korrelationsmessung ist die Kovarianz, die normiert wird, wodurch der Korrelationskoeffizient nach Bravais-Pearson entsteht. Der Koeffizient ist benannt nach dem französischen Statistiker A. Bravais (1811 – 1863) und dem Engländer K. Pearson (1857 – 1936) und stellt damit eine europäische Gemeinschaftserfindung dar.
15. Zusammenhang bei quantitativen Variablen
215
Korrelationskoeffizient nach Bravais-Pearson - als normierte Kovarianz
(15-4)
r
V xy VxVy
mit –1 d r d +1
- als Quotient von Abweichungssummen n
¦ (xi x)(yi y) (15-5)
r
i 1
n
n
i 1
i 1
¦ (x i x)2 ¦ (y i y)2
Der Korrelationskoeffizient nach Bravais-Pearson liegt – als normierte Kovarianz – zwischen -1 und +1. Der Korrelationskoeffizient beträgt +1 bei vollständig positivem Zusammenhang, -1 bei vollständig negativem Zusammenhang und 0 bei fehlendem Zusammenhang. Zu beachten ist, dass der Korrelationskoeffizient nach Bravais-Pearson die Stärke des linearen Zusammenhangs misst. Er ist eine Maßzahl, die angibt, ob und in welchem Ausmaß eine gedachte Gerade zu einer Punktewolke passt. Als Beispiel wollen wir den obigen Fall der beiden Fächer Statistik und Mathematik heranziehen. Wir ergänzen die Arbeitstabelle um die Abweichungen für die Varianzberechnung der beiden Variablen X und Y und erhalten die Abb. 15.4. Wir haben hier den Fall einer perfekten positiven Korrelation vor uns, bei dem alle Punkte auf einer Geraden liegen. Dies hat einen Korrelationskoeffizienten von +1 zur Folge.
Zweidimensionale deskriptive Statistik
216
5
4
3
yi 2
1
0 0
1
2
3
4
5
xi i
xi
yi
1 2 3 4 Summe
1 2 3 4 10
1 2 3 4 10
= =
2,5 2,5
x y
r =
(x i x)
(y i y)
-1,50 -0,50 0,50 1,50 0,00
-1,50 -0,50 0,50 1,50 0,00
V xy = s xy =
1,25 1,67
1,118
1,25 x 1,118
( x i x )( y i y )
2,25 0,25 0,25 2,25 5,00
( x i x) 2 ( y i 2,25 0,25 0,25 2,25 5,00 Vx Vy
= =
y)2 2,25 0,25 0,25 2,25 5,00
1,118 1,118
1,000
Abb. 15.4: Korrelationskoeffizient nach Bravais-Pearson (=+1)
Ähnlich können wir den Fall des negativen Zusammenhanges darstellen und damit eine negative Korrelation von -1 aufzeigen. Von Interesse ist insbesondere der Fall, wenn keine Korrelation vorliegt (siehe Abb. 15.5). Hier resultiert ein Korrelationskoeffizient von 0,0, und die Steigung der Geraden ist 0. Jede denkbare Notenkombination (gut, gut – gut, schlecht – schlecht, gut – schlecht, schlecht) liegt vor. Damit ist kein Zusammenhang festzustellen, der mit Hilfe einer Geraden – mit einer positiven oder einer negativen Steigung – zum Ausdruck gebracht werden könnte.
15. Zusammenhang bei quantitativen Variablen
217
5
4
3
yi 2
1
0 0
1
2
3
4
5
xi i
xi
yi
1 2 3 4 Summe
1 1 4 4 10
1 4 1 4 10
x y
= =
2,5 2,5 r =
(x i x)
(y i y)
-1,50 -1,50 1,50 1,50 0,00
-1,50 1,50 -1,50 1,50 0,00
Vxy = s xy =
0,00 0,00
0,000 1,500 x 1,500
( x i x )( y i y )
2,25 -2,25 -2,25 2,25 0,00
( x i x) 2 2,25 2,25 2,25 2,25 9,00
Vx
Vy
= =
( y i y)2 2,25 2,25 2,25 2,25 9,00
1,500 1,500
0,000
Abb. 15.5: Korrelationskoeffizient nach Bravais-Pearson (=0)
Die meisten Ergebnisse praktischer Korrelationsanalysen liegen nicht exakt bei 0,0 oder bei 1,0. Es kann bereits ab einer Korrelation von 0,8 von einem starken positiven Zusammenhang gesprochen werden, ab -0,8 von einem starken negativen Zusammenhang. Korrelationen zwischen 0,4 und 0,7 (positiv oder negativ) sind eher als mittelgroßer Zusammenhang zu interpretieren, während Korrelationen zwischen 0,0 und 0,3 (positiv oder negativ) als schwacher Zusammenhang anzusehen sind. Eine statistisch exakte Beurteilung der Stärke des Zusammenhangs kann in Verbindung mit Wahrscheinlichkeiten erfolgen (siehe Kapitel 26). Dann können auch Fragen nach einer „Signifikanz“ des Zusammenhangs beantwortet werden.
Zweidimensionale deskriptive Statistik
218 x
Korrelationsanalyse mit EXCEL
Mit dem PC-Programm EXCEL kann der Korrelationskoeffizient nach BravaisPearson als Funktion KORREL über den Funktions-Assistenten abgerufen und direkt ausgegeben werden. Es müssen hierbei die Urlisten der beiden Variablen X und Y zugeordnet werden. Wir können aber auch die komplette Arbeitstabelle in EXCEL anlegen und die Korrelation selbst durchrechnen.
yi
( x i x ) ( y i y ) ( x i x )( y i y )
xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
19 18 22 23 19 20 25 27 18 23 19 19 26 28 24 28 19 18 21 22
1 1 4 2 2 1 5 4 2 1 1 2 4 5 5 5 2 1 2 3
-2,90 -3,90 0,10 1,10 -2,90 -1,90 3,10 5,10 -3,90 1,10 -2,90 -2,90 4,10 6,10 2,10 6,10 -2,90 -3,90 -0,90 0,10
-1,65 -1,65 1,35 -0,65 -0,65 -1,65 2,35 1,35 -0,65 -1,65 -1,65 -0,65 1,35 2,35 2,35 2,35 -0,65 -1,65 -0,65 0,35
4,79 6,44 0,14 -0,72 1,89 3,14 7,29 6,89 2,54 -1,82 4,79 1,89 5,54 14,34 4,94 14,34 1,89 6,44 0,58 0,04
19,00 18,00 88,00 46,00 38,00 20,00 125,00 108,00 36,00 23,00 19,00 38,00 104,00 140,00 120,00 140,00 38,00 18,00 42,00 66,00
8,41 15,21 0,01 1,21 8,41 3,61 9,61 26,01 15,21 1,21 8,41 8,41 16,81 37,21 4,41 37,21 8,41 15,21 0,81 0,01
2,72 2,72 1,82 0,42 0,42 2,72 5,52 1,82 0,42 2,72 2,72 0,42 1,82 5,52 5,52 5,52 0,42 2,72 0,42 0,12
Sum. 438
53
0,00
0,00
85,30
1246,00
225,80
46,55
V xy = s xy =
x = 21,9 y = 2,7
r
=
xiyi
( x i x)2 ( y i y )2
i
4,265 4,489
Vx Vy
4,265 3,360 x 1,526
0,832
= =
3,360 1,526
Abb. 15.6: Korrelation von Alter und Dauer der Berufstätigkeit
Für unser Master-Beispiel mit den beiden Variablen X = Alter und Y = Dauer der Berufstätigkeit haben wir in Abb. 15.6 die Wertepaare sowie die berechneten Abweichungen und Summen vor uns. Wir sehen, dass ein starker Zusammenhang von 0,832 vorliegt. Dies können wir auch anhand der Punktewolke im Streuungs-
15. Zusammenhang bei quantitativen Variablen
219
diagramm der Abb. 15.7 nachvollziehen. Die Punkte liegen alle relativ nahe an einer Geraden mit positiver Steigung im Diagramm.
6
5
4
yi 3 2
1
0 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
xi Abb. 15.7 Streuungsdiagramm bei starkem positivem Zusammenhang
Der Aufruf des Streuungsdiagramms erfolgt mit dem EXCEL-Dialog: Einfügen – Punkt bzw. Diagramm-Assistent – Punkt(XY). x
Korrelationsanalyse mit SPSS
Mit SPSS wird der Korrelationskoeffizient wie folgt ermittelt: SPSS-Dialog: Analysieren – Korrelation – Bivariat. Die Berechnung beruht üblicherweise auf einer Datei in der die beiden Variablen X und Y als Urliste abgespeichert sind. Die Ergebnisausgabe erfolgt wie in Abb. 15.8 gezeigt. Hier sehen wir, dass die Kovarianz als Stichprobenparameter von SPSS mit 4,489 ausgewiesen wird. Die Summe der zweidimensionalen Abweichungen von 85,3 wird von SPSS mit „Quadratsummen und Kreuzprodukte“ bezeichnet. Schließlich ist in Abb. 15.8 der Korrelationskoeffizient nach Bravais-Pearson angegeben, der natürlich unserem oben berechneten Ergebnis von 0,832 entspricht. Auf die Bemerkung zur „Signifikanz der Korrelation“ wird in Kapitel 26 im Rahmen der Hypothesentests näher eingegangen.
220
Zweidimensionale deskriptive Statistik
X X
Y
Korrelation nach Pearson Signifikanz (2-seitig) Quadratsummen und Kreuzprodukte Kovarianz N Korrelation nach Pearson Signifikanz (2-seitig) Quadratsummen und Kreuzprodukte Kovarianz N
Y
,832** ,000 85,300 4,489 20
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
Abb. 15.8: Korrelationsberechnung mit SPSS
15.4 Regressionsanalyse Die Regressionsanalyse geht von der funktionalen Beziehung zweier Variablen X und Y aus. Im einfachsten Fall ist Y von X linear abhängig, was als Geradengleichung Y = a + bX ausgedrückt wird. Typische Beispiele für eine lineare Funktion als Basis der Regressionsanalyse sind die Kostenfunktion in einem Betrieb (Kosten als Funktion der Stückzahl) oder die volkswirtschaftliche Konsumfunktion (Konsum als Funktion des verfügbaren Einkommens). Auch die in Abschnitt 15.3 aufgezeigten Beispiele können in unsere Überlegungen einbezogen werden, da sie implizit ebenfalls von einer Linearität des Zusammenhangs ausgegangen sind. Allerdings ist dort die Richtung der funktionalen Beziehung nicht von Bedeutung. Wenden wir uns nun der „Methode der kleinsten Quadrate“ zu, der methodischen Basis der Regressionsanalyse.
15.4.1 Methode der kleinsten Quadrate (KQ-Methode) Die Methode der kleinsten Quadrate (KQ-Methode) ist eine der grundlegenden Analysemethoden der Statistik. Sie lässt sich am anschaulichsten darstellen, wenn eine zweidimensionale Punktewolke vorliegt. Für diese Punktewolke wird eine Gerade gesucht, bei der - die Summe der Abweichungen zwischen allen Beobachtungspunkten und Geradenpunkten yi - y^ i gleich 0 und - die Summe der quadrierten Abweichungen von Beobachtungspunkten und Geradenpunkten (yi - y^ i ) 2 ein Minimum ist.
15. Zusammenhang bei quantitativen Variablen
221
Die KQ-Methode wollen wir anhand eines Zahlenbeispiels erörtern.
3
2
yi
y 2 y 2 1
y 1 yˆ 1
0 0
1
2
3
4
xi Regressionsgerade
i 1 2 3 4 Sum.
xi 1 2 3 4 10
yi 1 1 2 3 7
yˆ i 0,70 1,40 2,10 2,80
y i yˆ i 0,30 -0,40 -0,10 0,20 0,00
( y i yˆ i ) 2 0,09 0,16 0,01 0,04 0,30
y i 1,75 1,75 1,75 1,75
y i y i
-0,75 -0,75 0,25 1,25 0,00
( y i y i ) 2 0,56 0,56 0,06 1,56 2,75
Abb. 15.9: Methode der kleinsten Quadrate in Tabelle und Grafik
Wir sehen in der obigen Abbildung eine Punktewolke bestehend aus vier Wertepaaren. Durch diese Punktewolke wird zum einen eine Regressionsgerade hindurchgelegt (durchgezogene schwarze Linie), zum anderen eine Parallele durch den Mittelwert der Y-Variablen (gestrichelte Linie durch y = 1,75). Vergleichen wir die Abweichungssummen für die beiden Geraden, so sehen wir: - Die Summe der Abweichungen ist in beiden Fällen gleich 0. Beide Geraden erfüllen die erste der beiden KQ- Bedingungen. Ergänzend stellen wir fest: - Die Summe der Abweichungsquadrate bei der Regressionsgeraden ist mit 0,3 deutlich kleiner als bei der Parallelen (2,75).
Zweidimensionale deskriptive Statistik
222
Dieser Unterschied geht auf die zweite KQ-Bedingung zurück. Die Regressionsgerade liefert unter allen denkbaren Geraden mit einer Abweichungssumme von 0 die kleinstmögliche Summe von Abweichungsquadraten zwischen Beobachtungspunkten und Geradenpunkten!
15.4.2 Berechnung der Regressionsparameter Als Ergebnis der in Abschnitt 15.4.1 erläuterten Minimierung erhalten wir die Formeln für den Achsenabschnitt und die Steigung der Regressionsgeraden. Die Berechnung knüpft an die in Abschnitt 15.2 erörterte Kovarianz an.
^
Formeln zur Regressionsgeraden y = a + bx
- Achsenabschnitt
(15-6)
a
y bx
- Steigung
(15-7)
b
V xy V 2x
- Bestimmtheitsmaß
(15-8)
B=
r2
(
V xy V x .V y
)2
(i.a. mal 100)
- Korrelationskoeffzient nach Bravais-Pearson = Wurzel aus dem Bestimmtheitsmaß; siehe Formeln (15-4) und (15-5)
15. Zusammenhang bei quantitativen Variablen
xi
i 1 2 3 4 Summe
( x i x) 2
yi
( y i y)2
( x i x )( y i y )
1 2 3 4
1 1 2 3
2,25 0,25 0,25 2,25
0,56 0,56 0,06 1,56
1,13 0,38 0,13 1,88
10
7
5,00
2,75
3,50
x = y =
Vx Vy
2,50 1,75
=
1,12
=
0,83
223 yˆ i
0,70 1,40 2,10 2,80 -
V xy = 0,875
b =
a =
r
B
=
0,875
0,700
1,25
1,75
0,700
0,875 1,118
x
= 0,9439 x
0,829 0,9439
x
2,50
0,00
0,9439
0,8909
Abb. 15.10: Berechnung der Parameter der Regressionsgeraden
Anhand der Abb. 15.10 können wir die Berechnung der Parameter nachvollziehen. Wir verwenden dabei eine Arbeitstabelle, die eindimensionale quadrierte Abweichungen enthält und auch zweidimensionale Abweichungsprodukte. Ausgehend von den eindimensionalen Mittelwerten und Streuungsmaßen für die Variablen X und Y wird die Berechnung der Kovarianz durchgeführt, die für die weiteren Parameter die Ausgangsgröße darstellt. Aus der Kovarianz können wir zunächst den Steigungskoeffizienten b der Regressionsgeraden berechnen. Dieser Koeffizient geht in die Berechnung des Achsenabschnitts a ein. Die Regressionsgerade (siehe Abb. 15.9) für unsere Punktewolke, liefert nun für alle Punkte xi der Variablen X neue Werte y^ i Diese Werte sind in der letzten Spalte der Arbeitstabelle in Abb. 15.10 zu finden. Wir sehen, dass die Differenzen der aufeinanderfolgenden Werte die Steigung von 0,7 wiedergeben. Schließlich zeigt die Abb. 15.10 die Berechnung des Korrelationskoeffizienten, dessen Quadrat als Bestimmtheitsmaß die Güte der Anpassung durch die Gerade angibt.
Zweidimensionale deskriptive Statistik
224 x
Bestimmtheitsmaß
Das Bestimmtheitsmaß wird als Quadrat des Korrelationskoeffizienten ermittelt. Es gibt an, welcher Anteil der Gesamtvarianz von Y durch die Regressionsgerade erklärt wird. Dazu stellen wir uns vor, dass die Abweichung zwischen dem Beobachtungswert yi und dem arithmetischen Mittel von ¯ y aufgeteilt werden kann in die Strecke zwischen dem Beobachtungswert und dem Wert auf der Regressionsgeraden y^ i sowie die Strecke zwischen dem Punkt auf der Regressionsgeraden y^ i und dem arithmetischen Mittel ¯ y. Dieser zweite Streckenabschnitt kann als „erklärter“ Anteil der Gesamtstreuung von y interpretiert werden. Die folgende Grafik veranschaulicht die Streuungszerlegung im Zusammenhang mit dem Bestimmtheitsmaß.
6
5
4
yi 3
yˆ i y
yi y
2
y i yˆ i 1
0 0
1
2
3
4
5
6
xi
Abb. 15.11: Bestimmtheitsmaß und Streuungszerlegung
Wir erkennen für den zweiten Punkt des Streuungsdiagramms (2;1) die Aufteilung der Gesamtstreuung in die beiden rechts stehenden Teile. Oben sehen wir den durch die Regressionsgerade erklärten Teil, unten den nicht erklärten Teil. Die dazugehörige Formel – abgeleitet analog der Streuungszerlegung (siehe Abschnitt 9.7.2) – für das Bestimmtheitsmaß lautet:
15. Zusammenhang bei quantitativen Variablen
225
Bestimmtheitsmaß als Anteil der erklärten Varianz
(15-9)
B
1 n ¦ ( yˆ i y)2 ni 1 1 n ¦ ( y i y )2 ni 1
wobei:
0 d B d 1 bzw. 0% d B d 100%
Das Ergebnis von B lässt sich als Prozentanteil interpretieren. Im obigen Beispiel der Abb. 15.10 werden 89,09% der Varianz durch die Regressionsgerade erklärt. Ähnlich sind auch die Extremsituationen einer vollständigen oder einer fehlenden Korrelation einzuordnen. Wenn alle Punkte auf einer Geraden liegen, dann sind Korrelationskoeffizient und Bestimmtheitsmaß gleich 1. Jetzt werden 100% der Streuung durch die Regressionsgerade erklärt. Es verbleibt keinerlei Streuung „außerhalb“ der Geraden. Bei einer Korrelation von 0 dagegen erklärt die Regressionsgerade 0% der Varianz. Die Gerade ist für die Erklärung der Punktewolke nicht brauchbar. Ein weiteres Beispiel für die Berechnung und die Interpretation des Bestimmtheitsmaßes findet sich in der nachfolgenden Abb. 15.12. x
Lineare Regressionsanalyse mit EXCEL und SPSS
Beide Programme, EXCEL und SPSS, bieten einfache Möglichkeiten der Berechnung von Regressionsgeraden an. Dazu werden die Werte der beiden Variablen X und Y in einer Tabelle bzw. Datei abgelegt werden. Der EXCEL-Aufruf lautet: EXCEL-Dialog: Funktions-Assistent – Statistik – ACHSENABSCHNITT bzw. STEIGUNG. Das Bestimmtheitsmaß für die Regressionsgerade erhalten wir über die Funktion KORREL, deren Ergebnis (Korrelationskoeffizient) wir quadrieren. In SPSS arbeiten wir mit dem SPSS-Dialog: Analysieren – Regression – Linear. Hier sind die abhängige und die unabhängige Variable anzugeben, und es kann eine Vielzahl von speziellen statistischen Werten und grafischen Darstellungen abgerufen werden. Eine entsprechende Anwendung findet sich in Abschnitt 17.2.1 (Kapitel 17: Zeitreihenanalyse). Wir wollen ein abschließendes Beispiel erörtern und dieses mit EXCEL durchrechnen: Freizeitausgaben in Abhängigkeit vom Einkommen. In Kapitel 26
Zweidimensionale deskriptive Statistik
226
wird dieses Beispiel noch einmal aufgegriffen, um die Anwendung der schließenden Statistik im Rahmen der Regressionsanalyse zu erörtern (siehe Abschnitt 26.5).
i 1 2 3 4 5 6 7 8 9 10 11 12
xi 36,0 40,0 25,0 24,0 60,0 40,0 53,0 52,0 40,0 62,0 35,0 41,0
Summe 508,0
yi 1,8 3,9 3,8 1,9 6,9 6,2 6,8 5,5 2,4 6,4 3,0 3,8
xi
2
yi
2
xiyi
yˆ i 3,6 4,1 2,2 2,1 6,6 4,1 5,7 5,6 4,1 6,8 3,5 4,2
1296,0 1600,0 625,0 576,0 3600,0 1600,0 2809,0 2704,0 1600,0 3844,0 1225,0 1681,0
3,2 15,2 14,4 3,6 47,6 38,4 46,2 30,3 5,8 41,0 9,0 14,4
64,8 156,0 95,0 45,6 414,0 248,0 360,4 286,0 96,0 396,8 105,0 155,8
52,4 23160,0
269,2
2423,4
-
y i yˆ i
2 ( y i yˆ i ) 2 ( yˆ i y )
-1,8 -0,2 1,6 -0,2 0,3 2,1 1,1 -0,1 -1,7 -0,4 -0,5 -0,4
3,1738 0,0315 2,5033 0,0376 0,1178 4,5054 1,2342 0,0042 2,8137 0,1639 0,2093 0,1611
0,6165 0,0837 4,6176 5,1658 4,7969 0,0837 1,7487 1,4362 0,0837 5,9445 0,8265 0,0273
0,0
14,9558
25,4309
Abb.15.12: Arbeitstabelle Regression, Bestimmtheitsmaß
In Abb. 15.12 sind die jährlichen Ausgaben (in Tausend €) von 12 Haushalten für Freizeit (Variable Y) und die dazugehörigen verfügbaren Jahreseinkommen dieser Haushalte in Tausend € (Variable X) angegeben. Die dazugehörige Regressionsgerade lautet: y^ i = -0,8815 + 0,1240xi. Die grafische Darstellung in Abb. 15.13 zeigt einen positiven Zusammenhang zwischen Freizeitausgaben und verfügbarem Einkommen. Allerdings sind Abweichungen vom „Durchschnitt“ der Regressionsgeraden deutlich zu erkennen. Haushalte, die unterhalb der Geraden liegen, haben ein niedrigeres Einkommen und geben weniger als der Durchschnitt für Freizeit aus. Haushalte, die oberhalb der Geraden liegen, haben eine höheres Einkommen und geben überdurchschnittlich viel für Freizeit aus. Der Korrelationskoeffizient beträgt 0,7935; das Bestimmtheitsmaß liegt bei einem eher „mittelmäßigen“ Wert von 0,6297. Damit werden 62,97% der Varianz der Freizeitausgaben durch das verfügbare Einkommen erklärt. Es verbleiben 37,03% unerklärter Rest, der auf andere Einflussfaktoren zurückzuführen ist. Formel (15-9) kann anhand der Summen in Tabelle 15.12 nachvollzogen werden. Die Summen der letzten beiden Spalten stellen die Streuungszerlegung für das Bestimmtheitsmaß dar. Die Quadratsummen geben dabei die Anteile der Gesamtstreuung an. Entsprechend ergibt sich ein Bestimmtheitsmaß von 0,6297 = 25,4309 / 40,3867, wobei 40,3867 die Summe der beiden Streuungen 14,9558 und 25,4309 ist.
15. Zusammenhang bei quantitativen Variablen
227
Freizeitausgaben in Tausend Euro
7
6
5
4
3
2
1
0 0
10
20
30
40
50
60
70
Verfügbares Einkommen in Tausend Euro
Abb. 15.13: Streuungsdiagramm mit Regressionsgerade
15.5 Regressionsgerade und Prognose Die Regressionsgerade kann dazu verwendet werden, Prognosen für einzelne xWerte zu liefern. Stellen wir uns eine Kostenfunktion vor, die in einem Betrieb errechnet wurde. Dann kann die Prognose wie folgt ermittelt werden: Wir berechnen die Kostenfunktion für die im Betrieb zurzeit relevanten Stückzahlen zwischen 100 und 800. Wenn eine Mengenerweiterung bevorsteht, können wir Werte über 800 in die Regressionsgerade einsetzen und damit die „zu erwartenden“ Kosten berechnen. Ebenso können wir die obigen Freizeitausgaben prognostizieren, d.h. für den Beobachtungsbereich und auch darüber hinaus „abschätzen“: - Ein Einkommen von 50 Tausend € wird Freizeitausgaben von 5.318,50 € mit sich bringen (=-0,8815 + 0,1240 . 50) . 1000). - Ein Einkommen von 70 Tausend € hat Freizeitausgaben von 7.798,50 € zur Folge. Eine weitere Form der Prognose mit Regressionsgeraden erfolgt im Rahmen der Zeitreihenanalyse (siehe Kapitel 17, Abschnitt 17.5).
228
Zweidimensionale deskriptive Statistik
15.6 Multiple und nichtlineare Regression x
Multiple Regression
Die grundsätzlichen Erkenntnisse und Aussagen der einfachen linearen Regression des Abschnitts 15.4 lassen sich übertragen auf den Fall mehrerer erklärender Variablen. Wir haben dann eine multiple Regressionsanalyse vor uns, mit beispielsweise der folgenden Gleichung: Y = a + bX1 + cX2 + dX3. So können wir uns vorstellen, dass die Freizeitausgaben Y erklärt werden durch das Einkommen X1, die Dauer der Schulausbildung X2 und das Alter X3. Das Programmpaket SPSS bietet hier die Möglichkeit, Regressionsanalysen mit einer größeren Anzahl von unabhängigen Variablen zu berechnen. Der Aufruf erfolgt wie im zweidimensionalen Fall: SPSS-Dialog: Analysieren – Regression – Linear. Erläuterungen der verschiedenen Berechnungsmethoden der multiplen Regression finden sich in der Spezialliteratur zu SPSS bzw. zur Ökonometrie. x
Nichtlineare Regression
Der Fall nicht-linearer Zusammenhänge läßt sich ähnlich auffassen wie eine multiple Regression. Wir gehen von einem Polynom aus, das die unabhängige Variable mehrfach beinhaltet, und zwar in jeweils unterschiedlicher Dimension: Beispiel: Y = a + bX + cX2. Auch hier können die Funktionen der linearen Regressionsanalyse verwendet werden, wobei die erklärende Variable in den definierten Dimensionen vorkommt.
229
16. Zusammenhang bei qualitativen Variablen x Leitfragen 1) Warum werden bei qualitativen Variablen andere Zusammenhangsmaße verwendet als bei quantitativen Variablen? 2) Mit welchen Maßzahlen wird der Zusammenhang ordinalskalierter Variablen gemessen? 3) Was ist das Konstruktionsprinzip von Mehrfeldertafeln (Kreuztabellen)? 4) Was sagen die zweidimensionale Verteilung, die Randverteilungen und die bedingten Verteilungen einer Kreuztabelle aus? 5) Wann liegt Unabhängigkeit von qualitativen Variablen vor? 6) Wie wird die Stärke der Abhängigkeit zum Ausdruck gebracht? 7) Welche besonderen grafischen Darstellungen für den Zusammenhang qualitativer Variablen gibt es?
16.1 Rangkorrelation nach Spearman Die Rangkorrelation bezieht sich auf ordinalskalierte Variablen. Diese Variablen weisen qualitative Ausprägungen auf, die in eine Rangfolge (z.B. von sehr gut bis sehr schlecht) gebracht werden können. Die Aussagefähigkeit der ordinalskalierten Variablen kommt dann explizit zum Ausdruck, wenn man bei einem zunächst quantitativen Merkmal Rangziffern vergibt, um nur noch mit diesen Rangziffern zu arbeiten. Man verzichtet damit auf die „Genauigkeit“ des quantitativen Merkmals und betrachtet nur noch die Frage, ob die einzelnen Merkmalsträger größere oder kleinere Werte aufweisen als die anderen Elemente. Wir wollen als Beispiel für die Rangkorrelation nur den Korrelationskoeffizienten von Spearman (aus dem Jahr 1904) betrachten. Von Computerprogrammen werden noch andere Koeffizienten (z.B. der Koeffizient nach Kendall) angeboten! Im Beispiel der nachfolgenden Abb. 16.1 sehen wir zunächst die Vergabe der Rangziffern Rxi und Ryi für die ursprünglichen Werte (Punkte einer Klausur X sowie einer Klausur Y). Danach werden die Differenzen der Rangziffern und deren Quadrate berechnet, und letztere werden aufsummiert.
Zweidimensionale deskriptive Statistik
230
2
2
2
.
xi
yi
Rxi
Ryi
di
1 2 3 4 5 6 7 8 9 10
99 87 52 67 74 79 44 37 32 29
47 41 22 28 25 23 16 19 12 11
1,0 2,0 6,0 5,0 4,0 3,0 7,0 8,0 9,0 10,0
1,0 2,0 6,0 3,0 4,0 5,0 8,0 7,0 9,0 10,0
0,0 0,0 0,0 2,0 0,0 -2,0 -1,0 1,0 0,0 0,0
0,0 0,0 0,0 4,0 0,0 4,0 1,0 1,0 0,0 0,0
1,0 4,0 36,0 25,0 16,0 9,0 49,0 64,0 81,0 100,0
1,0 4,0 36,0 9,0 16,0 25,0 64,0 49,0 81,0 100,0
1,0 4,0 36,0 15,0 16,0 15,0 56,0 56,0 81,0 100,0
Sum.
-
-
55,0
55,0
-
10,0
385,0
385,0
380,0
n(n2-1)
=
U
=
i
di
Rxi
Ryi
Rxi Ryi
990 _
1
60
/
990
=
0,9394
Abb. 16.1: Arbeitstabelle Rangkorrelation
Die Berechnungen in Abb. 16.1 entsprechen der nachfolgenden Formel für den Spearman-Koeffizienten:
Rangkorrelationskoeffizient nach Spearman n
(16-1)
U
1
6 ¦ di2 i 1 2
n (n 1)
mit
1 d U d 1
2
wobei : di = quadrierte Differenz der Rangziffern Rxi und Ryi.
Das Ergebnis für die Rangkorrelation beträgt in unserem Beispiel 0,9394. Dies ist eine sehr hohe positive Korrelation, die wir auch erkennen, wenn wir die einzelnen Wertepaare der Rangziffern betrachten. Niedrige Ränge, mittlere und hohe Ränge kommen meist „gleichläufig“ vor. Ein Merkmalsträger, der bei der einen Variablen einen niedrigen Rang aufweist, hat auch bei der anderen Variablen einen niedrigen Wert etc.
16. Zusammenhang bei qualitativen Variablen
231
Der Rangkorrelationskoeffizient nach Spearman ist eine Variante des quantitativen Korrelationskoeffizienten nach Bravais-Pearson. Für den Fall, dass keine Rangbindungen vorkommen, d.h. keine gleich großen Ränge vergeben werden müssen, sind beide Formeln identisch. Dies lässt sich nachvollziehen, wenn wir für die beiden Spalten der Rangziffern in Abb. 16.1 den Korrelationskoeffizienten nach Bravais-Pearson berechnen: Er beträgt ebenfalls 0,9394. x
Rangkorrelation bei Rangbindungen
Wenn gleiche Ränge vorkommen, bedeutet das – im obigen Beispiel – gleich große Punktzahlen für einzelne Teilnehmer. Hier muss zunächst der „mittlere“ Rang der betroffenen Elemente errechnet werden. Dies ist das arithmetische Mittel der Rangziffern (siehe Abb. 16.2). Das vorige Beispiel wurde hierzu nur leicht modifiziert:
2
2
2
.
xi
yi
Rxi
Ryi
di
1 2 3 4 5 6 7 8 9 10
99 99 52 67 74 79 44 37 32 29
47 41 41 41 25 23 16 19 12 11
1,5 1,5 6,0 5,0 4,0 3,0 7,0 8,0 9,0 10,0
1,0 3,0 3,0 3,0 5,0 6,0 8,0 7,0 9,0 10,0
0,5 -1,5 3,0 2,0 -1,0 -3,0 -1,0 1,0 0,0 0,0
0,25 2,25 1,00 2,25 2,25 9,00 9,00 36,00 9,00 4,00 25,00 9,00 1,00 16,00 25,00 9,00 9,00 36,00 1,00 49,00 64,00 1,00 64,00 49,00 0,00 81,00 81,00 0,00 100,00 100,00
1,5 4,5 18,0 15,0 20,0 18,0 56,0 56,0 81,0 100,0
Sum.
-
-
55,0
55,0
-
27,50 384,50 383,00
370,0
n(n2-1)
=
U
=
i
di
Rxi
Ryi
Rxi Ryi
990 1
_
165
/
990
=
0,8333
Abb. 16.2: Rangkorrelation mit Rangbindungen
Wir erkennen in beiden Reihen mehrfach gleiche Punktzahlen von X bzw. Y und damit auch mehrfach gleiche Ränge: 1,5 für Rxi und 3,0 für Ryi. Alternativ könnten wir auch so vorgehen, wie dies häufig in der Praxis und vom Computerprogramm EXCEL gehandhabt wird. In EXCEL kann über die Funktion RANG die Rangziffer zugeordnet werden, wobei hier bei Rangbindungen der niedrigste Rang mehrfach Verwendung findet und nachfolgende Ränge entsprechend wegfallen.
Zweidimensionale deskriptive Statistik
232 x
Rangkorrelation mit EXCEL und SPSS
Von SPSS wird der Rangkorrelationskoeffizient nach Spearman im Menü Analysieren – Korrelation – Bivariat angeboten. Eine pragmatische Vorgehensweise ist es, für die Rangziffern den Korrelationskoeffizienten nach Bravais-Pearson zu berechnen. Wir entfernen uns damit zwar von der Formel nach Spearman, können dann aber die Funktion KORREL von EXCEL für die Korrelationsberechnung verwenden. Das Ergebnis lautet für das Beispiel in Abb. 16.2 r = 0,8308 und ist damit nicht sehr verschieden vom Spearman-Wert U = 0,8333.
16.2 Chi-Quadrat als Basis qualitativer Zusammenhangsmaße Bei qualitativen Variablen muss die Messung des Zusammenhangs auf die Häufigkeiten bezogen werden, da die Werte der Variablen als verbale Ausprägungen nicht für mathematische Berechnungen geeignet sind. Dies gilt bereits dann, wenn eine der beiden Untersuchungsvariablen qualitativ bzw. nominalskaliert ist. Ausgangspunkt der Messung des Zusammenhangs qualitativer Variablen ist die zweidimensionale Häufigkeitsverteilung mit den Häufigkeiten der entsprechenden Kreuztabelle. Wir wollen wieder auf das Beispiel unseres Master-Projekts zurückkommen. Wir gehen der Frage nach, ob die Motivation durch den Dozenten zwischen weiblichen und männlichen Teilnehmern unterschiedlich ist, d.h. ob ein Zusammenhang zwischen Motivation und Geschlecht der Teilnehmer vorliegt. Die nachfolgende Kreuztabelle in Abb. 16.3 stellt das Ergebnis einer entsprechenden Befragung dar. Die Kreuztabelle ist – für sich genommen – bereits ein interessanter Gegenstand der statistischen Analyse. Wir können die einzelnen Verteilungen in der Tabelle untersuchen und uns einen ersten Eindruck verschaffen. Anzahl Motivation durch Dozenten
Geschlecht Gesamt
m w
sehr 20 5 25
etwas 15 6 21
teils/teils 4 9 13
kaum 6 15 21
gar nicht 5 15 20
Gesamt 50 50 100
Abb. 16.3: Kreuztabelle Geschlecht, Motivation durch Dozenten
Wir sehen im direkten Vergleich der beiden Zeilen für „männlich“ und „weiblich“, dass die männlichen Teilnehmer deutlich zur besseren Beurteilung des Dozenten
16. Zusammenhang bei qualitativen Variablen
233
tendieren, während die weiblichen Teilnehmer kritischer sind und häufiger die schlechteren Noten für den Dozenten vergeben. Anmerkung: In diesem Falle wäre die Berechnung von Durchschnittsnoten für m bzw. w ebenfalls eine brauchbare statistische Variante. Wir müssten allerdings mit den Noten-Ziffern 1 bis 5 arbeiten und würden wieder zur quasi-metrischen Bewertung von Rängen übergehen. Eine gründlichere Analyse und damit die Vorbereitung für die Messung des Zusammenhangs liegt vor, wenn wir zunächst mit relativen bedingten Häufigkeiten und dann mit „erwarteten“ Häufigkeiten bei Unabhängigkeit arbeiten.
Es ergibt sich zunächst die folgende Tabelle mit bedingten Verteilungen:
Mo tivation d urch D o zen te n
G esch le ch t m
w
G esam t
An zah l % vo n G esch le ch t An zah l % vo n G esch le ch t An zah l % vo n G esch le ch t
kaum 6
ga r nich t 5
8,0%
12 ,0 %
10 ,0 %
9
15
15
sehr 20
etwa s 15
te ils/te ils 4
40 ,0 %
30 ,0 %
5
6
G esam t 50 10 0,0% 50
10 ,0 %
12 ,0 %
18 ,0 %
30 ,0 %
30 ,0 %
10 0,0%
25
21
13
21
20
10 0
25 ,0 %
21 ,0 %
13 ,0 %
21 ,0 %
20 ,0 %
10 0,0%
Abb. 16.4: Kreuztabelle mit bedingten Zeilen-Verteilungen
Die beiden bedingten Verteilungen (Dozentenbeurteilung seitens der männlichen und seitens der weiblichen Teilnehmer) weisen jeweils als Summe ihrer Zeile 100% auf. Die bedingte Verteilung bei m zeigt die höheren Anteile von 40% und 30% bei den ersten beiden Kategorien. Die bedingte Verteilung bei w zeigt die höchsten Anteile von jeweils 30% bei den schlechteren Noten (kaum bzw. gar keine Motivation durch den Dozenten). Vergleichen wir nun diese bedingten Verteilungen mit der Randverteilung in der letzten Zeile, dann können wir die Auffälligkeiten noch einmal beurteilen. Die Randverteilung weist etwa gleich große Anteile zwischen 20% und 25% (und in der Mitte 13%) auf. Dies ist leicht nachvollziehbar: Die „männliche“ und die „weibliche“ unsymmetrische Verteilung gleichen sich aus, so dass in der Summe eine relativ gleichmäßige Verteilung resultiert. x
Erwartete Häufigkeiten
Die Berechnung von erwarteten Häufigkeiten ergänzt unsere Überlegungen um den Aspekt der „Unabhängigkeit“ und führt zu folgendem Ergebnis:
Zweidimensionale deskriptive Statistik
234
Motivation durch Dozenten
Geschlecht
m
w
Gesamt
Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl
gar nicht
sehr 20
etwas 15
teils/teils 4
kaum 6
12,5
10,5
6,5
10,5
5
6
9
15
15
50
12,5
10,5
6,5
10,5
10,0
50,0
5
Gesamt 50
10,0
50,0
25
21
13
21
20
100
25,0
21,0
13,0
21,0
20,0
100,0
Abb. 16.5: Kreuztabelle mit erwarteten Häufigkeiten
Die „erwarteten“ Häufigkeiten spielen eine zentrale Rolle bei der Messung des Zusammenhangs bzw. der Unabhängigkeit von Variablen. Bei Unabhängigkeit der beiden Variablen müssten die beiden bedingten Verteilungen in den Zeilen für männlich und weiblich identisch sein. Der gleiche Anteil von Teilnehmern (oder der gleiche %-Satz) müsste eine gute, mittlere und eine schlechte Beurteilung abgeben. Wir sehen dies bei den erwarteten Häufigkeiten in den beiden Zeilen m und w mit den Häufigkeiten 12,5, 10,5, 6,5 usw. Da in unserem Fall exakt 100 Teilnehmer befragt wurden, sind absolute Häufigkeiten und dazugehörige %-Sätze als relative Häufigkeiten gleich groß, was eine leichtere Interpretation der Verteilungen ermöglicht. Die Ergebnisse der erwarteten Häufigkeiten entsprechen auch den obigen Überlegungen zu den bedingten Verteilungen. Bei Unabhängigkeit der Dozentenbeurteilung vom Geschlecht der Teilnehmer hätten wir gleiche bedingte Verteilungen erwartet. Dies ist nun bei den „erwarteten“ Verteilungen der Fall. Die erwarteten Häufigkeiten ergeben sich rechnerisch als Produkt der Randhäufigkeiten, dividiert durch die Gesamtzahl: 12,5 = 50 . 25 / 100 10,5 = 50 . 21 / 100 usw. x
Chi-Quadrat-Messung
Zur Messung des Grades der Abhängigkeit wird zunächst die Differenz zwischen den beobachteten Häufigkeiten und den – bei Unabhängigkeit – erwarteten Häufigkeiten berechnet. Diese Differenzen werden dann quadriert, da nur die Distanz – und nicht das Vorzeichen – etwas über den Verteilungsunterschied aussagt.
16. Zusammenhang bei qualitativen Variablen
235
Die quadrierten Differenzen werden durch die erwartete Häufigkeit dividiert und dann aufsummiert. Diese Summe ist das Chi-Quadrat, das als Basis zahlreicher Zusammenhangsmaße von qualitativen Variablen eine ähnliche Rolle spielt wie in Kapitel 15 die Kovarianz.
Motivation
sehr
etwas
Geschlecht m w
teils/ teils
kaum
gar nicht
Summe 50
fjk
20
15
4
6
5
ejk
12,5
10,5
6,5
10,5
10,0
fjk
5
6
9
15
15
ejk
12,5
10,5
6,5
10,5
10,0
25
21
13
21
20
Summe
50 100
Differenz von beobachteter und erwarteter Häufigkeit und Quotient aus quadrierter Differenz und erwarteter Häufigkeit Summe Differenz Quotient Differenz Quotient
7,5 4,50 -7,5 4,50
4,5 1,93 -4,5 1,93
Chi-Q.=
23,64
-2,5 0,96 2,5 0,96
-4,5 1,93 4,5 1,93
P =
-5,0 2,50 5,0 2,50
11,82 11,82 23,64
0,437
Abb. 16.6: Arbeitstabelle Chi-Quadrat
Hier die Berechnungen für die erste Zelle (x1;y1): 12,5 = 50 . 25 / 100 7,5 = 20 – 12,5 4,5 = 7,5 2 / 12,5 = 56,25 / 12,5. Sehen wir uns nun die Formel für Chi-Quadrat an:
Chi-Quadrat
(16-2)
F2
m
l ( f e )2 jk jk
¦ ¦
j 1 k 1
e jk
mit
fjk = beobachtete Häufigkeiten ejk = erwartete Häufigkeiten
Zweidimensionale deskriptive Statistik
236
Der Wert von Chi-Quadrat ist nur dann exakt interpretierbar, wenn er 0 beträgt. Dann sind alle beobachteten und erwarteten Häufigkeiten identisch und man erhält bei sämtlichen Differenzen den Wert 0. Ansonsten kann Chi-Quadrat bei Abhängigkeit der Variablen beliebig groß werden, wobei die Anzahl der Spalten und Zeilen der Tabelle einen Einfluß auf die Größe hat. x
Chi-Quadrat bei fehlendem Zusammenhang
Motivation
sehr
etwas
teils/ teils
kaum
gar nicht
Summe
fjk
10
10
10
10
10
50
ejk
10,0
10,0
10,0
10,0
10,0
fjk
10
10
10
10
10
ejk
10,0
10,0
10,0
10,0
10,0
20
20
20
20
20
Geschlecht m w Summe
50 100
Differenz von beobachteter und erwarteter Häufigkeit und Quotient aus quadrierter Differenz und erwarteter Häufigkeit Summe Differenz Quotient Differenz Quotient
0,0 0,00 0,0 0,00
0,0 0,00 0,0 0,00
Chi-Q.=
0,00
0,0 0,00 0,0 0,00
0,0 0,00 0,0 0,00
P =
0,0 0,00 0,0 0,00
0,00 0,00 0,00
0,000
Abb. 16.7: Chi-Quadrat bei fehlendem Zusammenhang
Sehen wir uns die Abb. 16.7 als Beispiel für einen fehlenden Zusammenhang an. Konkret stellen wir uns die Situation vor, dass zwischen den oben diskutieren Variablen Y „Motivation durch den Dozenten“ und X „Geschlecht“ keinerlei Abhängigkeit vorliegt. Wir stellen – wie oben erwähnt – fest, dass alle beobachteten und erwarteten Häufigkeiten gleich groß sind und daher für Chi-Quadrat exakt 0 resultiert. Die beiden bedingten Verteilungen in der Zeile m und w sind gleich der dazugehörigen Randverteilung. Die Beurteilung des Dozenten unterscheidet sich zwischen männlichen und weiblichen Teilnehmern nicht.
16. Zusammenhang bei qualitativen Variablen
237
16.3 Qualitative Zusammenhangsmaße Auf der Basis von Chi-Quadrat wurden zahlreiche Maßzahlen entwickelt, die den Zusammenhang von qualitativen Variablen erfassen.
Qualitative Zusammenhangsmaße - Mittlere quadratische Kontingenz
(16-3)
MQK
F2 n
mit F aus Formel (16-2) 2
- Kontingenzkoeffizient nach Pearson
(16-4)
x
P
F2 2
F n
mit F aus Formel (16-2) 2
und 0 d P 1
Mittlere quadratische Kontingenz
Die MQK ist der Quotient von Chi-Quadrat und dem Umfang der Gesamtheit n. Dieses Maß ist nicht normiert und hängt von der Tabellengröße ab. x
Kontingenzkoeffizient nach Pearson
Der Kontingenzkoeffizient von Pearson nimmt eine Normierung von Chi-Quadrat gemäß der Formel (16-4) vor. Der Koeffizient hat den Vorteil, dass er zwischen 0 und 1 liegt. Er erreicht allerdings die Obergrenze von 1 nicht exakt. Die Berechnung des Kontingenzkoeffizienten P wurde in den obigen Beispielen bereits mit angegeben (siehe Abb. 16.6 und 16.7). Im Falle der Abhängigkeit war das Ergebnis 0,437, bei Unabhängigkeit 0,000. x
Korrigierter Kontingenzkoeffizient nach Pearson PK
Um den gesamten Wertebereich zwischen 0 und 1 nutzen zu können, muss ein korrigierter Koeffizient nach Pearson berechnet werden. Hierzu ist zunächst das Maximum für den Pearson-Koeffizient zu errechnen.
238
Zweidimensionale deskriptive Statistik
Das Maximum ist die Wurzel des Quotienten aus q-1 und q, wobei q das Minimum von m, der Zeilenzahl, und l, der Spaltenzahl, in einer Kontingenztabelle ist. Dividieren wir den vorher errechneten Koeffizienten nach Pearson durch dieses Maximum, erhalten wir einen Koeffizienten zwischen 0 und 1. Ein Beispiel kann anhand der obigen Tabelle in Abb. 16.6 berechnet werden: PK = 0,618 = 0,437 / 0,7071.
16.4 Qualitative Zusammenhangsmaße mit EXCEL und SPSS Maßzahlen für den Zusammenhang qualitativer Variablen erhalten wir in SPSS über den Aufruf: SPSS-Dialog: Analysieren – Deskriptive Statistiken – Kreuztabellen. Diese Funktion liefert Kreuztabellen, wie z.B. in den obigen Abb. 16.4 und 16.5. Zusätzlich zu den Tabellen können diverse Koeffizienten abgerufen werden, was z.B. zu folgenden Ergebnissen führt:
Nominal- bzgl. Nominalmaß
Phi Cramer-V Kontingenzkoeffizient
Anzahl der gültigen Fälle
W ert ,486 ,486 ,437 100
Näherungsweise Signifikanz ,000 ,000 ,000
a. Die N ull-H yphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotisc he Standardfehler verwendet. Abb. 16.8: Chi-Quadrat mit SPSS
Nominal- bzgl. Nominalmaß
Phi Cramer-V Kontingenzkoeffizient
Anzahl der gültigen Fälle
W ert ,486 ,486 ,437 100
Näherungsweise Signifikanz ,000 ,000 ,000
a. Die N ull-H yphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotisc he Standardfehler verwendet. Abb. 16.9: Koeffizienten für den Zusammenhang qualitativer Variablen mit SPSS
16. Zusammenhang bei qualitativen Variablen
239
Bei beiden Darstellungen sehen wir, dass SPSS „automatisch“ einen Signifikanztest für die Maßzahlen durchführt. Darauf werden wir Kapitel 26 eingehen. Hier beschränken wir uns auf die deskriptiven Maße, die bei SPSS etwas anders bezeichnet werden als oben erörtert, aber dieselben Informationen liefern: - Chi-Quadrat nach PEARSON ist das Chi-Quadrat; Formel (16-2) - Kontingenzkoeffizient ist der Koeffizient nach Pearson; Formel (16-4).
Auch in EXCEL bietet sich die Möglichkeit der Berechnung von Maßzahlen für den Zusammenhang qualitativer Variablen. Wir können hier von den obigen Arbeitstabellen ausgehen und daran die weiteren Berechnungen anschließen. Standardfunktionen, die automatisch abgerufen werden können, liegen nicht vor.
16.5 Spezielle grafische Darstellungen Um einen Zusammenhang zwischen qualitativen Variablen grafisch darzustellen, können wir die Möglichkeit nutzen, mehrere Verteilungen in einem Diagramm zu vergleichen. Wenn unsere Kreuztabelle aus dem Master-Beispiel (Motivation durch Dozenten in Abhängigkeit vom Geschlecht der Teilnehmer) als Häufigkeitsverteilung grafisch dargestellt werden soll, dann lautet der SPSS-Aufruf: SPSS-Dialog: Diagramme – Veraltete Dialogfelder – Balken – Gruppiert. Analysevariable ist dann die „Motivation durch den Dozenten“, Gruppierungsvariable ist das „Geschlecht“. Wir erhalten die beiden Verteilungen in einem Diagramm und können so optisch den Eindruck vermitteln, den wir durch die Verteilungsvergleiche und Berechnungen gewonnen haben: Es besteht ein Zusammenhang, der durch unterschiedlich „schiefe“ Verteilungen zum Ausdruck kommt. Die grafische Darstellung in Abb. 16.10 gibt die beiden bedingten Verteilungen aus der Tabelle in Abb. 16.4 wieder. Die männlichen und weiblichen Teilnehmer bilden jeweils zusammen 100%, und die Form der Verteilung wird durch die Balken zum Ausdruck gebracht. Das Computerprogramm SPSS erlaubt die Darstellung einer größeren Anzahl von Variablen und eine Aufteilung in mehrere Gruppen gleichzeitig. Dabei ist allerdings Vorsicht geboten, da die Grafiken sehr leicht unübersichtlich werden. Es ist zu empfehlen, die Variablen und die Gruppen ggf. auf mehrere Grafiken aufzuteilen, um damit eine übersichtliche Ergebnispräsentation zu erhalten.
Zweidimensionale deskriptive Statistik
240
50
Prozent
40
30
20
Geschlecht
10
männlich
0
w eiblich
sehr
etwas teils/teils
kaum gar nicht
Motivation durch Dozenten Abb. 16.10: Grafische Darstellung der Kreuztabelle
241
17. Zeitreihenanalyse x Leitfragen
1) Welche Fragestellungen beantwortet die Zeitreihenanalyse? 2) Was sind die Komponenten und Einflussgrößen einer Zeitreihe? 3) Mit welchen Verfahren schätzt man die Trend- und die Saisonkomponente einer Zeitreihe? 4) Wie beurteilt man die Ergebnisse der Zeitreihenanalyse? 5) Was ist bei der grafischen Darstellung von Zeitreihen zu beachten?
17.1 Zeitreihen und ihre Komponenten Eine Zeitreihe dient der Längsschnittbetrachtung eines Sachverhalts. Die Methoden der bisherigen Kapitel waren vorwiegend für Querschnittsanalysen geeignet (vgl. auch Kapitel 1). Im Zusammenhang mit Zeitreihen wollen wir beispielsweise wissen, wie sich die Umsatzzahlen eines Betriebes im Laufe der letzten Quartale entwickelt haben. Wir interessieren uns für die monatlichen oder jährlichen Werte des Preisindex der Lebenshaltung. Und die Zeitreihe des Aktienindex DAX kann tagesgenau als fester Bestandteil der Wirtschaftsnachrichten verfolgt werden. Eine Zeitreihe ist eine Sonderform der „zweidimensionalen“ Betrachtung und Darstellung. Die Untersuchungsvariable wird einer zweiten Variablen, der Zeit, gegenüber gestellt, um die Entwicklung im zeitlichen Verlauf zu analysieren. Dabei geht es zum einen um den Gesamtverlauf, zum anderen um das Zusammenwirken verschiedener Einflussgrößen auf die Reihe. Diese Einflussgrößen werden Komponenten der Zeitreihe genannt. Sie ergeben – additiv oder multiplikativ zusammengesetzt – den einzelnen Beobachtungswert der Reihe. Zeitreihen werden mit dem Symbol yt bezeichnet, wobei t = 1, 2 ... T für die Zeitpunkte bzw. Zeiträume steht. x
Komponenten von Zeitreihen
Wesentliches Ziel der Zeitreihenanalyse ist die Identifikation einzelner Einflussgrößen. Damit kann ein aktuelles Ergebnis oder die gesamte Entwicklung besser beurteilt und als Regelmäßigkeit oder Besonderheit eingeordnet werden. Wir unterscheiden dabei die Trend-, die Konjunktur- und die Saisonkomponente. Außer-
242
Zweidimensionale deskriptive Statistik
dem gibt es einen durch die klassischen Komponenten „nicht erklärten“ Teil der zeitlichen Entwicklung, den wir Restkomponente nennen.
Komponenten einer Zeitreihe - Trendkomponente Tt = langfristige Entwicklung, Grundrichtung einer Zeitreihe - Konjunkturkomponente Kt = mittelfristige, zyklische Schwankung einer Zeitreihe - Glatte Komponente Gt = Zusammenfassung von Trend- und Konjunkturkomponente - Saisonkomponente St = regelmäßige, zyklische Schwankung innerhalb eines Jahres - Restkomponente Rt = zufälliger, unsystematischer Einfluss auf die Werte einer Zeitreihe
Zu den Komponenten im Einzelnen: ¾ Trendkomponente Beim Trend sind Zunahme der Werte (Wachstum), Abnahme (Schrumpfung) oder Gleichbleiben (Stagnation) zu unterscheiden. Der Trend kann in linearer Form als Gerade vorliegen oder in nicht-linearer Form als quadratischer bzw. exponentieller Trend. Basis der Trendberechnung sind entweder Jahreswerte oder hinreichend viele Tages-, Monats- oder Quartalswerte. Der Trend steht für langfristige Einflussgrößen wie die Bevölkerungsentwicklung, den technischen Fortschritt oder das Verhalten von Konsumenten, Anbietern, Wählern etc. ¾ Konjunkturkomponente Ein Konjunkturzyklus erstreckt sich über einige wenige Jahre und kann mit den Schwingungen einer Sinuskurve verglichen werden.
17. Zeitreihenanalyse
243
Die Ursachenkomplexe dieser Komponente sind mit der Bezeichnung „Konjunktur“ beinahe selbsterklärend ausgedrückt: Nachfageschwankungen im Wirtschaftsleben sowie Auswirkungen dieser Schwankungen auf andere Wirtschaftsindikatoren, wie z.B. die Arbeitslosenquote und die Wachstumsraten des Bruttoinlandsprodukts. ¾ Glatte Komponente Bei kurz- und mittelfristigen Analysen kann nur schwer zwischen Trend und Konjunktur unterschieden werden. Daher werden beide Einflussgrößen zur „glatten“ Komponente zusammengefasst. Die glatte Komponente kann auch als „mittelfristiger Trend“ angesehen werden. ¾ Saisonkomponente Saisonale Einflüsse sind überwiegend auf Jahreszeiten und Wetter zurückzuführen. Aber auch institutionell bedingte, regelmäßig wiederkehrende Termine wie Quartalsbeginn, Steuertermine, Zahl der Feiertage im Monat etc führen zu Saisonschwankungen. ¾ Restkomponente Die Restkomponente fasst alle übrigen, nicht explizit genannten Einflussgrößen einer Zeitreihe zusammen. Die Restkomponente weist unregelmäßige, zufällige (positive oder negative) Werte auf und bezieht sich auf selten eintretende Einzelereignisse, wie z.B. Börsencrash, Ölkrise, politische Krisen. Zur Vereinfachung werden wir im Folgenden nur noch die drei Komponente Gt, St und Rt betrachten, da eine explizite Unterscheidung zwischen Trend und Konjunktur oft sehr schwierig und nur bei längerfristigen Zeitreihen sinnvoll ist. Die Grundlagen der Zeitreihenanalyse können besser anhand kürzerer Reihen aufgezeigt werden, bei denen die Komponente Gt für den „mittelfristigen“ Trend steht. Für viele praktische Fragestellungen ist diese Vorgehensweise völlig ausreichend und erspart die Einbeziehung komplizierter, theoretisch fundierter Konjunkturmodelle. x
Zeitreihenmodelle
Die einzelnen Komponenten einer Zeitreihe werden nach unterschiedlichen mathematischen Ansätzen verknüpft, den Zeitreihenmodellen. Wir unterscheiden das additive und das multiplikative Modell. Auch eine Kombination von additivem und multiplikativem Ansatz kann sinnvoll sein. Beim additiven Modell wird der Gesamtwert yt als Summe der einzelnen Komponenten dargestellt (Formel 17-1). Dies ist dann sinnvoll, wenn bei steigendem oder fallendem Trend die übrigen Komponenten in etwa konstant bleiben. Die Schwankungen – insbesondere saisonale oder konjunkturelle – haben hier im Zeitverlauf etwa gleichbleibend große Ausschläge.
Zweidimensionale deskriptive Statistik
244
Trifft diese Annahme nicht mehr zu und nehmen die Ausschläge z.B. bei steigendem Trend ebenfalls zu, wird das multiplikative Modell verwendet. Hier ist gemäß Formel (17-2) der Gesamtwert yt das Produkt der einzelnen Komponenten.
Zeitreihenmodell = Art der Verknüpfung einzelner Komponenten einer Zeitreihe
- additives Modell
(17-1)
yt = Gt + St + Rt
mit t = 1, 2 ... T
- multiplikatives Modell
(17-2)
x
yt = Gt . St . Rt
mit t = 1, 2 ... T
Grafische Darstellung der Zeitreihe
300
Umsatz in 1000 Euro
250
200
150
100
50 ADDITIV MULTIPLIKATIV
0 I/04 II/04 III/04IV/04 I/05 II/05 III/05IV/05 I/06 II/06 III/06IV/06
Quartal/Jahr
Abb. 17.1: Zeitreihen nach additivem und multiplikativem Modell
17. Zeitreihenanalyse
245
In der Grafik der Abb. 17.1 lassen sich die beiden Zeitreihenmodelle (17-1) und (17-2) durch die spezifischen Schwankungen gut voneinander unterscheiden. Im additiven Fall wird deutlich, dass die saisonalen Schwankungen um die glatte Komponente herum etwa gleich groß bleiben, während sie im multiplikativen Fall mit steigendem Trend zunehmen. Wir wollen in diesem Zusammenhang noch einmal auf die Besonderheiten der grafischen Darstellung einer Zeitreihe eingehen (siehe auch Kapitel 3). Zeitreihen werden in einem zweidimensionalen Diagramm (wie in Abb. 17.1) veranschaulicht. Ob zwei oder mehr Zeitreihen in einem Diagramm untergebracht werden können, hängt von der Klarheit der Darstellung sowie vom (einheitlichen) Maßstab und Niveau der Reihen ab. Hier kann auch mit zwei verschiedenen Achsen gearbeitet werden (siehe Abb. 17.15). Die Zeitachse wird üblicherweise mit sprechenden Angaben versehen und nicht mit den oben erwähnten „theoretischen“ Ausprägungen 1, 2 ...T. Die Äquidistanz (gleich große Abstände) der Zeitpunkte und die sinnvolle Wahl des Wertebereichs der Merkmalsachse sind ebenfalls zu beachten. Die grafische Darstellung ermöglicht eine erste „optische“ Analyse. So lässt die obige Abb. 17.1 einen deutlich steigenden Trend erkennen sowie eine regelmäßige „Saisonfigur“ mit einer Spitze im dritten Quartal und dem niedrigsten Wert im ersten Quartal. Es kann sich z.B. um den Umsatz eines Hotelbetriebs mit ausgeprägter Sommersaison handeln. x
Wahl des Zeitreihenmodells
Auch wenn bei bestimmten ökonomischen Zeitreihen das multiplikative Modell angezeigt ist, wollen wir im Folgenden nur den additiven Ansatz erörtern. Die Berechnungen und Interpretationen der Zeitreihenanalyse können anhand des additiven Models gut veranschaulicht werden. Aufwendige Rechentechniken des multiplikativen Ansatzes werden damit vermieden. Wir beschränken uns außerdem auf die Berechnung der beiden wichtigsten Komponenten einer Zeitreihe, der glatten Komponente und der Saisonkomponente. Zur Klärung weiterführender Fragen zu den anderen Komponenten sei auf die reichlich vorhandene Spezialliteratur verwiesen.
17.2 Glatte Komponente Zur Bestimmung der Zeitreihenkomponenten wollen wir wieder auf das Beispiel des Master-Projekts (siehe Kapitel 4) zurückgreifen: Der Inhaber eines Fortbildungsinstituts möchte sich ein Bild verschaffen über die Umsatzentwicklung einer Abteilung in den letzten drei Jahren. Dabei interessieren ihn saisonale Schwankungen ebenso wie der Trend und die Gesamtentwicklung des Umsatzes. Wir ermitteln die glatte Komponente zunächst mit der Regressionsanalyse, anschließend mit den gleitenden Durchschnitten.
Zweidimensionale deskriptive Statistik
246
17.2.1 Regressionsgerade Bei kurz- oder mittelfristigen Zeitreihen sowie bei Reihen, die einen linearen Trend erkennen lassen, kann die Trendkomponente (glatte Komponente) als Regressionsgerade berechnet werden. Der Verlauf des Umsatzes (in Tausend €, aus 12 Quartalen) einer Abteilung des Fortbildungsinstituts ist in der Arbeitstabelle der nachfolgenden Abb. 17.2 in der Spalte yt dargestellt.
i
t=ti
yt
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
127,0 108,0 105,0 143,0 150,0 129,0 116,0 163,0 179,0 166,0 155,0 195,0
Sum.
78
1736,0
yt y
-5,5 -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,5 5,5
(t i t )2 30,25 20,25 12,25 6,25 2,25 0,25 0,25 2,25 6,25 12,25 20,25 30,25
0,0
143,00
0,0
ti t
-17,7 -36,7 -39,7 -1,7 5,3 -15,7 -28,7 18,3 34,3 21,3 10,3 50,3
( y t y ) 2 ( t i t )( y t y ) 312,1 97,2 1344,4 165,0 1573,4 138,8 2,8 4,2 28,4 -8,0 245,4 7,8 821,8 -14,3 336,1 27,5 1178,8 85,8 455,1 74,7 106,8 46,5 2533,4 276,8
8938,7
902,0
Abb. 17.2: Arbeitstabelle Trendgerade
Wie die Arbeitstabelle erkennen lässt, machen wir uns die Erkenntnisse des Kapitels 15 zur Regressionsanalyse zunutze und übertragen diese Methode auf den Sachverhalt der Zeitreihe. ^
Die Regressionsgerade für den Trend lautet: y = a + bt. In der obigen Arbeitstabelle sehen wir, dass in der Zeitreihenanalyse anstelle der Variablen X (bei der Zusammenhangsanalyse) die Zeit t als unabhängige Variable verwendet wird. Die Analysevariable y hängt von der Zeit t ab. Die Variable t hat als Ausprägungen die ersten T natürlichen Zahlen (hier 1 bis 12), die behandelt werden wie die Ausprägungen einer Variablen X. So wird die Streuung von t berechnet, sowie die gemeinsame Abweichung für y und t. Die Berechnung der Parameter der Regressionsgeraden (Achsenabschnitt und Steigung) erfolgt analog zur Zusammenhangsanalyse in Kapitel 15. Die nachfolgenden Formeln (17-3) bis (17-5) zeigen, dass die Kovarianz der beiden Variablen Y und t benötigt (Formel: 17-4) und dass der Steigungskoeffizient b zur Berechnung des Achsenabschnittes a verwendet wird. Und das Bestimmtheitsmaß (als Quadrat des Korrelationskoeffizienten zwischen Y und t) dient zur Beurteilung der Güte der Anpassung der Trendgeraden.
17. Zeitreihenanalyse
247
Trendgerade - Achsenabschnitt
(17-3)
a
y bt
- Steigung
(17-4)
b
Vt y V 2t
- Bestimmtheitsmaß
(17-5)
B
r2
(
V ty V t .V y
)2
Für unser Beispiel führen die Formeln zu folgendem Ergebnis: Achsenabschnitt a:
1736,0 / 12 – 6,3077 . 78 / 12
Steigung b:
902,0 / 12 : 143 / 12 = 902,0 / 143 =
Bestimmtheitsmaß r2: 902,0 2 / 143 . 8938,7 = 0,6365
= 103,67
=
6,31 63,65 %.
Hinweis: An der Formel für b erkennen wir, dass man die Division durch n im Zähler und im Nenner herauskürzen könnte und damit einen Quotienten zweier Summen erhalten würde. Häufig findet man in Lehrbüchern alternativ oder ergänzend entsprechende Formeln. Das Bestimmtheitsmaß von lediglich ca. 64% verdeutlicht, dass um den linearen Trend herum „deutliche“ Schwankungen vorliegen. In unserem Fall handelt es sich um starke Saisonschwankungen. In einem zweiten Beispiel (siehe Abb. 17.5) wollen wir mit Jahreswerten arbeiten, die in der praktischen Statistik häufiger als Quartalswerte für die Berechnung von Trendgeraden verwendet werden. x
Trendgerade mit SPSS
Die Berechnung der Regressionsgeraden erfolgt in SPSS über den SPSS-Dialog: Analysieren - Regression – Kurvenanpassung.
Zweidimensionale deskriptive Statistik
248
Hier können die Koeffizienten berechnet und die Einzelwerte der Geraden in der Auswertungsdatei abgespeichert werden. Mit diesen Werten lässt sich, zusammen mit der Originalzeitreihe, über das Menü Grafiken – Linie – Mehrfach die folgende Grafik erstellen.
Umsatz in 1000 Euro
200
180
160
140
120
Umsatz Linear (Umsatz)
6 II/ 06 III /0 IV 6 /0 6
I/0
I/0
4 II/ 04 III /0 IV 4 /0 4 I/0 5 II/ 05 III /0 IV 5 /0 5
100
Quartal/Jahr
Abb. 17.3: Zeitreihe mit linearem Trend
Die Berechnungsergebnisse der Koeffizienten werden automatisch zusammen mit einer Signifikanzprüfung ausgegeben; zum Signifikanztest siehe Abschnitt 26.5.
Nicht standardisierte Koeffizienten B Standardfehler
Modell (Konstante) Quartal/Jahr
103,667 6,308
11,094 1,507
Standardi sierte Koeffizien ten Beta
,798
T
9,345 4,185
Signifikanz
,000 ,002
Abb. 17.4: Regressionsparameter mit SPSS
Wir wollen die Ausgangswerte und die Trendgerade in der grafischen Darstellung von Abb. 17.3 zusammenfassend analysieren. Wir erkennen einen (linearen) Aufwärtstrend, eine deutliche „Saisonfigur“ mit überdurchschnittlichen Umsätzen in den „Winterquartalen“ 1 und 4 sowie unterdurchschnittlichen Werten in den Sommerquartalen 2 und 3. Die Nachfrage nach Fortbildungsveranstaltung ist also offensichtlich saisonabhängig. Der Wachstumstrend des Umsatzes zeigt nach oben.
17. Zeitreihenanalyse
249
Auch mit EXCEL können die Koeffizienten berechnet werden, wobei dort mit dem Funktions-Assistenten die Parameter ACHSENABSCHNITT und STEIGUNG für die Variablenlisten abgerufen werden. Auch die grafische Darstellung der Trendgeraden ist mit EXCEL (DiagrammAssistent, Linie) möglich. Hierzu müssen die Werte der Regressionsgeraden berechnet und als Variable in das Diagramm übernommen werden.
x Regressionsgerade bei Jahreswerten Die Trendberechnung mittels einer Regressionsgeraden wird insbesondere bei Jahreswerten benötigt. Wir wollen hierfür als Beispiel das reale Bruttoinlandsprodukt BIP der Bundesrepublik Deutschland von 2000 bis 2010 heranziehen (Quelle: Statistisches Bundesamt 2011).
Jahr
t=ti
yt
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
1 2 3 4 5 6 7 8 9 10 11
2062,5 2088,1 2088,1 2083,5 2108,7 2124,6 2196,2 2254,5 2276,8 2169,3 2247,7
Sum.
66
23700,0
(t i t )2
yt y
( y t y)2
-5,0 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0 5,0
25,00 16,00 9,00 4,00 1,00 0,00 1,00 4,00 9,00 16,00 25,00
-92,0 -66,5 -66,5 -71,0 -45,8 -30,0 41,6 100,0 122,3 14,8 93,2
8472 4418 4418 5042 2102 898 1731 9995 14945 219 8680
460,2 265,9 199,4 142,0 45,8 0,0 41,6 200,0 366,7 59,2 465,8
0,0
110,00
0,0
60920
2246,7
ti t
( t i t )( y t y )
Abb. 17.5: Trendberechnung für das Bruttoinlandsprodukt BIP
Die Spalte yt gibt das jährliche Bruttoinlandsprodukt in Mrd. € (in Preisen von 2000) an. Für die Parameter der Trendgeraden erhalten wir: a = 2032,00 und b = 20,42. Als Bestimmtheitsmaß resultiert 75,3%. Die Regressionsgerade stellt eine gute Schätzung für die Trendkomponente dar. Die Anpassung ist besser als oben bei den Quartalswerten, allerdings wegen des historischen Ausreißers (Rezession durch die Welt-Finanzkrise im Jahr 2009) niedriger als erwartet. Abb. 17.6 auf der nächsten Seite zeigt die Originalwerte der Zeitreihe und die dazugehörige Trendgerade. Ein (einfacher) Prognosewert für 2011 kann durch Anwendung der Regressionsgeraden berechnet werden und lautet 2.277,04 Mrd. € (= 2.032 + 12 . 20,42); siehe Verlängerung der Geraden bis 2011.
250
Zweidimensionale deskriptive Statistik
2300
2250
2200
2150
BIP real
2100
Linear (BIP real)
2050
2000 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
Abb. 17.6: Trendgerade für Jahreswerte des Bruttoinlandsprodukts (BIP)
x
Autokorrelation der Residuen
Wir wollen noch einen Aspekt der Beurteilung von Regressionsgeraden ergänzen, der von SPSS angeboten wird und von praktischer Bedeutung ist.
Abb. 17.7: Güte der Modellanpassung mit SPSS
SPSS gibt in der Modellzusammenfassung in Abb. 17.7 die Durbin-WatsonStatistik (DW-Koeffizient) an. Dieser Koeffizient beurteilt die Autokorrelation der Residuen (= Differenzen zwischen Regressionsgerade und Ursprungswerten). Die Analyse der Autokorrelation geht davon aus, dass die Folge von Größe und Vorzeichen der Residuen zufällig sein kann (= keine Autokorrelation), oder dass bei den Residuen immer bestimmte Vorzeichenfolgen nacheinander auftreten: + + + - - (= positive Autokorrelation) bzw. + - + - + - (negative Autokorrelation). Der DWKoeffizient beträgt 0 bei positiver Autokorrelation der Residuen, 2 bei keiner und 4 bei negativer Autokorrelation. In unserem Fall tendiert die Reihe zu keiner Autokorrelation (DW = 1,655). Für weitere Anwendungsfragen: siehe Spezialliteratur zur Zeitreihenanalyse oder Ökonometrie.
17. Zeitreihenanalyse
251
17.2.2 Gleitende Durchschnitte Bei langfristigen Zeitreihen sowie bei Reihen, die einen erkennbaren oder erfahrungsgemäß „nicht-linearen“ Gesamtverlauf haben, sind die gleitenden Durchschnitte als Berechnungsmethode der glatten Komponente angezeigt. Typische Beispiele sind: der Verlauf der Arbeitslosigkeit in Deutschland in der zweiten Hälfte des zwanzigsten Jahrhunderts oder die Börsenkurse in Zeiten großer Einbrüche – wie z.B. im Sommer 1998 – und einer anschließenden Erholung. Auch bei Reihen mit „unterjähriger“ Gliederung, wie unserem obigen Beispiel der Quartalswerte, werden sehr häufig die gleitenden Durchschnitte verwendet. Sie sind deshalb besser geeignet als die Regressionsgerade, weil sie auch bei nichtlinearem Verlauf eine gute Schätzung für die glatte Komponente liefern. Außerdem sind die gleitenden Durchschnitte bei einer linearen glatten Komponente ebenfalls nahezu linear, so dass man bei ihrem Einsatz unabhängig vom Kurvenverlauf immer auf der „sicheren“ Seite ist. Gleitende Durchschnitte sind Mittelwerte benachbarter Beobachtungswerte einer Zeitreihe. Diese Mittelwerte werden sukzessive für alle Einzelwerte berechnet und „gleiten“ damit über die Reihe hinweg. Bei der Berechnung der gleitenden Durchschnitte muss unterschieden werden, ob eine gerade Anzahl von Werten in die Berechnung einbezogen wird oder eine ungerade Anzahl. Dies hängt wesentlich davon ab, ob eine „natürliche“ Länge dieses Stützbereiches vorliegt, wie z.B. 4 bei Quartalen oder 7 bei Wochentagen etc. Wir verwenden die folgenden Formeln, wobei wir uns exemplarisch auf Durchschnitte 3. und 4. Ordnung beschränken wollen:
Gleitende Durchschnitte - gleitende Durchschnitte ungerader Ordnung (hier: 3. Ordnung)
(17-6)
yt
y t 1 y t y t 1 3
- gleitende Durchschnitte gerader Ordnung (hier: 4. Ordnung)
(17-7)
yt
0,5 y t 2 y t 1 y t y t 1 0,5 y t 2 4
Andere gleitende Durchschnitte gerader oder ungerader Ordnung werden analog den Formeln (17-6) und (17-7) gebildet, wobei die jeweils festgelegte Anzahl von
Zweidimensionale deskriptive Statistik
252
benachbarten Werten entsprechend diesen Formeln in die Durchschnittsberechnung einzubeziehen ist. Die gleitenden Durchschnitte müssen der Periode in der Mitte des Stützzeitraums zugeordnet werden. Dies führt zu einem Nachteil der gleitenden Durchschnitte: Am Rand der Zeitreihe gehen Werte verloren! Wir können diesen Nachteil mit einem Näherungsverfahren, der lokalen Regression, ausgleichen. Hierbei wird eine Regressionsgerade für den Stützbereich des gleitenden Durchschnitts berechnet, was insbesondere am aktuellen Ende einer Reihe von Interesse ist. Bei einer geraden Anzahl von Werten im Stützbereich muss die Gewichtung in Formel (17-7) berücksichtigt werden. Die Berechnung der gleitenden Durchschnitte nach Formel (17-7) sieht für die ersten beiden Werte unseres Beispiels (siehe Abb. 17.2) wie folgt aus: _ y3 = 1/4 (127,0 / 2 + 108,0 + 105,0 + 143,0 + 150,0 / 2) = 494,5 / 4 = 123,625 _ y4 = 1/4 (108,0 / 2 + 105,0 + 143,0 + 150,0 + 129,0 / 2) = 516,5 / 4 = 129,125.
Umsatz in 1000 Euro
200
180
160
140 Umsatz Gltd.Ds.(4)
120
Linear (Umsatz)
I/0
4 II/ 04 III /0 IV 4 /0 4 I/0 5 II/ 05 III /0 IV 5 /0 5 I/0 6 II/ 06 III /0 IV 6 /0 6
100
Quartal/Jahr
Abb. 17.8: Gleitende Durchschnitte und Trendgerade
Die grafische Darstellung in Abb. 17.8 verdeutlicht den Unterschied zwischen Regressionsgerade und gleitenden Durchschnitten. Wir sehen, dass die Regressionsgerade eine zu starke (lineare) Glättung vornimmt. Den „Bauch“ der glatten Komponenten – offensichtlich bedingt durch den sehr niedrigen Wert im Quartal III/98 – erfassen die gleitenden Durchschnitte dagegen sehr gut.
17. Zeitreihenanalyse
253
Dies verdeutlicht eine grundsätzliche Eigenschaft der gleitenden Durchschnitte. Sie glätten zwar den Verlauf einer Zeitreihe, passen sich aber bestimmten Schwankungen an. Das ist dann wichtig, wenn in einer Zeitreihe eine Trendwende (vom Wachstum zur Schrumpfung oder umgekehrt) vorliegt. Hier ist die Regressionsgerade nicht mehr zur Trendberechnung geeignet, es sei denn, man nimmt eine Aufteilung in zwei Zeiträume (vor und nach der Trendwende, dem sog. Strukturbruch) vor und berechnet zwei Regressionsgeraden. Diesen Aufwand vermeidet man durch die Verwendung gleitender Durchschnitte. Wir wollen hier zur Ergänzung eine EXCEL-Tabelle mit Grafik heranziehen. Die gleitenden Durchschnitte sind eine typische Anwendung der „gleitenden“ Formelzuweisung für die Felder einer EXCEL-Tabelle.
200 190 180
Umsatz
170 160 150 140
Umsatz Gl.Ds.(3) Gl.Ds.(4)
130 120 110 100 0
1
2
3
4
5
6
7
8
9
Zeit t
t
yt
1 2 3 4 5 6 7 8 9 10 11 12
127,00 108,00 105,00 143,00 150,00 129,00 116,00 163,00 179,00 166,00 155,00 195,00
Gl.Ds.(3)
Gl.Ds.(4)
113,333 118,667 132,667 140,667 131,667 136,000 152,667 169,333 166,667 172,000
123,625 129,125 133,125 137,000 143,125 151,375 160,875 169,750
Abb. 17.9: Gleitende Durchschnitte 3. und 4. Ordnung
10
11
12
13
Zweidimensionale deskriptive Statistik
254
Da es sich hier um Quartalsdaten handelt, sind die gleitenden Durchschnitte 4. Ordnung angezeigt. In Abb. 17.9 sind diese Werte sowie – aus Vergleichsgründen – auch die gleitenden Durchschnitte 3. Ordnung dargestellt. Wir sehen, dass bei letzteren die Glättung nicht so deutlich ausfällt. Die Formeln (17-6) und (17-7) lassen sich im Übrigen anhand der Ergebnisse in Abb. 17.9 nachvollziehen. Grundsätzlich gilt: Je größer die Anzahl der Reihenglieder im gleitenden Durchschnitt ist, desto stärker fällt die Glättung aus. Und aus methodischer Sicht sei angemerkt: Die gleitenden Durchschnitte sind mathematisch gleichbedeutend mit einer lokalen Regressionsschätzung für die benachbarten Reihenwerte. x
Gleitende Durchschnitte mit EXCEL und SPSS
In EXCEL können wir die gleitenden Durchschnitte als Formel selbst eingeben und in einer Tabelle anwenden. Oder wir rufen über die Analyse-Funktionen den Berechnungsschritt Gleitender Durchschnitt auf. In SPSS ist über den Dialog Transformieren – Zeitreihen erstellen die Berechnung der gleitenden Durchschnitte möglich.
17.3 Saisonkomponente und Restkomponente Weitere Schritte der Zeitreihenanalyse sind die Berechnungen der saisonalen Komponente und der Restkomponente, die in Abb. 17.10 gezeigt werden.
t
j
i
yt
gt
1 2 3 4 5 6 7 8 9 10 11 12
1 1 1 1 2 2 2 2 3 3 3 3 Summe
1 2 3 4 1 2 3 4 1 2 3 4
127,0 108,0 105,0 143,0 150,0 129,0 116,0 163,0 179,0 166,0 155,0 195,0
123,63 129,13 133,13 137,00 143,13 151,38 160,88 169,75
di 1. Qu. 2. Qu. 3. Qu. 4. Qu.
-18,63
st
-23,25 12,37 17,12 -6,25 -23,25 11,62 12,37 17,12 -6,25
13,87 16,87 -8,00 -27,13 18,12 -3,75
34,99 -11,75 -45,76 si 17,50 si(norm) 17,12
Abb. 17.10: Berechnung der Saisonkomponente
-5,88 -22,88 -6,25 -23,25
rt
4,62 1,50 -0,25 -1,75 -3,88 -0,75 1,00 2,50
25,49 12,75 => Su 12,37 => Su
1,49 0,00
17. Zeitreihenanalyse
255
Die Saisonkomponente erfasst regelmäßige Schwankungen während eines Jahres, die sich untereinander ausgleichen. Daher wird als Bedingung vorgegeben, dass die Summe der Saisonwerte pro Jahr gleich 0 sein soll. Die Berechnung der Saisonkomponente geht von einer ersten, vorläufigen Größe aus, die anschließend zu normieren ist. Als unerklärter Rest ergibt sich nach Berechnung der Saisonkomponente die Restkomponente. Die Ermittlung von Saison- und Restkomponente umfasst folgende Arbeitsschritte:
Ermittlung von Saison- und Restkomponente (1) Trendberechnung (2) Berechnung der vorläufigen Saisonkomponente (3) Normierung der Saisonkomponente (4) Ermittlung der Restkomponente
Im Einzelnen bedeutet dies für die Quartalswerte unseres Beispiels: (1) Trendberechnung Die Komponente gt wird nach einer der beiden Methoden aus Abschnitt 17.2 berechnet. (2) Berechnung der vorläufigen Saisonkomponente Die Differenz di zwischen Beobachtungswert yt und glatter Komponente gt ist die vorläufige Saisonkomponente für die einzelnen Saisonzeitpunkte i=1, 2, 3 und 4. (3) Normierung der Saisonkomponente Die vorläufigen Werte der Saisonkomponente als Ergebnisse von Schritt 2 weisen meistens in der Summe nicht den Wert 0 auf. Die Saisonwerte gleichen sich untereinander nicht aus. Zur Normierung wird nun von den vorläufigen Werten ihr Durchschnitt abgezogen. Dies führt (wie in Kapitel 11 die Standardisierung) zu einer Gesamtsumme der Saisonwerte von 0. Die Ergebnisse der Normierung werden den einzelnen Zeitpunkten (hier: Quartale) zugeordnet. (4) Ermittlung der Restkomponente Die Restkomponente ergibt sich durch die Berechnung: Beobachtungswert minus glatte Komponente minus Saisonkomponente.
Zweidimensionale deskriptive Statistik
256
Für unser Beispiel in Abb. 17.10 bedeutet dies:
(1) Trendberechnung Siehe Berechnung der gleitenden Durchschnitte in Abschnitt 17.2.2.
(2) Berechnung der vorläufigen Saisonkomponente -18,63 = 105,00 – 123,63 13,87 = 143,00 – 129,13
(3) Normierung der Saisonkomponente - Berechnung der Summen pro Quartal: 34,99, -11,75 ... - Berechnung des Durchschnitts für jedes Quartal: 17,50, -5,88 ... (Die Summen müssen durch zwei geteilt werden, da jeweils die Werte aus zwei Jahren vorliegen.) - Berechnung der Summe der vorläufigen Saisonwerte: 1,49 - Berechnung des Durchschnitts pro Quartal: 0,37 = 1,49 / 4. - Ermittlung des normierten Saisonwerts: 17,12 = 17,50 – 0,37 -6,25 = -5,88 – 0,37 ... (Achtung Rundungsdifferenzen!) Die Werte der normierten Saisonkomponenten werden in Spalte st eingetragen.
(4) Ermittlung der Restkomponente 4,62 = 105,00 – 123,63 – (-23,25) 1,50 = 143,0 – 129,13 – (12,37) ...
17.4 Saisonbereinigung Saisonbereinigung bedeutet, die Differenz zwischen dem Beobachtungswert und der Saisonkomponente zu berechnen. Anhand des Ergebnisses kann die Entwicklung „ohne Einfluss“ der Saisonschwankungen aufgezeigt und beurteilt werden. Wir wollen die Saisonbereinigung – alternativ zu den obigen Berechnungen – auf Basis der Trendgerade vornehmen, die auch die Einbeziehung der Prognoserechnung (siehe Abschnitt 17.5) ermöglicht.
17. Zeitreihenanalyse
257
Als Arbeits- und Ergebnistabelle ergibt sich eine ähnliche Darstellung wie oben. Wir erkennen in Abb. 17.11 einen entscheidenden Vorteil der Regressionsanalyse. Alle Werte der Zeitreihe können mit einem Wert für die glatte Komponente versehen werden, was insbesondere am aktuellen Rand von Bedeutung ist. Auch sehen wir, dass die Saisonkomponente nicht normiert werden muss. Die Summe der Abweichungen von einer Regressionsgeraden ist immer gleich 0!
t
j
i
yt
gt
1 2 3 4 5 6 7 8 9 10 11 12
1 1 1 1 2 2 2 2 3 3 3 3 Summe
1 2 3 4 1 2 3 4 1 2 3 4
127,0 108,0 105,0 143,0 150,0 129,0 116,0 163,0 179,0 166,0 155,0 195,0
110,0 116,3 122,6 128,9 135,2 141,5 147,8 154,1 160,4 166,7 173,1 179,4
di
st 1. Qu. 2. Qu. 3. Qu. 4. Qu. 17,00 16,80 -8,30 -7,17 -17,60 -22,50 14,10 12,87 14,80 16,80 -12,50 -7,17 -31,80 -22,50 8,90 12,87 18,60 16,80 -0,70 -7,17 -18,10 -22,50 15,60 12,87 50,40 -21,50 -67,50 38,60
si 16,80 si(norm) 16,80
-7,17 -22,50 -7,17 -22,50
12,87 => Su 12,87 => Su
rt 0,20 -1,13 4,90 1,23 -2,00 -5,33 -9,30 -3,97 1,80 6,47 4,40 2,73 0,00 0,00
Abb. 17.11: Saisonbereinigung mit Regressionsgerade
Im Übrigen fallen die Werte der Saisonkomponente ähnlich hoch aus, wie bei der obigen Anwendung der gleitenden Durchschnitte (siehe Abb. 17.10). x
Berechnung der saisonbereinigten Werte
Als saisonbereinigte Werte für die ersten 5 Quartale erhalten wir: 110,20 = 127,0 – 16,8 115,17 = 108,0 – ( -7,17) 127,50 = 105,0 – (-22,5) 130,13 = 143,0 – 12,87 133,20 = 150,0 – 16,8.
Zweidimensionale deskriptive Statistik
258
Wir erkennen eine stetigere Entwicklung im Vergleich zur ursprünglichen Zeitreihe. Der Aufwärtstrend wird nicht mehr durch saisonale Schwankungen „gestört“. Für die praktische Interpretation ist die Frage von Bedeutung, welcher Umsatz ohne saisonale Schwankung vorhanden wäre. Die Saisonbereinigung ermöglicht hier eine saisonunabhängige Interpretation des jeweils aktuellen Umsatzergebnisses.
17.5 Prognose Ein wesentliches Ziel der Zeitreihenanalyse ist es, die Ergebnisse der Berechnung einzelner Komponenten für die Zukunft fortzuschreiben. Wir wollen die Trendkomponente extrapolieren und ebenso die Saisonkomponente. Der Ablauf der Prognoserechnung stellt sich wie folgt dar:
Prognose (1) Glatte Komponente prognostizieren (2) Saisonkomponente in Prognosebereich übernehmen (3) Zukünftige Beobachtungswerte „schätzen“
Wenn wir die Tabelle aus Abb. 17.11 für die Prognoserechnung verwenden, erhalten wir folgendes Ergebnis:
t 5 6 7 8 9 10 11 12 13 14 15 16
j i 2 1 2 2 2 3 2 4 3 1 3 2 3 3 3 4 4 1 4 2 4 3 4 4 Summe
yt 150,0 129,0 116,0 163,0 179,0 166,0 155,0 195,0 202,5 184,8 175,8 217,5
Abb. 17.12: Prognoserechnung
gt 135,2 141,5 147,8 154,1 160,4 166,7 173,1 179,4 185,7 192,0 198,3 204,6
1. Q. 2. Q. 3. Q. 4. Q.
0,00 0,00 0,00 0,00
st 16,80 -7,17 -22,50 12,87 16,80 -7,17 -22,50 12,87 16,80 -7,17 -22,50 12,87
yt - st 133,2 136,2 138,5 150,1 162,2 173,2 177,5 182,1 185,7 192,0 198,3 204,6
17. Zeitreihenanalyse
259
Wir haben zunächst die Trendgerade (mit der berechneten jährlichen Steigung von 6,3) für die Perioden 13 bis 16 extrapoliert. Außerdem wurden die ermittelten Saisonwerte aus dem Beobachtungszeitraum in den Prognosezeitraum übertragen (siehe Spalte st). Die Prognosewerte der glatten Komponente können wir auch als Prognose der saisonbereinigten Reihe auffassen (siehe letzte Spalte). Addieren wir schließlich die prognostizierten Werte von glatter und Saisonkomponente, so erhalten wir die Schätzungen für die Umsatzzahlen in der Spalte yt. Diese Prognosewerte (202,5 ff.) bringen den Aufwärtstrend und auch die saisonalen Schwankungen zwischen den Quartalen zum Ausdruck.
17.6 Exponentielle Glättung Ein weiteres Verfahren zur Glättung einer Zeitreihe und zur Berechnung von Prognosewerten ist die exponentielle Glättung. Hierbei wird durch Multiplikation der Werte einer Zeitreihe mit einem Glättungsfaktor D (zwischen 0 und 1) ein Gewichtungsschema angewandt, das den Werten der Reihe mit zunehmendem zeitlichen Abstand ein abnehmendes Gewicht verleiht.
Exponentielle Glättung - Allgemeine Formel f
(17-8)
yt
D ¦ (1 D )i y t i i 0
- Rekursivformel
(17-9)
yt
Dy t (1 D )y t 1
- Prognoseformel
(17-10)
y t 1
Dy t (1 D )y t
Die Rekursivformel (17-9) bringt zum Ausdruck, dass der exponentiell geglättete Wert aus dem beobachteten Wert der Zeitreihe yt (multipliziert mit der Konstanten D) und dem geglätteten Wert der Vorperiode (multipliziert mit 1-D) berechnet werden kann. Bei der praktischen Anwendung ist dann nur noch der Startwert zu bestimmen, wobei meist der tatsächliche Anfangswert der Reihe gewählt wird.
260
Zweidimensionale deskriptive Statistik
Eine Glättungskonstante D nahe 0 bedeutet eine geringe Gewichtung des aktuellen Werts und eine höhere Gewichtung aller Vergangenheitswerte. Entsprechend wird sich die geglättete Reihe stärker von der Beobachtungsreihe unterscheiden. Bei einer Glättungskonstanten D nahe 1 liegt der gegenteilige Effekt vor. Aktuelle Werte werden stärker gewichtet, und daher unterscheidet sich die geglättete Reihe nicht so stark von den Beobachtungswerten. x
Exponentielle Glättung mit SPSS und EXCEL
Das Verfahren der exponentiellen Glättung gehört nicht zur Standardausstattung des Statistikprogrammes SPSS. SPSS bietet aber das Spezialmodul TRENDS an, das zahlreiche Verfahren zur Zeitreihenanalyse beinhaltet. In EXCEL ist die Exponentielle Glättung standardmäßig enthalten und kann aufgerufen werden über den EXCEL-Dialog: Daten – Analyse-Funktionen – Exponentielles Glätten. Der Eingabebereich (Beobachtungswerte) und der Ausgabebereich (geglättete Werte) sowie der Glättungsparameter D sind anzugeben. ACHTUNG: Hier ist der Wert 1-D einzutragen! Bei den einzelnen Werten der geglätteten Reihe kann nach erfolgter Berechnung die Rekursivformel (17-9) durch Anklicken angezeigt werden. Wir wollen ein Berechnungsbeispiel für das Master-Projekt erörtern: Der Gesamtumsatz des Unternehmers für Fortbildungsveranstaltungen liegt für die letzten 10 Jahre (in Millionen €) vor. Es soll die Glättung der Reihe sowie die Berechnung eines Prognosewerts für das 11. Jahr vorgenommen werden. Die Berechnung mit dem o.g. EXCEL-Dialog ergibt die Tabelle 17.13, wobei alternativ die Glättungskonstanten 0,3 sowie 0,7 verwendet werden. Die Werte in der Spalte E.G.(0,3) ergeben sich – nach der Rekursivformel (17-9) – wie folgt: _ y2 = 160,0 (Startwert aus Periode 1) _ y3 = 0,3 . 190 + 0,7 . 160 = 169,0 _ y4 = 0,3 . 270 + 0,7 . 169 = 199,3 usw.
17. Zeitreihenanalyse
t
yt
1 2 3 4 5 6 7 8 9 10 11
160 190 270 240 240 300 320 380 310 390
E.G.(0,3)
E.G.(0,7)
160,0 169,0 199,3 211,5 220,1 244,0 266,8 300,8 303,5 329,5
160,0 181,0 243,3 241,0 240,3 282,1 308,6 358,6 324,6 370,4
261
Abb. 17.13: Exponentielles Glätten – Tabelle
Die nachfolgende Grafik 17.14 zeigt sehr deutlich, wie die beiden Verfahren mit D = 0,3 und D = 0,7 zu unterschiedlichen Verläufen und einem jeweils anderen Prognosewert führen. Ein zu kleines D ist offensichtlich weniger geeignet! Hier ist ggf. die exponentielle Glättung höherer Ordnung zu empfehlen (siehe Spezialliteratur zur Zeitreihenanalyse).
Umsatz in Millionen €
400 350 300 250
Umsatz
200
Exp.Glättung (0,7) Exp.Glättung (0,3)
150 100 0
1
2
3
4
5
6
7
Zeit t
Abb. 17.14: Exponentielles Glätten – Grafik
8
9
10
11
262
Zweidimensionale deskriptive Statistik
17.7 Einfache Berechnungen für Zeitreihen Neben den oben besprochenen Verfahren der Zeitreihenanalyse, die teilweise sehr rechenaufwendig sind, gibt es eine Reihe von Berechnungen für Zeitreihen, die – insbesondere in der praktischen Anwendung – einen ersten und unmittelbaren Eindruck der Entwicklung einer Zeitreihe vermitteln. x
Jahressummen aus Quartalswerten
Die Ausschaltung des Saisoneinflusses wird am leichtesten erledigt, wenn wir anstelle von „unterjährigen“ Daten (z.B. Monats- oder Quartalswerten) Summen für das einzelne Jahr berechnen und die entstehende Reihe untersuchen. Für die drei Jahre unseres Beispiels in Abb. 17.2 bekommen wir als Ergebnis: 483, 558 und 695. Insbesondere für Trendberechnungen und Konjunkturbetrachtungen ist die Beschränkung auf Jahreswerte sinnvoll. Einziges Problem hierbei ist, dass im praktischen Wirtschaftsleben oftmals Zeitreihen mit einer größeren Anzahl von Jahreswerten fehlen. x
Berechnung von jahresbezogenen Quartalsdurchschnitten
Ausgehend von den Jahreswerten können wir Quartalsdurchschnitte berechnen, die Auskunft darüber geben, was pro Quartal vorliegen müsste, wenn der Saisoneinfluss nicht vorliegen würde. Für die drei Jahre unseres Beispiels in Abb. 17.2 bekommen wir als Durchschnitt pro Quartal: 120,75 = 483 / 4 sowie 139,50 und 173,75. Ausgehend von diesen Werten kann nun jedes der vier Quartale eines Jahres dahingehend beurteilt werden, ob es einen über- oder unterdurchschnittlichen Wert aufweist. x
Berechnung von Vergleichswerten mit dem Vorjahresquartal
Die häufigste Form der Ausschaltung der Saisonkomponente in der Praxis ist die Berechnung von Vergleichswerten zum Vorjahresquartal. Für die Werte in Abb. 17.2 erhalten wir beispielsweise: 1. Quartal im 2.Jahr: 150 / 127 Ö +18,11%; 2. Quartal im 2.Jahr: 129 / 108 Ö +19,44%. Generell sind Vergleichswerte zum entsprechenden Zeitraum des Vorjahres geeignet, saisonunabhängige Vergleiche zu liefern.
17. Zeitreihenanalyse
263
17.8 Spezielle grafische Darstellungen Für Zeitreihen gibt es eine Reihe von speziellen Möglichkeiten der grafischen Darstellung. Wir wollen hier eine Form diskutieren, die von besonderem praktischen Nutzen ist: die Verwendung von zwei verschiedenen Maßstäben (links und rechts im Diagramm), um zwei Zeitreihen mit unterschiedlichem Niveau in einem Diagramm darstellen zu können. So kann es zum Beispiel sein, dass wir den Umsatz unseres Betriebes mit der Branche vergleichen wollen, die als Zusammenfassung vieler Betriebe meist wesentlich größere Werte aufweist. Das nachfolgende Beispiel zeigt, wie – in einem Diagramm – die Gleichförmigkeit der Entwicklung von Betrieb und Branche im ersten Teil der Zeitreihe und das „Abheben“ des Betriebsumsatzes im Vergleich zum Branchenumsatz im zweiten Teil veranschaulicht werden.
30000
25000
200
20000 150 15000 100 10000 50
5000
0
0 1
2
3
4
5
6
Umsatz des Betriebs
7
8
9
10 11 12
Umsatz der Branche
Abb. 17.15: Zeitreihen mit verschiedenen Maßstäben in einem Diagramm
Branchenumsatz in 1000 €
Betriebsumsatz in 1000 €
250
265
TEIL IV GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG
18. Zufallsexperiment und Wahrscheinlichkeit x Leitfragen
1) Auf welchen Zufallsexperimenten basiert die Wahrscheinlichkeitsrechnung? 2) Welche Bedeutung hat das Urnenmodell? 3) Was sind Ergebnisse und Ereignisse? 4) Welche unterschiedlichen Wahrscheinlichkeitsbegriffe gibt es? 5) Was sind typische Fragen der Kombinatorik?
18.1 Zufallsexperiment Begriff und Berechnung von Wahrscheinlichkeiten beruhen auf einem Zufallsexperiment, das bestimmte Kriterien erfüllen muss.
Zufallsexperiment Ein Zufallsexperiment ist ein Vorgang, - der gedanklich oder tatsächlich – unter gleichen Bedingungen – beliebig oft wiederholbar ist - der nach bestimmten Regeln durchgeführt wird und - dessen Ergebnis sich nicht mit Sicherheit vorhersagen lässt.
Typische Beispiele für Zufallsexperimente sind: das Werfen eines Würfels oder einer Münze, das Ziehen von Spielkarten aus einem Stapel oder von Kugeln aus einer Urne. Alle vier Beispiele erfüllen die obigen Kriterien.
Grundlagen der Wahrscheinlichkeitsrechnung
266
Das erste Kriterium trifft zu, da jedes der Experimente tatsächlich beliebig oft wiederholbar ist. Das zweite Kriterium bezieht sich auf die „technische“ Durchführung des Experiments: Würfel, Münze, Karten oder Kugeln dürfen nicht so manipuliert („gezinkt“) sein, dass das Ergebnis „sicher“ ist. Außerdem werden Würfel und Münze vor dem Werfen im Würfelbecher oder in der Hand geschüttelt, Spielkarten und Kugeln werden vor dem Ziehen gemischt. Und der Werfende oder Ziehende darf keinen „Einblick“ und keinen Einfluss auf den Ausgang des Zufallsexperiments haben. Und schließlich ist das dritte Kriterium erfüllt, nachdem jeweils mindestens zwei verschiedene Ergebnisse möglich sind (z.B. Kopf oder Zahl beim Münzwurf). Das Ziehen von Kugeln nach dem Urnenmodell kann als Referenzmodell für alle denkbaren Zufallsexperimente herangezogen werden. Wir müssen nur die jeweiligen Bedingungen und Regeln konkretisieren.
Urnenmodell (Ziehen von Kugeln) - Eigenschaften der Urne
Anzahl Kugeln, Art der Kugeln
- Ziehungsumfang
Anzahl der zu entnehmenden Kugeln
- Ziehungsvorschrift
mit Zurücklegen, ohne Zurücklegen
- Ergebnisdarstellung
mit Beachtung der Reihenfolge, ohne Beachtung der Reihenfolge
Die obigen Beispiele von Zufallsexperimenten als Urnenmodell zeigt Abb. 18.1:
Würfel
Münze
Skatspiel
Lottoziehung
6 1,2,3,4,5,6
2 Kopf, Zahl
32 Herz As, 10...
49 1, 2, ... 49
Ziehungsumfang Anzahl n
z.B. 2
z.B. 3
z.B. 8
z.B. 6
Ziehungsvorschrift
mit Zurücklegen
Beachtung der Reihenfolge
i.a. ohne
Urne - Anzahl N Kugeln - Art der Kugeln
mit Zurücklegen i.a. ohne
ohne Zurücklegen ohne
Abb. 18.1: Zufallsexperimente, übertragen auf das Urnenmodell
ohne Zurücklegen ohne
18. Zufallsexperiment und Wahrscheinlichkeit
267
Ein typisches Zufallsexperiment im Rahmen einer statistischen Analyse ist die Stichprobenziehung für die schließende Statistik (siehe Kapitel 23). Soll aus einer großen Anzahl von Elementen eine Zufallsstichprobe entnommen werden, verwendet man meist Zufallszahlen. Sie geben an, welche Elemente der Grundgesamtheit in die Stichprobe gelangen sollen. Diese Zufallszahlen hat man früher aus Tabellen entnommen, heute werden sie in der Regel von einem Computerprogramm geliefert. So können in EXCEL mit der Funktion ZUFALLSZAHL zufällige Werte zwischen 0 und 1 generiert und durch Multiplikation mit 10, 100 oder 1000 etc. in mehrstellige Zufallszahlen umgewandelt werden. Gleiches kann erreicht werden mit dem SPSS-Dialog: Transformieren – Berechnen – Uniform. In SPSS und auch in EXCEL können Zufallszahlen auf der Basis verschiedener Verteilungstypen (Gleichverteilung, Normalverteilung etc.) ausgegeben werden. Das Zufallsexperiment, das der Ermittlung gleichverteilter Zufallszahlen zugrunde liegt, kann als Urnenmodell für jede einzelne Zufallsziffer (zwischen 0 und 9) und damit für die Zufallszahl insgesamt aufgefasst werden. Daraus ergibt sich zum Beispiel das folgende Urnenmodell für eine dreistellige Zufallszahl, mit gleicher Wahrscheinlichkeit für jede Ziffer:
Ziehung einer dreistelligen Zufallszahl
Urne - Anzahl N Kugeln - Art der Kugeln
10 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
Ziehungsumfang Anzahl n
3
Ziehungsvorschrift
mit Zurücklegen
Beachtung der Reihenfolge
mit
Abb. 18.2: Zufallszahlen als Zufallsexperiment
Als Ergebnis dieses Zufallsexperiments entsteht eine Folge von dreistelligen Zufallszahlen, z.B. 326, 470, 291 usw.
268
Grundlagen der Wahrscheinlichkeitsrechnung
18.2 Ergebnisse und Ereignisse x
Vom Ergebnis zum Ereignis
Die möglichen Einzelergebnisse eines Zufallsexperiments sind die Basis bestimmter sachlich definierter Ergebnisse, die dann als Ereignisse bezeichnet werden. Wir wollen dies anhand des Würfelwurfs erörtern, bzw. anhand des dazugehörigen Urnenmodells (siehe Abb. 18.1).
Ergebnisse und Ereignisse (gezeigt am Würfelbeispiel) - Ergebnis = mögliches Resultat eines Zufallsexperiments (Augenzahl 1 oder 2 oder 3 usw.) - Ereignisraum, Ergebnismenge ( : ) = Menge aller möglichen Ergebnisse eines Zufallsexperiments (Ergebnismenge beim Würfel: { 1, 2, 3, 4, 5, 6 } ) - Ereignis (A) = Teilmenge des Ereignisraumes (z.B. ungerade Augenzahlen: 1, 3, 5) - Elementarereignis = Ereignis, das aus einem Element/Ergebnis besteht (z.B. die Augenzahl 5)
Bereits ein „einmaliger“ Würfelwurf genügt, um das Eintreten eines Ereignisses verifizieren zu können. Ein mehrelementiges Ereignis ist dann eingetreten, wenn mindestens eines seiner Ergebnisse, d.h. seiner Elementarereignisse, eingetreten ist. So erfüllt z.B. die Augenzahl 5 das Kriterium für das Ereignis A „Eine ungerade Augenzahl ist eingetreten.“
Die folgenden beiden Ereignisse sind von besonderem Interesse: ¾ Sicheres Ereignis : Wird ein Ereignis so definiert, dass es alle möglichen Ergebnisse eines Zufallsexperiments umfasst, dann tritt es mit Sicherheit ein. So ist beim Würfelwurf, das Ereignis : = „Natürliche Zahl zwischen 1 und 6“ das sichere Ereignis. Jeder Würfelwurf liefert ein Ergebnis, das zu diesem Ereignis gehört.
18. Zufallsexperiment und Wahrscheinlichkeit
269
¾ Unmögliches Ereignis Ø Das unmögliche Ereignis Ø entspricht der leeren Menge. Es enthält kein Ergebnis des Zufallsexperiments. x
Potenzmenge PM
Die Gesamtmenge aller möglichen Teilmengen einer Ergebnismenge wird als Potenzmenge bezeichnet. Sie stellt eine Zusammenstellung aller denkbaren Ereignisse dar. Beim Würfelbeispiel kann man alle ein-elementigen, alle zweielementigen Ereignisse etc. auflisten und zuletzt die sechs-elementige Ergebnismenge selbst angeben. Es ergeben sich bei N Elementen insgesamt 2N Ereignisse. Beim Würfel erhalten wir 26 = 64 Ereignisse als Bestandteile der Potenzmenge, einschließlich des unmöglichen Ereignisses als leerer Menge. x
Verknüpfung von Ereignissen
Die Ereignisse, die für ein Zufallsexperiment definiert werden, können entsprechend den mengentheoretischen Regeln miteinander verknüpft werden. Wir unterscheiden Produkt, Summe und Differenz von Ereignissen sowie komplementäre Ereignisse. Gehen wir von den folgenden drei Ereignissen des Würfelbeispiels aus: Ereignis A = die ungeraden Augenzahlen: { 1, 3, 5 } Ereignis B = Augenzahlen größer gleich 5: { 5, 6 } Ereignis C = Augenzahl 6: { 6 }
Die drei grundlegenden Verknüpfungsmöglichkeiten ergeben als Produkt A B = { 5 }
die Schnittmenge von A und B,
Summe A B = { 1, 3, 5, 6 } die Vereinigungsmenge von A und B, Differenz A – B = { 1, 3 }
die Menge A ohne die Elemente von B.
Das Komplementärereignis entspricht der Menge „außerhalb“ des ursprünglichen Ereignisses. In unserem Beispiel ist dies: A ¯ = : - A = { 2, 4, 6 }. Die geraden Zahlen sind das Komplementärereignis zu den ungeraden Zahlen. Schließlich ist noch der Begriff der disjunkten Ereignisse darzulegen. Dies sind Ereignisse, deren Schnittmenge leer ist. Die Ereignisse sind unvereinbar. Für das obige Beispiel gilt A C = { Ø } und damit haben A und C kein gemeinsames Element.
Grundlagen der Wahrscheinlichkeitsrechnung
270
Produkt, Differenz und Summe zweier Ereignisse können anhand der mit Pfeilen markierten Flächen in der folgenden Grafik nachvollzogen werden.
AB
1
A-B
5
6
3 A
B
AB
Abb. 18.3: Verknüpfung zweier Ereignisse A und B
Das Komplementärereignis stellt sich wie folgt dar:
2
4
A
1 3
A
5 6
Abb. 18.4: Ereignis und Komplementärereignis
:
18. Zufallsexperiment und Wahrscheinlichkeit
271
18.3 Wahrscheinlichkeit Der Begriff der Wahrscheinlichkeit basiert auf unterschiedlichen Konzeptionen. Wir wollen die drei wichtigsten Definitionen erörtern, - die statistische, - die klassische und - die axiomatische Wahrscheinlichkeit. x
Statistische Wahrscheinlichkeit
Die statistische Wahrscheinlichkeit knüpft an die in der deskriptiven Statistik verwendeten relativen Häufigkeiten an (vgl. Kapitel 6). Wir können in einem ersten Schritt diese Häufigkeiten auf das Zufallsexperiment übertragen, was beim Würfelbeispiel wie folgt zum Tragen kommt. Wir gehen von einem „echten“ Würfel aus. Dieser Würfel ist physisch so beschaffen, dass keine der 6 Seiten manipuliert ist. Jede Seite ist als Ergebnis gleich wahrscheinlich. Damit existiert für jede Augenzahl A auf dem Würfel eine absolute Häufigkeit f(A) von 1 und eine relative Häufigkeit h(A) von 1/6, die wir „intuitiv“ als Wahrscheinlichkeit des Auftretens einer Augenzahl bezeichnen. Wir interessieren uns nun für die Häufigkeit des Auftretens der Augenzahl 6 und werfen den Würfel z.B. 12mal. Tritt bei diesen 12 Versuchen (12-maliges Zufallsexperiment) dreimal die 6 auf, dann haben wir eine absolute Häufigkeit von 3 und eine relative Häufigkeit von 3/12 = 0,25 vor uns. Bei einer sehr großen Zahl von Versuchen wird diese relative Häufigkeit gegen die Wahrscheinlichkeit von 1/6 = 0,167 konvergieren. Die Wahrscheinlichkeit ist ein mathematischer Grenzwert der relativen Häufigkeit. Damit haben wir einen ersten Wahrscheinlichkeitsbegriff dargelegt, die „statistische Wahrscheinlichkeit“.
Statistische Wahrscheinlichkeit Die statistische Wahrscheinlichkeit P(A) ist derjenige Wert, bei dem sich die relative Häufigkeit h(A) bei einer zunehmenden Zahl von Zufallsexperimenten stabilisiert:
(18-1)
P(A) = lim h (A) nof
272
Grundlagen der Wahrscheinlichkeitsrechnung
Bei unserem Würfelexperiment kann es z.B. sein, dass zunächst bei insgesamt 6 Versuchen zweimal die 6 erscheint, was einer relativen Häufigkeit von 1/3 entspricht. Ermitteln wir bei 20 Versuchen die Häufigkeit von 1/4, dann könnten wir schon eine gewisse Annäherung an die Wahrscheinlichkeit von 1/6 beobachten. Bei dieser geringen Anzahl von Experimenten kann sich (vorübergehend) auch der gegenteilige Effekt einer weiter von 1/6 abweichenden Häufigkeit einstellen. Erst wenn die Zahl der Versuche sehr groß wird, können wir die Gesetzmäßigkeit der statistischen Wahrscheinlichkeit erkennen. Auch auf die übrigen der oben diskutierten Urnenmodelle kann der Begriff der statistischen Wahrscheinlichkeit angewandt werden: - Münze: Wir bezeichnen eine Seite einer Münze als „Zahl“ und kennen damit die Wahrscheinlichkeit von 1/2 = 0,5. Bei einer größeren Anzahl von Münzwürfen können wir durch Auszählen die relative Häufigkeit für Zahl ermitteln und werden – bei einer „echten“ Münze – eine Annäherung an 0,5 beobachten. - Skatspiel: Wir wissen, dass 8 von 32 Karten zur Farbe „Herz“ gehören, was einer Wahrscheinlichkeit von 8/32 = 0,25 entspricht. Bei einer großen Anzahl von zufälligen Zügen aus dem Kartenstapel wird sich die relative Häufigkeit für „Herz“ bei 1/4 stabilisieren. - Lottoziehung: 7 von 49 Kugeln tragen als Aufschrift eine durch 7 teilbare Zahl: 7, 14, ... 49. Die relative Häufigkeit des Auftretens einer durch 7 teilbaren Zahl wird bei einer großen Anzahl von Ziehungen gegen 1/7 konvergieren. x
Klassische (mathematische) Wahrscheinlichkeit
Der klassische Wahrscheinlichkeitsbegriff wurde vom französischen Mathematiker Laplace (1749 – 1827) geprägt. Dieser Begriff geht davon aus, dass alle Elementarereignisse einer Ergebnismenge gleich wahrscheinlich sind. Dann ergibt sich die Wahrscheinlichkeit durch einfache Quotientenbildung.
Klassische Wahrscheinlichkeit Die klassische oder mathematische Wahrscheinlichkeit ist der Quotient aus der Anzahl der für das Ereignis A günstigen Fälle und der Anzahl aller möglichen Fälle. «A «
(18-2)
P(A) =
______
«: «
18. Zufallsexperiment und Wahrscheinlichkeit
273
Auf die oben definierten Ereignisse A, B und C des Würfelbeispiels lässt sich dieser Wahrscheinlichkeitsbegriff wie folgt anwenden: P(A) = Anzahl ungerader Augenzahlen / Anzahl aller Augenzahlen = = 3/6 = 0,50 P(B) = Anzahl der Augenzahlen größer gleich 5 / Anzahl aller Augenzahlen = = 2/6 = 0,33 P(C) = Anzahl der Augenzahl 6 / Anzahl aller Augenzahlen = = 1/6 = 0,17. x
Axiomatische Wahrscheinlichkeit
Ausgehend von einigen mathematischen Schwächen und Problemen der Messung bei den obigen Wahrscheinlichkeitsbegriffen wurde die axiomatische Wahrscheinlichkeit entwickelt. Sie basiert auf den drei Axiomen des russischen Statistikers Kolmogoroff aus dem Jahre 1933. Hier wird eine Funktion P vorausgesetzt, die jedem beliebigen Ereignis A eines Zufallsexperiments eine reelle Zahl P(A) zuordnet.
Axiomatische Wahrscheinlichkeit (nach Kolmogoroff) - Axiom 1 Jedem Ereignis A ist eine reelle Zahl größer gleich 0 und kleiner gleich 1 zugeordnet, die Wahrscheinlichkeit P(A) heißt. (18-3)
0 d P(A) d 1
- Axiom 2 Die Wahrscheinlichkeit für das sichere Ereignis ist gleich 1. (18-4)
P(:) = 1
- Axiom 3 Die Wahrscheinlichkeit für das Vereinigungsereignis A B zweier disjunkter Ereignisse ist die Summe der beiden Wahrscheinlichkeiten. (18-5)
P(A B) = P(A) + P(B), wenn A B =
274
Grundlagen der Wahrscheinlichkeitsrechnung
Diese Axiome definieren eine Maßzahl P(A) als nicht-negativ (18-3) und zwischen 0 und 1 normiert (18-4), wobei P(A) die Eigenschaft der Additivität (18-5) besitzt. Auch hier können wir das Würfelbeispiel und die oben diskutierten Verknüpfungen von Ereignissen heranziehen, wobei wir von der klassischen Ermittlung der Wahrscheinlichkeit ausgehen. - Axiom 1: P(A) = 3/6 = 0,5, eine reelle Zahl zwischen 0 und 1. Hinweis: In der Praxis werden Wahrscheinlichkeiten häufig in % angegeben, d.h. im vorliegenden Fall: 50%. Damit liegt die Wahrscheinlichkeit zwischen 0% und 100%. - Axiom 2: P(:) = 6/6 = 1,0. Die Wahrscheinlichkeit für das Auftreten des sicheren Ereignisses einer Zahl zwischen 1 und 6 ist 1 oder 100%. - Axiom 3: P(A C) = P(A) + P(C) = 3/6 + 1/6 = 4/6. Die Wahrscheinlichkeit für die Vereinigung der beiden disjunkten Ereignisse A und C ist die Summe der beiden Einzelwahrscheinlichkeiten. Hinweis: Dieses Axiom gilt definitionsgemäß nicht für unsere beiden Ereignisse A und B, die als nicht-disjunkte Ereignisse ein gemeinsames Element aufweisen! x
Bedingte Wahrscheinlichkeit
Eine weitere elementare Wahrscheinlichkeit entsteht dadurch, dass als Bedingung das Eintreten eines Ereignisses vorausgesetzt wird.
Bedingte Wahrscheinlichkeit Eine bedingte Wahrscheinlichkeit P(A «B) gibt die Wahrscheinlichkeit für das Ereignis A an, unter der Bedingung, dass B bereits eingetreten ist. (18-6)
P(A|B) = P(A B) / P(B)
Damit wird die Anzahl der möglichen Ereignisse von B zur Bezugsgröße, und wir dividieren die Mächtigkeit der Menge A B durch die Mächtigkeit der Menge B. Gehen wir wieder vom Würfelbeispiel aus. Wir definieren das Ereignis B „Ungerade Zahlen“ und das Ereignis A „Augenzahl 5“. Damit ergibt sich als bedingte
18. Zufallsexperiment und Wahrscheinlichkeit
275
Wahrscheinlichkeit für A unter der Bedingung B 1/3. Wenn wir wissen, dass die drei möglichen Ergebnisse 1, 3, 5 (aus Ereignis B) eingetreten sind, dann ist – unter dieser Bedingung – die Wahrscheinlichkeit für A = 1/3 = 1/6 / 1/2.
18.4 Regeln der Wahrscheinlichkeitsrechnung Auf der Basis der bisherigen Definitionen und Axiome können einige wichtige Regeln für die Wahrscheinlichkeitsrechnung abgeleitet werden, die wir als Grundregeln (1), Regeln für die Multiplikation (2) und Regeln für die totale Wahrscheinlichkeit (3) betrachten wollen.
Regeln der Wahrscheinlichkeitsrechnung (1) - Wahrscheinlichkeit des unmöglichen Ereignisses (18-7)
P() = 0
- Wahrscheinlichkeit des Komplementärereignisses (18-8)
P(A ¯ ) = 1 – P(A)
- Additionssatz für beliebige Ereignisse (18-9)
P(A B) = P(A) + P(B) – P(A B)
Regel (18-7) bedeutet für unser Würfelbeispiel, dass die Wahrscheinlichkeit für die leere Menge (z.B. für das unmögliche Ereignis, dass die Zahl 7 gewürfelt wird) gleich 0 ist. Die Regel (18-8) kann im Würfelbeispiel auf die geraden Zahlen bezogen werden, die das Komplementärereignis zu den ungeraden Zahlen sind. Wir erhalten 0,5 als Komplementärwahrscheinlichkeit 1 – 0,5. Nach Regel (18-9) bedeutet die Addition zweier Ereignisse A und B, die nicht disjunkt sind, für unsere beiden Würfel-Ereignisse A und B: P(A B) = P(A) + P(B) – P(A B) = 3/6 + 2/6 – 1/6 = 4/6. Das Vereinigungsereignis besteht aus den vier Elementen 1, 3, 5 und 6. Das Ereignis „5“ aus der Schnittmenge wird nur einmal gezählt!
Weitere Regeln beziehen sich auf die multiplikative Verknüpfung von Ereignissen.
Grundlagen der Wahrscheinlichkeitsrechnung
276
Regeln der Wahrscheinlichkeitsrechnung (2) - Multiplikationssatz für beliebige Ereignisse (18-10)
.
.
P(A B) = P(A) P(B¨A) = P(B) P(A¨B)
- Multiplikationssatz für unabhängige Ereignisse (18-11)
.
P(A B) = P(A) P(B)
Für die Erörterung dieser Regeln wollen wir ein Beispiel aus dem Master-Projekt heranziehen: Von den Teilnehmern eines Fortbildungsseminars sind 60% der Teilnehmer männlich (Ereignis A) und 40% weiblich (Ereignis A ¯ ). X% der Teilnehmer beantworten die Frage, ob sie mit dem Seminar zufrieden sind, mit ja (Ereignis B). Wir stellen die Verknüpfung von Ereignissen (zu verstehen wie zwei statistische Variablen) in Form eines Wahrscheinlichkeitsbaumes dar. x
Beliebige Ereignisse
0 0,6
0,4
A
0,9
B
A ¯
0,1
0,8
0,2
B ¯
B
B ¯
Abb. 18.5: Wahrscheinlichkeitsbaum bei beliebigen Ereignissen
Wir sehen in Abbildung 18.5 insgesamt drei Verteilungen. Zunächst die Verteilung des Ereignisses „Geschlecht“ mit den beiden Wahrscheinlichkeiten 0,6 und 0,4, dann die beiden Verteilungen des Ereignisses „Zufriedenheit“ mit 0,9 und 0,1 bei den männlichen sowie 0,8 und 0,2 bei den weiblichen Teilnehmern. Die letzten vier Zahlen sind bedingte Wahrscheinlichkeiten. Die Wahrscheinlichkeit dafür,
18. Zufallsexperiment und Wahrscheinlichkeit
277
dass ein Teilnehmer zufrieden ist, beträgt unter der Bedingung, dass er männlich ist, 0,9 (= Wahrscheinlichkeit P(B¨A)) etc. Bereits dieser erste Vergleich von Verteilungen verdeutlicht, dass der Grad der Zufriedenheit bei männlichen und weiblichen Teilnehmern nicht gleich ist, dass also die beiden Ereignisse nicht unabhängig sind. Wir können für die insgesamt vier Zweige des Wahrscheinlichkeitsbaumes die dazugehörigen Wahrscheinlichkeiten berechnen. Es handelt sich jeweils um die Wahrscheinlichkeit des Produkts zweier Ereignisse nach Regel (18-10): P(A B) = P(A) . P(B¨A) = 0,6 . 0,9 = 0,54 P(A B ¯ ) = P(A) . P(B ¯ ¨A) = 0,6 . 0,1 = 0,06 P(A ¯ B) = P(A ¯ ) . P(B¨A ¯ ) = 0,4 . 0,8 = 0,32 P(A ¯B ¯ ) = P(A ¯ ) . P(B ¯ ¨A ¯ ) = 0,4 . 0,2 = 0,08 __________________________________ Summe 1,00
Die Summe der vier Wahrscheinlichkeiten ist die Wahrscheinlichkeitsmasse von 1 für das zweidimensionale Ereignis „A , B“ in seinen vier Ausprägungen. x
Unabhängige Ereignisse
Wir gehen jetzt von folgenden Wahrscheinlichkeiten – für andere Seminarteilnehmer als oben – aus:
0 0,6
0,4
A
A ¯
0,9
0,1
B
B ¯
0,9
B
0,1
B ¯
Abb. 18.6: Wahrscheinlichkeitsbaum bei unabhängigen Ereignissen
278
Grundlagen der Wahrscheinlichkeitsrechnung
Wir erkennen, dass die beiden bedingten Verteilungen in der zweiten Ebene gleich sind. Offensichtlich ist die Beurteilung des Seminars unabhängig davon, ob ein Teilnehmer männlich bzw. weiblich. Zunächst nehmen wir auch für diesen Fall die Berechnungen nach Regel (18-9) vor: P(A B) = P(A) . P(B¨A) = 0,6 . 0,9 = 0,54 P(A B ¯ ) = P(A) . P(B ¯ ¨A) = 0,6 . 0,1 = 0,06 P(A ¯ B) = P(A ¯ ) . P(B¨A ¯ ) = 0,4 . 0,9 = 0,36 P(A ¯B ¯ ) = P(A ¯ ) . P(B ¯ ¨A ¯ ) = 0,4 . 0,1 = 0,04 __________________________________ Summe 1,00
Nun lässt sich zusätzlich die Wahrscheinlichkeit für das Ereignis B (Zufriedenheit) errechnen. Es ist die Summe der ersten und dritten Wahrscheinlichkeit, die Summe der Wahrscheinlichkeiten für B jeweils „in Kombination“ mit der Bedingung männlich (Ereignis A) und weiblich (Ereignis A ¯ ). Wir erhalten: P(B) = 0,54 + 0,36 = 0,90. Damit lässt sich auch die Gültigkeit der obigen Regel (18-11) zeigen: P(A B) = P(A) . P(B) = 0,6 . 0,9 = 0,54 Die unbedingte Wahrscheinlichkeit für die „Zufriedenheit“ P(B) von 0,9 ist identisch mit der bedingten Wahrscheinlichkeit P(B¨A) = 0,9 bzw. P(B¨A ¯ ). Allgemein gilt, dass zwei Ereignisse dann unabhängig sind, wenn die Regel (1811) zur Anwendung kommt! Abschließend eine ergänzende Verallgemeinerung der obigen Berechnungen:
Regeln der Wahrscheinlichkeitsrechnung (3) - Satz der totalen Wahrscheinlichkeit von Bayes Wenn ein Ereignisraum aus zwei (oder mehr) Ereignissen B1, B2 ... besteht und zusätzlich ein beliebiges Ereignis A definiert wird, dann gilt als totale Wahrscheinlichkeit (18-12)
P(A) = P(A¨B1) . P(B1) + P(A¨B2) . P(B2) + ...
18. Zufallsexperiment und Wahrscheinlichkeit
279
Um die Anwendung des Satzes der totalen Wahrscheinlichkeit von Bayes (aus dem Jahre 1763) zu zeigen, passen wir zunächst die allgemeingültige Symbolik mit beliebig vielen Ereignissen B1, B2 ... an unser Beispiel an. Setzen wir B1 gleich B und B2 gleich B ¯ , dann lässt sich Regel (18-12) in einer leicht modifizierten Form darstellen: P(A) = P(A¨B) . P(B) + P(A¨B ¯ ) . P(B ¯ ). Inhaltlich können wir diese Formel wie folgt lesen: Die Wahrscheinlichkeit für das Ereignis A (männlich) ist die Summe der beiden bedingten Wahrscheinlichkeiten für männlich (Bedingung B zufrieden bzw. B ¯ unzufrieden). Dabei werden die bedingten Wahrscheinlichkeiten mit der Wahrscheinlichkeit für zufrieden bzw. unzufrieden multipliziert. Wir wollen – der Einfachheit halber – die Berechnung nur für den obigen Fall der Unabhängigkeit vornehmen. Die beiden bedingten Wahrscheinlichkeiten für männlich sind jeweils gleich den unbedingten Wahrscheinlichkeiten von 0,6. Als Berechnung ergibt sich damit: P(A) = 0,6 . 0,9 + 0,6 . 0,1 = 0,54 + 0,06 = 0,6. Damit erkennen wir, dass die Wahrscheinlichkeit nach dem Satz der totalen Wahrscheinlichkeit dadurch entsteht, dass zwei (bedingte) Wahrscheinlichkeiten „gewichtet“ addiert werden (Summe der „Gewichte“ 0,9 und 0,1 = 1,00). x
Kreuztabelle für verknüpfte Ereignisse
Abschließend ist noch eine wichtige Form der Darstellung für die diskutierten Verknüpfungen von Ereignissen zu ergänzen, die Kreuztabelle. Die Kreuztabelle hatten wir schon im Rahmen der deskriptiven Statistik kennengelernt (siehe Kapitel 16). Wir übertragen sie jetzt auf die Betrachtung von Wahrscheinlichkeiten.
Zufriedenheit Geschlecht
A A
männlich weiblich Summe
ja
nein
B
B
0,54
0,06
0,60
0,36
0,04
0,40
0,90
0,10
1,00
Summe
Abb. 18.7: Kreuztabelle für verknüpfte Ereignisse
Die Kreuztabelle enthält Randwahrscheinlichkeiten und Wahrscheinlichkeiten für die kombinierten Ausprägungen. Wir erkennen in Tabelle 18.7, dass – wegen der vorliegenden Unabhängigkeit – die Zellenwahrscheinlichkeiten als Produkte der Randwahrscheinlichkeiten zustande kommen.
280
Grundlagen der Wahrscheinlichkeitsrechnung
18.5 Kombinatorik Weitere Grundregeln der Wahrscheinlichkeitsrechnung ergeben sich, wenn wir die Möglichkeiten der Kombination bestimmter Ergebnisse auf der Basis des Urnenmodells eines Zufallsexperiments erörtern. Hierfür benötigen wir einige neue Begriffe und Definitionen, insbesondere die Fakultät (siehe auch Anhang A2.4).
Fakultät n! Die Fakultät n! einer Zahl n ist das Produkt (18-13)
n! = n . n-1 . n-2 . ...
.
2 .1
mit 0! = 1
Die Anwendung dieser mathematischen Funktion bezieht sich in der Statistik meist auf die Anzahl der Anordnungen für eine Zahl von n Elementen. Dazu das folgende Beispiel: Im Regal eines Einzelhändlers sollen die 5 Warenarten A, B, C, D, und E in den vorhandenen 5 Reihen untergebracht werden. Im Zusammenhang mit der Überlegung, welche Warenart in welcher Reihe die meiste Aufmerksamkeit auf sich lenkt, stellt sich die Frage, wie viele Möglichkeiten der Anordnung es überhaupt gibt. Die Anzahl der Anordnungen wird in der Statistik als Anzahl von Permutationen bezeichnet, die wie folgt definiert sind:
Permutationen - n verschiedene Elemente Die Anzahl der Anordnungen von n verschiedenen Elementen beträgt (18-14)
n!
- n Elemente mit k Kategorien Die Anzahl der Anordnungen von n Elementen mit k Kategorien (mit jeweils n1, n2, ... nk Elementen je Kategorie) beträgt (18-15)
n! n1!... nk !
18. Zufallsexperiment und Wahrscheinlichkeit
281
Zunächst wollen wir das Ergebnis für die 5 Warenarten berechnen und erörtern: 5! = 5 . 4 . 3 . 2 . 1 = 120. Dieses Ergebnis der Permutationen (Formel 18-14) lässt sich leicht nachvollziehen, wenn wir uns die Möglichkeiten der Anordnungen für jeden Platz (Reihe im Regal) vorstellen. Für die erste Reihe können alle 5 Warenarten ausgewählt werden, für die zweite Reihe die verbleibenden 4, für die dritte Reihe die übrigen 3 usw.
1. Reihe
2. Reihe
3. Reihe
4. Reihe
5. Reihe
A
B C D E
C D E
D E
E
A C D E
B D E
B
C E
C A B D E
D E
__________________________________________________________________
5
.
4
.
3
.
2
.
1
Abb. 18.8: Permutationen für 5 Elemente
Wenn nun die n Elemente in k Kategorien aufgeteilt sind (z.B. in k=2 Farben), dann reduziert sich die Anzahl der möglichen Anordnungen (siehe Formel (18-15). Wir wollen ein Beispiel wählen, das folgende Frage beantworten soll: Wie groß ist die Anzahl der Anordnungen von 5 Elementen, von denen 3 rot (R) und 2 schwarz (S) sind? Gemäß der Formel (18-15) ergeben sich 5! / 3! . 2! = 120 / 6 . 2 = 10 Möglichkeiten. Es fallen (durch Division) die 3! Möglichkeiten innerhalb der ersten Kategorie und die 2! Möglichkeiten innerhalb der zweiten Kategorie weg, die bei Verschiedenheit aller Elemente noch vorlagen. Damit können wir alle 10 Möglichkeiten darstellen: R R R S S R R S R S R R S S R
R S R R S R S R S R R S S R R
S R R S R S R S R R S R R R S.
S S R R R
282
Grundlagen der Wahrscheinlichkeitsrechnung
Eine ähnliche Fragestellung ergibt sich, wenn wir k Elemente mit einer bestimmten Eigenschaft auf n Plätzen anordnen wollen und uns die Anzahl der Möglichkeiten interessiert. Hierfür verwenden wir den Binomialkoeffizienten (siehe auch Anhang A2.4).
Binomialkoeffizient Die Anzahl der Anordnungen von k Elementen der Eigenschaft A auf n Plätzen ist:
(18-16)
§n· ¨¨ ¸¸ ©k ¹
n! (n k )! k!
n(n 1)(n 2)...(n k 1) 1 2 ... k
Betrachten wir als Beispiel die Anzahl der möglichen Anordnungen von k=3 weißen Kugeln auf n=5 Plätzen. Dazu müssen wir zusätzlich annehmen, dass 2 Kugeln (= n–k) die Eigenschaft „nicht-weiß“ besitzen. Nach Formel (18-16) erhalten wir – wie beim obigen Beispiel der roten und schwarzen Elemente zu Formel (18-15) – insgesamt 10 Möglichkeiten, d.h. es resultiert auch hier: 5! / 3! . 2! = 120 / 6 . 2 = 10 Der Binomialkoeffizient erweist sich als ein Spezialfall der Permutationen mit zwei Eigenschaften (binomial!). Auf der Basis der jetzt abgeleiteten Begriffe können wir die Kombinationen definieren und die jeweilige Anzahl von Möglichkeiten diskutieren.
Kombinationen Werden aus einer statistischen Gesamtheit mit n Elementen k Elemente herausgegriffen, dann erhält man Kombinationen k-ter Ordnung. Hierbei ist zu unterscheiden zwischen der Ziehungsvorschrift mit/ohne Zurücklegen sowie der Ergebnisdarstellung mit/ohne Beachtung der Reihenfolge.
Wir wollen die Möglichkeiten am Beispiel einer Urne mit insgesamt vier Kugeln und einer Ziehung von 2 Kugeln erörtern. Zunächst zu den Formeln:
18. Zufallsexperiment und Wahrscheinlichkeit
283
KOMBINATIONEN (k aus n Elementen) mit Beachtung der Reihenfolge
mit Zurücklegen
(18-17)
ohne Zurücklegen
(18-19)
nk
ohne Beachtung der Reihenfolge
(18-18)
n! (n k )!
(18-20)
§ n k 1· ¨¨ ¸ k ¸¹ © §n· ¨¨ ¸¸ ©k ¹
Bezeichnet man die Kugeln mit den Zahlen 1 bis 4, ergeben sich die folgenden Kombinationen:
1 2 3 4
1 11 21 31 41
1 1 2 3 4
21 31 41
m.Z.
m.R.
2 12 22 32 42
3 13 23 33 43
o.Z.
m.R.
2 12
3 13 23
32 42
43
4 14 24 34 44
4 14 24 34
1 2 3 4
m.Z.
o.R.
2 12 22
3 13 23 33
o.Z.
o.R.
2 12
3 13 23
1 11
1 1 2 3 4
4 14 24 34 44
4 14 24 34
Abb. 18.9: Kombinationen bei einer Ziehung von 2 aus 4 Kugeln
Wir haben 4 . 4 = 16 Möglichkeiten vor uns, wenn wir mit Zurücklegen ziehen und die Reihenfolge beachten. Beim Übergang auf das Modell ohne Zurücklegen fallen die Diagonalelemente weg und es verbleiben 12 Möglichkeiten. Ziehen wir mit Zurücklegen und beachten die Reihenfolge nicht, dann ergeben sich 10 Möglichkeiten. Und schließlich existieren nur 6 Möglichkeiten, wenn ohne Zurücklegen und ohne Beachtung der Reihenfolge gezogen wird. Diese 6 Fälle sind durch die Verschiedenheit aller Ergebnisse gekennzeichnet. Besonders wichtig für die späteren Verteilungen und Methoden sind der Fall m.Z./m.R. und der Fall o.Z./o.R.
284
19. Zufallsvariablen und ihre Verteilungen x Leitfragen
1) Welche Eigenschaften kennzeichnen eine Zufallsvariable? 2) Wie unterscheiden sich diskrete und stetige Zufallsvariablen? 3) Wie kommen wir zur Wahrscheinlichkeitsverteilung von Zufallsvariablen? 4) Welche Lage- und Streuungsparameter werden verwendet?
19.1 Zufallsvariable Führen wir eine statistische Analyse in Verbindung mit Wahrscheinlichkeiten durch, dann verwenden wir eine Variable, die – ähnlich wie das „Merkmal“ in der deskriptiven Statistik – eine inhaltliche Zielsetzung mit einer mathematischen Definition verbindet. Auf der Basis eines tatsächlichen oder gedachten Zufallsexperiments ergibt sich eine mathematische Größe, die wir Zufallsvariable nennen.
Zufallsvariable = Funktion, die jedem Ergebnis eines tatsächlichen oder gedachten Zufallsexperiments eindeutig eine reelle Zahl zuordnet
Bereits beim einfachen Würfelexperiment liegt diese Funktion vor, auch wenn wir sie im Allgemeinen nicht explizit formulieren. Es gilt hier die Aussage: Dem Ausgang des Zufallsexperiments „Würfel zeigt die Augenzahl 1 an“ wird die reelle Zahl 1 zugeordnet, Augenzahl 2 entspricht der reellen Zahl 2 usw. Eine ähnlich einfache Zufallsvariable liegt vor, wenn wir der Augenzahl 6 einen Gewinn von 1 € (reelle Zahl: +1) zuordnen, der Augenzahl 1 einen Verlust von 1 € (Zahl: –1) und den übrigen Augenzahlen einen Gewinn von 0 € (Zahl: 0).
19. Zufallsvariablen und ihre Verteilungen
x
285
Zufallsvariable und Zufallsexperiment
Wie stellen wir uns das Zufallsexperiment vor, das einer Zufallsvariablen zugrunde liegt? Drei verschiedene Varianten sind denkbar: ¾ Tatsächliches Zufallsexperiment Es wird – gemäß den Definitionen in Kapitel 18 – ein tatsächliches Zufallsexperiment durchgeführt. Dann können wir jedem definierten Ereignis eine reelle Zahl zuordnen und erhalten eine Zufallsvariable. Beispiele sind - Münzwurf: „Kopf“ entspricht der Zahl 1, „Zahl“ entspricht der Zahl 0 - Würfelwurf: „gerade Augenzahl“ entspricht der Zahl 1, „ungerade Augenzahl“ entspricht der Zahl 2 - Lottoziehung: vier Richtige entsprechen einem Gewinn von a €, fünf Richtige entsprechen b €, sechs Richtige € usw. ¾ Gedachtes Zufallsexperiment Hier stellen wir uns bezüglich einer Variablen, die analog den deskriptiven Merkmalen bzw. Variablen (siehe Kapitel 5) definiert ist, ein Zufallsexperiment vor. Beispiele sind - Variable „Geschlecht“ bei den Teilnehmern eines Seminars: Wir stellen uns vor, wir würden aus 20 Teilnehmern einen Teilnehmer zufällig auswählen. Es entsteht die Zufallsvariable „Geschlecht“, deren Ausprägungen „männlich“ bzw. „weiblich“ wir die reellen Zahlen 0 bzw. 1 zuordnen können. - Notenverteilung bei einer Klausur: Um von einer Zufallsvariablen und nicht nur von einer deskriptiven Variablen sprechen zu können, stellen wir uns vor, dass alle Klausuren auf einem Stapel liegen. Wir greifen „zufällig“ in diesen Stapel und können dann mehrere Zufallsvariablen definieren: Punktzahl, Note, Semesterzahl des Teilnehmers etc. - Altersverteilung in der Bevölkerung: Die tatsächliche Altersverteilung der Bevölkerung eines Landes liegt als deskriptive Statistik vor. Wenn wir eine beliebige Person zufällig herausgreifen und nach ihrem Alter fragen, fassen wir dies als Zufallsexperiment auf und haben die Zufallsvariable „Alter“ vor uns. Jede reelle Zahl zwischen 0,00 und z.B. 105,00 Jahren ist als Realisation der Zufallsvariablen möglich. ¾ Zufallsstichprobe Eine Zufallsvariable erhalten wir immer dann, wenn wir aus einer Grundgesamtheit (z.B. alle Wähler eine Großstadt) eine Zufallsstichprobe ziehen (z.B. über Telefonnummern, die als Zufallszahlen konstruiert sind). Das Ergebnis „Befragter würde heute Partei A wählen“ (verschlüsselt mit 1) ist dann die Ausprägung der Zufallsvariablen „Aktuelle Wahlabsicht“.
286 x
Grundlagen der Wahrscheinlichkeitsrechnung
Eigenschaften der Zufallsvariablen
Als wichtige Konsequenz der Definition von Zufallsvariablen ist zu beachten, dass jede Zufallsvariable eine quantitative Variable und damit mit Zahlen beschreibbar ist. So können auch ursprünglich qualitative Variablen durch die Zuordnung von Zahlen (siehe oben männlich/weiblich oder Wahl der Partei A/B...) zu Zufallsvariablen werden. Dies bedeutet, dass (aus mathematischen Gründen) bei qualitativen Variablen eine Verschlüsselung mit Zahlen vorliegen muss, um die nachfolgenden Eigenschaften von Zufallsvariablen anwenden zu können. Die Zufallsvariable besitzt einen Definitionsbereich, einen Wertebereich und einzelne Werte, d.h. Ausprägungen.
Definitionsbereich, Wertebereich und Werte von Zufallsvariablen - Definitionsbereich
Ergebnismenge des Zufallsexperiments
- Wertebereich
Menge der reellen Zahlen
- Werte
Einzelne Ausprägungen des Wertebereichs
Eine weitere wichtige Unterscheidung besteht zwischen diskreten und stetigen Zufallsvariablen.
Diskrete und stetige Zufallsvariablen - diskrete Zufallsvariable
abzählbar endlich oder unendlich viele Werte
- stetige Zufallsvariable
überabzählbar unendlich viele Werte
Nach dieser Definition können wir die obigen Beispiele leicht zuordnen: -
Geschlecht = diskrete Zufallsvariable (mit den beiden Werten 0 und 1)
-
Mitarbeiterzahl von Betrieben = = diskrete Zufallsvariable (mit den Werten 1, 2, 3 ...)
-
Alter = stetige Zufallsvariable (mit unendlich vielen Werten zwischen 0,00 und 105,00 Jahren).
19. Zufallsvariablen und ihre Verteilungen
287
19.2 Verteilungen diskreter Zufallsvariablen Werden den Werten einer diskreten Zufallsvariablen einzelne Wahrscheinlichkeiten zugeordnet, entsteht eine Wahrscheinlichkeitsfunktion. Die Zuordnung erfolgt ähnlich wie in der deskriptiven Statistik bei der relativen Häufigkeitsverteilung.
Wahrscheinlichkeitsfunktion Die Wahrscheinlichkeitsfunktion einer Zufallsvariablen X gibt die Wahrscheinlichkeit dafür an, dass die Zufallsvariable genau den Wert xj annimmt:
(19-1)
f(x) = P(X=x) =
^
pj für x = xj , j = 1,2 ... m 0 sonst
Gemäß den in Kapitel 18 definierten Axiomen der Wahrscheinlichkeitsrechnung liegt jeder Wert von f(x) zwischen 0 und 1 und die Summe aller Werte von f(x) ist gleich 1. Wir wollen die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen anhand eines Beispiels erörtern, das noch einmal den Übergang vom Zufallsexperiment zur Zufallsvariablen verdeutlicht. Im Rahmen einer Diplomprüfung schreiben die Studenten in einem Semester drei Klausuren. Aus langjähriger Erfahrung sind die Durchfallquoten der drei Klausuren mit 20%, 30% und 40% bekannt. Eine Student möchte wissen, wie hoch unter diesen Annahmen seine Chancen sind, alle drei Klausuren zu bestehen. Für diese Fragestellung definieren wir die Zufallsvariable „Anzahl der bestandenen Prüfungen“ und leiten ihre einzelnen Werte sowie die Wahrscheinlichkeiten ab. Dabei ist die Darstellung in Form eines Wahrscheinlichkeitsbaumes hilfreich. Wir fassen die Situation als „dreistufiges“ Zufallsexperiment auf und gehen von der Unabhängigkeit der drei Experimente aus. Wir definieren die folgenden Ereignisse: Ereignis A = „Klausur 1 bestanden“, Ereignis B = „Klausur 2 bestanden“, Ereignis C = „Klausur 3 bestanden“. Die Ereignisse für „nicht bestanden“ lauten damit A ¯, B ¯ und C ¯. Die letzten beiden Zeilen der nachfolgenden Abb. 19.1 sind die Grundlage der Wahrscheinlichkeitsverteilung der Zufallsvariablen X (Anzahl der bestandenen Prüfungen). Wir führen hierfür zunächst die Zufallsvariable als Zählvariable jedes Astes unseres Wahrscheinlichkeitsbaumes ein.
Grundlagen der Wahrscheinlichkeitsrechnung
288
Ganz links finden wir den Fall mit drei bestandenen Prüfungen, im mittleren Bereich die Anzahl von 1 bzw. 2 bestandenen Prüfungen (in allen möglichen Kombinationen). Ganz rechts sehen wir das Ereignis, dass keine Prüfung bestanden wurde. Die Zufallsvariable X nimmt dort den Wert 0 an.
0 0,8
0,2
A 0,7
0,3
B
0,6
A ¯
B ¯
0,4 0,6
0,4
0,6
0,7
0,3
B
B ¯
0,4 0,6
0,4
C
C ¯
C
C ¯
C
C ¯
C
C ¯
3
2
2
1
2
1
1
0 bestandene Prüfungen mit ...
0,096
0,084
0,056
0,336 0,224 0,144
0,036
0,024
Wahrscheinlichkeit
Abb. 19.1: Zufallsexperiment, Zufallsvariable und Wahrscheinlichkeitsverteilung
Die Wahrscheinlichkeiten der letzten Zeile ergeben sich durch jeweilige Multiplikationen der drei Einzelwahrscheinlichkeiten eines jeden Astes. Um nun gemäß Formel (19-1) eine Wahrscheinlichkeitsfunktion zu bilden, müssen wir die einzelnen Wahrscheinlichkeiten für 1 bzw. 2 addieren und erhalten damit:
f(x) = P(X=x) =
^
0,024 für x1 = 0 0,188 für x2 = 1 0,452 für x3 = 2 0,336 für x4 = 3 0 sonst
19. Zufallsvariablen und ihre Verteilungen
x
289
Verteilungsfunktion
Analog den kumulierten Häufigkeiten (vgl. Kapitel 6), können wir auch die einzelnen Wahrscheinlichkeiten einer diskreten Zufallsvariablen kumulieren und erhalten damit die Verteilungsfunktion.
Verteilungsfunktion Die Verteilungsfunktion F(x) gibt die Wahrscheinlichkeit an, mit der die Zufallsvariable X einen Wert kleiner oder gleich x annimmt.
F(x) = P(X d x) =
(19-2)
¦ f(x j )
x j dx
Für das obige Beispiel ergibt sich:
F(x) =
^
0,000 0,024 0,212 0,664 1,000
für x 0 für 0 d x 1 für 1 d x 2 für 2 d x 3 für x t 3
Wir haben fünf Wahrscheinlichkeiten vor uns, die jeweils für ein Intervall des Wertebereichs der Zufallsvariablen X gelten. Mit den Werten F(x) der Verteilungsfunktion können folgende Fragen beantwortet werden: - Wahrscheinlichkeit, höchstens 2 (also 0 oder 1 oder 2) Prüfungen zu bestehen: P(X d 2) = F(2) = 0,664, d.h. 66,4%. - Wahrscheinlichkeit mindestens 2 (also 2 oder 3) Prüfungen zu bestehen: P(X t 2) = 1 – P(X d 1) = 1 – F(1) = 1 – 0,212 = 0,788, d.h. 78,8%. Es ist jeweils zu beachten, ob ein einzelner Wert bei der Angabe eines Intervalls innerhalb oder außerhalb dieses Intervalls liegt. Entsprechend gilt: - Wahrscheinlichkeit weniger als 2 Prüfungen zu bestehen: P(X 2) = P(X d 1) = F(1) = 0,212, d.h. 21,2%.
Grundlagen der Wahrscheinlichkeitsrechnung
290 x
Grafische Darstellung von Wahrscheinlichkeits- und Verteilungsfunktion
Zur grafischen Darstellung von Wahrscheinlichkeits- und Verteilungsfunktion können wir auf die Methoden der deskriptiven Statistik zurückgreifen. Wir verwenden das Balkendiagramm und die Treppenfunktion, die für das obige Beispiel folgendes Aussehen haben (Grafiken erstellt mit SPSS):
Wahrscheinlichkeitsfunktion f(x)
0,500
0,400
0,300
0,200
0,100
0,000 ,00
1,00
2,00
3,00
X: Anzahl bestandener Prüfungen
Abb. 19.2: Wahrscheinlichkeitsfunktion als Balkendiagramm
1,0
Verteilungsfunktion F(x)
0,8
0,6
0,4
0,2
0,0
,00
1,00
2,00
3,00
X: Anzahl bestandener Prüfungen
Abb. 19.3: Verteilungsfunktion als Treppenfunktion
4,00
19. Zufallsvariablen und ihre Verteilungen
x
291
Berechnung von Wahrscheinlichkeiten auf Basis der Verteilungsfunktion
Auf Basis der Verteilungsfunktion lassen sich Wahrscheinlichkeiten für Intervalle einer diskreten Verteilung berechnen. Hierfür sind die folgenden drei Regeln von Bedeutung:
Wahrscheinlichkeitsberechnung mit der Verteilungsfunktion
(19-3)
P(X d b) = F(b)
(19-4)
P(X ! a) = 1 – F(a)
(19-5)
P(a X d b) = F(b) – F(a)
Für unser obiges Beispiel erhalten wir die folgenden Ergebnisse: -
P (X d 1) = F (1):
Die Wahrscheinlichkeit dafür, dass ein Teilnehmer „höchstens“ 1 Prüfung besteht (also entweder keine oder 1 Prüfung), beträgt 0,212, d.h. 21,2%. Diese kumulierte Wahrscheinlichkeit entspricht der Addition der beiden relevanten Wahrscheinlichkeiten: 0,024 + 0,188 = 0,212. -
P(X ! 2) = 1 – F(2):
Die Wahrscheinlichkeit dafür, dass ein Teilnehmer „mehr als“ 2 Prüfungen besteht (also 3 Prüfungen), beträgt 1 – 0,664 = 0,336, d.h. 33,6%. Die Wahrscheinlichkeit entspricht der Einzelwahrscheinlichkeit f(x) für X=3. -
P (1 d X d 2):
Die Wahrscheinlichkeit, mindestens 1 und höchstens 2 Prüfungen zu bestehen, ist P(X d 2) – P(X d 0) = F(2) – F(0) = 0,664 – 0,024 = 0,64, d.h. 64%. Diese Intervall-Wahrscheinlichkeit entspricht der Addition der beiden Einzelwahrscheinlichkeiten f(1) und f(2) = 0,188 + 0,452 = 0,64.
Grundlagen der Wahrscheinlichkeitsrechnung
292
19.3 Verteilungen stetiger Zufallsvariablen Bei stetigen Zufallsvariablen haben wir einen Wertebereich mit unendlich vielen Ausprägungen vor uns. Die Bedeutung dieser Zufallsvariablen liegt nicht in der Darstellung praktischer Wahrscheinlichkeitsverteilungen, sondern in der „Annäherung“ an praktische Verteilungen bzw. der Konstruktion von Verteilungen für theoretische Sachverhalte. So kann beispielsweise die Variable „Körpergröße“ in einer Bevölkerung – wegen der Vielzahl möglicher Ausprägungen (in cm, mm etc.) – als stetige Zufallsvariable aufgefasst werden. Als mathematische Funktionen für die Darstellung der Wahrscheinlichkeiten benötigen wir bei der stetigen Variablen die Dichtefunktion und die Verteilungsfunktion.
Verteilungs- und Dichtefunktion einer stetigen Zufallsvariablen - Verteilungsfunktion Die Verteilungsfunktion einer stetigen Zufallsvariablen X gibt die Wahrscheinlichkeit dafür an, dass die Zufallsvariable einen Wert kleiner oder gleich x annimmt. x (19-6) F(X) = P(X d x) = f (u)du
³
f
- Dichtefunktion Die Dichtefunktion ist der Differentialquotient der Verteilungsfunktion. Sie bildet den Verlauf der Wahrscheinlichkeiten einer stetigen Zufallsvariablen ab, ohne damit die Wahrscheinlichkeit selbst anzugeben.
(19-7)
f (x)
dF( x ) dx
- Wahrscheinlichkeiten bei stetigen Zufallsvariablen Bei stetigen Zufallsvariablen sind die Wahrscheinlichkeiten Flächeninhalte unterhalb der Dichtefunktion, d.h. Integrale eines Intervalls von a bis b. b
(19-8)
P(a X b) = P(a d X d b) = F(b) – F(a) =
³ f ( x)dx
a
19. Zufallsvariablen und ihre Verteilungen
x
293
Grafische Darstellung der stetigen Zufallsvariablen
Die Dichte- und Verteilungsfunktion einer stetigen Zufallsvariablen wollen wir anhand des Beispiels der Variablen „Körpergröße“ betrachten. Hierzu soll die grafische Darstellung in Abb 19.4 zeigen, dass - die durchschnittliche Körpergröße 170 cm beträgt, - die durchschnittliche Streuung (Standardabweichung) 10 cm ausmacht und - eine Verteilung in Form einer Glockenkurve vorliegt.
f(x) 0,05 0,04 0,03 0,02 0,01 0,00 140
150
160
170
180
190
200
X
Abb. 19.4: Dichtefunktion einer stetigen Zufallsvariablen
F(x) 1,00 0,80 0,60 0,40 0,20 0,00 140
150
160
170
180
190
200
X
Abb. 19.5: Verteilungsfunktion einer stetigen Zufallsvariablen
Grundlagen der Wahrscheinlichkeitsrechnung
294
Die Grafik der Verteilungsfunktion in Abb. 19.5 gibt die Symmetrie der Verteilung wieder, mit einem steileren Bereich großer Wahrscheinlichkeiten (in der Mitte) und einem flacheren Bereich geringer Wahrscheinlichkeiten (am Rand). Für die Berechnung von Wahrscheinlichkeiten gilt die folgende Darstellung:
f(x) 0,05 0,04 0,03 0,02
P(150 d X d 160)
0,01 0,00 140
150
160
170
180
190
200
X
Abb. 19.6: Wahrscheinlichkeiten bei stetigen Zufallsvariablen
Die Wahrscheinlichkeit, bei einer zufälligen Auswahl eines Elements aus dieser Gesamtheit eine Körpergröße von mindestens 150 cm und höchstens 160 cm vorzufinden, entspricht dem in Abb. 19.6 mit Pfeil markierten Flächeninhalt. Daraus folgt, dass die Wahrscheinlichkeit, z.B. exakt 150 cm vorzufinden, gleich 0 beträgt. Der dazugehörige Flächeninhalt ist gleich 0 ist. Dieses mathematisch richtige Ergebnis klingt zunächst unplausibel. Wir können uns aber vorstellen, dass das Messintervall „um die 150 cm“ im Laufe eines Experiments immer kleiner gemacht wird. Wir werden dann auch immer weniger Elemente finden, die in dieses Intervall gehören. Die relative Häufigkeit (und damit auch die Wahrscheinlichkeit) wird mit kleiner werdendem Intervall ebenfalls immer kleiner und geht insgesamt gegen 0. Umgekehrt ist es so, dass wir unter einer Größe von 150 cm in der praktischen Statistik z.B. ein Intervall von 149,50 bis 150,49 verstehen. Die Wahrscheinlichkeit für eine Realisation dieses Intervalls ist nun von 0 verschieden!
19.4 Lage- und Streuungsparameter Zufallsvariablen besitzen – ebenso wie für deskriptive Variablen – Lage- und Streuungsmaße. Die grundlegenden Formeln sind hierbei analog aufgebaut. Zu unterscheiden ist zwischen diskreten und stetigen Zufallsvariablen.
19. Zufallsvariablen und ihre Verteilungen
x
295
Lage- und Streuungsparameter diskreter Zufallsvariablen
Der Mittelwert einer diskreten Zufallsvariablen wird Erwartungswert genannt, und das wichtigste Streuungsmaß heißt – wie in der deskriptiven Statistik – Varianz.
Lage- und Streuungsparameter diskreter Zufallsvariablen - Erwartungwert
(19-9)
P
E( X)
¦ xf ( x )
- Varianz (19-10)
V2
V( X)
E>X E( X)@2
E( X 2 ) P 2
¦ ( x P )2 f ( x )
- Standardabweichung
(19-11)
V
V2
Formel (19-9) entspricht der Formel des arithmetischen Mittels in der deskriptiven Statistik (siehe Formel (8-11) in Kapitel 8). In der Wahrscheinlichkeitsrechnung multiplizieren wir aber die einzelnen Werte einer Zufallsvariablen mit den dazugehörigen Wahrscheinlichkeiten f(x). Bei der Varianz liegt ebenfalls eine Analogie zur deskriptiven Formel (9-12) vor. Wir berechnen die quadratische Abweichung zwischen den Werten der Zufallsvariablen und ihrem Erwartungswert und verwenden zur Gewichtung die Wahrscheinlichkeiten f(x). Als Beispiel wollen wir die obige Zufallsvariable X (Anzahl der bestandenen Prüfungen) aus Abschnitt 19.2 verwenden und von der dazugehörigen Wahrscheinlichkeitsfunktion ausgehen:
f(x) = P(X=x) =
^
0,024 für x1 = 0 0,188 für x2 = 1 0,452 für x3 = 2 0,336 für x4 = 3 0 sonst
Grundlagen der Wahrscheinlichkeitsrechnung
296
Damit ergibt sich für den Erwartungswert: E(X) = 0 . 0,024 + 1 . 0,188 + 2 . 0,452 + 3 . 0,336 = 2,1. Dies bedeutet, dass im Durchschnitt „zu erwarten“ ist, dass ein Student von diesen drei Prüfungen ca. 2 Prüfungen besteht. Für die Varianz ergibt sich: V(X) = (0 – 2,1)2 . 0,024 + (1 – 2,1)2 . 0,188 + (2 – 2,1)2 . 0,452 + (3 – 2,1)2 . 0,336= = 0,61. Als Standardabweichung und durchschnittliche Abweichung erhalten wir 0,78. Dies bedeutet, dass die Zufallsvariable X im Durchschnitt um +/- 0,78 Einheiten um 2,1 streut. x
Gewinnerwartung
Ein weiteres Beispiel für die Veranschaulichung des Erwartungswertes eines Zufallsvariablen ist die Gewinnerwartung bei einem Glücksspiel. Wir wollen uns hierzu einen zweimaligen Würfelwurf vorstellen mit folgenden Angaben: Zwei Münzen werden gleichzeitig geworfen. Ein Spieler erhält 2 €, wenn beide Münzen „Zahl“ anzeigen, er muss 1 € bezahlen, wenn einmal „Zahl“ erscheint. Beim verbleibenden Ereignis liegen weder Gewinn noch Verlust vor. Bei jedem Spiel sind 0,50 € einzusetzen. Sehen wir uns zunächst die möglichen Ergebnisse des Zufallsexperiments in der nachfolgenden Abb. 19.7 an:
2. Wurf 1. Wurf
K
Z
K
KK
KZ
Z
ZK
ZZ
Abb. 19.7: Ergebnisse beim zweimaligen Münzwurf
Wir können jetzt die Zufallsvariable X definieren, die die Anzahl des Auftretens von Zahl angibt. In Abb. 19.7 erkennen wir, dass für die erste Zelle links oben in der Tabelle 0-mal Zahl vorliegt. In der zweiten Zelle der ersten Zeile liegt 1-mal Zahl vor, ebenso in der ersten Zelle der zweiten Zeile. In der letzten Zelle rechts unten haben wir zweimal Zahl. Für die echte Münze ist bekannt, dass die Wahrscheinlichkeit für jede Seite der Münze jeweils 0,5 beträgt. Werfen wir zwei Münzen gleichzeitig, so entspricht das
19. Zufallsvariablen und ihre Verteilungen
297
einem zweimaligen Zufallsexperiment, wobei die Experimente unabhängig voneinander sind. Damit ergibt sich die folgende Wahrscheinlichkeitstabelle:
2. Wurf 1. Wurf
P(X1)
K
Z
K
0,25
0,25
0,50
Z
0,25
0,25
0,50
P(X2)
0,50
0,50
1,00
Abb. 19.8: Wahrscheinlichkeiten beim zweimaligen Münzwurf
Entsprechend den obigen Angaben können wir nun die Zufallsvariable G (Gewinn = Spielgewinn/-verlust – Einsatz) einführen und die Wahrscheinlichkeitsfunktion formulieren:
f(g) = P(G=g) =
^
0,50 für g1 = -1,50 (= -1 - 0,5) 0,25 für g2 = -0,50 (= 0 - 0,5) 0,25 für g3 = 1,50 (= 2 - 0,5) 0 sonst
Damit ergibt sich für den Erwartungswert E(G) = -1,50 . 0,50 + -0,50 . 0,25 + 1,50 . 0,25 = -0,50. Im Durchschnitt (einer großen Anzahl von Spielen) verliert der Spieler 0,50 €. Dieser Betrag verbleibt dem Spielveranstalter (Lotteriebetreiber) für seinen Betrieb, d.h. für Kostendeckung und Gewinn. x
Lage- und Streuungsparameter stetiger Zufallsvariablen
Bei stetigen Zufallsvariablen wird die Summenbildung durch die Berechnung eines Integrals ersetzt, was zu folgenden Formeln führt:
Lage- und Streuungsparameter stetiger Zufallsvariablen - Erwartungswert (19-12)
P
f
E( X)
³ xf ( x)dx
f
Grundlagen der Wahrscheinlichkeitsrechnung
298
- Varianz
(19-13)
V
2
f
V( X)
³ ( x P)
2
f ( x )dx
f
- Standardabweichung
(19-14)
V
V2
Für die Lage- und Streuungsmaße der in der praktischen Anwendung relevanten stetigen Zufallsvariablen liegen meist spezifische Formeln vor, was eine explizite Berechnung nach den Integralformeln unnötig macht. Daher können wir auch darauf verzichten, entsprechende Beispielwerte zu berechnen. x
Lineartransformationen von Zufallsvariablen
Grundsätzlich gilt, dass die Lineartransformation von Zufallsvariablen dieselbe Wirkung auf Lage- und Streuungsparameter hat wie die Lineartransformation bei den deskriptiven Variablen. Hierzu sei auf die Ausführungen in Kapitel 11 verwiesen, insbesondere auf die Formeln (11-4) und (11-5). x
Quantile von Zufallsvariablen
Von großer Bedeutung sind Quantile der Zufallsvariablen, wobei diese Parameter analog den Quantilen der deskriptiven Statistik definiert sind. Wir benötigen die Quantile, um bestimmte %-Intervalle der Verteilungen zu ermitteln. Mit ihnen können Aussagen über die Streuung und die Randbereiche der Verteilungen getroffen werden. Die „unwahrscheinlichen“ Randbereiche grenzen den Kernbereich einer Verteilung ein, z.B. die mittleren 90% oder 95%. Dies bietet die Möglichkeit auszudrücken, in welchem Intervall sich der Großteil der Wahrscheinlichkeitsmasse befindet. Auf ähnliche Art und Weise können wir auch den Zentralwert oder 25%-Quantile für Zufallsvariablen ermitteln. Wir müssen hier die Variablenwerte finden, die die unteren 50% von den oberen 50% der Wahrscheinlichkeitsmasse trennen, bzw. die unteren 25% von den oberen 75% etc. Ein Quantil einer Zufallsvariablen können wir damit allgemein definieren:
19. Zufallsvariablen und ihre Verteilungen
299
Quantil einer Zufallsvariablen Das p-Quantil einer Verteilung ist die Zahl xp, für die gilt
(19-15)
F(xp) = P(X d xp) = p
So gibt z.B. das 0,1-Quantil (10-%-Quantil) einer Verteilung denjenigen Wert an, der mit 10%-iger Wahrscheinlichkeit maximal realisiert wird.
19.5 Besonderheiten bei qualitativen Variablen Qualitative Variablen gehen von einer Nominalskala aus. Die Ausprägungen der Variablen bestehen aus verbalen Angaben wie „ja“ – „nein“, „zufrieden“ – „unzufrieden“ oder (im Falle der Autofarbe) „schwarz“ – „weiß“ – „rot“ etc. Um eine Zufallsvariable zu erhalten, die den Ergebnissen eines Zufallsexperiments Zahlen zuordnet, führen wir 0-1-Variablen ein. Wir unterscheiden zwischen einer „interessierenden“ oder „relevanten“ Eigenschaft (X = 1) und der „nicht relevanten“ Eigenschaft (X = 0). Die Zufallsvariable X wirkt wie eine Zählvariable, die innerhalb einer Gesamtheit die Anzahl derjenigen Elemente zählt, die die relevante Eigenschaft aufweisen. Beispiel (aus dem Master-Projekt) zur Zufriedenheit mit einem Seminar: Von 10 Teilnehmern eines Seminars sind 6 mit dem Seminar zufrieden, zwei Teilnehmer sind unzufrieden und zwei machen keine Angabe. Die Berechnung des Anteilswerts der Stichprobe wird wie folgt vorgenommen: p = 1/10 (1 + 1 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0) = 6/10 = 0,6 oder 60%. Analog berechnen wir auch den Anteilswert in der Grundgesamtheit, indem wir die Anzahl der „zufriedenen“ Teilnehmer durch die Anzahl aller Teilnehmer dividieren und damit den Anteil der Zufriedenheit in der Grundgesamtheit erhalten. Beispiel (aus dem Master-Projekt) zur Zufriedenheit mit einem Seminar: Die 2.000 Teilnehmer von Fortbildungsseminaren (eines Jahres) werden danach gefragt, ob sie mit dem Seminar zufrieden sind. 1.800 Teilnehmer antworten mit „ja“, 150 antworten mit „nein“ und 50 Teilnehmer machen keine Angabe. Die Zufallsvariable X besteht nun aus der Zuordnung der Zahl 1, wenn mit „ja“ geantwortet wurde (relevantes Ergebnis), bzw. der Zahl 0, wenn „nein“ oder „keine Antwort“ vorlag (beides nicht relevante Ergebnisse).
Grundlagen der Wahrscheinlichkeitsrechnung
300
Entsprechend ist auch die Berechnung von Erwartungswert und Streuung möglich, wobei wir den relevanten Anteilswert (hier: für Zufriedenheit) mit p bezeichnen wollen: E(X) = 0 . 200 / 2000 + 1 . 1800 / 2000 = 0 . 0,1 + 1 . 0,9 = 0,90 = p V(X) = (0 – 0,9) 2 . 0,1 + (1 – 0,9) 2 . 0,90 = 0,9 2 . 0,1 + 0,1 2 . 0,9 = = 0,9 (0,9 . 0,1 + 0,1 2) = 0,9 . 0,1 . (0,9 + 0,1) = 0,09 . 1,0 = 0,09 = p (1-p) Die Varianz der 0-1-Variablen ist das Produkt aus dem Anteilswert p und dem Komplement 1-p! Hinweis: Die maximale Varianz der 0-1 Variablen ergibt sich, wenn ein Anteilswert von 0,5 vorliegt. Dies lässt sich auch grafisch veranschaulichen.
f(x)
f(x)
1
1
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2 0
0 0
1
X
0
1
X
Abb. 19.9: 0-1-Variablen mit unterschiedlicher Streuung
Die rechte Verteilung in Abb. 19.9 ist „homogener“ als die linke, da der Großteil (90%) der Verteilung bei 1 und nur ein geringer Teil bei 0 liegt. Die linke Verteilung weist eine maximale Streuung auf, da die beiden Werte 0 bzw. 1 mit einem Anteil von jeweils 0,5 besetzt sind. Diese Aussagen werden wir in den späteren Kapiteln nutzen.
301
20. Spezielle diskrete Verteilungen x Leitfragen
1) Was versteht man unter einem Bernoulli-Experiment? 2) Welche Zufallsvariable folgt einer Binomialverteilung? 3) Was sind die Eigenschaften der Binomialverteilung? 4) Welche Zufallsvariable folgt einer hypergeometrischen Verteilung? 5) Was sind die Besonderheiten der Poissonverteilung?
20.1 Binomialverteilung Die Binomialverteilung ist die wichtigste diskrete Wahrscheinlichkeitsverteilung. Dies liegt zum einen daran, dass sie auf einem Zufallsexperiment basiert, das für viele praktische Fragestellungen herangezogen werden kann. Zum zweiten können andere diskrete Verteilungen durch die Binomialverteilung approximiert werden, so dass sie eine wichtige Näherungsverteilung darstellt (siehe Kapitel 22). Zum dritten nähert sich die Binomialverteilung selbst der Normalverteilung an, der wichtigsten stetigen Verteilung der schließenden Statistik (siehe Kapitel 22). x
Bernoulli-Experiment
Nach dem Schweizer Mathematiker Jakob Bernoulli (1654-1705) ist ein Zufallsexperiment benannt, das wie folgt definiert ist:
Binomialverteilung (1): Bernoulli-Experiment 1. Dichotome Grundgesamtheit = Urne, deren Kugeln zwei Eigenschaften (A und A ¯ ) aufweisen 2. Die Wahrscheinlichkeit P(A) = p ist bekannt, ebenso P(A ¯ ) = 1 - p = q. 3. Es werden n unabhängige Zufallsexperimente durchgeführt: Aus der Urne werden n Kugeln mit Zurücklegen entnommen, d.h. P(A) = p bleibt bei jedem Versuch unverändert.
Grundlagen der Wahrscheinlichkeitsrechnung
302
Wir führen nun eine Zufallsvariable ein, die die Anzahl der Erfolge A unter den n Versuchen angibt. Diese Zufallsvariable ist binomialverteilt. Für die Binomialverteilung gilt:
Binomialverteilung (2): B(n;p) Die Zufallsvariable X, definiert als die Anzahl der Erfolge A unter einer Folge von n unabhängigen Zufallsexperimenten einer dichotomen Grundgesamtheit, folgt der Binomialverteilung B(n;p) mit der - Wahrscheinlichkeitsfunktion
(20-1)
P( X
x)
f (x)
B( x | n;p)
§n · x n x ¨¨ ¸¸ p q ©x¹
und der
- Verteilungsfunktion (20-2)
P( X d x )
F( x )
§n·
¦ ¨¨© k ¸¸¹ pk qn k
kdx
Wir wollen diese Formeln am Zufallsexperiment des dreimaligen Münzwurfs nachvollziehen. Dieses Beispiel entspricht einem Urnenmodell mit 2 Kugeln, deren Aufschrift K („Kopf“) bzw. Z („Zahl“) lauten. Wir ziehen aus dieser Urne dreimal mit Zurücklegen. Damit sind die Versuche voneinander unabhängig und die Wahrscheinlichkeit für den Erfolg (z.B. „Kopf“) beträgt jedesmal 0,5 oder 50%. Die Bedingungen des Bernoulli-Experiments sind erfüllt. Als Zufallsvariable X definieren wir Anzahl von „Kopf“ beim dreimaligen Münzwurf. Damit liegt eine binomialverteilte Zufallsvariable vor. Die vier möglichen Ausprägungen der Zufallsvariablen X basieren auf folgenden Ergebnissen: X = 0:
ZZZ
X = 1:
ZZK ZKZ KZZ
X = 2:
ZKK KZK KKZ
X = 3:
KKK.
20. Spezielle diskrete Verteilungen
303
Gehen wir zunächst auf die Anzahl der Anordnungen ein, mit der jedes Ergebnis auftritt. Hierfür steht der Binomialkoeffizient (vgl. Formel 18-15). Für X = 1 ergibt sich:
§n · ¨¨ ¸¸ = n! / (x! . (n-x)!) = 3! / (1! . 2!) = 6 / 2 = 3. ©x¹ Dies sind die drei Permutationen für 3 Kugeln, von denen eine die Eigenschaft A und zwei die komplementäre Eigenschaft A ¯ aufweisen. Die Wahrscheinlichkeiten für jede einzelne der Anordnungen ergibt sich als Produkt aller Einzelwahrscheinlichkeiten p = 0,5, jeweils versehen mit dem Exponenten, der der Anzahl des Vorkommens entspricht. Damit entsteht gemäß Formel (20-1) die folgende Wahrscheinlichkeitsverteilung:
P( X
x)
f (x)
B( x | 3;0,5)
§3· ¨¨ ¸¸ 0,5 x 0,5 3 x ©x¹
mit folgenden Einzelwahrscheinlichkeiten
für X = 0:
§3· ¨¨ ¸¸ 0,5 0 0,5 3 0 = 1 ©0¹
für X = 1:
§3· ¨¨ ¸¸ 0,510,5 3 1 ©1 ¹
.
1
.
0,5 3 = 0,125
= 3 . 0,5 1 . 0,5 2 = 0,375
und analog für X = 2: 0,375 für X = 3: 0,125
Damit ist die Wahrscheinlichkeitsmasse von 1,0 auf die vier Ergebnisse symmetrisch aufgeteilt. Im Übrigen können wir das Ergebnis für X = 3 dadurch bestätigen, dass als Produkt der drei Wahrscheinlichkeiten von 0,5 (bei Unabhängigkeit) ½ . ½ . ½ = 1/8 = 0,125 resultiert. x
Erwartungswert und Varianz der Binomialverteilung
Der Erwartungswert der Binomialverteilung gibt an, wie viele Erfolge im Durchschnitt bei einer langen Reihe von Zufallsexperimenten resultieren. Im obigen Beispiel ist das die Anzahl von „Kopf“, die bei einer langen Reihe von Dreifachwürfen
Grundlagen der Wahrscheinlichkeitsrechnung
304
mit einer Münze zu erwarten ist. Die Varianz gibt die durchschnittliche quadratische Abweichung vom Erwartungswert an. Folgende Formeln kommen zur Anwendung:
Binomialverteilung (3): Lage- und Streuungsparameter
- Erwartungswert
(20-3)
E( X)
P
V( X)
V2
np
- Varianz
(20-4)
npq
np(1 p)
Die Formel für den Erwartungswert ist unmittelbar plausibel: Es ist das Produkt aus der Anzahl der Versuche und der Erfolgswahrscheinlichkeit p. In unserem Beispiel gilt E(X) = 3 . 0,5 = 1,5. Im Durchschnitt haben wir in einer langen Versuchsreihe von Dreifachwürfen 1,5 mal Kopf zu erwarten, was wiederum einer durchschnittlichen Erfolgsquote von 0,5 entspricht. Für die Varianz erhalten wir im Beispiel: V(X) = 3 . 0,5 . 0,5 = 0,75. Berechnen wir die Standardabweichung, so resultiert 0,87. Damit liegt eine durchschnittliche Streuung von etwas weniger als +/- 1 um den Erwartungswert von 1,5 vor. Der gesamte Streubereich ist ebenfalls bekannt. Die Werte der Zufallsvariablen X liegen zwischen 0 und 3. Da die Varianzformel nicht unmittelbar einsichtig ist, wollen wir in einem Exkurs ihre Entstehung erörtern (siehe auch Abschnitt 19.5). x
Mittelwert und Streuung von 0-1-Variablen
Wir betrachten die Urne unseres Beispiels mit 2 Kugeln. Nun können wir eine neue Zufallsvariable wie folgt einführen: X = 0, wenn kein Erfolg (= Zahl) vorliegt,
20. Spezielle diskrete Verteilungen
305
X = 1, wenn Erfolg (= Kopf) vorliegt. Die Wahrscheinlichkeiten für 0 bzw. 1 betragen p = 0,5 bzw. 1 – p = q = 0,5. Da die Zufallsvariable nur die Werte 0 oder 1 annehmen kann, bezeichnen wir sie als 0-1-Variable. Sie wird regelmäßig zur Verschlüsselung bei qualitativen Variablen verwendet. Berechnen wir nun nach den Formeln in Kapitel 19 die Lage- und Streuungsparameter. Zunächst ergibt sich: E(X) = P = 0 . (1 – p) + 1 . p = p = 0 . 0,5 + 1 . 0,5 = 0,5. Damit sehen wir, dass der Anteilswert p (die Erfolgswahrscheinlichkeit) dem Mittelwert einer 0-1-Variablen gleichzusetzen ist. Der Erwartungswert der Binomialverteilung basiert auf diesem Anteilswert p und entsteht durch die Multiplikation von p mit der Anzahl der Versuche n. Genauso verfahren wir bei der Varianz: V(X) = V 2 = (0 - p) 2 . (1 – p) + (1 – p) 2 . p = p 2 . (1 – p ) + (1 – 2p + p2) p = = p 2 – p 3 + p – 2p 2 + p 3 = p – p 2 = p . (1 – p) = p . q = = 0,5 . (1 - 0,5) = 0,25. Die Varianz der 0-1-Variablen wird – analog zum Erwartungswert – durch Multiplikation mit n zur Varianz der binomialverteilten Zufallsvariablen. x
Eigenschaften der Binomialverteilung
Es gibt einige Eigenschaften der Binomialverteilung, die für den Umgang mit entsprechenden Variablen von Bedeutung sind, insbesondere für die Anwendung der Tabelle der Binomialverteilung.
Binomialverteilung (4): Besondere Eigenschaften - Symmetrische Binomialverteilung mit n und p = 0,5
(20-5)
P(X = x) = P(X = n – x)
- X binomialverteilt mit n und p, Y binomialverteilt mit n und (1-p)
(20-6)
P(Y = n – x) = P(X = x)
Grundlagen der Wahrscheinlichkeitsrechnung
306
Eigenschaft (20-5) drückt aus, dass eine Binomialverteilung mit p=0,5 symmetrisch ist. Damit weisen einander gegenüberliegende Werte x und n-x gleich große Wahrscheinlichkeiten auf. Eigenschaft (20-6) geht von einer Komplementärvariablen Y aus, die nicht die „Erfolge“ sondern die „Misserfolge“ zählt. Dann sind die Wahrscheinlichkeiten der Variablen Y denen der Variablen X gleich, wenn wir jeweils komplementäre Ereignisse x und n-x betrachten. Beispiele hierzu wollen wir anschließend im Zusammenhang mit der Tabelle der Binomialverteilung erörtern. x
Tabelle der Binomialverteilung
Tabellen zur Binomialverteilung finden sich in jedem Lehrbuch der Statistik. Auch das vorliegende Buch bietet in Anhang 3 in den Tabellen 1.1 und 1.2 eine Reihe von Binomialverteilungen. Die Tabelle ist aufgeteilt in Bereiche der Anzahl von Versuchen n (2 bis 12) sowie der Erfolgswahrscheinlichkeit p (0,1 bis 0,5). Für die relevanten Ausprägungen der Zufallsvariablen X (jeweils von 0 bis n) sind die Werte der Wahrscheinlichkeitsfunktion f(x) sowie der Verteilungsfunktion F(x) angegeben (siehe Ausschnitt in Abb. 20.1). Die oben diskutierte Binomialverteilung für den dreimaligen Münzwurf findet sich in der nachfolgenden Abbildung rechts unten.
Tabelle 1.1: Binomialverteilung B(n;p) mit Wahrscheinlichkeitsfunktion f(x) und Verteilungsfunktion F(x) n
x
p = 0,1 f(x) F(x)
p = 0,2 f(x) F(x)
p = 0,3 f(x) F(x)
p = 0,4 f(x) F(x)
p = 0,5 f(x) F(x)
2
0 1 2
0,810 0,180 0,010
0,810 0,990 1,000
0,640 0,320 0,040
0,640 0,960 1,000
0,490 0,420 0,090
0,490 0,910 1,000
0,360 0,480 0,160
0,360 0,840 1,000
0,250 0,500 0,250
0,250 0,750 1,000
3
0 1 2 3
0,729 0,243 0,027 0,001
0,729 0,972 0,999 1,000
0,512 0,384 0,096 0,008
0,512 0,896 0,992 1,000
0,343 0,441 0,189 0,027
0,343 0,784 0,973 1,000
0,216 0,432 0,288 0,064
0,216 0,648 0,936 1,000
0,125 0,375 0,375 0,125
0,125 0,500 0,875 1,000
Abb. 20.1: Tabelle der Binomialverteilung (Ausschnitt)
Die obigen Regeln (20-5) und (20-6) lassen sich nun leicht nachvollziehen. Ausgehend von der Symmetrieregel (20-5) sehen wir bei den Verteilungen mit p=0,5, dass die Wahrscheinlichkeiten für x = 0 und x = n-0 = n identisch sind. Ebenso sind die Wahrscheinlichkeiten für die anderen „korrespondierenden“ Werte „von unten nach oben“ bzw. „von oben nach unten“ gleich groß.
20. Spezielle diskrete Verteilungen
307
Regel (20-6) können wir so interpretieren, dass eine Zufallsvariable Y die Misserfolge zählt. Jede Ausprägung mit x Erfolgen entspricht n-x Misserfolgen, d.h. jede Wahrscheinlichkeit für x entspricht der Wahrscheinlichkeit für y = n-x. Die Verteilung rechts unten in Abb. 20.1 enthält damit die Wahrscheinlichkeiten für y = 3, 2, 1 und 0 Misserfolge (= „Zahl“ bei unserem Münzwurf). Dies bietet die Möglichkeit, auch für nicht tabellierte Werte mit p ! 0,5 über die Komplementärwahrscheinlichkeit von 1-p und y die Wahrscheinlichkeiten zu ermitteln. So beträgt z.B. die Wahrscheinlichkeit bei p = 0,8 und n = 3 für y = 3 0,512. Drei Misserfolge von Y (y=3-0) entsprechen 0 Erfolgen von X (x=0). x
Binomialverteilung mit EXCEL
Mit dem Computerprogramm EXCEL können die Werte der Binomialverteilung mittels der Funktion BINOMVERT ausgegeben werden. Das Programm verlangt dabei die Eingabe der Parameter p und n, sowie die Ausprägung der Zufallsvariablen X (ZAHL_ERFOLGE). Außerdem ist eine Eingabe im Feld „Kumuliert“ notwendig: 0 = Wahrscheinlichkeitsfunktion; 1 = Verteilungsfunktion. So ergibt sich in Abb. 20.2 für n = 3, p = 0,1 und x = 0 die Wahrscheinlichkeit 0,729.
Abb. 20.2: Binomialverteilung mit EXCEL
x
Binomialverteilung mit SPSS
Mit SPSS kann die Verteilungsfunktion der Binomialverteilung mit folgendem Aufruf ausgegeben werden: SPSS-Dialog: Transformieren – Berechnen – Funktion: CDF.BINOM. Hier müssen die Ausprägungen X der binomialverteilten Variablen in einer SPSSDatei vorhanden sein. Die Funktion CDF.BINOM gibt dann für unterschiedliche Parameter n und p die Verteilungsfunktion als neue Variablen aus.
308 x
Grafische Darstellung der Binomialverteilung
Die grafische Darstellung der Wahrscheinlichkeitsverteilung wird für die Binomialverteilung – wie für jede andere diskrete Verteilung – mittels eines Stab- oder Balkendiagramms vorgenommen. Wir wollen zwei Binomialverteilungen betrachten: Eine symmetrische Verteilung mit p = 0,5 und n = 3 (siehe Abb. 20.3), die unserem obigen Beispiel entspricht sowie eine unsymmetrische Verteilung mit p = 0,1 und n = 3 (siehe Abb. 20.4).
f(x) 0,4 0,3 0,2 0,1 0,0 0
1
2
3
X
Abb. 20.3: Symmetrische Binomialverteilung B(3;0,5)
f(x) 0,8 0,6 0,4 0,2 0,0 0
1
2
3
X
Abb. 20.4: Unsymmetrische Binomialverteilung B(3;0,1)
Für die grafische Darstellung der Verteilungsfunktion wählen wir – wie bei diskreten Merkmalen der deskriptiven Statistik – die Treppenfunktion. Abb. 20.5 zeigt die Treppenfunktion für unsere Verteilung mit p = 0,5 und n = 3. Die Verteilungsfunktion ermöglicht es, für jeden Wert zwischen -f und +f Wahrscheinlichkeiten abzulesen. Wir erhalten aus Abb. 20.5 für die Ausprägungen
20. Spezielle diskrete Verteilungen
309
x d 0 eine Wahrscheinlichkeit von 0,125 (identisch mit P(x = 0)) x d 1 eine Wahrscheinlichkeit von 0,500. Das ist die Kumulation der ersten beiden von 0 verschiedenen Wahrscheinlichkeiten 0,125 und 0,375. x d 3 eine Wahrscheinlichkeit von 1,0.
F(x)
Alle Wahrscheinlichkeiten der Verteilungsfunktion F(x) sind kumulierte Werte, was sich auch anhand der obigen Tabelle in Abb. 20.1 nachvollziehen lässt.
1,0
,8
,6
,4
,2
0,0 0
1
2
3
4
X Abb. 20.5: Verteilungsfunktion der Binomialverteilung B(3;0,5)
20.2 Hypergeometrische Verteilung Während die Binomialverteilung auf einer Entnahme mit Zurücklegen aus einem dichotomen Urnenmodell basiert, geht die hypergeometrische Verteilung von einer Ziehung ohne Zurücklegen aus einer dichotomen Urne aus.
Hypergeometrische Verteilung (1): Urnenmodell - Dichotome Grundgesamtheit: Urne mit insgesamt N Kugeln, davon M mit Eigenschaft A und N-M mit Eigenschaft A ¯ - Ziehung: n Elemente ohne Zurücklegen - Zufallsvariable X: Anzahl der Elemente mit Eigenschaft A unter den n entnommenen
Grundlagen der Wahrscheinlichkeitsrechnung
310
Die Formeln für die Wahrscheinlichkeitsverteilung und die Verteilungsfunktion lauten:
Hypergeometrische Verteilung (2): H(n;N;M)
- Wahrscheinlichkeitsfunktion
(20-7)
P( X
x)
f (x)
H( x | n;N;M)
§ M· § N M· ¨¨ ¸¸ ¨¨ ¸¸ © x ¹ ©n x ¹ §N· ¨¨ ¸¸ ©n ¹
- Verteilungsfunktion
(20-8)
P( X d x ) F( x )
¦ H(k | n; N; M)
kdx
Zur Erläuterung von Formel (20-7): Im Nenner steht die Anzahl von Möglichkeiten, n Kugeln aus N ohne Zurücklegen zu ziehen. Dies entspricht der Kombinatorik-Formel (18-19) in Kapitel 18. Im Zähler von (20-7) finden wir die Anzahl der Möglichkeiten, x Elemente der Eigenschaft A aus M Elementen der Eigenschaft A (ohne Zurücklegen) zu ziehen, multipliziert mit der Anzahl der Möglichkeiten, aus den übrigen N–M Elementen n–x zu ziehen. Das bekannteste Beispiel für die hypergeometrische Verteilung ist die Lottoziehung. Wir wollen anhand der Berechnung der Wahrscheinlichkeit für „6 Richtige“ die Anwendung der hypergeometrischen Verteilung aufzeigen. Modellannahmen: N = 49 Kugeln M = 6 „richtige“ Kugeln: Hierzu stellen wir uns vor, die 6 richtigen Kugeln einer Ziehung werden in der Urne markiert. Damit entsteht eine dichotome Gesamtheit. N–M = 43 Kugeln, die nicht richtig sind n = 6 Kugeln werden „ohne Zurücklegen“ gezogen.
20. Spezielle diskrete Verteilungen
311
Die Zufallsvariable X gibt an, wie viele richtige Kugeln sich unter den 6 gezogenen befinden. Wir betrachten eine der möglichen Ausprägungen von X, und zwar x = 6, d.h. alle sechs Kugeln sind „richtig“. Damit ergibt sich folgende Wahrscheinlichkeit:
P( X
6)
f ( 6)
H (6 | 6 ; 49 ; 6)
§ 6 · § 43 · ¨¨ 6 ¸¸ ¨¨ 0 ¸¸ © ¹© ¹ § 49 · ¨¨ ¸¸ © 6¹
Da der erste und zweite Ausdruck im Zähler der Wahrscheinlichkeitsformel jeweils 1 beträgt, können wir die Wahrscheinlichkeit über den Nenner wie folgt ermitteln: 49! / (6! . 43!) = 49 . 48 . 47 . 46 . 45 . 44 / 1. 2 .3 . 4 . 5 . 6 = 13.983.816, d.h. P(X=6) = 1 / 13.983.816 = 0,0000000715. Um uns von dieser extrem niedrigen Wahrscheinlichkeit nicht die Freude und Spannung beim Lottospielen verderben zu lassen, können wir die Wahrscheinlichkeit für 4 Richtige ausrechnen. Wir erhalten nach Formel (20-7) den Wert 0,00097, einen deutlich höheren Wert als für 6 Richtige. Zu ergänzen sind die Formeln für Lage- und Streuungsparameter.
Hypergeometrische Verteilung (3): Lage- und Streuungsparameter
- Erwartungswert (20-9)
M N
E( X)
n
V( X)
§M· § M· §N n· n ¨ ¸ ¨1 ¸ ¨ ¸ N ¹ © N 1¹ ©N¹ ©
- Varianz (20-10)
Während wir beim Erwartungswert eine Analogie zur Binomialverteilung erkennen, zeigt die Varianzformel einen deutlichen Unterschied. Dieser liegt im letzten Ausdruck von Formel (20-10), dem sogenannten „Korrekturfaktor für endliche Gesamtheiten“. Dieser Faktor bedeutet, dass im Modell ohne Zurücklegen die Streu-
Grundlagen der Wahrscheinlichkeitsrechnung
312
ung kleiner ist als im Modell mit Zurücklegen. Dies ist auch plausibel, da im Modell „mit Zurücklegen“ durch die Möglichkeit des mehrfachen Auftretens eines Elements insgesamt mehr Kombinationen vorkommen können. Mehr zum Korrekturfaktor: siehe Kapitel 22 bei den Verteilungs-Approximationen. x
Grafische Darstellung der hypergeometrischen Verteilung
Die Grafik der hypergeometrischen Verteilung ähnelt der Darstellung der Binomialverteilung. Grundsätzlich sind aber die Wahrscheinlichkeiten für sehr kleine und sehr große Ausprägungen bei der Binomialverteilung – wegen des Modells mit Zurücklegen – größer als bei der hypergeometrischen Verteilung. Die Wahrscheinlichkeiten für die mittleren Ausprägungen sind bei der hypergeometrischen Verteilung größer. Hier eine Grafik, die später auch als Beispiel für die Approximation (siehe Kapitel 22, Abb. 22.2) verwendet wird.
f(x) 0,5 0,4 0,3 0,2 0,1 0,0 0
1
2
3
4
X
Abb. 20.6: Hypergeometrische Verteilung H(4;10;4)
x
Hypergeometrische Verteilung in Tabellen sowie mit EXCEL und SPSS
Tabellen für die hypergeometrische Verteilung finden sich selten in statistischen Lehrbüchern. Dies liegt daran, dass in den meisten praktischen Anwendungsfällen näherungsweise mit der Binomialverteilung gearbeitet werden kann; siehe dazu Abschnitt 22.1. Im Programm EXCEL kann die Funktion HYPGEOMVERT eingesetzt werden, die ähnlich wie oben bei der Binomialverteilung beschrieben (siehe Abb. 20.2) eine Ermittlung einzelner Wahrscheinlichkeiten ermöglicht. SPSS bietet die Berechnungsfunktion CDF.HYPER an, die nach dem Aufruf SPSS-Dialog: Transformieren – Variable berechnen – Funktionsgruppe Verteilungsfunktionen die Verteilungsfunktion der hypergeometrischen Verteilung ausgibt.
20. Spezielle diskrete Verteilungen
313
20.3 Poissonverteilung Das Modell der Poissonverteilung kann als Grenzfall der Binomialverteilung abgeleitet werden. Wir betrachten wieder eine Zufallsvariable X, die als „Anzahl von Elementen mit Eigenschaft A unter n gezogenen Elementen“ definiert ist. Das Urnenmodell hat folgende Merkmale:
Poissonverteilung (1): Urnenmodell - Dichotome Grundgesamtheit: Urne mit einer großen Anzahl N Kugeln - Anzahl M der Elemente mit Eigenschaft A ist relativ klein: Wahrscheinlichkeit p ist kleiner 0,1 - n Elemente werden aus der Gesamtheit entnommen: Anzahl der entnommenen Elemente ist relativ groß (n ! 30) - Zufallsvariable X: Anzahl der Elemente mit Eigenschaft A unter den n entnommenen - n . p = O ist konstant
Die Zufallsvariable X folgt einer Poissonverteilung, die der französische Mathematiker S. D. Poisson (1781-1840) entwickelt hat. Folgende Formeln gelten:
Poissonverteilung (2): Ps(O O) - Wahrscheinlichkeitsfunktion
(20-11)
Ox O e x!
x)
f (x)
Ps( x | O )
P( X d x )
F( x )
Ok O ¦ k! e kdx
P( X
- Verteilungsfunktion
(20-12)
Erwartungswert und Varianz der Poissonverteilung sind gleich groß:
Grundlagen der Wahrscheinlichkeitsrechnung
314
Poissonverteilung (3): Lage- und Streuungsparameter - Erwartungswert
(20-13)
E( X)
O
V( X)
O
- Varianz (20-14)
Die Poissonverteilung wird hauptsächlich dort angewandt, wo zeitbezogene Zufallsvariablen definiert werden können. Wir wollen ein entsprechendes Beispiel erörtern: In einer Telefonzentrale kommen pro Minute im Durchschnitt 3 Anrufe an. Wie groß ist die Wahrscheinlichkeit, dass 5 Anrufe (pro Minute) eintreffen. Modellannahmen: - Bernoulli-Experiment pro Sekunde (ja = 1 = Anruf trifft ein; nein = 0 = kein Anruf) - n = 60 - O = 3,0 Für die gesuchte Wahrscheinlichkeit gilt dann
P( X
5)
f (5 )
Ps(5 | 3)
35 3 e 5!
und damit: 243 / 120 . 2,71828 –3 = 2,0250 / 20,0856 = 0,1008. x
Grafische Darstellung der Poissonverteilung
Das Modell der Poissonverteilung führt allgemein zu unsymmetrischen Verteilungen. Die grafische Darstellung in Abb. 20.7 verdeutlicht diese Schiefe der Poissonverteilung mit dem Parameter O = 1,0. Die dazugehörigen exakten Wahrscheinlichkeiten können dem Tabellenausschnitt in Abb. 20.9 entnommen werden.
20. Spezielle diskrete Verteilungen
315
f(x) 0,4 0,3
0,2
0,1
0,0 0
1
2
3
4
5
6
X
Abb. 20.7: Poissonverteilung Ps(1)
x
Poissonverteilung mit EXCEL und SPSS
Die Wahrscheinlichkeiten der Poissonverteilung werden mit EXCEL berechnet, indem über den Funktions-Assistenten POISSON aufgerufen wird. Das Eingabefenster des Funktions-Assistenten ermöglicht auch die Ausgabe der kumulierten Wahrscheinlichkeiten, d.h. der Werte der Verteilungsfunktion. Die obige Wahrscheinlichkeit erhalten wir wie folgt:
Abb. 20.8: Poissonverteilung mit EXCEL
In SPSS ist die Funktion CDF.POISSON vorhanden, die über den SPSS-Dialog: Transformieren – Variable berechnen – Funktionsgruppe Verteilungsfunktionen die Verteilungsfunktion einer poissonverteilten Zufallsvariablen ausgibt.
Grundlagen der Wahrscheinlichkeitsrechnung
316 x
Tabelle der Poissonverteilung
Für die konventionelle Anwendung der Poissonverteilung können wir die Tabelle der Poissonverteilung verwenden, die wie folgt strukturiert ist: Für - Mittelwerte von O = 0,1 bis O = 3,0 und - Ausprägungen von x = 0 bis x = 12 werden die Werte der Wahrscheinlichkeitsfunktion in Tabelle 2 in Anhang 3 angegeben (siehe Ausschnitt).
Tabelle 2: Poissonverteilung Ps(x| O ) mit Wahrscheinlichkeitsfunktion f(x)
O
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0 1 2 3 4 5 6 7
0,9048 0,0905 0,0045 0,0002 0,0000 0,0000 0,0000 0,0000
0,8187 0,1637 0,0164 0,0011 0,0001 0,0000 0,0000 0,0000
0,7408 0,2222 0,0333 0,0033 0,0003 0,0000 0,0000 0,0000
0,6703 0,2681 0,0536 0,0072 0,0007 0,0001 0,0000 0,0000
0,6065 0,3033 0,0758 0,0126 0,0016 0,0002 0,0000 0,0000
0,5488 0,3293 0,0988 0,0198 0,0030 0,0004 0,0000 0,0000
0,4966 0,3476 0,1217 0,0284 0,0050 0,0007 0,0001 0,0000
0,4493 0,3595 0,1438 0,0383 0,0077 0,0012 0,0002 0,0000
0,4066 0,3659 0,1647 0,0494 0,0111 0,0020 0,0003 0,0000
0,3679 0,3679 0,1839 0,0613 0,0153 0,0031 0,0005 0,0001
x
Abb. 20.9: Tabelle der Poissonverteilung (Ausschnitt)
Der von uns berechnete Wert von 0,1008 findet sich in der vollständigen Tabelle 2 im Anhang in der Spalte O = 3,0 und der Zeile x = 5.
317
21. Spezielle stetige Verteilungen x Leitfragen
1) Warum ist die Normalverteilung die wichtigste stetige Verteilung der Statistik? 2) Wann liegt eine t-Verteilung vor? 3) Wofür wird die Chi-Quadrat-Verteilung benötigt? 4) In welchen Fällen wird die F-Verteilung angewandt?
21.1 Normalverteilung Die Gauß’sche Normalverteilung ist nach dem deutschen Mathematiker C.F. Gauß (1777 - 1855) benannt. Sie hat die folgende typische Form einer Glockenkurve.
f(x) 0,05 0,04 0,03 0,02 0,01 0,00 140
150
160
170
180
190
200
X
Abb. 21.1: Die Normalverteilung N(170;10)
Die Gauß’sche Normalverteilung ist die wichtigste Verteilung der Statistik. Dies hat folgende Gründe:
318
Grundlagen der Wahrscheinlichkeitsrechnung
- Zahlreiche Merkmale in der Praxis können als „normalverteilt“ angesehen werden. So stellen wir uns z.B. die Verteilung der Körpergröße als Glockenkurve vor, mit größeren Wahrscheinlichkeiten für „mittlere“ Körpergrößen und immer geringer werdenden Wahrscheinlichkeiten für „sehr kleine“ und „sehr große“ Körpergrößen. - Nach den Überlegungen von Gauß verteilen sich Fehler bei Messungen entsprechend der Glockenkurve: kleine Fehler sind häufiger, große Fehler sind eher selten. - Einige andere statistische Verteilungen konvergieren unter bestimmten Bedingungen gegen die Normalverteilung, insbesondere die Binomialverteilung (siehe Kapitel 22). Dies ist eine der wichtigsten Erkenntnisse der klassischen Statistiker (z.B. von Laplace). - Nach dem Zentralen Grenzwertsatz konvergiert die Verteilung des Stichprobenmittelwerts von beliebigen Verteilungen gegen die Normalverteilung. Damit kann bei ausreichend großen Stichproben mit den Eigenschaften der Normalverteilung gearbeitet werden (siehe Abschnitt 22.4.1). x
Eigenschaften der Normalverteilung
Normalverteilung (1): Eigenschaften der Dichtefunktion - Sie verläuft symmetrisch zur Achse x = P = E(X). - Ihr Maximum liegt an der Stelle x = P. - Von der Symmetrieachse aus nehmen ihre Werte nach beiden Seiten streng monoton ab und gehen für x o f und x o -f gegen 0. - Ihre Wendepunkte liegen an den Stellen x = P + V und x = P - V. - Sie verläuft um so steiler, je kleiner die Varianz ist. - Eine Veränderung des Erwartungswertes P bewirkt eine Verschiebung entlang der Abszisse.
Die ersten vier Eigenschaften lassen sich am Verlauf der Dichtefunktion in der obigen Abb. 21.1 erkennen. Die übrigen Eigenschaften werden in den nachfolgenden Abschnitten dieses Kapitels erörtert. Die Dichtefunktion der Normalverteilung ist in Formel (21-1) angegeben. Die dazugehörige Verteilungsfunktion ist das Integral der Wahrscheinlichkeitsdichte. Die Formel hierzu wird nicht explizit benötigt, die grafische Darstellung der Verteilungsfunktion findet sich in Abb. 21.4.
21. Spezielle stetige Verteilungen
319
Normalverteilung (2): Dichtefunktion N(P P;V) 1 x P
(21-1)
f ( x | P; V)
N (P; V)
( )2 1 2 V e V 2S
Formel (21-1) lässt erkennen, dass die Dichte der Normalverteilung einer eFunktion folgt, deren Parameter der Erwartungswert P und die Standardabweichung V sind (siehe auch obige Eigenschaften der Normalverteilung). Nachdem der Erwartungswert und die Varianz bestimmende Parameter der Normalverteilung sind, können wir diese Lage- und Streuungsmaße unmittelbar angeben:
Normalverteilung (3): Lage- und Streuungsparameter
- Erwartungswert (21-2)
E(X) = P
- Varianz (21-3)
x
V(X) = V 2
Standardnormalverteilung
Ein Spezialfall der Normalverteilung ist die Standardnormalverteilung, die einen Erwartungswert von 0 und eine Varianz von 1 aufweist. Die Standardisierung von Zufallsvariablen ist analog zur Standardisierung von deskriptiven Variablen zu sehen (vgl. Kapitel 11). Sie wird gemäß der nachfolgenden Formel (21-4) vorgenommen. Die Standardisierung ist eine spezielle Form einer Lineartransformation. Von jedem Wert der Variablen X wird der Erwartungswert der Verteilung abgezogen, und die Differenz wird durch die Standardabweichung dividiert. Die Werte der standardisierten Variablen Z liegen im Allgemeinen zwischen -3 und +3 und geben an, um wie viele Einheiten der Standardabweichung ein Wert über oder unter dem Erwartungswert liegt.
Grundlagen der Wahrscheinlichkeitsrechnung
320
Standardnormalverteilung (1): N(0;1) - Standardisierung
(21-4)
Z
XP V
- Dichtefunktion z2
(21-5)
M ( z | 0 ;1)
1 2 e 2S
- Erwartungswert
(21-6)
E(Z) = 0
- Varianz
(21-7)
V(Z) = 1
Die besondere Bedeutung der Standardnormalverteilung liegt darin, dass - jede beliebige Normalverteilung durch Standardisierung in die N(0;1)-Verteilung transformiert werden kann und damit - die Wahrscheinlichkeiten der Standardnormalverteilung, die in Tabellenform vorliegen (siehe Abb. 21.3), auf alle Normalverteilungen angewandt werden können. Sehen wir uns zum Vergleich einige Normalverteilungen mit unterschiedlicher Lage und Streuung an. Die vier Normalverteilungen in Abb. 21.2 zeigen die unterschiedliche Lage der Verteilungen, die sich durch den jeweiligen Erwartungswert ergibt. Bei den drei rechts liegenden Verteilungen wird außerdem deutlich, wie die Streuung von 0,5 über 1,0 auf 2,0 ansteigt. Ganz links in Abb. 21.2 ist die N(0;1)-Verteilung zu sehen, die Standardnormalverteilung entsprechend den Formeln (21-4) bis (21-7).
21. Spezielle stetige Verteilungen
321
f(x) 0,8
0,6
N(0;1) 0,4
N(2;0,5) N(2;1) N(2;2)
0,2
0,0 -4
-2
0
2
4
6
8
X
Abb. 21.2: Normalverteilungen mit verschiedenen Erwartungswerten und Streuungen
x
Normalverteilung tabelliert
Die nachfolgende Abbildung 21.3 zeigt einen Ausschnitt aus Tabelle 3 in Anhang 3. Die angegebenen Wahrscheinlichkeiten der Normalverteilung sind Werte der Verteilungsfunktion (siehe Abb. 21.4). Wegen der Symmetrie der Normalverteilung liegen nur die positiven Wahrscheinlichkeiten für z tabelliert vor. Die Kopfspalte der Tabelle ergibt zusammen mit der Kopfzeile die Werte der standardnormalverteilten Zufallsvariablen Z. So wird der Wert z = 0,58 aus dem Zeilenwert 0,5 und dem Spaltenwert 0,08 zusammengesetzt. Die dazugehörige Wahrscheinlichkeit lautet 0,7190. Dies bedeutet, dass 71,9% der Werte von Z kleiner gleich 0,58 sind. Eine wichtige Ausprägung ist der Wert z = 1,0, für den wir die Wahrscheinlichkeit wie folgt ablesen: P(Z d 1,0) = 0,8413. Die Wahrscheinlichkeit für Werte bis 1,0, d.h. einer Einheit der Standardabweichung, beträgt ca. 84%. Damit liegen 16% im Bereich über 1,0 und – wenn wir den linken und rechten Bereich außerhalb von -1,0 bzw. +1,0 addieren – 32% außerhalb und 68% innerhalb des Intervalls von 1,0.
Umgekehrt erhalten wir für vorgegebene Wahrscheinlichkeiten den z-Wert: Wenn P = 0,8830 ist, dann folgt daraus ein z-Wert von 1,19.
Grundlagen der Wahrscheinlichkeitsrechnung
322
Tabelle 3: Standardnormalverteilung Werte der Verteilungsfunktion für z
z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0 0,1 0,2 0,3 0,4
0,5000 0,5398 0,5793 0,6179 0,6554
0,5040 0,5438 0,5832 0,6217 0,6591
0,5080 0,5478 0,5871 0,6255 0,6628
0,5120 0,5517 0,5910 0,6293 0,6664
0,5160 0,5557 0,5948 0,6331 0,6700
0,5199 0,5596 0,5987 0,6368 0,6736
0,5239 0,5636 0,6026 0,6406 0,6772
0,5279 0,5675 0,6064 0,6443 0,6808
0,5319 0,5714 0,6103 0,6480 0,6844
0,5359 0,5753 0,6141 0,6517 0,6879
0,5 0,6 0,7 0,8 0,9
0,6915 0,7257 0,7580 0,7881 0,8159
0,6950 0,7291 0,7611 0,7910 0,8186
0,6985 0,7324 0,7642 0,7939 0,8212
0,7019 0,7357 0,7673 0,7967 0,8238
0,7054 0,7389 0,7704 0,7995 0,8264
0,7088 0,7422 0,7734 0,8023 0,8289
0,7123 0,7454 0,7764 0,8051 0,8315
0,7157 0,7486 0,7794 0,8078 0,8340
0,7190 0,7517 0,7823 0,8106 0,8365
0,7224 0,7549 0,7852 0,8133 0,8389
1,0 1,1
0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
Abb. 21.3: Tabelle der Standardnormalverteilung (Ausschnitt)
F(z) 1,0 0,8
0,6
0,4
0,2
0,0 -3
-2
-1
0
1
2
3
Z
Abb. 21.4: Verteilungsfunktion der Standardnormalverteilung
Zur Erläuterung des Verlaufs der Verteilungsfunktion wird in Abb. 21.5 zusätzlich die Dichtefunktion gezeigt. Die markierte Fläche ist gleich der Wahrscheinlichkeit für das Intervall von -f bis 0,7 und entspricht dem Wert der Verteilungsfunktion an
21. Spezielle stetige Verteilungen
323
dieser Stelle: P(Z d 0,7) = 0,7580, d.h. 75,80%. Diese exakt angegebene Wahrscheinlichkeit findet sich in der Tabelle in Abb. 21.3.
f(z) 0,5 0,4
0,3
0,2
0,1
0,0 -3
-2
-1
0
1
2
3
Z
Abb. 21.5: Standardnormalverteilung mit Wahrscheinlichkeitsfläche
Aus der obigen Tabelle und den Grafiken lassen sich noch die folgenden Aussagen ableiten: - Die Wahrscheinlichkeit, dass z höchstens 0 beträgt, ist gleich 0,5. Die Achse z = 0 halbiert die Fläche unter der Dichtefunktion der Normalverteilung und damit die Wahrscheinlichkeitsmasse von 1. - Die Wahrscheinlichkeit, dass z höchstens 0,005 beträgt, ist zu ermitteln aus den Wahrscheinlichkeiten für z = 0,00 (0,5000) und für z = 0,01 (0,5040). Der Einfachheit halber wird linear interpoliert, wodurch sich eine Wahrscheinlichkeit von 0,5020 für z = 0,005 ergibt. x
Normalverteilung mit EXCEL und SPSS
EXCEL ermöglicht den Abruf von Wahrscheinlichkeiten für jede beliebige Normalverteilung mittels der Funktion NORMVERT. Hier können die Ausprägung x sowie Mittelwert und Standardabweichung angegeben werden. Außerdem kann mit 0 = nicht-kumuliert und 1 = kumuliert zwischen Dichte- und Verteilungsfunktion unterschieden werden. Die nachfolgende Abb. 21.6 zeigt das Auswahlfenster NORMVERT einschließlich der berechneten Wahrscheinlichkeit. Wir sehen den Wert der Verteilungsfunktion von 0,543795 für z = 0,11, was gerundet dem Wert von 0,5438 in der obigen Tabelle in Abb. 21.3 entspricht.
Grundlagen der Wahrscheinlichkeitsrechnung
324
Abb. 21.6: Normalverteilung mit EXCEL
In SPSS steht die Funktion CDF.NORMAL zur Verfügung, die über den SPSS-Dialog: Transformieren – Variable berechnen – Funktionsgruppe Verteilungsfunktionen die Ausgabe der Werte der Verteilungsfunktion von Normalverteilungen mit unterschiedlichen Mittelwerten und Standardabweichungen erlaubt. x
Verteilungsfunktion der Normalverteilung
Alle gängigen Berechnungen mit der Normalverteilung basieren auf der Verteilungsfunktion der Standardnormalverteilung, wobei die folgenden Formeln und die dazugehörigen Symmetrieregeln zugrunde gelegt werden können.
Standardnormalverteilung (2): Verteilungsfunktion und Symmetrieregeln - Verteilungsfunktion x
(21-8)
F( x | P; V)
)( z | 0 ;1)
³ M (v ) dv
f
- Umkehrung der Verteilungsfunktion (21-9)
)( z | 0 ;1)
F(P z V | P ; V)
- 1. Symmetrieregel (21-10)
)( z )
1 )( z)
21. Spezielle stetige Verteilungen
325
- 2. Symmetrieregel (21-11)
P(P zV d X d P zV)
2)( z) 1
Der Umgang mit diesen Formeln wird am folgenden Beispiel erläutert: Ein Hersteller von Konfektionskleidung plant für seinen neuen asiatischen Markt die Aufteilung der Produktion auf verschiedene Konfektionsgrößen. Für das Segment „Damenoberbekleidung“ liegt die entsprechende Verteilung der Körpergröße (Zufallsvariable X) der erwachsenen weiblichen Bevölkerung vor. X ist normalverteilt mit N(160,10).
f(x) 0,05 0,04 0,03 0,02 0,01 0,00 130
140
150
160
170
180
190
X
Abb. 21.7: Normalverteilung N(160;10)
Zu ermitteln sind Wahrscheinlichkeiten dafür, dass eine weibliche Kundin a) unter 160 cm b) unter 140 cm c) über 185 cm d) zwischen 140 cm und 160 cm groß ist, sowie die Wahrscheinlichkeit für das Intervall e) der mittleren 90% der Verteilung.
326
Grundlagen der Wahrscheinlichkeitsrechnung
Wir können die Wahrscheinlichkeiten a) bis d) direkt in EXCEL berechnen (siehe Abb. 21.6). Zur Verdeutlichung wollen wir den Weg über die Tabelle der Standardnormalverteilung gehen. Nachdem die Werte standardisiert werden, können die Wahrscheinlichkeiten aus Tabelle 3 (Anhang 3) entnommen werden: a) z = (160 – 160) / 10 = 0
Ö P (z d 0) = P (x d 160) = 0,5000
b) z = (140 – 160) / 10 = -2,0 Ö P (z d -2,0) = 1 – P (z d 2,0) = 1 – 0,9772 Ö P (x d 140) = 0,0228 c) z = (185 - 160) / 10 = 2,5
Ö P (z d 2,5) = P (x d 185) = 0,9938 Ö P (x t 185) = 1 – 0,9938 = 0,0062
d) Die Intervallwahrscheinlichkeit können wir aus den Ergebnissen von a) und b) direkt ermitteln: P (140 d X d 160) = P (-2,0 d Z d 0) = 0,5000 – 0,0228 = 0,4772 e) Hier kehrt sich die Fragestellung von d) um: Wir suchen die mittleren 90%, d.h. das Intervall zwischen den unteren 5% und den oberen 5% der Verteilung. Das ist das Intervall zwischen dem 5%- und dem 95%-Quantil der Normalverteilung. - Die unteren 5% können wir nicht ablesen, daher kommt Formel (21-10) zur Anwendung. Wir verwenden den Wert für die oberen 5%. - Für die oberen 5% lesen wir in Tabelle 3 im Anhang ab: 1,645. Das z-Intervall lautet damit: (-1,645; 1,645) Wir kehren jetzt nach Formel (21-9) die Standardisierung um: xu = 160 – 10 . 1,645 = 160 – 16,45 = 143,55 xo = 160 + 10 . 1,645 = 160 + 16,45 = 176,45. Damit lautet das gesuchte Intervall: (143,55 ; 176,45). x
Wichtige Intervalle der Normalverteilung
Die bezeichnenden Intervalle für die Anwendung der Normalverteilung lauten:
(P+V ; P-V) , (P-2V ; P+2V) und (P-3V; P+3V). Die ersten beiden Intervalle sind in der folgenden Abbildung 21.8 zu sehen.
21. Spezielle stetige Verteilungen
327
f(x)
68,27%
95,45%
-2
-1
+1
+2
X
Abb. 21.8: Normalverteilung mit 1V- und 2V-Intervall um den Erwartungswert
Die „mittleren“ Intervalle der Normalverteilung werden sehr häufig benötigt, weil sie den „wahrscheinlichsten“ mittleren Teil der Verteilung von den „unwahrscheinlichen“ Rändern trennen. Zusammengefasst gilt für einige typische Intervalle der Normalverteilung:
Standardnormalverteilung (3): Wichtige Intervalle
(21-12)
P(P zV d X d P zV)
0,6827 für z °0,9545 für z ° °0,9773 für z ° ®0,90 für z °0,95 für z ° °0,99 für z °0,999 für z ¯
1 2 3 1,645 1,96 2,58 3,29
Die in den nächsten Abschnitten dargestellten statistischen Verteilungen beruhen im Wesentlichen auf der Normalverteilung. Die entsprechenden Zufallsvariablen werden dabei aus normalverteilten Zufallsvariablen transformiert.
328
21.2 Chi-Quadrat-Verteilung Die Chi-Quadrat-Verteilung kommt zustande, wenn wir eine Summe von (unabhängigen) Zufallsvariablen vor uns haben, die jeweils standardnormalverteilt sind und die quadriert in diese Summe eingehen (siehe Formel 21-13). Abb. 21-9 zeigt die dazugehörige grafische Darstellung.
Chi-Quadrat-Verteilung Chi2(n): Zufallsvariable, Lage und Streuung - Zufallsvariable
Y
(21-13)
Z12 Z 22 ... Z n2
ist Chi2(n)-verteilt mit n = Zahl der Freiheitsgrade
- Erwartungswert
E(Y) = n
(21-14)
- Varianz (21-15)
f(y)
V(Y) = 2n
0,3
Chi-Quadrat(3)
0,2
Chi-Quadrat(6) Chi-Quadrat(15) 0,1
0,0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Y
Abb. 21.9: Chi-Quadrat-Verteilungen
Wir erkennen, dass die Chi-Quadrat-Verteilung bei wenigen Freiheitsgraden (z.B. nur 3 Variablen in der Summenformel) sehr unsymmetrisch ist. Die Verteilung wird
21. Spezielle stetige Verteilungen
329
umso symmetrischer, je größer die Zahl der Freiheitsgrade ist. Bei 15 Freiheitsgraden deutet sich bereits eine Glockenkurve an, ähnlich wie bei der Normalverteilung. Die Chi-Quadrat-Verteilung liegt in tabellierter Form vor, wobei nur bestimmte Quantile ablesbar sind (siehe Tabellen 4.1 und 4.2 in Anhang 3). Der nachfolgende Ausschnitt zeigt Quantile für die niedrigen Wahrscheinlichkeiten bis 10%.
Tabelle 4.1: Chi-Quadrat-Verteilung Quantile für ausgewählte Wahrscheinlichkeiten p p Anzahl der Freiheitsgrade
0,001
0,005
0,025
0,050
0,100
1 2 3 4 5
0,00 0,00 0,02 0,09 0,21
0,00 0,01 0,07 0,21 0,41
0,00 0,05 0,22 0,48 0,83
0,00 0,10 0,35 0,71 1,15
0,02 0,21 0,58 1,06 1,61
6 7
0,38 0,60
0,68 0,99
1,24 1,69
1,64 2,17
2,20 2,83
Abb. 21.10: Tabelle der Chi-Quadrat-Verteilung (Ausschnitt)
Die Tabelle ermöglicht die folgende Ermittlung von Quantilen: P(Y d 1,61;n=5) = 0,100 P(Y d 0,99;n=7) = 0,005 P(1,69 d Y d 2,83;n=7) = 0,100 – 0,025 = 0,075. Häufig gebraucht werden die Quantile mit den größeren Wahrscheinlichkeiten von 0,9 und höher. Diese finden sich in Tabelle 4.2 in Anhang 3. x
Chi-Quadrat-Verteilung mit EXCEL und SPSS
In EXCEL ist die Verteilungsfunktion als Funktion CHIVERT verfügbar. Quantile erhalten wir über CHIINV. Wir verwenden dabei – da die Funktion rechtsseitig definiert ist – folgende Formel für den Aufruf in der EXCEL-Tabelle: =CHIINV(1-A1;B1). Dabei stehen in Feld A1 die Wahrscheinlichkeit und in Feld B1 die Freiheitsgrade.
Grundlagen der Wahrscheinlichkeitsrechnung
330
In SPSS kann zur Berechnung der Quantile der Chi-Quadrat-Verteilung die Funktion IDF.CHISQ aufgerufen werden mittels dem SPSS-Dialog: Transformieren – Variable berechnen – Funktionsgruppe Verteilungsfunktionen, der Quantile für vorgegebene Wahrscheinlichkeiten und Freiheitsgrade ausgibt.
21.3 t-Verteilung Der englische Statistiker Gosset (1876-1937) hat unter dem Pseudonym „Student“ eine Verteilung veröffentlicht, die als Student-t-Verteilung eine weitere sehr wichtige statistische Verteilung darstellt.
t-Verteilung t(n): Zufallsvariable, Lage und Streuung - Zufallsvariable (21-16)
T
Z Y n
ist t(n)-verteilt mit n = Zahl der Freiheitsgrade
- Erwartungswert (21-17)
E(T) = 0
- Varianz (21-18)
V(T )
n n2
Formel (21-16) definiert die Zufallsvariable der t-Verteilung. Die Zufallsvariable Z im Zähler ist standardnormalverteilt, die Zufallsvariable Y im Nenner ist Chiquadratverteilt mit n Freiheitsgraden. Die Transformation nach dieser Formel (2116) ist vergleichbar mit der Standardisierung einer Variablen! Die nachfolgende Abbildung 21.11 zeigt die t-Verteilung mit 3 Freiheitsgraden im direkten Vergleich mit der Normalverteilung. Wir sehen, dass bei gleicher Lage der beiden Verteilungen (Erwartungswert = 0) die t-Verteilung eine größere Streuung aufweist. Die äußeren Werte sind stärker besetzt als bei der Normalverteilung. Die anschließende Abb. 21.12 verdeutlicht, dass die t-Verteilung mit einer zunehmenden Zahl von Freiheitsgraden der Glockenkurve der Normalverteilung ähnlicher wird.
21. Spezielle stetige Verteilungen
331
f(t), f(z) 0,4 0,3
t(3) N(0;1)
0,2
0,1
0,0 -4
-2
0
2
4
T, Z
Abb. 21.11: t-Verteilung im Vergleich mit der Standardnormalverteilung
f(t) 0,4 0,3
t(3) t(6) t(30)
0,2
0,1
0,0 -4
-2
0
2
4
T Abb. 21.12: t-Verteilungen
Auch für die t-Verteilung liegen Tabellen vor, die Quantile (in Abhängigkeit von den Freiheitsgraden) angeben. Bei der t-Verteilung kommen wir mit den rechtsseitigen Intervallen in der Tabelle aus. Die linksseitigen Wahrscheinlichkeiten können wegen der Symmetrie der tVerteilung – ähnlich wie bei der Normalverteilung – leicht ermittelt werden.
Grundlagen der Wahrscheinlichkeitsrechnung
332
Tabelle 5: t-Verteilung Quantile für ausgewählte Wahrscheinlichkeiten p p Anzahl der Freiheitsgrade
0,90
0,95
0,975
0,990
0,995
0,9995
1 2 3 4 5
3,078 1,886 1,638 1,533 1,476
6,314 2,920 2,353 2,132 2,015
12,706 4,303 3,182 2,776 2,571
31,821 6,965 4,541 3,747 3,365
63,656 9,925 5,841 4,604 4,032
636,578 31,600 12,924 8,610 6,869
6 7
1,440 1,415
1,943 1,895
2,447 2,365
3,143 2,998
3,707 3,499
5,959 5,408
Abb. 21.13: Tabelle der t-Verteilung (Ausschnitt)
Als Ergebnisse erhalten wir: P(T d 2,015;n=5) = 0,95 P(T d 1,895;n=7) = 0,95 P(-2,365 d T d 2,365;n=7) = 0,975 – 0,025 = 0,95, wobei gilt: P(T d -2,365;n=7) = 1 – P(T d 2,365;n=7) = 1 – 0,975 = 0,025 x
t-Verteilung mit EXCEL und SPSS
In EXCEL steht die Verteilungsfunktion der t-Verteilung über TVERT im FunktionsAssistenten zur Verfügung. Quantile können über die Funktion TINV abgerufen werden. Wir müssen aber – da sie rechtsseitig definiert ist – folgende Formel anwenden: =TINV((1-A1)*2;B1). In Feld A1 der EXCEL-Tabelle steht die Wahrscheinlichkeit, in Feld B1 stehen die Freiheitsgrade der Verteilung. Der SPSS-Dialog „Transformieren – Variable berechnen – Funktionsgruppe Verteilungsfunktionen“ liefert über die Funktion IDF.T die Quantile der tVerteilung für vorgegebene Wahrscheinlichkeiten und Freiheitsgrade.
21.4 F-Verteilung Werden zwei Chi-Quadrat-verteilte Zufallsvariablen dividiert, dann entsteht eine Fverteilte Zufallsvariable, benannt nach dem britischen Statistiker R. A. Fisher (1890 – 1962).
21. Spezielle stetige Verteilungen
333
F-Verteilung F(m;n): Zufallsvariable, Lage und Streuung - Zufallsvariable
Y1 / m Y2 / n
F
(21-19)
ist F(m;n)-verteilt mit m, n = Zahl der Freiheitsgrade
- Erwartungswert
E (F )
(21-20)
n n2
- Varianz
V(F)
(21-21)
2n 2 (m n 2) m(n 2)2 (n 4)
Die F-Verteilung ist eine ähnlich unsymmetrische Verteilung wie die Chi-QuadratVerteilung. Auch die F-Verteilung wird bei einer zunehmenden Zahl von Freiheitsgraden symmetrisch, was sich in Abb. 21.14 bereits andeutet.
f(f) 1,0 0,9 0,8 0,7
F(3;4)
0,6
F(15;20)
0,5 0,4 0,3 0,2 0,1 0,0 0
1
2
3
4
5
6
F
Abb. 21.14: F-Verteilungen
Grundlagen der Wahrscheinlichkeitsrechnung
334
Tabelle 6.1: F-Verteilung 97,5%-Quantile
m
1
2
3
4
5
6
7
8
9
10
11
12
n 1 2 3 4 5
647,8 38,51 17,44 12,22 10,01
6 7
8,81 8,07
799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 973,0 976,7 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,41 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,37 14,34 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,79 8,75 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,57 6,52 7,26 6,54
6,60 5,89
6,23 5,52
5,99 5,29
5,82 5,12
5,70 4,99
5,60 4,90
5,52 4,82
5,46 4,76
5,41 4,71
5,37 4,67
Abb. 21.15: F-Verteilung (Ausschnitt)
Die Abb. 21.15 zeigt einen Ausschnitt aus der Tabelle der F-Verteilung, die 97,5%-Quantile in Abhängigkeit von den Freiheitsgraden enthält (siehe Anhang 3, Tabelle 6): Die folgende Ermittlung von Quantilen ist auf Basis der Tabelle möglich: P(F d 8,81;m=1;n=6) = 0,975 P(F d 5,37;m=12;n=6) = 0,975. x
F-Verteilung mit EXCEL und SPSS
Für die Ermittlung von Quantilen benötigen wir in EXCEL die Funktion FINV: FINV(0,025;A1;A2), wobei in A1 und A2 die Freiheitsgrade m und n stehen und die Wahrscheinlichkeit beim Funktionsaufruf mit anzugeben ist. In SPSS wird mit dem SPSS-Dialog: Transformieren – Variable berechnen – Funktionsgruppe Verteilungsfunktionen die Funktion IDF.F aktiviert, wobei – für vorgegebene Wahrscheinlichkeiten und Freiheitsgrade – die Quantile ermittelt werden können.
335
22. Approximationen und Grenzwertsätze x Leitfragen
1) Welche Approximationen für diskrete Verteilungen gibt es? 2) Unter welchen Bedingungen nähert sich die diskrete Binomialverteilung an die stetige Normalverteilung an? 3) Wann nähert sich die t-Verteilung an die Normalverteilung an? 4) Gibt es Approximationen der Chi-Quadrat- oder der F-Verteilung an die Normalverteilung?
22.1 Approximation zwischen diskreten Verteilungen Die hypergeometrische Verteilung und auch die Poissonverteilung nähern sich unter gewissen Voraussetzungen an die Binomialverteilung an. Daher wird bei zahlreichen Zufallsexperimenten in der praktischen Statistik, die grundsätzlich den Modellannahmen der hypergeometrischen oder Poissonverteilung entsprechen, näherungsweise mit der Binomialverteilung gearbeitet. x
Approximation der hypergeometrischen durch die Binomialverteilung
Approximation der hypergeometrischen Verteilung H(n;N;M) durch die Binomialverteilung B(n;p) - Voraussetzung (22-1)
n / N d 0,05
Die Approximationsbedingung (22-1) sagt aus, dass der Auswahlsatz n/N beim Zufallsexperiment der hypergeometrischen Verteilung (Urnenmodell ohne Zurücklegen) nicht zu groß sein darf. Dann kann angenommen werden, dass sich die Urne während der einzelnen Ziehungen „nicht wesentlich“ verändert. Wir wollen anhand eines Beispiels den Prozess der Approximation erörtern. Wir haben eine dichotome Urne mit p=0,4 (Verhältnis der Kugeln 4:6 oder 40:60 etc.) vor uns, aus der n=4 Kugeln entnommen werden.
Grundlagen der Wahrscheinlichkeitsrechnung
336
Die nachfolgende Abb. 22.1 zeigt 5 Verteilungen, die alle dem Urnenmodell (4;0,4) entsprechen. Die ersten vier Verteilungen gehen vom Ziehungsmodell ohne Zurücklegen aus und von einer jeweils zunehmenden Urnengröße von N=10 bis N=1000. Diese vier hypergeometrischen Verteilungen werden mit zunehmendem Urnenumfang der rechts stehenden Binomialverteilung immer ähnlicher. Der Auswahlsatz der hypergeometrischen Verteilungen verringert sich von 0,4 (= 4/10) über 0,04 (= 4/100) und 0,02 (= 4/200) bis 0,004 (= 4/1000). Der Unterschied zur Binomialverteilung wird immer geringer.
X
H(4;10;4)
H(4;100;40)
H(4;200;80)
H(4;1000;400)
0
0,0714
0,1244
0,1270
0,1291
0,1296
1
0,3810
0,3491
0,3473
0,3459
0,3456
2
0,4286
0,3521
0,3488
0,3462
0,3456
3
0,1143
0,1512
0,1524
0,1534
0,1536
4
0,0048
0,0233
0,0245
0,0254
0,0256
B(4;0,4)
Abb. 22.1: Hypergeometrische Verteilungen approximierend an die Binomialverteilung
In der grafischen Darstellung wird die Annäherung ebenfalls deutlich:
f(x) 0,5 0,4
H(4;10;4) B(4;0,4)
0,3 0,2 0,1 0,0
X 0
1
2
3
4
f(x) 0,5 0,4
H(4;100;40) B(4;0,4)
0,3 0,2 0,1 0,0
X 0
1
2
3
4
Abb. 22.2: Approximation hypergeometrische Verteilung an die Binomialverteilung
22. Approximationen und Grenzwertsätze
337
Die obere hypergeometrische Verteilung in Abb. 22.2 zeigt den typischen Unterschied zur Binomialverteilung. Wegen des Modells „ohne Zurücklegen“ sind bei der hypergeometrischen Verteilung die Wahrscheinlichkeiten für die mittleren Werte größer als bei der Binomialverteilung. Die untere hypergeometrische Verteilung erfüllt die Approximationsbedingung (22-1) und ist der Binomialverteilung bereits sehr ähnlich. x
Approximation der Poissonverteilung durch die Binomialverteilung
Auch die Poissonverteilung kann unter bestimmten Voraussetzungen durch die Binomialverteilung approximiert werden.
Approximation der Poissonverteilung P(O O) durch die Binomialverteilung B(n;p) - Voraussetzung
n t 30 und p d 0,1
(22-2)
X
Ps(1,0)
Ps(3,0)
Ps(2,0)
B(30;0,1)
0
0,3679
0,0498
0,1353
0,0424
1
0,3679
0,1494
0,2707
0,1413
2
0,1839
0,2240
0,2707
0,2277
3
0,0613
0,2240
0,1804
0,2361
4
0,0153
0,1680
0,0902
0,1771
5
0,0031
0,1008
0,0361
0,1023
6
0,0005
0,0504
0,0120
0,0474
7
0,0001
0,0216
0,0034
0,0180
8
0,0000
0,0081
0,0009
0,0058
9
0,0000
0,0027
0,0002
0,0016
10
0,0000
0,0008
0,0000
0,0004
11
0,0000
0,0002
0,0000
0,0001
Abb. 22.3: Approximation der Poissonverteilung an die Binomialverteilung
Die zunehmende Ähnlichkeit von Poisson- und Binomialverteilung kommt in Abb. 22.3 deutlich zum Ausdruck, da die Poisson-Wahrscheinlichkeiten mit zunehmendem Stichprobenumfang n von den Binomial-Wahrscheinlichkeiten nur noch geringfügig abweichen. Es wird jeweils von p = 0,1 ausgegangen. Dies führt zu einem O = 1,0 bzw. 2,0 und 3,0, wenn wir ein n von 10 bzw. 20 und 30 unterstellen.
Grundlagen der Wahrscheinlichkeitsrechnung
338
Die Parameter der Verteilung Ps(3,0) entsprechen damit genau den Grenzen für die Approximation. Grafisch wird die unterschiedliche Verteilungsform zwischen Ps(1,0) und der Binomialverteilung besonders deutlich ebenso wie die Ähnlichkeit der Verteilungen, wenn die Bedingungen der Approximation erfüllt sind (siehe Abb. 22.4).
f(x)
0,4
Ps(1,0)
0,3
Ps(3,0) B(30;0,1)
0,2
0,1
0,0 0
1
2
3
4
5
6
7
8
9
10
X Abb. 22.4: Approximation der Poisson- an die Binomialverteilung
22.2 Approximation zwischen diskreten und stetigen Verteilungen Diskrete Verteilungen können näherungsweise auch durch stetige Verteilungen dargestellt werden. Dabei ist von besonderem Interesse, ob eine diskrete Verteilung durch die stetige Normalverteilung approximiert werden kann. x
Approximation der Binomialverteilung durch die Normalverteilung
Approximation der Binomialverteilung B(n;p) durch die Normalverteilung N(np; np(1-p) ) - Voraussetzung (22-3)
np t 5
(22-4)
np(1-p) ! 9
und
n(1-p) t 5
oder alternativ
22. Approximationen und Grenzwertsätze
339
Hinter den Bedingungen (22-3) und (22-4) steht die Erkenntnis, dass die Binomialverteilung immer symmetrischer wird, je mehr der Stichprobenumfang n und/oder der Anteilswert p zunehmen. Die zweite Bedingung (22-4) ist strenger und stellt auf den Ausgleich eines sehr kleinen p durch einen großen Stichprobenumfang ab. Die Genauigkeit der ersten Bedingung (22-3) ist für die Schätz- und Testverfahren der Kapitel 24 und 26 ausreichend. Der Fall einer unsymmetrischen und einer symmetrischen Verteilung entsprechend der Bedingung (22-4) ist in der grafischen Darstellung der Abb. 22.5 zu sehen.
f(x) 0,3
B(10;0,1)
0,2
B(10;0,5) N(5;1,58) 0,1
0,0 0
1
2
3
4
5
6
7
8
9
10
X
Abb. 22.5: Approximation der Binomial- an die Normalverteilung
x
Stetigkeitskorrektur
Es ist zu beachten, dass bei der hier diskutierten Approximation eine diskrete durch eine stetige Verteilung angenähert wird. Für die dazugehörigen Wahrscheinlichkeiten bedeutet dies, dass zunächst für die diskrete Verteilung einzelne, unterschiedliche (diskrete) Wahrscheinlichkeiten direkt aus der Tabelle entnommen und addiert werden können (Binomialverteilung). Die Wahrscheinlichkeiten der Normalverteilung werden dagegen über Intervalle und dazugehörige Flächen ermittelt. Die Korrektur der dabei auftretenden Ungenauigkeiten ist als Stetigkeitskorrektur bekannt und kann am besten anhand einer grafischen Darstellung veranschaulicht werden (siehe Abb. 22.6).
Grundlagen der Wahrscheinlichkeitsrechnung
340
f(x) 0,3
B(10;0,5)
0,2
N(5;1,58) 0,1
0,0 0
1
2
3
4
5
6
7
8
9
10
X Abb. 22.6: Stetigkeitskorrektur
Als Beispiel für eine Berechnung mit bzw. ohne Stetigkeitskorrektur wird die Wahrscheinlichkeit P(6 d X d 7) gesucht. Dabei wird eine Binomialverteilung B(10;0,5), die einen Erwartungswert von 5,0 und eine Varianz von 2,5 besitzt, approximiert durch die entsprechende Normalverteilung mit demselben Erwartungswert und derselben Streuung (Standardabweichung: 1,58). Bedingung (22-3) ist damit erfüllt. - Exakte Wahrscheinlichkeit für die Binomialverteilung: Summe der beiden Säulenflächen bei X = 6 und X = 7: 0,205 + 0,117 = 0,322. Die einzelnen Werte können der Tabelle 1 in Anhang 3 entnommen werden. - Näherungs-Wahrscheinlichkeit für die Normalverteilung: Wir können Tabelle 3 im Anhang verwenden oder – wegen der größeren Genauigkeit – mit EXCEL arbeiten:
x-Wert
z-Wert
F(z)
7,5
1,5823
0,9432
7,0
1,2658
0,8972
6,0
0,6329
0,7366
5,5
0,3165
0,6242
Abb. 22.7: EXCEL-Ausgabe von Wahrscheinlichkeiten der Normalverteilung
22. Approximationen und Grenzwertsätze
341
Wir erhalten die Wahrscheinlichkeit für die Normalverteilung ohne Stetigkeitskorrektur: )((7 - 5)/1,58) - )((6 - 5)/1,58) = )(1,2658) - )((0,6329) = = 0,8972 – 0,7366 = 0,1606 Es ist festzustellen, dass diese Wahrscheinlichkeit nur etwa halb so groß ist wie der zu approximierende Wert von 0,322. Wir haben die Fläche zwischen den beiden Doppelpfeilen in Abb. 22.6 berechnet und damit auch nur etwa die Hälfte der Fläche der beiden Säulen erhalten. Gehen wir an der Unter- und Obergrenze des Intervalls jeweils um 0,5 nach außen, dann ergibt sich: )((7,5 - 5)/1,58) - )((5,5 - 5)/1,58) = )(1,5823) - )((0,3165) = = 0,9432 – 0,6242 = 0,3190 Dieses Ergebnis liegt sehr nahe an der exakten Wahrscheinlichkeit von 0,322.
Allgemein gilt für die Approximation mit Stetigkeitskorrektur folgende Formel:
Stetigkeitskorrektur bei der Approximation B(n;p) durch N(np; np(1-p) )
(22-5)
P(a d X d b)
)(
b 0,5 np a 0,5 np ) )( ) np(1 p) np(1 p)
Die Verbesserung der Genauigkeit einer Approximation durch die Stetigkeitskorrektur ist hier besonders deutlich. Weniger gravierend ist der Unterschied, wenn die Binomialverteilung die Approximationsbedingung (22-4) tatsächlich erfüllt und insbesondere wenn der Stichprobenumfang n relativ groß ist. x
Approximation der hypergeometrischen und der Poissonverteilung durch die Normalverteilung
Wollen wir die hypergeometrische Verteilung durch die Normalverteilung approximieren, dann muss zunächst die Bedingung für die Annäherung an die Binomialverteilung (Formel 22-1) erfüllt sein. Liegt zusätzlich die Voraussetzung für die Annäherung der Binomialverteilung an die Normalverteilung vor, kann die Approximation – wie eben gezeigt – erfolgen.
Grundlagen der Wahrscheinlichkeitsrechnung
342
Für die Poissonverteilung gilt:
Approximation der Poissonverteilung P(O O) durch die Normalverteilung N(O;O) - Voraussetzung (22-6)
O t 10
Bei einem O von mindestens 10 ist die Poissonverteilung fast exakt symmetrisch, so dass wir mit der Normalverteilung arbeiten können.
22.3 Approximation zwischen stetigen Verteilungen x
Approximation der t-Verteilung durch die Normalverteilung
Die t-Verteilung nähert sich der Normalverteilung an, wenn die Zahl der Freiheitsgrade eine gewisse Mindestgröße überschreitet. Dies haben bereits die Abbildungen 21.11 und 21.12 in Kapitel 21 verdeutlicht.
Approximation der t-Verteilung t(n) durch die Normalverteilung N(0;1) - Voraussetzung (22-7)
n t 30
Unter Bedingung (22-7) ist die Varianz der – um den Erwartungswert 0 symmetrischen – t-Verteilung ähnlich der Varianz der Normalverteilung. Wir werden von dieser Eigenschaft bei zahlreichen Verfahren der schließenden Statistik (siehe Kapitel 23 ff.) Gebrauch machen. x
Approximation der Chi-Quadrat- und der F-Verteilung durch die Normalverteilung
Auch für die Chi-Quadrat und die F-Verteilung gibt es jeweils eine Annäherung an die Normalverteilung (siehe Abb. 21.9 und 21.14 in Kapital 21). Als Bedingung für eine hinreichende Genauigkeit muss – in beiden Fällen – die Zahl der Freiheitsgrade mindestens 30 betragen.
22. Approximationen und Grenzwertsätze
343
Diese Approximationen haben für die grundlegenden Verfahren der praktischen Statistik keine spezielle Bedeutung und werden deshalb nicht weiter erörtert.
22.4 Grenzwertsätze Die Annäherung zahlreicher Verteilungen an die Normalverteilung ist kein zufälliges Phänomen. Dahinter stehen Grenzwertsätze der Statistik, die von allgemeiner Gültigkeit sind.
22.4.1 Zentraler Grenzwertsatz Der Zentrale Grenzwertsatz bezieht sich auf eine Folge von Zufallsvariablen, die identisch verteilt sind. Werden diese Variablen zu einer Summe zusammengefasst, dann konvergiert die Verteilung der Summenvariablen gegen die Normalverteilung. Da eine solche Summenvariable Bestandteil des arithmetischen Mittels ist, kann folgendes ausgesagt werden.
Zentraler Grenzwertsatz - Ist X1, X2 ... Xn eine Folge von n unabhängigen und identisch verteilten Zufallsvariablen, dann ist die Summe X = X1 + X2 + ... + Xn normalverteilt. - Damit gilt für die Variable X ¯ = 1/n (X1 + X2 + ...+ Xn) nach Standardisierung:
(22-8)
Z
X E( X) V( X)
ist N(0;1), d.h. standardnormalverteilt, wenn n ! 30.
Das Grundprinzip des Zentralen Grenzwertsatzes kann man – bei Vorliegen einer Gleichverteilung – schon bei einer geringen Zahl von Elementen n erkennen. Wir wollen hierfür das Würfelbeispiel mit 2 Würfen heranziehen. Die nachfolgende Tabelle in Abb. 22.8 zeigt alle 36 Kombinationen, die sich beim zweimaligen Würfelwurf ergeben. In den Tabellenfeldern sind die Ausprägungen der Summenvariablen X = X1+X2 zu sehen. Dies ist die Summe der Augenzahlen aus dem ersten und dem zweiten Wurf. Bereits diese Tabelle lässt erkennen, dass die „mittleren“ Werte (insbesondere 7) wesentlich häufiger vorkommen als die extrem kleinen oder die extrem großen Werte. Stellen wir diese Häufigkeitsverteilung als Wahrscheinlichkeitsverteilung grafisch dar, dann zeigt sich in Abb. 22.9 eine symmetrische Verteilung der Summenvariablen X, die einer Normalverteilung bereits sehr ähnlich ist. Allgemein entspricht die Verteilung einer Summenvariablen bei einer größeren Anzahl von
Grundlagen der Wahrscheinlichkeitsrechnung
344
Summanden der Gestalt einer Normalverteilung. Mittlere Ergebnisse sind wesentlich wahrscheinlicher als sehr kleine oder sehr große Werte.
X2
1
2
3
4
5
6
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
X1
Abb. 22.8: Zentraler Grenzwertsatz beim Würfelwurf
f(x) 0,20 0,15
0,10
0,05
0,00 2
3
4
5
6
7
8
9
10
11
12
X Wahrscheinlichkeiten
Normalverteilung
Abb. 22.9: Zentraler Grenzwertsatz – grafisch dargestellt
Die Wahrscheinlichkeiten bleiben unverändert, wenn alle Werte in Tabelle 22.8 durch 2 geteilt werden. Dadurch entstehen Mittelwerte für den zweimaligen Würfelwurf. Hier ist das Ergebnis von 3,5 am wahrscheinlichsten, und die beiden Werte 1,0 und 6,0 sind am unwahrscheinlichsten. Die Standardisierung dieser Mittelwertvariablen führt zur Standardnormalverteilung gemäß Formel (22-8). Die hier skizzierten Eigenschaften sind bei einer unsymmetrischen Ausgangsverteilung erst für eine größere Zahl von n zu beobachten und gelten allgemein für n ! 30. Dies ist für die praktische induktive Statistik von großer Bedeutung und wird daher in den folgenden Kapiteln mehrfach aufgegriffen.
22. Approximationen und Grenzwertsätze
345
22.4.2 Grenzwertsatz von DeMoivre-Laplace Eine Variante des Zentralen Grenzwertsatzes bezieht sich auf das Modell der Binomialverteilung und wird als Grenzwertsatz von DeMoivre-Laplace – benannt nach zwei französischen Statistikern – bezeichnet.
Grenzwertsatz von DeMoivre-Laplace - Mit zunehmender Zahl n von Bernoulli-Experimenten, die einer Binomialverteilung zugrundeliegen, strebt die binomialverteilte Variable X nach Standardisierung (22-9)
Z
X E( X) gegen N(0;1), die Standardnormalverteilung. V( X)
Dieser Grenzwertsatz war eine der wichtigsten Entdeckungen der klassischen Statistik (im Jahre 1711) und kann in den später zu erörternden Schätz- und Testverfahren genutzt werden. In grafischer Darstellung zeigt Abb. 22.10 die entsprechende Approximation: Die linke Binomialverteilung mit p = 0,2 und n = 15 ist noch etwas unsymmetrisch und wird durch die Normalverteilung nicht sehr genau approximiert. Die rechte Binomialverteilung mit demselben p = 0,2 und dem größeren n = 60 entspricht schon recht genau dem Verlauf der dazugehörigen Normalverteilung.
f(x) 0,30 B(15;0,2) B(60;0,2) N(3;1,55) N(12;3,10)
0,25 0,20 0,15 0,10 0,05 0,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
X
Abb. 22.10: Grenzwertsatz von De-Moivre-Laplace
347
TEIL V GRUNDLAGEN DER INDUKTIVEN STATISTIK
23. Punktschätzung x Leitfragen
1) Was sind die Ziele und Aufgaben der induktiven Statistik? 2) Welche Aussagen erlaubt die Punktschätzung? 3) Welche unterschiedlichen Verfahren für quantitative und qualitativen Variablen gibt es? 4) Was sind wünschenswerte Eigenschaften von Punktschätzungen?
23.1 Ziele und Aufgaben der induktiven Statistik Die induktive statistische Analyse stützt sich auf Methoden, die aufgrund von Ergebnissen einer Stichprobe Aussagen über eine Grundgesamtheit ermöglichen. Typische Beispiele hierfür sind Befragungen einer Zufallsstichprobe von Kunden, von Mitgliedern oder Wahlberechtigten etc., wobei von den Stichprobenergebnissen auf die Grundgesamtheit aller Kunden, Mitglieder oder Wahlberechtigten geschlossen werden soll. Zum einen sieht die induktive Statistik die Berechnung von Parametern für Stichproben (Lage- und Streuungsmaße) vor. Zum andern ermöglicht sie Aussagen über Sicherheit und Verlässlichkeit der Stichprobenergebnisse (vgl. Kapitel 24 ff.). x
Schätzfunktionen für Parameter der Grundgesamtheit
Die induktive Statistik stellt Schätzfunktionen für Stichproben bereit. Hier kommt häufig die Momentenmethode zur Anwendung. Die Schätzformeln für die Stichprobe werden dabei den entsprechenden Formeln für die Grundgesamtheit nachgebildet. Die folgende Übersicht verdeutlicht dies. Alle Schätzungen erfolgen analog den Berechnungen in der Grundgesamtheit. Ein Unterschied lässt sich feststellen, wenn wir die Varianzformeln vergleichen. Die „induktive“ Varianz der Stichprobe verwendet als Quotienten n-1, die „deskriptive“ Varianz der Grundgesamtheit verwendet n. Dies liegt an der Eigenschaft der Erwartungstreue, die wir in Abschnitt 23.3 erörtern werden.
Grundlagen der induktiven Statistik
348
Schätzfunktionen und Parameter der Grundgesamtheit Schätzfunktionen der Stichprobe
n
- Umfang
s2
- Anteilswert (qualitativ)
N 1 n ¦ xi ni 1
x
- Mittelwert (quantitativ)
- Varianz (quantitativ)
Parameter der Grundgesamtheit
1 n ( x i x )2 ¦ n 1i 1
p
m n
1 N ¦ xi Ni 1
P
V2
1 N ( x i P)2 ¦ Ni 1
p
M N
Der obige Anteilswert ist der Quotient aus der Anzahl „relevanter“ Elemente durch die Anzahl der Elemente insgesamt. So kommt z.B. der Stimmenanteil einer Partei A bei einer Wahl mit p = 0,42 (d.h. 42%) dadurch zustande, dass die Anzahl der für diese Partei abgegebenen Stimmen (= M) durch die Anzahl der insgesamt abgegebenen und gültigen Stimmen (= N) dividiert wird. Die analoge Berechnung von p ¯ wird bei einer Stichproben-Befragung einer Anzahl von n Wahlberechtigten durchgeführt, unter denen eine Anzahl m die Partei A wählen würde.
23.2 Zufallsstichproben und Stichprobenvariablen x
Zufallsstichproben
Basis einer statistischen Schätzung ist im Allgemeinen eine Zufallsstichprobe. So wird im einfachsten Fall eine zufällige Stichprobe dadurch festgelegt, dass jedes der N Elemente einer Grundgesamtheit die gleiche Wahrscheinlichkeit besitzt, in die Stichprobe von n Elementen zu gelangen. In der Praxis werden häufig Schichtungen vorgenommen, die sicherstellen, dass bestimmte Gruppierungen der Grundgesamtheit – z.B. Aufteilung in männlich/weiblich oder in einzelne Altersklassen – proportional in der Stichprobe vertreten sind. Die Ermittlung der zu ziehenden Elemente entspricht einem Urnenmodell. Üblicherweise werden hierfür Zufallszahlen per Computer generiert, die die laufenden Nummern der zu ziehenden Elemente angeben. Liegt eine umfangreiche Computerdatei vor, z.B. eine Kundendatei mit einigen Tausend Einträgen, kann das Verfahren der Zufallszahlen direkt innerhalb der Datei angewandt werden. Hier wird
23. Punktschätzung
349
per Zufallszahlengenerator eine Markierung der ausgewählten Kunden vorgenommen, die dann angeschrieben oder angerufen werden. Für telefonische Befragungen kann man die Telefonnummern zufällig generieren. Bei überregionalen Befragungen ist darauf zu achten, dass die Vorwahlnummern verschieden große Gesamtheiten betreffen. Aber auch bei den Telefonnummern selbst kann eine regionale oder anderweitige Verzerrung vorliegen, die man in eine repräsentative Aufteilung überführen muss. x
Stichprobenvariablen
Die in Abschnitt 23.1 vorgestellten Schätzfunktionen für Stichproben sind Zufallsvariablen für Zufallsstichproben. Diese Zufallsvariablen besitzen eine Wahrscheinlichkeitsverteilung sowie einen Erwartungswert und eine Varianz. Die Verfahren des Schätzens setzen an diesen drei statistischen Eigenschaften der Stichprobenvariablen an. Daher folgt nun eine gründliche (exemplarische) Erörterung dieses Sachverhalts. Wir können die drei Eigenschaften anhand der Schätzung des Mittelwerts aufzeigen und nachvollziehen. Zwar erfolgt die praktische Schätzung des Mittelwerts dadurch, dass für eine Stichprobe der Durchschnitt errechnet und als Schätzwert bezeichnet wird. Um nun das Vorliegen einer Zufallsvariablen zu erörtern, müssen wir „alle möglichen“ Stichproben aus einer Grundgesamtheit betrachten. Beispiel: In einer Urne (Grundgesamtheit) befinden sich 6 Kugeln (N=6) mit den Ausprägungen 1, 2, 3, 4, 5 und 6. Wir entnehmen dieser Grundgesamtheit 2 Kugeln (n = 2) mit Zurücklegen. Diese Stichprobenziehung entspricht dem zweimaligen Würfelwurf. Als Stichprobenergebnis bezeichnen wir den Durchschnittswert der beiden gezogenen Kugeln. Es ergibt sich die folgende Darstellung „aller möglichen“ Stichprobenergebnisse:
X2
1
2
3
4
5
6
1
1,0
1,5
2,0
2,5
3,0
3,5
2
1,5
2,0
2,5
3,0
3,5
4,0
3
2,0
2,5
3,0
3,5
4,0
4,5
4
2,5
3,0
3,5
4,0
4,5
5,0
5
3,0
3,5
4,0
4,5
5,0
5,5
6
3,5
4,0
4,5
5,0
5,5
6,0
X1
Abb. 23.1: Stichprobenmittelwerte beim zweimaligen Würfelwurf
Grundlagen der induktiven Statistik
350
Die zu Abb. 23.1 gehörende Zufallsvariable ist die Mittelwertschätzung aus einer Stichprobe. Sie lautet:
X
1 2 ¦ Xi 2i 1
1 ( X1 X 2 ) 2
Hierbei sind die Variablen X1 und X2 die Ergebnisse des ersten bzw. des zweiten Zuges (Wurfes) und ergeben die Spalten und Zeilen der obigen Tabelle in Abb. 23.1. Wir erkennen, dass die Stichprobenvariable X ¯ eine Transformation der beiden Variablen X1 und X2 darstellt (vergleiche Formel 23-1). Die möglichen Stichprobenmittelwerte liegen zwischen 1,0 (wenn beide Würfel die Augenzahl 1 zeigen) und 6,0 (wenn beide Würfel 6 zeigen). Auf Basis der Tabelle in Abb. 23.1 lässt sich die Wahrscheinlichkeitsverteilung der Stichprobenvariablen durch Auszählen der „Häufigkeiten“ der einzelnen Ausprägungen ableiten und grafisch darstellen.
f ( x ) 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
6,0
X
Abb. 23.2: Wahrscheinlichkeitsverteilung von X ¯
Die Zufallsvariable X ¯ ist offensichtlich symmetrisch verteilt und besitzt einen Erwartungswert von 3,5, den wir wie folgt erhalten: E(X ¯ ) = 1,0 . 1/36 + 1,5 . 2/36 + 2,0 . 3/36 + ...+ 5,5 . 2/36 + 6,0 . 1/36 = 3,5. Somit beträgt der Durchschnittswert aller möglichen Stichprobenmittelwerte 3,5. Im praktischen Experiment resultiert bei einer langen Folge 2-maligen Würfelns im Durchschnitt 3,5 als Mittelwert der beiden Augenzahlen. Relativ selten ergibt sich 1,0 bzw. 6,0. Am häufigsten ist der Wert 3,5 und relativ oft sind Werte zwischen 2,5 und 4,5 zu erwarten.
23. Punktschätzung
351
Die Streuung der Stichprobenfunktion können wir wie folgt berechnen: V(X ¯ ) = (1 - 3,5) 2 . 1/36 + (1,5 - 3,5) 2 . 2/36 ... = 1,4583. Die dazugehörige Standardabweichung von ca. 1,2 drückt aus, dass die Stichprobenmittelwerte im Durchschnitt um etwa 1,2 um den Wert von 3,5 herum schwanken. Sehen wir uns nun zum Vergleich die Verteilung sowie den Lage- und den Streuungsparameter der Grundgesamtheit an. Die Wahrscheinlichkeitsverteilung für die Variable X (Augenzahl beim Würfelwurf) ist bekanntlich eine Gleichverteilung für die 6 Augenzahlen mit den dazugehörigen Wahrscheinlichkeiten von jeweils 1/6. Mittelwert und Streuung können wir wie folgt berechnen: - Mittelwert/Erwartungswert der Variablen X (Augenzahl):
P
1
1 1 1 2 ... 6 6 6 6
3,5
- Varianz/Streuung der Variablen X (Augenzahl):
V2
(1 3,5)2
1 1 1 (2 3,5)2 ... (6 3,5)2 6 6 6
2,9167
Der Zusammenhang dieser Ergebnisse der Grundgesamtheit und der obigen Aussagen zur Schätzfunktion für das arithmetische Mittel lässt sich nun formelmäßig – und gleichzeitig angewandt auf unser Beispiel – wie folgt darstellen:
- Erwartungswert der Schätzfunktion:
E( X)
P
3,5
- Streuung der Schätzfunktion:
V( X)
V2 n
2,9167 2
1,4583
Wir erkennen, dass die Schätzfunktion für den Mittelwert – im Durchschnitt aller möglichen Stichproben betrachtet – das richtige Ergebnis von P liefert. Die Streuung (Varianz) der Stichprobenfunktion ist der n-te Teil der Streuung der Grundgesamtheit.
352
Grundlagen der induktiven Statistik
Diese Ergebnisse sind für die vorliegenden Schätzfunktionen allgemein gültig und werden in zahlreichen weiteren Verfahren und Formeln verwendet.
23.3 Schätzfunktionen und ihre Eigenschaften Schätzfunktionen sind Funktionen von Zufallsvariablen, die Einzelergebnisse einer Zufallsstichprobe zu einem Schätzergebnis zusammenfassen. Die Eigenschaften der oben erörterten Schätzfunktion für den Mittelwert sind für alle Schätzfunktionen von grundlegender Bedeutung und werden als „wünschenswerte“ Eigenschaften von Schätzfunktionen bezeichnet.
Wünschenswerte Eigenschaften von Schätzfunktionen - Erwartungstreue Eine Schätzfunktion heißt erwartungstreu, wenn ihr Erwartungswert gleich dem zu schätzenden Parameter ist.
- Konsistenz Eine Schätzfunktion heißt konsistent, wenn der berechnete Schätzwert bei Vergrößerung des Stichprobenumfangs (n o f) gegen den zu schätzenden Parameter konvergiert.
- Effizienz Unter sämtlichen erwartungstreuen Schätzfunktionen ist diejenige effizient, die bei gleichem Stichprobenumfang die kleinste Varianz besitzt.
Die oben exemplarisch erörterte Schätzfunktion X ¯ für den Erwartungswert ist damit erwartungstreu. Im Durchschnitt aller möglichen Stichproben liefert sie das richtige Ergebnis P. Konsistenz liegt ebenfalls vor, weil mit zunehmendem Stichprobenumfang die Varianz der Schätzung immer kleiner wird und damit die Abweichung vom wahren Mittelwert (mit Wahrscheinlichkeit) immer geringer wird. Die Schätzfunktion ist außerdem effizient, da es keine andere erwartungstreue Schätzfunktion für P gibt, die eine geringere Varianz aufweist. Fassen wir alle relevanten Schätzfunktionen und ihre Parameter zusammen, so erhalten wir die nachfolgende Übersicht:
23. Punktschätzung
353
Schätzfunktionen und relevante Parameter - Quantitative Variable ¾ Schätzung des Mittelwerts P
(23-1)
1 n ¦ Xi ni 1
X
mit
E( X)
P
und
V( X)
V2 n
sowie
V( X)
V 2 N n (M.o.Z.) n N 1
(M.m.Z.)
¾ Schätzung der Varianz V2
(23-2)
S2
1 n ¦ ( Xi X)2 n 1i 1
mit
E(S 2 )
V2
- Qualitative Variable ¾ Schätzung des Anteilswerts p
(23-3)
P
m n
mit
E( P )
p
und
V( P )
p(1 p) n
(M.m.Z.)
sowie
V( P )
p(1 p) N n n N1
(M.o.Z.)
Zur Erörterung der Schätzung der Varianz werden in der folgenden Abb. 23.3 alle möglichen Stichprobenergebnisse für die Varianz beim zweimaligen Würfelwurf gezeigt.
Grundlagen der induktiven Statistik
354
X2
1
2
3
4
5
6
1
0,0
0,5
2,0
4,5
8,0
12,5
2
0,5
0,0
0,5
2,0
4,5
8,0
3
2,0
0,5
0,0
0,5
2,0
4,5
4
4,5
2,0
0,5
0,0
0,5
2,0
5
8,0
4,5
2,0
0,5
0,0
0,5
6
12,5
8,0
4,5
2,0
0,5
0,0
X1
Abb. 23.3: Schätzergebnisse für die Varianz beim zweimaligen Würfelwurf
Die einzelnen Schätzungen kommen wie folgt zustande: 0,0 = 1/1 ((1,0 – 1,0) 2 + (1,0 – 1,0) 2) 0,5 = 1/1 ((2,0 – 1,5) 2 + (1,0 – 1,5) 2) usw. Der Erwartungswert dieser Ergebnisse ist gleich: E(S2) = 0,0 . 6/36 + 0,5 . 10/36 + 2,0 . 8/36 + ... = 2,9167 Dies ist die Varianz der Grundgesamtheit. Damit entspricht dieses Ergebnis der Aussage in Formel (23-2), dass S2 eine erwartungstreue Schätzfunktion ist. Ein Beispiel für die Schätzung des Anteilswerts muss nicht gesondert erörtert werden, da der Anteilswert der Mittelwert einer 0-1-Variablen ist (siehe Abschnitt 19.5). Damit weist er dieselben Eigenschaften auf, wie die Schätzfunktion des arithmetischen Mittels und deren Erwartungswert.
23.4 Interpretation der Punktschätzung x
Mittelwert
Die Stichprobenschätzung eines Mittelwerts bietet einen möglichen Wert für die Grundgesamtheit an. Wir werden diesem Wert grundsätzlich mehr „Vertrauen“ entgegenbringen, wenn die Streuung in der Grundgesamtheit bzw. in der Stichprobe nicht sehr groß ist. Ist dies aber der Fall, muss in Verbindung mit dem Mittelwert die gesamte Verteilung in der Stichprobe betrachtet werden, um einen brauchbaren Gesamteindruck über das Schätzergebnis des Mittelwerts zu erhalten.
23. Punktschätzung
x
355
Streuung
Die Berechnung der Streuung innerhalb einer Stichprobe erfüllt eine doppelte Funktion. Zum einen liefert sie eine Schätzung für die Streuung der Grundgesamtheit, zum anderen eine Aussage über die Homogenität oder Heterogenität innerhalb der Stichprobe. Dies wiederum lässt Aussagen über die „Genauigkeit“ der Mittelwertschätzung zu. Wir werden diesen Aspekt im Kapitel über die Intervallschätzung wieder aufgreifen (siehe Kapitel 24). x
Anteilswert
Die Schätzung des Anteilswerts und seiner Varianz können in derselben Weise interpretiert werden wie die Schätzungen quantitativer Mittelwerte und Streuungen.
23.5 Punktschätzung mit EXCEL und SPSS Die Computerprogramme EXCEL und SPSS ermöglichen die Berechnung von Schätzwerten durch den Aufruf der Schätzfunktionen (Funktions-Assistent in EXCEL) oder die Anwendung der entsprechenden Programmoptionen (in SPSS). Wir wollen an einem Beispiel aus dem Master-Projekt die Ergebnisse der PCAnwendung erörtern: 20 zufällig ausgewählte Kunden eines Fortbildungsveranstalters werden nach ihrem monatlichen Einkommen gefragt. Die Angaben werden verwendet, um das Durchschnittseinkommen und die Streuung des Einkommens aller Kunden zu schätzen. Außerdem werden die 20 Teilnehmer danach gefragt, ob sie mit dem zuletzt besuchten Seminar zufrieden waren. Diese Angaben dienen der Schätzung des Zufriedenheitsgrades der Kunden. Die Daten für unser Beispiel sind in Abb. 23.4 als EXCEL-Tabelle (zusammen mit den Ergebnissen) zu sehen. Über den Funktions-Assistenten werden die einzelnen Schätzparameter MITTELWERT, VARIANZ oder STABW abgerufen. Dabei ist zu beachten, dass der Anteilswert als MITTELWERT der 0-1-Variablen „Zufriedenheit“ mit 0 = unzufrieden, 1 = zufrieden berechnet wurde und damit den Anteil der zufriedenen Teilnehmer darstellt.
Dieselben Daten werden mit SPSS ausgewertet über den SPSS-Dialog: Analysieren – Deskriptive Statistiken – Explorative Datenanalyse (oder Häufigkeiten).
Die dazugehörige Ergebnisausgabe (aus: Explorative Datenanalyse) für die Variable Einkommen ist in Abb. 23.5 zu sehen.
356 Teilnehmer A B C D E F G H I J K L M N O P Q R S T
Grundlagen der induktiven Statistik
Einkommen Zufriedenheit 3150 0 3100 1 3000 1 5200 1 7300 0 6450 0 3200 1 4900 1 5840 1 5200 1 4100 1 3000 0 7250 1 7300 1 4600 1 5800 1 4100 0 2950 1 5300 1 5200 1
Mittelwert
4847,00
Varianz
2268285,26
St-Abw.
1506,08
Anteilswert
0,7500
Abb. 23.4: Punktschätzung mit EXCEL
EINKOMM
Mittelwert Median Varianz Standardabweichung Minimum Maximum
Statistik 4847,0000 5050,0000 2268285 1506,0828 2950,00 7300,00
Standardfehler 336,7703
Abb. 23.5: Punktschätzung mit SPSS
Von SPSS werden neben den bereits in EXCEL berechneten Ergebnissen weitere Parameter angeboten, sowie der Standardfehler des Mittelwerts. Dies ist die Schätzung der Standardabweichung der Schätzfunktion, ermittelt aus der Varianz der Stichprobe. Der Standardfehler von 336,7703 ist die Wurzel aus s2/n, hier aus: 2.268.285 / 20. Diese Streuung der Schätzfunktion kann für die Beurteilung der Genauigkeit der Schätzung verwendet werden.
357
24. Intervallschätzung x Leitfragen
1) Inwiefern ergänzt die Intervallschätzung die Punktschätzung? 2) Was versteht man unter einem Konfidenzintervall? 3) Wodurch unterscheiden sich die Formeln für die Konfidenzintervalle? 4) Wie erhält man den für eine bestimmte Sicherheit und Genauigkeit notwendigen Stichprobenumfang?
24.1 Grundlagen und Ablauf der Intervallschätzung x
Grundlagen
Die Intervallschätzung geht von einer Punktschätzung aus und gibt einen Bereich „um den Schätzwert herum“ an, der „mit hoher Wahrscheinlichkeit“ den wahren Wert der Grundgesamtheit überdeckt. Die Festlegung dieser Wahrscheinlichkeit (Sicherheitsgrad) ist eine der Aufgaben der Intervallschätzung. Wir nennen diese Wahrscheinlichkeit auch Vertrauensniveau (Vertrauen = Konfidenz) und die Intervallschätzung daher Konfidenzschätzung. Neben dem Konfidenzniveau müssen die Zufallsvariable der Schätzfunktion und deren Verteilung festgelegt werden. Und schließlich sind die Intervallgrenzen rechnerisch zu ermitteln. Ausgangspunkt der Intervallschätzung ist die Schätzfunktion und ihre Verteilung. Wir greifen zur Darlegung dieses Themas ein Zahlenbeispiel aus dem Kapitel der Punktschätzung wieder auf (siehe Abb. 23.1). Dabei ist der Mittelwert einer Grundgesamtheit zu schätzen. Wir gehen von der Grundgesamtheit einer Urne mit den 6 Kugeln 1, 2, 3, 4, 5 und 6 aus und führen die Schätzung anhand einer „mehrmaligen“ Ziehung aus dieser Urne durch. Die Zufallsvariable der Schätzfunktion ist symmetrisch verteilt (siehe Abbildung 23.2). Unter gewissen Voraussetzungen, z.B. bei einer hinreichend großen Zahl von Entnahmen, können wir von einer Normalverteilung dieser Schätzvariablen ausgehen (siehe auch Zentraler Grenzwertsatz in Abschnitt 22.4.1). Auf dieser Annahme basieren die Grundlagen der Intervallschätzung. Sehen wir uns die Verteilung für die o.g. Mittelwertschätzung an. Abb. 24.1 zeigt die Normalverteilung der Mittelwertschätzung und drei Wahrscheinlichkeitsbereiche: D/2 am linken Rand, 1-D im mittleren Bereich der Verteilung und D/2 am rechten Rand.
Grundlagen der induktiven Statistik
358
Die Intervallschätzung bezieht sich auf den mittleren Bereich mit einer Wahrscheinlichkeit von 1-D. Dabei ist 1-D meist ein Wert von 90%, 95% oder sogar 99%. Dies ist der Bereich, in dem die Mittelwertschätzung mit „an Sicherheit grenzender Wahrscheinlichkeit“ liegt. Ein dazu berechnetes Konfidenzintervall mit z.B. 1-D = 0,99 sagt aus, dass 99 von 100 ermittelten Intervallen (d.h. 99% aller möglichen Intervalle) den wahren Wert überdecken!
f (x)
1 D
D 2
D 2
X Abb. 24.1: Konfidenzintervall mit Wahrscheinlichkeit 1-D
Die Eigenschaften der Normalverteilung lassen sich auf die Verteilung der Stichprobenvariablen anwenden, so dass für die Mittelwertschätzung die folgenden Bereiche in Abb. 24.2 angegeben werden können:
f (x)
1 V x
P Vx
E( X)
1 V x
P
P Vx
Abb. 24.2: Das 1V-Intervall der Normalverteilung bei Konfidenzschätzungen
X
24. Intervallschätzung
359
Gemäß der Tabelle der Standardnormalverteilung beträgt die Wahrscheinlichkeit für das 1V-Intervall bei jeder Normalverteilung ca. 68%. Das bedeutet für Abb. 24.2, dass 68% aller möglichen Stichprobenmittelwerte – bei einer Durchführung von vielen Schätzungen – in diesem Intervall liegen würden. Die Intervallschätzungen gehen üblicherweise von einer Wahrscheinlichkeit von mindestens 90% aus. Wir wollen die Aussagefähigkeit der Konfidenzschätzung für das 95%-Intervall darlegen. Zunächst müssen wir das Quantil der Normalverteilung ermitteln. Dabei wird der Quantilswert für die rechte Intervallgrenze aus der Tabelle der Standardnormalverteilung entnommen, da dort (siehe Tabelle 3 im Anhang) die positiven Werte der Normalverteilung tabelliert vorliegen. Bei Einsatz von EXCEL oder SPSS – mit der Möglichkeit einer Normalverteilungsberechnung – kann auch der linke Wert ermittelt werden! Außerdem ist noch darauf hinzuweisen, dass wir die Zufallsvariable X ¯ in eine standardisierte Variable Z transformieren, um damit direkt mit den Quantilen der Standardnormalverteilung arbeiten zu können.
f(z)
95% 2,5%
z 0,025
2,5%
1,96
z 0,975
1,96
Z
Abb. 24.3: Das 95%-Konfidenzintervall (nach Standardisierung)
Wir erhalten für z0,975 den Wert 1,96 und können damit die folgenden Gleichungen für die Ableitung eines Konfidenzintervalls formulieren:
-
Wahrscheinlichkeitsintervall für die Zufallsvariable X ¯:
P(P 1,96V x d X d P 1,96V x ) -
0,95
Wahrscheinlichkeitsintervall nach Standardisierung:
P( 1,96 d
XP d 1,96) Vx
0,95
Grundlagen der induktiven Statistik
360 -
Konfidenzintervall (nach Umformung zu einem Intervall um P):
P( X 1,96
-
V V d P d X 1,96 ) n n
0,95
Allgemeines 95%-Konfidenzintervall für P bei Normalverteilung:
P( X z
D 1 2
V V dPd Xz D ) 1 n n
1 D
2
Die wesentliche Aufgabe der Anwendung unterschiedlicher Formeln für Konfidenzintervalle in den nachfolgenden Abschnitten liegt nun darin, dass die Verteilung der Schätzvariablen bestimmt werden muss. Dann sind anstelle des z-Quantils in einigen Fällen die Quantile anderer Verteilungen zu verwenden. x
Ablauf der Intervallschätzung
Die Intervallschätzung wird in folgenden Arbeitsschritten durchgeführt:
Intervallschätzung (1) Festlegen des Konfidenzniveaus 1-D (2) Bestimmen des Quantilswerts (für 1-D/2) (3) Durchführen der Punktschätzung (4) Berechnen des Konfidenzintervalls
24.2 Konfidenzintervalle für quantitative Variablen Wir wollen einige grundlegende und für die praktische Anwendung relevante Formeln für die Intervallschätzung erörtern. Zunächst geht es um die Schätzung des Mittelwerts einer Zufallsvariablen, wobei zu unterscheiden ist, ob die Grundgesamtheit normalverteilt ist oder nicht. Außerdem wird danach unterschieden, ob die Varianz der Grundgesamtheit bekannt ist oder unbekannt. Zusätzlich ist die Größe der Stichprobe zu betrachten.
24. Intervallschätzung
x
361
Konfidenzintervall für P einer Normalverteilung bei bekannter Varianz der Grundgesamtheit
Wir gehen davon aus, dass eine normalverteilte Zufallsvariable X in der Grundgesamtheit vorliegt. Außerdem nehmen wir an, dass die Streuung dieser Zufallsvariablen (z.B. aus früheren Untersuchungen) bekannt ist. Aus dieser Gesamtheit wird eine Stichprobe vom Umfang n entnommen, wobei diese Stichprobe auch relativ klein sein darf. Da die Standardabweichung der Stichproben-Schätzfunktion bekannt ist und diese Funktion normalverteilt ist, gilt die nachfolgende Formel für das Konfidenzintervall:
Konfidenzintervall für P bei Normalverteilung und bekannter Varianz V2 (24-1)
>
xz
D 1 2
V n
;
xz
D 1 2
V n
@
Beispiel (aus dem Master-Projekt): Wir unterstellen, dass das Alter der potentiellen Kunden eines Fortbildungsunternehmers normalverteilt ist. Die Varianz des Alters ist mit 36 bekannt. Mit einer Zufallsstichprobe vom Umfang n=20 wird das Alter der 20 Personen erfragt. Wir berechnen das Konfidenzintervall für das Durchschnittsalter (Konfidenzniveau 1-D = 0,95), wenn folgende Stichprobenergebnisse vorliegen: 20 22 21 29 37 42 25 26 22 28 35 33 29 29 39 37 21 22 28 30. Die Intervallschätzung wird wie folgt vorgenommen: (1)
Festlegen des Konfidenzniveaus 1-D Das Konfidenzniveau ist hier mit 1-D = 0,95 vorgegeben.
(2)
Bestimmen des Quantilswerts (für 1-D/2) Das 97,5%-Quantil der Normalverteilung lautet: z 0,975 = 1,96
(3)
Durchführen der Punktschätzung Das arithmetische Mittel der Stichprobe lautet: ¯ x = 1/20 (20 + 22 + 21 + ... 30) = 28,75
(4)
Berechnen des Konfidenzintervalls (28,75 – 1,96 . 6 / 4,4721; 28,75 + 2,6296) = (26,1204 ; 31,3796)
Grundlagen der induktiven Statistik
362
Damit vertrauen wir mit 95%-iger Wahrscheinlichkeit darauf, dass das Durchschnittsalter der Grundgesamtheit zwischen 26,12 und 31,38 Jahren liegt. x
Konfidenzintervall für P einer Normalverteilung bei unbekannter Varianz der Grundgesamtheit
Vielfach ist bei praktischen Fragestellungen die Varianz der Grundgesamtheit unbekannt. In diesem Fall wird mit der Streuung der Stichprobe gearbeitet. Hier ist – bei Stichproben bis zu einer Größe von 30 – als Verteilung der Schätzfunktion die t-Verteilung anstelle der Normalverteilung zu verwenden. Damit ergibt sich die folgende Formel für die Intervallschätzung:
Konfidenzintervall für P bei Normalverteilung und unbekannter Varianz (24-2)
>
xt
s
D 1 ;n 1 n 2
;
xt
s
D 1 ;n 1 n 2
@
Beispiel (aus dem Master-Projekt): Wir unterstellen, dass das Alter der potentiellen Kunden eines Fortbildungsunternehmers normalverteilt ist. Die Varianz des Alters ist unbekannt. Mit einer Zufallsstichprobe vom Umfang n=20 wird das Alter der 20 Personen erfragt. Wir berechnen das Konfidenzintervall für das Durchschnittsalter (Konfidenzniveau 1-D = 0,95), wenn folgende Altersangaben vorliegen: 20 22 21 29 37 42 25 26 22 28 35 33 29 29 39 37 21 22 28 30.
Wir haben dieselben Stichprobenwerte wie im obigen Beispiel (zu Formel (24-1)) vor uns, können aber nicht mehr mit einer bekannten Varianz arbeiten. Damit ergibt sich für die Intervallschätzung: (1)
Festlegen des Konfidenzniveaus 1-D Das Konfidenzniveau ist mit 1-D = 0,95 vorgegeben.
(2)
Bestimmen des Quantilswerts (für 1-D/2) t 0,975 ; 19 = 2,093
(3)
Durchführen der Punktschätzung Das arithmetische Mittel der Stichprobe lautet:
24. Intervallschätzung
363
¯ x = 1/20 (20 + 22 + 21 + ... 30) = 28,75 Außerdem muss jetzt die Varianz der Stichprobe ermittelt werden: s2 = 1/19 ((20 – 28,75) 2 + (22 – 28,75) 2 + ... + (30 – 28,75) 2) = 43,7763
(4)
Berechnen des Konfidenzintervalls (28,75 – 2,093 . 6,6164 / 4,4721; 28,75 + 3,0966) = (25,6534 ; 31,8466)
Das Intervall ist breiter als das Intervall bei bekannter Varianz. Zum einen ist die geschätzte Streuung etwas höher als die ursprünglich angenommene. Zum anderen ist der Quantilswert der t-Verteilung etwas größer als der vergleichbare Wert der Normalverteilung; die t-Verteilung hat eine etwas größere Streuung als die Normalverteilung. x
Konfidenzintervall für P bei unbekannter Varianz der Grundgesamtheit und hinreichend großem Stichprobenumfang
Wenn eine Normalverteilung in der Grundgesamtheit vorliegt und die Varianz unbekannt ist, kann bei einem Stichprobenumfang von n ! 30 anstelle der tVerteilung näherungsweise mit der Normalverteilung gearbeitet werden. Damit kommt die nachfolgende Schätzformel (24-3) zustande. Die Formel (24-3) gilt auch für den Fall, dass die Verteilung der Grundgesamtheit völlig unbekannt ist. Auch hier muss ein Stichprobenumfang von n ! 30 vorliegen, so dass aufgrund des Zentralen Grenzwertsatzes (siehe Abschnitt 22.4.1) eine approximative Normalverteilung für die Stichprobenfunktion unterstellt werden kann.
Konfidenzintervall für P bei unbekannter Varianz V2 und n ! 30 bei Normalverteilung bzw. bei unbekannter Verteilung der Grundgesamtheit
(24-3)
>
xz
D 1 2
s n
;
xz
D 1 2
s n
@
Beispiel (aus dem Master-Projekt): Für die Teilnehmer von Fortbildungsseminaren soll das Durchschnittseinkommen geschätzt werden. Aus früheren Untersuchungen ist bekannt, dass das Einkommen keine symmetrische Verteilung aufweist, sondern eine linkssteile Verteilung. Eine Zufallsstichprobe mit n = 100 Elementen liefert das arithmetische Mittel von 3650 € und die Standardabweichung von 620 €. Wie lautet die Intervallschätzung mit einem möglichst hohen Konfidenzniveau?
Grundlagen der induktiven Statistik
364 (1)
Festlegen des Konfidenzniveaus 1-D Wir legen das hohe Konfidenzniveau fest mit 1-D D = 0,99.
(2)
Bestimmen des Quantilswerts (für 1-D/2) z 0,995 = 2,575
(3)
Durchführen der Punktschätzung Die Schätzwerte sind angegeben mit: ¯ x = 3650 DM (arithmetische Mittel) und s = 620 DM (Standardabweichung).
(4)
Berechnen des Konfidenzintervalls (3650 – 2,575 . 620/10; 3650 + 159,65) = (3490,35 ; 3809,65)
24.3 Konfidenzintervalle für qualitative Variablen Eine weitere typische Intervallschätzung der induktiven Statistik bezieht sich auf qualitative Variablen. Hier ist das Schätzintervall für den Anteilswert einer „interessierenden“ Eigenschaft“ Gegenstand der statistischen Analyse. x
Konfidenzintervall für den Anteilswert
Die Variable „Anzahl der Elemente mit einer interessierenden Eigenschaft“ innerhalb einer Stichprobe ist binomialverteilt (siehe Abschnitt 20.1). In der Literatur und in Computerprogrammen werden für diese Fragestellung zuweilen sogenannte „exakte“ Binomialschätzungen und -tests angeboten. Da diese exakten Verfahren in der praktischen Statistik nicht so häufig benötigt werden, wollen wir hier ein approximatives Verfahren erörtern. Unter gewissen Voraussetzungen kann die binomialverteilte Zufallsvariable als approximativ normalverteilt angesehen werden (siehe auch Abschnitt 22.2). Dies ist die Grundlage der nachfolgenden Schätzformel des Konfidenzintervalls für den Anteilswert:
Konfidenzintervall für den Anteilswert p (wenn np ¯ t 5 und n(1-p ¯) t 5) (24-4)
>
pz
D 1 2
p(1 p ) n 1
;
pz
D 1 2
p(1 p ) n 1
@
24. Intervallschätzung
365
Beispiel (aus dem Master-Projekt): Wir wollen – bei einem Konfidenzniveau von 0,90 – den Anteil der zufriedenen Seminarteilnehmer ermitteln. Als Punktschätzung – aus einer Stichprobe mit 50 Teilnehmern – liegt für den Anteil der Wert 0,80 vor.
(1)
Festlegen des Konfidenzniveaus 1-D Das Konfidenzniveau ist mit 1-D D = 0,90 vorgegeben.
(2)
Bestimmen des Quantilswerts (für 1-D/2) z 0,95 = 1,645 Hinweis: Die Bedingung der Approximation durch die Normalverteilung ist erfüllt, da 50 . 0,8 = 40 und 50 . 0,2 = 10.
(3)
Durchführen der Punktschätzung Der Anteilswert für die Stichprobe lautet: ¯ = 40/50 = 0,80 p Außerdem muss die Varianz der Stichprobe ermittelt werden: V(p ¯) = (0,80 . 0,20) / 49 = 0,0033
(4)
Berechnen des Konfidenzintervalls (0,80 – 1,645 . 0,0571; 0,80 + 0,094) = (0,706 ; 0,894) Das Intervall reicht von 70,6% bis 89,4% und ist damit relativ breit. Um diese recht ungenaue Schätzung zu verbessern, müsste der Stichprobenumfang erhöht werden!
24.4 Korrekturfaktor bei endlichen Gesamtheiten Die Ziehung von Zufallsstichproben in praktischen Anwendungen erfolgt üblicherweise nach dem Ziehungsmodell „ohne Zurücklegen“. Dies hat zur Folge, dass – unter bestimmten Voraussetzungen – eine Korrektur der Varianz in den obigen Formeln vorgenommen werden muss. Diese „Korrektur für endliche Gesamtheiten“ besteht aus einem Faktor, mit dem die Varianz multipliziert wird.
Grundlagen der induktiven Statistik
366
Korrekturfaktor für endliche Gesamtheiten (Modell ohne Zurücklegen) - Die Varianz der Formeln (24-1) bis (24-4) ist jeweils zu multiplizieren mit (24-5)
Nn N1
Dieser Faktor bewirkt bei relativ kleinen Stichproben, dass die Varianz der Schätzfunktion beim Ziehen ohne Zurücklegen kleiner ist als beim Modell mit Zurücklegen. Die Korrektur kann entfallen, wenn eine Stichprobe aus einer sehr großen Grundgesamtheit gezogen wird und der Auswahlsatz n/N d 0,05 ist. In diesem Fall werden nur maximal 5% der Grundgesamtheit in die Stichprobe übernommen. Die Grundgesamtheit ändert sich dann von Ziehung zu Ziehung trotz des NichtZurücklegens nicht wesentlich. Dies entspricht näherungsweise dem Ziehungsmodell mit Zurücklegen. Da wir in der Praxis sehr häufig Stichproben aus sehr großen Grundgesamtheiten und damit einen Auswahlsatz von deutlich unter 5% vor uns haben, kann dann mit den Formeln ohne Korrekturfaktor gearbeitet werden.
24.5 Notwendiger Stichprobenumfang Vielfach stellt sich die Frage, wie groß der Stichprobenumfang bei einer Intervallschätzung (oder anderen Verfahren der schließenden Statistik) sein muss, um eine bestimmte Aussagefähigkeit und Genauigkeit des Ergebnisses zu erzielen. Zum einen ist die in Abschnitt 24.1 genannte Untergrenze von 30 für den Stichprobenfang von Bedeutung. Auch bei fehlenden Verteilungsinformationen der Grundgesamtheit wird hier eine Schätzung mit der Normalverteilung ermöglicht. Zum zweiten gibt es – abgeleitet aus den Formeln der Intervallschätzung – Formeln für den Mindeststichprobenumfang für einen vorgegebenen maximalen Schätzfehler und ein bestimmtes Konfidenzniveau.
Notwendiger Stichprobenumfang - quantitative Variablen
z2 D V2 (24-6)
nt
1
2 2
e
24. Intervallschätzung
367
- qualitative Variablen
z 2 D p (1 p) (24-7)
nt
1
2
e2
Diese Formeln wurden aus den allgemeinen Formeln für die Konfidenzintervalle abgeleitet. Der Fehler e ist hierbei die absolute Differenz zwischen Schätzwert und zu schätzendem Parameter. Dies ist die maximale Abweichung vom Schätzwert bei der Intervallschätzung und damit die halbe Breite des Konfidenzintervalls. Wir wollen für die Ermittlung des notwendigen Stichprobenumfangs den Fall einer qualitativen Variablen erörtern. Beispiel: Vor einer Bundestagswahl will eine große Partei, die bei der letzten Wahl ca. 45% der Stimmen erhalten hatte, eine Umfrage durchführen. Wie groß muss der Stichprobenumfang sein, um - bei einem Sicherheitsgrad von 95% - ein Ergebnis mit einer Genauigkeit von +/- 3%-Punkten zu erzielen. Die Formel (24-7) kann hier angewandt werden, wobei für die Varianz der Maximalwert einer dichotomen Grundgesamtheit eingesetzt wird. Dies ist 0,5 . 0,5 = 0,25 (siehe Abschnitt 19.5). Dieser Maximalwert ist bei der hier vorliegenden „großen“ Partei recht realistisch. Wir können diesen Maximalwert aber grundsätzlich verwenden, um in jedem Falle auf der „sicheren“ Seite zu liegen. Als Ergebnis erhalten wir: n t 1,96 2 . 0,25 / 0,03 2 = 1067,11. Für die gewünschte Genauigkeit und den vorgegebene Sicherheitsgrad benötigen wir einen Stichprobenumfang von mindestens 1068 Befragten. Hieraus können wir schließen, dass die in der Praxis sehr häufigen Stichprobenumfänge von etwa 1000 Befragten eine Genauigkeit von +/- 3%-Punkten bei einem Sicherheitsgrad von 95% aufweisen.
24.6 Intervallschätzung mit EXCEL und SPSS Mit den Computerprogrammen kann die Intervallschätzung nur zum Teil „automatisiert“ erfolgen. Dies liegt daran, dass EXCEL grundsätzlich nur die Funktion KONFIDENZ für eine normalverteilte Zufallsvariable anbietet und SPSS in einigen Programmoptionen die Berechnung eines Konfidenzintervalls nur auf Basis der tVerteilung ermöglicht.
368 x
Grundlagen der induktiven Statistik
Konfidenzintervall mit EXCEL
Wir können alle Verfahren der Intervallschätzung „halb-automatisch“ mit EXCEL durchführen, indem wir von der Punktschätzung ausgehen (siehe Abschnitt 23.5). Rufen wir mit dem Funktionsassistenten die benötigten Quantilswerte ab und bilden die geeignete Formel (24-1 bis 24-4) für das Konfidenzintervall nach, dann lässt sich das Schätzintervall analog zum konventionellen Verfahren ermitteln. Die zweite Möglichkeit in EXCEL besteht aus der Nutzung der Funktion KONFIDENZ. Diese Funktion gibt die +/-Abweichung vom geschätzten Parameter an, wobei die Wahrscheinlichkeit D, die Varianz der Grundgesamtheit und der Stichprobenumfang anzugeben sind. x
Konfidenzintervall mit SPSS
Im Programmpaket SPSS werden in verschiedenen Programmteilen Konfidenzintervalle angeboten. Darunter ist keines, das direkt mit den Quantilen der Normalverteilung berechnet wird. Wir können Konfidenzintervalle auf Basis der t-Verteilung aufrufen mit: SPSS-Dialog: Analysieren – Mittelwerte vergleichen – T-Test bzw. SPSS-Dialog: Analysieren – Deskriptive Statistiken – Explorative Datenanalyse.
Mit dem letztgenannten Aufruf erhalten wir die nachfolgende Ausgabe und können die beiden Intervallgrenzen ablesen (Daten unseres Beispiels in Abschnitt 24.2, Formel 24-2):
Statistik ALTER
Mittelwert Konfidenzintervall
Untergrenze Obergrenze
28,7500 25,6534 31,8466 28,5000
Standardfehler 1,4795
Abb. 24.4: Intervallschätzung mit SPSS
Der zusätzlich mit angegebene Standardfehler ist die Streuung der Schätzfunktion; siehe dazu die Anmerkungen zu Abb. 23.5 in Kapitel 23.
369
25. Hypothesentest x Leitfragen
1) Wie hängen Intervallschätzung und Hypothesentest zusammen? 2) Was versteht man unter einem Signifikanztest? 3) Wodurch unterscheiden sich einseitiger und zweiseitiger Test? 4) Welche Möglichkeiten der Fehlentscheidung gibt es beim Signifikanztest? 5) Wodurch unterscheiden sich die Formeln für die einzelnen Tests? 6) Welche besonderen Testverfahren gibt es für qualitative Variablen?
25.1 Grundlagen und Ablauf des Hypothesentests x
Grundlagen
Beim Testen von Hypothesen geht es um die Frage, ob die Ergebnisse einer Stichprobenschätzung mit bestimmten Eigenschaften einer Grundgesamtheit verträglich sind oder ob die Schätzung gegen die vermuteten Eigenschaften spricht. Die angenommenen Eigenschaften der Grundgesamtheit (Mittelwert, Streuung, Zusammenhang von Variablen etc.) werden als Nullhypothese formuliert und den Stichprobenergebnissen gegenübergestellt. Falls das Stichprobenergebnis für die Hypothese spricht, kann diese beibehalten werden. Falls das Stichprobenergebnis gegen die Hypothese spricht, lehnt man sie ab. In diesem Fall zeigt die Stichprobe eine „signifikante“ Abweichung von der Nullhypothese. Ausgangspunkt ist – wie auch bei der Intervallschätzung – die Verteilung der Zufallsvariablen der Stichprobenschätzung. Diese Verteilung steht unter der Voraussetzung, dass die Nullhypothese gilt, weitgehend fest. Somit kann anhand ihrer Lage und Streuung der Bereich für die Ablehnung oder Beibehaltung der Nullhypothese bestimmt werden. Die nachfolgende Abb. 25.1 zeigt die Verteilung der Zufallsvariablen X ¯ für den Fall der Gültigkeit der angenommenen Nullhypothese. Dies bedeutet, dass der Erwartungswert des Stichprobenmittels gleich dem vermuteten Mittelwert der Grundgesamtheit P0 ist.
Grundlagen der induktiven Statistik
370
Unter den in den vorigen Kapiteln diskutieren Voraussetzungen (z.B. Normalverteilung in der Grundgesamtheit oder große Stichprobe) ist das Stichprobenmittel normalverteilt, so dass die Darstellung in Abb. 25.1 mit den dazugehörigen Bereichen gilt.
f (x)
D 2
Ablehnung o |
1 D
E( X)
P0
D 2 X |m Ablehnung
Abb. 25.1: Zweiseitiger Hypothesentest für den Mittelwert einer Verteilung
Der Hypothesentest in Abb. 25.1 geht von folgender Situation aus: - Zu testen ist die Hypothese, ob der Mittelwert der Grundgesamtheit gleich P0 ist. Das kann z.B. die Hypothese sein, dass das Durchschnittseinkommen einer Gesamtheit gleich 5000 € beträgt. - Bei Gültigkeit dieser Hypothese ist der Erwartungswert der Stichprobenschätzung gleich 5000. Der Durchschnitt aller möglichen Stichprobenmittelwerte ist dann gleich 5000. - Wir gehen von einer Normalverteilung der Schätzfunktion für den Mittelwert aus. - Mit einer relativ hohen Wahrscheinlichkeit von 1-D (z.B. von 90%) liegen die Stichprobenschätzungen in dem mittleren Intervall der Verteilung. - Mit einer relativ geringen Wahrscheinlichkeit von D (z.B. 10%) ergeben sich Schätzwerte, die deutlich kleiner oder deutlich größer sind als der Erwartungswert, d.h. der aus der Hypothese stammende Mittelwert. - Wenn die tatsächliche Stichprobe einen sehr kleinen oder einen sehr großen Mittelwert aufweist, der „deutlich“ von 5000 abweicht, dann wird die Nullhypothese abgelehnt. Damit trifft man die Entscheidung, dass die Stichprobe „offensichtlich“ nicht zu einer Grundgesamtheit mit 5000 gehört, sondern zu einer Gesamtheit mit einem kleineren oder einem größeren Mittelwert.
25. Hypothesentest
x
371
Ablauf des Hypothesentests
Das Testverfahren wird in folgenden Arbeitsschritten durchgeführt:
Hypothesentest (1) Festlegen der Nullhypothese H0 und der Alternativhypothese H1 (2) Festlegen des Signifikanzniveaus D (3) Auswahl der Testgröße und Berechnung ihrer Realisation (4) Berechnen des Ablehnungsbereichs (5) Testentscheidung
Das in Schritt (2) zu bestimmende Signifikanzniveau liegt in der Regel zwischen 10% und 1%. Es entspricht der Wahrscheinlichkeit, beim Test eine Fehlentscheidung zu treffen. In Abschnitt 25.4 wird auf die möglichen Fehlentscheidungen speziell eingegangen.
25.2 Hypothesen beim ein- und zweiseitigen Test Die erste Aufgabe beim Testen ist die Formulierung der Hypothese. Hierbei ist zu unterscheiden zwischen einer einseitigen und einer zweiseitigen Fragestellung. Die ein- und die zweiseitigen Hypothesen haben jeweils andere Ablehnungsbereiche. Die zweiseitige Hypothese führt zu einem Ablehnungsbereich, der gleichzeitig aus „zu großen“ und „zu kleinen“ Werten besteht. Bei der einseitigen Hypothese zum Test auf Einhaltung eines Mindestwerts werden „zu niedrige“ Werte der Stichprobe abgelehnt. Bei der einseitigen Hypothese auf Einhaltung eines Höchstwerts führen „zu hohe“ Werte der Stichprobe zur Ablehnung. x
Zweiseitige Fragestellungen
Wenn überprüft werden soll, ob ein Wert genau vorliegt und eine Über- oder Unterschreitung dieses Wertes gleichermaßen „ungern“ gesehen wird, dann liegt eine zweiseitige Fragestellung vor und man formuliert eine zweiseitige Hypothese. Die zweiseitige Hypothese wird in der Praxis dann gewählt, wenn man z.B. die Einhaltung eines Sollwertes überprüft (z.B. Länge eines Werkstücks, Gewicht oder Volumen einer Packung). Häufig sind hier aus technischen Gründen sowohl positive als auch negative Abweichungen vom Sollwert möglich. Bezeichnen wir den unbekannten Parameter mit T (z.B. Mittelwert P oder Anteilswert p), dann lauten Hypothesen und Ablehnungsbereich:
Grundlagen der induktiven Statistik
372
Zweiseitiger Test - Hypothesen H0 und H1
(25-1)
Nullhypothese H0: T = T0 und Alternativhypothese H1: T z T0
- Ablehnungsbereich K (25-2)
K = (- f ; u D/2) (u 1-D/2 ; + f)
Die Alternativhypothese zeigt den Bereich an, in dem die Ablehnung der Nullhypothese erfolgt. In diesem kritischen Bereich K liegen Stichprobenwerte, die kleiner als die linke Ablehnungsgrenze uD/2 oder größer als die rechte Ablehnungsgrenze u1-D/2 sind. Entsprechende Stichprobenergebnisse führen zur Ablehnung! x
Einseitige Fragestellungen
Wenn überprüft werden soll, ob ein bestimmter Mindestwert oder ein bestimmter Höchstwert eingehalten wird, dann handelt es sich um eine einseitige Fragestellung. Jetzt wird eine einseitige Hypothese formuliert, die z.B. aussagt, dass ein bestimmter Qualitätswert „nicht unterschritten“ oder eine bestimmte Ausschussquote „nicht überschritten“ wird. ¾ Test, ob ein bestimmter Wert unterschritten wird:
Einseitiger Test auf Einhaltung eines Mindestwerts - Hypothesen H0 und H1 (25-3)
Nullhypothese H0: T t T0 und Alternativhypothese H1: T T0
- Ablehnungsbereich K (25-4)
K = (- f ; uD)
Die Alternativhypothese zeigt an, wo der Ablehnungsbereich liegt: Zu kleine Werte der Stichprobe führen zur Ablehnung.
25. Hypothesentest
373
¾ Test, ob ein bestimmter Wert überschritten wird:
Einseitiger Test auf Einhaltung eines Höchstwerts - Hypothesen H0 und H1 (25-5)
Nullhypothese H0: T d T0 und Alternativhypothese H1: T ! T0
- Ablehnungsbereich K (25-6)
K = (u1-D ; + f)
Für den zuletzt genannten einseitigen Test nach Formel (25-5) gilt die folgende grafische Darstellung:
f (x)
1 D
D X
E( X)
P0
|m Ablehnung
Abb. 25.2: Einseitiger Test
x
Formulierung der Hypothesen H0 und H1
Ein Signifikanztest wird so angelegt, dass die Ablehnung der Nullhypothese erwartet werden kann. In diesem Fall weist die Stichprobe einen „signifikant“ anderen Wert auf, als er für die Grundgesamtheit vermutet und angenommen wurde. Diese „signifikante“ Abweichung wird in die Alternativhypothese übernommen, so dass die Nullhypothese als Komplement dazu formuliert wird. Der Sachverhalt der „gezeigt“ oder „aufgedeckt“ werden soll, ist damit Inhalt der Alternativhypothese!
Grundlagen der induktiven Statistik
374
25.3 Testgrößen mit standardisiertem und unstandardisiertem Ablehnungsbereich Bei den meisten Testverfahren, insbesondere bei den Tests für den Erwartungswert einer Verteilung, geht man vom zu schätzenden Parameter und dessen Verteilung aus und standardisiert die Schätzfunktion. Damit liegt einerseits eine nicht standardisierte Testfunktion X ¯ vor, andererseits die standardisierte Größe Z. Besitzt die Ausgangsfunktion – exakt oder approximativ – eine Normalverteilung, dann ist die standardisierte Größe Z standardnormalverteilt. Die Testentscheidung kann entweder auf Basis der nicht standardisierten oder der standardisierten Testgröße getroffen werden.
f (x) f ( z)
Ablehnungsbereich
-4
-2
0
2
4
6
8
10
12
14
X Z
16
Abb. 25.3: Ablehnungsbereich vor und nach Standardisierung
In Abb. 25.3 wird deutlich, dass der Bereich der ursprünglichen Variablen (rechts) einen entsprechenden Bereich der standardisierten Variablen (links) zur Folge hat, und dass beide Bereiche äquivalent sind. Der Test kann damit entweder so ablaufen, dass wir den Wert der standardisierten Testgröße ermitteln und mit den Quantilen der Standardnormalverteilung vergleichen. Oder wir verwenden die Werte der nicht-standardisierten Testgröße (z.B. das tatsächliche arithmetische Mittel) und transformieren die Grenzen der Ablehnungsbereiche in nicht-standardisierte Größen. Die erste Variante ist vom Rechenaufwand her vorzuziehen!
25. Hypothesentest
375
25.4 Fehler beim Hypothesentest Eine Nullhypothese wird abgelehnt, wenn die Stichprobe einen im Vergleich zur Hypothese „zu großen“ oder einen „zu kleinen“ Wert liefert. Diese Entscheidung, die mit einer Wahrscheinlichkeit von D getroffen wird, stellt dann eine „Fehlentscheidung“ dar, wenn die Hypothese tatsächlich gilt. Die „unwahrscheinlichen“ Bereiche am linken oder rechten Rand einer Verteilung gehören – genauso wie der mittlere Bereich – zu dieser Verteilung, wenn auch mit einer geringen Wahrscheinlichkeit. Die Wahrscheinlichkeit D wird als Fehler 1. Art bezeichnet. Es ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie richtig ist. Diese Fehlerwahrscheinlichkeit nimmt man beim Hypothesentest bewusst in Kauf. Die äußeren Bereiche sind so unwahrscheinlich, dass man dort der Nullhypothese nicht mehr vertraut. Die Fehlerwahrscheinlichkeit D darf aber nicht willkürlich verkleinert werden. Ihre Verkleinerung bewirkt nämlich eine Vergrößerung des Fehlers 2. Art, des EFehlers. Dies ist die Wahrscheinlichkeit, die Nullhypothese nicht abzulehnen, obwohl sie falsch ist. Wir können beide Fehlerarten anhand der folgenden Abb. 25.4 nachvollziehen.
f (x)
E-Fehler
140
150
160
170
D-Fehler
180
190
200
210
220
230
X Abb. 25.4: Fehler beim Hypothesentesten
Wir gehen von der Nullhypothese aus, dass der Mittelwert kleiner gleich 170 ist. Der Ablehnungsbereich (mit der Wahrscheinlichkeit D) beginnt bei 190. Die Fläche über dem Annahmebereich und unter der zweiten Kurve gibt den Fehler 2. Art an (wenn H1 gilt). Der wahre Mittelwert ist in diesem Falle größer als 170, nämlich gleich 200. Wir erkennen eine relativ große Wahrscheinlichkeit, einen EFehler zu begehen.
376
Grundlagen der induktiven Statistik
Grundsätzlich können wir hier sagen: Mit Verkleinerung des Signifikanzniveaus D verschiebt sich der Ablehnungsbereich nach rechts und der E-Fehler wird größer! Insgesamt sind vier Entscheidungssituationen beim Testen denkbar.
Testentscheidungen mit D- bzw. E-Fehler (Fehler 1. bzw. 2. Art) Ho wird nicht abgelehnt
Ho wird abgelehnt
Ho ist wahr
richtige Entscheidung
D-Fehler
H1 ist wahr
E-Fehler
richtige Entscheidung
25.5 Testentscheidung und Interpretation Die Testentscheidung bedeutet nicht, dass wir die Gültigkeit einer Hypothese „beweisen“ können. Vielmehr gehen wir vom Prinzip aus, dass wir nur eine Ablehnung der Hypothese vornehmen können, wenn die Stichprobe deutlich abweichende Ergebnisse zeigt. Dies entspricht der Philosophie des kritischen Rationalismus von Karl Popper, die keinen Beweis für die Richtigkeit einer Hypothese sucht, sondern nur einen Anhaltspunkt dafür, dass eine Hypothese nicht gilt und damit falsifiziert werden kann. Daher lauten die beiden grundlegenden Ergebnisse beim Signifikanztest: - Ablehnung einer Nullhypothese, verbunden mit der „Gefahr“, in D.100% der Fälle eine Fehlentscheidung zu treffen o d e r - Beibehaltung der Nullhypothese, da die Stichprobe nicht dagegen spricht. Keinesfalls ist damit der Beweis von Gültigkeit oder Ungültigkeit einer Hypothese oder einer wissenschaftlichen Theorie möglich!
377
26. Ausgewählte Testverfahren x Leitfragen
1) Welche Testverfahren sind bei quantitativen Variablen zu unterscheiden? 2) Welche Bedeutung hat der Chi-Quadrat-Test für qualitative Variablen? 3) Wie werden Hypothesentests bei Korrelations- und Regressionsanalysen durchgeführt? 4) Was ist beim Hypothesentest mit EXCEL und SPSS zu beachten?
26.1 Hypothesentest für Parameter quantitativer Variablen 26.1.1 Test für den Erwartungswert einer Normalverteilung bei bekannter Varianz der Grundgesamtheit Dieser erste Test geht davon aus, dass in der Grundgesamtheit eine Normalverteilung vorliegt und die Varianz der Grundgesamtheit bekannt ist. Das bedeutet, dass auch die Testgröße (26-1) standardisiert normalverteilt ist.
Test für E(X) = P bei Normalverteilung und bekannter Varianz V2 - Testgröße (26-1)
V
X Po n V
mit V standardnormalverteilt N(0;1)
- Grenzen des Ablehnungsbereichs (nicht standardisiert)
(26-2)
P o z1 D V / n
für die Hypothese H0: P t P0
(26-3)
P o z1 D V / n
für die Hypothese H0: P d P0
(26-4)
P o r z1 D / 2 V / n
für die Hypothese H0: P = P0
Grundlagen der induktiven Statistik
378
Beispiel (aus dem Master-Projekt): Beim – langjährig in gleicher Form durchgeführten – Abschlusstest eines Kurses werden Punkte zwischen 0 und 100 vergeben. Erfahrungsgemäß ist die Variable „Punkte“ normalverteilt mit einem Mittelwert von 70 und einer Standardabweichung von 10 Punkten. Der zuletzt durchgeführte Abschlusstest hat bei 36 Teilnehmern einen Durchschnittswert von 73 Punkten ergeben. Zu testen ist die Hypothese, ob der „langjährige“ Durchschnittswert noch gilt, oder ob die Stichprobe darauf hindeutet, dass der Durchschnitt nicht mehr gilt (Signifikanzniveau D = 0,1). Der Test wird gemäß den Arbeitsschritten aus Kapitel 25 durchgeführt. (1)
Festlegen der Nullhypothese H0 und der Alternativhypothese H1 H0: P = 70 und H1: P z 70
(2)
Festlegen des Signifikanzniveaus D Hier vorgegeben: D = 0,1
(3)
Auswahl der Testgröße und Berechnung ihrer Realisation Gewählt wird die Testgröße nach Formel (26-1), die folgenden Wert aufweist: ¯ x = 73 und damit v = ( (73 – 70) / 10 ) . 6 = 1,8
(4)
Berechnen des Ablehnungsbereichs Nach Formel (26-4) ergibt sich für diesen zweiseitigen Test: z 0,95 = 1,645 und damit resultiert ein -
standardisierter Ablehnungsbereich von (-f ; -1,645) und (1,645 ; +f) sowie aufgrund der Berechnung 70 r 1,645 . 10 / 6 ein
-
nicht standardisierter Ablehnungsbereich (-f; 67,2583) und (72,7417; +f).
(5) Testentscheidung Da v = 1,8 größer als 1,645 sowie ¯ x = 73 größer als 72,7417 wird die Nullhypothese abgelehnt. Die durchschnittliche Punktzahl der Stichprobe ist „signifikant“ verschieden von 70 und liegt hier über dem langjährigen Durchschnitt!
26. Ausgewählte Testverfahren
379
26.1.2 Test für den Erwartungswert einer Normalverteilung bei unbekannter Varianz der Grundgesamtheit (t-Test) Dieser Test unterstellt ebenfalls, dass in der Grundgesamtheit eine Normalverteilung vorliegt, allerdings ist die Varianz der Grundgesamtheit nicht bekannt. Dies bedeutet, dass die Testgröße (26-5) t-verteilt ist mit n-1 Freiheitsgraden. Es gelten die folgende Testformeln:
Test für P bei Normalverteilung und unbekannter Varianz - Testgröße
(26-5)
V
X Po n S
mit V ~ t(n-1)-verteilt
- Grenzen des Ablehnungsbereichs (nicht standardisiert)
(26-6)
P o t1 D;n 1 s / n
für die Hypothese H0: P t P0
(26-7)
P o t1 D;n 1 s / n
für die Hypothese H0: P d P0
(26-8)
P o r t1 D / 2;n 1 s / n
für die Hypothese H0: P = P0
Beispiel (aus dem Masterprojekt): Das Durchschnittsalter der Teilnehmer eines Seminars ist normalverteilt mit einem Erwartungswert von 32,5. Die Streuung der Grundgesamtheit ist unbekannt. Eine Werbekampagne hat sich speziell an jüngere Interessenten gerichtet. Nach der Werbeaktion lag in einer Stichprobe von 25 Teilnehmern ein Durchschnittsalter von 31,2 mit einer Standardabweichung von 3,873 vor. Zu testen ist die Hypothese, ob sich das Durchschnittsalter signifikant verringert hat (Signifikanzniveau D = 0,05). Damit wird überprüft, ob die Werbekampagne erfolgreich war!
(1)
Festlegen der Nullhypothese H0 und der Alternativhypothese H1 H0: P t 32,5 und H1: P 32,5
(2)
Festlegen des Signifikanzniveaus D Hier vorgegeben: D = 0,05
Grundlagen der induktiven Statistik
380 (3)
Auswahl der Testgröße und Berechnung ihrer Realisation Gewählt wird die Testgröße nach Formel (26-5), die folgende Werte aufweist: ¯ x = 31,2 und s = 3,873 und damit v = ( (31,2 – 32,5) / 3,873 ) . 5 = -1,6783
(4)
Berechnen des Ablehnungsbereichs Es handelt sich um einen einseitigen Test nach Formel (26-6). Damit gilt t 0,95;24 = 1,711 sowie der -
standardisierte Ablehnungsbereich von (-f ; -1,711) bzw. der
-
nicht standardisierte Ablehnungsbereich (-f ; 31,1747), wobei 31,1747 = 32,5 – 1,711 . 3,873 / 5.
(5)
Testentscheidung Da v = -1,6783 größer als -1,711 sowie ¯ x = 31,2 größer als 31,1747 wird die Nullhypothese nicht abgelehnt. Das Durchschnittsalter hat sich nur unwesentlich (nicht „signifikant“) verringert. Die Werbekampagne war offensichtlich nicht erfolgreich!
26.1.3 Test für den Erwartungswert bei unbekannter Varianz der Grundgesamtheit und hinreichend großer Stichprobe Bei einem hinreichend großen Stichprobenumfang kommt entweder die Approximation der t-Verteilung an die Normalverteilung zum Tragen, oder es gilt der Zentrale Grenzwertsatz (jeweils: n ! 30). In beiden Fällen können wir von einer normalverteilten Testgröße ausgehen:
Test für E(X) = P bei hinreichend großem Stichprobenumfang - Testgröße (26-9)
V
X Po n S
mit V ~ N(0;1) - verteilt
26. Ausgewählte Testverfahren
381
- Grenzen des Ablehnungsbereichs (nicht standardisiert)
(26-10)
P o z1 D s / n
für die Hypothese H0: P t P0
(26-11)
P o z1 D s / n
für die Hypothese H0: P d P0
(26-12)
P o r z1 D / 2 s / n
für die Hypothese H0: P = P0
Beispiel (aus dem Master-Projekt): Der Dozent einer Fortbildungsveranstaltung ist mit der Beurteilung seiner Lehrveranstaltung durch die Teilnehmer nicht zufrieden. Die Durchschnittspunktzahl der Beurteilung hatte - auf einer Skala zwischen 0 und 100 - 52,0 Punkte betragen. Der Dozent verbessert den Medieneinsatz und aktualisiert den Stoff. Bei der Veranstaltung im Folgejahr mit insgesamt 64 Teilnehmern ergibt sich ein Durchschnittswert von 55,5 Punkten bei einer Standardabweichung von 10,2725 Punkten. Hat sich der Durchschnittswert im Vergleich zum Vorjahr signifikant erhöht?
(1)
Festlegen der Nullhypothese H0 und der Alternativhypothese H1 H0: P d 52,0 und H1: P ! 52,0
(2)
Festlegen des Signifikanzniveaus D Ein Niveau von D = 0,01 wird festgelegt, um den Fehler 1. Art möglichst gering zu halten.
(3) Auswahl der Testgröße und Berechnung ihrer Realisation Gewählt wird die Testgröße nach Formel (26-9), die folgende Werte aufweist: ¯ x = 55,5 und s = 10,2725 und damit v = ( (55,5 – 52,0) / 10,2725 ) . 8 = 2,7257
(4)
Berechnen des Ablehnungsbereichs Es handelt sich um einen einseitigen Test nach Formel (26-11). Damit gilt: z 0,99 = 2,33.
Grundlagen der induktiven Statistik
382 Es resultiert ein -
standardisierter Ablehnungsbereich von (2,33 ; +f) sowie ein
-
nicht standardisierter Ablehnungsbereich (54,9919 ; +f), wobei 54,9919 = 52,0 + 2,33 . 10,2725 / 8.
(5) Testentscheidung Da v = 2,7252 größer als 2,33 sowie ¯ x = 55,5 größer als 54,9919 wird die Nullhypothese abgelehnt. Die durchschnittliche Punktzahl hat sich „signifikant“ erhöht! Die Aktivitäten des Dozenten waren erfolgreich.
26.2 Hypothesentest für den Anteilswert qualitativer Variablen Typische Fragen für den Test auf den Anteilswert p einer qualitativen Variablen sind: Wird eine garantierte Ausschussquote überschritten? Liegt das Hochrechnungsergebnis für eine Partei „signifikant“ unter der 5%-Grenze?
Test für den Anteilswert p (bei Erfüllung der Approximationsbedingungen np ¯ t 5 und n(1-p ¯) t 5) - Testgröße
(26-13)
V
P po p o (1 p o)
mit V ~ N(0;1) –verteilt
n - Grenzen des Ablehnungsbereichs (nicht standardisiert)
(26-14)
p o z1 D
(26-15)
p o z1 D
(26-16)
p o r z1 D / 2
p o (1 p o) n p o (1 p o) n
p o (1 p o) n
für die Hypothese H0: p t p0
für die Hypothese H0: p d p0
für die Hypothese H0: p = p0
26. Ausgewählte Testverfahren
383
Beispiel: Der Lieferant von elektronischen Bauteilen garantiert eine Ausschussquote von höchstens 3%. Eine Lieferung von 380 Bauteilen enthält 18 Ausschussstücke. Falls eine Lieferung eine signifikant höhere Quote als 3% aufweist (Signifikanzniveau 2,5%), kann – laut Vertrag – der Kaufpreis seitens des Kunden um einen vereinbarten Betrag reduziert werden. Tritt diese Kaufpreisminderung durch den Kunden ein?
(1)
Festlegen der Nullhypothese H0 und der Alternativhypothese H1 H0: p d 0,03 und H1: p ! 0,03
(2)
Festlegen des Signifikanzniveaus D Das Niveau von D = 0,025 ist vorgegeben.
(3) Auswahl der Testgröße und Berechnung ihrer Realisation Gewählt wird die Testgröße nach Formel (26-13), die folgende Werte aufweist: ¯ = 18 / 380 = 0,0474 = 4,74% und damit p v = (0,0474 – 0,03) /
0,03 . 0,97 / 380 = 1,9884
Hinweis: Die Approximationsbedingungen sind erfüllt: np ¯ = 380 . 0,0474 = . 18,01 ist ! 5 und n(1-p ¯) = 380 0,9526 = 361,99 ist ebenfalls ! 5. Damit kann mit der Standardnormalverteilung gearbeitet werden.
(4)
Berechnen des Ablehnungsbereichs Es handelt sich um einen einseitigen Test nach Formel (26-15); damit gilt z 0,975 = 1,96 und es resultiert ein - standardisierter Ablehnungsbereich
(1,96 ; +f) sowie ein
- nicht standardisierter Ablehnungsbereich (0,0472 ; +f), wobei 0,0472 = 0,03 + 1,96 . (5)
0,03 . 0,97 / 380 .
Testentscheidung Da v = 1,9884 größer als 1,96 sowie ¯ p = 0,0474 größer als 0,0472 wird die Nullhypothese abgelehnt. Die Ausschussquote ist „signifikant“ höher als 3%. Der Kunde kann von der Möglichkeit der Preisminderung Gebrauch machen!
Grundlagen der induktiven Statistik
384
26.3 Chi-Quadrat-Anpassungstest (Test auf Verteilung) Vielfach sind nicht nur einzelne Parameter einer Verteilung zu überprüfen, sondern die Verteilung insgesamt. Dann wird getestet, ob ein bestimmter Verteilungstyp vorliegt oder ob die Stichprobe signifikant von einer vermuteten Verteilung abweicht. Hierfür steht der Chi-Quadrat-Anpassungstest zur Verfügung.
Chi-Quadrat-Anpassungstest - Testgröße
(26-17)
V
m ( f e )2 j j
¦
j 1
ej
wobei V ~ Chi-Quadrat-verteilt mit m-1 Freiheitsgraden, wenn ej t 5 für alle j
- Grenze des Ablehnungsbereichs
(26-18)
F12 D;m 1
Beim Chi-Quadrat-Anpassungstest wird überprüft, ob die beobachteten Häufigkeiten einer Verteilung (fj) signifikant von den bei Gültigkeit der Nullhypothese erwarteten Häufigkeiten (ej) abweichen. Die Differenz von beobachteter und erwarteter Verteilung wird als Summe von relativen, quadratischen Abweichungen ermittelt und zusammenfasst, so dass das Abweichungsmaß nach Formel (26-17) entsteht. Die Testgröße ist Chi-Quadrat-verteilt mit m-1 Freiheitsgraden. Aus der Tabelle der Chi-Quadratverteilung kann der „kritische Wert“ entnommen werden. Beispiel: Ein Würfel soll auf Echtheit überprüft werden. Bei 120 Würfen ergaben sich die Häufigkeiten 12 für die Augenzahl 1, 17 für 2, 22 für 3, 23 für 4, 17 für 5 und 29 für 6. Insbesondere die große Häufigkeit bei der Augenzahl 6 stellt die Echtheit des Würfels in Frage. Kann der Würfel – bei einem Signifikanzniveau von 5% – als „echt“ und damit nicht manipuliert bezeichnet werden?
(1)
Festlegen der Nullhypothese H0 und der Alternativhypothese H1 H0: Es liegt eine Gleichverteilung vor mit pj = 1/6 für xj = 1, 2, 3, 4, 5, 6. H1: Es liegt keine Gleichverteilung vor.
26. Ausgewählte Testverfahren
385
Hinweis: Beim Chi-Quadrat-Anpassungstest gibt es nur diese „zweiseitigen“ Hypothesen. Trotzdem ist der Test ein einseitiger Test, da er die Differenz der beobachteten und der erwarteten Verteilung als Testgröße dahingehend überprüft, ob sie signifikant „zu groß“ ist!
(2)
Festlegen des Signifikanzniveaus D Das Niveau von D = 0,05 ist vorgegeben.
(3)
Auswahl der Testgröße und Berechnung ihrer Realisation Gewählt wird die Testgröße nach Formel (26-17). Für die Berechnung der Testgröße benötigen wir die Arbeitstabelle in Abb. 26.1.. Dabei ist ej = npj (Stichprobenumfang mal erwartete Wahrscheinlichkeit), d.h. hier 20 = 120 . 1/6.
xj
j 1 2 3 4 5 6 Summe
fj 1 2 3 4 5 6
-
12 17 22 23 17 29 120
ej 20,0 20,0 20,0 20,0 20,0 20,0 120,0
f j - ej -8,0 -3,0 2,0 3,0 -3,0 9,0 -
2
(fj - ej) / ej 3,20 0,45 0,20 0,45 0,45 4,05 8,80
Abb. 26.1: Arbeitstabelle Chi-Quadrat-Anpassungstest
(4)
Berechnen des Ablehnungsbereichs Es ist F
2 0,95 ; 5
= 11,07.
Der Ablehnungsbereich lautet damit: (11,07 ; +f).
(5)
Testentscheidung Da v = 8,80 kleiner ist als 11,07, wird die Nullhypothese nicht abgelehnt: Die Häufigkeiten der beobachteten und der erwarteten Verteilung sind nicht signifikant verschieden. Der Würfel ist offensichtlich echt!
386
26.4 Chi-Quadrat-Unabhängigkeitstest Die Stärke des Zusammenhangs qualitativer Variablen wird mittels der Größe ChiQuadrat sowie davon abgeleiteten Parametern gemessen (siehe Kapitel 16). In der induktiven statistischen Analyse ist zu überprüfen, ob dieser Zusammenhang „signifikant“ ist oder als „zufällig“ bezeichnet werden muss.
Chi-Quadrat-Unabhängigkeitstest - Testgröße m
(26-19)
V
l ( f e )2 jk jk
¦¦
j 1k 1
e jk
wobei V ~ Chi-Quadrat-verteilt mit (m-1)(l -1) Freiheitsgraden, wenn ejk t 5 für alle j und k; bei zu kleinen Stichproben: Yates-Korrektur |fjk-ejk|-0,5 statt Differenz im Zähler von V
- Grenze des Ablehnungsbereichs
(26-20)
F12 D;(m 1)( l 1)
Beim Chi-Quadrat-Unabhängigkeitstest wird überprüft, ob die Summe der Differenzen zwischen den beobachteten Häufigkeiten (fjk) und den bei Unabhängigkeit zu erwartenden Häufigkeiten (ejk) signifikant ist. Die Gesamtdifferenz von beobachteter und erwarteter Verteilung wird als Summe von relativen, quadratischen Abweichungen ermittelt und zum Abweichungsmaß nach Formel (26-19) zusammengefasst. Diese Größe ist Chi-Quadrat-verteilt mit m-1 mal l-1 Freiheitsgraden. Die Tabelle der Chi-Quadratverteilung liefert den „kritischen Wert“ für diesen Test. x
Freiheitsgrade
Die Zahl der „frei variierenden“ Variablen in einer Mehrfeldertafel heißt Freiheitsgrade. Bis zur letzten Zeile und letzten Spalte einer Tabelle kann „alles“ frei variieren. Wenn z.B. in einer Vierfeldertafel 1 Feld (= 1.1) bestimmt ist, können aus den Randverteilungen alle übrigen Felder ermittelt werden. Es liegt nur 1 Freiheitsgrad vor. Bei einer 2 . 3-Tafel ergeben sich 2 Freiheitsgrade, bei einer 2 . 5-Tafel haben wir 4 Freiheitsgrade vor uns. Beispiel (aus dem Master-Projekt): Zu klären ist die Frage, ob bei Kursteilnehmern die Motivation durch den Dozenten vom Geschlecht der Teilnehmer abhängt (siehe Abb. 26.2). Kann die Hypothese der Unabhängigkeit – bei einem Signifikanzniveau von 5% – abgelehnt werden, was als Indiz für einen Zusammenhang zu werten wäre? (siehe deskriptives Beispiel in Abb. 16.3.)
26. Ausgewählte Testverfahren
(1)
387
Festlegen der Nullhypothese H0 und der Alternativhypothese H1 H0: Es liegt Unabhängigkeit vor, d.h. für alle fjk gilt: fjk = fj. . f.k / n. H1: Es liegt keine Unabhängigkeit vor, d.h. es besteht ein Zusammenhang. Hinweis: Beim Chi-Quadrat-Unabhängigkeitstest gibt es nur die „zweiseitige“ Nullhypothese. Der Test aber ist „einseitig“, da er die Abweichung der Verteilungen daraufhin überprüft, ob sie signifikant „zu groß“ ist!
(2)
Festlegen des Signifikanzniveaus D Das Niveau von D = 0,05 ist vorgegeben.
(3)
Auswahl der Testgröße und Berechnung ihrer Realisation Gewählt wird die Testgröße nach Formel (26-19). Für die Berechnung der Testgröße benötigen wir die Arbeitstabelle in Abb. 26.2.. Dabei ist ejk das Produkt der jeweiligen Randhäufigkeiten, dividiert durch den Umfang der Gesamtheit, d.h. hier z.B. 12,5 = 50 . 25 / 100.
Motivation
sehr gut
etwas
teils/ teils
kaum
gar nicht
Summe
fjk
20
15
4
6
5
50
ejk
12,5
10,5
6,5
10,5
10,0
Geschlecht m w Summe
fjk
5
6
9
15
15
ejk
12,5
10,5
6,5
10,5
10,0
25
21
13
21
20
50 100
Differenz von beobachteter und erwarteter Häufigkeit und Quotient aus quadrierter Differenz und erwarteter Häufigkeit Summe Differenz Quotient Differenz Quotient
7,5 4,50 -7,5 4,50
4,5 1,93 -4,5 1,93
-2,5 0,96 2,5 0,96
-4,5 1,93 4,5 1,93
-5,0 2,50 5,0 2,50
11,82 11,82 23,64
Abb. 26.2: Arbeitstabelle Chi-Quadrat-Unabhängigkeitstest
Aus der Arbeitstabelle resultiert v = 23,64, wobei die einzelnen Summanden von V als „Quotienten“ bezeichnet und berechnet werden, z.B. 4,5 = 7,5 . 7,5 / 12,5.
Grundlagen der induktiven Statistik
388 (4)
Berechnen des Ablehnungsbereichs Es ist F
2 0,95 ; 4
= 9,49.
Der Ablehnungsbereich lautet damit: (9,49 ; + f). (5)
Testentscheidung Da v = 23,64 größer ist als 9,49, wird die Nullhypothese abgelehnt; die Variablen weisen einen signifikanten Zusammenhang auf. Die Motivation durch den Dozenten ist offensichtlich vom Geschlecht der Teilnehmer abhängig!
26.5 Test auf linearen Zusammenhang (F-Test) Häufig wird – aus theoretischen oder praktischen Erwägungen heraus – ein linearer Zusammenhang zwischen zwei Variablen unterstellt, z.B. bei einer Kostenfunktion (Kosten als lineare Funktion der Outputmenge) oder bei einer Konsumfunktion (Konsumausgaben als lineare Funktion des Einkommens). Der folgende statistische Test überprüft das Vorliegen eines linearen Zusammenhangs.
F-Test - Testgröße n
1/ k ¦ ( yˆ i y )2 (26-21)
V
i 1 n
1/ l¦
( y i yˆ i )2
wobei V ~ F-verteilt mit k und l Freiheitsgraden
i 1
- Grenze des Ablehnungsbereichs
(26-22)
F1 D;k;l
Hier handelt sich um einen Test mit dem Vergleich zweier Varianzen. Es wird das Verhältnis der durch die Regressionsgerade erklärten Varianz (im Zähler) zur nicht erklärten Varianz (im Nenner) ermittelt, wobei dieser Quotient F-verteilt ist. Wenn der Wert der Testgröße groß ist, kann dies zur Ablehnung der Hypothese der Unabhängigkeit der beiden Variablen führen.
26. Ausgewählte Testverfahren
389
Beispiel: Von 12 Haushalten liegen die Werte des verfügbaren Einkommens (Variable X) und der Ausgaben für Freizeit (Variable Y) jeweils in € vor (siehe Abb. 26.3). Zu überprüfen ist die Hypothese, dass die Freizeitausgaben vom verfügbaren Einkommen linear abhängen (Signifikanzniveau 2,5%). Das Beispiel entspricht Abb. 15.12 in Kapitel 15).
(1)
Festlegen der Nullhypothese H0 und der Alternativhypothese H1 H0: Es liegt keine lineare Abhängigkeit zwischen Freizeitausgaben und verfügbarem Einkommen vor. H1: Es besteht ein linearer Zusammenhang zwischen Freizeitausgaben und verfügbarem Einkommen. Festlegen des Signifikanzniveaus D
(2)
Das Niveau von D = 0,025 ist vorgegeben. (3)
Auswahl der Testgröße und Berechnung ihrer Realisation Gewählt wird die Testgröße nach Formel (26-21). Für die Berechnung der Testgröße benötigen wir eine Arbeitstabelle:
i 1 2 3 4 5 6 7 8 9 10 11 12
xi 36,0 40,0 25,0 24,0 60,0 40,0 53,0 52,0 40,0 62,0 35,0 41,0
Summe 508,0
yi 1,8 3,9 3,8 1,9 6,9 6,2 6,8 5,5 2,4 6,4 3,0 3,8
xi
2
yi
2
xiyi
yˆ i 3,6 4,1 2,2 2,1 6,6 4,1 5,7 5,6 4,1 6,8 3,5 4,2
1296,0 1600,0 625,0 576,0 3600,0 1600,0 2809,0 2704,0 1600,0 3844,0 1225,0 1681,0
3,2 15,2 14,4 3,6 47,6 38,4 46,2 30,3 5,8 41,0 9,0 14,4
64,8 156,0 95,0 45,6 414,0 248,0 360,4 286,0 96,0 396,8 105,0 155,8
52,4 23160,0
269,2
2423,4
y i yˆ i
2 ( y i yˆ i ) 2 ( yˆ i y )
-1,8 -0,2 1,6 -0,2 0,3 2,1 1,1 -0,1 -1,7 -0,4 -0,5 -0,4
3,1738 0,0315 2,5033 0,0376 0,1178 4,5054 1,2342 0,0042 2,8137 0,1639 0,2093 0,1611
0,6165 0,0837 4,6176 5,1658 4,7969 0,0837 1,7487 1,4362 0,0837 5,9445 0,8265 0,0273
0,0
14,9558
25,4309
Abb. 26.3: Arbeitstabelle (1) zum F-Test
Aus dieser Tabelle ergeben sich die Komponenten der Testgröße, die der folgenden Abbildung 26.4 zu entnehmen sind:
Grundlagen der induktiven Statistik
390 Grund der Variation
Quadratsummen
Freiheitsgrade
Mittlere quadratische Abweichung
X
25,4309
1
25,4309
Rest
14,9558
10
1,4956
Summe
40,3867
11
3,6715
Abb. 26.4: Arbeitstabelle (2) zum F-Test
Damit lautet die Realisation der Testgröße v = 25,4309 / 1,4956 = 17,0038.
(4)
Berechnen des Ablehnungsbereichs Es ist F0,975 ; 1 ; 10 = 6,94. Der Ablehnungsbereich lautet damit: (6,94 ; +f).
(5)
Testentscheidung Da v = 17,0038 größer ist als 6,94, wird die Nullhypothese abgelehnt. Die Variablen weisen einen signifikanten linearen Zusammenhang auf. Offensichtlich hängen die Freizeitausgaben linear vom verfügbaren Einkommen ab.
26.6 Hypothesentest mit EXCEL und SPSS 26.6.1 Besonderheiten des Hypothesentests am PC Bei der konventionellen Vorgehensweise des Hypothesentests geht man bei der Testentscheidung von einem vorgegebenen Signifikanzniveau aus. Man ermittelt den Ablehnungsbereich, vergleicht den Stichprobenwert mit diesem Bereich und trifft die Entscheidung. PC-Programme bieten neben dieser klassischen Variante meist noch eine andere Vorgehensweise an. Von den Programmen wird die Wahrscheinlichkeit berechnet, mit der der beobachtete Wert (bei Gültigkeit der Nullhypothese) eintritt. Ist diese Wahrscheinlichkeit sehr hoch, kann die Nullhypothese beibehalten werden. Ist die Wahrscheinlichkeit sehr gering (z.B. unter 10%, 5% oder 1%), kann die Nullhypothese abgelehnt werden. Die Wahrscheinlichkeit kann als „maximales“ Signifikanzniveau, als maximale Fehlerwahrscheinlichkeit bei Ablehnung der Nullhypothese interpretiert werden. In der grafischen Darstellung (für die Hypothese P d P0) ergibt sich z.B. folgende Situation der Abb. 26.5:
26. Ausgewählte Testverfahren
391
f (x)
D Signifikanz-Wahrscheinlichkeit X -3
-2
-1
0
1
2
3
Abb. 26.5: Vergleich Signifikanzniveau mit Signifikanz-Wahrscheinlichkeit
Wir erkennen folgende Wahrscheinlichkeiten: Signifikanzniveau D: P (V im Ablehnungsbereich) = 0,1000 = 10,00% Signifikanzwahrscheinlichkeit: P (V größer 1,8) = 0,0359 = 3,59%. Die Wahrscheinlichkeit, dass die Testgröße größer als 1,8 ist, beträgt nur 3,59% und ist damit kleiner als das vorgegebene Signifikanzniveau von 10%. Die Testgröße liegt deutlich im Ablehnungsbereich und die Nullhypothese wird abgelehnt. Die Wahrscheinlichkeit von 3,59% kann als exakte Fehlerwahrscheinlichkeit für die Ablehnung der Nullhypothese bezeichnet werden. Mit EXCEL und mit SPSS kann man sich diese Fehlerwahrscheinlichkeit für alle gängigen Tests ausgeben lassen! Bei den PC-Tests können meist die zwei Varianten unterschieden werden: - Wahl des Signifikanzniveaus - Ausgabe der Signifikanzwahrscheinlichkeit. x
Besonderheit beim zweiseitigen Test
Beim zweiseitigen Test werden von den Computerprogrammen die Testwahrscheinlichkeiten als nachfolgende Wahrscheinlichkeit ausgegeben: P (V d v V t v). Auch hier vergleichen wir die Wahrscheinlichkeit mit dem Signifikanzniveau und gehen so vor wie oben. Nur wenn der Computertest ausschließlich die zweiseitige Variante anbietet, müssen wir die ausgegebene Wahrscheinlichkeit halbieren.
392
Grundlagen der induktiven Statistik
26.6.2 Grundlegende Tests am PC x
Test für den Erwartungswert P einer Normalverteilung bei bekannter Varianz der Grundgesamtheit (vgl. Test in Abschnitt 26.1.1)
Dieser Test ist, da er von der offensichtlich sehr seltenen Tatsache einer bekannten Varianz in der Grundgesamtheit ausgeht, in SPSS nicht zu finden. In EXCEL wird die Funktion GTEST (für Gauß-Test) angeboten, die wir auf unser Beispiel in Abschnitt 26.1.1. anwenden wollen. Wenn die 36 Einzelwerte der Stichprobe in einer EXCEL-Datei abgelegt sind, dann kann mit der Funktion GTEST unter Angabe der Spalte mit den Werten (z.B. A1 bis A36), der Nullhypothese (hier: 70) und der Standardabweichung der Grundgesamtheit (hier: 10) die Wahrscheinlichkeit dafür angegeben werden, dass die Testgröße „außerhalb“ des beobachteten Wertes (hier: 1,8) liegt. Das EXCELErgebnis lautet 0,0359, d.h. 3,59%. Dieser Wert liegt unter den vorgegebenen 5%, der Hälfte des Signifikanzniveaus 10%, und damit außerhalb der 5%-Grenze. Daher ist die Nullhypothese abzulehnen. ACHTUNG: Im EXCEL-Hilfsfenster von GTEST wird angezeigt, dass die zweiseitige Prüfstatistik geliefert würde. Dies ist ein Dokumentationsfehler: angegeben wird die einseitige Wahrscheinlichkeit! Wir können in EXCEL auch die Funktion NORMVERT zur Berechnung der Ablehnungswahrscheinlichkeit heranziehen. Hierzu muss das EXCEL-Ergebnis der Verteilungsfunktion für 1,8 (bei Mittelwert 0 und Standardabweichung 1) von 1 abgezogen werden! x
Test für den Erwartungswert P einer Normalverteilung bei unbekannter Varianz der Grundgesamtheit (t-Test) (vgl. Test in Abschnitt 26.1.2)
Der t-Test ist einer der wichtigsten statistischen Tests. Er findet sich – in verschiedenen Varianten – in allen gängigen Statistikprogrammen. Mit SPSS können wir den t-Test aus Abschnitt 26.1.2 durchführen. Hierzu muss die Datei mit den 25 Einzelangaben aus der Stichprobe vorliegen. Der Aufruf der t-Tests erfolgt mit folgendem SPSS-Dialog: Analysieren – Mittelwerte vergleichen – T-Test bei einer Stichprobe. Neben der Wahl der Analysevariablen muss der Wert für die Nullhypothese (hier: 32,5) eingegeben werden. Die Ergebnisausgabe liefert standardmäßig ein 95%-Konfidenzintervall, das wir hier nicht benötigen. Abb. 26.6 zeigt das Ergebnis des Tests durch die Angabe von -1,678 als Realisation der Testgröße T (entspricht V in Abschnitt 26.1.2) und der Ablehnungswahrscheinlichkeit von 0,106 (abgekürzt mit „Sig.“).
26. Ausgewählte Testverfahren
393
Tes twert = 32.5
ALTER
T -1,678
df 24
Sig. (2-seitig) ,106
Mittle re D ifferenz -1,3000
95% Konfidenzinterv al der D iffe re nz U ntere Ob ere -2,8987 ,2987
Abb. 26.6: t-Test mit SPSS
Die Ablehnungswahrscheinlichkeit wird nur für 2-seitige Tests geliefert, so dass wir den Wert 0,106 durch 2 teilen müssen. Mit 5,3% (d.h. 0,053) liegen wir über dem vorgegebenen Signifikanzniveau von 0,05. Damit kann die Nullhypothese nicht abgelehnt werden. In EXCEL finden wir eine Funktion TTEST, die grundsätzlich für den Vergleich von zwei Stichproben vorgesehen ist. Wir können sie hier verwenden, indem wir im zweiten Matrixbereich des Funktionsfensters den Wert der Nullhypothese (hier: 25 mal den Wert 32,5) eingeben. (Dieses Verfahren ist bei großen Stichproben sehr umständlich!) Außerdem können wir zwischen ein- und zweiseitig wählen, so dass dieselbe Ablehnungswahrscheinlichkeit wie oben resultiert: 0,053. Zu wählen ist hierbei Typ = 1, d.h. 1 Stichprobe. Dasselbe Ergebnis erhalten wir mit der Funktion TVERT, die Wahrscheinlichkeiten für Quantile der t-Verteilung ausgibt. Es muss der (positive) Wert der Testgröße (hier: 1,678) eingegeben werden und die Ablehnungswahrscheinlichkeit wird angezeigt. Die Funktion TVERT liefert die Wahrscheinlichkeiten (1-D) für äußere Intervalle! x
Test für den Erwartungswert E(X) = P bei unbekannter Varianz der Grundgesamtheit und hinreichend großem Stichprobenumfang (vgl. Test in Abschnitt 26.1.3)
Nachdem in SPSS kein Test mit Normalverteilung möglich ist, verwenden wir die oben erläuterte Funktion des t-Tests. Diese Vorgehensweise macht zwar von der Approximation durch die Normalverteilung keinen Gebrauch, liefert aber für jede Stichprobengröße das exakte Ergebnis. Wegen der größeren Varianz der tVerteilung liegen die kritischen Werte etwas weiter außen! Beim einseitigen Test – wie in unserem Beispiel – müssen wir außerdem die Signifikanzwahrscheinlichkeit, die SPSS ausgibt, durch 2 teilen: Es wird 0,008 geliefert, d.h. mit 0,004 ist die Wahrscheinlichkeit deutlich unter dem vorgegebenen Signifikanzniveau: die Nullhypothese wird abgelehnt. In EXCEL kann der Test mit der oben erläuterten Funktion GTEST durchgeführt werden. Als Standardabweichung ist jetzt der Wert der Stichprobe einzugeben. Außerdem kann direkt mit NVERT gearbeitet werden, wenn der Wert der Testgröße vorher berechnet wurde.
394
Grundlagen der induktiven Statistik
Als Wert für die Ablehnungswahrscheinlichkeit liefert EXCEL 0,0032, d.h. 0,32%. Damit ist das vorgegebene Signifikanzniveau von 1% unterschritten und die Nullhypothese kann abgelehnt werden. Der Wert der Normalverteilung ist etwas niedriger als der Wert der t-Verteilung. Der Test mit der Normalverteilung ist weniger „streng“! x
Test für den Anteilswert (vgl. Test in Abschnitt 26.2)
Dieser Test wird weder in EXCEL noch in SPSS standardmäßig angeboten. Wir können im halb-automatischen Verfahren in EXCEL mit der Funktion NVERT arbeiten. Die Testgröße in Abschnitt 26.2 hatte den Wert 1,9884. Die dazugehörige Signifikanz-Wahrscheinlichkeit der Standardnormalverteilung lautet 0,0239. Sie liegt damit unter den vorgegebenen 2,5%, so dass die Nullhypothese abgelehnt wird. Dieser Wert der Normalverteilung kann in SPSS über die Funktion Transformieren ebenfalls ermittelt werden. x
Chi-Quadrat-Anpassungstest (vgl. Test in Abschnitt 26.3)
Mit SPSS können wir den Chi-Quadrat-Test wie folgt aufrufen: SPSS-Dialog: Analysieren – Nichtparametrische Tests – Chi-Quadrat. Wir testen hier gegen eine Gleichverteilung (wie in unserem Beispiel) oder gegen andere, zu berechnende erwartete Häufigkeiten. Mit EXCEL können wir die Funktion CHITEST verwenden, wobei nur die beobachteten und die erwarteten Häufigkeiten benötigt werden. Wir erhalten für unser Beispiel mit beiden Programmen die Ablehnungswahrscheinlichkeit von 0,117. Der Wert liegt über dem vorgegebenen Niveau von 5%. Daher kann die Nullhypothese nicht abgelehnt werden. x
Chi-Quadrat-Unabhängigkeitstest (vgl. Test in Abschnitt 26.4)
In SPSS besteht die Möglichkeit, zusammen mit den Kreuztabellen den ChiQuadrat-Unabhängigkeitstest durchzuführen. SPSS zeigt bei der Ergebnisausgabe zwar „zweiseitig“ an. Dies betrifft die Hypothese und ist damit richtig formuliert. Der Ablehnungsbereich ist allerdings einseitig, nämlich rechts vom kritischen Wert! Als Ergebnis erhalten wir mit SPSS die Tabelle von Abb. 26.7. In der Anmerkung zur Tabelle wird ein Hinweis auf eine etwaige Verletzung der Bedingung ejk t 5 gegeben. Das Ergebnis der Signifikanzausgabe liegt mit 0,000 deutlich im Ablehnungsbereich. Die Nullhypothese kann abgelehnt werden.
26. Ausgewählte Testverfahren
Wert Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gültigen Fälle
Asymptotische Signifikanz (2-seitig)
df a
395
23,637
4
,000
24,813
4
,000
20,714
1
,000
100
a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 6,50.
Abb. 26.7: Chi-Quadrat-Unabhängigkeitstest mit SPSS
Der dazugehörige Aufruf lautet: SPSS-Dialog: Analysieren – Deskriptive Statistiken – Kreuztabellen. In EXCEL lassen wir über die Funktion CHIVERT die Ablehnungswahrscheinlichkeit ausgeben und fällen dann die Testentscheidung. Die Funktion CHITEST ist ebenfalls anwendbar, wenn wir die (bei Unabhängigkeit) erwarteten Häufigkeiten zuvor berechnen. x
F-Test (vgl. Test in Abschnitt 26.5)
Die in Abschnitt 26.5 dargestellte Tabelle kann für die Durchführung des F-Tests mit dem Computer verwendet werden. Wir übernehmen die beiden Spalten der xiund der yi-Werte und legen entsprechende Dateien an. Der Aufruf lautet: SPSS-Dialog: Analysieren – Regression – Linear. Wir erhalten die Ausgabe der Testgröße (F) und der Signifikanzwahrscheinlichkeit.
Modell 1
Regression Residuen Gesamt
Quadratsumme 25,431 14,956 40,387
df 1 10 11
Mittel der Quadrate 25,431 1,496
F 17,004
Signifikanz ,002a
a. Einflußvariablen : (Konstante), VAR00002
Abb. 26.8: F-Test mit SPSS
In EXCEL können wir analog die Funktion FVERT heranziehen, um die Ablehnungswahrscheinlichkeit auszugeben. Die Funktion FTEST ist hier nicht geeignet, da sie nur für den Vergleich zweier Varianzen gilt.
Grundlagen der induktiven Statistik
396
26.6.3 Ergänzende Testverfahren am PC x
Test auf Gleichheit von Mittelwerten (t-Test für 2 Stichproben)
Zahlreiche Tests in den Computerprogrammen beziehen sich auf 2 Stichproben und den Vergleich der entsprechenden Parameter. Wir unterscheiden hier verbundene Stichproben (2 Variablen werden bei einem Element erhoben) und unabhängige Stichproben (1 Variable wird bei zwei unabhängigen Stichproben erhoben). Als Beispiel verwenden wir die Ergebnisse für zwei Seminargruppen aus unserem Master-Projekt. Gegeben sind die im Abschlusstest erreichten Punktzahlen für jeweils 18 Teilnehmer.
Teilnehmer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
1. Gruppe 46 48 39 37 48 50 44 29 36 46 42 47 47 48 38 49 43 46
2. Gruppe 48 44 37 33 48 48 44 29 36 41 42 34 42 44 36 47 41 44
Mittelwert 1. Gruppe
43,5
Mittelwert 2. Gruppe
41,0
Abb. 26.9: Tabelle für 2-Stichprobentest
Es handelt sich hier um zwei unabhängige Stichproben für eine Variable (Punktzahl). In SPSS nehmen wir für diese Variable eine Gruppierung vor und führen den Test durch. Der Programmaufruf lautet: SPSS-Dialog: Analysieren – Mittelwerte vergleichen – T-Test bei unabhängigen Stichproben.
26. Ausgewählte Testverfahren
397
Die Zugehörigkeit zur 1. oder 2. Gruppe wird durch eine Gruppierungsvariable (Werte 1 bzw. 2) ausgedrückt. Als Ergebnis erhalten wir:
Levene-Test der Varianzgleichheit
PUNKTE
Varianzen sind gleich Varianzen sind nicht gleich
F ,003
T-Test für die Mittelwertgleichheit
Signifikanz ,959
T 1,329 1,329
34
Sig. (2-seitig) ,193
33,999
,193
df
Abb. 26.10: t-Test für zwei unabhängige Stichproben mit SPSS
Dasselbe Ergebnis erhalten wir in EXCEL über die Funktion TTEST bzw. über die entsprechenden Tests in den Analyse-Funktionen. x
Test für den Korrelationskoeffizienten von Bravais-Pearson
Mit SPSS können wir den Korrelationskoeffizienten einem Test auf „Unabhängigkeit“ unterziehen. Für unser Beispiel aus Abschnitt 26.5 resultiert:
Verfügbares Einkommen Verfügbares Einkommen
Reiseausgaben
Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N
Reiseausgaben
,794** ,002 12
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
Abb. 26.11: Test für den Korrelationskoeffzienten mit SPSS
Hier liegt ein signifikanter Zusammenhang vor! Der SPSS-Aufruf lautet: SPSS-Dialog: Analysieren – Korrelation – Bivariat.
Von EXCEL und SPSS werden zahlreiche weitere Tests angeboten. Aufgrund der Dokumentation zu den Programmen kann der Anwender selbst entscheiden, welcher Test für seine Fragestellung geeignet ist.
399
ANHANG 1: Verzeichnis zum Master-Projekt In Kapitel 4 dieses Lehrbuchs wird ein umfassendes statistisches Auswertungsbeispiel als Master-Projekt vorgestellt. Konkrete Berechnungsbeispiele zu diesem Projekt werden in den einzelnen Kapiteln aufgegriffen und hinsichtlich der Anwendung statistischer Methoden erörtert. Um dem Leser die Möglichkeit zu geben, dieses Lehrbuch auch „projektorientiert“ zu lesen, wird hier eine Übersicht der einzelnen Anwendungsbeispiele des Master-Projekts mit Angabe der jeweiligen Abschnitte gegeben. In den Abschnitten, in denen das Master-Beispiel mehrfach verwendet wird, ist jeweils die Seite der ersten Anwendung genannt.
Thema
Abschnitt
Seite
Projektskizze
4.2
44
Fragebogen
4.2
46
Tabellen- und Grafikprogramm
4.2
47
Grundbegriffe und Variablentypen
5.6
56
Eindimensionale Häufigkeitsverteilung
6.1
60
Verteilung sortiert nach Häufigkeiten
6.5.2
75
Vergleich von Verteilungen
6.5.3
76
Klassierte Häufigkeitsverteilung
7.1
78
Lageparameter
8.1
88
Streuungsparameter
9.1
112
Box-Plots
9.9
130
Schiefe
10.1
136
Anhang 1: Übersicht zum Master-Projekt
400
Thema
Abschnitt
Seite
Zweidimensionale Häufigkeitsverteilung
14.1
199
Korrelationskoeffizient
15.3
218
Chi-Quadrat als Zusammenhangsmaß
16.2
232
Zeitreihenanalyse
17.2
245
18.4
277
Zufallsvariablen (qualitativ)
19.5
299
Punktschätzung
23.5
355
Konfidenzintervall für den Mittelwert
24.2
361
Konfidenzintervall für Anteilswert
24.3
365
Hypothesentest auf Mittelwert
26.1.1
377
Hypothesentest auf Anteilswert
26.2
382
Hypothesentest auf Unabhängigkeit
26.4
386
Hypothesentest auf Vergleich von Mittelwerten
26.6.3
401
Wahrscheinlichkeiten
401
ANHANG 2: Mathematische Grundlagen A 2.1 Summenzeichen Für das Verständnis der meisten statistischen Formeln und deren Anwendung ist die Kenntnis des Summenzeichens von Bedeutung. Auch in der praktischen Statistik und beim Computereinsatz (z.B. von EXCEL) sind Kenntnisse im Umgang mit Summenformeln notwendig. Die wichtigsten Formeln und Regeln im Zusammenhang mit dem Summenzeichen werden anhand des folgenden Beispiels erörtert: 3 Studenten erhalten für ihre Seminararbeiten die Noten 3, 2 und 4. Zu berechnen sind der Durchschnitt und die mittlere quadratische Streuung der Noten unter Anwendung des Summenzeichens.
(1) Das Summenzeichen Das Summenzeichen 6 (großes griechisches Sigma) fasst die Addition einzelner Werte in einer Formel zusammen. Die Werte erhalten hierbei als Summanden x einen Laufindex i, der von einer Untergrenze (meist 1 oder 0) bis zu einer Obergrenze (meist n) läuft und damit die Anzahl der Summanden festlegt.
Obergrenze des Laufindex (n=3) Summand
3
¦ xi
( x1 x 2 x 3 )
(3 2 4 )
9
i 1
Laufindex Untergrenze des Laufindex
(2) Rechnen mit dem Summenzeichen Die einzelnen statistischen Formeln enthalten unterschiedliche Varianten des Summenzeichens. Zum einen werden speziell die Summanden verändert und definiert, zum anderen kann die Summe als Ganzes von einer Transformation betroffen sein.
Anhang 2: Mathematische Grundlagen
402 x
Rechnen mit der Summe
Die Berechnung einer Durchschnittsnote geht von der Ermittlung einer Summe und der anschließenden Division durch die Anzahl der Elemente aus:
x
x
1 3 ¦ xi 3i 1
1 ( x1 x 2 x 3 ) 3
1 (3 2 4 ) 3
9 3
3,0
Rechnen mit transformierten Summanden
Die Berechnung des Mittelwerts kann so interpretiert werden, dass eine multiplikative Konstante vor der Summe steht und somit für jeden einzelnen Summanden gilt. Damit stellt sich die Berechnung wie folgt dar:
x
1 3 ¦ xi 3i 1
3
1
¦ 3x i i 1
3 2 4 ( ) 3 3 3
9 3
3,0
Die Berechnung der mittleren quadratischen Streuung für eine Anzahl von Werten entspricht ebenfalls der Anwendung des Summenzeichens mit transformierten Summanden.
V2
1 3 ( x i x )2 ¦ 3i 1
>
>
1 ( x1 x ) 2 ( x 2 x ) 2 ( x 3 x ) 2 3
1 (3 3 ) 2 ( 2 3 ) 2 ( 4 3 ) 2 3
x
@
1 3
(0 1 1)
@
2 3
Rechnen mit Summen und Summanden
Die obige Berechnung der mittleren quadratischen Streuung kann dadurch nachvollzogen werden, dass die Formel des Summanden ausgerechnet wird und die Ergebnisse auf einzelne Summen aufgeteilt werden.
Anhang 2: Mathematische Grundlagen
1 3 ( x i x )2 ¦ 3i 1
1 3 2 ( x1 2 x i x x 2 ) ¦ 3i 1
1 3 2 1 3 1 3 2 x 2 x x ¦ ¦ i 3 ¦x 3i 1 i 3i 1 i 1 1 2 (3 2 2 4 2 ) 3,0 2 3
x
403
1 3 2 ¦ x x2 3i 1 i
9 4 16 27 3 3
2 3
Rechnen mit additiver Konstante
Wir können die Noten unseres Beispiels (zwischen 1 und 5) so transformieren, dass sie zwischen –2 und +2 liegen (mit 0 in der Mitte). Dies entspricht der folgenden Anwendung des Summenzeichens:
y
1 3 ¦ ( x i 3) 3i 1 1 >0 ( 1) 1@ 3
1 >( x1 3) ( x 2 3) ( x 3 3)@ 3
0
Das Ergebnis entspricht der Berechnung von (x ¯ – 3) = 3,0 – 3,0 = 0. Dies verdeutlicht, dass die lineare Transformation für einzelne Summanden (= einzelne Werte einer Variablen) gleichbedeutend ist mit der linearen Transformation der Summe und auch des Mittelwerts.
A 2.2 Summen mit EXCEL und SPSS x
EXCEL
Die Summenfunktion wird von EXCEL standardmäßig über den Button mit dem Zeichen 6 in der oberen Menüleiste angeboten. Die Funktion wird dadurch akti-
Anhang 2: Mathematische Grundlagen
404
viert, dass eine Spalte (oder Zeile) markiert wird und der 6-Button angeklickt wird. Die Summe der Spaltenelemente (oder Zeilenelemente) wird von EXCEL im nächsten freien Feld eingetragen. Bei manueller Anforderung der Summenfunktion muss im Funktionsfeld SUMME eingetragen werden, wobei das Feld des ersten und des letzten Summanden in Klammer zuzuweisen ist, z.B. SUMME(A1:A20). x
SPSS
Im Computerprogramm SPSS gibt es eine Summenfunktion unter dem SPSS-Dialog: Daten – Aggregieren. Hiermit werden die Summen für Gruppen von Elementen berechnet und in eine neue SPSS-Datei abgelegt. Außerdem können über das Transformieren von Variablen und in einigen Tabellenfunktionen Summen angefordert werden.
A 2.3 Produktzeichen Analog zur Addition im Summenzeichen wird mit dem Produktzeichen 3 (großes griechisches Pi) die Multiplikation einzelner Faktoren definiert.
n
xi
x1 x 2 ... x n
i 1
A 2.4 Fakultät und Binomialkoeffizient (1) Fakultät Bei den Berechnungen der Kombinatorik und bei Formeln von Wahrscheinlichkeitsverteilungen wird die Fakultät von natürlichen Zahlen verwendet. Die Fakultät einer bestimmten natürlichen Zahl ist die sukzessive Multiplikation aller Zahlen von 1 an bis zur vorliegenden Zahl.
n! 1 2 ... (n 1) n
n (n 1) (n 2) ... 2 1
Anhang 2: Mathematische Grundlagen
405
(2) Binomialkoeffizient Der Binomialkoeffizient entspricht einer Division von Fakultäten und wird mit einem Klammersymbol dargestellt.
§n· ¨¨ ¸¸ ©k ¹
n! k! (n k )!
n (n 1) (n 2) ... (n k 1) 1 2 ... k
(3) Regeln für Binomialkoeffizient und Fakultät Für das Rechnen mit Binomialkoeffizienten und Fakultäten sind die folgenden Regeln von Bedeutung:
§n · ¨¨ ¸¸ ©0¹
1
§n· ¨¨ ¸¸ ©n¹
1
§0· ¨¨ ¸¸ ©0¹
1
§n· ¨¨ ¸¸ ©k ¹
§ n · ¨¨ ¸¸ ©n k ¹
(4) Beispiele für Fakultät und Binomialkoeffizient Für die Zahl n = 5 ergibt sich die Fakultät 5! = 1 . 2 . 3 . 4 . 5 = 120. Dazu ein Beispiel für den Binomialkoeffizienten:
§5· ¨¨ ¸¸ ©3¹
§5· ¨¨ ¸¸ © 2¹
5! 3!2!
5 4 3 2 1 (3 2 1) (2 1)
54 2 1
10
Dieses Beispiel gibt die Anzahl der Kombinationen (10) an, die man erhält, wenn man 3 (bzw. 2) Elemente aus einer Urne mit 5 Elementen „ohne Zurücklegen“ entnimmt und dabei die Reihenfolge der Ergebnisse nicht beachtet.
407
ANHANG 3: Tabellen Tabelle 1.1: Binomialverteilung Tabelle 1.2: Binomialverteilung (Fortsetzung) Tabelle 2:
Poissonverteilung
Tabelle 3:
Standardnormalverteilung
Tabelle 4.1: Chi-Quadrat-Verteilung Tabelle 4.2: Chi-Quadrat-Verteilung (Fortsetzung) Tabelle 5:
t-Verteilung
Tabelle 6.1: F-Verteilung Tabelle 6.2: F-Verteilung (Fortsetzung)
Anhang 3: Tabellen
408
Tabelle 1.1: Binomialverteilung B(n;p) mit Wahrscheinlichkeitsfunktion f(x) und Verteilungsfunktion F(x) n
x
p = 0,1 f(x) F(x)
p = 0,2 f(x) F(x)
p = 0,3 f(x) F(x)
p = 0,4 f(x) F(x)
p = 0,5 f(x) F(x)
2
0 1 2
0,810 0,180 0,010
0,810 0,990 1,000
0,640 0,320 0,040
0,640 0,960 1,000
0,490 0,420 0,090
0,490 0,910 1,000
0,360 0,480 0,160
0,360 0,840 1,000
0,250 0,500 0,250
0,250 0,750 1,000
3
0 1 2 3
0,729 0,243 0,027 0,001
0,729 0,972 0,999 1,000
0,512 0,384 0,096 0,008
0,512 0,896 0,992 1,000
0,343 0,441 0,189 0,027
0,343 0,784 0,973 1,000
0,216 0,432 0,288 0,064
0,216 0,648 0,936 1,000
0,125 0,375 0,375 0,125
0,125 0,500 0,875 1,000
4
0 1 2 3 4
0,656 0,292 0,049 0,004 0,000
0,656 0,948 0,996 1,000 1,000
0,410 0,410 0,154 0,026 0,002
0,410 0,819 0,973 0,998 1,000
0,240 0,412 0,265 0,076 0,008
0,240 0,652 0,916 0,992 1,000
0,130 0,346 0,346 0,154 0,026
0,130 0,475 0,821 0,974 1,000
0,063 0,250 0,375 0,250 0,063
0,063 0,313 0,688 0,938 1,000
5
0 1 2 3 4 5
0,590 0,328 0,073 0,008 0,000 0,000
0,590 0,919 0,991 1,000 1,000 1,000
0,328 0,410 0,205 0,051 0,006 0,000
0,328 0,737 0,942 0,993 1,000 1,000
0,168 0,360 0,309 0,132 0,028 0,002
0,168 0,528 0,837 0,969 0,998 1,000
0,078 0,259 0,346 0,230 0,077 0,010
0,078 0,337 0,683 0,913 0,990 1,000
0,031 0,156 0,313 0,313 0,156 0,031
0,031 0,188 0,500 0,813 0,969 1,000
6
0 1 2 3 4 5 6
0,531 0,354 0,098 0,015 0,001 0,000 0,000
0,531 0,886 0,984 0,999 1,000 1,000 1,000
0,262 0,393 0,246 0,082 0,015 0,002 0,000
0,262 0,655 0,901 0,983 0,998 1,000 1,000
0,118 0,303 0,324 0,185 0,060 0,010 0,001
0,118 0,420 0,744 0,930 0,989 0,999 1,000
0,047 0,187 0,311 0,276 0,138 0,037 0,004
0,047 0,233 0,544 0,821 0,959 0,996 1,000
0,016 0,094 0,234 0,313 0,234 0,094 0,016
0,016 0,109 0,344 0,656 0,891 0,984 1,000
7
0 1 2 3 4 5 6 7
0,478 0,372 0,124 0,023 0,003 0,000 0,000 0,000
0,478 0,850 0,974 0,997 1,000 1,000 1,000 1,000
0,210 0,367 0,275 0,115 0,029 0,004 0,000 0,000
0,210 0,577 0,852 0,967 0,995 1,000 1,000 1,000
0,082 0,247 0,318 0,227 0,097 0,025 0,004 0,000
0,082 0,329 0,647 0,874 0,971 0,996 1,000 1,000
0,028 0,131 0,261 0,290 0,194 0,077 0,017 0,002
0,028 0,159 0,420 0,710 0,904 0,981 0,998 1,000
0,008 0,055 0,164 0,273 0,273 0,164 0,055 0,008
0,008 0,063 0,227 0,500 0,773 0,938 0,992 1,000
8
0 1 2 3 4 5 6 7 8
0,430 0,383 0,149 0,033 0,005 0,000 0,000 0,000 0,000
0,430 0,813 0,962 0,995 1,000 1,000 1,000 1,000 1,000
0,168 0,336 0,294 0,147 0,046 0,009 0,001 0,000 0,000
0,168 0,503 0,797 0,944 0,990 0,999 1,000 1,000 1,000
0,058 0,198 0,296 0,254 0,136 0,047 0,010 0,001 0,000
0,058 0,255 0,552 0,806 0,942 0,989 0,999 1,000 1,000
0,017 0,090 0,209 0,279 0,232 0,124 0,041 0,008 0,001
0,017 0,106 0,315 0,594 0,826 0,950 0,991 0,999 1,000
0,004 0,031 0,109 0,219 0,273 0,219 0,109 0,031 0,004
0,004 0,035 0,145 0,363 0,637 0,855 0,965 0,996 1,000
Anhang 3: Tabellen
409
Tabelle 1.2: Binomialverteilung (Fortsetzung) B(n;p) mit Wahrscheinlichkeitsfunktion f(x) und Verteilungsfunktion F(x) n
x
p = 0,1 f(x) F(x)
p = 0,2 f(x) F(x)
p = 0,3 f(x) F(x)
p = 0,4 f(x) F(x)
p = 0,5 f(x) F(x)
9
0 1 2 3 4 5 6 7 8 9
0,387 0,387 0,172 0,045 0,007 0,001 0,000 0,000 0,000 0,000
0,387 0,775 0,947 0,992 0,999 1,000 1,000 1,000 1,000 1,000
0,134 0,302 0,302 0,176 0,066 0,017 0,003 0,000 0,000 0,000
0,134 0,436 0,738 0,914 0,980 0,997 1,000 1,000 1,000 1,000
0,040 0,156 0,267 0,267 0,172 0,074 0,021 0,004 0,000 0,000
0,040 0,196 0,463 0,730 0,901 0,975 0,996 1,000 1,000 1,000
0,010 0,060 0,161 0,251 0,251 0,167 0,074 0,021 0,004 0,000
0,010 0,071 0,232 0,483 0,733 0,901 0,975 0,996 1,000 1,000
0,002 0,018 0,070 0,164 0,246 0,246 0,164 0,070 0,018 0,002
0,002 0,020 0,090 0,254 0,500 0,746 0,910 0,980 0,998 1,000
10
0 1 2 3 4 5 6 7 8 9 10
0,349 0,387 0,194 0,057 0,011 0,001 0,000 0,000 0,000 0,000 0,000
0,349 0,736 0,930 0,987 0,998 1,000 1,000 1,000 1,000 1,000 1,000
0,107 0,268 0,302 0,201 0,088 0,026 0,006 0,001 0,000 0,000 0,000
0,107 0,376 0,678 0,879 0,967 0,994 0,999 1,000 1,000 1,000 1,000
0,028 0,121 0,233 0,267 0,200 0,103 0,037 0,009 0,001 0,000 0,000
0,028 0,149 0,383 0,650 0,850 0,953 0,989 0,998 1,000 1,000 1,000
0,006 0,040 0,121 0,215 0,251 0,201 0,111 0,042 0,011 0,002 0,000
0,006 0,046 0,167 0,382 0,633 0,834 0,945 0,988 0,998 1,000 1,000
0,001 0,010 0,044 0,117 0,205 0,246 0,205 0,117 0,044 0,010 0,001
0,001 0,011 0,055 0,172 0,377 0,623 0,828 0,945 0,989 0,999 1,000
11
0 1 2 3 4 5 6 7 8 9 10 11
0,314 0,384 0,213 0,071 0,016 0,002 0,000 0,000 0,000 0,000 0,000 0,000
0,314 0,697 0,910 0,981 0,997 1,000 1,000 1,000 1,000 1,000 1,000 1,000
0,086 0,236 0,295 0,221 0,111 0,039 0,010 0,002 0,000 0,000 0,000 0,000
0,086 0,322 0,617 0,839 0,950 0,988 0,998 1,000 1,000 1,000 1,000 1,000
0,020 0,093 0,200 0,257 0,220 0,132 0,057 0,017 0,004 0,001 0,000 0,000
0,020 0,113 0,313 0,570 0,790 0,922 0,978 0,996 0,999 1,000 1,000 1,000
0,004 0,027 0,089 0,177 0,236 0,221 0,147 0,070 0,023 0,005 0,001 0,000
0,004 0,030 0,119 0,296 0,533 0,753 0,901 0,971 0,994 0,999 1,000 1,000
0,000 0,005 0,027 0,081 0,161 0,226 0,226 0,161 0,081 0,027 0,005 0,000
0,000 0,006 0,033 0,113 0,274 0,500 0,726 0,887 0,967 0,994 1,000 1,000
12
0 1 2 3 4 5 6 7 8 9 10 11 12
0,282 0,377 0,230 0,085 0,021 0,004 0,000 0,000 0,000 0,000 0,000 0,000 0,000
0,282 0,659 0,889 0,974 0,996 0,999 1,000 1,000 1,000 1,000 1,000 1,000 1,000
0,069 0,206 0,283 0,236 0,133 0,053 0,016 0,003 0,001 0,000 0,000 0,000 0,000
0,069 0,275 0,558 0,795 0,927 0,981 0,996 0,999 1,000 1,000 1,000 1,000 1,000
0,014 0,071 0,168 0,240 0,231 0,158 0,079 0,029 0,008 0,001 0,000 0,000 0,000
0,014 0,085 0,253 0,493 0,724 0,882 0,961 0,991 0,998 1,000 1,000 1,000 1,000
0,002 0,017 0,064 0,142 0,213 0,227 0,177 0,101 0,042 0,012 0,002 0,000 0,000
0,002 0,020 0,083 0,225 0,438 0,665 0,842 0,943 0,985 0,997 1,000 1,000 1,000
0,000 0,003 0,016 0,054 0,121 0,193 0,226 0,193 0,121 0,054 0,016 0,003 0,000
0,000 0,003 0,019 0,073 0,194 0,387 0,613 0,806 0,927 0,981 0,997 1,000 1,000
Anhang 3: Tabellen
410
Tabelle 2: Poissonverteilung Ps(x| O) mit Wahrscheinlichkeitsfunktion f(x)
O
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0 1 2 3 4 5 6 7
0,9048 0,0905 0,0045 0,0002 0,0000 0,0000 0,0000 0,0000
0,8187 0,1637 0,0164 0,0011 0,0001 0,0000 0,0000 0,0000
0,7408 0,2222 0,0333 0,0033 0,0003 0,0000 0,0000 0,0000
0,6703 0,2681 0,0536 0,0072 0,0007 0,0001 0,0000 0,0000
0,6065 0,3033 0,0758 0,0126 0,0016 0,0002 0,0000 0,0000
0,5488 0,3293 0,0988 0,0198 0,0030 0,0004 0,0000 0,0000
0,4966 0,3476 0,1217 0,0284 0,0050 0,0007 0,0001 0,0000
0,4493 0,3595 0,1438 0,0383 0,0077 0,0012 0,0002 0,0000
0,4066 0,3659 0,1647 0,0494 0,0111 0,0020 0,0003 0,0000
0,3679 0,3679 0,1839 0,0613 0,0153 0,0031 0,0005 0,0001
O
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
0 1 2 3 4 5 6 7 8 9
0,3329 0,3662 0,2014 0,0738 0,0203 0,0045 0,0008 0,0001 0,0000 0,0000
0,3012 0,3614 0,2169 0,0867 0,0260 0,0062 0,0012 0,0002 0,0000 0,0000
0,2725 0,3543 0,2303 0,0998 0,0324 0,0084 0,0018 0,0003 0,0001 0,0000
0,2466 0,3452 0,2417 0,1128 0,0395 0,0111 0,0026 0,0005 0,0001 0,0000
0,2231 0,3347 0,2510 0,1255 0,0471 0,0141 0,0035 0,0008 0,0001 0,0000
0,2019 0,3230 0,2584 0,1378 0,0551 0,0176 0,0047 0,0011 0,0002 0,0000
0,1827 0,3106 0,2640 0,1496 0,0636 0,0216 0,0061 0,0015 0,0003 0,0001
0,1653 0,2975 0,2678 0,1607 0,0723 0,0260 0,0078 0,0020 0,0005 0,0001
0,1496 0,2842 0,2700 0,1710 0,0812 0,0309 0,0098 0,0027 0,0006 0,0001
0,1353 0,2707 0,2707 0,1804 0,0902 0,0361 0,0120 0,0034 0,0009 0,0002
O
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
0,1225 0,2572 0,2700 0,1890 0,0992 0,0417 0,0146 0,0044 0,0011 0,0003 0,0001 0,0000 0,0000
0,1108 0,2438 0,2681 0,1966 0,1082 0,0476 0,0174 0,0055 0,0015 0,0004 0,0001 0,0000 0,0000
0,1003 0,2306 0,2652 0,2033 0,1169 0,0538 0,0206 0,0068 0,0019 0,0005 0,0001 0,0000 0,0000
0,0907 0,2177 0,2613 0,2090 0,1254 0,0602 0,0241 0,0083 0,0025 0,0007 0,0002 0,0000 0,0000
0,0821 0,2052 0,2565 0,2138 0,1336 0,0668 0,0278 0,0099 0,0031 0,0009 0,0002 0,0000 0,0000
0,0743 0,1931 0,2510 0,2176 0,1414 0,0735 0,0319 0,0118 0,0038 0,0011 0,0003 0,0001 0,0000
0,0672 0,1815 0,2450 0,2205 0,1488 0,0804 0,0362 0,0139 0,0047 0,0014 0,0004 0,0001 0,0000
0,0608 0,1703 0,2384 0,2225 0,1557 0,0872 0,0407 0,0163 0,0057 0,0018 0,0005 0,0001 0,0000
0,0550 0,1596 0,2314 0,2237 0,1622 0,0940 0,0455 0,0188 0,0068 0,0022 0,0006 0,0002 0,0000
0,0498 0,1494 0,2240 0,2240 0,1680 0,1008 0,0504 0,0216 0,0081 0,0027 0,0008 0,0002 0,0001
x
x
x 0 1 2 3 4 5 6 7 8 9 10 11 12
Anhang 3: Tabellen
411
Tabelle 3: Standardnormalverteilung Werte der Verteilungsfunktion für z
z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0 0,1 0,2 0,3 0,4
0,5000 0,5398 0,5793 0,6179 0,6554
0,5040 0,5438 0,5832 0,6217 0,6591
0,5080 0,5478 0,5871 0,6255 0,6628
0,5120 0,5517 0,5910 0,6293 0,6664
0,5160 0,5557 0,5948 0,6331 0,6700
0,5199 0,5596 0,5987 0,6368 0,6736
0,5239 0,5636 0,6026 0,6406 0,6772
0,5279 0,5675 0,6064 0,6443 0,6808
0,5319 0,5714 0,6103 0,6480 0,6844
0,5359 0,5753 0,6141 0,6517 0,6879
0,5 0,6 0,7 0,8 0,9
0,6915 0,7257 0,7580 0,7881 0,8159
0,6950 0,7291 0,7611 0,7910 0,8186
0,6985 0,7324 0,7642 0,7939 0,8212
0,7019 0,7357 0,7673 0,7967 0,8238
0,7054 0,7389 0,7704 0,7995 0,8264
0,7088 0,7422 0,7734 0,8023 0,8289
0,7123 0,7454 0,7764 0,8051 0,8315
0,7157 0,7486 0,7794 0,8078 0,8340
0,7190 0,7517 0,7823 0,8106 0,8365
0,7224 0,7549 0,7852 0,8133 0,8389
1,0 1,1 1,2 1,3 1,4
0,8413 0,8643 0,8849 0,9032 0,9192
0,8438 0,8665 0,8869 0,9049 0,9207
0,8461 0,8686 0,8888 0,9066 0,9222
0,8485 0,8708 0,8907 0,9082 0,9236
0,8508 0,8729 0,8925 0,9099 0,9251
0,8531 0,8749 0,8944 0,9115 0,9265
0,8554 0,8770 0,8962 0,9131 0,9279
0,8577 0,8790 0,8980 0,9147 0,9292
0,8599 0,8810 0,8997 0,9162 0,9306
0,8621 0,8830 0,9015 0,9177 0,9319
1,5 1,6 1,7 1,8 1,9
0,9332 0,9452 0,9554 0,9641 0,9713
0,9345 0,9463 0,9564 0,9649 0,9719
0,9357 0,9474 0,9573 0,9656 0,9726
0,9370 0,9484 0,9582 0,9664 0,9732
0,9382 0,9495 0,9591 0,9671 0,9738
0,9394 0,9505 0,9599 0,9678 0,9744
0,9406 0,9515 0,9608 0,9686 0,9750
0,9418 0,9525 0,9616 0,9693 0,9756
0,9429 0,9535 0,9625 0,9699 0,9761
0,9441 0,9545 0,9633 0,9706 0,9767
2,0 2,1 2,2 2,3 2,4
0,9772 0,9821 0,9861 0,9893 0,9918
0,9778 0,9826 0,9864 0,9896 0,9920
0,9783 0,9830 0,9868 0,9898 0,9922
0,9788 0,9834 0,9871 0,9901 0,9925
0,9793 0,9838 0,9875 0,9904 0,9927
0,9798 0,9842 0,9878 0,9906 0,9929
0,9803 0,9846 0,9881 0,9909 0,9931
0,9808 0,9850 0,9884 0,9911 0,9932
0,9812 0,9854 0,9887 0,9913 0,9934
0,9817 0,9857 0,9890 0,9916 0,9936
2,5 2,6 2,7 2,8 2,9
0,9938 0,9953 0,9965 0,9974 0,9981
0,9940 0,9955 0,9966 0,9975 0,9982
0,9941 0,9956 0,9967 0,9976 0,9982
0,9943 0,9957 0,9968 0,9977 0,9983
0,9945 0,9959 0,9969 0,9977 0,9984
0,9946 0,9960 0,9970 0,9978 0,9984
0,9948 0,9961 0,9971 0,9979 0,9985
0,9949 0,9962 0,9972 0,9979 0,9985
0,9951 0,9963 0,9973 0,9980 0,9986
0,9952 0,9964 0,9974 0,9981 0,9986
z F(z)
3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000
Anhang 3: Tabellen
412
Tabelle 4.1: Chi-Quadrat-Verteilung Quantile für ausgewählte Wahrscheinlichkeiten p p Anzahl der Freiheitsgrade
0,001
0,005
0,025
0,050
0,100
1 2 3 4 5
0,00 0,00 0,02 0,09 0,21
0,00 0,01 0,07 0,21 0,41
0,00 0,05 0,22 0,48 0,83
0,00 0,10 0,35 0,71 1,15
0,02 0,21 0,58 1,06 1,61
6 7 8 9 10
0,38 0,60 0,86 1,15 1,48
0,68 0,99 1,34 1,73 2,16
1,24 1,69 2,18 2,70 3,25
1,64 2,17 2,73 3,33 3,94
2,20 2,83 3,49 4,17 4,87
11 12 13 14 15
1,83 2,21 2,62 3,04 3,48
2,60 3,07 3,57 4,07 4,60
3,82 4,40 5,01 5,63 6,26
4,57 5,23 5,89 6,57 7,26
5,58 6,30 7,04 7,79 8,55
16 17 18 19 20
3,94 4,42 4,90 5,41 5,92
5,14 5,70 6,26 6,84 7,43
6,91 7,56 8,23 8,91 9,59
7,96 8,67 9,39 10,12 10,85
9,31 10,09 10,86 11,65 12,44
21 22 23 24 25
6,45 6,98 7,53 8,08 8,65
8,03 8,64 9,26 9,89 10,52
10,28 10,98 11,69 12,40 13,12
11,59 12,34 13,09 13,85 14,61
13,24 14,04 14,85 15,66 16,47
26 27 28 29 30
9,22 9,80 10,39 10,99 11,59
11,16 11,81 12,46 13,12 13,79
13,84 14,57 15,31 16,05 16,79
15,38 16,15 16,93 17,71 18,49
17,29 18,11 18,94 19,77 20,60
40 50
17,92 24,67
20,71 27,99
24,43 32,36
26,51 34,76
29,05 37,69
Anhang 3: Tabellen
413
Tabelle 4.2: Chi-Quadrat-Verteilung (Fortsetzung) Quantile für ausgewählte Wahrscheinlichkeiten p Anzahl der Freiheitsgrade
p 0,50
0,90
0,95
0,975
0,990
0,995
0,999
1 2 3 4 5
0,45 1,39 2,37 3,36 4,35
2,71 4,61 6,25 7,78 9,24
3,84 5,99 7,81 9,49 11,07
5,02 7,38 9,35 11,14 12,83
6,63 9,21 11,34 13,28 15,09
7,88 10,60 12,84 14,86 16,75
10,83 13,82 16,27 18,47 20,52
6 7 8 9 10
5,35 6,35 7,34 8,34 9,34
10,64 12,02 13,36 14,68 15,99
12,59 14,07 15,51 16,92 18,31
14,45 16,01 17,53 19,02 20,48
16,81 18,48 20,09 21,67 23,21
18,55 20,28 21,95 23,59 25,19
22,46 24,32 26,12 27,88 29,59
11 12 13 14 15
10,34 11,34 12,34 13,34 14,34
17,28 18,55 19,81 21,06 22,31
19,68 21,03 22,36 23,68 25,00
21,92 23,34 24,74 26,12 27,49
24,72 26,22 27,69 29,14 30,58
26,76 28,30 29,82 31,32 32,80
31,26 32,91 34,53 36,12 37,70
16 17 18 19 20
15,34 16,34 17,34 18,34 19,34
23,54 24,77 25,99 27,20 28,41
26,30 27,59 28,87 30,14 31,41
28,85 30,19 31,53 32,85 34,17
32,00 33,41 34,81 36,19 37,57
34,27 35,72 37,16 38,58 40,00
39,25 40,79 42,31 43,82 45,31
21 22 23 24 25
20,34 21,34 22,34 23,34 24,34
29,62 30,81 32,01 33,20 34,38
32,67 33,92 35,17 36,42 37,65
35,48 36,78 38,08 39,36 40,65
38,93 40,29 41,64 42,98 44,31
41,40 42,80 44,18 45,56 46,93
46,80 48,27 49,73 51,18 52,62
26 27 28 29 30
25,34 26,34 27,34 28,34 29,34
35,56 36,74 37,92 39,09 40,26
38,89 40,11 41,34 42,56 43,77
41,92 43,19 44,46 45,72 46,98
45,64 46,96 48,28 49,59 50,89
48,29 49,64 50,99 52,34 53,67
54,05 55,48 56,89 58,30 59,70
40 50
39,34 49,33
51,81 63,17
55,76 67,50
59,34 71,42
63,69 76,15
66,77 79,49
73,40 86,66
Anhang 3: Tabellen
414
Tabelle 5: t-Verteilung Quantile für ausgewählte Wahrscheinlichkeiten p p Anzahl der Freiheitsgrade
0,90
0,95
0,975
0,990
0,995
1 2 3 4 5
3,078 1,886 1,638 1,533 1,476
6,314 2,920 2,353 2,132 2,015
12,706 4,303 3,182 2,776 2,571
31,821 6,965 4,541 3,747 3,365
63,657 9,925 5,841 4,604 4,032
636,619 31,599 12,924 8,610 6,869
6 7 8 9 10
1,440 1,415 1,397 1,383 1,372
1,943 1,895 1,860 1,833 1,812
2,447 2,365 2,306 2,262 2,228
3,143 2,998 2,896 2,821 2,764
3,707 3,499 3,355 3,250 3,169
5,959 5,408 5,041 4,781 4,587
11 12 13 14 15
1,363 1,356 1,350 1,345 1,341
1,796 1,782 1,771 1,761 1,753
2,201 2,179 2,160 2,145 2,131
2,718 2,681 2,650 2,624 2,602
3,106 3,055 3,012 2,977 2,947
4,437 4,318 4,221 4,140 4,073
16 17 18 19 20
1,337 1,333 1,330 1,328 1,325
1,746 1,740 1,734 1,729 1,725
2,120 2,110 2,101 2,093 2,086
2,583 2,567 2,552 2,539 2,528
2,921 2,898 2,878 2,861 2,845
4,015 3,965 3,922 3,883 3,850
21 22 23 24 25
1,323 1,321 1,319 1,318 1,316
1,721 1,717 1,714 1,711 1,708
2,080 2,074 2,069 2,064 2,060
2,518 2,508 2,500 2,492 2,485
2,831 2,819 2,807 2,797 2,787
3,819 3,792 3,768 3,745 3,725
26 27 28 29 30
1,315 1,314 1,313 1,311 1,310
1,706 1,703 1,701 1,699 1,697
2,056 2,052 2,048 2,045 2,042
2,479 2,473 2,467 2,462 2,457
2,779 2,771 2,763 2,756 2,750
3,707 3,690 3,674 3,659 3,646
1,303 1,299 1,296 1,289 1,282
1,684 1,676 1,671 1,658 1,645
2,021 2,009 2,000 1,980 1,960
2,423 2,403 2,390 2,358 2,326
2,704 2,678 2,660 2,617 2,576
3,551 3,496 3,460 3,373 3,291
40 50 60 120 unendlich
0,9995
Anhang 3: Tabellen
415
Tabelle 6.1: F-Verteilung 97,5%-Quantile
m
1
2
3
4
5
6
7
8
9
10
11
12
n 1 2 3 4 5
647,8 38,51 17,44 12,22 10,01
799,5 864,2 899,6 921,8 937,1 948,2 956,7 963,3 968,6 973,0 976,7 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,41 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,37 14,34 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,79 8,75 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,57 6,52
6 7 8 9 10
8,81 8,07 7,57 7,21 6,94
7,26 6,54 6,06 5,71 5,46
6,60 5,89 5,42 5,08 4,83
6,23 5,52 5,05 4,72 4,47
5,99 5,29 4,82 4,48 4,24
5,82 5,12 4,65 4,32 4,07
5,70 4,99 4,53 4,20 3,95
5,60 4,90 4,43 4,10 3,85
5,52 4,82 4,36 4,03 3,78
5,46 4,76 4,30 3,96 3,72
5,41 4,71 4,24 3,91 3,66
5,37 4,67 4,20 3,87 3,62
11 12 13 14 15
6,72 6,55 6,41 6,30 6,20
5,26 5,10 4,97 4,86 4,77
4,63 4,47 4,35 4,24 4,15
4,28 4,12 4,00 3,89 3,80
4,04 3,89 3,77 3,66 3,58
3,88 3,73 3,60 3,50 3,41
3,76 3,61 3,48 3,38 3,29
3,66 3,51 3,39 3,29 3,20
3,59 3,44 3,31 3,21 3,12
3,53 3,37 3,25 3,15 3,06
3,47 3,32 3,20 3,09 3,01
3,43 3,28 3,15 3,05 2,96
16 17 18 19 20
6,12 6,04 5,98 5,92 5,87
4,69 4,62 4,56 4,51 4,46
4,08 4,01 3,95 3,90 3,86
3,73 3,66 3,61 3,56 3,51
3,50 3,44 3,38 3,33 3,29
3,34 3,28 3,22 3,17 3,13
3,22 3,16 3,10 3,05 3,01
3,12 3,06 3,01 2,96 2,91
3,05 2,98 2,93 2,88 2,84
2,99 2,92 2,87 2,82 2,77
2,93 2,87 2,81 2,76 2,72
2,89 2,82 2,77 2,72 2,68
22 24 26 28 30
5,79 5,72 5,66 5,61 5,57
4,38 4,32 4,27 4,22 4,18
3,78 3,72 3,67 3,63 3,59
3,44 3,38 3,33 3,29 3,25
3,22 3,15 3,10 3,06 3,03
3,05 2,99 2,94 2,90 2,87
2,93 2,87 2,82 2,78 2,75
2,84 2,78 2,73 2,69 2,65
2,76 2,70 2,65 2,61 2,57
2,70 2,64 2,59 2,55 2,51
2,65 2,59 2,54 2,49 2,46
2,60 2,54 2,49 2,45 2,41
40 50 60 80 100
5,42 5,34 5,29 5,22 5,18
4,05 3,97 3,93 3,86 3,83
3,46 3,39 3,34 3,28 3,25
3,13 3,05 3,01 2,95 2,92
2,90 2,83 2,79 2,73 2,70
2,74 2,67 2,63 2,57 2,54
2,62 2,55 2,51 2,45 2,42
2,53 2,46 2,41 2,35 2,32
2,45 2,38 2,33 2,28 2,24
2,39 2,32 2,27 2,21 2,18
2,33 2,26 2,22 2,16 2,12
2,29 2,22 2,17 2,11 2,08
200 300 500 1000 u.e.
5,10 5,07 5,05 5,04 5,02
3,76 3,73 3,72 3,70 3,69
3,18 3,16 3,14 3,13 3,12
2,85 2,83 2,81 2,80 2,79
2,63 2,61 2,59 2,58 2,57
2,47 2,45 2,43 2,42 2,41
2,35 2,33 2,31 2,30 2,29
2,26 2,23 2,22 2,20 2,19
2,18 2,16 2,14 2,13 2,11
2,11 2,09 2,07 2,06 2,05
2,06 2,04 2,02 2,01 1,99
2,01 1,99 1,97 1,96 1,95
Anhang 3: Tabellen
416
Tabelle 6.2: F-Verteilung (Fortsetzung)
97,5%-Quantile
m
13
14
15
16
18
20
30
40
50
100
500
u.e.
n 1 2 3 4 5
980 983 985 987 990 993 1001 1006 1008 1013 1017 1018 39,42 39,43 39,43 39,44 39,44 39,45 39,46 39,47 39,48 39,49 39,50 39,50 14,30 14,28 14,25 14,23 14,20 14,17 14,08 14,04 14,01 13,96 13,91 13,90 8,71 8,68 8,66 8,63 8,59 8,56 8,46 8,41 8,38 8,32 8,27 8,26 6,49 6,46 6,43 6,40 6,36 6,33 6,23 6,18 6,14 6,08 6,03 6,02
6 7 8 9 10
5,33 4,63 4,16 3,83 3,58
5,30 4,60 4,13 3,80 3,55
5,27 4,57 4,10 3,77 3,52
5,24 4,54 4,08 3,74 3,50
5,20 4,50 4,03 3,70 3,45
5,17 4,47 4,00 3,67 3,42
5,07 4,36 3,89 3,56 3,31
5,01 4,31 3,84 3,51 3,26
4,98 4,28 3,81 3,47 3,22
4,92 4,21 3,74 3,40 3,15
4,86 4,16 3,68 3,35 3,09
4,85 4,14 3,67 3,33 3,08
11 12 13 14 15
3,39 3,24 3,12 3,01 2,92
3,36 3,21 3,08 2,98 2,89
3,33 3,18 3,05 2,95 2,86
3,30 3,15 3,03 2,92 2,84
3,26 3,11 2,98 2,88 2,79
3,23 3,07 2,95 2,84 2,76
3,12 2,96 2,84 2,73 2,64
3,06 2,91 2,78 2,67 2,59
3,03 2,87 2,74 2,64 2,55
2,96 2,80 2,67 2,56 2,47
2,90 2,74 2,61 2,50 2,41
2,88 2,73 2,60 2,49 2,40
16 17 18 19 20
2,85 2,79 2,73 2,68 2,64
2,82 2,75 2,70 2,65 2,60
2,79 2,72 2,67 2,62 2,57
2,76 2,70 2,64 2,59 2,55
2,72 2,65 2,60 2,55 2,50
2,68 2,62 2,56 2,51 2,46
2,57 2,50 2,44 2,39 2,35
2,51 2,44 2,38 2,33 2,29
2,47 2,41 2,35 2,30 2,25
2,40 2,33 2,27 2,22 2,17
2,33 2,26 2,20 2,15 2,10
2,32 2,25 2,19 2,13 2,09
22 24 26 28 30
2,56 2,50 2,45 2,41 2,37
2,53 2,47 2,42 2,37 2,34
2,50 2,44 2,39 2,34 2,31
2,47 2,41 2,36 2,32 2,28
2,43 2,36 2,31 2,27 2,23
2,39 2,33 2,28 2,23 2,20
2,27 2,21 2,16 2,11 2,07
2,21 2,15 2,09 2,05 2,01
2,17 2,11 2,05 2,01 1,97
2,09 2,02 1,97 1,92 1,88
2,02 1,95 1,90 1,85 1,81
2,00 1,94 1,88 1,83 1,79
40 50 60 80 100
2,25 2,18 2,13 2,07 2,04
2,21 2,14 2,09 2,03 2,00
2,18 2,11 2,06 2,00 1,97
2,15 2,08 2,03 1,97 1,94
2,11 2,03 1,98 1,92 1,89
2,07 1,99 1,94 1,88 1,85
1,94 1,87 1,82 1,75 1,71
1,88 1,80 1,74 1,68 1,64
1,83 1,75 1,70 1,63 1,59
1,74 1,66 1,60 1,53 1,48
1,66 1,57 1,51 1,43 1,38
1,64 1,55 1,48 1,40 1,35
200 300 500 1000 u.e.
1,97 1,95 1,93 1,92 1,90
1,93 1,91 1,89 1,88 1,87
1,90 1,88 1,86 1,85 1,83
1,87 1,85 1,83 1,82 1,80
1,82 1,80 1,78 1,77 1,75
1,78 1,75 1,74 1,72 1,71
1,64 1,62 1,60 1,58 1,57
1,56 1,54 1,52 1,50 1,49
1,51 1,48 1,46 1,45 1,43
1,39 1,36 1,34 1,32 1,30
1,27 1,23 1,19 1,16 1,13
1,23 1,18 1,14 1,09 1,01
Literatur + Datenquellen LITERATUR Anderson, O., Schaffranek, M., Stenger, H., Szameitat, K. (1983): Bevölkerungs- und Wirtschaftsstatistik, Springer, Berlin – Heidelberg – New York Anderson, O., Popp, W., Schaffranek, M., Steinmetz, D., Stenger, H. (1997): Schätzen und Testen, Springer, Berlin – Heidelberg – New York Baloui, S. (1998): Excel 97, Kompendium, Markt und Technik, München Bamberg, G., Baur, F. (2009): Statistik, 15. Auflage, Oldenbourg, München – Wien Bellgardt, E. (1999): Statistik mit SPSS, Vahlen, München Böker, F. (1993): Statistik lernen am PC, Vandenhoeck & Ruprecht, Göttingen Brosius, G., Brosius, F. (2004): SPSS 12 – Professionelle Statistik unter Windows, Moderne Industrie, Bonn Business BASICS (1997): Quantitative Methods, BPP, London Bühl, A., Zöfel, P. (2009): SPSS 18 – Einführung in die moderne Datenanalyse, Pearson Studium, München Erben, W. (1998): Statistik mit Excel 5 oder 7, Oldenbourg, München – Wien Ferschl, F. (1985): Deskriptive Statistik, Physica, Würzburg – Wien Geßler, J.R. (1993): Statistische Graphik, Birkhäuser, Basel – Boston – Berlin Gnoss, R., Müller, G., Zwerenz, K. (1988): Übungen zur Statistik, Verlag für Wirtschaftsskripten, München Hartung, J., Elpelt, B., Klösener, K.-H. (2005): Statistik – Lehr- und Handbuch der angewandten Statistik, Oldenbourg, München – Wien Huff, D. (1993): How to Lie with Statistics, Norton, New York – London Kehrle, K. (2005): Betriebsstatistik, Arbeitsunterlage, München Kennedy, G. (1993): Einladung zur Statistik, Campus, Frankfurt – New York Krämer, W. (1994): So überzeugt man mit Statistik, Campus, Frankfurt – New York Krämer, W. (2001): Statistik verstehen, Campus, Frankfurt – New York Matthäus, W.-G. (2007): Statistik mit Excel – Beschreibende Statistik für jedermann, Teubner, Wiesbaden Rodeghier, M. (2000): Marktforschung mit SPSS, Thomson, Bonn u.a.
418 Schlittgen, R. (2008): Statistik – Analyse und Modellierung von Daten, 11. Auflage, Oldenbourg, München – Wien Spiegel, M. R. (1996): Statistics – Schaum’s Electronic Tutor, Mc-Graw-Hill, New York etc. SPSS Inc. (2008): SPSS Base 17.0 für Windows, Benutzerhandbuch, München Voß, W., Schöneck, N. (2008): Statistische Grafiken mit Excel – Eine Rezeptsammlung, 5. Auflage, Hanser Verlag, München – Wien Zwerenz, K. (2008): Statistik verstehen mit Excel, 2. Auflage, Oldenbourg, München – Wien DATENQUELLEN Eurostat (2011): Statistisches Amt der Europäischen Union, Online-Datenabruf über: epp.eurostat.ec.europa.eu IW (1998): Institut der deutschen Wirtschaft – Zahlen zur wirtschaftlichen Entwicklung der Bundesrepublik Deutschland, Deutscher Institutsverlag, Köln IW (2009): Institut der deutschen Wirtschaft – Deutschland in Zahlen, Deutscher Institutsverlag, Köln Spörel, U. (2007): Grenzüberschreitender Tourismus in Europa: Einreise- und Ausreiseverkehr, Statistik kurz gefasst 52/2007- EUROSTAT Statistisches Bundesamt (1998a): Statistisches Jahrbuch 1998 für die Bundesrepublik Deutschland + CD-ROM, Metzler-Poeschel, Stuttgart Statistisches Bundesamt (1998b): Statistisches Jahrbuch 1998 für das Ausland + CDROM, Metzler-Poeschel, Stuttgart Statistisches Bundesamt (1998c): Veröffentlichung der Wahlergebnisse der Bundestagswahl vom 27.09.98 im Internet (www.statistik-bund.de) Statistisches Bundesamt (1999a): Preise, Fachserie 17, Reihe 7, Eilbericht Januar 1999, Metzler-Poeschel, Stuttgart Statistisches Bundesamt (1999b): Veröffentlichung der Berechnungen Bruttoinlandsprodukts 1998 im Internet (www.statistik-bund.de)
des
Statistisches Bundesamt (2003): Datenreport 2002 – Zahlen und Fakten über die Bundesrepublik Deutschland, Bundeszentrale für politische Bildung, Band 376, Bonn Statistisches Bundesamt (2003+2004): Statistisches Jahrbuch 2003 bzw. 2004 für die Bundesrepublik Deutschland + CD-ROM, Metzler-Poeschel, Stuttgart Statistisches Bundesamt (2005): Statistisches Jahrbuch 2005 für das Ausland + CDROM, Metzler-Poeschel, Stuttgart Statistisches Bundesamt (2011): GENESIS-Datenbank von DESTATIS, Wiesbaden (https://www-genesis.destatis.de)
Stichwortverzeichnis Ablehnungsbereich 374 Additionssatz der Wahrscheinlichkeit 275 Additives Zeitreihenmodell 244 Aggregation 8, 103 Alternativhypothese 373 Analyse-Funktionen in EXCEL 17 Approximationen 335 Arbeitstabelle als EXCEL-Tabelle 62 Arithmetisches Mittel 99 - bei Aggregationen 103 - bei Klassierung 102 - mit EXCEL 16 - mit SPSS 19 Autokorrelation 249 Balkendiagramm 28, 205, 290 - gruppiertes 239 - mit EXCEL 28 - mit SPSS 28 Bayes, Satz von 278 Bedingte Häufigkeit 201 Bedingte Wahrscheinlichkeit 274 Bernoulli-Experiment 301 Beschreibende Statistik 7 Besetzungsdichte 83 Bestimmtheitsmaß 222, 224, 247 Beziehungszahlen 165 - bereinigte 167 - Entsprechungszahlen 166 - Verursachungszahlen 165 Binomialkoeffizient 282, 404 Binomialverteilung 301, 335, 337, 338 - mit EXCEL 307 - mit SPSS 307 Box-Plot 129, 140 Chi-Quadrat 232 - mit SPSS 238 Chi-Quadrat-Anpassungstest 384, 394 Chi-Quadrat-Unabhängigkeitstest 386, 394 - mit EXCEL 394 - mit SPSS 394 Chi-Quadrat-Verteilung 328 - mit EXCEL 329 - mit SPSS 330 Dezilabstand 115 Diagramm - Balkendiagramm 28, 205 - Flächendiagramm 31 - Liniendiagramm 32 - Netzdiagramm 35 - Stabdiagramm 28
- Streuungsdiagramm 206 Dichotome Grundgesamtheit 301 Dichtefunktion 292 Disjunkte Ereignisse 269 Diskrete Variable 52 Durbin-Watson-Koeffizient 250 Durchschnittliche absolute Abweichung vom arithmetischen Mittel 118 Durchschnittliche absolute Abweichung vom Zentralwert 117 Effizienz 352 Einseitiger Hypothesentest 372 Element 49 Elementarereignis 268 Entsprechungszahlen 166 Ereignis 268 - beliebige 276 - unabhängige 277 Ereignisraum 268 Ergebnis 268 Ergebnismenge 268 Ergebnispräsentation 6, 23 Erwartungstreue 352 Erwartungswert 297 EXCEL - Analyse-Funktionen 17 - Funktions-Assistent 15 - Grundbegriffe für Statistik 13 Explorative Datenanalyse 6 Exponentielle Glättung 259 - mit EXCEL 260 - mit SPSS 260 Fakultät 280, 404 Fehler 1. Art (D-Fehler) 375 Fehler 2. Art (E-Fehler) 375 Flächendiagramm 31 F-Test 388, 395 Funktionsassistent von EXCEL 15 F-Verteilung 332 - mit EXCEL 334 - mit SPSS 334 Geometrisches Mittel 105 - mit EXCEL 90 - mit SPSS 90 Gesamtheit 49 Gini-Koeffizient 146 Glatte Komponente 242, 245 - Gleitende Durchschnitte 251 - Regressionsgerade 246 Gleichverteilung 73, 85
420
Stichwortverzeichnis
Gleitende Durchschnitte 249 - mit EXCEL 254 - mit SPSS 254 Gliederungszahlen 163 Grafik 27 Grenzwertsatz - von DeMoivre-Laplace 345 - Zentraler 343 Häufigkeit 63 - absolute 63, 65 - bedingte 201 - erwartete 233 - kumulierte 63 - Randhäufigkeit 201 - relative 63, 65 - zweidimensionale 201 Häufigkeitsverteilung 59 - eindimensionale 59 - mit EXCEL 62, 65 - mit SPSS 65 - zweidimensionale 199 Herfindahl-Index 143 Histogramm 84 Hypergeometrische Verteilung 309, 335, 341 - mit EXCEL 312 - mit SPSS 312 Hypothesentest 369 - für den Anteilswert 382, 394 - für den Erwartungswert 377, 392 - mit EXCEL 390 - mit SPSS 390 Indexzahlen 174 - als Mittelwerte von Messzahlen 190 - mit EXCEL 196 - mit SPSS 196 - ungewogene 175 Interaktive Grafik 12, 36 Interaktive Statistik 12, 37 Intervallschätzung 357 - mit EXCEL 367 - mit SPSS 367 Kennzahlen (relative) 162 Klassenbreite 83 Klassenhäufigkeit 80 Klassierte Häufigkeitsverteilung 77 Kombinationen 282 Kombinatorik 280 Komplementärereignis 270, 275 Komponenten von Zeitreihen 242 Konfidenzintervall 357 - für den Anteilswert 364 - für den Mittelwert 360 Konjunkturkomponente 242 Konsistenz 352
Kontingenz, mittlere quadratische 237 Kontingenzkoeffizient nach Pearson 237 Kontingenzmessung - mit EXCEL 239 - mit SPSS 238 Konzentration 140 - absolute 140 - relative 145 Konzentrationskoeffizient 141 Korrekturfaktor bei endlichen Gesamtheiten 365 Korrelationsanalyse 214 - mit EXCEL 218 - mit SPSS 219 Korrelationskoeffizient - nach Bravais-Pearson 215, 222, 397 - nach Spearman 229 Kovarianz 209 KQ-Methode 220 Kreisdiagramm 30, 67 Kreuztabelle 279 - mit SPSS 203 Labels 18, 81 Lageparameter 88 - mit EXCEL 90 - mit SPSS 90 - von Zufallsvariablen 295 Längsschnittanalyse 8 Lineartransformation 150, 155, 298 Liniendiagramm 32 Lorenz-Kurve 147 Master-Projekt 44 - Verzeichnis 399 Median 94 - bei klassierten Verteilungen 96 - mit EXCEL 90 - mit SPSS 90 Mengenindex - nach Laspeyres 185 - nach Paasche 185 Messzahlen 169 Methode der kleinsten Quadrate 220 Mittel - arithmetisches 99 - geometrisches 105 Mittelwerte von Verhältniszahlen 172 Mittlere quadratische Kontingenz 237 Modus 91 - mit EXCEL 90 - mit SPSS 90 Multiplikationssatz der Wahrscheinlichkeit 276 Multiplikatives Zeitreihenmodell 244 Netzdiagramm 35
Stichwortverzeichnis Normalverteilung 317, 338, 341, 342 - mit EXCEL 323 - mit SPSS 324 Notwendiger Stichprobenumfang 366 Nullhypothese 373 OLAP 12 Ordinalskala 53 Permutationen 280 Pivot-Tabellen 12, 37 Poissonverteilung 313, 337, 342 - mit EXCEL 315 - mit SPSS 315 Potenzmenge 269 POWERPOINT 11 Preisbereinigung 193 Preisindex - der Lebenshaltung 187 - nach Fisher 183 - nach Laspeyres 178, 194 - nach Lowe 183 - nach Paasche 179, 194 Produktzeichen 404 Prognose 258 P-STAT 11 Punktschätzung 347 - mit EXCEL 355 - mit SPSS 355 Qualitative Variable 51 Quantitative Variable 51 Quantile 98, 298 - mit EXCEL 117 - mit SPSS 116 Quantilsabstände 115 Quantitative Variable 51, 199 Quartile 98 Quartilsabstand 115 Querschnittsanalyse 7 Randhäufigkeit 201 Rangbindungen 231 Range 114 Rangkorrelation nach Spearman 229 - mit EXCEL 231 - mit SPSS 232 Rangvariable 53 Regionalgrafik 33 Regressionsanalyse 220 - mit EXCEL 225 - mit SPSS 225 Regressionsgerade bei Zeitreihen 246 Regressionsparameter 222, 247 Restkomponente 242, 249 Saisonbereinigung 256 Saisonkomponente 242, 254 SAS 11 Satz der totalen Wahrscheinlichkeit 278
421
Säulendiagramm 28 Schiefe 135 Schließende Statistik 7 Signifikanzniveau 371, 375 Signifikanz-Wahrscheinlichkeit 391 Skala 51 - metrische 51, 107 - nominale 51, 107 - ordinale 51, 107 Spannweite 114 SPSS 11 - Ausgabefenster 21 - Datenansicht 18 - Dialog 19 - Ergebnis-Assistent 21 - Grundbegriffe 18 - Variablenansicht 19 Stabdiagramm 28 Standardabweichung 120 - mit EXCEL 123 - mit SPSS 121 Standardisierung 156, 320, 343, 374 - mit EXCEL 161 - mit SPSS 161 Standardnormalverteilung 319, 327 Statistik - als Wissenschaft 1 Statistik - deskriptive 7 - im Projekt 4, 41 - induktive 7 stetige Variable 52 Stetigkeitskorrektur 339 Stichprobenumfang, notwendiger 366 Stichprobenvariablen 349 Streckendiagramm 28 Streuungsdiagramm 206 - mit EXCEL 207, 219 - mit SPSS 206 Streuungsparameter von Zufallsvariablen 295 Streuungsparameter 112 - mit EXCEL 113 - mit SPSS 113 Streuungszerlegung 125 Subindizes 182, 188 Summenhäufigkeitsfunktion 68, 84 Summenzeichen 401 Symmetrische Verteilung 72 SYSTAT 11 Tabelle 23 - mit EXCEL 26 - mit SPSS 24 Totale Wahrscheinlichkeit 278
422
Stichwortverzeichnis
Transformation 149 - lineare 150 Trendkomponente 242 - mit EXCEL 249 - mit SPSS 247 Treppenfunktion 68, 290 t-Test 379 - für zwei Stichproben 396 t-Verteilung 330, 342 - mit EXCEL 332 - mit SPSS 332 Umbasierung 190 Umsatzindex 187 Urliste 60 Urnenmodell 266 Variable 50 - diskrete 52 - qualitative 51 - quantitative 51 - stetige 52 Variablentyp 51 - mit EXCEL 56 - mit SPSS 55 Varianz 120 - mit EXCEL 123 - mit SPSS 121 - bei Klassierung 124 - deskriptive 122 - Minimumeigenschaft 122 - induktive 120 - Streuungszerlegung 125 - Verschiebungssatz 123 Variationskoeffizient 128 Verbraucherpreisindex 187 Verhältniszahlen 150, 162 - Mittelwerte 172 Verkettung 192 Verteilung - bedingte 203 - Gleichverteilung 73 - klassierte 77 - linkssteile 71, 110, 134, 137 - rechtssteile 72, 109, 138 - sortiert nach Häufigkeiten 74 - symmetrische 72, 108, 132, 138 - U-förmige 73, 133 - von Zufallsvariablen 287 Verteilungsfunktion 289 - Häufigkeiten 68 - Wahrscheinlichkeiten 289 Verursachungszahlen 165
Wahrscheinlichkeit - axiomatische - bedingte - klassische - mathematische - statistische Wahrscheinlichkeitsaxiome von Kolmogoroff Wahrscheinlichkeitsfunktion Wert Wertindex Yates-Korrektur Zeitreihenanalyse Zeitreihenkomponenten Zeitreihenmodelle Zentraler Grenzwertsatz Zufallsexperiment Zufallsvariable - diskrete - stetige Zufallszahlen - mit EXCEL - mit SPSS Zweidimensionale Verteilung Zweiseitiger Hypothesentest
271 273 274 272 272 271 273 287 51 187 386 241 241 243 343 265, 285 284 286, 287 286, 292 267, 348 267 267 199 372