237 22 16MB
German Pages [544] Year 2012
ill 150 Jahre Ί55>|Ν Wissen für die Zukunft Oldenbourg Verlag
Lehr- urid Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Lieferbare Titel: Böhlimg, Allgemeine Epidemiologie Praxis der Regressionsanalyse, 2. Auflage Degen • Lorscheid, Statistik-Lehrbuch, 2. Auflage Degen • Lorscheid, Statistik-Aufgabensammlung, 5. Auflage Heiler • Michels, Deskriptive und Explorative Datenanalyse, 2. Auflage Oerthel • Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer • Heine • Härtung, Statistik für Wirtschaft- und Sozialwissenschaften: Deskriptive Statistik, 3. Auflage Pflaumer • Heine • Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse Rasch • Herrendörfer u.a., Verfahrensbibliothek, 2. Auflage Rinne, Wirtschafts- und Bevölkerungsstatistik, 2. Auflage
Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I Rüger, Test- und Schätztheorie, Band II: Statistische Tests Schendera, Datenmanagement und Datenanalyse mit dem SAS-System Schlittgen, Einführung in die Statistik, 11. Auflage Schlittgen, Statistik-Trainer Schlittgen, Statistische Inferenz Schlittgen, GAUSS für statistische Berechnungen Schlittgen, Angewandte Zeitreihenanalyse Schlittgen, Statistische Auswertungen mit R Schlittgen • Streitberg, Zeitreihenanalyse, 9. Auflage Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialeT Daten
Einführung in die Statistik Analyse und Modellierung von Daten
von
Univ.-Prof. Dr. Rainer Schlittgen
Ii., vollständig überarbeitete und neu gestaltete Auflage
Oldenbourg Verlag München
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
© 2008 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Wirtschafts- und Sozialwissenschaften, [email protected] Herstellung: Anna Grosser Coverentwurf: Kochan & Partner, München Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 978-3-486-58774-6
Vorwort zur elften Auflage Für diese Auflage wurde der Text gründlich überarbeitet, aktualisiert und gänzlich neu gestaltet. Um den Erfordernissen, die sich durch die Umstrukturierungen der Studiengänge an den deutschen Universitäten ergaben, gerecht zu werden, wurden Aspekte der Wirtschaftsstatistik aufgenommen, speziell zu Konzentrationsmessung, Indexzahlen und Zeitreihenanalyse. Zu den Erweiterungen zählt auch ein Abschnitt zur multiplen Regression; damit ist nun auch dieses relevante Gebiet in adäquater Breite dargestellt. Weiter wurden Ergebnisse eingearbeitet, die im Rahmen des Projektes ,Neue Statistik' erzielt wurden. In diesem vom Bundesministerium für Forschung und Wissenschaft geförderten Projekt wurde eine Multimedia-Umsetzung eines Grundkurses der Statistik erstellt. In dem Projekt wurde auch das Statistik-Labor, eine grafische Benutzeroberfläche für das Statistik-Programm R, entwickelt. Das Statistik-Labor erlaubt dem Anfänger und Nicht-Experten einen recht leichten Zugang zu statistischen Berechnungen. Es kann kostenfrei (wie auch die Open Source Software R) aus dem Internet heruntergeladen werden; die Adresse ist www.statistiklabor.de. Zum Einstieg wird dort ein Online-Tutorial angeboten. In dem vorliegenden Text wird allerdings auf direkte Bezüge zum Statistik-Labor bzw. zu R oder einem anderen Softwareprodukt verzichtet. Der Entwicklung der Möglichkeiten für statistische Auswertungen wird in der Weise Rechnung getragen, dass auf einige früher angegebene Hilfslösungen in dieser Auflage verzichtet wird. Approximationen von Verteilungen sind etwa bei der verbreiteten Verfügbarkeit von Statistik-Software für einen Einführungstext kein relevantes Thema mehr. Zudem werden die Daten, vielfach in der eigentlichen, umfangreicheren Form, über das Internet zur Verfügung gestellt. Die Web-Adresse ist „http://www.oldenbourg-wissenschaftsverlag.de"; dort geben Sie „Schlittgen" in das Suchfeld ein. Mit den Daten können die Beispiele nachvollzogen und viele Aufgaben unter Rechnereinsatz bearbeitet werden. Die Aufnahme der wirtschaftsstatistischen Gebiete und die aus der eigenen Lehre resultierenden Erfordernisse des Arbeitens mit dem Statistik-Labor haben die Umstrukturierung des Textes in die eher übliche Gliederung - deskriptive Statistik, Wahrscheinlichkeitsrechnung und schließende Statistik - mit sich gebracht. Bei der Umstrukturierung wurde jedoch darauf geachtet, dass die ursprüngliche Intention erhalten blieb und die an der Analyse von Daten orientierte Auffassung von angewandter Statistik weiterhin das Charakteristikum dieser Einführung bildet. Wie es schon in der ersten Auflage hieß, sind die einzelnen Teile modular geschrieben; somit lässt sich der Text ohne Probleme auch in der Anordnung der alten Auflagen durcharbeiten oder lehren. Frau Loll und Herrn Grimm danke ich für ihre Beteiligung an der Fehlersuche; selbstverständlich gehen die noch (hoffentlich wenigen) verbliebenen zu meinen Lasten. Berlin und Hamburg
Rainer Schlittgen
VI
Aus dem Vorwort zur ersten Auflage Experimentell arbeitende Wissenschaftler sammeln Daten, bereiten sie auf und analysieren sie, um so zu neuen Einsichten und Erkenntnissen zu gelangen. Sie und auch sonst alle, die aus Daten Erkenntnisse gewinnen möchten, setzen dabei statistische Methoden ein. Als Ansammlung der Methoden zur Datengewinnung, -aufbereitung, -analyse sowie der Darstellung von Daten ist die angewandte Statistik jedoch nicht vollständig erfasst. Es kommen die Fragen von der richtigen Auswahl und dem korrekten Einsatz der Methoden hinzu, Fragen, deren Antwort von den zugrunde liegenden statistischen Modellen abhängt. Neben der Analyse von Daten auf der Basis von Modellen ist auch die Anpassung von statistischen Modellen an Datensätze ein wesentlicher Bereich der angewandten Statistik. Generell ist die datenanalytische Komponente der angewandten Statistik von großer Bedeutung. Dies ist erst im letzten Jahrzehnt wieder verstärkt zu Bewusstsein gekommen, nach einer Zeit, in der das Augenmerk der Fachvertreter mehr auf die Entwicklung und Untersuchung von Methoden im Rahmen vorgegebener Modelle gerichtet war. Hier hat der amerikanische Statistiker John W. Tukey eine wichtige Rolle gespielt. Mit seinem 1977 erschienenen Buch .Exploratory Data Analysis' hat er gewissermaßen eine großangelegte Erziehungskampagne eingeleitet. Um eingefahrene Vorstellungen aufzubrechen, prägte er auch zahlreiche neue Vokabeln für unwesentlich geänderte, etablierte Konzepte. Nachdem nun die Botschaft angekommen ist, können wir auf diese Modifikationen und neuen Vokabeln wieder verzichten, ohne dass die wichtigen Aspekte der Datenanalyse verloren gingen. Das Gerüst dieser Einführung in die Statistik bilden die grundlegenden statistischen Verfahren zur Aufbereitung, Darstellung und Analyse von Daten. Die Orientierung lieferte dabei der an deutschen Hochschulen übliche Standard für die zweisemestrige Statistik-Ausbildung für Wirtschaftswissenschaftler. Aufgenommen wurden aber einige der Darstellungsweisen und Methoden der explorativen Datenanalyse. Verschiedene Methoden wurden unter dem Gesichtspunkt der neueren Erkenntnisse über die Anwendungsprobleme anders gewichtet als in den meisten der vorliegenden Einführungen in die Statistik. Abgewichen wird von der verbreiteten Gliederung .Deskriptive Statistik - Wahrscheinlichkeitsrechnung - Induktive Statistik'. Sie entspricht nicht der hier vertretenen, an der Analyse von Daten orientierten Auffassung von angewandter Statistik. Dieser Blick motiviert eine weit nach vorn gezogene, knappe Darstellung der Wahrscheinlichkeitsrechnung als Grundlage theoretischer Modelle und eine integrierte Darstellung empirischer und theoretischer Größen. Schließlich werden Methoden der Induktiven Statistik in heuristischer Form schon weit vor ihrer formalen Behandlung verwendet. Es wurde Wert darauf gelegt (und viel Mühe darauf verwandt), die Verfahren ausführlich zu begründen und den Text so zu gestalten, dass er nicht nur als Grundlage für Lehrveranstaltungen, sondern auch zum Selbststudium geeignet ist. Die beispielhaften Auswertungen zahlreicher realer Datensätze aus den verschiedenen Wissensbereichen - von der Ökonomie über die Medizin bis zur Astrophysik - sollen dazu beitragen, den Leser zu befähigen, die statistischen Methoden selbstständig anzuwenden. Auch die Aufgaben sind zum großen Teil unter diesem Gesichtspunkt ausgewählt. Rainer
Schlittgen
Inhaltsverzeichnis 1
Statistische Daten
1.1 1.1.1 1.1.2
Erhebungen Problemstellung Begriffsbildungen
1.2 1.2.1 1.2.2 1.2.3
Statistische Variablen Begriffsbildungen Klassifikationen Transformationen
1.3
Die Datenmatrix
1.4
Aufgaben
2
Darstellung univariater Datensätze
2.1 2.1.1 2.1.2 2.1.3
Häufigkeitsverteilungen diskreter Variablen Problemstellung Häufigkeiten Grafische Darstellungen
2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5
Häufigkeitsverteilungen stetiger Variablen.. Problemstellung Geordneter Datensatz Stemleaf-Diagramm Häufigkeitstabelle Das Histogramm
2.3 2.3.1 2.3.2 2.3.3
Die empirische Verteilungsfunktion Einführendes Beispiel Empirische Verteilungsfunktion Klassierte Daten
2.4 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 2.4.6
Quantile Problemstellung Bestimmung der Quantile Spezielle Quantile Quantildiagramme 5-Zahlen-Zusammenfassung Box-Plots
2.5
Aufgaben
VIII
Inhaltsverzeichnis
3
Maßzahlen für univariate Datensätze
39
3.1 3.1.1 3.1.2 3.1.3 3.1.4 3.1.5 3.1.6
Maßzahlen der Lage Erfassung des Niveaus Der Median Das arithmetische Mittel Berechnung des arithmetischen Mittels Eigenschaften des arithmetischen Mittels Weitere Maßzahlen der Lage
39 39 40 41 42 44 48
3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5
Streuungsmaße Problemstellung Durchschnittliche Abweichung und Standardabweichung Varianz Weitere Streuungsmaßzahlen Stabilisierung der Streuung
50 50 51 54 57 58
3.3 3.3.1 3.3.2 3.3.3
Schiefe empirischer Verteilungen Einführendes Beispiel Maßzahlen der Schiefe Transformation zur Symmetrisierung
61 61 62 65
3.4 3.4.1 3.4.2 3.4.3
Konzentrationsmessung Problemstellung Maße der absoluten Konzentration Relative Konzentration
70 70 70 73
3.5
Aufgaben
77
4
Multivariate Datensätze
81
4.1 4.1.1 4.1.2 4.1.3 4.1.4
Darstellung multivariater diskreter Datensätze Problemstellung Bivariate Kontingenztabellen Bedingte relative Häufigkeiten Mehrdimensionale Kontingenztabellen
81 81 82 83 84
4.2 4.2.1 4.2.2 4.2.3
Darstellung bivariater stetiger Datensätze Streudiagramm Konvexe Hüllen Grafische Darstellung der bivariaten Häufigkeitsverteilung
85 85 86 87
4.3
Mehrdimensionale Daten
88
4.4 4.4.1 4.4.2 4.4.3 4.4.4 4.4.5
Maßzahlen des Zusammenhangs Problemstellung Die Kovarianz Der Korrelationskoeffizient von Bravais-Pearson Der Rangkorrelationskoeffizient von Spearman Der Phi-Koeffizient
90 91 92 95 98 99
4.5
Elementare Regressionsrechnung
101
Inhaltsverzeichnis
IX
4.5.1 4.5.2 4.5.3
Problemstellung Bestimmung der Regressionsgeraden Das Bestimmtheitsmaß
102 103 106
4.6
Aufgaben
109
5
Indexzahlen und Zeitreihenanalyse
113
5.1 5.1.1 5.1.2 5.1.3
Indexzahlen Messziffern Indizes Rechnen mit Indizes
113 114 116 120
5.2 5.2.1 5.2.2
Elementare Zeitreihenanalyse Trendbestimmung Saisonbereinigung
122 123 127
5.3
Aufgaben
130
6
Grundlagen der Wahrscheinlichkeitsrechnung
133
6.1 6.1.1 6.1.2
Zufallsexperimente und Ereignisse Zufallsexperimente Ereignisse
133 133 135
6.2 6.2.1 6.2.2
Wahrscheinlichkeiten Chancen von Ereignissen Häufigkeiten von Ereignissen
139 139 140
6.3 6.3.1 6.3.2 6.3.3
Statistische Wahrscheinlichkeit Axiome von Kolmogorov Das Gleichmöglichkeitsmodell Zufallsauswahlen aus endlichen Grundgesamtheiten
141 143 145 147
6.4 6.4.1 6.4.2
Bedingte Wahrscheinlichkeit und Unabhängigkeit Bedingte Wahrscheinlichkeit Unabhängigkeit
151 151 155
6.5 6.5.1 6.5.2 6.5.3
Zufallsvariablen Einführendes Beispiel Zufallsvariablen und Wahrscheinlichkeitsverteilungen Verteilungsfunktion
157 158 158 160
6.6
Aufgaben
162
7
Diskrete Verteilungen
165
7.1 7.1.1 7.1.2 7.1.3
Diskrete Zufallsvariablen Wahrscheinlichkeitsfunktion Bestimmung eines Verteilungsmodells Verteilungsfunktion
165 165 166 168
7.2
Maßzahlen diskreter Verteilungen
170
X
Inhaltsverzeichnis
7.2.1 7.2.2
Erwartungswert diskreter Zufallsvariablen Varianz diskreter Zufallsvariablen
170 173
7.3 7.3.1
Multivariate diskrete Zufallsvariablen Kovarianz und Korrelation
176 179
7.4
Aufgaben
181
8
Diskrete Verteilungsmodelle
185
8.1
Die hypergeometrische Verteilung
186
8.2 8.2.1 8.2.2 8.2.3 8.2.4 8.2.5
Die Binomialverteilung Einführendes Beispiel Herleitung der Verteilung Eigenschaften Anpassung an empirische Verteilungen Die Multinomialverteilung
188 188 189 191 193 193
8.3 8.3.1 8.3.2 8.3.3
Die Poisson-Verteilung Problemstellung Ableitung und Eigenschaften Anpassung an empirische Verteilungen
194 194 195 196
8.4 8.4.1 8.4.2
Die geometrische Verteilung Einführendes Beispiel Ableitung und Eigenschaften
198 198 198
8.5 8.5.1 8.5.2
Die negative Binomialverteilung Ableitung und Eigenschaften Anpassung an empirische Verteilungen
200 200 202
8.6 8.6.1 8.6.2
Zur Auswahl eines diskreten Verteilungsmodells Einführendes Beispiel Das Auswahldiagramm
203 203 204
8.7
Aufgaben
207
9
Stetige Verteilungen
211
9.1 9.1.1 9.1.2 9.1.3 9.1.4
Grundlagen Einführendes Beispiel Stetige Verteilungsfunktionen Dichtefunktion Theoretische Quantile
211 211 212 213 216
9.2 9.2.1 9.2.2 9.2.3
Maßzahlen stetiger Verteilungen Maßzahlen der Lage Die Varianz Schiefe
221 221 223 224
9.3
Multivariate stetige Verteilungen
227
Inhaltsverzeichnis
XI
9.4
Aufgaben
230
10
Stetige Verteilungsmodelle
233
10.1
Stetige Gleichverteilung
233
10.2 10.2.1
Die Pareto-Verteilung Anpassung an empirische Verteilungen
235 235
10.3 10.3.1 10.3.2
Die Exponentialverteilung Ableitung und Eigenschaften Anpassung an empirische Verteilungen
238 238 240
10.4
Die Laplace-Verteilung
242
10.5
Die Gammaverteilung
244
10.6
Aufgaben
247
11
Die Normalverteilung
249
11.1 11.1.1 11.1.2 11.1.3 11.1.4
Grundlagen Problemstellung Definition und Bedeutung der Parameter Eigenschaften Anpassung an empirische Verteilungen
249 249 250 251 254
11.2 11.2.1 11.2.2 11.2.3 11.2.4
Approximation von Verteilungen Problemstellung Der zentrale Grenzwertsatz Approximation der Binomialverteilung Approximation der Poisson-Verteilung
258 258 258 260 262
11.3 11.3.1 11.3.2 11.3.3
Die logarithmische Normalverteilung Problemstellung Definition und Eigenschaften Anpassung an empirische Verteilungen
263 263 264 265
11.4 11.4.1 11.4.2 11.4.3
Die bivariate Normalverteilung Problemstellung Ableitung und Eigenschaften Anpassung an empirische Verteilungen
266 266 267 269
11.5
Aufgaben
271
12
Stichprobenfunktionen
275
12.1 12.1.1 12.1.2
Grundlagen Einführendes Beispiel Begriffsfestlegung
275 275 276
12.2 12.2.1
Spezielle Stichprobenfunktionen Das arithmetische Mittel
278 278
XII
Inhaltsverzeichnis
12.2.2 12.2.3 12.2.4
Die relative Häufigkeit Die empirische Verteilungsfunktion Monte-Carlo-Simulation
280 282 282
12.3
Aufgaben
284
13
Schätzen von Parametern
285
13.1 13.1.1 13.1.2 13.1.3 13.1.4 13.1.5 13.1.6 13.1.7
Schätzfunktionen und ihre Eigenschaften Problemstellung Schätzfunktionen Mittlerer quadratischer Fehler Erwartungstreue Konsistenz Robustheit Standardfehler
285 285 286 287 290 293 294 296
13.2 13.2.1 13.2.2 13.2.3 13.2.4
Schätzmethoden Problemstellung Momentenmethode Maximum-Likelihood-Methode Bestimmung des Maximums von L{6)
299 299 299 300 304
13.3
Aufgaben
307
14
Konfidenzintervalle
311
14.1
Problemstellung
311
14.2
Allgemeine Definition eines Konfidenzintervalles
312
14.3 14.3.1 14.3.2 14.3.3
Konfidenzintervalle für Maßzahlen der Lage Konfidenzintervall für μ bei Normalverteilung mit unbekanntem σ2 Approximative Konfidenzintervalle für den Erwartungswert Konfidenzintervall für den Median
316 316 318 321
14.4 14.4.1 14.4.2
Konfidenzintervalle für Maßzahlen der Streuung Konfidenzintervall für σ2 bei Normalverteilung Konfidenzintervalle für zwei Quartile
323 324 326
14.5 14.5.1 14.5.2 14.5.3 14.5.4
Konfidenzintervalle für Wahrscheinlichkeiten und Anteile Problemstellung Approximatives Konfidenzintervall für eine Wahrscheinlichkeit Approximatives Konfidenzintervall für einen Anteil Länge der Konfidenzintervalle für ρ
328 328 328 330 331
14.6
Aufgaben
332
15
Testen von Hypothesen
335
15.1 15.1.1
Reine Signifikanztests Problemstellung
335 335
Inhaltsverzeichnis
XIII
15.1.2 15.1.3 15.1.4
Tests auf der Basis von Konfidenzintervallen Tests auf der Basis von Prüfgrößen Der P-Wert
335 336 339
15.2 15.2.1 15.2.2 15.2.3 15.2.4
Die Elemente der klassischen Testtheorie Problemstellung Formen von Hypothesen Fehlerarten Die Gütefunktion
340 340 340 342 343
15.3
Aufgaben
346
16
Spezielle Parametertests
349
16.1 16.1.1 16.1.2 16.1.3 16.1.4 16.1.5 16.1.6
Einstichprobentests Tests auf μ bei Normalverteilung Approximative Tests auf μ Test auf μ bei symmetrischen Verteilungen Test auf μ bei beliebigen stetigen Verteilungen Test auf σ2 bei Normalverteilung Test auf eine Wahrscheinlichkeit ρ
349 349 350 351 353 355 356
16.2 16.2.1 16.2.2 16.2.3 16.2.4 16.2.5
Parametervergleiche bei unabhängigen Stichproben 357 Vergleich von μχ und μ γ bei Normalverteilung; σ2χ und σ\ bekannt 358 Vergleich von μχ und μγ; σ\ und σ\ unbekannt; Stichproben groß 358 Vergleich von μχ und μ Y bei Normalverteilung; σ2χ und σ\ unbekannt; Stichproben klein 360 Vergleich von μχ und μγ 361 Vergleich zweier Wahrscheinlichkeiten 363
16.3
Aufgaben
364
17
Varianzanalyse
369
17.1 17.1.1 17.1.2 17.1.3 17.1.4 17.1.5 17.1.6
Einfache Varianzanalyse Einführendes Beispiel Das Modell Der Test bei Normalverteilung Multiple Vergleiche bei Normalverteilung Ungleiche Streuungen Nicht-normalverteilte Variablen
369 369 370 371 374 375 377
17.2 17.2.1 17.2.2 17.2.3 17.2.4 17.2.5
Zweifache Varianzanalyse Einführendes Beispiel Modell mit Wechselwirkungen Tests bei Normalverteilung Ungleiche Varianzen Nicht-normalverteilte Störungen
379 379 380 381 384 386
17.3
Aufgaben
389
Inhaltsverzeichnis
XIV 18
Anpassungs-und Unabhängigkeitstests
393
18.1 18.1.1 18.1.2 18.1.3
393 393 394
18.1.4 18.1.5 18.1.6
Anpassungstests Problemstellung Der Chi-Quadrat-Anpassungstest für vollständig spezifizierte Verteilungen... Der Chi-Quadrat-Anpassungstest für Verteilungen mit unbekannten Parametern DasChigramm Der Kolmogorov-Smirnov-Test Anpassungstests vom Korrelationstyp
18.2 18.2.1 18.2.2 18.2.3
Unabhängigkeitstests Problemstellung Der Chi-Quadrat-Test Tests auf Korrelation
407 407 409 412
18.3
Aufgaben
414
19
Das Regressionsmodell
417
19.1 19.1.1 19.1.2
Das einfache lineare Regressionsmodell Einführende Beispiele Entwicklung des Modells
417 418 420
19.2 19.2.1 19.2.2 19.2.3 19.2.4 19.2.5 19.2.6 19.2.7
Schätzen und Testen im einfachen linearen Regressionsmodell Problemstellung D ie Kleinst- Quadrate - Schätzfunktio η Eigenschaften der KQ-Schätzer Das Regressionsmodell mit normalverteilten Fehlern Konfidenzintervalle und Tests für die Regressionskoeffizienten Konfidenzintervalle und Konfidenzband für die Regressionsgerade Prognoseintervalle
421 421 422 423 425 427 429 431
19.3 19.3.1 19.3.2 19.3.3 19.3.4
Residuenanalyse Systematische Änderung des Mittels Inhomogenität der Varianz Ausreißer Verletzung der Normalverteilungsannahme
431 432 433 434 437
19.4 19.4.1 19.4.2
Linearisieren eines Zusammenhanges Problemstellung Transformationen
439 439 440
19.5 19.5.1 19.5.2 19.5.3 19.5.4 19.5.5 19.5.6 19.5.7
Das multiple lineare Regressionsmodell Problemstellung Das Modell und seine Schätzung Koeffizientenschätzer bei zwei erklärenden Variablen Interpretation der Koeffizienten Testen der Koeffizienten Beurteilung der multiplen Regression Überprüfung der Modellannahmen
442 443 443 444 446 447 448 449
396 399 401 405
Inhaltsverzeichnis
XV
19.5.8
Multikollinearität
451
19.6
Aufgaben
453
Lösungen zu den Aufgaben mit ungeraden Nummern
457
Tabellen
489
Literatur
515
Index
521
1
Statistische Daten
Wir beschäftigen uns in diesem Buch mit verschiedenen Ansätzen zur Aufbereitung und Auswertung von statistischen Daten. Auf die vielfältigen praktischen Fragen der Datengewinnung gehen wir dabei nicht ein. In einem kurzen Abschnitt über die Erhebungsarten sollen lediglich einige Begriffe bereitgestellt werden, welche für das Weitere relevant sind. Daten sind auf geeignete Weise ermittelte Zahlen. Diesen ist an sich nicht anzusehen, was sie bedeuten. Mit dem Konzept der statistischen Variablen können Daten aber einfach mit ihrem Inhalt verbunden werden. Auch die Frage, welche Zahlenmanipulationen sinnvoll sind, können wir mittels der Variablen untersuchen.
1.1
Erhebungen
1.1.1
Problemstellung
Die Löhne und Gehälter der Arbeitnehmer in der Bundesrepublik Deutschland werden durch zahlreiche Einflussfaktoren bestimmt. Sie weisen dementsprechend mehr oder weniger starke Schwankungen auf, wenn sie nach verschiedenen Gesichtspunkten, ζ. B. nach Wirtschaftszweigen und dem Alter, untergliedert werden. Die Kenntnis dieser Gehalts- und Lohnstruktur ist für verschiedene Gruppen der Gesellschaft von Interesse. Dabei führen die unterschiedlichen Interessen auch zu bestimmten Wertungen einer Lohn- und Gehaltsstruktur. Zum Beispiel werden bei der Interpretation durch Gewerkschaften in starkem Maße soziale Gesichtspunkte einfließen, während die Unternehmer den Lohn als Preis für die Ware Arbeitskraft, als Kostenfaktor, unter Optimalitätsgesichtspunkten, als Motor für die Mobilität der Arbeiter usw. ansehen und unter diesen Gesichtspunkten auch die Lohnstruktur diskutieren werden. Angaben für einzelne Arbeitnehmer werden in der Verdienststrukturerhebung erfasst. Sie wird als Sondererhebung in vierjähriger Periodizität durchgeführt. Erfasst werden Einzelangaben der Beschäftigten sowie Verdienste und die wichtigsten den Verdienst beeinflussenden Merkmale, wie ζ. B. Alter, Ausbildungsstand, Unternehmensgröße und Zugehörigkeit. Damit ergibt sich die Möglichkeit, deren Einfluss auf das Verdienstniveau abzuschätzen. Diese Erhebung umfasst die Merkmale einer in allen Mitgliedstaaten der Europäischen Union durchzuführenden Verdienststrukturerhebung; für ihre Hauptergebnisse stehen daher Vergleichswerte für die gesamte Europäische Union zur Verfügung.
1.1.2
Begriffsbildungen
Wie bei der Verdienststrukturerhebung richtet sich das Augenmerk der statistisch Arbeitenden darauf, Strukturen und Gesetzmäßigkeiten in Datensätzen zu finden und zu beschreiben, kurz, sie statistisch zu analysieren. Datensätze sind Ansammlungen gleicharti-
2
1 Statistische Daten
ger Daten, den in Zahlenform festgehaltenen Ergebnissen von Befragungen, Beobachtungen oder Experimenten. Die Verdienststrukturerhebung ist ein Beispiel für eine Befragung. Um gleichartige Daten zu erhalten, die sinnvoll statistisch analysiert werden können, müssen die Randbedingungen sowie die einzelnen Schritte der Befragung bekannt sein und unter Kontrolle stehen.
Verdienststrukturerhebung 2006 Arbeitnehmerbogen
wiTiTaj^'iii ΊΤ"
Abb. 1.1: Arbeitnehmerbogen
" Γ" ii"| Γ |* ιΤ '^j^^ß | ^
für die Verdienststrukturerhebung
""ff ".Ijf^
^üf.!' .^ΐΊ!!!"'.
2006
Das erste wichtige Moment der Befragung ist die Festlegung der Grundgesamtheit oder Population. Die Grundgesamtheit besteht aus allen Untersuchungseinheiten, die prinzipiell befragt werden könnten. Bei der Verdienststrukturerhebung ζ. B. besteht die Grundgesamtheit aus allen Arbeitnehmern in der Industrie, im Groß- und Einzelhandel sowie im Bankund Versicherungsgewerbe. Zur genaueren Bestimmung der Grundgesamtheit sind noch die Zeit festzulegen, an dem die Arbeitnehmer beschäftigt sein sollten, und eine geographische Abgrenzung vorzunehmen. Die Verdienststrukturerhebung 2006 erfasste alle Arbeitnehmer, die Anfang 2007 eine Beschäftigung in einem der genannten Bereiche hatten, sofern die Betriebe in der Bundesrepublik lagen. Werden von allen Untersuchungseinheiten dieser Grundgesamtheit die gewünschten Angaben festgestellt, so handelt es sich um eine Totalerhebung. Bei einer Teilerhebung oder Stichprobe beschränkt man sich dagegen auf die Erhebung der Angaben eines Teils der Grundgesamtheit. Die in die Stichprobe gelangenden Untersuchungseinheiten werden dann als Erhebungseinheiten bezeichnet. Die Größe der
3
1.2 Statistische Variablen Stichprobe wird durch den Auswahlsatz bestimmt: Auswahlsatz =
Umfang der Stichprobe Umfang der Grundgesamtheit
100.
Ein nicht zu kleiner Auswahlsatz ist eine Maßnahme, um die Repräsentativität der Stichprobe zu sichern. Damit ist gemeint, dass die Stichprobe ein verkleinertes, aber sonst getreues Abbild der Grundgesamtheit darstellt. Das ist eine zentrale Forderung, die von weiteren wichtigen Faktoren abhängt. Wir gehen an späterer Stelle weiter darauf ein. Ausführlich wird das Problem der Repräsentativität von Kruskal & Mosteller (1979) behandelt. Die Beobachtung dient zur Datengewinnung bei Festhalten von zeitlichen Vorgängen sowie bei Erfassen von Sachverhalten, die nicht gesteuert werden. Darunter wollen wir ζ. B. die Beobachtung des Wohnungsmarktes anhand der Zeitungsannoncen am Wochenende verstehen. Ein anderes Beispiel ist die Zählung der halbstündlich durch einen Straßenabschnitt fahrenden Kraftfahrzeuge. Auf Befragung und Beobachtung wird in Roth (1984) unter sozialwissenschaftlichen Gesichtspunkten ausführlich eingegangen. Die klassische, in den Naturwissenschaften entwickelte Methode zur Gewinnung von Erkenntnissen ist das Experiment. Wir werden hier nur insoweit Experimente betrachten, als es um die Gewinnung von Datensätzen geht. Dazu werden die Experimente jeweils mehrmals unter gleichen Bedingungen durchgeführt. Ziel ist es dann wieder, aus den Daten geeignete Gesetzmäßigkeiten herauszufinden bzw. vorab formulierte Hypothesen zu untersuchen. Beispiel 1.1
Sandskorpione
Durch eine zufällige Beobachtung kam P. H. Brownell zu der Vermutung, dass der in der Mojave-Wüste beheimatete, nur nachts aktive Sandskorpion seine Beute mit den Beinen ortet. (Vgl: Spektrum der Wissenschaft 2/85.) Um diese Vermutung zu untersuchen, führte er einige Experimente durch. Zuerst wurde die Wahrnehmung optischer und akustischer Signale ausgeschlossen. Dann wurde in eine Holzkiste Sand gefüllt. Die Holzkiste war so konstruiert, dass in der Mitte ein Spalt zwei Hälften voneinander trennte. Die Erschütterung des Sandes störte den Skorpion nicht, wenn er sich in der anderen Hälfte aufhielt. Auf Erschütterung in seiner Hälfte reagierte er wohl. Zudem ermittelte Bornwell durch wiederholte Störungen des Skorpions, dass dieser recht genau die Richtung orten konnte, in der die Erschütterung stattfand. Als Versuchsergebnisse wurden dabei jeweils die Richtungen des Ziels (in Grad) und der Reaktionswinkel (in Grad) festgehalten. Diese ergaben zusammen einen Datensatz, der dann statistisch ausgewertet wurde. Das Resultat der Auswertung bestätigte die Ausgangsvermutung.
1.2
Statistische Variablen
1.2.1
Begriffsbildungen
Bei einer Befragung werden den Untersuchungseinheiten formal gesehen jeweils Zahlenwerte zugeordnet. Die beobachteten Werte bilden dann die Basis für die weitere statistische Tätigkeit.
4
1 Statistische Daten
Definition 1.2
Statistische
Variable
Eine statistische Variable X ist eine Zuordnung, die jedem Element einer Grundgesamtheit Ε genau einen Zahlenwert zuordnet. Formal ist eine Variable X eine Abbildung von Ε in die Menge Μ der reellen Zahlen: X:E—>R,
e^X(e).
Die Menge {X(e)\e e Ε} heißt der Wertebereich von X. Statistische Variablen werden auch kurz als Variablen bezeichnet. Die Werte, die vor einer konkreten Beobachtung einer Variablen X sinnvoll als mögliche Ergebnisse infrage kommen, sind die Realisationsmöglichkeiten. Die Menge der Realisationsmöglichkeiten umfasst also stets den Wertebereich. Die Verbindung zwischen der inhaltlichen Bedeutung der Daten und ihrer nackten Zahlengestalt wird nun durch die Interpretation der Daten als Realisationen einer statistischen Variablen X, als beobachtete Werte von X, hergestellt. Bisweilen werden in der statistischen Literatur nicht-numerische Zuordnungen betrachtet. Man spricht dann von Merkmalen - ζ. B. dem Merkmal .Geschlecht' - und von Merkmalsausprägungen - ζ. B. den Ausprägungen ,männlich', .weiblich' des Merkmals Geschlecht. Merkmale können als allgemeinere Abbildungen aufgefasst werden; der Bildraum muss nicht aus reellen Zahlen bestehen. Da nicht-numerische Ergebnisse aber stets durch Zahlen repräsentiert werden können, werden wir Merkmale nicht weiter betrachten. Beispiel 1.3
Verdienststrukturerhebung
- Fortsetzung
Bei der Verdienststrukturerhebung werden mittels des Fragebogens für Arbeiter u. a. die folgenden Variablen erfasst: Variable Χι = Geschlecht X2 = Tarifliche Lohngruppe X3 =mtl. Bruttoverdienst
Realisationsmöglichkeiten 1,2 1,2,3 0,1,2,3,...,1000,...
Während bei den Variablen Χι = .Geschlecht' und X2 = .tarifliche Lohngruppe' die Wertebereiche mit {1,2} bzw. {1,2,3} einfach angebbar sind, ist dies bei X3 = ,mtl. Bruttoverdienst' nicht so leicht. Sicher gibt es zwei Grenzen α und b, so dass für alle Untersuchungseinheiten e gilt: a < X3{e) < b. Aber zum einen sind die Grenzen nicht bekannt. Zum zweiten braucht auch nicht jede ganze Zahl zwischen α und b tatsächlich ein möglicher Wert von X3 zu sein. Daher ist es einfacher, Realisationsmöglichkeiten in einer Form anzugeben, die sicherstellt, dass der Wertebereich eingeschlossen wird. Bei Beobachtungen und Experimenten können zwar i. d. R. interessierende statistische Variablen mit ihren Realisationsmöglichkeiten leicht angegeben werden, aber zugehörige Grundgesamtheiten sind oft nur schwer spezifizierbar. Im Beispiel 1.1 zielt das Experiment auf die Erforschung der Orientierung eines Skorpions über seine Tastsinne: An einem Skorpion wurden hier mehrmals Messungen vorgenommen. Erschütterungen in derselben Richtung ergaben nicht exakt dieselben Reaktionswinkel. Als Ergebnisse des Experimentes können wir die möglichen physischen Stellungen des Skorpions ansehen. Dann liegt es nahe,
1.2 Statistische Variablen
5
die Menge der möglichen Ergebnisse mit der Grundgesamtheit zu identifizieren. Von Bedeutung ist aber nur der Wert der Variablen .Ausrichtung in Grad'. Daher reicht es, von den Werten dieser Variablen auszugehen. Generell verzichten wir auf die explizite Festlegung einer Grundgesamtheit und betrachten diese eher als Modellvorstellung, wenn es wie bei dem Skorpion-Beispiel um die Struktur der Daten geht und Interpretationen ohne Rückgriff auf die Grundgesamtheit möglich sind. Resümieren wir die bisherigen Ausführungen, so können wir insbesondere festhalten, dass die Datengewinnung sich für unsere Zwecke reduziert auf die wiederholte Beobachtung statistischer Variablen. Auf die umfangreichen praktischen Probleme der Datengewinnung wird in Roth (1984) eingegangen sowie ζ. B. bei Krug & Nourney (1982), und unter anderen Gesichtspunkten etwa bei Linder (1969).
1.2.2
Klassifikationen
Statistische Variablen werden nach unterschiedlichen Gesichtspunkten eingeteilt. Für verschiedenartige Variablen sind jeweils unterschiedliche Aufbereitungs- und Auswertungsmethoden sinnvoll. Eine Klassifikationsmöglichkeit von statistischen Variablen ist die Unterteilung in diskrete und stetige (kontinuierliche) Variablen. Als diskrete Variablen bezeichnen wir solche, bei denen nur endlich viele oder höchstens abzählbar unendlich viele unterschiedliche Werte möglich sind. Die Realisationsmöglichkeiten diskreter Variablen sind also isolierte Zahlenwerte. In der Verdienststrukturerhebung wurden nur diskrete Variablen betrachtet. Während das Geschlecht nur zwei Realisationsmöglichkeiten besitzt, haben wir im letzten Beispiel für den Bruttoverdienst alle ganzen Zahlen 0 , 1 , 2 , . . . als Realisationsmöglichkeiten zugelassen. Stetige Variablen sind dadurch gekennzeichnet, dass alle Werte eines Intervalls als Realisationen denkbar sind. Dabei können die Intervallenden auch unendlich sein. Stetige Variablen erhält man i. d. R. bei Messungen. Bei der Untersuchung der Orientierung des Sandskorpions ist eine interessierende Variable die Differenz von Reaktionswinkel und dem Winkel, in dem die Störung verursacht wird. Werden die Winkel in Grad gemessen, so kann die Differenz theoretisch jeden Wert zwischen -180° und 180° annehmen. Als Menge der Realisationsmöglichkeiten ist das Intervall [-180, +180] zu wählen. In der Praxis ist die Unterscheidung von diskreten und stetigen Variablen vielfach willkürlich. So ist die Körpergröße einer Person sicherlich eine stetige Variable. Sie kann aber infolge der begrenzten Messgenauigkeit nur in diskreten Sprüngen erfasst werden. Andererseits ist das Einkommen diskret. Es kann sich nur in Centsprüngen ändern. Derartige feinabgestufte diskrete Variablen lassen sich aber bei der statistischen Auswertung genauso behandeln wie stetige. Eine andere Unterscheidung von statistischen Variablen geht von den inhaltlich sinnvollen Relationen zwischen den Realisationsmöglichkeiten aus. Diese Unterteilung wird auch als Einteilung nach dem Skalenniveau der Variablen bezeichnet. Die Berücksichtigung des Skalenniveaus einer statistischen Variablen zielt auf die Sinnhaftigkeit von Datenmanipulationen. Die Zahlengestalt der Daten mag dazu verleiten, die üblichen mathematischen Operationen wie Addition, Multiplikation u. a. m. auf sie anzusetzen. Dies ist aber nicht immer sinnvoll. Je höherwertig jedoch das Niveau, desto mehr ,kann mit den Daten gerechnet werden'.
6
1 Statistische Daten
Wir gehen vom niedrigsten Skalenniveau aus und betrachten die weiteren Niveaus in aufsteigender Rangfolge. Geschieht durch die Zuordnung von Werten lediglich eine Klassifikation der Untersuchungseinheiten, sprechen wir von einer nominal skalierten Variablen. Hier sind die Werte der Variablen X lediglich .Nummern', die den Untersuchungseinheiten zugeordnet sind. Reihenfolge und Abstand haben keine inhaltliche Bedeutung. Nur die Alternative X(e B ) = X(e„) bzw. X ( e B ) / X ( e „ ) für eu,eve
Ε ist interpretierbar.
Von den in der Verdienststrukturerhebung berücksichtigten Variablen sind ζ. B. das Geschlecht und der kodierte Beruf nominal skaliert. Weder lässt sich ein Abstand zwischen den Berufen, etwa 2 (= Bäcker) und 10 (= Maler), interpretieren, noch ist es möglich, für Berufe eine eindeutige Rangfolge anzugeben. Lässt sich die Anordnung der Werte einer Variablen X sinnvoll interpretieren, so liegt eine Ordinalskala vor. Formal formuliert ist also für eu, ev e Ε jeweils einer der Ausdrücke X(eu) = X(ev),
X{eu)X(ev)
richtig und bedeutsam. Die .tarifliche Lohngruppe' (mit 1 = Facharbeiter, 2 = angelernter Arbeiter und 3 = ungelernter Arbeiter) ist eine ordinalskalierte statistische Variable. Häufig angeführte ordinalskalierte Variablen sind Schulzensuren. Die Reihenfolge ist bekanntermaßen sinnvoll. Der Abstand von einer Zwei zu einer Vier kann aber nicht als doppelt so groß wie der von einer Zwei zu einer Drei angesehen werden. Ist nicht nur die Reihenfolge der Werte einer Variablen X sinnvoll interpretierbar, sondern auch der Abstand, so ist die Variable metrisch skaliert. Formal formuliert ist also für je zwei eu,ev&E eine der Aussagen X{e - u) = X(ev),X(eu) richtig und
< X(ev) bzw. X{eu)>
X(ev)
\X{eu)-X{ev)\ = a
hat einen inhaltlichen Sinn. Bisweilen werden die metrischen Skalen noch weiter in Intervall- und Ratioskalen unterteilt. Ratioskalen zeichnen sich dabei gegenüber Intervallskalen dadurch aus, dass auch aus Realisationen gebildete Verhältnisse sinnvoll sind. Insbesondere besitzen Ratioskalen auch einen absoluten Nullpunkt. Von den statistischen Variablen der Verdienststrukturerhebung sind u. a. die bezahlten Stunden und der Bruttoverdienst metrisch skaliert. Sie sind sogar ratio-skaliert, da sie beide einen absoluten Nullpunkt haben: Null Stunden im Betrieb gearbeitet, nichts verdient. Auch die Anzahl der pro halbe Stunde durch einen Straßenabschnitt fahrenden Kraftfahrzeuge ist metrisch und sogar ratioskaliert. Die Temperatur in einem ausgewählten Raum (in °C) ist dagegen nur intervall-skaliert. Diese Temperaturskala hat zwar einen Nullpunkt, aber keinen absoluten. Erst die Temperaturmessung in "Kelvin hat einen solchen.
7
1.2 Statistische Variablen
1.2.3
Transformationen
Für die Interpretation sowie für die Darstellung und die Analyse der Werte einer Variablen ist es bisweilen vorteilhaft, die Variable zu transformieren. Betrachten wir ein Darstellungsproblem: Von der nordrhein-westfälischen Landesanstalt für Immissionsschutz wird im Ballungsgebiet Rhein-Ruhr die Luftqualität systematisch kontrolliert. Der Staubniederschlag (in g/m 2 ) ist eine der Komponenten, die für Einheitsflächen von 1 km 2 gemessen werden. Um nun die regionale Verteilung der Staubbelastung kartographisch darstellen zu können, werden die Werte in eine der vier Belastungsstufen transformiert. So ist eine Darstellung mittels unterschiedlicher Einfärbung der Planquadrate möglich. Auf die Notwendigkeit von Transformationen zur Analyse von Daten werden wir noch an verschiedenen Stellen zu sprechen kommen. Hier betrachten wir ein Beispiel, das den Transformationsvorgang verdeutlichen soll. Beispiel 1.4
Umrechnung von Preisen
Eine einfache Transformation wird von vielen Urlaubern in jedem Sommer praktiziert. Es ist die Umrechnung der Preise von einer Währung in eine andere. Stellen wir uns einen bundesdeutschen Türkeiurlauber am 28. Januar des Jahres 2008 bei einem Gang in einem Supermarkt vor. Jede Ware ist in türkischen Neuen Lira ausgepreist. Der Urlauber muss aber die Preise in Euro umrechnen. Dies geschieht, indem er den Lira-Preis χ mit einem Faktor, hier mit 0.577, multipliziert. Der Preis in Euro ist dann: y = 0.577 · χ. Wir können uns vorstellen, dass der Preis den Waren unmittelbar in Euro zugeordnet wird. Damit haben wir eine neue statistische Variable Y, die den Waren den Preis in Euro zuordnet. Die Zusammenhänge sind in der folgenden Abbildung dargestellt. Dabei sind Ε die Menge der im Supermarkt vorhandenen Waren, X{e) der Preis der Ware e in türkischen Neuen Lira. Die Umrechnung in Euro entspricht der Abbildung Τ: R—>R,
x>—»r(x) = 0.577-x.
Damit erhalten wir die neue Variable Y:E—>R
Definition 1.5
e — • 7 ( e ) = Γ(Χ(