Einführung in die Statistik: Analyse und Modellierung von Daten [12., korr. Aufl.] 9783486715910, 9783486715248

Das Lehrbuch beinhaltet neben den grundlegenden statistischen Verfahren zur Aufbereitung, Darstellung und Analyse von Da

237 22 16MB

German Pages [544] Year 2012

Report DMCA / Copyright

DOWNLOAD PDF FILE

Recommend Papers

Einführung in die Statistik: Analyse und Modellierung von Daten [12., korr. Aufl.]
 9783486715910, 9783486715248

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

ill 150 Jahre Ί55>|Ν Wissen für die Zukunft Oldenbourg Verlag

Lehr- urid Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Lieferbare Titel: Böhlimg, Allgemeine Epidemiologie Praxis der Regressionsanalyse, 2. Auflage Degen • Lorscheid, Statistik-Lehrbuch, 2. Auflage Degen • Lorscheid, Statistik-Aufgabensammlung, 5. Auflage Heiler • Michels, Deskriptive und Explorative Datenanalyse, 2. Auflage Oerthel • Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer • Heine • Härtung, Statistik für Wirtschaft- und Sozialwissenschaften: Deskriptive Statistik, 3. Auflage Pflaumer • Heine • Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse Rasch • Herrendörfer u.a., Verfahrensbibliothek, 2. Auflage Rinne, Wirtschafts- und Bevölkerungsstatistik, 2. Auflage

Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I Rüger, Test- und Schätztheorie, Band II: Statistische Tests Schendera, Datenmanagement und Datenanalyse mit dem SAS-System Schlittgen, Einführung in die Statistik, 11. Auflage Schlittgen, Statistik-Trainer Schlittgen, Statistische Inferenz Schlittgen, GAUSS für statistische Berechnungen Schlittgen, Angewandte Zeitreihenanalyse Schlittgen, Statistische Auswertungen mit R Schlittgen • Streitberg, Zeitreihenanalyse, 9. Auflage Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialeT Daten

Einführung in die Statistik Analyse und Modellierung von Daten

von

Univ.-Prof. Dr. Rainer Schlittgen

Ii., vollständig überarbeitete und neu gestaltete Auflage

Oldenbourg Verlag München

Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.

© 2008 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Wirtschafts- und Sozialwissenschaften, [email protected] Herstellung: Anna Grosser Coverentwurf: Kochan & Partner, München Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 978-3-486-58774-6

Vorwort zur elften Auflage Für diese Auflage wurde der Text gründlich überarbeitet, aktualisiert und gänzlich neu gestaltet. Um den Erfordernissen, die sich durch die Umstrukturierungen der Studiengänge an den deutschen Universitäten ergaben, gerecht zu werden, wurden Aspekte der Wirtschaftsstatistik aufgenommen, speziell zu Konzentrationsmessung, Indexzahlen und Zeitreihenanalyse. Zu den Erweiterungen zählt auch ein Abschnitt zur multiplen Regression; damit ist nun auch dieses relevante Gebiet in adäquater Breite dargestellt. Weiter wurden Ergebnisse eingearbeitet, die im Rahmen des Projektes ,Neue Statistik' erzielt wurden. In diesem vom Bundesministerium für Forschung und Wissenschaft geförderten Projekt wurde eine Multimedia-Umsetzung eines Grundkurses der Statistik erstellt. In dem Projekt wurde auch das Statistik-Labor, eine grafische Benutzeroberfläche für das Statistik-Programm R, entwickelt. Das Statistik-Labor erlaubt dem Anfänger und Nicht-Experten einen recht leichten Zugang zu statistischen Berechnungen. Es kann kostenfrei (wie auch die Open Source Software R) aus dem Internet heruntergeladen werden; die Adresse ist www.statistiklabor.de. Zum Einstieg wird dort ein Online-Tutorial angeboten. In dem vorliegenden Text wird allerdings auf direkte Bezüge zum Statistik-Labor bzw. zu R oder einem anderen Softwareprodukt verzichtet. Der Entwicklung der Möglichkeiten für statistische Auswertungen wird in der Weise Rechnung getragen, dass auf einige früher angegebene Hilfslösungen in dieser Auflage verzichtet wird. Approximationen von Verteilungen sind etwa bei der verbreiteten Verfügbarkeit von Statistik-Software für einen Einführungstext kein relevantes Thema mehr. Zudem werden die Daten, vielfach in der eigentlichen, umfangreicheren Form, über das Internet zur Verfügung gestellt. Die Web-Adresse ist „http://www.oldenbourg-wissenschaftsverlag.de"; dort geben Sie „Schlittgen" in das Suchfeld ein. Mit den Daten können die Beispiele nachvollzogen und viele Aufgaben unter Rechnereinsatz bearbeitet werden. Die Aufnahme der wirtschaftsstatistischen Gebiete und die aus der eigenen Lehre resultierenden Erfordernisse des Arbeitens mit dem Statistik-Labor haben die Umstrukturierung des Textes in die eher übliche Gliederung - deskriptive Statistik, Wahrscheinlichkeitsrechnung und schließende Statistik - mit sich gebracht. Bei der Umstrukturierung wurde jedoch darauf geachtet, dass die ursprüngliche Intention erhalten blieb und die an der Analyse von Daten orientierte Auffassung von angewandter Statistik weiterhin das Charakteristikum dieser Einführung bildet. Wie es schon in der ersten Auflage hieß, sind die einzelnen Teile modular geschrieben; somit lässt sich der Text ohne Probleme auch in der Anordnung der alten Auflagen durcharbeiten oder lehren. Frau Loll und Herrn Grimm danke ich für ihre Beteiligung an der Fehlersuche; selbstverständlich gehen die noch (hoffentlich wenigen) verbliebenen zu meinen Lasten. Berlin und Hamburg

Rainer Schlittgen

VI

Aus dem Vorwort zur ersten Auflage Experimentell arbeitende Wissenschaftler sammeln Daten, bereiten sie auf und analysieren sie, um so zu neuen Einsichten und Erkenntnissen zu gelangen. Sie und auch sonst alle, die aus Daten Erkenntnisse gewinnen möchten, setzen dabei statistische Methoden ein. Als Ansammlung der Methoden zur Datengewinnung, -aufbereitung, -analyse sowie der Darstellung von Daten ist die angewandte Statistik jedoch nicht vollständig erfasst. Es kommen die Fragen von der richtigen Auswahl und dem korrekten Einsatz der Methoden hinzu, Fragen, deren Antwort von den zugrunde liegenden statistischen Modellen abhängt. Neben der Analyse von Daten auf der Basis von Modellen ist auch die Anpassung von statistischen Modellen an Datensätze ein wesentlicher Bereich der angewandten Statistik. Generell ist die datenanalytische Komponente der angewandten Statistik von großer Bedeutung. Dies ist erst im letzten Jahrzehnt wieder verstärkt zu Bewusstsein gekommen, nach einer Zeit, in der das Augenmerk der Fachvertreter mehr auf die Entwicklung und Untersuchung von Methoden im Rahmen vorgegebener Modelle gerichtet war. Hier hat der amerikanische Statistiker John W. Tukey eine wichtige Rolle gespielt. Mit seinem 1977 erschienenen Buch .Exploratory Data Analysis' hat er gewissermaßen eine großangelegte Erziehungskampagne eingeleitet. Um eingefahrene Vorstellungen aufzubrechen, prägte er auch zahlreiche neue Vokabeln für unwesentlich geänderte, etablierte Konzepte. Nachdem nun die Botschaft angekommen ist, können wir auf diese Modifikationen und neuen Vokabeln wieder verzichten, ohne dass die wichtigen Aspekte der Datenanalyse verloren gingen. Das Gerüst dieser Einführung in die Statistik bilden die grundlegenden statistischen Verfahren zur Aufbereitung, Darstellung und Analyse von Daten. Die Orientierung lieferte dabei der an deutschen Hochschulen übliche Standard für die zweisemestrige Statistik-Ausbildung für Wirtschaftswissenschaftler. Aufgenommen wurden aber einige der Darstellungsweisen und Methoden der explorativen Datenanalyse. Verschiedene Methoden wurden unter dem Gesichtspunkt der neueren Erkenntnisse über die Anwendungsprobleme anders gewichtet als in den meisten der vorliegenden Einführungen in die Statistik. Abgewichen wird von der verbreiteten Gliederung .Deskriptive Statistik - Wahrscheinlichkeitsrechnung - Induktive Statistik'. Sie entspricht nicht der hier vertretenen, an der Analyse von Daten orientierten Auffassung von angewandter Statistik. Dieser Blick motiviert eine weit nach vorn gezogene, knappe Darstellung der Wahrscheinlichkeitsrechnung als Grundlage theoretischer Modelle und eine integrierte Darstellung empirischer und theoretischer Größen. Schließlich werden Methoden der Induktiven Statistik in heuristischer Form schon weit vor ihrer formalen Behandlung verwendet. Es wurde Wert darauf gelegt (und viel Mühe darauf verwandt), die Verfahren ausführlich zu begründen und den Text so zu gestalten, dass er nicht nur als Grundlage für Lehrveranstaltungen, sondern auch zum Selbststudium geeignet ist. Die beispielhaften Auswertungen zahlreicher realer Datensätze aus den verschiedenen Wissensbereichen - von der Ökonomie über die Medizin bis zur Astrophysik - sollen dazu beitragen, den Leser zu befähigen, die statistischen Methoden selbstständig anzuwenden. Auch die Aufgaben sind zum großen Teil unter diesem Gesichtspunkt ausgewählt. Rainer

Schlittgen

Inhaltsverzeichnis 1

Statistische Daten

1.1 1.1.1 1.1.2

Erhebungen Problemstellung Begriffsbildungen

1.2 1.2.1 1.2.2 1.2.3

Statistische Variablen Begriffsbildungen Klassifikationen Transformationen

1.3

Die Datenmatrix

1.4

Aufgaben

2

Darstellung univariater Datensätze

2.1 2.1.1 2.1.2 2.1.3

Häufigkeitsverteilungen diskreter Variablen Problemstellung Häufigkeiten Grafische Darstellungen

2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5

Häufigkeitsverteilungen stetiger Variablen.. Problemstellung Geordneter Datensatz Stemleaf-Diagramm Häufigkeitstabelle Das Histogramm

2.3 2.3.1 2.3.2 2.3.3

Die empirische Verteilungsfunktion Einführendes Beispiel Empirische Verteilungsfunktion Klassierte Daten

2.4 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 2.4.6

Quantile Problemstellung Bestimmung der Quantile Spezielle Quantile Quantildiagramme 5-Zahlen-Zusammenfassung Box-Plots

2.5

Aufgaben

VIII

Inhaltsverzeichnis

3

Maßzahlen für univariate Datensätze

39

3.1 3.1.1 3.1.2 3.1.3 3.1.4 3.1.5 3.1.6

Maßzahlen der Lage Erfassung des Niveaus Der Median Das arithmetische Mittel Berechnung des arithmetischen Mittels Eigenschaften des arithmetischen Mittels Weitere Maßzahlen der Lage

39 39 40 41 42 44 48

3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5

Streuungsmaße Problemstellung Durchschnittliche Abweichung und Standardabweichung Varianz Weitere Streuungsmaßzahlen Stabilisierung der Streuung

50 50 51 54 57 58

3.3 3.3.1 3.3.2 3.3.3

Schiefe empirischer Verteilungen Einführendes Beispiel Maßzahlen der Schiefe Transformation zur Symmetrisierung

61 61 62 65

3.4 3.4.1 3.4.2 3.4.3

Konzentrationsmessung Problemstellung Maße der absoluten Konzentration Relative Konzentration

70 70 70 73

3.5

Aufgaben

77

4

Multivariate Datensätze

81

4.1 4.1.1 4.1.2 4.1.3 4.1.4

Darstellung multivariater diskreter Datensätze Problemstellung Bivariate Kontingenztabellen Bedingte relative Häufigkeiten Mehrdimensionale Kontingenztabellen

81 81 82 83 84

4.2 4.2.1 4.2.2 4.2.3

Darstellung bivariater stetiger Datensätze Streudiagramm Konvexe Hüllen Grafische Darstellung der bivariaten Häufigkeitsverteilung

85 85 86 87

4.3

Mehrdimensionale Daten

88

4.4 4.4.1 4.4.2 4.4.3 4.4.4 4.4.5

Maßzahlen des Zusammenhangs Problemstellung Die Kovarianz Der Korrelationskoeffizient von Bravais-Pearson Der Rangkorrelationskoeffizient von Spearman Der Phi-Koeffizient

90 91 92 95 98 99

4.5

Elementare Regressionsrechnung

101

Inhaltsverzeichnis

IX

4.5.1 4.5.2 4.5.3

Problemstellung Bestimmung der Regressionsgeraden Das Bestimmtheitsmaß

102 103 106

4.6

Aufgaben

109

5

Indexzahlen und Zeitreihenanalyse

113

5.1 5.1.1 5.1.2 5.1.3

Indexzahlen Messziffern Indizes Rechnen mit Indizes

113 114 116 120

5.2 5.2.1 5.2.2

Elementare Zeitreihenanalyse Trendbestimmung Saisonbereinigung

122 123 127

5.3

Aufgaben

130

6

Grundlagen der Wahrscheinlichkeitsrechnung

133

6.1 6.1.1 6.1.2

Zufallsexperimente und Ereignisse Zufallsexperimente Ereignisse

133 133 135

6.2 6.2.1 6.2.2

Wahrscheinlichkeiten Chancen von Ereignissen Häufigkeiten von Ereignissen

139 139 140

6.3 6.3.1 6.3.2 6.3.3

Statistische Wahrscheinlichkeit Axiome von Kolmogorov Das Gleichmöglichkeitsmodell Zufallsauswahlen aus endlichen Grundgesamtheiten

141 143 145 147

6.4 6.4.1 6.4.2

Bedingte Wahrscheinlichkeit und Unabhängigkeit Bedingte Wahrscheinlichkeit Unabhängigkeit

151 151 155

6.5 6.5.1 6.5.2 6.5.3

Zufallsvariablen Einführendes Beispiel Zufallsvariablen und Wahrscheinlichkeitsverteilungen Verteilungsfunktion

157 158 158 160

6.6

Aufgaben

162

7

Diskrete Verteilungen

165

7.1 7.1.1 7.1.2 7.1.3

Diskrete Zufallsvariablen Wahrscheinlichkeitsfunktion Bestimmung eines Verteilungsmodells Verteilungsfunktion

165 165 166 168

7.2

Maßzahlen diskreter Verteilungen

170

X

Inhaltsverzeichnis

7.2.1 7.2.2

Erwartungswert diskreter Zufallsvariablen Varianz diskreter Zufallsvariablen

170 173

7.3 7.3.1

Multivariate diskrete Zufallsvariablen Kovarianz und Korrelation

176 179

7.4

Aufgaben

181

8

Diskrete Verteilungsmodelle

185

8.1

Die hypergeometrische Verteilung

186

8.2 8.2.1 8.2.2 8.2.3 8.2.4 8.2.5

Die Binomialverteilung Einführendes Beispiel Herleitung der Verteilung Eigenschaften Anpassung an empirische Verteilungen Die Multinomialverteilung

188 188 189 191 193 193

8.3 8.3.1 8.3.2 8.3.3

Die Poisson-Verteilung Problemstellung Ableitung und Eigenschaften Anpassung an empirische Verteilungen

194 194 195 196

8.4 8.4.1 8.4.2

Die geometrische Verteilung Einführendes Beispiel Ableitung und Eigenschaften

198 198 198

8.5 8.5.1 8.5.2

Die negative Binomialverteilung Ableitung und Eigenschaften Anpassung an empirische Verteilungen

200 200 202

8.6 8.6.1 8.6.2

Zur Auswahl eines diskreten Verteilungsmodells Einführendes Beispiel Das Auswahldiagramm

203 203 204

8.7

Aufgaben

207

9

Stetige Verteilungen

211

9.1 9.1.1 9.1.2 9.1.3 9.1.4

Grundlagen Einführendes Beispiel Stetige Verteilungsfunktionen Dichtefunktion Theoretische Quantile

211 211 212 213 216

9.2 9.2.1 9.2.2 9.2.3

Maßzahlen stetiger Verteilungen Maßzahlen der Lage Die Varianz Schiefe

221 221 223 224

9.3

Multivariate stetige Verteilungen

227

Inhaltsverzeichnis

XI

9.4

Aufgaben

230

10

Stetige Verteilungsmodelle

233

10.1

Stetige Gleichverteilung

233

10.2 10.2.1

Die Pareto-Verteilung Anpassung an empirische Verteilungen

235 235

10.3 10.3.1 10.3.2

Die Exponentialverteilung Ableitung und Eigenschaften Anpassung an empirische Verteilungen

238 238 240

10.4

Die Laplace-Verteilung

242

10.5

Die Gammaverteilung

244

10.6

Aufgaben

247

11

Die Normalverteilung

249

11.1 11.1.1 11.1.2 11.1.3 11.1.4

Grundlagen Problemstellung Definition und Bedeutung der Parameter Eigenschaften Anpassung an empirische Verteilungen

249 249 250 251 254

11.2 11.2.1 11.2.2 11.2.3 11.2.4

Approximation von Verteilungen Problemstellung Der zentrale Grenzwertsatz Approximation der Binomialverteilung Approximation der Poisson-Verteilung

258 258 258 260 262

11.3 11.3.1 11.3.2 11.3.3

Die logarithmische Normalverteilung Problemstellung Definition und Eigenschaften Anpassung an empirische Verteilungen

263 263 264 265

11.4 11.4.1 11.4.2 11.4.3

Die bivariate Normalverteilung Problemstellung Ableitung und Eigenschaften Anpassung an empirische Verteilungen

266 266 267 269

11.5

Aufgaben

271

12

Stichprobenfunktionen

275

12.1 12.1.1 12.1.2

Grundlagen Einführendes Beispiel Begriffsfestlegung

275 275 276

12.2 12.2.1

Spezielle Stichprobenfunktionen Das arithmetische Mittel

278 278

XII

Inhaltsverzeichnis

12.2.2 12.2.3 12.2.4

Die relative Häufigkeit Die empirische Verteilungsfunktion Monte-Carlo-Simulation

280 282 282

12.3

Aufgaben

284

13

Schätzen von Parametern

285

13.1 13.1.1 13.1.2 13.1.3 13.1.4 13.1.5 13.1.6 13.1.7

Schätzfunktionen und ihre Eigenschaften Problemstellung Schätzfunktionen Mittlerer quadratischer Fehler Erwartungstreue Konsistenz Robustheit Standardfehler

285 285 286 287 290 293 294 296

13.2 13.2.1 13.2.2 13.2.3 13.2.4

Schätzmethoden Problemstellung Momentenmethode Maximum-Likelihood-Methode Bestimmung des Maximums von L{6)

299 299 299 300 304

13.3

Aufgaben

307

14

Konfidenzintervalle

311

14.1

Problemstellung

311

14.2

Allgemeine Definition eines Konfidenzintervalles

312

14.3 14.3.1 14.3.2 14.3.3

Konfidenzintervalle für Maßzahlen der Lage Konfidenzintervall für μ bei Normalverteilung mit unbekanntem σ2 Approximative Konfidenzintervalle für den Erwartungswert Konfidenzintervall für den Median

316 316 318 321

14.4 14.4.1 14.4.2

Konfidenzintervalle für Maßzahlen der Streuung Konfidenzintervall für σ2 bei Normalverteilung Konfidenzintervalle für zwei Quartile

323 324 326

14.5 14.5.1 14.5.2 14.5.3 14.5.4

Konfidenzintervalle für Wahrscheinlichkeiten und Anteile Problemstellung Approximatives Konfidenzintervall für eine Wahrscheinlichkeit Approximatives Konfidenzintervall für einen Anteil Länge der Konfidenzintervalle für ρ

328 328 328 330 331

14.6

Aufgaben

332

15

Testen von Hypothesen

335

15.1 15.1.1

Reine Signifikanztests Problemstellung

335 335

Inhaltsverzeichnis

XIII

15.1.2 15.1.3 15.1.4

Tests auf der Basis von Konfidenzintervallen Tests auf der Basis von Prüfgrößen Der P-Wert

335 336 339

15.2 15.2.1 15.2.2 15.2.3 15.2.4

Die Elemente der klassischen Testtheorie Problemstellung Formen von Hypothesen Fehlerarten Die Gütefunktion

340 340 340 342 343

15.3

Aufgaben

346

16

Spezielle Parametertests

349

16.1 16.1.1 16.1.2 16.1.3 16.1.4 16.1.5 16.1.6

Einstichprobentests Tests auf μ bei Normalverteilung Approximative Tests auf μ Test auf μ bei symmetrischen Verteilungen Test auf μ bei beliebigen stetigen Verteilungen Test auf σ2 bei Normalverteilung Test auf eine Wahrscheinlichkeit ρ

349 349 350 351 353 355 356

16.2 16.2.1 16.2.2 16.2.3 16.2.4 16.2.5

Parametervergleiche bei unabhängigen Stichproben 357 Vergleich von μχ und μ γ bei Normalverteilung; σ2χ und σ\ bekannt 358 Vergleich von μχ und μγ; σ\ und σ\ unbekannt; Stichproben groß 358 Vergleich von μχ und μ Y bei Normalverteilung; σ2χ und σ\ unbekannt; Stichproben klein 360 Vergleich von μχ und μγ 361 Vergleich zweier Wahrscheinlichkeiten 363

16.3

Aufgaben

364

17

Varianzanalyse

369

17.1 17.1.1 17.1.2 17.1.3 17.1.4 17.1.5 17.1.6

Einfache Varianzanalyse Einführendes Beispiel Das Modell Der Test bei Normalverteilung Multiple Vergleiche bei Normalverteilung Ungleiche Streuungen Nicht-normalverteilte Variablen

369 369 370 371 374 375 377

17.2 17.2.1 17.2.2 17.2.3 17.2.4 17.2.5

Zweifache Varianzanalyse Einführendes Beispiel Modell mit Wechselwirkungen Tests bei Normalverteilung Ungleiche Varianzen Nicht-normalverteilte Störungen

379 379 380 381 384 386

17.3

Aufgaben

389

Inhaltsverzeichnis

XIV 18

Anpassungs-und Unabhängigkeitstests

393

18.1 18.1.1 18.1.2 18.1.3

393 393 394

18.1.4 18.1.5 18.1.6

Anpassungstests Problemstellung Der Chi-Quadrat-Anpassungstest für vollständig spezifizierte Verteilungen... Der Chi-Quadrat-Anpassungstest für Verteilungen mit unbekannten Parametern DasChigramm Der Kolmogorov-Smirnov-Test Anpassungstests vom Korrelationstyp

18.2 18.2.1 18.2.2 18.2.3

Unabhängigkeitstests Problemstellung Der Chi-Quadrat-Test Tests auf Korrelation

407 407 409 412

18.3

Aufgaben

414

19

Das Regressionsmodell

417

19.1 19.1.1 19.1.2

Das einfache lineare Regressionsmodell Einführende Beispiele Entwicklung des Modells

417 418 420

19.2 19.2.1 19.2.2 19.2.3 19.2.4 19.2.5 19.2.6 19.2.7

Schätzen und Testen im einfachen linearen Regressionsmodell Problemstellung D ie Kleinst- Quadrate - Schätzfunktio η Eigenschaften der KQ-Schätzer Das Regressionsmodell mit normalverteilten Fehlern Konfidenzintervalle und Tests für die Regressionskoeffizienten Konfidenzintervalle und Konfidenzband für die Regressionsgerade Prognoseintervalle

421 421 422 423 425 427 429 431

19.3 19.3.1 19.3.2 19.3.3 19.3.4

Residuenanalyse Systematische Änderung des Mittels Inhomogenität der Varianz Ausreißer Verletzung der Normalverteilungsannahme

431 432 433 434 437

19.4 19.4.1 19.4.2

Linearisieren eines Zusammenhanges Problemstellung Transformationen

439 439 440

19.5 19.5.1 19.5.2 19.5.3 19.5.4 19.5.5 19.5.6 19.5.7

Das multiple lineare Regressionsmodell Problemstellung Das Modell und seine Schätzung Koeffizientenschätzer bei zwei erklärenden Variablen Interpretation der Koeffizienten Testen der Koeffizienten Beurteilung der multiplen Regression Überprüfung der Modellannahmen

442 443 443 444 446 447 448 449

396 399 401 405

Inhaltsverzeichnis

XV

19.5.8

Multikollinearität

451

19.6

Aufgaben

453

Lösungen zu den Aufgaben mit ungeraden Nummern

457

Tabellen

489

Literatur

515

Index

521

1

Statistische Daten

Wir beschäftigen uns in diesem Buch mit verschiedenen Ansätzen zur Aufbereitung und Auswertung von statistischen Daten. Auf die vielfältigen praktischen Fragen der Datengewinnung gehen wir dabei nicht ein. In einem kurzen Abschnitt über die Erhebungsarten sollen lediglich einige Begriffe bereitgestellt werden, welche für das Weitere relevant sind. Daten sind auf geeignete Weise ermittelte Zahlen. Diesen ist an sich nicht anzusehen, was sie bedeuten. Mit dem Konzept der statistischen Variablen können Daten aber einfach mit ihrem Inhalt verbunden werden. Auch die Frage, welche Zahlenmanipulationen sinnvoll sind, können wir mittels der Variablen untersuchen.

1.1

Erhebungen

1.1.1

Problemstellung

Die Löhne und Gehälter der Arbeitnehmer in der Bundesrepublik Deutschland werden durch zahlreiche Einflussfaktoren bestimmt. Sie weisen dementsprechend mehr oder weniger starke Schwankungen auf, wenn sie nach verschiedenen Gesichtspunkten, ζ. B. nach Wirtschaftszweigen und dem Alter, untergliedert werden. Die Kenntnis dieser Gehalts- und Lohnstruktur ist für verschiedene Gruppen der Gesellschaft von Interesse. Dabei führen die unterschiedlichen Interessen auch zu bestimmten Wertungen einer Lohn- und Gehaltsstruktur. Zum Beispiel werden bei der Interpretation durch Gewerkschaften in starkem Maße soziale Gesichtspunkte einfließen, während die Unternehmer den Lohn als Preis für die Ware Arbeitskraft, als Kostenfaktor, unter Optimalitätsgesichtspunkten, als Motor für die Mobilität der Arbeiter usw. ansehen und unter diesen Gesichtspunkten auch die Lohnstruktur diskutieren werden. Angaben für einzelne Arbeitnehmer werden in der Verdienststrukturerhebung erfasst. Sie wird als Sondererhebung in vierjähriger Periodizität durchgeführt. Erfasst werden Einzelangaben der Beschäftigten sowie Verdienste und die wichtigsten den Verdienst beeinflussenden Merkmale, wie ζ. B. Alter, Ausbildungsstand, Unternehmensgröße und Zugehörigkeit. Damit ergibt sich die Möglichkeit, deren Einfluss auf das Verdienstniveau abzuschätzen. Diese Erhebung umfasst die Merkmale einer in allen Mitgliedstaaten der Europäischen Union durchzuführenden Verdienststrukturerhebung; für ihre Hauptergebnisse stehen daher Vergleichswerte für die gesamte Europäische Union zur Verfügung.

1.1.2

Begriffsbildungen

Wie bei der Verdienststrukturerhebung richtet sich das Augenmerk der statistisch Arbeitenden darauf, Strukturen und Gesetzmäßigkeiten in Datensätzen zu finden und zu beschreiben, kurz, sie statistisch zu analysieren. Datensätze sind Ansammlungen gleicharti-

2

1 Statistische Daten

ger Daten, den in Zahlenform festgehaltenen Ergebnissen von Befragungen, Beobachtungen oder Experimenten. Die Verdienststrukturerhebung ist ein Beispiel für eine Befragung. Um gleichartige Daten zu erhalten, die sinnvoll statistisch analysiert werden können, müssen die Randbedingungen sowie die einzelnen Schritte der Befragung bekannt sein und unter Kontrolle stehen.

Verdienststrukturerhebung 2006 Arbeitnehmerbogen

wiTiTaj^'iii ΊΤ"

Abb. 1.1: Arbeitnehmerbogen

" Γ" ii"| Γ |* ιΤ '^j^^ß | ^

für die Verdienststrukturerhebung

""ff ".Ijf^

^üf.!' .^ΐΊ!!!"'.

2006

Das erste wichtige Moment der Befragung ist die Festlegung der Grundgesamtheit oder Population. Die Grundgesamtheit besteht aus allen Untersuchungseinheiten, die prinzipiell befragt werden könnten. Bei der Verdienststrukturerhebung ζ. B. besteht die Grundgesamtheit aus allen Arbeitnehmern in der Industrie, im Groß- und Einzelhandel sowie im Bankund Versicherungsgewerbe. Zur genaueren Bestimmung der Grundgesamtheit sind noch die Zeit festzulegen, an dem die Arbeitnehmer beschäftigt sein sollten, und eine geographische Abgrenzung vorzunehmen. Die Verdienststrukturerhebung 2006 erfasste alle Arbeitnehmer, die Anfang 2007 eine Beschäftigung in einem der genannten Bereiche hatten, sofern die Betriebe in der Bundesrepublik lagen. Werden von allen Untersuchungseinheiten dieser Grundgesamtheit die gewünschten Angaben festgestellt, so handelt es sich um eine Totalerhebung. Bei einer Teilerhebung oder Stichprobe beschränkt man sich dagegen auf die Erhebung der Angaben eines Teils der Grundgesamtheit. Die in die Stichprobe gelangenden Untersuchungseinheiten werden dann als Erhebungseinheiten bezeichnet. Die Größe der

3

1.2 Statistische Variablen Stichprobe wird durch den Auswahlsatz bestimmt: Auswahlsatz =

Umfang der Stichprobe Umfang der Grundgesamtheit

100.

Ein nicht zu kleiner Auswahlsatz ist eine Maßnahme, um die Repräsentativität der Stichprobe zu sichern. Damit ist gemeint, dass die Stichprobe ein verkleinertes, aber sonst getreues Abbild der Grundgesamtheit darstellt. Das ist eine zentrale Forderung, die von weiteren wichtigen Faktoren abhängt. Wir gehen an späterer Stelle weiter darauf ein. Ausführlich wird das Problem der Repräsentativität von Kruskal & Mosteller (1979) behandelt. Die Beobachtung dient zur Datengewinnung bei Festhalten von zeitlichen Vorgängen sowie bei Erfassen von Sachverhalten, die nicht gesteuert werden. Darunter wollen wir ζ. B. die Beobachtung des Wohnungsmarktes anhand der Zeitungsannoncen am Wochenende verstehen. Ein anderes Beispiel ist die Zählung der halbstündlich durch einen Straßenabschnitt fahrenden Kraftfahrzeuge. Auf Befragung und Beobachtung wird in Roth (1984) unter sozialwissenschaftlichen Gesichtspunkten ausführlich eingegangen. Die klassische, in den Naturwissenschaften entwickelte Methode zur Gewinnung von Erkenntnissen ist das Experiment. Wir werden hier nur insoweit Experimente betrachten, als es um die Gewinnung von Datensätzen geht. Dazu werden die Experimente jeweils mehrmals unter gleichen Bedingungen durchgeführt. Ziel ist es dann wieder, aus den Daten geeignete Gesetzmäßigkeiten herauszufinden bzw. vorab formulierte Hypothesen zu untersuchen. Beispiel 1.1

Sandskorpione

Durch eine zufällige Beobachtung kam P. H. Brownell zu der Vermutung, dass der in der Mojave-Wüste beheimatete, nur nachts aktive Sandskorpion seine Beute mit den Beinen ortet. (Vgl: Spektrum der Wissenschaft 2/85.) Um diese Vermutung zu untersuchen, führte er einige Experimente durch. Zuerst wurde die Wahrnehmung optischer und akustischer Signale ausgeschlossen. Dann wurde in eine Holzkiste Sand gefüllt. Die Holzkiste war so konstruiert, dass in der Mitte ein Spalt zwei Hälften voneinander trennte. Die Erschütterung des Sandes störte den Skorpion nicht, wenn er sich in der anderen Hälfte aufhielt. Auf Erschütterung in seiner Hälfte reagierte er wohl. Zudem ermittelte Bornwell durch wiederholte Störungen des Skorpions, dass dieser recht genau die Richtung orten konnte, in der die Erschütterung stattfand. Als Versuchsergebnisse wurden dabei jeweils die Richtungen des Ziels (in Grad) und der Reaktionswinkel (in Grad) festgehalten. Diese ergaben zusammen einen Datensatz, der dann statistisch ausgewertet wurde. Das Resultat der Auswertung bestätigte die Ausgangsvermutung.

1.2

Statistische Variablen

1.2.1

Begriffsbildungen

Bei einer Befragung werden den Untersuchungseinheiten formal gesehen jeweils Zahlenwerte zugeordnet. Die beobachteten Werte bilden dann die Basis für die weitere statistische Tätigkeit.

4

1 Statistische Daten

Definition 1.2

Statistische

Variable

Eine statistische Variable X ist eine Zuordnung, die jedem Element einer Grundgesamtheit Ε genau einen Zahlenwert zuordnet. Formal ist eine Variable X eine Abbildung von Ε in die Menge Μ der reellen Zahlen: X:E—>R,

e^X(e).

Die Menge {X(e)\e e Ε} heißt der Wertebereich von X. Statistische Variablen werden auch kurz als Variablen bezeichnet. Die Werte, die vor einer konkreten Beobachtung einer Variablen X sinnvoll als mögliche Ergebnisse infrage kommen, sind die Realisationsmöglichkeiten. Die Menge der Realisationsmöglichkeiten umfasst also stets den Wertebereich. Die Verbindung zwischen der inhaltlichen Bedeutung der Daten und ihrer nackten Zahlengestalt wird nun durch die Interpretation der Daten als Realisationen einer statistischen Variablen X, als beobachtete Werte von X, hergestellt. Bisweilen werden in der statistischen Literatur nicht-numerische Zuordnungen betrachtet. Man spricht dann von Merkmalen - ζ. B. dem Merkmal .Geschlecht' - und von Merkmalsausprägungen - ζ. B. den Ausprägungen ,männlich', .weiblich' des Merkmals Geschlecht. Merkmale können als allgemeinere Abbildungen aufgefasst werden; der Bildraum muss nicht aus reellen Zahlen bestehen. Da nicht-numerische Ergebnisse aber stets durch Zahlen repräsentiert werden können, werden wir Merkmale nicht weiter betrachten. Beispiel 1.3

Verdienststrukturerhebung

- Fortsetzung

Bei der Verdienststrukturerhebung werden mittels des Fragebogens für Arbeiter u. a. die folgenden Variablen erfasst: Variable Χι = Geschlecht X2 = Tarifliche Lohngruppe X3 =mtl. Bruttoverdienst

Realisationsmöglichkeiten 1,2 1,2,3 0,1,2,3,...,1000,...

Während bei den Variablen Χι = .Geschlecht' und X2 = .tarifliche Lohngruppe' die Wertebereiche mit {1,2} bzw. {1,2,3} einfach angebbar sind, ist dies bei X3 = ,mtl. Bruttoverdienst' nicht so leicht. Sicher gibt es zwei Grenzen α und b, so dass für alle Untersuchungseinheiten e gilt: a < X3{e) < b. Aber zum einen sind die Grenzen nicht bekannt. Zum zweiten braucht auch nicht jede ganze Zahl zwischen α und b tatsächlich ein möglicher Wert von X3 zu sein. Daher ist es einfacher, Realisationsmöglichkeiten in einer Form anzugeben, die sicherstellt, dass der Wertebereich eingeschlossen wird. Bei Beobachtungen und Experimenten können zwar i. d. R. interessierende statistische Variablen mit ihren Realisationsmöglichkeiten leicht angegeben werden, aber zugehörige Grundgesamtheiten sind oft nur schwer spezifizierbar. Im Beispiel 1.1 zielt das Experiment auf die Erforschung der Orientierung eines Skorpions über seine Tastsinne: An einem Skorpion wurden hier mehrmals Messungen vorgenommen. Erschütterungen in derselben Richtung ergaben nicht exakt dieselben Reaktionswinkel. Als Ergebnisse des Experimentes können wir die möglichen physischen Stellungen des Skorpions ansehen. Dann liegt es nahe,

1.2 Statistische Variablen

5

die Menge der möglichen Ergebnisse mit der Grundgesamtheit zu identifizieren. Von Bedeutung ist aber nur der Wert der Variablen .Ausrichtung in Grad'. Daher reicht es, von den Werten dieser Variablen auszugehen. Generell verzichten wir auf die explizite Festlegung einer Grundgesamtheit und betrachten diese eher als Modellvorstellung, wenn es wie bei dem Skorpion-Beispiel um die Struktur der Daten geht und Interpretationen ohne Rückgriff auf die Grundgesamtheit möglich sind. Resümieren wir die bisherigen Ausführungen, so können wir insbesondere festhalten, dass die Datengewinnung sich für unsere Zwecke reduziert auf die wiederholte Beobachtung statistischer Variablen. Auf die umfangreichen praktischen Probleme der Datengewinnung wird in Roth (1984) eingegangen sowie ζ. B. bei Krug & Nourney (1982), und unter anderen Gesichtspunkten etwa bei Linder (1969).

1.2.2

Klassifikationen

Statistische Variablen werden nach unterschiedlichen Gesichtspunkten eingeteilt. Für verschiedenartige Variablen sind jeweils unterschiedliche Aufbereitungs- und Auswertungsmethoden sinnvoll. Eine Klassifikationsmöglichkeit von statistischen Variablen ist die Unterteilung in diskrete und stetige (kontinuierliche) Variablen. Als diskrete Variablen bezeichnen wir solche, bei denen nur endlich viele oder höchstens abzählbar unendlich viele unterschiedliche Werte möglich sind. Die Realisationsmöglichkeiten diskreter Variablen sind also isolierte Zahlenwerte. In der Verdienststrukturerhebung wurden nur diskrete Variablen betrachtet. Während das Geschlecht nur zwei Realisationsmöglichkeiten besitzt, haben wir im letzten Beispiel für den Bruttoverdienst alle ganzen Zahlen 0 , 1 , 2 , . . . als Realisationsmöglichkeiten zugelassen. Stetige Variablen sind dadurch gekennzeichnet, dass alle Werte eines Intervalls als Realisationen denkbar sind. Dabei können die Intervallenden auch unendlich sein. Stetige Variablen erhält man i. d. R. bei Messungen. Bei der Untersuchung der Orientierung des Sandskorpions ist eine interessierende Variable die Differenz von Reaktionswinkel und dem Winkel, in dem die Störung verursacht wird. Werden die Winkel in Grad gemessen, so kann die Differenz theoretisch jeden Wert zwischen -180° und 180° annehmen. Als Menge der Realisationsmöglichkeiten ist das Intervall [-180, +180] zu wählen. In der Praxis ist die Unterscheidung von diskreten und stetigen Variablen vielfach willkürlich. So ist die Körpergröße einer Person sicherlich eine stetige Variable. Sie kann aber infolge der begrenzten Messgenauigkeit nur in diskreten Sprüngen erfasst werden. Andererseits ist das Einkommen diskret. Es kann sich nur in Centsprüngen ändern. Derartige feinabgestufte diskrete Variablen lassen sich aber bei der statistischen Auswertung genauso behandeln wie stetige. Eine andere Unterscheidung von statistischen Variablen geht von den inhaltlich sinnvollen Relationen zwischen den Realisationsmöglichkeiten aus. Diese Unterteilung wird auch als Einteilung nach dem Skalenniveau der Variablen bezeichnet. Die Berücksichtigung des Skalenniveaus einer statistischen Variablen zielt auf die Sinnhaftigkeit von Datenmanipulationen. Die Zahlengestalt der Daten mag dazu verleiten, die üblichen mathematischen Operationen wie Addition, Multiplikation u. a. m. auf sie anzusetzen. Dies ist aber nicht immer sinnvoll. Je höherwertig jedoch das Niveau, desto mehr ,kann mit den Daten gerechnet werden'.

6

1 Statistische Daten

Wir gehen vom niedrigsten Skalenniveau aus und betrachten die weiteren Niveaus in aufsteigender Rangfolge. Geschieht durch die Zuordnung von Werten lediglich eine Klassifikation der Untersuchungseinheiten, sprechen wir von einer nominal skalierten Variablen. Hier sind die Werte der Variablen X lediglich .Nummern', die den Untersuchungseinheiten zugeordnet sind. Reihenfolge und Abstand haben keine inhaltliche Bedeutung. Nur die Alternative X(e B ) = X(e„) bzw. X ( e B ) / X ( e „ ) für eu,eve

Ε ist interpretierbar.

Von den in der Verdienststrukturerhebung berücksichtigten Variablen sind ζ. B. das Geschlecht und der kodierte Beruf nominal skaliert. Weder lässt sich ein Abstand zwischen den Berufen, etwa 2 (= Bäcker) und 10 (= Maler), interpretieren, noch ist es möglich, für Berufe eine eindeutige Rangfolge anzugeben. Lässt sich die Anordnung der Werte einer Variablen X sinnvoll interpretieren, so liegt eine Ordinalskala vor. Formal formuliert ist also für eu, ev e Ε jeweils einer der Ausdrücke X(eu) = X(ev),

X{eu)X(ev)

richtig und bedeutsam. Die .tarifliche Lohngruppe' (mit 1 = Facharbeiter, 2 = angelernter Arbeiter und 3 = ungelernter Arbeiter) ist eine ordinalskalierte statistische Variable. Häufig angeführte ordinalskalierte Variablen sind Schulzensuren. Die Reihenfolge ist bekanntermaßen sinnvoll. Der Abstand von einer Zwei zu einer Vier kann aber nicht als doppelt so groß wie der von einer Zwei zu einer Drei angesehen werden. Ist nicht nur die Reihenfolge der Werte einer Variablen X sinnvoll interpretierbar, sondern auch der Abstand, so ist die Variable metrisch skaliert. Formal formuliert ist also für je zwei eu,ev&E eine der Aussagen X{e - u) = X(ev),X(eu) richtig und

< X(ev) bzw. X{eu)>

X(ev)

\X{eu)-X{ev)\ = a

hat einen inhaltlichen Sinn. Bisweilen werden die metrischen Skalen noch weiter in Intervall- und Ratioskalen unterteilt. Ratioskalen zeichnen sich dabei gegenüber Intervallskalen dadurch aus, dass auch aus Realisationen gebildete Verhältnisse sinnvoll sind. Insbesondere besitzen Ratioskalen auch einen absoluten Nullpunkt. Von den statistischen Variablen der Verdienststrukturerhebung sind u. a. die bezahlten Stunden und der Bruttoverdienst metrisch skaliert. Sie sind sogar ratio-skaliert, da sie beide einen absoluten Nullpunkt haben: Null Stunden im Betrieb gearbeitet, nichts verdient. Auch die Anzahl der pro halbe Stunde durch einen Straßenabschnitt fahrenden Kraftfahrzeuge ist metrisch und sogar ratioskaliert. Die Temperatur in einem ausgewählten Raum (in °C) ist dagegen nur intervall-skaliert. Diese Temperaturskala hat zwar einen Nullpunkt, aber keinen absoluten. Erst die Temperaturmessung in "Kelvin hat einen solchen.

7

1.2 Statistische Variablen

1.2.3

Transformationen

Für die Interpretation sowie für die Darstellung und die Analyse der Werte einer Variablen ist es bisweilen vorteilhaft, die Variable zu transformieren. Betrachten wir ein Darstellungsproblem: Von der nordrhein-westfälischen Landesanstalt für Immissionsschutz wird im Ballungsgebiet Rhein-Ruhr die Luftqualität systematisch kontrolliert. Der Staubniederschlag (in g/m 2 ) ist eine der Komponenten, die für Einheitsflächen von 1 km 2 gemessen werden. Um nun die regionale Verteilung der Staubbelastung kartographisch darstellen zu können, werden die Werte in eine der vier Belastungsstufen transformiert. So ist eine Darstellung mittels unterschiedlicher Einfärbung der Planquadrate möglich. Auf die Notwendigkeit von Transformationen zur Analyse von Daten werden wir noch an verschiedenen Stellen zu sprechen kommen. Hier betrachten wir ein Beispiel, das den Transformationsvorgang verdeutlichen soll. Beispiel 1.4

Umrechnung von Preisen

Eine einfache Transformation wird von vielen Urlaubern in jedem Sommer praktiziert. Es ist die Umrechnung der Preise von einer Währung in eine andere. Stellen wir uns einen bundesdeutschen Türkeiurlauber am 28. Januar des Jahres 2008 bei einem Gang in einem Supermarkt vor. Jede Ware ist in türkischen Neuen Lira ausgepreist. Der Urlauber muss aber die Preise in Euro umrechnen. Dies geschieht, indem er den Lira-Preis χ mit einem Faktor, hier mit 0.577, multipliziert. Der Preis in Euro ist dann: y = 0.577 · χ. Wir können uns vorstellen, dass der Preis den Waren unmittelbar in Euro zugeordnet wird. Damit haben wir eine neue statistische Variable Y, die den Waren den Preis in Euro zuordnet. Die Zusammenhänge sind in der folgenden Abbildung dargestellt. Dabei sind Ε die Menge der im Supermarkt vorhandenen Waren, X{e) der Preis der Ware e in türkischen Neuen Lira. Die Umrechnung in Euro entspricht der Abbildung Τ: R—>R,

x>—»r(x) = 0.577-x.

Damit erhalten wir die neue Variable Y:E—>R

Definition 1.5

e — • 7 ( e ) = Γ(Χ(